더 많은 요소가 존재할 때 항상 추출하는 것이 더 낫습니까?


11

주성분 분석과 달리 요인 분석 모델에 대한 솔루션이 반드시 내포 된 것은 아닙니다. 즉, 첫 번째 요소 만 추출 될 때와 첫 두 요소가 추출 될 때 첫 번째 요소의로드 (예 :)가 반드시 동일하지는 않습니다.

이를 염두에두고, 상관 관계가 높고 (내용에 대한 이론적 지식으로) 단일 요인에 의해 구동되어야하는 매니페스트 변수 세트가있는 경우를 고려하십시오. 탐색 적 요소 분석 (병렬 분석, scree plot, 고유 값> 1 등)에 따라 가지 요인, 즉 1 차 요인과 2 차 요인 이 있음을 강력하게 제안한다고 상상해보십시오 . 매니페스트 변수와 요인 솔루션을 사용하여 첫 번째 요인에 대한 참가자의 값을 추정 (즉, 요인 점수 획득)하는 데 관심이 있습니다. 이 시나리오에서는 다음을 수행하는 것이 좋습니다.2

  1. 요인 모형을 적합하여 요인 만 추출 하고 요인 점수 등을 얻거나1
  2. 요인 모델을 적합하여 요인을 모두 추출 하고 요인에 대한 요인 점수를 얻지 만 두 번째 요인에 대한 점수를 버리거나 무시합니까?

어느 쪽이 더 나은 습관이 될까요? 이 문제에 대한 연구가 있습니까?


추출 할 요소 수를 선택할 때 사전 분석 휴리스틱 장치에만 의존해서는 안됩니다. 상관 관계의 재현 (1 대신 2 개의 요소를 추출 할 때 훨씬 더 나은가?) 상관 잔차는이 솔루션과 해당 솔루션에 어떻게 분포되어 있습니까? (일반적으로 길고 뚱뚱한 오른쪽 꼬리가 없어야한다). 데이터가 정상인 경우 적합도 및 하중에 대한 st. 오차를 계산할 수 있습니다 (ML 추출 사용). 이러한 모든 해석 및 해석 가능성을 기반으로 현재의 경우 (1) 또는 (2) 방식 중 어느 것이 더 나은지 결정할 수 있습니다.
ttnphns

궁극적으로 새로운 샘플 / 확인 FA만이 딜레마를 끝까지 판단 할 수 있습니다. 그러나 하나의 개념. 경우 2 인자는 정말 약함 (작은 SS 하중 추출 후)입니다 그때 나는 두 솔루션 (및 요소 (1) 따라서 요소 점수)이 큰 차이를 기대하지 않는다. (내가 점검없이 논평하고 있기 때문에 많은 확신없이 말하고있다. 그러나, 논리적으로, 요인 평면이 라인으로 퇴화 할 준비가되면 결과는 거의 라인과 거의 같아야한다 ...)
ttnphns

Q 제목 Is is always better to extract more factors when they exist?이 명확하지 않습니다. 존재하는만큼 추출하는 것이 좋습니다. 다변량 및 중첩되지 않은 분석 특성으로 인해 "진정한"잠재 구조가 왜곡되어 과적 합되거나 과적 합됩니다. 문제는 데이터에 얼마나 많은 요소가 있는지 정확히 알지 못한다는 것입니다. 그리고 이러한 데이터가 인구 수만큼 있는지 여부
ttnphns

1
@ttnphns, 마지막 의견은 질문의 핵심에 도달한다고 생각합니다. 어떤 방법이든 실제로 2 가지 요인이 있다고 확신한다고 가정하십시오. 그 중 하나는 거의 모든 공유 분산을 설명하며 새로운 샘플의 CFA까지 포함됩니다. 2에 대한 적합은 무시할 정도로 좋지만 더 좋습니다. 이것은 문제를 강조하기 위해 가짜 및 고안된 예입니다. 근본적인 문제는 5 개 중 2 개를 사용할 수도 있습니다.
gung-Reinstate Monica

1
문제는 솔루션이 중첩되어 있지 않기 때문에 잠재 변수에 대한 각 참가자의 점수를 더 잘 추정하는 방법은 무엇입니까? 1을 바이어스로 사용합니까, 실제 값과 더 멀리 다릅니 까? 1 만 사용하는 것이 "부적합"하기 때문에 이런 일이 발생합니까? 정확히 무엇을 의미합니까? 왜곡의 특성을 특성화 할 수 있습니까? 대안으로, 1 만 추출하면 분석에서 가능한 한 정확하게 1 점을 얻는 데 모든 자유도에 초점을 맞출 수있을 것으로 기대했을 수 있습니다.
gung-복원 Monica Monica

답변:


5

당신이 암시하는 문제는 심리 테스트 도구를 만들 때 '대략적인 일차 원성'주제인데, 80 년대에 종교학에서 꽤 많이 논의되었습니다. 실무자들은 그들의 아이템에 전통적인 아이템 반응 이론 (IRT) 모델을 사용하기를 원했고, 당시 IRT 모델은 일차원 적 특성 측정에만 한정되어 있었기 때문에 영감은 과거에 존재했습니다. 따라서, 테스트 다차원 성은 (희망적으로) 피하거나 무시할 수있는 성가신 것으로 기대되었습니다. 이것은 또한 요인 분석 (Drasgow and Parsons, 1983)과 DETECT 방법에서 병렬 분석 기법을 만들어 냈습니다.

잘못된 모델을 데이터에 분명히 맞추는 것 외에 다른 추가 특성 / 인자를 무시한 결과 (즉, 잠재적 인 모델 부적합에 대한 정보는 무시하지만 물론 사소한 것일 수 있음)는 지배적 요인에 대한 특성 추정이 치우치게됩니다. 따라서 효율성이 떨어집니다. 이러한 결론은 물론 추가 특성의 속성 (예 : 기본 치수와 상관 관계가 있는지, 강한 하중이 있는지, 얼마나 많은 교차 하중이 있는지 등)에 달려 있지만 일반적인 주제는 2 차 추정치입니다. 1 차 특성 점수를 얻는 것이 덜 효과적입니다. 적합하지 않은 1 차원 모델과 2 단계 모델 간의 비교는 여기 의 기술 보고서를 참조하십시오 . 기술 보고서는 정확히 당신이 추구하는 것으로 보입니다.

실제적인 관점에서, 다차원 정보를 무시한 결과가 데이터에 대한 전반적인 적합성에 부정적인 영향을 미치기 때문에 일반적으로 모형 적합 통계 (RMSEA, CFI 등)뿐만 아니라 가장 최적의 모형을 선택할 때 정보 기준을 사용하면 도움이 될 수 있습니다. . 물론, 전체 모델 적합은 현재 데이터에 부적합한 모델을 사용한다는 것을 나타내는 하나의 표시 일뿐입니다. 비선형 성 또는 단 조성 부족과 같은 부적절한 기능적 형태를 사용하는 것이 전적으로 가능하므로 각 항목 / 변수도 항상 검사해야합니다.

참조 :

CK (Drasgow, F. and Parsons, CK) (1983). 다차원 데이터에 일차원 항목 반응 이론 모델의 적용. 응용 심리 측정, 7 (2), 189-199.

Drasgow, F. & Lissak, RI (1983). 수정 된 병렬 분석 : 이분법 적으로 점수가 매겨진 항목 응답의 잠재 차원을 검사하는 절차입니다. 응용 심리학 저널, 68, 363-373.

Levent Kirisci, Tse-chi Hsu 및 Lifa Yu (2001). 일차 원성 및 정규성의 가정에 대한 항목 파라미터 추정 프로그램의 견고성. 응용 심리 측정, 25 (2), 146-162.


이것을 추가해 주셔서 감사합니다. 이것은 내가 추구하는 것 같습니다.
gung-복직 모니카

제목 질문에 대한 귀하의 답변이 "예"라는 것을 올바르게 이해하고 있습니까?
amoeba

2
@amoeba는 일반적으로 추가 정보를 포함하는 것이 엄격한 일차 원성을 부과하는 것보다 좋거나 더 좋을 것이라고 말합니다. 알려진 다차원 성을 무시하는 것은 매우 문제가 될 수 있지만 당연히 많은 요인들이 이것에 기여할 것입니다. 구조에 대한 추가 정보를 포함하는 유일한 시간은 샘플 크기가 너무 작아서 추가 매개 변수를 안정적으로 추정 할 수없는 경우입니다. 편향 효율의 균형 그러나 샘플 크기가별로 문제가되지 않으면 추가 정보를 포함하여 잃을 것이 거의 없다고 말하지만 그렇지 않으면 많이 잃을 것입니다.
Philchalmers

1

진정으로 두 번째 요소를 사용하지 않으려면 단일 요소 모델 만 사용해야합니다. 그러나 두 번째 요소를 사용하면 첫 번째 요소의 하중이 변경된다는 귀하의 의견에 의아해합니다.

xx

다음으로 회전 효과에 대해 설명합니다. 나는 그림을 잘하지 못하므로 단어를 사용하도록 설득하려고 노력할 것입니다. 나는 당신의 데이터가 (대략) 정상이라고 가정하여, 요인 점수도 대략 정상입니다. 한 요인을 추출하면 1 차원 정규 분포를 얻게되고, 두 요인을 추출하면 이변 량 정규 분포를 얻게됩니다.

이변 량 분포의 밀도는 대략 모자처럼 보이지만 정확한 모양은 스케일링과 상관 계수에 따라 다릅니다. 두 성분이 각각 단위 분산을 가지고 있다고 가정 해 봅시다. 상관없는 경우에는 원처럼 보이는 레벨 커브로 멋진 솜브레로를 얻습니다. 사진이 여기 있습니다 . 상관 관계는 모자를 "스쿼시"하여 나폴레옹 모자 처럼 보이게합니다 .

원래 데이터 세트에 3 차원이 있다고 가정하고 그 중 두 가지 요소를 추출하려고합니다. 정규성을 고집합시다. 이 경우 밀도는 4 차원 물체이지만 레벨 곡선은 3 차원이며 최소한 시각화 할 수 있습니다. 상관되지 않은 경우 레벨 곡선은 구형입니다 (축구 공처럼). 상관이 존재하는 경우, 레벨 커브는 축구, 아마도 저 팽창 된 축구로 다시 왜곡되어 이음새의 두께가 다른 방향의 두께보다 작습니다.

PCA를 사용하여 두 가지 요소를 추출하면 축구를 타원으로 완전히 편평하게 만듭니다 (그리고 모든 데이터 포인트를 타원 평면에 투영합니다). 회전하지 않은 첫 번째 요소는 타원의 긴 축에 해당하고 두 번째 요소는 그에 직각입니다 (즉, 짧은 축). 그런 다음 회전은 다른 편리한 기준을 충족시키기 위해이 타원 내 에서 좌표계를 선택 합니다.

단일 요인 만 추출하면 회전이 불가능하지만 추출 된 PCA 요인이 타원의 긴 축에 해당합니다.


2
나는이 답변에 의아해합니다. 이 질문은 주요 성분 분석 과 달리 요인 분석에 대해 명시 적으로 묻습니다 .
amoeba

요인을 추출하는 두 가지 방법이 있습니다 : 주성분 또는 최대 가능성. 나는 이것에 대한 통계를하지 않았지만 주요 구성 요소 방법이 더 자주 사용된다고 생각합니다.
user3697176

3
두 가지 이상의 다양한 방법이 있습니다. 주축, ML, 마이너, 가중 최소 제곱 등-나는 여기서 전문가가 아닙니다. PCA는 때때로 (드물게!) 인자 추출 방법으로 여겨지지만, 너무 부끄럽습니다. 실제로 그렇게해서는 안됩니다. 다른 모델에 적합합니다.
amoeba

첫 번째 문장이 내 Q를 다룹니다. 그것에 대해 더 잘 들으면서 왜 그것이 옳을 지 궁금합니다. @amoeba는 요인을 추출하는 방법과 관련하여 옳습니다. PCA 및 PAF는 다른 알고리즘이 제대로 개발되지 않았거나 구현하기 어려울 때 일반적이었습니다. 그들은 이제 열등한 것으로 널리 간주됩니다. R은 fa()예를 들어 몇 년 동안 사용하지 않았습니다. 다른 방법은 중첩되지 않은 솔루션을 생성하므로 소프트웨어 및 FA 데이터 세트를 통해 쉽게 확인할 수 있습니다. 비교를 위해 두 솔루션을 모두 회전하지 않은 것으로 간주 할 수 있습니다. FWIW, 나는 구형 및 타원형 MVN 분포에 대해 잘 알고 있습니다.
gung-Monica Monica 복원

1
@gung, 발언. PAF 방법은 또한 중첩되지 않은 솔루션을 제공합니다. 그것은 선의의 FA 방법 (PCA를 기반으로하지만)이며 여전히 널리 사용됩니다.
ttnphns

1

lavaan 또는 MPlus와 같은 것을 사용하여 두 가지 모델 (단일 모델 및 2 차원 모델을 EFA 결과에 정렬)을 실행하고 다른 모델 (예 : 정보 기준-AIC 및 BIC, RMSEA, SRMR, CFI / TLI)? 이 길로 내려 가면 EFA에 PCA를 사용하지 않고 주된 요소를 사용하게됩니다. 실제로 측정에 관심이있는 사람은 CFA를 전체 구조 방정식 모델에 포함시킬 수 있습니다.

편집 : 내가 당신에게 요구하는 접근법은 실제로 얼마나 많은 잠재 변수가 항목 세트를 설명하는지 알아내는 것입니다. 더 큰 요인에 대한 최상의 추정치를 얻으려면 CFA 모델의 요인 점수를 더 잘 맞는 것 중 어느 쪽이든 사용하여 투표합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.