순서 또는 이진 데이터에 대한 요인 분석 또는 PCA가 있습니까?


28

주요 성분 분석 (PCA), 탐색 적 요인 분석 (EFA) 및 확인 적 요인 분석 (CFA)을 완료하여 리 커트 척도 (5 단계 응답 : 없음, 약간, 약간, ..)로 데이터를 연속으로 처리했습니다. 변하기 쉬운. 그런 다음 Lavaan을 사용하여 변수를 범주 형으로 정의하는 CFA를 반복했습니다.

데이터가 본질적인 경우 어떤 유형의 분석이 적합하고 PCA 및 EFA와 동등한 지 알고 싶습니다 . 그리고 바이너리 일 때 .

또한 그러한 분석을 위해 쉽게 구현할 수있는 특정 패키지 또는 소프트웨어에 대한 제안을 부탁드립니다.

답변:


38

기존 (선형) PCA 및 요인 분석 에는 척도 수준 (간격 또는 비율) 데이터가 필요합니다. 리 커트 유형의 등급 데이터는 종종 데이터가 분석하기 쉽기 때문에 스케일 수준으로 가정됩니다. 그리고 결정은 때로는 통계적으로, 특히 순서가 지정된 카테고리의 수가 5 또는 6보다 큰 경우에 보증됩니다 (순전히 논리적으로 데이터 유형의 문제와 스케일 레벨의 수는 고유하지만).

그래도 다원 리 커트 척도를 서수로 취급하려면 어떻게해야합니까? 아니면 이분법적인 데이터가 있습니까? 탐색 적 요소 분석 또는 PCA를 수행 할 수 있습니까?

범주 순서 또는 이진 변수 (또한 읽기에 (특별한 경우와 PCA 포함) FA를 수행 할 수있는 세 가지 주요 접근 방법은 현재이 있습니다 이진 데이터의 경우에 대한 계정 및 서수 규모와 함께 할 수있는 일에 대해 고려).

  1. 최적의 확장 방식 ( 응용 프로그램 제품군 ). 또한라는 범주 PCA (CatPCA) 또는 FA 비선형. CatPCA에서 서수 변수는 해당 간격 데이터에서 추출 된 선택된 주성분 수에 의해 설명 된 분산을 최대화하기 위해 목표에 따라 "기본"간격 버전으로 단조 변환 ( "정량화")됩니다. 이 방법은 이론 중심이 아니라 공개적으로 목표 중심이며 주요 구성 요소의 수를 미리 결정하는 것이 중요합니다. PCA 대신 진정한 FA가 필요한 경우 CatPCA에서 출력 된 변환 된 변수에 대해 일반적인 선형 FA를 자연스럽게 수행 할 수 있습니다. 이진 변수를 사용하면 CatPCA (안타깝게도?)는 일반적인 PCA의 방식, 즉 연속 변수 인 것처럼 동작합니다. CatPCA는 명목 변수와 변수 유형의 혼합 (좋음)도 허용합니다.

  2. 유추 된 기본 변수 접근 방식. 테트라 코릭 (이진 데이터의 경우) 또는 폴리 코릭 (서수 데이터의 경우) 상관에서 수행 된 PCA / FA라고도 합니다. 정규 분포는 모든 매니페스트 변수에 대한 기본 (비닝 된) 연속 변수에 대해 가정됩니다. 그런 다음 클래식 FA를 사용하여 위에서 언급 한 상관 관계를 분석합니다. 이 접근법은 간격, 순서, 이진 데이터의 혼합을 쉽게 허용합니다. 이 접근법의 한 가지 단점은 상관 관계를 유추 할 때 기본 변수의 다변량 분포에 대한 단서가 없으며 대부분의 이변 량 분포를 "인식"할 수 있으므로 전체 정보가 아니라는 점입니다.

  3. 품목 반응 이론 (IRT) 접근. 때로는 로지스틱 FA 또는 잠재 특성 분석 이라고도 합니다. 이진 로짓 (이진 데이터의 경우) 또는 비례 로그 승률 (서수 데이터의 경우)에 매우 가까운 모델이 적용됩니다. 이 알고리즘은 상관 행렬의 분해와 관련이 없으므로 기존 FA와 약간 떨어져 있지만 여전히 진정한 범주 형 FA입니다. "차별 파라미터"는 FA의 로딩과 밀접한 관련이 있지만, "어려움"은 FA의 "고유성"의 개념을 대체한다. 요인의 수가 증가함에 따라 IRT 피팅 확실성이 빠르게 감소하는데, 이는이 접근법의 문제가되는 측면입니다. IRT는 고유 한 방식으로 혼합 간격 + 이진 + 선형 및 가능한 명목 변수를 통합 할 수 있습니다.

접근법 (2) 및 (3)의 요인 점수는 기존 FA 또는 접근법 (1)의 요인 점수보다 추정하기가 더 어렵습니다. 그러나 여러 가지 방법이 존재합니다 (예상 또는 최대 어포 스티 어리 방법, 최대 가능성 방법 등).

요인 분석 모델 가정은 주로 전통적인 FA에서와 같은 세 가지 접근 방식에서 동일합니다. 접근법 (1)은 R, SPSS, SAS (제 생각에)에서 사용할 수 있습니다. 접근법 (2)와 (3)은 대부분 특수 잠재 변수 패키지 (Mplus, LISREL, EQS)로 구현됩니다.

  1. 다항식 접근. 아직 완전히 개발되지 않았습니다. 주성분은 변수의 다항식 조합으로 모델링 할 수 있습니다 ( 다항식을 사용 하는 것은 순서 회귀 분석기의 비선형 효과를 모델링하는 일반적인 방법입니다). 또한 관측 된 범주는 잠복 요인의 다항식 조합의 개별 표현으로 모델링 될 수 있습니다.

  2. 차원 축소 의 비선형 기술이 번성하는 분야가 있습니다 . 이들 중 일부는 범주 형 데이터 (특히 이진 또는 고차원 희소 데이터 세트로 이진화)를 처리하기 위해 적용되거나 채택 될 수 있습니다.

  3. 순위 상관 관계 또는 범주 형 데이터 (Spearman / Kendall / Somer 's 등)에 적합한 기타 연관성에 대해 클래식 (선형) FA / PCA 수행 서수 데이터의 경우 순전히 휴리스틱 방식이며 이론적 근거가 없고 전혀 권장 되지 않습니다 . 이진 데이터의 경우 Spearman rho와 Kendall tau-b 상관 관계 및 Phi 연관은 모두 Pearson r 상관 관계와 동일하므로 이진 데이터에 대한 일반적인 선형 FA / PCA를 수행하는 것 외에는 아무것도 없습니다 ( 여기서는 일부 위험 ). 현재 크기의 한계에 대한 리 스케일링 된 대한 분석을 수행하는 것도 가능하다 (물론은 아니지만) .아르 자형

또한 봐 ,이 , , , , , , , .


3
경이적인 답변. 추가해야 할 것은 R의 psych 패키지를 사용하여 (2) (fa 함수에 대한 "cor"옵션 참조) 및 (3) (irt.fa 및 irt.poly 함수 참조) 방법을 구현할 수 있다고 생각합니다. )를 ltm 패키지로 여러 IRT 모델에 맞출 수 있습니다.
jsakaluk

1
다를 수 있습니다. "Nonlinear FA"(CatPCA-then-EFA)에 의해 여러 번 인벤토리 생성 / 검증을 수행했으며 일반적인 (선형) EFA보다 결과가 더 좋습니다. 내가 채택한 절차는 일반적인 FA와 비슷하지만, 모든 분석에 대해-내가 시도하는 모든 항목 세트와 추출하는 모든 수의 요인-CatPCA를 사용한 다음 (정량화 된 변수에 대해) -EFA pas de deux .
ttnphns

@jsakaluk, 정보에 대한 당신보다 훨씬. (나는 R 사용자가 아니기 때문에 그 경이로운 용량을 잘 알지 못합니다).
ttnphns

이러한 철저한 답변에 감사드립니다. @ttnphns SPSS 23에서 CATPCA를 구현하기 위해 오늘 대부분을 보냈습니다. 두 개의 자습서 (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) 를 찾을 수있었습니다. 내 자신의 몇 가지 질문에 대답하지 못했습니다. 기술적 인 문제를 해결할 수있는 좋은 방법을 제안 해 주시겠습니까? 다시 감사합니다.
user116948

1
@ user116948, SPSS에서이 작업을 수행하는 방법을 이해하는 데 문제가있는 경우 : 먼저 도움말 메뉴의 SPSS 사례 연구 하위 메뉴에서 CATPCA 사례 연구를 찾아 읽으십시오. 둘째,이 사이트에서 이미 요청한 CATPCA에 대한 모든 질문을 찾아보십시오. 셋째 : 여전히 질문이있는 경우 사이트에서 새 질문으로 질문하십시오. 걱정하지 마십시오. "너무 기술적 인"경우 StackOveflow로 전송 될 수 있습니다. 넷째 : SPSS 커뮤니티를 선택 하여 질문하십시오 (SPSSXL이 가장 좋습니다). 건배
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.