저는 컴퓨터 공학 대학원생입니다. 나는 연구 프로젝트에 대한 탐색 적 요소 분석을 해왔다. 동료 (프로젝트를 이끌고있는)는 SPSS를 사용하지만 R을 사용하는 것을 선호합니다. 두 통계 패키지간에 큰 차이가있을 때까지는 문제가되지 않았습니다.
우리는 추출 방법으로 주축 인수 분해 를 사용하고 있습니다 (PCA와 요인 분석의 차이를 잘 알고 있으며 적어도 의도적으로는 PCA를 사용하지 않는다는 점에 유의하십시오 ). 내가 읽은 것에서 이것은 R 문서에 따르면 R의 "주축"방법과 SPSS의 "주축 팩토링"또는 "무가 중 최소 제곱"에 해당 합니다 . 우리는 비스듬한 회전 방법을 사용하고 있습니다 . 상관 요인을 기대하고 패턴 행렬을 해석하기 때문에 promax )을 사용하고 있습니다 .
R과 SPSS에서 두 절차를 실행하면 큰 차이가 있습니다. 패턴 매트릭스는 다른 로딩을 제공합니다. 이것은 가변 관계에 대해 거의 동일한 요인을 제공하지만, 대응하는 하중 사이에는 최대 0.15의 차이가 있으며, 이는 추출 방법의 다른 구현과 promax 회전에 의해 예상되는 것보다 더 많이 보입니다. 그러나 이것이 가장 놀라운 차이점은 아닙니다.
요인에 의해 설명 된 누적 분산은 SPSS 결과에서 약 40 %이고 R 결과에서 31 %입니다. 이것은 큰 차이이며, 동료가 R 대신 SPSS를 사용하기를 원했습니다. 이것에 아무런 문제가 없지만 큰 차이로 인해 우리가 무언가를 잘못 해석하고 있다고 생각하게 만드는 것은 문제입니다.
SPSS는 비가 중 최소 제곱 인수 분해를 실행할 때 다양한 유형의 설명 된 분산을보고합니다. 초기 고유 값에 의한 설명 분산의 비율은 40 % 인 반면, 추출 제곱 하중 (SSL)의 설명 분산의 비율은 33 %입니다. 이것은 초기 고유 값이 볼만한 숫자가 아니라고 생각하게합니다 (이것은 회전하기 전에 설명 된 차이라고 생각하지만 너무 크지는 않습니다). 더 혼란스러운 SPSS는 Rotation SSL도 보여 주지만 설명 된 분산의 백분율을 계산하지는 않습니다 (SPSS는 상관 요인이 있으면 총 분산을 찾기 위해 SSL을 추가 할 수 없다는 것을 의미합니다. 이는 내가 본 수학에 적합합니다). R의보고 된 SSL은이 중 어느 것과도 일치하지 않으며 R은 전체 분산의 31 %를 설명한다고 알려줍니다. R의 SSL은 회전 SSL과 가장 밀접하게 일치합니다. 원래 상관 행렬의 R 고유 값은 SPSS의 초기 고유 값과 일치합니다.
또한 다른 방법을 사용하여 놀았으며 SPSS의 ULS와 PAF가 R의 PA 방법과 가장 일치하는 것으로 보입니다.
내 구체적인 질문 :
- 요인 분석 구현과 함께 R과 SPSS 사이에 얼마나 큰 차이가 있습니까?
- SPSS의 제곱 하중 합계 중 초기 고유 값, 추출 또는 회전을 해석해야합니까?
- 내가 간과 한 다른 문제가 있습니까?
SPSS와 R에 대한 전화는 다음과 같습니다.
SPSS :
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
아르 자형:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)