내가 사용하는 많은 통계 패키지 가이 두 개념을 함께 묶은 것 같습니다. 그러나 다른 가정이나 데이터 '형식'이 다른 것을 사용하는 것이 사실인지 궁금합니다. 실제 예는 매우 유용 할 것입니다.
내가 사용하는 많은 통계 패키지 가이 두 개념을 함께 묶은 것 같습니다. 그러나 다른 가정이나 데이터 '형식'이 다른 것을 사용하는 것이 사실인지 궁금합니다. 실제 예는 매우 유용 할 것입니다.
답변:
주요 성분 분석 에는 관측 된 변수의 선형 복합물 추출이 포함됩니다.
요인 분석 은 이론적 잠재 요인으로부터 관측 된 변수를 예측하는 공식 모델을 기반으로합니다.
심리학에서이 두 가지 기술은 종종 어떤 항목이 어떤 스케일에로드되는지 결정하기 위해 멀티 스케일 테스트 구성에 적용됩니다. 그것들은 일반적으로 유사한 실질적 결론을 낳는다 (토론은 성격 및 임상 심리학에서 규모 개발의 Comrey (1988) 요인 분석 방법 참조). 이렇게하면 일부 통계 패키지가 함께 묶는 것처럼 보이는 이유를 설명하는 데 도움이됩니다. 또한 "주성분 분석"에 "인자 분석"이라고 잘못 표시된 상황도 보았습니다.
간단한 경험 법칙 측면에서 다음과 같이 제안합니다.
관측 변수를 유발하는 잠재적 요인의 이론적 모델을 테스트하거나 가정하려는 경우 요인 분석을 실행하십시오.
주성분 분석 실행 상관 된 관측 변수를 더 작은 중요 독립 복합 변수 세트로 간단히 줄이려면.
내 대답에서 여기 :
PCA와 회전 (varimax 등)이 여전히 PCA입니까?
PCA (Principal Component Analysis)와 CFA (Common Factor Analysis)는 고유 한 방법입니다. 종종 유사한 결과를 생성하고 PCA는 SPSS Factor Analysis 루틴에서 기본 추출 방법으로 사용됩니다. 이것은 의심 할 여지없이이 둘의 구별에 대해 많은 혼란을 초래합니다.
결론은 개념적으로 두 가지 다른 모델이라는 것입니다. PCA에서 구성 요소는 총 분산을 최대화하는 실제 직교 선형 조합입니다. FA에서 요인은 분산의 공유 부분을 최대화하는 선형 조합으로, "잠재적 구성"의 기초가됩니다. 그 때문에 FA를 흔히 "공통 계수 분석"이라고합니다. FA는 다양한 최적화 루틴을 사용하며 결과는 PCA와 달리 사용 된 최적화 루틴 및 해당 루틴의 시작점에 따라 다릅니다. 단순히 하나의 고유 한 솔루션이 없습니다.
R에서 factanal () 함수는 CFA에 최대 가능성 추출을 제공합니다. 따라서 PCA 추출을 기반으로하는 SPSS 결과를 재현하지 않아야합니다. 단순히 동일한 모델이나 논리가 아닙니다. SPSS의 Maximum Likelihood 추출을 사용하면 동일한 알고리즘을 사용하지 않을 수 있으므로 동일한 결과를 얻을지 확신 할 수 없습니다.
그러나 R에서 더 좋거나 나쁘게도 SPSS가 기본값으로 제공하는 혼합 된 "인자 분석"을 재현 할 수 있습니다. 다음은 R의 프로세스입니다.이 코드를 사용하여이 데이터 세트를 사용하여 SPSS Principal Component "인자 분석"결과를 재현 할 수 있습니다. (불확실한 부호를 제외하고). 그런 다음 R의 사용 가능한 회전 방법 중 하나를 사용하여 결과를 회전 할 수도 있습니다.
data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)] %*%
diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)
principal(attitude, 2, rotate="none")
에서 동일한 결과를 얻을 수 있으며 psych
Kayser의 규칙 (ev> 1)은 차원을 테스트하는 가장 권장되는 방법이 아닙니다 (요인 수를 과대 평가 함).
factanal()
CFA가 아닌 EFA를 제공합니다. 또한 내 경험상 SPSS의 최대 가능성 추출은 factanal()
경사 회전이 없다는 것과 동일한 결과를 제공해야합니다.
FA에서는 일반적으로 (고유성 및 공동체 성) 모두와 협력하지만 첫 번째 요점은 옳습니다. PCA와 FA의 선택은 심리학자들 사이에서 오랜 논쟁 거리입니다. 그래도 나는 당신의 요점을 따르지 않습니다. 잠재적 인 축을 구성하는 방법에 관계없이 주축 회전을 적용 할 수 있습니다. 실제로, 대부분의 경우 사선 회전 (예 : PROMAX ) 아마도 현실을 더 잘 반영 할 수있을 것입니다 (잠재적 구성은 종종 서로 연관되어 있음). 적어도 FA의 전통에서 잠재 구조가 실제로 변수 사이의 관찰 된 상호 상관의 핵심이라고 가정합니다. 요점은 PCA 다음에 VARIMAX 회전이 "데이터 분석"전통에서 원래 변수의 선형 조합 해석을 다소 왜곡한다는 것입니다 (Michel Tenenhaus의 작업 참조). 심리학 적 관점에서 볼 때, FA 모델은 측정 오류를 명시 적으로 설명하는 반면 PCA는이를 신경 쓰지 않기 때문에 선호됩니다. 간단히 말해서 PCA를 사용하면 각 구성 요소 (인자)를 변수의 선형 조합으로 표현하는 반면 FA에서는 이러한 요소 (인자 및 독창성 구성 요소 포함)의 선형 조합으로 표현되는 변수입니다. 요점은 PCA 다음에 VARIMAX 회전이 "데이터 분석"전통에서 원래 변수의 선형 조합 해석을 다소 왜곡한다는 것입니다 (Michel Tenenhaus의 작업 참조). 심리학 적 관점에서 볼 때, FA 모델은 측정 오류를 명시 적으로 설명하지만 PCA는이를 신경 쓰지 않기 때문에 선호됩니다. 간단히 말해서 PCA를 사용하면 각 구성 요소 (인자)를 변수의 선형 조합으로 표현하는 반면 FA에서는 이러한 요소 (인자 및 독창성 구성 요소 포함)의 선형 조합으로 표현되는 변수입니다. 요점은 PCA 다음에 VARIMAX 회전이 "데이터 분석"전통에서 원래 변수의 선형 조합 해석을 다소 왜곡한다는 것입니다 (Michel Tenenhaus의 작업 참조). 심리학 적 관점에서 볼 때, FA 모델은 측정 오류를 명시 적으로 설명하지만 PCA는이를 신경 쓰지 않기 때문에 선호됩니다. 간단히 말해서 PCA를 사용하면 각 구성 요소 (인자)를 변수의 선형 조합으로 표현하는 반면 FA에서는 이러한 요소 (인자 및 독창성 구성 요소 포함)의 선형 조합으로 표현되는 변수입니다. FA 모델은 측정 오류를 명시 적으로 설명하는 반면 PCA는이를 신경 쓰지 않기 때문에 선호됩니다. 간단히 말해서 PCA를 사용하면 각 구성 요소 (인자)를 변수의 선형 조합으로 표현하는 반면 FA에서는 이러한 요소 (인자 및 독창성 구성 요소 포함)의 선형 조합으로 표현되는 변수입니다. FA 모델은 측정 오류를 명시 적으로 설명하는 반면 PCA는이를 신경 쓰지 않기 때문에 선호됩니다. 간단히 말해서 PCA를 사용하면 각 구성 요소 (인자)를 변수의 선형 조합으로 표현하는 반면 FA에서는 이러한 요소 (인자 및 독창성 구성 요소 포함)의 선형 조합으로 표현되는 변수입니다.
이 주제에 대한 다음 토론을 먼저 읽으십시오.
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition
. Chl, 당신은 그것을 설명 할 수 있습니까? 그 흥미 롭군요.
웹에는 수많은 제안 된 정의가 있습니다. 다음은 통계 학습에 대한 온라인 용어집 중 하나입니다 .
주요 구성 요소 분석
데이터 세트의 주요 구성 요소 인 새 기능 구성 주성분은 입력 피처의 선형 조합으로 구성된 최대 분산의 랜덤 변수입니다. 마찬가지로, 이들은 주 구성 요소 축에 대한 투영으로, 데이터 세트의 각 점까지의 평균 제곱 거리를 최소화하는 선입니다. 고유성을 보장하려면 모든 주요 구성 요소 축이 직교해야합니다. PCA는 입력과 출력 모두에 가우시안 잡음이있을 때 선형 회귀에 대한 최대 가능성 기술입니다. 경우에 따라 PCA는 JPEG 이미지 압축에 사용되는 DCT와 같은 푸리에 변환에 해당합니다. "인식 용 고유면"(Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, "
요인 분석
최대 가능성에 명시 적으로 기반한 PCA의 일반화. PCA와 마찬가지로, 각 데이터 포인트는 부분 공간의 포인트를 샘플링 한 다음 전체 차원 가우시안 노이즈로 섭동하여 발생한다고 가정합니다. 차이점은 요인 분석을 통해 잡음이 임의의 대각선 공분산 행렬을 가질 수 있으며 PCA는 잡음이 구형이라고 가정합니다. 부분 공간을 추정하는 것 외에도 요인 분석은 잡음 공분산 행렬을 추정합니다. "인자 분석기의 혼합물에 대한 EM 알고리즘". PCA의 치수 선택 "을 참조하십시오.
이 글에서 가장 큰 답은 PCA는 차원 축소 기법에 가깝고 FA는 잠재적 변수 기법에 가깝다는 것을 암시합니다. 이것은 엄격 합니다. 그러나 여기에 많은 답변과 다른 곳에서 많은 치료법이 PCA와 FA를 완전히 다른 두 가지 방법으로 제시하며, 반대의 목표, 방법 및 결과는 아닙니다. 동의하지 않습니다. PCA가 잠재적 변수 기술로 간주 될 때 FA와 매우 유사하며 매우 유사한 방법으로 볼 수 있다고 생각합니다.
다음 스레드에서 PCA와 FA의 유사점과 차이점에 대한 본인의 설명을 제공했습니다. EFA 대신 PCA를 사용해야 할 이유가 있습니까? 또한 PCA가 요인 분석을 대신 할 수 있습니까? 간단한 수학적 이유로 PCA와 FA의 결과는 변수의 수가 적지 않은 경우 (아마도 수십 개 이상)를 감안할 때 상당히 유사 할 것으로 예상됩니다. 수학적 세부 사항과 Monte Carlo 시뮬레이션에 대해서는 링크 된 스레드에서 내 [long!] 답변을 참조하십시오. 내 주장의 훨씬 더 간결한 버전은 다음을 참조하십시오. PCA와 FA는 어떤 조건에서 유사한 결과를 산출합니까?
PCA와 FA 사이에는 거의 차이가 없습니다! 여기 저기 작은 편차가 있지만 일반적인 그림은 거의 동일하며 모든 하중이 매우 유사하며 같은 방향을 가리 킵니다. 이것은 이론에서 기대했던 것과 똑같습니다. 여전히 관찰하는 것이 좋습니다.
추신. 동일한 데이터 세트의 훨씬 더 예쁜 PCA biplot에 대해서는 @vqv의 답변을 참조하십시오 .
PPS. PCA 계산은 표준이지만 FA 계산에는 주석이 필요할 수 있습니다. 인자 로딩은 수렴 (9 회 반복)까지, "상호적인 주요 인자"알고리즘에 의해 계산되었으며, 부분 상관 관계로 커뮤니티가 초기화되었습니다. 하중이 수렴되면 Bartlett의 방법을 사용하여 점수를 계산했습니다. 이것은 표준화 된 점수를 산출합니다; 나는 각각의 인자 분산 (로드 길이에 의해 주어진)에 의해 그것들을 확대했습니다.
논리적 단계에서 산점도를 사용하여 PCA 대 요인 분석에 대한 기본적이지만 다소 어려운 설명입니다 . (질문에 대한 자신의 의견에 따라 다른 곳으로 연결하는 대신 답변을 게시하도록 장려 한 @amoeba에게 감사드립니다. 따라서 여가, 늦은 응답이 있습니다.)
PCA에 대해 이미 알고 있기를 바랍니다. 지금 소생합니다.
이러한 계수는 회전 코사인 (= 방향 코사인, 주 방향)이며 소위 고유 벡터를 구성하는 반면 공분산 행렬의 고유 값은 주성분 분산입니다. PCA에서는 일반적으로 약한 마지막 구성 요소를 버립니다. 따라서 정보 손실이 거의없이 처음 추출 된 구성 요소별로 데이터를 요약합니다.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
플로팅 된 데이터를 사용하여 P1 구성 요소 값 (점수) P1 = .73543*V1 + .67761*V2
및 구성 요소 P2를 버립니다. P1의 분산은 1.75756
공분산 행렬의 첫 번째 고유 값이므로 P1 86.5%
은 총 분산에 해당하는을 설명합니다 (1.07652+.95534) = (1.75756+.27430)
.
이제 PCA의 특징은 데이터의 모든 지점에 대해 E1과 E2를 계산하고 이러한 좌표를 플로팅하면 (즉, 오류의 산점도 만 만들면) 클라우드 "오류 데이터"는 폐기 된 구성 요소 P2와 일치한다는 것입니다. 구름은 베이지 색 구름과 같은 그림에 그려져 있으며 실제로 P2 구성 요소 점수로 바둑판 모양으로 축 P2 ( 그림 1 )를 형성 합니다.
당연히 말할 수 있습니다. 그것은 매우 명백하다 : PCA에서 , 폐기 연소 성분 (들)을 정확하게 무엇 잠상 특징은 P1하여 설명 모델 (복원) 원래 변수 V에서, 예측 에러의 E에 발 분해. 오류 E는 함께 남은 구성 요소를 구성합니다. 여기서 다음은 요인 분석은 PCA 다를 시작합니다.
공식적으로, 추출 된 잠복 피처 (들)에 의해 매니페스트 변수를 예측하는 모델은 FA에서 PCA와 동일하다; [ 수식 3 ] :
F는 잠상 공통이다 계수 데이터로부터 추출하고, P1이 무엇 아민 대신에 수학 식 2는 . 모델의 차이점은 FA에서는 PCA와 달리 오류 변수 (E1 및 E2)가 서로 관련이 없어야한다는 것 입니다.
다시 스레드로 돌아갑니다. E1과 E2는 요인 분석에서 관련이 없습니다. 따라서 그것들은 둥글거나 타원이지만 대각선 방향이 아닌 오류 구름을 형성해야한다. PCA에서 구름은 대각선으로가는 P2와 일치하는 직선을 형성했습니다. 두 아이디어는 그림에 나와 있습니다.
FA에서 오류는 둥글고 (대각선이 아닌) 구름입니다. FA의 인자 (잠재)는 다소 다른 방향, 즉 PCA에서 "잠재적"인 첫 번째 주요 구성 요소가 아닙니다. 그림에서 요인 선은 이상하게 원뿔형입니다. 결국에는 왜 분명해질 것입니다.
PCA와 FA의 이러한 차이점의 의미는 무엇입니까? 변수는 서로 연관되어 있으며 데이터 구름의 대각선으로 타원형으로 표시됩니다. P1은 최대 분산을 없애고 타원은 P1과 함께 지정됩니다. 결과적으로 P1은 그 자체로 상관 관계를 설명했다. 그러나 그것은 기존의 양의 상관 관계를 적절히 설명하지 않았다 . 상관 관계가 아닌 데이터 포인트의 변형 을 설명하는 것으로 보였습니다 . 실제로, 그것은 상관 관계를 과도하게 설명했으며, 그 결과는 과도를 보상하는 대각선의 상관 된 오류 구름의 출현이었습니다. P1 만으로는 상관 관계 / 공분산의 강도를 포괄적으로 설명 할 수 없습니다. 요인 F 는 할 수 있습니다혼자해라. 그리고 그것이 가능해질 때의 조건은 오류가 서로 관련되지 않도록 강요 할 수있는 곳입니다. 오차 구름이 둥글기 때문에 요인을 추출한 후에도 상관 관계 (긍정적이든 부정적이든)가 남아 있지 않으므로 모든 요인을 감추는 요인이됩니다.
차원 축소로 PCA는 분산을 설명하지만 상관 관계를 부정확하게 설명합니다. FA는 상관 관계를 설명 하지만 PCA가 할 수있는만큼의 데이터 변동을 (일반적인 요인으로) 설명 할 수는 없습니다. FA의 계수 (들)는 공통성 상관 부분 인 공통성의 부분 인 가변성 부분을 설명하며 ; 따라서 요소는 입력 변수를 "내"또는 "뒤에"숨겨서 상관 관계를 가져 오는 실제적이지만 관찰 할 수없는 힘 / 특징 / 특성으로 해석 될 수 있습니다. 상관 관계가 수학적으로 잘 설명되어 있기 때문입니다. 주요 구성 요소 (첫 번째 구성 요소는 거의 없음)는 수학적으로 설명하지 않으므로 "잠재적 특성"(또는 이와 같은)이라고 할 수 있습니다 .
하중의 곱셈은 분석이 상관 행렬이 아닌 공분산 행렬을 기반으로하는 경우 공분산 형태의 상관 관계 또는 상관 관계를 설명 (복원)하는 것입니다. 내가 얻은 데이터로 수행 한 요인 분석으로 a_1=.87352, a_2=.84528
인해 곱은 a_1*a_2 = .73837
공분산과 거의 같습니다 .73915
. 반면에 PCA 로딩은 a1_1=.97497, a1_2=.89832
이므로 상당히 a1_1*a1_2 = .87584
과대 평가되었습니다 .73915
.
PCA와 FA의 주요 이론적 차이점을 설명 했으므로 아이디어를 설명하기 위해 데이터로 돌아 갑시다.
아래는 우리가 잠정적으로 "최하위 요인 분석"이라고 부르는 분석 결과를 보여주는 산점도입니다 ( 그림 3) .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
PCA의 그림 2 에서 출발을 참조하십시오 . 오류의 베이지 색 구름은 둥글 지 않고 대각선으로 타원형이지만 PCA에서 발생한 얇은 대각선보다 훨씬 더 뚱뚱합니다. 또한 오류 커넥터 (일부 점으로 표시됨)는 더 이상 평행하지 않습니다 (PCA에서는 P2와 평행하게 정의되어 있음). 또한 예를 들어 요인 F 축에 대칭 적으로 대칭되는 점 "F"와 "E"를 보면 예상치 못한 해당 요인 점수가 상당히 다른 값임을 알 수 있습니다. 다시 말해서, 요인 점수는 단순히 선형으로 변환 된 주성분 점수가 아닙니다. 요인 F는 P1 방식과 다른 방식으로 발견됩니다. 같은 플롯에 함께 표시한다면 자신의 축이 완전히 일치하지 않는 그림 4 :
그것들이 약간 다르게 오리엔테이션 된 것 외에도, F (점수로 바둑판 식으로 배열 된)는 더 짧다. 즉, P1 계정보다 작은 분산을 설명한다. 앞에서 언급했듯이, 요인은 V1 V2의 상관 관계를 담당하는 변동성, 즉 변수를 원시 공분산 0
에서 사실 공분산 으로 가져 오기에 충분한 총 분산의 일부만 설명 .73915
합니다.
최적의 요인 솔루션은 오류가 둥글거나 대각선이 아닌 타원 구름 인 경우입니다. E1과 E2는 완전히 관련이 없습니다 . 요인 분석은 실제로 이러한 최적의 솔루션을 반환 합니다. 위의 것과 같은 간단한 산점도에는 표시하지 않았습니다. 내가 왜? -결국 가장 흥미로운 일이었을 것입니다.
그 이유는 3D 플롯을 채택하더라도 산점도에 충분히 표시 할 수 없기 때문입니다. 이론적으로는 꽤 흥미로운 점입니다. E1과 E2를 완전히 상관 시키지 않기 위해이 세 변수 F, E1, E2 는 모두 V1, V2에 의해 정의 된 공간 (평면)에 있지 않아야 합니다. 그리고 세 사람은 서로 상관이 없어야합니다 . 나는 그러한 산점도를 5D로 (그리고 어쩌면 약간의 특수 효과로 4D로) 그리는 것이 가능하다고 생각하지만 우리는 3D 세계에 살고 있습니다. F는 관측 된 데이터에서 유일하고 (깨끗한) 상관 관계의 완전한 소스로 간주되기 때문에 요소 F는 E1 및 E2와 상관이 없어야합니다 (두 개도 상관되지 않음) . 요인 분석은 총 분산 을 분할 합니다p
두 상관 (겹치지 않는) 부분으로 입력 변수 : communality의 부분 ( m
차원, m
공통 인자 규칙)와 특이 부분 ( p
오차도 상관 상호 고유 요인이라고 여기서 차원).
따라서 산점도에 데이터의 실제 요소를 표시하지 않은 것에 대해 용서하십시오. 여기에서는 데이터 포인트를 표시하지 않고 "대상 공간"의 벡터를 통해 상당히 적절하게 시각화 할 수 있습니다 .
위의 "공통 FA (잠재적 특징)에 대한 아이디어"섹션에서 실제 요인 축이 평면 V1 V2에 있지 않음 을 경고하기 위해 요인 (축 F)을 쐐기로 표시했습니다 . 즉, 주성분 P1과 달리 축으로서의 계수 F는 해당 공간에서 축 V1 또는 V2의 회전이 아니며 변수로서의 F 는 변수 V1과 V2 의 선형 조합 이 아닙니다 . 따라서 F는 파생 변수가 아닌 외부 독립 변수처럼 모델링됩니다 (변수 V1 v2에서 추출). 같은 수식 Eq.1 PCA 개시 위치로부터는 대상 외 계산할 사실 정식 동형 방정식 반면, 인자 분석 (최적의) 계수를 수학 식 2 및 수학 식 3두 분석 모두에 유효합니다. 즉, PCA 변수에서 구성 요소를 생성하고 구성 요소가 변수를 다시 예측합니다. FA의에서 요소 (들) / 생성 변수를 예측하고, 백업하지 공통 요소 모델은 개념적으로 가정 - 그래서 , 기술적 요인이 관찰 된 변수에서 추출 된 경우에도.
뿐만 아니라 진정한 요인은 매니페스트 변수의 함수 아닌, 진정한 요소의 값이 된다 고유하게 정의되어 있지 않습니다 . 다시 말해, 그들은 단순히 알려지지 않았습니다. 이 모든 것은 우리가 데이터의 홈 2D 공간이 아니라 과도한 5D 분석 공간에 있다는 사실 때문입니다. 만 좋은 근사치 (다수의 방법이 존재하는 진정한 요소 값이라고까지) 요인 점수 , 우리를 위해 존재한다. 인자 점수 주성분 득점이 마찬가지로들이 너무 V1, V2의 선형 함수로 계산되며, 평면 V1 V2 거짓말 않으며, 그것은 그들이이었다"FA : 근사 솔루션 (인수 점수)"섹션에 표시했습니다. 주요 구성 요소 점수는 실제 구성 요소 값입니다. 요인 점수는 결정되지 않은 실제 요인 값에 대한 합리적인 근사치입니다.
따라서 "FA : 근사 솔루션 (인수 점수)"섹션에 나와있는 "인수 솔루션"은 실제로 최적의 하중, 즉 실제 요인을 기반으로합니다. 그러나 점수는 운명에 따라 최적이 아닙니다. 점수는 구성 요소 점수와 같이 관측 된 변수의 선형 함수로 계산되므로 둘 다 산점도에서 비교할 수 있으며 PCA 아이디어에서 FA 아이디어로의 점진적인 통과처럼 보이기 위해 교훈적으로 추구했습니다.
"인수 공간"에서 인자 점수 를 사용하여 동일한 바이 플롯 인자 부하를 플로팅 할 때는주의해야합니다. 적재는 실제 인자와 관련이 있지만 점수는 대리 인자와 관련 이 있습니다 (이 스레드 에서이 답변 에 대한 의견 참조 ).
요인 (로딩)의 회전 은 잠재적 인 특징을 해석하는 데 도움이됩니다. PCA를 마치 요인 분석처럼 사용하는 경우 (즉, PCA를 변수 예측으로 참조) PCA 에서도 로딩 회전을 수행 할 수 있습니다 . PCA는 변수의 수가 증가함에 따라 FA로 결과에 수렴하는 경향이 있습니다 ( 실제 및 개념적 유사성 및 두 방법 간의 차이점에 대한 매우 풍부한 스레드 참조 ). 이 답변 의 끝에서 PCA와 FA의 차이점 목록을 참조하십시오 . 홍채 데이터 세트 에 대한 PCA 대 FA의 단계별 계산은 여기에 있습니다 . 이 글타래 이외의 주제에 대한 다른 참가자의 답변에 대한 상당한 링크가 있습니다. 현재 답변에 몇 개만 사용하여 죄송합니다.
요인 분석과 주요 성분 분석의 차이점은 다음과 같습니다.
• 요인 분석에는 구조화 된 모델과 몇 가지 가정이 있습니다. 이와 관련하여 순전히 수학 변환 인 주성분 분석에는 적용되지 않는 통계 기법입니다.
• 주성분 분석의 목표는 분산을 설명하고 요인 분석은 변수 간의 공분산을 설명하는 것입니다.
이 둘의 혼동의 가장 큰 이유 중 하나는 요인 분석에서 요인 추출 방법 중 하나를 "주요 구성 요소의 방법"이라고하는 사실과 관련이 있습니다. 그러나 PCA를 사용하는 것과 FA에서 주요 구성 요소 의 방법 을 사용하는 것이 있습니다 . 이름은 비슷할 수 있지만 중요한 차이점이 있습니다. 전자는 독립적 인 분석 방법이고 후자는 인자 추출 도구 일뿐입니다.
나에게 (그리고 이것이 유용하길 바란다) 요인 분석은 PCA보다 훨씬 더 유용하다.
최근에는 요인 분석을 통해 척도를 분석하는 것이 즐거웠습니다. 이 규모 (업계에서 널리 사용 되기는하지만)는 PCA를 사용하여 개발되었으며 내 지식으로는 결코 요인 분석이 이루어지지 않았습니다.
요인 분석 (주축)을 수행 할 때 3 개 항목에 대한 공통성이 30 % 미만이라는 것을 발견했습니다. 이는 항목 차이의 70 % 이상이 분석되지 않았 음을 의미합니다. PCA는 단지 데이터를 새로운 조합으로 변환하고 커뮤니티를 신경 쓰지 않습니다. 내 결론은 스케일이 심리적 관점에서 그리 좋지 않다는 것이며 다른 샘플로 이것을 확인했습니다.
기본적으로 요인을 사용하여 예측하려면 PCA를 사용하고 잠재 요인을 이해하려면 요인 분석을 사용하십시오.
@StatisticsDocConsulting의 답변으로 확장 : EFA와 PCA 간의로드 차이는 소수의 변수로 사소한 것은 아닙니다. R에서 이것을 설명하기위한 시뮬레이션 함수는 다음과 같습니다.
simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}
Iterations
Sample.Size
Iterations
principal()
factanal()
이 코드를 사용하여 데이터를 생성하기 위해 각각 500 회 반복하여 3 ~ 100 개의 변수 샘플을 시뮬레이션했습니다.
Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}
... 변수의 수에 대한 평균 하중 (변수 및 반복에 대한) 감도의 도표 :
PCA는 모든 변수에 대해 커뮤니티가 1과 같다고 가정하는 FA와 같다고 생각할 수 있습니다. 실제로 이는 낮은 커뮤니티로 인해 FA에서 요소로드가 상대적으로 낮은 항목이 PCA에서로드가 더 높음을 의미합니다. 분석의 주요 목적이 품목 길이를 줄이고 부하가 적거나 모호한 품목의 품목 배터리를 청소하거나 품목 풀에 잘 표현되지 않은 개념을 식별하는 것이 바람직한 경우 이는 바람직하지 않습니다.
정말 좋은 교과서의 인용문 (Brown, 2006, pp. 22, 강조 추가).
PCA = 주요 성분 분석
EFA = 탐색 요소 분석
CFA = 확인 요소 분석
EFA와 관련되어 있지만 주성분 분석 (PCA)은 공통 요인 분석의 추정 방법으로 종종 잘못 분류됩니다. 이전 단락 (ML, PF)에서 설명한 추정기와 달리 PCA는 공통 요인 모델을 기반으로하지 않는 다른 정량 방법에 의존합니다. PCA는 공통 및 고유 분산을 구별하지 않습니다. 오히려 PCA는 이들 사이의 상관 관계를 설명하기보다는 관측 된 측정 값의 분산을 설명하는 것을 목표로합니다. 따라서, PCA는 더 큰 측정 값 세트를 후속 분석에 사용하기 위해 더 작고 관리하기 쉬운 복합 변수로 줄이기 위해 데이터 축소 기술로보다 적절하게 사용됩니다. 그러나 일부 방법 론자들은 PCA가 EFA에 대한 합리적이거나 우월한 대안이라고 주장했다. PCA가 몇 가지 바람직한 통계적 속성을 가지고 있다는 사실을 고려할 때 (예를 들어, 계산이 간단하고 부적절한 솔루션에 영향을받지 않음) 종종 EFA와 유사한 결과, PCA가 주요 구성 요소에 대한 참가자의 점수를 계산하는 능력, EFA는 그러한 계산을 복잡하게 만듭니다). 이 문제에 대한 논쟁은 계속되고 있지만 Fabrigar et al. (1999)는 요인 분석에서 PCA의 장소에 대한 주장에 반대하는 몇 가지 이유를 제시한다. 이 저자들은 EFA와 PCA가 다른 결과를 낳는 상황을 강조합니다. 예를 들어, 지역 사회가 적거나 주어진 요인에 대한 지표가 몇 개인 경우 (참조, Widaman, 1993). 종종 EFA의 결과와 유사한 결과를 생성합니다. PCA가 주요 구성 요소에 대한 참가자의 점수를 계산하는 기능은 EFA의 불확실한 특성으로 인해 계산이 복잡합니다. 이 문제에 대한 논쟁은 계속되고 있지만 Fabrigar et al. (1999)는 요인 분석에서 PCA의 장소에 대한 주장에 반대하는 몇 가지 이유를 제시한다. 이 저자들은 EFA와 PCA가 다른 결과를 낳는 상황을 강조합니다. 예를 들어, 지역 사회가 적거나 주어진 요인에 대한 지표가 몇 개인 경우 (참조, Widaman, 1993). 종종 EFA의 결과와 유사한 결과를 생성합니다. PCA가 주요 구성 요소에 대한 참가자의 점수를 계산하는 기능은 EFA의 불확실한 특성으로 인해 계산이 복잡합니다. 이 문제에 대한 논쟁은 계속되고 있지만 Fabrigar et al. (1999)는 요인 분석에서 PCA의 장소에 대한 주장에 반대하는 몇 가지 이유를 제시한다. 이 저자들은 EFA와 PCA가 다른 결과를 낳는 상황을 강조합니다. 예를 들어, 지역 사회가 적거나 주어진 요인에 대한 지표가 몇 개인 경우 (참조, Widaman, 1993). (1999)는 요인 분석에서 PCA의 장소에 대한 주장에 반대하는 몇 가지 이유를 제시한다. 이 저자들은 EFA와 PCA가 다른 결과를 낳는 상황을 강조합니다. 예를 들어, 지역 사회가 적거나 주어진 요인에 대한 지표가 몇 개인 경우 (참조, Widaman, 1993). (1999)는 요인 분석에서 PCA의 장소에 대한 주장에 반대하는 몇 가지 이유를 제시한다. 이 저자들은 EFA와 PCA가 다른 결과를 낳는 상황을 강조합니다. 예를 들어, 지역 사회가 적거나 주어진 요인에 대한 지표가 몇 개인 경우 (참조, Widaman, 1993).그럼에도 불구하고, 분석의 우선적 인 이론적 근거와 경험적 목표가 공통 요인 모델과 일치하는 경우, PCA를 수행하는 것은 개념적으로나 수학적으로 일치하지 않습니다. 즉, 명시된 목표가 관찰 된 측정 값에서 측정 오류의 존재를 인식하여 잠복 수가 적은 수의 지표 세트의 상호 상관을 재현하는 것이 더 적합합니다.Floyd와 Widaman (1995)은 PCA와 달리 EFA와 CFA가 공통 요인 모델을 기반으로한다는 점에서 EFA를 기반으로 한 추정치가 PCA에서 얻은 것보다 CFA를 일반화 할 가능성이 높다는 관련 포인트를 제시합니다. 이는 EFA가 규모 개발 및 구성 검증에서 CFA의 선구자로 자주 사용된다는 점에서 주목할만한 고려 사항입니다. PCA와 EFA 간의 계산 차이에 대한 자세한 데모는 다변량 및 요인 분석 교재 (예 : Tabachnick & Fidell, 2001)에서 확인할 수 있습니다.
브라운, TA (2006). 응용 연구에 대한 확인 요인 분석. 뉴욕 : 길 포드 출판사.
Tipping과 Bischop의 논문에서 Probabalistic PCA (PPCA)와 요인 분석 사이의 밀접한 관계가 논의되었습니다. PPCA는 기존 PCA보다 FA에 더 가깝습니다. 일반적인 모델은
Michael E. Tipping, Christopher M. Bishop (1999). 확률 적 주성분 분석 , 왕립 통계 학회지, 61 권, 3 호, 611–622 쪽
이 답변 중 어느 것도 완벽하지 않습니다. FA 또는 PCA에는 몇 가지 변형이 있습니다. 어떤 변형이 비교되는지 명확하게 지적해야합니다. 최대 가능성 요인 분석과 Hotelling의 PCA를 비교하겠습니다. 전자는 잠복 변수가 정규 분포를 따른다고 가정하지만 PCA에는 그러한 가정이 없습니다. 이로 인해 솔루션, 구성 요소의 중첩, 솔루션의 고유성, 최적화 알고리즘과 같은 차이가 발생했습니다.
이 게시물에 대한 많은 답변이 있지만 최근에 다른 차이점을 발견했습니다.
클러스터링은 PCA와 FA가 다른 결과를 생성하는 하나의 응용 프로그램입니다. 데이터에 많은 기능이있는 경우 상위 PC 방향을 찾고 이러한 PC에 데이터를 투영 한 다음 클러스터링을 진행할 수 있습니다. 종종 이것은 데이터의 고유 클러스터를 교란시킵니다-이것은 잘 입증 된 결과입니다. 연구자 들은 모델에서 낮은 차원의 잠재 요인을 찾는 하위 공간 클러스터링 방법을 진행할 것을 제안합니다.
이 차이를 설명하기 위해 Crabs
R 의 데이터 세트를 고려하십시오 . Crabs 데이터 세트에는 200 개의 행과 8 개의 열이 있으며, 두 가지 색상 형태와 각각의 성별에 대해 50 개의 크랩에서 5 개의 형태 학적 측정을 설명합니다. 게.
library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)
res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)
#using PC1 and PC2:
1 2 3 4
1 12 46 24 5
2 36 0 2 0
3 2 1 24 0
4 0 3 0 45
#using PC2 and PC3:
1 2 3 4
1 36 0 0 0
2 13 48 0 0
3 0 1 0 48
4 1 1 50 2
위의 그림에서 알 수 있듯이 PC2와 PC3은 PC1보다 더 많은 식별 정보를 가지고 있습니다.
요인 분석기 혼합을 사용하여 잠재 요인을 사용하여 클러스터를 시도하면 처음 두 PC를 사용하는 것과 비교하여 훨씬 더 나은 결과를 볼 수 있습니다.
mfa_model <- mfa(y, g = 4, q = 2)
|............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))
1 2 3 4
1 0 0 0 45
2 16 50 0 0
3 34 0 0 0
4 0 0 50 5