동일한 데이터 세트에 대한 PCA 및 탐색 적 요인 분석 : 차이점 및 유사성; 요인 모델 대 PCA


19

동일한 데이터 세트에서 주성분 분석 (PCA)과 탐색 적 요인 분석 (EFA)을 수행하는 것이 논리적으로 합리적인지 알고 싶습니다. 전문가가 다음과 같이 명시 적으로 추천하는 것을 들었습니다.

  1. 분석 목표가 무엇인지 이해하고 데이터 분석을 위해 PCA 또는 EFA를 선택하십시오.
  2. 하나의 분석을 수행하면 다른 분석을 수행 할 필요가 없습니다.

둘 사이의 동기 차이를 이해하지만 PCA와 EFA가 동시에 제공 한 결과를 해석하는 데 어떤 문제가 있는지 궁금합니다.


8
왜 불안한가? 둘 사이의 동기 차이를 이해한다면 다음 두 가지 입장 중 하나에 있어야합니다. 당신이하고 싶은 일에 대해 더 설득력있는 것으로 간주하십시오. 옳은 일이 있다고 들리는 것 같지만 FA가 있거나없는 PCA는 논란의 여지가 많은 분야입니다. 두 전문가가 동의하면 보통 세 번째 전문가와 의견이 다르지만 원인.
Nick Cox

무슨 공부해? 행복 과 같은 사회 과학 이나 금리와 같은 객관적인 데이터?
Aksakal

답변:


20

두 모델 - 주요 구성 요소공통 요소 - regressional 모델은 잠재 변수에 의해 관찰 된 변수를 예측하는 선형 유사한 간단합니다. 중심 변수 V1 V2 ... Vp 를 가지고 2 개의 성분 / 인자 FIFII 를 추출하기로했습니다 . 그런 다음 모델은 방정식 시스템입니다.

V1=a1IFI+a1IIFII+E1

V2=a2IFI+a2IIFII+E2

...

Vp=

여기서 계수 a 는 하중이고, F 는 요인 또는 성분이며 변수 E 는 회귀 잔차입니다. 여기서, FA 모델 과 다른 PCA 모델 정확히 FA가 요구 사항을 부과하는 것으로하여 : 변수 E1 E2 ... EP 합니다 (와 상관되는 오류 용어 F 들)을 반드시 상관 관계를하지 서로 (와 참조 사진 ). 이러한 오류 변수 FA는 "고유 요소"를 호출합니다. 이들의 분산은 알려져 있지만 ( "고유성") 대소 문자 값은 알 수 없습니다. 따라서 요인 점수 F 는 근사값으로 만 계산되며 정확하지는 않습니다.

(이 공통 요소 분석 모델의 행렬 대수 표현은 각주 1에 있습니다.)1

PCA에서 다른 변수를 예측하는 데 따른 오류 변수는 자유롭게 상관 될 수 있습니다. 그것들은 우리가 남은 p-2 치수를 취한 "드 로스"를 나타냅니다 . E 의 값을 알고 있으므로 성분 점수 F 를 정확한 값으로 계산할 수 있습니다 .

그것은 PCA 모델과 FA 모델의 차이점이었습니다.

FA가 쌍별 상관 관계 (공분산)를 설명 할 수 있다는 것은 위에서 설명한 차이 때문이다. PCA는 일반적으로이를 수행 할 수 없습니다 (추출 된 구성 요소의 수 = p가 아닌 한 ) 다변량 분산 2 만 설명 할 수 있습니다 . 따라서 상관 관계를 설명하기 위해 "인자 분석"이라는 용어를 정의하는 한 PCA 요인 분석 이 아닙니다 . "인자 분석"이 해석 될 수있는 잠재적 인 "특성"을 제공하거나 제안하는 방법으로 더 광범위하게 정의되면 PCA는 특별하고 가장 간단한 요인 분석 형태를 볼 수 있습니다 .2

때로는 특정 조건 하의 일부 데이터 세트에서 PCA는 거의 상관 관계가없는 E 항을 남깁니다 . 그러면 PCA는 상관 관계를 설명하고 FA처럼 될 수 있습니다. 변수가 많은 데이터 세트에서는 그리 드물지 않습니다. 이로 인해 일부 관찰자들은 데이터가 증가함에 따라 PCA 결과가 FA 결과에 가까워 졌다고 주장했습니다. 나는 그것이 규칙이라고 생각하지 않지만 실제로 경향이있을 수 있습니다. 어쨌든 이론상의 차이점을 감안할 때 항상 방법을 의식적으로 선택하는 것이 좋습니다. FA는 변수를 잠재 변수로 줄이고 변수 뒤에 서서 실제 잠재 특성으로 간주하여 상관 관계를 유지하려는 경우 보다 현실적인 모델입니다.

그러나 데이터 클라우드 지점 간의 거리를 최대한 유지하면서 차원을 줄이려는 또 다른 목표가 있다면 PCA가 FA보다 낫습니다. (그러나 반복적 다차원 스케일링 (MDS) 절차가 훨씬 나을 것입니다. PCA 는 비 반복적 메트릭 MDS에 해당합니다.) 더 많은 거리를 신경 쓰지 않고 데이터의 전체 분산의 많은 부분을 보존하는 데에만 관심이있는 경우 가능한 적은 치수로 PCA가 최적의 선택입니다.


요인 분석 데이터 모델 : V = F A ' + E d i a g ( u ) , 여기서 V 는데이터를 분석하고 (열 중심 또는 표준화), F 는공통 요인 값 (인수 점수가 아닌 알 수없는 실제 값)입니다. 분산, A 는공통 요소 로딩의 행렬 (패턴 행렬), E 는고유 한 요인 값 (알 수 없음), u 는고유성의 제곱근 ( u 2 )과 동일한 고유 요인 로딩의벡터입니다. 일부1V=FA+Ediag(u)Vn cases x p variablesFn x mAp x mEn x pupu2답을 여는 공식에서와 같이 간단하게하기 위해 E d i a g ( u ) 를 "E"로 표시 할 수 있습니다.Ediag(u)

모델의 주요 가정 :

  • E 변수 (각각 공통 요인과 고유 요인)에는 평균 및 단위 분산이 없습니다. E 는 일반적으로 다변량 법선으로 가정되지만 일반적으로 F 는다변량 법선일 필요는 없습니다 (둘 다 다변량 법선으로 가정하면 V 도 마찬가지입니다).FEEFV
  • 변수는 서로 관련이 없으며 F 변수와 관련이 없습니다.EF

공통요인 분석모델에따르면 A ( m )으로 표시 되는 m 개의공통 요인 (m<p변수)의하중 A 가변수 Σ 사이의 관측 된 공분산 (또는 상관)을 밀접하게 재현해야합니다. 따라서 요인이 직교 인 경우 기본요인 정리에따르면2 AA(m)Σ

Σ Σ +는거라고Ig(U(2)),Σ^=AAΣΣ^+diag(u2)

여기서, Σ는 그 대각선에 공통 차이 ( "communalities")와 재생 공분산 (혹은 상관 관계)의 행렬이고; 그리고 분산에서 커뮤니티를 뺀 고유 분산 ( "고유성")은 벡터 u 2 입니다. 비 대각선 불일치 ( )는 요인이 데이터를 생성하는 이론적 모델이므로 생성 된 관찰 된 데이터보다 단순하기 때문입니다. 관찰 된 공분산과 재생 된 공분산 (또는 상관) 사이의 불일치의 주요 원인은 다음과 같을 수있다 : (1) 인자의 수 m 은 통계적으로 최적이 아니며; (2) 부분 상관 관계Σ^u2p(p-1)/2공통 요인에 속하지 않는 요인)이 발음됩니다. (3) 커뮤니티는 잘 평가되지 않았으며 초기 값은 좋지 않았다. (4) 관계는 선형이 아니며 선형 모델을 사용하는 것은 의문의 여지가있다. (5) 추출 방법으로 생성 된 모델 "하위 유형"은 데이터에 적합하지 않습니다 (다른 추출 방법 에 대한 참조 ). 즉, 일부 FA 데이터 가정 이 완전히 충족되지 않습니다.

일반 PCAm = p (모든 구성 요소가 사용 된 경우) 일 때 하중에 의한 공분산을 정확하게 재현 하고 m < p (1 번째 구성 요소 만 보유한 경우) 인 경우에는 일반적으로이를 수행하지 않습니다 . PCA에 대한 요인 정리는 다음과 같습니다.

,Σ=AA(p)=AA(m)+AA(pm)

따라서 로딩과 드롭 된 A ( p - m ) 로딩은 모두 커뮤니티와 고유성을 혼합 한 것으로 개별적으로 공분산을 복원하는 데 도움이되지는 않습니다. mp에 가까울 수록 PCA가 공분산을 더 잘 회복하지만 일반적으로 작은 m 은 도움이되지 않습니다. 이것은 FA와는 다른데, 이는 아주 작은 최적의 요인으로 공분산을 복원 하기위한 것 입니다. 경우 ' ( P - m가 ) 접근 diagonality의 PCA 함께, FA처럼되고A(m)A(pm)AA(pm) 모든 공분산을 복원합니다. 이미 언급했듯이 PCA에서 가끔 발생합니다. 그러나 PCA는 그러한 대각선 화를 강제하는 알고리즘 능력이 부족합니다. 그것을하는 것은 FA 알고리즘입니다.A(m)

A(m)

trace(AA(m))

ΣAAtrace(AA)trace(AA)AA

추적을 극대화 덕분에 - 분산에 의해 설명 m의 구성 요소 - PCA가 되어 공분산은 분산을 공유하고 있기 때문에, 공분산를 차지한다. 이런 의미에서 PCA는 변수의 공분산 행렬 전체 의 "낮은 순위 근사치"입니다 . 그리고 관측 관점에서 볼 때이 근사치는 유클리드 거리 관측 행렬의 근사치입니다. PCA가 "주 좌표 분석"이라고하는 메트릭 MDS입니다.이 사실은 PCA가 모델링하지 않는다는 사실에서 우리를 차단해서는 안됩니다. 변수에 대해 초월적인 것으로 상상할 수있는 소수의 살아있는 잠복 특성에 의해 생성 된 공분산 행렬 (각 공분산); PCA 근사치가 좋은 경우에도 영구적으로 유지됩니다.


PCA 및 FA에서 수행 된 단계별 계산을보고 주석을 달고 비교 하려면 여기를 참조 하십시오 .


훌륭한 답변입니다.
Subhash C. Davar

2
PCA 시청에 대한 신선한 시각을 제공합니다. 이제 PCA와 FA 모두 관측 된 변수의 분산을 설명 할 수 있으며, FA는 각 변수의 오차 항을 상관시키지 않아야한다고 지시하기 때문에 PCA는 이러한 구술을하지 않으므로 FA는 모든 공분산을 포착 할 수 있습니다. PCA에서 모든 PC를 사용하여 관찰 된 변수를 나타내지 않는 한, PCA에서 오류 항에 관측 된 변수의 일부 공분산이 포함될 수 있기 때문에 관측 된 변수는 그렇지 않습니다.
아보카도

1
바로 그거죠. PCA는 공분산 값을 과소 평가할 수있을뿐만 아니라 (과도하게도) 과대 평가할 수도 있습니다. 요컨대, a1 * a2 <Cov12는 PCA의 정상적인 동작입니다. FA의 경우, 이는 차선책의 표시 일 것입니다 (예 : 잘못된 수의 추출 된 요소).
ttnphns

Σ=WW+σ2IΣ=WW+ΨΨ
amoeba 말한다 Reinstate Monica

ΣWWWΨσ2

6

다음 스레드에서 PCA와 FA의 유사점과 차이점에 대한 본인의 설명을 제공했습니다. EFA 대신 PCA를 사용해야 할 이유가 있습니까? 또한 PCA가 요인 분석을 대신 할 수 있습니까?

내 계정은 @ttnphns의 계정과 다소 다릅니다 (위의 답변에 제시된 바와 같이). 나의 주요 주장은 PCA와 FA가 종종 생각되는 것과 다르지 않다는 것입니다. 변수의 수가 매우 적을 때 실제로 크게 다를 수 있지만 변수의 수가 약 12 ​​개가 넘으면 비슷한 결과를 얻는 경향이 있습니다. 수학적 세부 사항과 Monte Carlo 시뮬레이션에 대해서는 링크 된 스레드에서 [long!] 답변을 참조하십시오. 내 주장의 훨씬 더 간결한 버전은 다음을 참조하십시오. PCA와 FA는 어떤 조건에서 유사한 결과를 산출합니까?

여기서 나는 당신의 주요 질문에 명시 적으로 대답하고 싶습니다 : 동일한 데이터 세트에서 PCA와 FA를 수행하는 데 문제가 있습니까? 이에 대한 나의 대답은 : 아니다.

PCA 또는 FA를 실행할 때는 가설을 테스트하지 않습니다. 둘 다 데이터를 더 잘 이해하는 데 사용되는 탐색 기술입니다. 그렇다면 두 가지 도구를 사용하여 데이터를 탐색 해보십시오. 실제로 해보자!

예 : 와인 데이터 세트

n=178p=13

와인 데이터 세트의 PCA 및 FA 분석


If the results turn out to be very similar, then you can decide to stick with only one approach. 확실한. 그러면 얼마나 비슷한가요? If the results turn out to be very different, then maybe it tells you something about your data그것은 완벽하게 신비적이고 밀교 적입니다.
ttnphns

흠, 확실하지 않으면 죄송합니다. 내가 의미하는 바는 변수가 많고 PCA가 FA와 매우 다른 로딩을 생성하면 무언가를 알려줍니다. 아마도, 공동체는 매우 낮다 (즉, 상관 행렬은 대각선에 의해 지배되고 비 대각선 요소는 작다). 이것은 흥미로운 관찰이 될 수 있습니다. 어떤 이유로 PCA 및 FA로 동일한 데이터 세트를 분석하고 매우 다른 결과를 얻은 경우 추가 조사를 수행합니다. 말이 되나요?
amoeba는 19:51에 Reinstate Monica

@ ttnphns : 하나의 특정 데이터 세트에 대한 예제를 업데이트했습니다. 나는 당신이 그것을 즐기시기 바랍니다! 연결된 (신규) 답변도 참조하십시오. 제가 FA biplot을 만든 것은 이번이 처음이며, 이전 대화에서 많은 도움이되었습니다.
amoeba는 Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.