두 모델 - 주요 구성 요소 및 공통 요소 - regressional 모델은 잠재 변수에 의해 관찰 된 변수를 예측하는 선형 유사한 간단합니다. 중심 변수 V1 V2 ... Vp 를 가지고 2 개의 성분 / 인자 FI 와 FII 를 추출하기로했습니다 . 그런 다음 모델은 방정식 시스템입니다.
V1= a1 나는에프나는+ a1 나는나는에프나는나는+ E1
V2= a2 나는에프나는+ a2 나는나는에프나는나는+ E2
. . .
V피= …
여기서 계수 a 는 하중이고, F 는 요인 또는 성분이며 변수 E 는 회귀 잔차입니다. 여기서, FA 모델 과 다른 PCA 모델 정확히 FA가 요구 사항을 부과하는 것으로하여 : 변수 E1 E2 ... EP 합니다 (와 상관되는 오류 용어 F 들)을 반드시 상관 관계를하지 서로 (와 참조 사진 ). 이러한 오류 변수 FA는 "고유 요소"를 호출합니다. 이들의 분산은 알려져 있지만 ( "고유성") 대소 문자 값은 알 수 없습니다. 따라서 요인 점수 F 는 근사값으로 만 계산되며 정확하지는 않습니다.
(이 공통 요소 분석 모델의 행렬 대수 표현은 각주 1에 있습니다.)1
PCA에서 다른 변수를 예측하는 데 따른 오류 변수는 자유롭게 상관 될 수 있습니다. 그것들은 우리가 남은 p-2 치수를 취한 "드 로스"를 나타냅니다 . E 의 값을 알고 있으므로 성분 점수 F 를 정확한 값으로 계산할 수 있습니다 .
그것은 PCA 모델과 FA 모델의 차이점이었습니다.
FA가 쌍별 상관 관계 (공분산)를 설명 할 수 있다는 것은 위에서 설명한 차이 때문이다. PCA는 일반적으로이를 수행 할 수 없습니다 (추출 된 구성 요소의 수 = p가 아닌 한 ) 다변량 분산 2 만 설명 할 수 있습니다 . 따라서 상관 관계를 설명하기 위해 "인자 분석"이라는 용어를 정의하는 한 PCA 는 요인 분석 이 아닙니다 . "인자 분석"이 해석 될 수있는 잠재적 인 "특성"을 제공하거나 제안하는 방법으로 더 광범위하게 정의되면 PCA는 특별하고 가장 간단한 요인 분석 형태를 볼 수 있습니다 .2
때로는 특정 조건 하의 일부 데이터 세트에서 PCA는 거의 상관 관계가없는 E 항을 남깁니다 . 그러면 PCA는 상관 관계를 설명하고 FA처럼 될 수 있습니다. 변수가 많은 데이터 세트에서는 그리 드물지 않습니다. 이로 인해 일부 관찰자들은 데이터가 증가함에 따라 PCA 결과가 FA 결과에 가까워 졌다고 주장했습니다. 나는 그것이 규칙이라고 생각하지 않지만 실제로 경향이있을 수 있습니다. 어쨌든 이론상의 차이점을 감안할 때 항상 방법을 의식적으로 선택하는 것이 좋습니다. FA는 변수를 잠재 변수로 줄이고 변수 뒤에 서서 실제 잠재 특성으로 간주하여 상관 관계를 유지하려는 경우 보다 현실적인 모델입니다.
그러나 데이터 클라우드 지점 간의 거리를 최대한 유지하면서 차원을 줄이려는 또 다른 목표가 있다면 PCA가 FA보다 낫습니다. (그러나 반복적 다차원 스케일링 (MDS) 절차가 훨씬 나을 것입니다. PCA 는 비 반복적 메트릭 MDS에 해당합니다.) 더 많은 거리를 신경 쓰지 않고 데이터의 전체 분산의 많은 부분을 보존하는 데에만 관심이있는 경우 가능한 적은 치수로 PCA가 최적의 선택입니다.
요인 분석 데이터 모델 : V = F A ' + E d i a g ( u ) , 여기서 V 는데이터를 분석하고 (열 중심 또는 표준화), F 는공통 요인 값 (인수 점수가 아닌 알 수없는 실제 값)입니다. 분산, A 는공통 요소 로딩의 행렬 (패턴 행렬), E 는고유 한 요인 값 (알 수 없음), u 는고유성의 제곱근 ( u 2 )과 동일한 고유 요인 로딩의벡터입니다. 일부1V = F A'+ E dI g( u )Vn cases x p variables
에프n x m
ㅏp x m
이자형n x p
유p
유2답을 여는 공식에서와 같이 간단하게하기 위해 E d i a g ( u ) 를 "E"로 표시 할 수 있습니다.E dI g( u )
모델의 주요 가정 :
- 및 E 변수 (각각 공통 요인과 고유 요인)에는 평균 및 단위 분산이 없습니다.
E 는 일반적으로 다변량 법선으로 가정되지만 일반적으로 F 는다변량 법선일 필요는 없습니다 (둘 다 다변량 법선으로 가정하면 V 도 마찬가지입니다).에프이자형이자형에프V
- 변수는 서로 관련이 없으며 F 변수와 관련이 없습니다.이자형에프
공통요인 분석모델에따르면 A ( m )으로 표시 되는 m 개의공통 요인 (m<p변수)의하중 A 가변수 Σ 사이의 관측 된 공분산 (또는 상관)을 밀접하게 재현해야합니다. 따라서 요인이 직교 인 경우 기본요인 정리에따르면2 ㅏㅏ( m )Σ
및Σ≈ Σ +는거라고Ig(U(2)),Σ^= A A'Σ ≈ Σ^+ d i a g ( u2)
여기서, Σ는 그 대각선에 공통 차이 ( "communalities")와 재생 공분산 (혹은 상관 관계)의 행렬이고; 그리고 분산에서 커뮤니티를 뺀 고유 분산 ( "고유성")은 벡터 u 2 입니다. 비 대각선 불일치 ( ≈ )는 요인이 데이터를 생성하는 이론적 모델이므로 생성 된 관찰 된 데이터보다 단순하기 때문입니다. 관찰 된 공분산과 재생 된 공분산 (또는 상관) 사이의 불일치의 주요 원인은 다음과 같을 수있다 : (1) 인자의 수 m 은 통계적으로 최적이 아니며; (2) 부분 상관 관계Σ^유2≈p(p-1)/2
공통 요인에 속하지 않는 요인)이 발음됩니다. (3) 커뮤니티는 잘 평가되지 않았으며 초기 값은 좋지 않았다. (4) 관계는 선형이 아니며 선형 모델을 사용하는 것은 의문의 여지가있다. (5) 추출 방법으로 생성 된 모델 "하위 유형"은 데이터에 적합하지 않습니다 (다른 추출 방법 에 대한 참조 ). 즉, 일부 FA 데이터 가정 이 완전히 충족되지 않습니다.
일반 PCA 는 m = p (모든 구성 요소가 사용 된 경우) 일 때 하중에 의한 공분산을 정확하게 재현 하고 m < p (1 번째 구성 요소 만 보유한 경우) 인 경우에는 일반적으로이를 수행하지 않습니다 . PCA에 대한 요인 정리는 다음과 같습니다.
,Σ = A A'( p )= A A'( m )+ A A'( p - m )
따라서 로딩과 드롭 된 A ( p - m ) 로딩은 모두 커뮤니티와 고유성을 혼합 한 것으로 개별적으로 공분산을 복원하는 데 도움이되지는 않습니다. m 이 p에 가까울 수록 PCA가 공분산을 더 잘 회복하지만 일반적으로 작은 m 은 도움이되지 않습니다. 이것은 FA와는 다른데, 이는 아주 작은 최적의 요인으로 공분산을 복원 하기위한 것 입니다. 경우 ' ( P - m가 ) 접근 diagonality의 PCA 함께, FA처럼되고ㅏ( m )ㅏ( p - m )AA'( p - m ) 모든 공분산을 복원합니다. 이미 언급했듯이 PCA에서 가끔 발생합니다. 그러나 PCA는 그러한 대각선 화를 강제하는 알고리즘 능력이 부족합니다. 그것을하는 것은 FA 알고리즘입니다.ㅏ( m )
ㅏ( m )
t r a c e ( A'ㅏ( m ))
ΣAA'trace(AA′)trace(A′A)A′A
추적을 극대화 덕분에 - 분산에 의해 설명 m의 구성 요소 - PCA가 되어 공분산은 분산을 공유하고 있기 때문에, 공분산를 차지한다. 이런 의미에서 PCA는 변수의 공분산 행렬 전체 의 "낮은 순위 근사치"입니다 . 그리고 관측 관점에서 볼 때이 근사치는 유클리드 거리 관측 행렬의 근사치입니다. PCA가 "주 좌표 분석"이라고하는 메트릭 MDS입니다.이 사실은 PCA가 모델링하지 않는다는 사실에서 우리를 차단해서는 안됩니다. 변수에 대해 초월적인 것으로 상상할 수있는 소수의 살아있는 잠복 특성에 의해 생성 된 공분산 행렬 (각 공분산); PCA 근사치가 좋은 경우에도 영구적으로 유지됩니다.
PCA 및 FA에서 수행 된 단계별 계산을보고 주석을 달고 비교 하려면 여기를 참조 하십시오 .