PCA가 분산을 설명하는 동안 요인 분석은 공분산을 어떻게 설명합니까?


37

다음은 Bishop의 "패턴 인식 및 기계 학습"책, 12.2.4 "인자 분석"에서 인용 한 내용입니다.

여기에 이미지 설명을 입력하십시오

강조 표시된 부분에 따르면, 요인 분석 은 행렬 변수 간 ​​공분산을 캡처합니다W . 나는 어떻게 궁금해 ?

내가 이해하는 방법은 다음과 같습니다. 말 관측 인 , 차원 변수 인자 로딩 매트릭스이며, 계수 스코어 벡터이다. 그러면 이 있습니다. 및 각 열 은 인자 로딩 벡터입니다 내가 쓴대로 는p W z x = μ + W z + ϵ , ( x 1x p ) = ( μ 1μ p ) + ( |xpWz

x=μ+Wz+ϵ,
Wwi=(wi1wip). Wm
(x1xp)=(μ1μp)+(||w1wm||)(z1zm)+ϵ,
W
wi=(wi1wip).
Wm고려 중인 요소 가 있음을 의미하는 열 .m

강조 표시된 부분에 따르면 여기에 요점이 있습니다. 각 열 의 하중 이 관측 된 데이터의 공분산을 설명 한다고 생각합니다 .wi

예를 들어 , 및 인 경우 첫 번째 로딩 벡터 , 에 대해 내가 말하고 싶지만 반면, 높은 상관 관계 그들과 상관 관계가없는 것 같다 내가 맞다? 1 I , J , K P 1 = 10 w 1 , J = 11 w 1 K = 0.1 X X J X (k)를w11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

그리고 이것이 요인 분석이 관측 된 피처 간의 공분산을 설명하는 방법이라면 PCA도 공분산을 설명한다고 말할 것입니다.


1
@ttnphns의 플롯은 주제 공간 표현을 참조하므로 여기에 가변 공간 및 주제 공간에 대한 자습서가 있습니다 : BTW, 이전 에 주제 공간 플롯 에 대해 몰랐습니다 . 이제 이해하고 여기에 대한 자습서가 있습니다 : amstat.org/ Publications / jse / v10n1 / yu / biplot.html . ;-)
아보카도

1
또한 로딩 을 보여주는 로딩 플롯 은 실제로 주제 공간이라는 점을 언급합니다. 가변 및 주제 공간을 둘 다 표시하는 것은 biplot입니다. stats.stackexchange.com/a/50610/3277을 보여주는 일부 그림 .
ttnphns

다음은 "일반적인 분산 '과 terminologically"공유 분산 "이 무엇인지에 대한 질문입니다 stats.stackexchange.com/q/208175/3277는 .
ttnphns

답변:


45

주성분 분석요인 분석 의 차이점은 다변량 기법에 대한 수많은 교과서와 기사에서 논의됩니다. 이 사이트 에서 전체 스레드새로운 스레드 및 이상한 답변을 찾을 수 있습니다 .

자세하게 설명하지 않겠습니다. 나는 이미 간결한 답변더 긴 답변을 받았고 이제 한 쌍의 그림으로 그것을 명확히하고 싶습니다.

그래픽 표현

아래 그림은 PCA를 설명합니다 . (이것은 PCA가 선형 회귀 및 표준 상관과 비교되는 곳 에서 차용 한 입니다. 그림은 주제 공간 의 변수에 대한 벡터 표현입니다 .

여기에 이미지 설명을 입력하십시오

이 그림의 PCA 구성에 대해 설명 했습니다 . 나는 대부분의 주요한 것들을 반복 할 것이다. 기본 구성 요소 및 는 변수 및 , "평면 X" 에 포함 된 동일한 공간에 있습니다. 4 개의 벡터 각각의 제곱 길이는 분산입니다. 과 간의 공분산 은 . 여기서 은 벡터 간 각도의 코사인과 같습니다.P1P2 X1X2X1X2cov12=|X1||X2|rr

구성 요소의 변수의 돌기 (좌표)는 의, 변수의 구성 요소의 하중이다 : 하중 모델링의 선형 결합의 회귀 계수있는 규격화 컴포넌트에 의해 변수 . "표준화"-성분의 분산에 대한 정보가 이미 하중에 흡수되기 때문에 (적재량은 각 고유 값에 대해 정규화 된 고유 벡터라는 것을 기억하십시오.) 그리고 그 때문에, 그리고 구성 요소들이 서로 관련이 없다는 사실 때문에, 로딩 변수와 구성 요소 사이의 공분산 입니다.a

차원 / 데이터 축소 목표로 PCA를 사용하면 만 유지 하고 를 나머지 또는 오류로 간주해야 합니다. 은 (는) 의해 포착 (설명) 된 분산 입니다.P1P2a112+a212=|P1|2P1


아래 그림 은 위에서 PCA와 동일한 변수 및 에서 수행 된 요인 분석을 보여줍니다 . ( 알파 팩터 모델, 이미지 팩터 모델이 있기 때문에 공통 팩터 모델에 대해 이야기하겠습니다 .) 웃는 태양은 조명을 돕습니다.X1X2

공통 요인은 입니다. 위 의 주요 구성 요소 과 유사합니다 . 이 둘의 차이점을 볼 수 있습니까? 예, 분명히 : 요인 은 변수 공간 "평면 X"에 있지 않습니다 .FP1

한 손가락으로 요인을 얻는 방법, 즉 요인 분석을하는 방법은 무엇입니까? 해보자. 이전 그림에서 손톱 끝으로 화살표 의 끝을 "평면 X"에서 끌어 내면서 "평면 U1"과 "평면 U2"라는 두 가지 새 평면이 어떻게 나타나는지 시각화합니다. 이들은 후크 벡터와 두 개의 가변 벡터를 연결합니다. 두 평면은 "평면 X"위에 후드 X1-F-X2를 형성합니다.P1

여기에 이미지 설명을 입력하십시오

후드를 고려하면서 계속 당기고 "평면 U1"과 "평면 U2"가 90도 를 형성 할 때 멈 춥니 다. 준비, 요인 분석이 완료되었습니다. 글쎄요, 그러나 아직 최적은 아닙니다. 패키지와 마찬가지로 올바르게하려면 화살표를 당기는 전체 운동을 반복하여 당기는 동안 손가락의 작은 왼쪽-오른쪽 스윙을 ​​추가하십시오. 이렇게하면 90도 각도에 도달하면서 두 변수의 제곱 투영 합 이 최대화 될 때 화살표 위치를 찾습니다 . 중지. 요인 분석을 수행하여 공통 요인 의 위치를 ​​찾았습니다 .F

다시 말하지만, 주성분 과 달리 계수 는 변수 공간 "평면 X"에 속하지 않습니다. 따라서 인 의 함수가 아니다 (주성분이며, 당신이 두 개의 상단 사진에서 확인 할 수있는 변수 여기 PCA는 근본적으로 두 가지 방향이다 : 구성 요소와 그 반대에 의해 변수를 예측). 따라서 요인 분석은 PCA와 같은 설명 / 단순화 방법이 아니며 잠복 요인이 관측 된 변수를 한 방향으로 조정하는 모델링 방법입니다.P1F

부하 의 변수에있는 요소의 PCA의 로딩과 같다; 그것들은 공분산이고 (표준화 된) 요인에 의한 모델링 변수의 계수입니다. 는 의해 포착 (설명) 된 분산 입니다. 주성분 인 것처럼이 수량을 극대화하는 요소가 발견되었습니다. 그러나 설명 된 분산은 더 이상 변수의 분산이 아니며, 대신에 변수 가 서로 다른 (상관되는) 분산 입니다. 왜 그래?aa12+a22=|F|2F

그림으로 돌아가십시오. 두 가지 요구 사항에 따라 를 추출했습니다 . 하나는 방금 언급 한 최대 제곱 하중의 합이었습니다. 다른 하나는 와 포함하는 "평면 U1" 과 와 포함하는 "평면 U2" 라는 두 개의 수직 평면을 만드는 것입니다 . 이러한 방식으로 각 X 변수가 분해 된 것으로 나타납니다. 은 서로 직교하는 변수 및 로 분해되었다 ; 도 마찬가지로 직교하는 변수 및 로 분해되었습니다 . 그리고 직교 . 우리는 가 무엇인지 안다FFX1FX2X1FU1X2FU2U1U2F- 공통 요소 . 독특한 요소 라고 합니다 . 각 변수에는 고유 한 요소가 있습니다. 의미는 다음과 같습니다. 뒤의 과 뒤의 는 과 상관 관계 를 방해하는 힘입니다 . 그러나 공통 요소 인 는 과 배후에있는 힘 입니다. 그리고 설명되는 차이는 그 공통 요소를 따라 있습니다. 따라서 순수한 공선 성 분산입니다. 이 만드는 분산이다 ; 의 실제 값UU1X1U2X2X1X2FX1X2cov12>0cov12하여 계수 향해 경사 변수에 의해 결정되는 집.a

따라서 변수의 분산 (벡터 길이의 제곱)은 고유성커뮤니티 의 두 가지 추가 분리 된 부분으로 구성됩니다 . 예제와 같이 두 가지 변수를 사용하면 최대 하나의 공통 요소를 추출 할 수 있으므로 공동체 = 단일 하중 제곱입니다. 많은 변수를 사용하면 몇 가지 공통 요소를 추출 할 수 있으며 변수의 공통성은 제곱 하중의 합입니다. 그림에서 공통 요소 공간 은 단 차원 ( 자체)입니다. 경우 m의 공통 요소가 존재하는 공간이다 m은u2 a2F-공동체는 공간에 대한 변수의 투영이고 하중은 변수에 대한 것뿐만 아니라 공간에 걸친 요인에 대한 투영의 투영입니다. 요인 분석에 설명 된 분산은 구성 요소가 분산을 설명하는 변수 공간과는 다른 공통 요인 공간 내에서의 분산입니다. 변수의 공간은 결합 된 공간의 뱃속에 있습니다 : m common + p unique factors.

여기에 이미지 설명을 입력하십시오

현재 사진을 한눈에 확인하십시오. 요인 분석이 수행 된 여러 변수 (예 : , , )가 두 가지 공통 요인을 추출했습니다. 요인 및 는 공통 요인 공간 "인자 평면"에 걸쳐 있습니다. 분석 된 변수들 중 하나 ( ) 만 그림에 표시됩니다. 분석은 두 개의 직교 부분, 및 고유 요인 . 공통성은 "인자 평면"에 있으며 요인의 좌표는 공통 요인이 로드하는 하중입니다 (= 좌표).X1X2X3F1F2X1C1U1X1X1요인 자체). 그림에는 다른 두 변수 ( 및 투영) 의 도 표시됩니다. 두 가지 공통 요소 가 모든 공동체 "변수" 의 주요 구성 요소 로 볼 수 있다는 점에 주목하는 것이 흥미로울 것 입니다. 일반적인 주성분이 변수의 다변량 총 분산을 선순으로 요약하지만, 요인은 다변량 공통 분산도 마찬가지로 요약합니다. X2X31

왜 그 모든 언어가 필요합니까? 난 그냥에 증거를주고 싶어 주장 당신이 그들의 correlatedness를 나타내는 변수와 다른 부분 (B) 사이 uncorrelatedness (직교)를 나타내는 두 개의 직교 잠재 부품, 하나의 (A)에 상관 각 변수를 분해 때 (공선) 결합 된 B에서만 요인을 추출하면 해당 요인의 하중에 따라 쌍별 공분산을 설명합니다. 요인 모델에서 요인 복원cov12a1a2하중에 의한 개별 공분산. PCA 모델에서는 PCA가 분해되지 않은 혼합 공선 + 직교 고유 분산을 설명하기 때문에 그렇지 않습니다. 보유하고있는 강력한 구성 요소와 그 이후의 구성 요소는 (A)와 (B) 부분의 융합입니다. 따라서 PCA는 하중에 의해 공분산을 맹목적이고 거칠게 만 활용할 수 있습니다.


PCA와 FA의 대조 목록

  • PCA : 변수 공간에서 작동합니다. FA : 변수의 공간을 잘라냅니다.
  • PCA : 변동성을 그대로 유지합니다. FA : 가변성을 공통의 고유 부품으로 분류합니다.
  • PCA : 비 분절 된 분산, 즉 공분산 행렬의 트레이스를 설명합니다. FA : 공통 분산 만 설명하므로 행렬의 비 대각선 요소 인 상관 관계 / 공분산을 설명합니다 (부하로 복원) . (PCA는 편차가 공분산의 형태로 공유되기 때문에 비 대각선 요소 설명합니다 .
  • PCA : 컴포넌트는 이론적으로 변수의 선형 함수이고, 변수는 이론적으로 컴포넌트의 선형 함수입니다. FA : 변수는 이론적으로 요인의 선형 함수입니다.
  • PCA : 경험적 요약 방법; 이것은 유지 m 부품. FA : 이론적 모델링 방법; 이는 적합한 고정 번호 m의 데이터에 대한 인자; FA를 테스트 할 수 있습니다 (확인 FA).
  • PCA : 가장 간단한 메트릭 MDS로 , 차원을 줄이면서 가능한 한 데이터 포인트 간의 거리를 간접적으로 보존하는 것을 목표로합니다. FA : 요인은 변수를 연관시키는 변수의 근본적인 잠재 특성입니다. 분석은 그 본질로만 데이터를 줄이는 것을 목표로합니다.
  • PCA : 구성 요소의 회전 / 해석- 경우에 따라 (PCA는 잠재 특성 모델만큼 현실적이지 않습니다). FA : 요인의 회전 / 해석 -일상적.
  • PCA : 데이터 축소 방법 만 해당. FA : 또한 코 히어 런트 변수의 군집을 찾는 방법입니다 (변수가 요인을 넘어서 상관 될 수 없기 때문입니다).
  • PCA는 : 부하 및 점수 숫자와 무관 m "추출"부품. FA : 하중 및 점수 숫자에 의존 m "추출"요소.
  • PCA : 구성 요소 점수는 정확한 구성 요소 값입니다. FA : 요인 점수는 실제 요인 값과 비슷하며 여러 계산 방법 이 있습니다. 요소 점수는 변수의 공간 (예 : 구성 요소)에 있지만 실제 요소 (요소로드로 구현)는 그렇지 않습니다.
  • PCA : 일반적으로 가정이 없습니다. FA : 약한 부분 상관의 가정 ; 때때로 다변량 정규성 가정; 일부 데이터 세트는 변환하지 않으면 분석에 "나쁜"것일 수 있습니다.
  • PCA : 비 반복 알고리즘; 항상 성공합니다. FA : 반복 알고리즘 (일반적으로); 때때로 비 수렴 문제; 특이점 은 문제가 될 수 있습니다.

1 세심한 . 그림에서 변수 및 자체 가 어디에 있는지 묻습니다. 왜 변수 가 그려지지 않았습니까? 답은 이론적으로도 그릴 수 없다는 것입니다. 그림의 공간은 3d입니다 ( "인자 평면"및 고유 벡터 ; 은 상호 보완, 평면 음영 회색으로 표시됨, 그림 2의 "후드"의 한 경사에 해당함), 그래픽 리소스가 소진되었습니다. 3 개의 변수 , , 의해 걸쳐있는 3 차원 공간 은 다른 공간입니다. "인자 평면"도 도X2X3U1X1X1X2X3U1그것의 부분 공간입니다. PCA와 다른 점은 요인이 변수 공간에 속하지 않는 것 입니다. 각 변수는 그림에 표시된 과 마찬가지로 "인자 평면"에 직교하는 별도의 회색 평면에 있으며 , 그게 전부입니다. 예를 들어 를 플롯 에 추가 하려면 4 차원을 발명해야합니다. (모든 는 서로 직교해야 함을 기억하십시오 . 따라서 다른 를 추가 하려면 차원을 더 확장해야합니다.)X1X2UU

마찬가지로 같이 회귀 계수는 (예측 인자에 종속 변수의 양 (들) 및 예측 (들)의 좌표 보기 "회귀"아래 그림과 여기 에도) FA하중은 요인에 따라 관찰 된 변수와 잠재 부분-커뮤니티의 좌표입니다. 그리고 회귀에서와 마찬가지로, 사실이 종속 (들)과 예측 변수를 서로의 하위 공간으로 만들지 않았으며, FA에서도 유사한 사실로 인해 관측 된 변수와 잠재 요인이 서로의 하위 공간이되지 않습니다. 예측 변수가 종속 반응에 "외계인"인 것처럼 인자는 변수에 대해 "외계인"입니다. 그러나 PCA에서는 다른 방법이 있습니다. 주성분은 관측 된 변수에서 파생되며 해당 공간에 국한됩니다.

따라서, 다시 한번 반복하면 : m FA의 공통 인자는 p 입력 변수 의 부분 공간이 아닙니다 . 반대로, 변수는 m + p ( m 개의 공통 요인 + p 개의 고유 요인) 공용 영역 초 공간에서 부분 공간을 형성합니다 . 이러한 관점에서 볼 때 (즉, 고유 한 요소도 끌어 들여) 클래식 FA는 클래식 PCA와 같은 차원 축소 기술이 아니라 차원 확장 기술 이라는 것이 분명해 졌습니다. 그럼에도 불구하고, 우리 는 그 부풀림 의 작은 ( m 차원 공통) 부분 에만 관심을 기울 입니다.이 부분은 상관 관계만을 설명하기 때문입니다.


감사하고 좋은 음모. 귀하의 답변 ( stats.stackexchange.com/a/94104/30540 )이 많은 도움이됩니다.
아보카도

2
(+11) 훌륭한 답변과 멋진 삽화! (바운티를 제공하기 전에 이틀 더 기다려야합니다.)
chl

@chl, 정말 감동 받았습니다.
ttnphns

@ttnphns : "제목 공간"(평면 X)은 데이터 세트에 데이터 포인트만큼 많은 좌표를 가진 공간입니다. 따라서 데이터 세트 (두 변수 X1 및 X2 포함)에 100 개의 데이터 포인트가 있으면 평면 X가 100 차원입니까? 그러면 요인 F가 어떻게 외부에있을 수 있습니까? 100 개의 모든 데이터 요소가 요인에 따라 일부 값을 가져서는 안됩니까? 그리고 다른 데이터 포인트가 없기 때문에 팩터 F는 동일한 100 차원 "주제 공간", 즉 평면 X에 있어야합니까? 내가 무엇을 놓치고 있습니까?
amoeba 말한다 Reinstate Monica

1
@amoeba, 귀하의 질문은 합법적이며 그렇습니다. 첫 번째 단락 인 stats.stackexchange.com/a/51471/3277을 참조하십시오 . 중복 치수가 삭제됩니다. 대상 공간의 크기는 해당 가변 공간의 실제와 중복되지 않는 실제 크기입니다. "공간 X"는 평면입니다. 우리가 +1 차원을 추가하면 (F를 덮기 위해) 전체 구성이 단일하고 해석 할 수 없게됩니다. F는 항상 가변 공간을 벗어납니다.
ttnphns

10

"공분산 설명"과 분산 설명

주교는 실제로 매우 간단한 것을 의미합니다. 계수 분석 모델 (식 12.64)에서 의 공분산 행렬 는 (수식 12.65)이것은 본질적으로 요인 분석 이 수행 하는 것입니다. 실제로 관측 된 공분산 행렬 가 : 의해 근사화 될 수 있도록 하중 행렬과 고유성 대각선 행렬을 찾습니다 .대각선 요소의

p(x|z)=N(x|Wz+μ,Ψ)
x
C=WW+Ψ.
ΣC
ΣWW+Ψ.
C 는 대각선 의 재구성 오류가 0이 되도록 대각선 행렬 항상 선택할 수 있기 때문에 의 대각선 요소와 정확히 같습니다 . 진짜 도전은 의 대각선을 벗어난 부분 에 잘 맞는 하중 를 찾는 것 입니다.ΣΨWΣ

의 비 대각선 부분은 변수 간의 공분산으로 구성됩니다. 그러므로 주교는 인자 적재가 공분산을 포착하고 있다고 주장합니다. 여기서 중요한 비트 요인 부하가 상관하지 않는 것이 전혀 (대각선 개인 차이에 대한 ).ΣΣ

반대로, PCA 하중 는 고유 값의 제곱근에 의해 확대 된 공분산 행렬 고유 벡터입니다 . 경우에만 주성분이 다음 선택된다 PCA 로딩 재현하려고 즉 전체 공분산 매트릭스 (및뿐만 아니라 FA와 같이 대각선이 아닌 부분). 이것이 PCA와 FA의 주요 차이점입니다.W~Σm<k

ΣW~W~,

추가 의견

@ttnphns의 답변 (+ 1)에서 그림을 좋아 하지만 두 변수의 매우 특별한 상황을 다루고 있다고 강조하고 싶습니다. 고려중인 변수가 두 개 뿐인 경우 공분산 행렬은 이고 하나의 비 대각선 요소 만 있으므로 100 %를 재현하기에 항상 하나의 요소로 충분합니다 (PCA는 두 개의 구성 요소가 필요함). 그러나 일반적으로 변수가 많으면 (예 : 12 개 이상) 적은 수의 성분을 갖는 PCA 나 FA는 공분산 행렬을 완전히 재현 할 수 없습니다. 게다가, 그것들은 보통 (필수는 아니지만!) 비슷한 결과를 낼 것입니다. 이 주장을 뒷받침하는 시뮬레이션과 추가 설명은 여기 내 대답을 참조하십시오.2×2

따라서 @ttnphns의 그림이 PCA와 FA가 매우 다르다는 인상을 줄 수 있지만 내 의견은 변수가 적거나 다른 특수 상황을 제외하고는 그렇지 않다는 의견입니다.

또한보십시오:

드디어:

예를 들어 , 및 인 경우 첫 번째 로딩 벡터 , 에 대해 내가 말하고 싶지만 및 반면, 높은 상관 관계 그들과 상관 관계가없는 것 같다 내가 맞다? 1 I , J , K P 1 = 10 w 1 , J = 11 w 1 K = 0.1 X X J X (k)를w11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

반드시 올바른 것은 아닙니다. 예,이 예에서 와 는 서로 관련이있을 수 있지만 다른 요인은 잊어 버리고 있습니다. 아마도 제 2 인자 의 로딩 벡터 는 및 대해 큰 값을 가질 것이다 ; 이것은 그들이 서로 잘 연관되어 있음을 의미합니다. 그러한 결론을 내리려면 모든 요소를 ​​고려해야합니다.X J w 2 X X Kxixjw2xixk


그럼에도 불구하고 대수적 전문 지식을 인정하고 확실히 답을 전합니다. 그럼에도 불구하고 누군가의 이전 기하 답변 (이 경우 광산)을 "잠재적으로 오도하는"것으로 분류하는 것만 큼 뾰족하지는 않습니다. 말 so hugely different은 내 것이 아니라 당신의 것입니다. 둘째, it is in fact not the case, except with very few variables그 자체가 당신이 한 번보다 더 깊이 시험해야 할 계시입니다.
ttnphns

의견을 보내 주셔서 감사합니다 @ttnphns. 나는 기하학적 인 답변에 대해 절대적으로 아무것도 없으며 실제로 가능한 경우 대답을 선호 합니다! 나는 정직하게 당신의 대답을 매우 좋아하며 내 +1을 가지고 있습니다. 하지만 두 변수 만 케이스를 고려하는 PCA-VS-FA 차이가 다른 것보다 더 강한 표시하고이 것을 만드는 것을 생각 할 수 있을 가능성이 (!) 오해의 소지가. 그러나 내 대답에 그런 단어를 사용해서는 안된다는 점에서 옳습니다. 죄송합니다. 지금 편집했습니다. 완전히 명확하게 말하면 : 적대감 (의심 한 느낌이 들었다면!)은 순전히 의도하지 않았습니다.
amoeba는

@amoeba 왜 어떤 사람들은 FA가 공분산을 유지하고 PCA가 분산을 유지한다고 말합니다. 귀하의 게시물에서 실제로 FA는 공분산을 유지하지만 PA는 분산 과 공분산 을 유지하려고합니다 . PCA가 분산을 유지한다고 말하는 것은 게시물의 설명이 아니라 목적 함수에서 비롯된 것입니까?
user_anon
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.