주성분 분석에서 첫 번째 주성분 은 최대 분산을 갖는 직교 방향입니다. 즉, 제 1 주성분은 최대 분산의 방향으로 선택되고, 제 2 주성분은 최대 분산을 갖는 제 1 방향과 직교하는 방향으로 선택된다.
요인 분석에 대한 유사한 해석이 있습니까? 예를 들어, 첫 번째 요인은 원래 상관 행렬 의 비대 각 성분 을 가장 잘 설명하는 요인이라고 생각합니다 (원래 상관 행렬과 요인). 이것이 사실입니까 (또는 비슷한 말이 있습니까)?
주성분 분석에서 첫 번째 주성분 은 최대 분산을 갖는 직교 방향입니다. 즉, 제 1 주성분은 최대 분산의 방향으로 선택되고, 제 2 주성분은 최대 분산을 갖는 제 1 방향과 직교하는 방향으로 선택된다.
요인 분석에 대한 유사한 해석이 있습니까? 예를 들어, 첫 번째 요인은 원래 상관 행렬 의 비대 각 성분 을 가장 잘 설명하는 요인이라고 생각합니다 (원래 상관 행렬과 요인). 이것이 사실입니까 (또는 비슷한 말이 있습니까)?
답변:
PCA는 주로 저 차원 공간에 데이터의 투영을 얻는 것이 목표 인 데이터 축소 기술입니다. 두 가지 동등한 목표는 반복적으로 분산을 최대화하거나 재구성 오류를 최소화하는 것입니다. 이것은 실제로이 이전 질문 에 대한 답변에서 일부 세부 사항으로 해결 됩니다.
대조적으로, 요소 분석 (A)의 생성 적 모델 주로 차원 데이터 벡터 라고 말하는 은 IS 잠재 요인 차원 벡터는 인 와 및 상관되지 않은 오류의 벡터입니다. 행렬의 행렬 요소 로딩 . 공분산 행렬의 특수 매개 변수화는 로 나타납니다. 가 다음과 같은 경우 동일한 모델을 얻 습니다.
따라서 질문에 답하기 위해 선택한 요인은 요인 분석 모델을 사용하여 자동으로 제공되지 않으므로 번째 요인 에 대한 단일 해석은 없습니다 . 의 열 공간을 추정 하는 데 사용되는 방법과 회전을 선택하는 데 사용되는 방법을 지정해야합니다. 경우 (모든 오류는 동일한 변화가)의 열 공간을위한 MLE 용액 있는 공간은 선행하여 스팬 특이 값 분해에 의해 발견 될 수 주성분 벡터. 물론 이러한 주요 구성 요소 벡터를 요인으로 회전 및보고하지 않도록 선택할 수 있습니다. A D = σ 2 I A q
편집 : 내가 보는 방법을 강조하기 위해 요인 분석 모델은 공분산 행렬의 모델을 순위 행렬 + 대각선 행렬로 나타냅니다. 따라서 모형의 목표 는 공분산 행렬에서 이러한 구조 의 공분산 을 가장 잘 설명하는 것 입니다. 공분산 행렬의 이러한 구조는 관찰되지 않은 차원 계수 와 호환됩니다 . 불행하게도, 요소를 고유하게 복구 할 수 없으며 가능한 요소 세트 내에서 요소를 선택하는 방법은 데이터 설명과 관련이 없습니다. PCA의 경우와 마찬가지로 데이터를 사전에 표준화하여 상관 행렬을 순위 + 대각선 행렬 로 설명하려는 모델에 적합 할 수 있습니다 . k k
@RAEGTIN, 당신이 옳다고 생각합니다. 추출 및 이전 회전 후, 각 연속 요소가 분산의 양이 적거나 적은 것처럼 각 연속 요인이 공변량 / 상관의 양을 줄입니다. 두 경우 모두로드 행렬 A의 열 이 제곱 된 요소 (로드)의 합입니다. 로딩은 상관 관계 bw 인자 및 변수이다; 따라서 첫 번째 요소는 R 행렬 에서 "전체"제곱 r의 가장 큰 부분을 설명하고 두 번째 요소는 두 번째 등을 설명한다고 말할 수 있습니다 . 그러나 부하에 의한 상관 관계를 예측할 때 FA와 PCA의 차이는 다음과 같습니다. FA R 을 복원하기 위해 "교정 됨"PCA는 m 개의 구성 요소로 복원하는 것이 무례한 반면 m 개의 추출 된 요소 (m factor <p 변수)만으로도 아주 세밀하게 알 수 있습니다. 오류없이 R 을 복원하려면 모든 p 구성 요소가 필요합니다 .
추신. FA에서, 로딩 값은 클린 커뮤니티 (상호 연관을 담당하는 분산의 일부)로 구성되며 PCA에서 로딩은 변수와 커뮤니티의 공통성 및 불일치의 혼합이며 따라서 가변성을 포착한다.