이 대답에서 (두 번째로 여기에 추가 된 다른 것) PCA 가 공분산을 잘 복원하지 못한다는 것을 그림으로 보여 주려고 노력할 것입니다 (복원-최대화-분산 최적화).
PCA 또는 요인 분석에 대한 많은 답변에서와 같이 주제 공간 의 변수에 대한 벡터 표현을하겠습니다 . 이 경우 변수 및 해당 구성 요소로드를 표시 하는 로드 도표 일뿐입니다. 그래서 우리는 및 변수 (데이터 세트에 두 개만 있음), 의 첫 번째 주요 구성 요소, 및 로딩 을 . 변수 사이의 각도도 표시됩니다. 변수는 예비 중심에 있었으므로 제곱 길이 및 는 각각의 분산입니다.X 2 F a 1 a 2 h 2 1 h 2 2X1X2Fa1a2h21h22
과 의 공분산은 스칼라 곱입니다. (이 코사인은 상관 관계 값입니다). 물론 PCA 성분 의 분산 인 의해 전체 분산 의 최대 값을 캡처합니다 .X1X2h1h2cosϕh21+h22a21+a22F
이제 공분산 . 여기서 은 변수 에 대한 변수 의 투영입니다 (두 번째에 의한 첫 번째의 회귀 예측 인 투영)입니다. 따라서 공분산의 크기는 아래의 사각형 영역 (측면 및 ) 으로 렌더링 될 수 있습니다 .h1h2cosϕ=g1h2g1X1X2g1h2
소위 "요인 정리 (factor theorem)"(인자 분석에서 무언가를 읽는지 알고있을 수도 있음)에 따르면, 변수 간의 공분산은 추출 된 잠복 변수 ( )를 읽으십시오 . 즉, 우리의 특별한 경우에 (주성분을 잠재 변수로 인식하는 경우). 재현 된 공분산의 값은 변 과 가진 사각형의 영역으로 표현 될 수 있습니다 . 비교하기 위해 이전 사각형에 맞춰 사각형을 그립니다. 이 사각형은 아래에 빗금 표시되어 있으며 해당 영역의 별명은 cov * (재현 된 cov )입니다.a1a2a1a2
이 예에서 cov * 가 상당히 더 큰 두 영역은 매우 유사하지 않습니다 . 공분산은 첫 번째 주성분 인 의 하중으로 과대 평가되었습니다 . 이것은 가능한 두 번째 요소 중 첫 번째 성분만으로 PCA가 공분산의 관측 된 값을 복원 할 것으로 기대할 수있는 사람과는 반대입니다.F
음모를 재현하기 위해 음모로 무엇을 할 수 있습니까? 예를 들어 빔으로 중첩 될 때까지 빔을 시계 방향으로 조금 회전시킬 수 있습니다 . 그들의 행이 일치하면 를 잠재적 변수로 강제 합니다. 그런 다음 ( 투영 )를 로드하는 것은 이고 ( 투영)을 로드하는 것은 입니다. 그런 다음 두 개의 사각형이 동일합니다 -cov 라는 레이블이 붙어서 공분산이 완벽하게 재현됩니다. 그러나 새로운 "잠복 변수"에 의해 설명 된 분산 인 는FX2X2a2X2h2a1X1g1g21+h22a21+a22 , 첫 번째 주요 구성 요소 인 이전 잠재 변수에 의해 설명 된 분산 공분산을 재현 할 수 있었지만 분산 량을 설명하는 비용은 발생했습니다. 즉, 첫 번째 주성분 대신 다른 잠재 축을 선택하여.
우리의 상상력이나 추측은 (수학자가 아니라 수학으로 증명할 수는 없으며 아마도 수학자가 아닙니다) 과 의해 정의 된 공간에서 잠재 축을 해제 하면 비행기가 스윙 할 수 있다고 제안 할 수 있습니다 우리를 향해 조금, 우리는 그것의 최적의 위치를 찾을 수 있습니다 라고 부르십시오. 그러면 분산이 설명 된 동안 ( ) 공분산이 다시 완벽하게 재현됩니다 ( )는 주성분 의 만큼 크지는 않지만 보다 큽니다 .X1X2F∗a∗1a∗2a∗21+a∗22g21+h22a21+a22F
이 조건 은 특히 잠재적 인 축 가 축과 및 다른 하나는 축과 포함합니다 . 그런 다음이 잠복 축을 공통 요인 이라고하며 전체 "독창성에 대한 시도"를 요인 분석 이라고 합니다 .F∗X1X2
PCA와 관련하여 @amoeba의 "Update 2"에 대한 답변.
@amoeba는 PCA와 SVD 또는 고유 분해에 기반한 고유 기술 (PCoA, biplot, 대응 분석)의 기초가되는 Eckart-Young 정리를 기억하는 데 정확하고 관련이 있습니다. 그것에 따르면, 의 번째 기본 축은 와 동일한 양을 최적으로 최소화 합니다. . 여기서 는 주축에 의해 재생 된 데이터를 나타냅니다 . 는 와 같은 것으로 알려져 있으며 , 는 의 가변 하중 입니다.kX||X−Xk||2tr(X′X)−tr(X′kXk)||X′X−X′kXk||2XkkX′kXkWkW′kWkk 구성 요소.
그것은 뜻 이 최소화 우리는 고려한다면 충실 오프 대각선 대칭 행렬의 일부를? 실험 해보자.||X′X−X′kXk||2
500 개의 랜덤 10x6
매트릭스 가 생성되었습니다 (균일 분포). 각각의 열을 중심으로 한 후 PCA가 수행되었고 두 개의 재구성 된 데이터 행렬 계산되었습니다. 하나는 구성 요소 1에서 3까지 재구성 된 것으로 ( PCA에서 보통 먼저) 다른 하나는 구성 요소 1, 2로 재구성 된 것으로 , 및 4 (즉, 성분 3은 약한 성분 4로 대체 됨). 재구성 오류 (제곱 차이의 합 = 제곱 유클리드 거리)는 하나의 에 대해, 다른 대해 계산되었습니다 . 이 두 값은 산점도에 표시 할 쌍입니다.XXkk||X′X−X′kXk||2XkXk
재구성 에러는 두가지 버전으로 매번 계산되었다 : (a) 전체 행렬 및 비교; (b) 두 행렬의 대각 외각 만 비교. 따라서, 우리는 두 개의 산점도를 가지고 있으며, 각각 500 포인트입니다.X′XX′kXk
"전체 행렬"그림에서 모든 점이 y=x
선 위에 있습니다. 이는 전체 스칼라 곱 행렬의 재구성이 "1, 2, 4 구성 요소"보다 "1-3 구성 요소"에 의해 항상 더 정확하다는 것을 의미합니다. 이것은 Eckart-Young 정리와 일치합니다. 첫 주요 구성 요소가 가장 적합합니다.k
그러나 "비 대각선 만"플롯을 보면 y=x
선 아래에 여러 점이 있습니다 . 때때로 "1 내지 3 개의 성분"에 의한 비 대각선 부분의 재구성은 "1, 2, 4 개의 성분"에 의한 것보다 더 나쁜 것으로 나타났다. 이는 최초의 주요 구성 요소가 PCA에서 사용 가능한 피팅 중에서 비대 각 스칼라 제품의 규칙적으로 가장 적합하지 않다는 결론을 자동으로 유도합니다 . 예를 들어, 강하지 않고 약한 구성 요소를 사용하면 재구성이 향상 될 수 있습니다.k
따라서 PCA 자체 의 영역에서도 우리가 아는 것처럼 전체 분산을 근사하고 전체 공분산 행렬을 수행하는 수석 주성분은 반드시 대각선 외부 공분산에 근사하지는 않습니다 . 따라서 더 나은 최적화가 필요합니다. 그리고 우리는 요인 분석 이 그것을 제공 할 수있는 기술 중 하나 라는 것을 알고 있습니다.
@amoeba의 "Update 3"에 대한 후속 조치 : 변수 수가 증가함에 따라 PCA가 FA에 접근합니까? PCA가 FA를 대신 할 수 있습니까?
나는 시뮬레이션 연구의 격자를 수행했습니다. 로딩 행렬 의 소수의 모집단 계수 구조 는 난수로 구성 되고 와 같은 해당 모집단 공분산 행렬로 변환되었으며 , 는 대각선 잡음입니다 (고유 차이). 이 공분산 행렬은 모든 분산 1로 만들어 졌으므로 상관 행렬과 같습니다.AR=AA′+U2U2
- 요인 구조의 두 가지 유형의 설계되었다 날카로운 및 확산 . 예리한 구조는 명확하고 간단한 구조를 가진 것입니다. (내 디자인에서) 각 변수는 정확히 하나의 요소에 의해 많이로드됩니다. 따라서 은 눈에 띄게 블록 모양입니다. 확산 구조는 고하 중과 저하 중을 구분하지 않습니다. 경계 내에서 임의의 값일 수 있습니다. 로딩 내에서 패턴이 생각되지 않는다. 결과적으로 해당 이 더 부드러워집니다. 모집단 행렬의 예 :RR
요인의 수는 또는 입니다. 변수의 수는 비율 k = 인자 당 변수의 수에 의해 결정되었다 ; k는 연구에서 값 을 실행했습니다 .264,7,10,13,16
몇몇 구성 모집단의 각 , (샘플 크기에서 Wishart 분포로부터 무작위로 실현이 )가 생성되었다. 이들은 샘플 공분산 행렬이었습니다. 각각은 PCA 뿐만 아니라 FA (주축 추출에 의해)에 의해 인자 분석되었다 . 또한, 이러한 공분산 매트릭스 각각은 동일한 방식으로 인자 분석 (인자) 된 대응하는 샘플 상관 행렬로 변환되었다 . 마지막으로, "부모", 집단 공분산 (= 상관) 행렬 자체의 인수 분해도 수행했습니다. 샘플링 적합성의 Kaiser-Meyer-Olkin 측정 값은 항상 0.7 이상이었습니다.50R50n=200
2 개의 요인이있는 데이터의 경우 분석에서 2 개의 요인과 1 개의 요인뿐만 아니라 3 개의 요인 (정확한 요인 수 체계의 "과소 평가"및 "과대 평가")이 추출되었습니다. 6 개 요인이있는 데이터의 경우 분석에서 마찬가지로 6 개뿐만 아니라 4 개 및 8 개 요인도 추출했습니다.
이 연구의 목표는 FA 대 PCA의 공분산 / 상관 복원 특성입니다. 따라서, 비 대각선 요소의 잔차가 얻어졌다. 재생 된 요소와 모집단 행렬 요소 사이의 잔차뿐만 아니라 전자와 분석 된 샘플 행렬 요소 사이의 잔차를 등록했습니다. 첫 번째 유형의 잔차는 개념적으로 더 재미있었습니다.
표본 공분산과 표본 상관 행렬에 대한 분석 후 얻은 결과에는 특정한 차이가 있었지만 모든 주요 결과는 비슷했습니다. 그러므로 나는 "상관 모드"분석에 대해서만 논의하고 (결과를 보여줍니다).
1. PCA 대 FA에 의한 전체적인 대각선 외 적합
아래의 도표는 다양한 수의 요인과 다른 k에 대해 PCA에서 산출 된 평균 제곱 된 비 대각선 잔차와 FA에서 산출 된 동일한 수량 의 비율을 나타냅니다 . 이것은 @amoeba가 "Update 3"에서 보여준 것과 유사합니다. 그림의 선은 50 번의 시뮬레이션에서 평균 경향을 나타냅니다 (여기에 오류 막대 표시는 생략 함).
(참고 : 결과는 모체 행렬을 부모로 인수하는 것이 아니라 무작위 표본 상관 행렬을 인수 분해하는 것에 관한 것입니다. PCA와 FA를 비교하는 방법에 대해 PCA를 FA와 비교하는 것은 어리석은 일입니다. FA는 항상 승리 할 것이며, 올바른 수의 요소가 추출되고 잔차가 거의 0이되어 비율이 무한대를 향해 돌진합니다.)
이 음모에 대한 주석 :
- 일반적인 경향 : k (요인 당 변수의 수)가 증가함에 따라 PCA / FA의 전체 하위 적합 비율은 1로 사라집니다. 즉, PCA가 FA에 접근하여 비대 각 상관 관계 / 공분산을 설명하는 데 더 많은 변수가 있습니다. (그의 대답에 @amoeba가 문서화했습니다.) 아마도 곡선을 근사하는 법칙은 비율 = exp (b0 + b1 / k)이고 b0은 0에 가깝습니다.
- 비율은 wrt 잔차 "인구 마이너스 재생 샘플"(오른쪽 플롯)보다 wrt 잔차 "샘플 마이너스 재생 샘플"(왼쪽 플롯)이 더 큽니다. 즉, (사소하게), PCA는 즉시 분석되는 매트릭스를 피팅하는 데 FA보다 열등합니다. 그러나 왼쪽 그림의 선은 감소 속도가 더 빠르므로 k = 16만큼 오른쪽 그림과 같이 비율도 2 미만입니다.
- 잔차 "인구에서 재생산 된 표본 빼기"를 사용하면 추세가 항상 볼록하거나 단조로운 것은 아닙니다 (비정상적인 팔꿈치가 원으로 표시됨). 따라서, 연설이 표본을 인수 분해하여 계수 의 모집단 행렬을 설명하는 한 , 변수의 수가 증가한다고해서 PCA가 적합 품질에서 FA에 더 가깝게되지는 않지만 경향이 있습니다.
- 모집단의 m = 6 요인보다 m = 2 요인의 비율이 더 큽니다 (빨간색 선은 굵은 녹색 선 아래에 있음). 즉, 데이터 PCA에서 더 많은 요소가 작용할수록 FA를 빨리 따라 잡을 수 있습니다. 예를 들어, 오른쪽 그림에서 k = 4는 6 개의 요인에 대해 약 1.7을 산출하는 반면, 2 개의 요인에 대한 동일한 값은 k = 7에 도달합니다.
- 실제 요인 수에 비해 더 많은 요인을 추출하면 비율이 더 높습니다. 즉, 추출시 요인의 수를 과소 평가하는 경우 PCA는 FA보다 적합하지 않습니다. 그리고 요인의 수가 정확하거나 과대 평가되면 더 많은 것을 잃습니다 (굵은 선으로가는 선을 비교하십시오).
- 잔차를“인구에서 재생산 된 표본 빼기”로 간주하는 경우에만 나타나는 인자 구조의 선명도에 대한 흥미로운 효과가 있습니다. 오른쪽의 회색과 노란색 플롯을 비교하십시오. 모집단 요인이 변수를 분산 적으로로드하면 빨간색 선 (m = 6 요인)이 맨 아래로 가라 앉습니다. 즉, 혼란스러운 숫자의 로딩과 같은 확산 구조에서 PCA (샘플에서 수행됨)는 모집단의 상관 관계를 재구성하는 데있어서 FA보다 훨씬 나쁘지 않습니다. 매우 작은. 이것은 아마도 PCA가 FA에 가장 가깝고 치퍼 대체물로 가장 보증되는 조건 일 것입니다. 예리한 요인 구조가 존재하는 경우 PCA는 모집단 상관 (또는 공분산)을 재구성하는 데 너무 낙관적이지 않습니다. 큰 k 관점에서만 FA에 접근합니다.
2. PCA 대 FA에 의한 요소 수준 적합 : 잔차 분포
모집단 매트릭스로부터 50 개의 랜덤 샘플 매트릭스의 팩토링 (PCA 또는 FA에 의한)을 수행하는 모든 시뮬레이션 실험에 대해, 잔차 분포 "인구 상관 관계-(인수 분해에 의해 재현 된) 샘플의 상관 관계" 는 모든 비 대각선 상관 요소에 대해 얻어졌다. 분포는 명확한 패턴을 따랐으며 전형적인 분포의 예는 바로 아래에 나와 있습니다. PCA 인수 분해 후 결과 는 파란색 왼쪽이고 FA 인수 분해 후 결과 는 녹색 오른쪽입니다.
주요 발견은
- 절대적 크기에 의해, 집단 상관은 PCA에 의해 부적절하게 복원된다 : 재생 된 값은 크기에 의해 과대 평가된다.
- 그러나 k (변수 수 대 인자 수 비)가 증가함에 따라 바이어스가 사라집니다 . 그림에서 요인 당 k = 4 변수 만있는 경우 PCA의 잔차는 0에서 오프셋으로 확산됩니다. 이는 2 개의 요인과 6 개의 요인이 모두있는 경우에 나타납니다. 그러나 k = 16이면 오프셋이 거의 보이지 않습니다. 거의 사라지지 않고 PCA 적합은 FA 적합에 접근합니다. PCA와 FA 사이의 잔차 확산 (분산) 차이는 관찰되지 않습니다.
추출 된 요소의 수가 실제 요소의 수와 일치하지 않는 경우에도 유사한 그림이 표시됩니다. 잔차의 분산 만 약간 변경됩니다.
회색 배경에 위에 표시된 분포 는 모집단에 존재 하는 예리한 (단순한) 요인 구조 를 사용한 실험과 관련이 있습니다. 확산 모집단 계수 구조의 상황에서 모든 분석을 수행 한 결과 , PCA의 바이어스는 k의 상승뿐만 아니라 m 의 상승 (계수)으로 사라짐을 알 수있었습니다. "6 요인, k = 4"열에 대한 축소 된 노란색 배경 부착물을 참조하십시오. PCA 결과에 대해 0에서 거의 오프셋이 관찰되지 않습니다 (오프셋은 아직 m = 2로 존재하지만 그림에는 표시되지 않음). ).
설명 된 결과가 중요하다고 생각하면서 잔차 분포를 더 깊게 검사하기로 결정 하고 잔차 (Y 축) 의 산점도 를 요소 (인구 상관) 값 (X 축)에 대해 플로팅했습니다 . 이 산점도는 각각 많은 (50) 시뮬레이션 / 분석 결과를 결합합니다. LOESS 핏 라인 (사용할 50 % 로컬 포인트, Epanechnikov 커널)이 강조 표시됩니다. 첫 번째 플롯 세트는 모집단에서 예리한 요인 구조 의 경우에 대한 것 입니다 (상관 값의 삼원 성이 분명합니다).
댓글 달기 :
- PCA의 특성 인 (위에서 설명한) 재구성 편향이 왜곡, 음의 추세 황토 선으로 나타납니다. 절대 값 모집단 상관 관계의 큰 값은 샘플 데이터 세트의 PCA에 의해 과대 평가됩니다. FA는 편견이 없습니다 (가로 황토).
- k가 커짐에 따라 PCA의 바이어스가 줄어 듭니다.
- PCA는 모집단에 몇 가지 요인이 있는지에 관계없이 편향됩니다. 6 개의 요인이 존재하고 (분석에서 6 개의 추출) 존재하는 2 개의 요인 (2 개의 추출)과 유사하게 결함이 있습니다.
아래의 두 번째 플롯 은 모집단 의 확산 계수 구조 에 대한 것입니다.
다시 PCA의 편견을 관찰합니다. 그러나 급격한 요인 구조의 경우와 달리 요인의 수가 증가함에 따라 바이어스가 사라집니다. 6 개의 모집단 요인으로 인해 PCA의 황토 선은 k 미만에서도 수평에 그리 멀지 않습니다. 4입니다. 노란색 히스토그램 "
두 가지 산점도에서 흥미로운 현상 중 하나는 PCA의 황토 선이 S 자 곡선이라는 것입니다. 이 곡률은 그 정도가 다양하고 종종 약하지만, 나에 의해 무작위로 구성된 다른 모집단 요소 구조 (부하)에서 보여집니다. S 자 형태를 따르는 경우, PCA는 0에서 (특히 작은 k에서) 바운스하여 상관 관계를 빠르게 왜곡하기 시작하지만 약 30에서 40 사이의 값에서 안정화됩니다. 나는 그 행동의 가능한 이유 때문에이 시점에서 추측하지 않을 것이다. 나는“정현파”가 삼각 관계의 삼각 관계에 기인한다고 믿는다.
PCA vs FA에 의한 적합 : 결론
상관 관계 / 공분산 행렬의 비 대각선 부분에 대한 전체 적합치 인 PCA는 모집단의 표본 행렬을 분석 할 때 요인 분석을 대체 할 수 있습니다. 이는 변수의 수 / 예상 요소의 수가 충분히 클 때 발생합니다. (비율의 유리한 효과에 대한 기하학적 이유는 하단 각주 설명되어 있습니다.) 더 많은 요소가 존재하면 비율은 몇 가지 요소보다 적을 수 있습니다. 샤프 팩터 구조 (단순한 구조는 모집단에 존재)의 존재는 FA의 품질에 접근하기 위해 PCA를 방해한다.1
잔차 "인구-재생산 된 표본"이 고려되는 한, PCA의 전체 적합 능력에 대한 날카로운 인자 구조의 효과는 명백하다. 따라서 시뮬레이션 연구 설정 밖에서는 그것을 인식하지 못할 수 있습니다. 샘플에 대한 관찰 연구에서는 이러한 중요한 잔차에 접근 할 수 없습니다.
요인 분석과 달리 PCA는 0에서 멀어진 모집단 상관 (또는 공분산)의 크기에 대한 (긍정적으로) 편향 추정량입니다. 그러나 PCA의 치우침은 변수의 수 / 예상 요소의 수가 증가함에 따라 감소 합니다. 인구 집단의 요인 수가 증가함에 따라 편향 도 감소하지만이 후자의 경향은 날카로운 요인 구조로 인해 방해받습니다.
잔차 "샘플 마이너스 재생 샘플"을 고려할 때 PCA 맞춤 바이어스와 그에 대한 날카로운 구조의 영향을 알 수 있습니다. 새로운 노출을 추가하지 않는 것 같기 때문에 이러한 결과를 표시하는 것을 생략했습니다.
결국 잠정적이고 광범위한 조언 은 요인 보다 10 배 이상 더 많은 변수가 없는 한 전형적인 (예 : 모집단에서 10 이하의 요인이 예상되는) 요인 분석 목적으로 FA 대신 PCA를 사용 하지 않는 것이 좋습니다. 필요한 비율이 낮을수록 요인이 적습니다. 나는 FA 대신 PCA 사용을 권장하지 더욱 것 모두 잘 확립, 날카로운 요인 구조와 데이터를 분석 할 때마다 -를 같은 요인 분석 유효성을 검사 할 때와 개발 또는 이미 관절 구조 / 규모와 심리 테스트 또는 설문 조사를 시작하고 . PCA는 심리 측정 기기를위한 초기의 예비 품목 선택 도구로서 사용될 수있다.
연구의 한계 . 1) 나는 인자 추출의 PAF 방법만을 사용했다. 2) 샘플 크기는 고정되었다 (200). 3) 샘플 행렬을 샘플링 할 때 정규 모집단이 가정되었습니다. 4) 예리한 구조를 위해 요인 당 동일한 수의 변수가 모델링되었습니다. 5) 모집단 계수 로딩 구성 나는 거의 균일 한 (예리한 구조-3 모달, 3 피스 균일) 분포에서 빌려왔다. 6) 물론이 즉각적인 시험에는 감독이있을 수 있습니다.
각주 . PCA 는 FA의 결과를 모방 하고 여기 에서 말한 것처럼 고유 요인 이라고 불리는 모델의 오류 변수 가 상관되지 않을 때 상관 관계의 동등한 적합치가됩니다 . FA는 노력 들이 상관 할 것이 아니라, PCA, 그들은 수없는 일이 PCA에 상관 될 수 있습니다. 발생할 수있는 주요 조건은 공통 요소 수 (공통 요소로 유지되는 구성 요소) 당 변수 수가 많은 경우입니다.1
다음 사진을 고려하십시오 (먼저 이해하는 방법을 배우려면 이 답변을 읽으십시오 ).
몇 가지 m
공통 요소 와의 성공적인 상관 관계를 복원 할 수있는 요소 분석의 요구 사항에 따라, 매니페스트 변수 의 통계적으로 고유 한 부분을 특징으로하는 고유 요소 는 서로 관련이 없어야합니다. PCA를 사용하는 경우, S는 거짓말 할 의 부분 공간 에 의해 스팬 - 공간 PCA이 때문에의 하지 않습니다 분석 변수의 공간을 남겨. 따라서 왼쪽 그림을 참조하십시오 (주요 구성 요소 은 추출 된 요소 임) 및 ( , ), 고유 한 요소 ,X U X P 1 X 1 X 2 U 1 U 2 r = − 1Up
Xp
Up-m
p
Xm=1
P1p=2
X1X2U1U2나머지 두 번째 구성 요소를 강제로 중첩합니다 (분석 오류로 표시). 결과적으로 그것들은 과 상관 관계가 있어야합니다 . (그림에서 벡터 간 코사인과의 상관 관계는 동일합니다.) 필요한 직교성은 불가능하며 변수 간의 관측 된 상관 관계는 절대로 복원 될 수 없습니다 (고유 한 요소가 0 인 경우가 아니라면 사소한 경우).r=−1
그러나 하나 더 많은 변수 ( ) 를 추가하면 오른쪽 그림과 여전히 하나의 pr을 추출합니다. 구성 요소를 공통 인자로 사용하려면 세 개의 가 평면에 있어야합니다 (나머지 두 개의 pr. 구성 요소로 정의). 3 개의 화살표는 각도가 180 도보 다 작은 방식으로 평면에 걸쳐있을 수 있습니다. 각도에 대한 자유가 생깁니다. 가능한 특정 경우로서, 각도 는 약 120 도일 수 있다. 그것은 이미 90도, 즉 상관 관계가 그리 멀지 않습니다. 이것은 그림에 표시된 상황입니다. UX3U
4 번째 변수를 추가하면 는 3D 공간에 걸쳐있게됩니다. (5), (5) 등을위한 공간 4D 걸쳐 많은 가까울 90도 확장 할 달성하는 동시에 각도. 이는 PCA가 비대 각 삼각형의 상관 행렬을 적합 시키는 능력 으로 FA에 접근 할 수있는 여지 또한 확대 될 것임을 의미합니다.U
그러나 실제 FA는 일반적으로 작은 비율의 "변수 수 / 인자 수"에서도 상관 관계를 복원 할 수 있습니다. 여기에 설명 된 (및 2 차 그림 참조) 요인 분석은 모든 요인 벡터 (공통 요인 (들) 및 고유 요인)를 허용하기 때문입니다. 변수 공간에 누워 있지 않아야합니다. 그러므로 단지 2 개의 변수 와 하나의 요인으로 도 의 직교성을위한 여지가 있습니다 .XUX
위의 그림은 PCA가 상관 관계를 과대 평가 하는 이유에 대한 확실한 단서를 제공 합니다. 왼쪽 그림 예에 1, s는의 돌출부이다 의 S (의 하중 )와 (S)의 길이이다 의 S (하중 ). 그러나 만으로 재구성 된 상관 관계는 와 같습니다 . 즉, 보다 큽니다 .rX1X2=a1a2−u1u2aXP1P1uUP2P1a1a2rX1X2