PCA 로딩을 해석하는 방법?


13

PCA에 대해 읽으면서 다음과 같은 설명을 들었습니다.

각 데이터 포인트가 수학 시험, 물리 시험, 독해 시험 및 어휘 시험에서 단일 학생의 점수를 나타내는 데이터 세트가 있다고 가정하십시오.

데이터의 변동성의 90 %를 포착하고 그로드를 해석하는 처음 두 가지 주요 구성 요소를 찾습니다. 첫 번째 주요 구성 요소는 전반적인 학업 능력을 나타내고 두 번째 구성 요소는 정량적 능력과 언어 능력의 대비를 나타냅니다.

텍스트 상태 PC1과 PC2 하중이라는 것을 PC1과 ( 0.5 , 0.5 , - 0.5 , - 0.5 ) PC2에 대한, 그리고 이벤트 다음 설명 :(0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

제 1 성분은 평균 점수에 비례하고, 제 2 성분은 제 1 점수 쌍과 제 2 점수 쌍의 차이를 측정한다.

이 설명의 의미를 이해할 수 없습니다.


7
어쨌든 @ttnphns의 대답은 많은 수학적 세부 사항에 적용되지만 원래 질문은 실제로 간단하다고 생각합니다. PC1의 (0.5, 0.5, 0.5, 0.5) 로딩 벡터는 왜 첫 번째 구성 요소가 "평균 점수에 비례합니다" "? 답은 PC1을 구성하는 원래 변수의 선형 조합에서 하중이 계수에 비례한다는 것입니다. 따라서 첫 번째 PC1은 모든 변수에 0.5를 곱한 값의 합입니다. 그것은 네 변수의 평균에 비례한다는 것을 의미합니다. 그리고 PC2와 유사합니다. 나는 이것이 원래의 질문에 대답한다고 생각합니다.
amoeba는 Reinstate Monica가

@amoeba-로딩에 대한 간단한 설명을 이해하는 것이 얼마나 어려운지 아십니까? 어쨌든, 구글의 다음 설명으로 넘어 가기로 결정하기 전에 도처에 한 입 담즙 담즙이 있습니다. 감사합니다!
MiloMinderbinder

답변:


13

하중 ( 고유 벡터와 혼동해서는 안 됨 )에는 다음과 같은 속성이 있습니다.

  1. 각 성분 내 제곱의 합은 고유 값 (성분의 분산)입니다.
  2. 하중은 (표준화 된) 성분으로 변수를 예측하는 선형 조합의 계수입니다.

로딩 행렬 과 고유 값 :A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

이 경우 두 고유 값이 동일합니다. 실제 세계에서는 드문 경우이며, PC1과 PC2는 동일한 설명 "강도"라고 말합니다.

또한 구성 요소 값인 Nx2행렬 계산 하고 각 열 내에서 z 표준화 (평균 = 0, 표준 개발 = 1)한다고 가정합니다. 이어서 (2 점 위에서 말한 것처럼), X = C ' . 당신은 4 만 2 PC를 왼쪽으로 기 때문에, (당신은 2 이상의 열이 부족 복원 된 데이터 값) X는 오류가 (있는 경우 고유 값 3, 4하지 제로인) - 정확한 수 없습니다.CX^=CAAX^

A4x4B=(A1)B=Adiag(eigenvalues)1=(A+)diag(eigenvalues)는 대각선에 고유 값이있는 정사각형 대각선 행렬이며 +위첨자는 의사 역수를 나타냅니다. 귀하의 경우 :

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

XNx4C=XBC

PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"첫 번째 요소는 평균 점수에 비례합니다"

PC2 = 0.5 * X1 + 0.5 * X2-0.5 * X3-0.5 * X4 = (0.5 * X1 + 0.5 * X2)-(0.5 * X3 + 0.5 * X4)

"두 번째 구성 요소는 첫 번째 점수 쌍과 두 번째 점수 쌍의 차이를 측정합니다"

B=A


B=Adiag(eigenvalues)1B=R1AR변수의 공분산 (또는 상관) 행렬입니다. 후자의 공식은 선형 회귀 이론에서 직접 나온 것입니다. 두 공식은 PCA 컨텍스트 내에서만 동일합니다. 요인 분석에서는 요인 점수가 아니며 (FA로 항상 근사한) 요인 점수를 계산하는 데 두 번째 공식을 사용해야합니다.


내 관련 답변 :

로딩 대 고유 벡터에 대해 자세히 설명 합니다.

어떻게 주성분 점수와 요인 점수하여 계산된다 .


2
4 개 중 2 개 구성 요소가 변동성의 90 %를 차지하는 경우 고유 값의 합계는 2입니까?
Nick Cox

닉, 나는 이것이 OP에 대한 질문이라고 생각합니다. 그는 데이터 나 공분산 / 상관 행렬을 제공하지 않았습니다. 우리가 그에게서 얻은 것은 2 개의 첫 PC의 (비현실적이지 않은) 로딩 매트릭스입니다.
ttnphns December

3
4×44150%90%
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.