PCA 및 분산 비율 설명


90

일반적으로 PCA와 같은 분석에서 분산 의 비율 가 첫 번째 주요 구성 요소로 설명 된다는 것은 무엇을 의미 합니까? 누군가 이것을 직관적으로 설명 할 수 있지만 주성분 분석 (PCA) 측면에서 "변형 설명"의 의미에 대한 정확한 수학적 정의를 제공 할 수 있습니까?엑스

간단한 선형 회귀 분석의 경우, 최적 제곱의 r 제곱은 항상 설명 된 분산의 비율로 설명되지만 그 중 무엇을 만들어야할지 잘 모르겠습니다. 여기에 분산의 비율이 가장 잘 맞는 선에서 점의 편차가 확장됩니까?


답변:


103

PCA의 경우, "분산"은 합산 분산 또는 다변량 변동 또는 전체 변동 또는 총 변동을 의미 합니다. 다음은 3 가지 변수의 공분산 행렬입니다. 이들의 분산은 대각선에 있으며 3 개의 값 (3.448)의 합이 전체 변동입니다.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

이제 PCA는 원래 변수를 기본 구성 요소라고하는 새로운 변수로 대체합니다.이 변수는 직교 (공변량이 0 임)이고 감소하는 순서로 고유 값이라고합니다. 따라서 위 데이터에서 추출한 주성분 간의 공분산 행렬은 다음과 같습니다.

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

대각선 합은 여전히 ​​3.448이며, 이는 3 개의 성분 모두가 모든 다변량 변동성을 설명한다는 것을 나타냅니다. 제 1 주성분은 전체 변동성의 1.651 / 3.448 = 47.9 %를 설명하거나 "설명"합니다. 두 번째 것은 1.220 / 3.448 = 35.4 %입니다. 세 번째는 .577 / 3.448 = 16.7 %를 설명합니다.

" PCA는 분산을 최대화합니다 "또는 " PCA는 최대 분산을 설명합니다 " 라고 말할 때 무엇을 의미 합니까? 물론 세 가지 값 중에서 가장 큰 차이를 찾는 것은 1.343730519 .619205620 1.485549631아닙니다. PCA는 데이터 공간 에서 전체 분산 중에서 분산이 가장 큰 차원 (방향)을 찾습니다 . 가장 큰 차이는 다음과 같습니다 . 그런 다음 나머지 전체 분산 에서 두 번째로 큰 분산의 치수 (첫 번째 것과 직교하는 치수)를 찾습니다 . 이 2 차원은 분산입니다. 등등. 마지막으로 남은 차원은 분산입니다. 여기에 "Pt3"도 있고 여기 에 큰 대답이 있습니다1.343730519+.619205620+1.485549631 = 3.4481.6513542853.448-1.6513542851.220288343.576843142 어떻게 더 자세히 설명했는지

수학적으로 PCA는 고유 분해 또는 svd 분해라는 선형 대수 함수를 통해 수행됩니다. 이 기능은 당신에게 모든 고유 돌아갑니다 1.651354285 1.220288343 .576843142(한 번에 (및 대응하는 고유 벡터)를 참조 , 참조 ).


1
무엇을 의미합니까? "대각선 합계는 여전히 3.448이며, 이는 3 가지 성분이 모든 다변량 변동성을 설명합니다"와 방법과 PoV (변이 비율)의 차이는 무엇입니까?
kamaci

2
나는 "방법"을 제안하지 않습니다. 방금 모든 PC가 원래 변수와 동일한 총 변동량을 설명한다고 설명했습니다.
ttnphns

내 질문을 확인할 수 있습니까 : stats.stackexchange.com/questions/44464/…
kamaci

죄송합니다 :-( 현재 할 수 없습니다. 의견이 너무 많습니다.
ttnphns

1
당신이 질문을 읽는다면 충분합니다. 의견이 없습니다.
kamaci

11

@ttnphns는 좋은 답변을 제공했으며 아마도 몇 가지 사항을 추가 할 수 있습니다. 먼저, CV에 관한 질문 이 있는데 , 그 은 정말 강력 합니다. 확실히 확인하고 싶습니다. 다음은 그 답에 표시된 도표를 참조 할 것입니다.

세 플롯 모두 동일한 데이터를 표시합니다. 데이터에는 수직 및 수평으로 변동이 있지만 대부분의 변동은 실제로 대각선 으로 생각할 수 있습니다 . 세 번째 그림에서 긴 검은 색 대각선은 첫 번째 고유 벡터 (또는 첫 번째 기본 구성 요소)이며 해당 기본 구성 요소의 길이 (해당 선 자체의 길이가 아니라 해당 선을 따라 데이터의 확산)입니다. 줄거리에 그려 짐) 첫 번째 고유 값입니다.-첫 번째 주요 구성 요소가 설명하는 분산 량입니다. 해당 길이를 두 번째 기본 구성 요소 (대각선에서 직교로 데이터의 확산 폭)의 길이와 합한 다음 고유 값 중 하나를 총계로 나눈 경우 백분율을 얻습니다. 해당 원리 성분에 의해 설명 된 분산의

반면 회귀 분석에서 차지하는 분산의 백분율을 이해하려면 상위 그림을 볼 수 있습니다. 이 경우 빨간색 선은 회귀선 또는 모형에서 예측 된 값의 집합입니다. 설명 된 분산은 회귀선의 수직 확산 (즉, 선의 가장 낮은 지점에서 선의 가장 높은 지점으로)과 데이터의 수직 확산 (즉, 가장 낮은 데이터 지점에서)으로의 비율로 이해 될 수 있습니다. 가장 높은 데이터 포인트). 물론 말 그대로 그것들은 분산이 아니라 범위이기 때문에 요점을 얻는 데 도움이되기 때문에 느슨한 아이디어 일뿐입니다.

질문을 반드시 읽으십시오. 그리고 나는 최고 답변을 언급했지만 주어진 답변 중 몇 가지는 훌륭합니다. 그것들을 모두 읽을 가치가 있습니다.


3

원래 질문에 대한 매우 간단하고 직접적이며 정확한 수학적 답이 있습니다.

와이1와이2와이아르 자형나는2

에이1에이2에이1=에이1와이1+에이2와이2++에이와이나는=1아르 자형나는2(와이나는|1)

이런 의미에서 첫 번째 PC를 "편차 설명"의 최대 화자 또는보다 정확하게는 "총 편차 설명"의 최대화 자로 해석 할 수 있습니다.

나는=×에이나는0

원본 문헌 및 확장에 대한 참조는

Westfall, PH, Arias, AL 및 Fulton, LV (2017). 상관 관계, 다변량 행동 연구를 이용한 주요 구성 요소 교육, 52, 648-660.


0

와이=에이+와이에이와이에이와이에이V에이아르 자형(와이)=V에이아르 자형(에이)+V에이아르 자형()+2영형V(에이,)에이0+1엑스이자형와이=0+1엑스+이자형와이0+1엑스

와이


Y의 분산에 대한 공식을 확인해야합니다. 정확하지 않습니다. 더 중요한 것은 회귀 설명을 시도한다고해서 PCA 나 사람들이 PCA에 대해 생각하고 사용하는 방식을 올바르게 특성화 할 수 없다는 것입니다.
whuber

1
Ty, 수식 오류 수정. 내 대답은 회귀선으로 설명 된 분산의 비율에 관한 질문의 두 번째 부분입니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.