주요 성분 분석에서 이중 점 해석


30

나는이 훌륭한 튜토리얼 : R을 사용한 통계 분석 핸드북을 보았습니다. 13 장. 주요 구성 요소 분석 : R 언어로 PCA를 수행하는 방법에 대한 올림픽 헵타 슬론 그림 13.3의 해석을 이해하지 못합니다.

바이 플롯

그래서 첫 번째 고유 벡터와 두 번째 고유 벡터를 플로팅하고 있습니다. 그게 무슨 뜻이야? 첫 번째 고유 벡터에 해당하는 고유 값이 데이터 세트의 변동의 60 %를 설명하고 두 번째 고유 값-고유 벡터가 20 %의 변동을 설명한다고 가정합니다. 이것들을 서로에 대해 음모를 꾸미는 것은 무엇을 의미합니까?


답변:


22

PCA는 주어진 상관 관계 매트릭스의 구조를 분석하는 많은 방법 중 하나입니다. 구성에 의해 첫 번째 주축은 데이터가 선 ( p 변수 가 있다고 가정 하고 차원 공간 의 방향을 나타냄)에 투영 될 때 분산 (고유 값에 의해 반영됨)을 최대화하고 두 번째 주축입니다. 그것에 직교하고 여전히 나머지 분산을 최대화합니다. 이것이 처음 두 축을 사용하여 평면에 투영 될 때 원래 변수 공간 (예 : dim n × p 의 행렬 X) 을 더 잘 근사화해야하는 이유 입니다.ppXn×p

Xuup변수 또는 이들의 조합. 귀하의 경우 HSAUR의 그림 13.3은 Joyner-Kersee (Jy-K)가 첫 번째 축에서 높은 (음수) 점수를 보였으며 모든 이벤트에서 전반적으로 우수한 성적을 보였음을 보여줍니다. 동일한 추론이 두 번째 축 해석에 적용됩니다. 나는 그 그림을 아주 짧게 보았으므로 세부 사항에 들어 가지 않을 것이며 내 해석은 분명히 피상적입니다. HSAUR 교과서에서 더 자세한 정보를 찾을 수 있다고 가정합니다. 여기서 변수와 개인 모두 동일한 다이어그램에 표시됩니다 (이를 biplot 이라고 함))를 사용하면 개인의 위치를 ​​보면서 계승 축을 해석하는 데 도움이됩니다. 일반적으로 변수를 소위 상관 원 (여기서 벡터로 표시되는 두 변수에 의해 형성된 각도는 ).r(x1,x2)=cos2(x1,x2)

그러나 PCA 기반 방법에 대한 심층적 인 통찰력을 얻기 위해 다변량 분석에 대한 입문서를 읽는 것이 좋습니다. 예를 들어, BS Everitt는이 주제에 관한 훌륭한 교과서를 작성했습니다. 다변량 분석에 대한 R 및 S-Plus ® Companion , 그리고 동반자 웹 사이트 에서 그림을 확인할 수 있습니다 . 적용되는 다변량 데이터 분석을위한 다른 훌륭한 R 패키지 (예 : ade4FactoMineR)가 있습니다.


나는 틀릴 수 있지만 두 벡터 사이의 쌍 관계는 아닙니다. 아르 자형(엑스1,엑스2)=코사인(엑스1,엑스2) 아니 코사인2(엑스1,엑스2)?
hlinee

21

줄거리는 다음과 같습니다.

  • 처음 두 가지 주요 구성 요소에 대한 각 사례 (예 : 운동 선수)의 점수
  • 처음 두 주요 구성 요소에 대한 각 변수 (즉, 각 스포츠 이벤트)의로드

왼쪽 및 아래쪽 축은 [정규화 된] 주요 구성 요소 점수를 보여줍니다. 상단 및 오른쪽 축에 하중이 표시됩니다.

일반적으로 두 구성 요소가 케이스와 변수의 구조를 의미있게 시각적으로 표현하기에 충분한 양의 분산을 설명한다고 가정합니다.

공간에서 어떤 이벤트가 서로 가까운 지 확인할 수 있습니다. 이것이 적용되는 경우, 이는 한 경기를 잘하는 선수가 다른 근위 경기를 잘 할 가능성이 있음을 시사합니다. 또는 플롯을 사용하여 먼 이벤트를 확인할 수 있습니다. 예를 들어, 창 던지기는 두 번째 주요 구성 요소를 정의하는 특이하고 중요한 이벤트로 보입니다. 아마도 다른 종류의 운동 선수는 다른 대부분의 행사에서보다 창 던지기에 능숙합니다.

물론 실질적인 해석에 대해 더 말할 수 있습니다.



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.