고유 벡터에 대한 시각적 설명이 혼동됩니다. 시각적으로 다른 데이터 세트가 동일한 고유 벡터를 가질 수있는 방법은 무엇입니까?


10

많은 통계 교과서는 공분산 행렬의 고유 벡터가 무엇인지에 대한 직관적 인 그림을 제공합니다.

여기에 이미지 설명을 입력하십시오

벡터 uz 는 고유 벡터를 형성한다 (웰, 고유 축). 이것은 말이됩니다. 그러나 나를 혼란스럽게하는 것은 원시 데이터가 아닌 상관 행렬 에서 고유 벡터를 추출한다는 것 입니다. 또한, 매우 다른 원시 데이터 세트는 동일한 상관 행렬을 가질 수 있습니다. 예를 들어, 다음은 상관 행렬이 모두 있습니다.

[10.970.971]

고유 벡터

따라서 동일한 방향을 가리키는 고유 벡터가 있습니다.

[.71.71.71.71]

그러나 고유 벡터가 원시 데이터에있는 방향에 대해 동일한 시각적 해석을 적용하면 벡터가 다른 방향을 가리키게됩니다.

누군가 내가 잘못한 곳을 말해 줄 수 있습니까?

두 번째 편집 : 내가 대담 할 수 있다면 아래의 훌륭한 답변을 통해 혼란을 이해할 수 있었고 설명했습니다.

  1. 시각적 설명은 공분산 행렬 에서 추출 된 고유 벡터 가 서로 다르다는 사실과 일치합니다 .

    공분산과 고유 벡터 (빨간색) :

    [1111][.7.72.72.7]

    공분산과 고유 벡터 (파란색) :

    [.25.5.51][.43.9.9.43]
  2. 상관 행렬은 표준화 된 변수의 공분산 행렬을 반영합니다. 표준화 된 변수를 육안으로 검사하면 동일한 고유 벡터가 추출되는 이유를 알 수 있습니다.

여기에 이미지 설명을 입력하십시오


3
상관 관계 를 평가 하려면 성분의 표준 편차가 동일한 척도로 산점도를 그려야합니다. 이미지의 경우에는 해당되지 않으며 (두 번째 이미지의 빨간색 점은 제외) 이로 인해 혼란 스러울 수 있습니다.
whuber

3
귀하의 질문을 설명해 주셔서 감사합니다. 그것은 사람들이 그것을 이해하고 나중에 참조 할 수 있도록 스레드의 가치를 더하는 데 도움이됩니다. 그러나 남성의 ~ 10 %는 적록 색맹입니다. 2 가지 색상으로 빨강과 파랑이 더 안전 할 수 있습니다.
gung-Monica Monica 복원

당신이 제안 많은 감사, 나는 색상을 수정 한
고소 도현 할 수있는 Nimh에게

2
문제 없습니다, @SueDohNimh. 모든 사람이 이해할 수있게 해주셔서 감사합니다. 다른 메모에서는 [PCA]태그를 유지합니다 . 질문에 다시 초점을 맞추거나 새로운 (관련) 질문 및이 링크를 묻는다면 괜찮아 보이지만이 질문은 태그를 쓸만한 PCA라고 생각합니다.
gung-모니 티 복원

잘 했어, @SueDohNimh. 원한다면 편집 대신 자신의 질문에 대한 답변으로 추가 할 수도 있습니다.
gung-모니 티 복원

답변:


9

상관 매트릭스에 대해 PCA를 수행 할 필요는 없습니다. 공분산 행렬도 분해 할 수 있습니다. 이들은 일반적으로 다른 솔루션을 생성합니다. (자세한 내용은 상관 관계 또는 공분산에 대한 PCA? )를 참조하십시오.

두 번째 그림에서 상관 관계는 동일하지만 그룹이 다르게 보입니다. 공분산이 다르기 때문에 다르게 보입니다. 그러나 분산도 다릅니다 (예 : 빨간색 그룹이 X1의 넓은 범위에 따라 다름). 상관은 표준 편차 ( 나눈 공분산입니다. ). 결과적으로 상관 관계는 동일 할 수 있습니다. Covxy/SDxSDy

공분산 행렬을 사용하여 이러한 그룹으로 PCA를 수행하면 상관 행렬을 사용하는 것과 다른 결과가 나타납니다.


2
당신은 아마도 두 변수의 상관 행렬은 항상 동일한 두 개의 고유 벡터 문제가 있습니다 +1, 와 , 상관 관계가있다 가치 상관없이. (1,1)(1,1)
whuber

1
@whuber가 작성한 것에 +1하지만 해당 고유 값은 상관 관계 값에 따라 다릅니다.
amoeba

이것은 사실이지만 Cov 행렬의 고유 벡터는 상관 관계에 따라 달라질 수 있습니다.
gung-Monica Monica 복원

1
안녕하세요, 많은 감사합니다. 공분산 행렬을 대신 사용하여 고유 한 고유 벡터가 발생한다는 것을 알고있었습니다. 상관 관계 행렬을 대신 사용함으로써 사용되는 정보를 줄이고 따라서 정확도가 떨어질 까봐 걱정했기 때문에 이것은 또 다른 우려의 근원이었습니다. 제공된 시각적 해석이 상관 행렬 대신 원시 데이터의 공분산 행렬의 고유 벡터에만 실제로 적용 가능하다는 응답을 바탕으로 결론을 내릴 수 있습니까?
Sue Doh Nimh

1
사실, @SueDohNimh는 아닙니다. 상관 관계 행렬을 사용하려면 시각적 해석을 사용하고 변수를 먼저 표준화하십시오.
gung-모니 티 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.