아이스크림 판매 대 온도의이 PCA 플롯 이해


9

나는 온도 대 아이스크림 판매에 대한 더미 데이터를 가져 와서 K Means (n ​​clusters = 2)를 사용하여 두 범주 (총 더미)를 구별하여 분류했습니다.

이제이 데이터에 대한 주요 구성 요소 분석을 수행하고 있으며 목표는 내가 본 것을 이해하는 것입니다. PCA의 목표는 차원을 줄이고 (이 경우는 아님) 요소의 분산을 보여주는 것입니다. 그러나 아래의 PCA 플롯을 어떻게 읽 습니까? 즉 PCA 플롯에서 온도와 아이스크림에 대해 이야기 할 수있는 이야기는 무엇 입니까? 첫 번째 (X) 및 두 번째 (Y) PC는 무엇을 의미합니까?

여기에 이미지 설명을 입력하십시오


1
이것은 의견이어야하지만 담당자가 충분하지 않습니다. 아래 링크는 PCA에 대한 훌륭한 자습서입니다. 특히, 토이 예제는 "하나의 그림으로 이해하기에 충분히 간단하다"와 "향후 문제에서 유추 할 수있을 정도로 복잡하다"는 균형이 잘 맞습니다. 이 글을 읽으면 PCA가 할 수있는 것과 할 수없는 것을 정리하는 데 도움이 될 수 있다고 생각합니다. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

답변:


18

PCA의 목표는 차원을 줄이는 것입니다

이것은 사람들이 종종 가정하는 것이지만 실제로 PCA는 데이터를 직교 적으로 표현한 것입니다. 이 기준은 여전히 ​​원래 데이터와 차원이 동일합니다. 아무것도 잃어버린 ... 아직. 차원 축소 부분은 전적으로 귀하에게 달려 있습니다. PCA가 보장하는 것은 최고입니다k새 투영의 크기가 최고입니다 k데이터가 표시 될 수있는 측정 기준 가장 좋은 것은 무엇입니까? 그것이 설명 된 차이가 나오는 곳입니다.

이 경우에는 분명히 아닙니다

나는 그것에 대해 확신하지 않을 것입니다! 두 번째 줄거리에서 시각적으로 데이터의 많은 정보를 수평선에 투영 할 수있는 것처럼 보입니다. 그것은 2 차원으로 된 원래의 플롯 대신에 1 차원입니다! 분명히 Y 축을 제거하기 때문에 일부 정보가 손실되지만이 정보 손실이 허용되는지 여부는 전화입니다.

이 사이트에 PCA가 무엇인지와 관련된 수많은 질문이 있으므로 여기 , 여기 , 여기 또는 여기에서 확인하십시오 . 그 후에 다른 질문이 있으시면 게시 해 주시면 기꺼이 도와 드리겠습니다.

실제 질문으로 :

PCA 플롯에서 온도와 아이스크림에 대해 이야기 할 수있는 이야기는 무엇입니까?

새로운 좌표축은 원래 좌표의 선형 조합이므로 기본적으로 아무것도 아닙니다! PCA는 다음과 같은 답변을 제공합니다.

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

그게 당신에게 유용한가요? 아마도. 그러나 나는 추측하지 않을 것이다 :)

편집

대화 형 차트가 멋지므로 도움이 될만한 리소스를 추가 하겠습니다 .

다시 편집

가장 좋은 것을 명확히하기 위해 k 방법:

PCA는 데이터가 투영 될 때 가장 큰 차이를 산출하는 차원을 찾으려고합니다. 데이터가 있다고 가정n>k 치수, 최초 k PC는 다른 어떤 것보다 더 많은 데이터 차이를 설명합니다 k차원 할 수 있습니다. 그게 내가 의미하는 바야 k. 그것이 당신에게 유용한 지 아닌지는 또 다른 것입니다.


6
또한 변수를 스케일해야합니다. 그렇지 않으면 판매량 (훨씬 높은 숫자)이 대부분의 차이를 설명합니다. 아마도 PC의 장치가 다른 이유 일 것입니다.
Filipe

좋은 대답이지만 "... 데이터로 표현 될 수있는 최상의 kk 크기"라는 말은 너무 많이 생성 된 것일 수 있습니다. 최대 분산의 방향이 두 클래스를 분리하는 데 반드시 유용한 것은 아닙니다. 어쨌든 PCA가 특정 목적을 위해 최선의 선택을하기 위해 아무것도하지 않기 때문에 종종 잘 작동합니다.
Wayne

"사실 PCA는 단순히 직교 기반으로 데이터를 표현한 것입니다." 나는 많은 사람들 이이 점을 이해 하지 못한다 는 사실에 계속 놀랐다 .
3x89g2

5

Ilan 남자의 좋은 대답에, 나는 당신의 주요 구성 요소에 대한 아주 간단한 해석이 있다고 덧붙일 것입니다.이 간단한 2D 경우에는 산점도를 보면서 해석 할 수있는 것에 많은 것을 추가하지 않습니다.

첫 번째 PC는 온도와 아이스크림 소비의 가중 합계 (즉, 두 계수가 모두 긍정적 인 선형 조합)입니다. 오른쪽에는 아이스크림이 많이 팔리는 더운 날이 있고 왼쪽에는 아이스크림이 덜 팔리는 추운 날이 있습니다. 그 PC는 대부분의 분산과 당신이 얻은 그룹이 그 두 측면과 일치한다고 설명합니다.

두 번째 PC는 온도와 아이스크림 소비가 첫 번째 PC의 밑줄이 그어진 선형 관계에서 어떻게 벗어나는지 측정합니다. 그래프 상단에는 동일한 온도의 다른 날에 비해 아이스크림 판매량이 더 많은 날이 있고, 온도에 따라 예상보다 아이스크림 판매량이 적은 날이 있습니다. 그 PC는 약간의 차이를 설명합니다.

즉, 주요 구성 요소에서 이야기를 말할 수 있습니다. 단 두 가지 변수 만 있으면 PCA 없이도 알 수있는 것과 같은 이야기입니다. 변수가 많을수록 PCA는 다른 방법으로는 알아 채기 어려운 이야기를 들려 주므로 더욱 유용합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.