PCA가 한 쌍의 큰 거리 만 보존한다는 것은 무엇을 의미합니까?


10

나는 현재 t-SNE 시각화 기술을 읽고 있으며 고차원 데이터를 시각화하기 위해 PCA (Principal Component Analysis)를 사용하는 단점 중 하나는 점 사이의 큰 쌍 거리를 유지한다는 것입니다. 고차원 공간에서 멀리 떨어져있는 의미 점은 저 차원 부분 공간에서도 멀리 떨어져 있지만 다른 모든 쌍방향 거리는 망칠 수 있습니다.

왜 그런지 이해하고 그래픽으로 무엇을 의미하는지 이해할 수 있습니까?


PCA는 유클리드 거리와 마할 라 노비스 거리와 밀접한 관련이 있으며, 더 높은 차원에서는 근시이며, 작은 거리를 볼 수 없습니다.
Aksakal

또한 가장 간단한 메트릭 MDS로 볼 수있는 PCA는 합한 제곱 유클리드 거리를 재구성하는 것에 관한 것 입니다. 거리가 좁 으면 조밀하고 정밀합니다.
ttnphns 2016 년

답변:


8

다음 데이터 세트를 고려하십시오.

PCA 데이터 세트

PC1 축이 투영의 분산을 최대화합니다. 따라서이 경우 분명히 왼쪽 하단에서 오른쪽 상단으로 대각선으로 이동합니다.

넓은 쌍방향 거리 만 보존하는 PCA

원래 데이터 세트에서 가장 큰 쌍별 거리는이 두 개의 바깥 점 사이입니다. PC1에서는 거의 정확하게 보존됩니다. 작지만 여전히 상당한 쌍별 거리는 각각의 외부 지점과 다른 모든 지점 사이에 있습니다. 그것들도 합리적으로 잘 보존됩니다. 그러나 중앙 군집의 점 사이에서 훨씬 작은 쌍별 거리를 보면 일부가 크게 왜곡 된 것을 볼 수 있습니다.

이것이 올바른 직관을 제공한다고 생각합니다. PCA는 최대 분산으로 저 차원 부분 공간을 찾습니다. 최대 분산은 부분 공간이 중심에서 멀리 떨어진 지점에 가까워 지도록 정렬되는 경향이 있음을 의미합니다. 따라서 가장 큰 쌍별 거리는 잘 유지되는 경향이 있고 작은 거리는 덜 유지됩니다.

그러나 이것이 반드시 사실아니기 때문에 공식적인 주장으로 바뀔 수는 없습니다. 주성분 분석과 다차원 스케일링의 차이점은 무엇입니까? 에서 내 대답을 살펴보십시오 . 위의 그림에서 점 을 가져 와서 쌍 거리의 행렬을 구성하고 가능한 한 거리를 유지하는 1D 투영이 무엇인지 묻는다면 대답은 MDS 솔루션에 의해 주어지고 PC1 . 당신이 생각한다면, 페어의 매트릭스는 스칼라 제품을 중심을, 그것은 이다1010×1010×10실제로 PC1에 의해 정확하게 보존되는 것이 가장 좋습니다 (증명은 저의 답변 참조). 그리고 한 쌍의 거리가 길면 대개 큰 스칼라 곱을 의미한다고 주장 할 수 있습니다. 실제로 MDS 알고리즘 중 하나 (클래식 / Torgerson MDS)가 명시 적으로이 가정을하고 있습니다.

요약하면 다음과 같습니다.

  1. PCA는 원래 스칼라 곱과 재구성 된 스칼라 곱 사이의 제곱 차이의 합이 최소화되어야한다는 점에서 쌍 스칼라 곱의 행렬을 보존하는 것을 목표로합니다.
  2. 즉, 절대 값이 가장 큰 스칼라 곱을 보존하고 절대 값이 작은 스칼라 곱은 제곱 오차의 합에 대해 더 적기 때문에 신경 쓰지 않습니다.
  3. 따라서 PCA는 더 큰 스칼라 제품을 작은 것보다 더 잘 보존합니다.
  4. 쌍방향 거리는 스칼라 곱과 비슷하거나 항상 그런 것은 아니지만 항상 유지됩니다. 이 경우 더 큰 페어 와이즈 거리가 작은 것보다 더 잘 유지됩니다.

나는 이것이 올바른 시각이라고 생각하지 않습니다. 차원 증가로 인해 상황이 어떻게 악화되는지는 보여주지 않습니다.
Aksakal

2
당신의 요점을 잘 모르겠습니다, @Aksakal. 당신의 관점으로 대안적인 답변을 게시하는 것을 고려하십시오. 더 작은 쌍 거리보다 더 잘 보존하는 효과가 이미 2D에 존재한다고 생각합니다. 진행 상황을 이해하기 위해 높은 차원에 대해 생각할 필요가 없습니다. 따라서 간단한 2D 예제에 중점을 두었습니다.
amoeba

당신이 그린 것은 모든 방법에 적용 가능합니다. 나는 몇 점을 아주 멀리 떨어 뜨려 놓고 나머지 부분을 능가한다고 주장 할 수있다. 유클리드 거리의 문제점은 다이내믹 레인지가 차원이 증가함에 따라 축소된다는 것입니다.
Aksakal

+1, 그러나 나는 당신과 약간 다르게 억양을 옮길 것입니다 (주로 4 점). 문제는 이것들이 거리가 아니라 스칼라 곱 ( "이중 배분"행렬)이라는 것입니다. 결국 대각선이 주어지면 동일한 정보를 유지합니다. 오히려, 문제는 PCA 대 요인 분석 확률과 정확히 유사합니다. Torgerson의 PCoA는 PCA로서 sc의 재구성을 최대화하는 것을 목표로합니다. 찌르다. 행렬은 주로 대각선을 통해 이루어지며, 비 대각선 입구가 어떻게 맞춰 지는지 구체적으로 제어하지 않습니다.
ttnphns

언급 된 대각선의 자취는 전체적인 변동성이며 모든 제곱 쌍 거리의 합과 직접 관련되어 개별 거리를 남겨 둡니다. PCA로 재구성 된 데이터 클라우드는 원래의 제곱의 합과 관련하여 가장 가깝다는 Eckart-Young 정리에 의해 표현 될 수 있습니다. 즉, 이전 지점과 PCA 투영 지점 사이의 전체 제곱 거리는 최소입니다. 이것은 이전 쌍별 거리와 같지 않습니다-새로운 거리 거리 관계.
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.