고차원 공간을 2 차원 평면에 투영하는 방법은 무엇입니까?

11

N 차원 공간에 일련의 데이터 포인트가 있습니다. 또한이 같은 N 차원 공간에 중심이 있습니다. 상대 거리 정보를 원래 공간에 유지하면서 이러한 데이터 점을 2 차원 공간으로 투영 할 수있는 방법이 있습니까? PCA가 올바른가요?

data-visualization pca multidimensional-scaling

— 비트 질문
소스

1

거리를 유지하려는 경우 첫 번째 생각은 거리 자체 (PCA와 관련됨)에 대한 다차원 스케일링 일 것입니다. 그러나 거리뿐만 아니라 거리가 있기 때문에 내 이해에 의해 PCA가 작동해야합니다. .

— Glen_b-복지 주 모니카

1

@Glen_b, 요점은 MDS가 거리 입력을위한 것이고 PCA는 좌표 입력을위한 것이 아니라 , 반복적 인 MDS는 적은 치수에 맞지만 PCA는 적은 치수를 유지 한다는 것 입니다. 따라서 MDS는 기존 PCA보다 거리를 약간 더 잘 유지합니다. 질문에 대한 대답은 예입니다. PCA는 적합하지만 MDS가 더 적합합니다.

— ttnphns

1

이것은 주로 미터법 공간 임베딩 분야에서 연구되는 것입니다 . 즉 거리 왜곡을 최소화하면서 데이터의 차원을 줄이는 방법은 무엇입니까 ?

— Bitwise

6

문제를 해결하는 일반적인 프레임 워크를 차원 축소라고합니다. 데이터의 "필수 정보"를 유지하면서 N 차원에서 2 차원으로 데이터를 투영하려고합니다. 가장 적합한 방법은 데이터 분포, 즉 N- 차원 매니 폴드에 따라 다릅니다. PCA는 최소 제곱 기준을 사용하는 평면에 적합합니다. 이것은 "스위스 롤"예제에서 제대로 작동하지 않을 것입니다 : swiss roll .

보다 현대적인 방법에는 커널 PCA, LLE, 확산 맵 및 스파 스 사전 표현이 포함됩니다. 거리 보존과 관련하여 일부 방법은 비 유클리드 거리를 보존 할 수 있습니다.

— 리올
소스

2

"차원 감소"방법은 일반적으로 "상대 거리 정보"를 유지 하지 않는다는 점에 유의하는 것이 중요하다 . 이들이 있는지 여부는 부분적으로 방법과 의도 된 "거리"에 의존합니다.

— whuber

2

이전 답변에서 언급했듯이 차원 축소 방법에는 여러 가지가 있으며 고려해야 할 중요한 점은 무엇을 표현하려고 하는가입니다. 유클리드 거리 측정에 관심이 있습니까? 또는 샘플 간의 유사성 메트릭?

전자의 경우 PCA가 적합 할 수 있습니다. 샘플 (동물, 식물 등) 측정과 같은 연속 측정에 일반적으로 사용됩니다. 나는 이전 답변에서 더 현대적인 언급을 살펴볼 것입니다.

후자의 경우 비 유클리드 거리 측정법을 사용하여 유사성을 비교하려는 경우 PCoA (Principle Components Ordination) 및 NMDS (Non-metric Multidimensional Scaling)와 같은 몇 가지 좋은 방법이 있습니다. 당신이 이것을 사용할 수있는 경우의 예는 서로 다른 지역들 사이의 생태 공동체를 비교할 때 발견 된 여러 종류의 유기체가있을 때입니다. 따라서 데이터는 "수"데이터입니다. Jaccard, Sorensen, Bray-Curtis와 같은 다수의 유사성 지표가 있으며, 이는 유기체 구성에서 사이트가 얼마나 유사한 지 효과적으로 추정 할 수 있습니다. PCoA 및 NMDS는 기본적으로 생태 거리 (유사성)를 나타 내기 위해 샘플 (사이트)을 플롯 할 수있게하며 각 축에 사이트 점수가 있습니다.

다변량 분석을위한 좋은 책과 기타 자료가 많이 있습니다. Google에서 "Ordination"을 검색하십시오. 또한 실제로 많은 작업을 수행하는 데 유용한 '비건 채식'이라는 R 패키지가 있습니다.

— mtreg
소스

0

문제는 다차원 스케일링을 위한 교과서 응용 프로그램처럼 들립니다 . 좋은 소개는 여기에서 찾을 수 있습니다 : http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

물론 PCA를 시도 할 수 있습니다. 그러나 PCA는 상대 거리 정보를 원래 공간에 유지하려는 의도가 없습니다.

— 웨이웨이
소스