N 차원 공간에 일련의 데이터 포인트가 있습니다. 또한이 같은 N 차원 공간에 중심이 있습니다. 상대 거리 정보를 원래 공간에 유지하면서 이러한 데이터 점을 2 차원 공간으로 투영 할 수있는 방법이 있습니까? PCA가 올바른가요?
N 차원 공간에 일련의 데이터 포인트가 있습니다. 또한이 같은 N 차원 공간에 중심이 있습니다. 상대 거리 정보를 원래 공간에 유지하면서 이러한 데이터 점을 2 차원 공간으로 투영 할 수있는 방법이 있습니까? PCA가 올바른가요?
답변:
문제를 해결하는 일반적인 프레임 워크를 차원 축소라고합니다. 데이터의 "필수 정보"를 유지하면서 N 차원에서 2 차원으로 데이터를 투영하려고합니다. 가장 적합한 방법은 데이터 분포, 즉 N- 차원 매니 폴드에 따라 다릅니다. PCA는 최소 제곱 기준을 사용하는 평면에 적합합니다. 이것은 "스위스 롤"예제에서 제대로 작동하지 않을 것입니다 : swiss roll .
보다 현대적인 방법에는 커널 PCA, LLE, 확산 맵 및 스파 스 사전 표현이 포함됩니다. 거리 보존과 관련하여 일부 방법은 비 유클리드 거리를 보존 할 수 있습니다.
이전 답변에서 언급했듯이 차원 축소 방법에는 여러 가지가 있으며 고려해야 할 중요한 점은 무엇을 표현하려고 하는가입니다. 유클리드 거리 측정에 관심이 있습니까? 또는 샘플 간의 유사성 메트릭?
전자의 경우 PCA가 적합 할 수 있습니다. 샘플 (동물, 식물 등) 측정과 같은 연속 측정에 일반적으로 사용됩니다. 나는 이전 답변에서 더 현대적인 언급을 살펴볼 것입니다.
후자의 경우 비 유클리드 거리 측정법을 사용하여 유사성을 비교하려는 경우 PCoA (Principle Components Ordination) 및 NMDS (Non-metric Multidimensional Scaling)와 같은 몇 가지 좋은 방법이 있습니다. 당신이 이것을 사용할 수있는 경우의 예는 서로 다른 지역들 사이의 생태 공동체를 비교할 때 발견 된 여러 종류의 유기체가있을 때입니다. 따라서 데이터는 "수"데이터입니다. Jaccard, Sorensen, Bray-Curtis와 같은 다수의 유사성 지표가 있으며, 이는 유기체 구성에서 사이트가 얼마나 유사한 지 효과적으로 추정 할 수 있습니다. PCoA 및 NMDS는 기본적으로 생태 거리 (유사성)를 나타 내기 위해 샘플 (사이트)을 플롯 할 수있게하며 각 축에 사이트 점수가 있습니다.
다변량 분석을위한 좋은 책과 기타 자료가 많이 있습니다. Google에서 "Ordination"을 검색하십시오. 또한 실제로 많은 작업을 수행하는 데 유용한 '비건 채식'이라는 R 패키지가 있습니다.
문제는 다차원 스케일링을 위한 교과서 응용 프로그램처럼 들립니다 . 좋은 소개는 여기에서 찾을 수 있습니다 : http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
물론 PCA를 시도 할 수 있습니다. 그러나 PCA는 상대 거리 정보를 원래 공간에 유지하려는 의도가 없습니다.