PCA가 t-SNE보다 더 적합한 경우가 있습니까?


39

7 가지 텍스트 수정 동작 (텍스트 수정 시간, 키 입력 횟수 등)이 서로 어떤 관련이 있는지 확인하고 싶습니다. 측정 값은 서로 관련되어 있습니다. PCA를 실행하여 측정 값이 PC1 및 PC2에 어떻게 투영되는지 확인하여 측정 값간에 별도의 양방향 상관 관계 테스트를 실행하는 것을 피할 수있었습니다.

일부 측정 값 간의 관계가 비선형 일 수 있으므로 t-SNE를 사용하지 않는 이유를 물었습니다.

비선형 성을 허용하면 어떻게 개선되는지 알 수 있지만,이 경우 PCA를 사용해야하고 t-SNE가 아닌 적절한 이유가 있는지 궁금합니다. 측정 값과의 관계에 따라 텍스트를 클러스터링하는 것이 아니라 측정 값 자체 간의 관계에 관심이 있습니다.

(EFA가 더 나은 / 또 다른 접근 방식 일 수도 있지만 다른 논의 일 것입니다.) 다른 방법과 비교할 때 t-SNE에 대한 게시물이 거의 없으므로 질문 할 가치가있는 것 같습니다.


3
t-SNE는 데이터 세트 크기에 따라 확장이 잘되지 않지만 PCA는 확장 성이 떨어집니다. 이것은 scikit-learn 구현을 사용하여 대규모 데이터 세트에서 두 가지를 모두 실행 한 경험에서 비롯됩니다.
Mai

@Mai 아마 이것은 주로 큰 데이터 세트에 적용됩니까? 내 데이터 세트는 작은 편입니다 (수백 개의 데이터 포인트).
user3744206

답변:


64

-SNE는 훌륭한 머신 러닝이지만 PCA 대신 PCA를 사용해야하는 많은 이유를 찾을 수 있습니다. 내 머리 꼭대기에서 5를 언급 할 것입니다. 대부분의 다른 전산 방법론이 사용되는 것처럼 -SNE는 은 총알 이 아니며 경우에 따라 차선책으로 선택하는 데는 몇 가지 이유가 있습니다. 몇 가지 요점을 간단히 언급하겠습니다.

  1. 최종 솔루션의 확률론 . PCA는 결정 론적입니다. -SNE는 아닙니다. 하나는 좋은 시각화를 가져온 다음 그녀의 동료는 다른 시각화를 얻고 그들은 더 나은 보이는 예술 얻을과의 차이 경우 에서 차이는 의미가 ...에서 PCA를 정확한 답변을받는 제기 된 질문이 보장됩니다. -SNE에는 다른 솔루션으로 이어질 수있는 최소값이 여러 개있을 수 있습니다. 이를 위해서는 여러 번의 실행이 필요하고 결과의 재현성에 대한 의문이 제기됩니다.0.03 % K L ( P | | Q ) tt0.03%케이(||)

  2. 매핑의 해석 가능성 . 이것은 위의 요점과 관련이 있지만 팀이 특정 랜덤 시드 / 런에 동의했다고 가정합시다. 이제 질문은 이것이 보여주는 것입니다 ... -SNE는 로컬 / 이웃 만 올바르게 매핑하려고 시도하므로 포함에 대한 통찰력은 매우 신중해야합니다. 글로벌 트렌드는 정확하게 표현되지 않았으며, 이는 잠재적으로 시각화에 큰 도움이 될 수 있습니다. 반면, PCA는 초기 공분산 행렬의 대각선 회전 일 뿐이며 고유 벡터는 원래 데이터가 차지하는 공간에서 새로운 축 시스템을 나타냅니다. 특정 PCA가하는 일을 직접 설명 할 수 있습니다.

  3. 새롭거나 보이지 않는 데이터에 적용 . -SNE는 원래 공간에서 새로운 차원 (낮은)의 차원까지 기능을 배우지 하므로 문제가됩니다. 그 점에서 t -SNE는 비모수 적 학습 알고리즘이므로 모수 적 알고리즘으로 근사하는 것은 잘못된 문제입니다. 임베드는 저 차원 공간에서 데이터를 직접 이동 하여 학습됩니다 . 즉 , 새 데이터에 사용할 고유 벡터 또는 이와 유사한 구문을 얻지 못합니다 . 반대로, 고유 벡터는 PCA를 사용하여 새로운 데이터를 투영하는 데 직접 사용할 수있는 새로운 축 시스템을 제공합니다. [분명히 하나는 배우고 깊은 네트워크를 훈련을 시도 할 수 t을-SNE 매핑 (이 비디오 의 ~ 46 분 지점에서 van der Maaten 박사 가이 라인을 따라 무언가를 제안하는 소리를들을 수 있음)은 분명한 쉬운 해결책은 없습니다.]

  4. 불완전한 데이터 . 기본적으로 -SNE는 불완전한 데이터를 처리하지 않습니다. 공평하게, PCA는 그것들을 다루지 않지만 불완전한 데이터 (예 : 확률 적 PCA )에 대한 PCA의 수많은 확장이 존재하며 거의 표준 모델링 루틴입니다. t -SNE는 현재 불완전한 데이터를 처리 할 수 ​​없습니다 (확실히 확률 적 PCA를 훈련시키고 입력으로 PC 점수를 t -SNE에 전달하는 것 제외).

  5. 케이 케이케이케이분산 측면에서 최고의 선형 조합이 설명되었습니다. (이 점을 처음으로 설명하려고 할 때 엉망이되었습니다. @ amoeba에게 감사드립니다.)


케이=2,,4

@amoeba : 언급 해 주셔서 감사합니다. 이에 따라 답변을 업데이트했습니다.
usεr11852는 Reinstate Monic이

3
요점 # 3과 관련하여 다음은 파라 메트릭 t-sne lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf 에 관한 2009 년 논문입니다 . 실제로 이륙하지는 않았지만 (원래 t-sne 논문보다 인용 횟수가 25 배 적음) 실제로는 오늘날의 기술 / 라이브러리로 구현하기가 매우 쉽습니다. Keras에 설치되어 있습니다. 나는 지난 주에 그것을 조사하고 확장하는 일을 해왔다.
amoeba는 Reinstate Monica라고

시원한! (+1) arXiv 프리 프린트 플로팅을 받으면 알려주세요 (여기 또는 10 배). 결과가 궁금합니다. 예, 나는이 답변을 쓸 당시의 종이를 보았습니다 (실제로는 잘 알려진 종이입니다). 또한 포인트 # 3은 완벽하게 유효합니다. 단일 매트릭스 교차 제품을 통해 PCA가 제공하는 것을 얻으려면 DNN을 구축해야합니다.
usεr11852는 Reinstate Monic이

12

https://stats.stackexchange.com/a/249520/7828

훌륭한 일반적인 답변입니다.

귀하의 문제에 좀 더 집중하고 싶습니다. 분명히 7 개의 입력 변수와 관련하여 샘플이 어떻게 관련 되는지 확인하고 싶을 것 입니다. 그것은 t-SNE가하지 않는 것입니다. SNE와 t-SNE의 개념은 이웃을 서로 가깝게 배치하여 (거의) 전체 구조를 완전히 무시하는 것입니다.

유사한 항목을 나란히 표시 할 수 있기 때문에 시각화에 탁월합니다.

추가 분석에는 적합하지 않습니다. 전역 구조가 손실되고 일부 개체가 이웃으로 이동하는 것이 차단되었을 수 있으며 다른 그룹 간의 분리가 정량적으로 유지되지 않습니다. 예를 들어 투영에서 클러스터링이 일반적으로 잘 작동하지 않는 이유는 무엇입니까?

PCA는 정반대입니다. 전역 속성 (고 분산의 고유 벡터)을 유지하려고하지만 이웃 간의 저 분산 편차를 잃을 수 있습니다.


아, 내가 정확히 생각한 것입니다. 데이터 포인트가 공간에 어떻게 위치하는지에 관심이 없지만 측정 값이 서로 어떻게 관련되어 있는지에 관심이 있습니다. 물론이 두 가지가 연결되어 있지만 이러한 관계를 시각화하고 해석하는 관점에서 PCA 만 내가 원하는 것을 수행한다고 생각합니다. 예를 들어, 측정 간에는 긍정적이고 부정적인 관계가 있습니다. 제가 실제로 관심을 갖는 것은 연관성의 절대 값입니다. 다시 PCA를 사용하는지 이해하고 이해하기가 더 쉽다고 생각합니다.
user3744206

1
이 사용 사례의 경우 상관 관계 매트릭스 자체를 보는 것이 좋습니다. 즉, 쌍 비교 만 수행하는 것이 좋습니다. 그런 다음 스피어 맨 상관 관계를 사용하여 비선형 성을 처리 할 수도 있습니다.
Anony-Mousse

클러스터 문제에 T-SNE를 사용할 수 있습니까? 내가 이해하는 한, 우리는 새로운 시작점을 투영하고 더 낮은 차원에서 클러스터링을 시도 할 수 있습니까? 가능합니까?
Catbuilts

아닙니다. tSNE는 선형이 아니기 때문에 새 데이터에 대해서만 계산할 수는 없습니다 (위 참조). 그리고 투영 된 데이터를 클러스터링하는 것이 오도 될 수 있다는 합법적 인 논의가있었습니다.
익명-무스

1

하나의 적용된 각도를주기 위해 PCA와 t-SNE는 상호 배타적이지 않습니다. 생물학의 일부 분야에서, 우리는 t-SNE가 단순히 스케일링되지 않는 높은 차원의 데이터 (예 : scRNA-seq는 수천 차원)를 다루고 있습니다. 따라서 우리는 먼저 PCA를 사용하여 데이터의 차원을 줄인 다음 가장 중요한 기본 구성 요소를 취하여 이웃 그래프를 계산 한 다음 t-SNE (또는 유사한 비선형 차원 축소 방법을 사용하여 2 차원으로 그래프를 포함합니다) 데이터를 시각화합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.