t-SNE는 언제 오도합니까?


37

저자 중 한 사람으로부터 인용 :

t- 분산 스토캐스틱 이웃 임베딩 (t-SNE)은 차원 축소를위한 ( 상을 수상한 ) 기법으로, 특히 고차원 데이터 세트의 시각화에 매우 적합합니다.

꽤 들리지만 저자가 말하는 것입니다.

저자의 또 다른 인용문 (앞서 언급 한 경쟁) :

이 경쟁에서 무엇을 빼앗 았습니까?
데이터에 대한 예측 변수를 교육하기 전에 항상 데이터를 먼저 시각화하십시오! 종종 내가 만든 것과 같은 시각화는 어떤 유형의 예측 모델을 시도해야하는지 결정하는 데 도움이되는 데이터 분포에 대한 통찰력을 제공합니다.

정보 반드시 1 손실되는 수 - 그것은 차원 축소 기법 Afterall는 것입니다. 그러나 시각화 할 때 사용 하는 것이 좋은 기술 이기 때문에 손실 된 정보는 강조 표시된 정보보다 가치가 떨어집니다 (2 차원 또는 3 차원으로 축소하여 가시적 / 인식 가능).

그래서 내 질문은 :

  • tSNE가 언제 작업에 잘못된 도구입니까?
  • 어떤 종류의 데이터 세트가 작동하지 않게합니까?
  • 어떤 종류의 질문에 대답 할 수있는 것처럼 보이지만 실제로는 할 수 없습니까?
  • 위의 두 번째 인용문에서는 항상 tSNE로 시각화해야합니까?

나는이 질문이 대화에서 가장 잘 대답 될 것이라고 기대한다. 즉, tSNE는 언제 작업에 적합한 도구인가?


tSNE에 의존하여 데이터를 쉽게 분류 할 수있는 방법 (클래스로 구분-차별적 모델)을 알려주지 않도록주의를 기울였습니다. 오해의 소지가있는 예는 아래 두 이미지의 경우 생성 모델 2 가 더 나빴습니다. 첫 번째 / 왼쪽 (정확도 53.6 %)으로 시각화 된 데이터의 경우 두 번째 / 오른쪽 (정확도 67.2 %)에 해당하는 데이터보다.

먼저 둘째


1 나는 이것에 대해 틀릴 수 있습니다. 나는 앉아서 증거 / 카운터 예를 나중에 시도 할 수 있습니다

2 생성 모델은 판별 모델과 동일하지 않지만 이것이 제가 제시 한 예입니다.


1
AB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R

@Lucas : 아, 물론입니다. (어떻게 알지 못했습니까)
Lyndon White

어떤 생성 모델을 사용하고 있습니까?
WeiChing Lin

@ Wei-ChingLin 어떤 생성 모델이 사용되고 있는지 잘 모르겠습니다. 일종의 Deep Belief Network, Deep Boltzmann Manchine 또는 Autoencoder 일 수 있습니다. 문제의 핵심과 관련이 없습니다
Lyndon White

답변:


13

T-Sne은 공간의 소규모 구조 (즉, 무엇에 가장 가까운 것)를 유지하여 데이터 분리 성을 시각화하는 데 매우 유용한 축소 기술입니다. 즉, T-Sne은 데이터 분리 정도를 이해하는 데 도움이되는 초기 시각화에 특히 유용합니다. 다른 기술들 (예를 들어, PCA)은 치수가 사라짐에 따라 저 차원 표현으로 데이터를 서로 상부에 남겨 두므로, 고차원 공간에서의 분리성에 대한 명확한 진술을하기가 매우 어렵다.

예를 들어, 중복되는 데이터가 많은 T-Sne 그래프를 얻는 경우 사용자가 무엇을하든 분류 기가 잘못 수행 할 가능성이 높습니다. 반대로, T-Sne 그래프에서 명확하게 분리 된 데이터를 볼 경우 기본 고차원 데이터에는 우수한 분류기를 구축하기에 충분한 변동성이 포함됩니다.


3
그것은 T-SNE가 무엇인지에 대한 아주 좋은 설명입니다. 감사합니다. 그러나 나는 나의 실제 질문에 대한 답을 보지 못한다 (개방 포스트의 점을 보라)
Lyndon White

5
이것은 질문에 전혀 대답하지 않습니다.
amoeba는

10

기본적으로 tSNE에는 몇 개의 하이퍼 파라미터가 있으며, 주요 매개 변수는 당황입니다. 경험적으로 복잡성은 tSNE에 대한 유사성의 개념을 정의하며 모든 데이터 포인트에 보편적 인 복잡성이 사용됩니다. 각 클러스터의 난이도가 다른 레이블이 지정된 데이터 세트를 생성 할 수 있습니다. 이것은 다양한 범위의 다양한 가우스를 혼합하여 수행 할 수 있습니다. 나는 이것이 또한 tSNE의 Barnes-Hut 구현에서 문제를 일으킬 것이라고 추측하고 있습니다. tSNE는 데이터를 분류하고 가장 가까운 이웃만을 사용합니다. tSNE에는 또한 초기 완화 기간이 있으며,이 기간은 서로를 통과합니다. 이 기간 동안 페널티 나 반발은 없습니다. 예를 들어, 데이터가 무광택 덩어리 (해당 클러스터를 나타내는 각 국수)처럼 보이면 초기 통과를 교정하는 데 어려움을 겪을 것이므로 tSNE가 잘 작동 할 것입니다. 어떤 의미에서 이것은 데이터가 함께 짜여져 처음에는 낮은 차원 공간에 있으면 tSNE가 잘 작동하지 않는다고 암시합니다.

t

k

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.