t- 분산 스토캐스틱 이웃 임베딩 (t-SNE)은 차원 축소를위한 ( 상을 수상한 ) 기법으로, 특히 고차원 데이터 세트의 시각화에 매우 적합합니다.
꽤 들리지만 저자가 말하는 것입니다.
이 경쟁에서 무엇을 빼앗 았습니까?
데이터에 대한 예측 변수를 교육하기 전에 항상 데이터를 먼저 시각화하십시오! 종종 내가 만든 것과 같은 시각화는 어떤 유형의 예측 모델을 시도해야하는지 결정하는 데 도움이되는 데이터 분포에 대한 통찰력을 제공합니다.
정보 반드시 1 손실되는 수 - 그것은 차원 축소 기법 Afterall는 것입니다. 그러나 시각화 할 때 사용 하는 것이 좋은 기술 이기 때문에 손실 된 정보는 강조 표시된 정보보다 가치가 떨어집니다 (2 차원 또는 3 차원으로 축소하여 가시적 / 인식 가능).
그래서 내 질문은 :
- tSNE가 언제 작업에 잘못된 도구입니까?
- 어떤 종류의 데이터 세트가 작동하지 않게합니까?
- 어떤 종류의 질문에 대답 할 수있는 것처럼 보이지만 실제로는 할 수 없습니까?
- 위의 두 번째 인용문에서는 항상 tSNE로 시각화해야합니까?
나는이 질문이 대화에서 가장 잘 대답 될 것이라고 기대한다. 즉, tSNE는 언제 작업에 적합한 도구인가?
tSNE에 의존하여 데이터를 쉽게 분류 할 수있는 방법 (클래스로 구분-차별적 모델)을 알려주지 않도록주의를 기울였습니다. 오해의 소지가있는 예는 아래 두 이미지의 경우 생성 모델 2 가 더 나빴습니다. 첫 번째 / 왼쪽 (정확도 53.6 %)으로 시각화 된 데이터의 경우 두 번째 / 오른쪽 (정확도 67.2 %)에 해당하는 데이터보다.
1 나는 이것에 대해 틀릴 수 있습니다. 나는 앉아서 증거 / 카운터 예를 나중에 시도 할 수 있습니다
2 생성 모델은 판별 모델과 동일하지 않지만 이것이 제가 제시 한 예입니다.