나는 Hinton의 논문에서 T-SNE가 지역적 유사성을 유지하는 데 훌륭한 역할을하고 글로벌 구조 (클러스터 화)를 보존하는 데 알맞은 역할을한다는 것을 이해합니다.
그러나 2D t-sne 시각화에서 더 가깝게 나타나는 포인트가 "더 유사한"데이터 포인트로 간주 될 수 있는지 확실하지 않습니다. 25 가지 기능이있는 데이터를 사용하고 있습니다.
예를 들어 아래 이미지를 보면 파란색 데이터 포인트가 녹색 데이터 포인트, 특히 가장 큰 녹색 포인트 클러스터와 더 유사하다고 가정 할 수 있습니까? 또는 다르게 말하면, 파란색 점이 다른 클러스터의 빨간색 점보다 가장 가까운 군집의 녹색 점과 더 비슷하다고 가정해도 괜찮습니까? (적색 군집에서 녹색 점 무시)
sci-kit learn Manifold learning에 제시된 것과 같은 다른 예제를 관찰 할 때 이것을 가정하는 것이 옳은 것으로 보이지만 통계적으로 올바른지 확실하지 않습니다.
편집하다
원래 데이터 세트에서 수동으로 거리 (평균 쌍별 유클리드 거리)를 계산했으며 시각화는 실제로 데이터 세트에 대한 비례 공간 거리를 나타냅니다. 그러나 나는 이것이 단순한 우연이 아니라 t-sne의 원래 수학적 공식에서 기대되는 것이 상당히 수용 가능한지 알고 싶습니다.