T-SNE 시각화에서 더 가까운 점이 더 유사한 것으로 간주 될 수 있습니까?


14

나는 Hinton의 논문에서 T-SNE가 지역적 유사성을 유지하는 데 훌륭한 역할을하고 글로벌 구조 (클러스터 화)를 보존하는 데 알맞은 역할을한다는 것을 이해합니다.

그러나 2D t-sne 시각화에서 더 가깝게 나타나는 포인트가 "더 유사한"데이터 포인트로 간주 될 수 있는지 확실하지 않습니다. 25 가지 기능이있는 데이터를 사용하고 있습니다.

예를 들어 아래 이미지를 보면 파란색 데이터 포인트가 녹색 데이터 포인트, 특히 가장 큰 녹색 포인트 클러스터와 더 유사하다고 가정 할 수 있습니까? 또는 다르게 말하면, 파란색 점이 다른 클러스터의 빨간색 점보다 가장 가까운 군집의 녹색 점과 더 비슷하다고 가정해도 괜찮습니까? (적색 군집에서 녹색 점 무시)

여기에 이미지 설명을 입력하십시오

sci-kit learn Manifold learning에 제시된 것과 같은 다른 예제를 관찰 할 때 이것을 가정하는 것이 옳은 것으로 보이지만 통계적으로 올바른지 확실하지 않습니다.

여기에 이미지 설명을 입력하십시오

편집하다

원래 데이터 세트에서 수동으로 거리 (평균 쌍별 유클리드 거리)를 계산했으며 시각화는 실제로 데이터 세트에 대한 비례 공간 거리를 나타냅니다. 그러나 나는 이것이 단순한 우연이 아니라 t-sne의 원래 수학적 공식에서 기대되는 것이 상당히 수용 가능한지 알고 싶습니다.


1
파란색 점은 각 인접 녹색 점에 가장 가깝습니다. 이것이 임베딩이 수행 된 방식입니다. 느슨하게 말하면 유사성 (또는 거리)이 유지되어야합니다. 25 차원에서 2 차원으로 만 이동하면 정보가 손실 될 수 있지만 2D 표현은 화면에 표시 할 수있는 가장 가까운 것입니다.
Vladislavs Dovgalecs

답변:


5

나는 t-SNE를 로컬 선형 임베딩의 스마트 확률 적 적응으로 제시 할 것이다. 두 경우 모두, 높은 공간에서 작은 공간으로 점을 투영하려고합니다. 이 투영은 국부 거리의 보존을 최적화함으로써 (LLE로 직접, 확률 분포를 생성하고, t-SNE로 KL- 분산을 최적화함으로써) 달성된다. 그렇다면 질문이 글로벌 거리를 유지합니까? 데이터의 "모양"에 따라 달라집니다 (분포가 매끄럽다면 거리를 어떻게 든 보존해야합니다).

t-SNE는 실제로 스위스 롤 ( "S"3D 이미지)에서 제대로 작동하지 않으며 2D 결과에서 중간 노란색 점이 일반적으로 파란색 점보다 빨간색 점에 더 가깝다는 것을 알 수 있습니다. 3D 이미지의 중심에 완벽하게 위치합니다).

t-SNE의 또 다른 좋은 예는 손으로 쓴 숫자의 군집입니다. 이 링크의 예를 참조하십시오. https://lvdmaaten.github.io/tsne/


2
내 말은 낮은 공간에서 거리를 유사성 기준으로 사용할 수 없다는 것입니다. t-SNE는 클러스터와 같은 글로벌 구조를 유지하지만 거리를 유지할 필요는 없습니다. 이는 고차원 데이터의 모양과 사용하는 난이도에 따라 다릅니다.
Robin

1
알 겠어. 설명해 주셔서 감사합니다. 예, 저 공간에서의 거리가 정확하지 않을 것에 동의합니다. 이제 t-sne이 시각화에 실용적이기 때문에 개념적으로 더 낮은 차원 플롯의 거리를 사용할 수 있습니까? 예를 들어, 내 그림에서 2D 공간에서 세 그룹이 명확하게 분리되어 있으면 파란색 점이 빨간색 점보다 녹색 점에 더 가깝거나 더 비슷하다는 것을 확실하게 말할 수 있습니다. 아니면 말하기가 어려울까요?
Javierfdr

1
말하기가 꽤 어렵습니다. 저 차원 공간의 점은 원점을 중심으로 한 가우스 분포로 초기화됩니다. 그런 다음 KL- 분산을 최적화하여 반복적으로 교체됩니다. 따라서 귀하의 경우 파란색 점은 녹색 클러스터와 더 비슷하지만 이제는 빨간색 클러스터보다 얼마나 가까운 지 평가할 수있는 방법이 있습니다. t-SNE.
Robin

1
종합하면, t-SNE는 (1) 큰 쌍방향 거리를 사용하여 유사하지 않은 데이터 포인트를 모델링하고 (2) 작은 쌍방향 거리를 사용하여 유사한 데이터 포인트를 모델링하는 것을 강조합니다. 특히, t-SNE는 저 차원 맵에 장거리 힘을 도입하여 최적화 초기에 분리 된 두 개의 유사한 점을 다시 끌어 올 수 있습니다.
Robin

1
아주 좋은 설명입니다. 노력해 주셔서 감사합니다. 나는 당신이 다른 의견이 완전한 답을 모았다고 생각합니다.
Javierfdr
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.