t-SNE를 통해 시각화를위한 차원 축소가 "닫힌"문제로 간주되어야합니까?


23

차원 축소를위한 sne 알고리즘에 대해 많이 읽었습니다 . MNIST와 같은 "클래식"데이터 세트의 성능에 깊은 인상을 받았습니다. MNIST는 숫자를 명확하게 구분합니다 ( 원본 기사 참조 ).

t-SNE MNIST

또한 훈련하는 신경망에서 배운 기능을 시각화하는 데 사용했으며 결과에 매우 만족했습니다.

그래서 내가 이해하는 것처럼 :

-sne은 대부분의 데이터 세트에서 좋은 결과를 얻었 으며 Barnes-Hut 근사법으로를구현하는 것이 매우 효율적입니다. 그렇다면 최소한 2D / 3D 시각화를 만들기위한 "차원 축소"문제가 이제 "닫힌"문제라고 말할 수 있습니까?영형(로그)

나는 이것이 대담한 진술이라는 것을 알고 있습니다. 이 방법의 잠재적 인 함정이 무엇인지 이해하고 싶습니다. 즉, 그것이 유용 하지 않다는 것을 알고있는 경우가 있습니까? 또한이 분야의 "개방형"문제는 무엇입니까?

답변:


16

기필코 아니다.

나는 t-SNE가 매우 잘 작동하는 놀라운 알고리즘이며 당시의 진정한 혁신 이었다는 데 동의합니다. 하나:

  • 심각한 결점이 있습니다.
  • 단점 중 일부는 해결할 수 있어야 합니다.
  • 어떤 경우에는 눈에 띄게 더 나은 알고리즘이 이미 있습니다.
  • 많은 t-SNE의 특성은 여전히 ​​잘 알려져 있지 않습니다.

누군가는 t-SNE 몇 가지 단점이 매우 인기있는 계정에 연결 : https://distill.pub/2016/misread-tsne/ (+1), 그러나 그것은 매우 간단한 장난감 데이터 세트에 대해 설명하고 나는 그것이 대응을하지 않는 것을 발견 실제 데이터에서 t-SNE 및 관련 알고리즘을 사용할 때 실제로 직면하는 문제에 매우 잘 맞습니다. 예를 들면 다음과 같습니다.

  1. t-SNE는 종종 데이터 세트의 글로벌 구조를 유지하지 못합니다.

아래 3 가지를 모두 간략히 설명하겠습니다.


  1. t-SNE는 종종 데이터 세트의 글로벌 구조를 유지하지 못합니다.

    Allen 연구소 (mouse cortical cells) ( http://celltypes.brain-map.org/rnaseq/mouse )의 단일 세포 RNA-seq 데이터 세트를 고려 하십시오 . ~ 23k 셀이 있습니다. 우리는이 데이터 세트가 의미있는 계층 구조를 많이 가지고 있다는 것을 알고 있으며, 이것은 계층 적 클러스터링에 의해 확인됩니다. 뉴런과 비-신경 세포 (glia, astrocytes 등)가 있습니다. 뉴런 중에는 흥분성 및 억제 성 뉴런이 있습니다. 예를 들어 억제 뉴런 중에는 몇 가지 주요 그룹이있다 : Pvalb- 발현, SSt- 발현, VIP- 발현. 이러한 그룹 중 하나에 여러 개의 추가 클러스터가있는 것 같습니다. 이것은 계층 적 클러스터링 트리에 반영됩니다. 그러나 여기 위의 링크에서 가져온 t-SNE가 있습니다.

    여기에 이미지 설명을 입력하십시오

    비 신경 세포는 회색 / 갈색 / 검정색입니다. 흥분성 뉴런은 파란색 / 청록색 / 녹색입니다. 억제 뉴런은 주황색 / 빨간색 / 보라색입니다. t-SNE가 그룹을 여러 군집으로 분리하면 임의로 배치 될 수 있습니다. 데이터 세트의 계층 구조가 손실됩니다.

    나는 이것이 해결할 수있는 문제라고 생각하지만,이 방향으로의 최근 작업 (내 자신을 포함하여)에도 불구하고 좋은 원칙 개발을 알지 못합니다.

  2. 할 때 t-SNE는 "과밀화"로 고통받는 경향이 있습니다

    t-SNE는 MNIST 데이터에서 매우 잘 작동합니다. 그러나 이것을 고려하십시오 ( 이 백서 에서 가져옴 ).

    여기에 이미지 설명을 입력하십시오

    1 mln의 데이터 포인트를 사용하면 모든 클러스터가 함께 모이게됩니다 (정확한 이유는 분명하지 않음). 위에서 균형을 잡는 유일한 방법은 위에 표시된 것처럼 일부 해킹을 사용하는 것입니다. 경험상 이것은 비슷한 다른 큰 데이터 세트에서도 발생한다는 것을 알고 있습니다.

    MNIST 자체에서 이것을 볼 수 있습니다 (N = 70k). 보세요:

    여기에 이미지 설명을 입력하십시오

    오른쪽은 t-SNE입니다. 왼쪽에는 활발한 개발중인 새로운 흥미로운 방법 인 UMAP이 있는데 , 이는 이전 largeVis 와 매우 유사합니다 . UMAP / largeVis는 클러스터를 훨씬 더 멀리 떨어 뜨립니다. 정확한 이유는 불명확하다. 나는 여전히 여기에 이해해야 할 것이 많고 개선해야 할 것이 많다고 말할 것입니다.

  3. Barnes-Hut 런타임이 큰 비해 너무 느립니다.

    여기에 이미지 설명을 입력하십시오

    따라서 이것은 더 이상 공개적인 문제가 아닐 수도 있지만 최근까지만 사용되었으므로 런타임에 추가 개선의 여지가 있다고 생각합니다. 따라서이 방향으로 계속 일할 수 있습니다.


7

여기에 t-SNE를 실행할 때 매개 변수를 다양한 방법의 우수한 분석은 매우 간단한 데이터 세트는 영향을이다 : http://distill.pub/2016/misread-tsne/ . 일반적으로 t-SNE는 고차원 구조 (클러스터보다 복잡한 관계 포함)를 인식하는 데 능숙한 것으로 보이지만 매개 변수 조정, 특히 복잡도 값의 영향을받습니다.


7

나는 여전히 다른 의견을 듣고 싶지만 지금은 내 답변을 게시 할 것입니다. 좀 더 "실제적인"답변을 찾고 있었지만 t-sne에는 두 가지 이론적 인 "단점"이 있습니다. 첫 번째는 문제가 적고 두 번째는 분명히 고려해야합니다.

  1. t-sne 비용 함수는 볼록하지 않으므로 글로벌 최적 에 도달 할 수는 없습니다 . 다른 차원 축소 기술 (Isomap, LLE)에는 볼록한 비용 함수가 있습니다. t-sne에서는 그렇지 않습니다. 따라서 "좋은"솔루션에 도달하기 위해 효과적으로 조정해야하는 일부 최적화 매개 변수가 있습니다. 그러나 잠재적 인 이론적 함정에도 불구하고 실제로 t-sne 알고리즘의 "로컬 최소값"도 다른 방법의 전체 최소값보다 성능이 뛰어나고 (더 나은 시각화를 생성하는) 것으로 보이므로 실제로는 거의 하락하지 않는다고 언급 할 가치가 있습니다. .

  2. 본질적 차원의 저주 : t-sne을 사용할 때 명심해야 할 중요한 점은 본질적으로 매니 폴드 학습 이라는 것입니다연산. 본질적으로 이것은 t-sne (및 다른 그러한 방법)이 원래 높은 차원이 인위적으로 만 높은 상황에서 작동하도록 설계되었음을 의미합니다. 데이터에 본질적으로 낮은 차원이 있습니다. 즉, 데이터는 더 낮은 차원 매니 폴드에 "앉아"있습니다. 명심해야 할 좋은 예는 같은 사람의 연속 사진입니다. 각 이미지를 픽셀 수 (고차원)로 표현할 수 있지만 데이터의 본질적인 차원은 실제로 점의 물리적 변환에 의해 제한됩니다 ( 이 경우 헤드의 3D 회전). 이러한 경우 t-sne이 잘 작동합니다. 그러나 고유 차원이 높거나 데이터 포인트가 매우 다양한 매니 폴드에있는 경우 t-sne은 가장 기본적인 가정-매니 폴드의 로컬 선형성-이 위반되므로 성능이 저하 될 것으로 예상됩니다.

실제 사용자에게는 이것이 두 가지 유용한 제안을 명심해야한다고 생각합니다.

  1. 시각화 방법에 대한 차원 축소를 수행하기 전에 항상 처리중인 데이터에 대해 더 낮은 고유 차원 있는지 먼저 확인 하십시오.

  2. 1에 대해 (그리고 일반적으로) 확실하지 않은 경우, 원래 기사에서 제안한 것처럼 "매우 다양한 데이터 매니 폴드를 나타내는 모델에서 얻은 데이터 표현에 대해 t-sne을 효율적으로 수행하는 것이 유용 할 수 있습니다. "자동 인코더와 같은 비선형 레이어" 따라서 자동 인코더 + t-sne 의 조합은 이러한 경우에 좋은 솔루션이 될 수 있습니다.


안녕하세요 @ galoosh33! 내 대답을 볼 기회가 이미 있는지 궁금합니다. 도움이 되셨습니까? 이 질문을 한 후 1.5 년 동안 여전히 관심이 있는지 모르겠습니다. 피드백을 보내 주셔서 감사합니다 ... 자신의 대답에서 당신은 여전히 ​​더 많은 생각을 듣고 싶어한다고 말하지만, 이것은 또한 일부였습니다 시간 전 :)
amoeba 말한다 Reinstate Monica

1
@amoeba 큰 답변 주셔서 감사합니다! 이번 주말에 검토하겠습니다.
galoosh33
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.