t-SNE가 클래스를 잘 분리한다는 것을 알면 어떤 분류 알고리즘을 사용해야합니까?


12

분류 문제가 있다고 가정하고 처음에는 데이터에서 통찰력을 얻고 t-SNE를 수행한다고 가정 해 봅시다. t-SNE의 결과는 클래스를 잘 분리합니다. 이것은 클래스를 아주 잘 분리하는 분류 모델을 만들 수 있음을 의미합니다 (t-SNE가 잘 분리되지 않으면 많은 것을 암시하지 않습니다).

t-SNE는 로컬 구조에 중점을두고 클래스를 잘 분리 할 수 ​​있다는 것을 알고 있습니다.이 문제에서 잘 작동하는 분류 알고리즘은 무엇입니까? Scikit은 가우스 RBF 커널을 사용하는 SVM을 제안하지만 다른 것은 무엇입니까?


3
(+1) K- 최근 접 이웃은 매우 간단하고 구현하기 쉬운 자연 선택 일 수 있습니다.
amoeba는 Reinstate Monica라고

답변:


7

먼저 간단한 대답을 한 다음 더 긴 의견을 제시하십시오.

대답

SNE 기술은 유사성이 객체 쌍에 대한 확률 분포를 형성하는 방식으로 원래 데이터 공간 및 저 차원 임베딩 공간 모두에서 N × N 유사성 매트릭스를 계산한다. 특히, 확률은 일반적으로 입력 데이터 또는 임베딩에서 계산 된 정규화 된 가우스 커널에 의해 제공됩니다. 분류 측면에서 이는 인스턴스 기반 학습 방법 을 즉시 염두에 둡니다 . RBF가 포함 된 SVM과 @amoeba가 kNN을 나열했습니다. 내가 전문가가 아닌 방사형 기본 기능 네트워크 도 있습니다 .

논평

그러나 t-SNE 플롯을보고 데이터 세트에 대해 추론하는 데 이중주의를 기울일 것입니다. t-SNE가 반드시 지역 구조에 초점을 맞추지는 않습니다. 그러나 perplexity데이터의 로컬 및 글로벌 측면 간의주의 균형을 조정하는 방법을 조절 하는 매개 변수 를 조정하여 조정하도록 조정할 수 있습니다 .

이러한 맥락에서, perplexity그 자체는 각 관측치에 몇 개의 인접 이웃이있을 수 있고 사용자가 제공하는지에 대한 암흑의 찌르기입니다. 원본 용지 상태 : "t-SNE의 성능은 혼란의 변화에 매우 견고하며, 전형적인 값은 5와 50 사이" 그러나 내 경험은 t-SNE를 최대한 활용한다는 것은 다른 난관을 가진 여러 플롯을 분석하는 것을 의미 할 수 있습니다.

다시 말하면, 튜닝 learning rate하고 perplexity, 그 훈련 동일한 단계 번호를 2 차원 플롯을 찾고 동일한 데이터를 사용하여 매우 다른 얻을 수있다.

증류t-SNE 사용 방법 t-SNE 분석의 일반적인 함정을 효과적으로 요약합니다. 요약 요점은 다음과 같습니다.

  1. 하이퍼 파라미터 (예 : 학습 속도, 당혹감)는 실제로 중요합니다

  2. t-SNE 플롯의 클러스터 크기는 아무 의미가 없습니다.

  3. 군집 사이의 거리는 아무 의미가 없습니다

  4. 랜덤 노이즈가 항상 랜덤하게 보이지는 않습니다.

  5. 때로는 모양이 보입니다

  6. 토폴로지의 경우 둘 이상의 플롯이 필요할 수 있습니다.

특히 위의 2, 3 및 6 지점에서 개별 t-SNE 플롯을 보면 데이터의 분리 가능성에 대해 추론하는 것에 대해 두 번 생각할 것입니다. 올바른 매개 변수를 사용하여 명확한 군집을 표시하는 '제조'도표를 작성할 수있는 경우가 많이 있습니다.


1
Berkmeister : 당신이 쓴 모든 것이 의미가 있습니다. 내 문제는 설명하기가 쉽습니다. 분류 모델을 최대한 좋게 만들고 싶습니다. 모델의 품질을 향상시키기 위해 어떻게 사용할 수 있습니까? 내 최선의 추측은 t-SNE가 주어진 문제와 관련된 방법을 '추천'할 수 있다는 것입니다.
Tomek Tarczynski

2
인스턴스 기반 학습 방법은 t-SNE 플롯에서 얻을 수있는 단서와 호환되는 편집을 참조하십시오.
Zhubarb

2
(+1) : 답변 주셔서 감사합니다, 나는 이것을 정확하게 찾고 있었다. 2 일 이내에 답변을 수락하겠습니다.
Tomek Tarczynski
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.