분류를 위해 T-SNE를 사용하여 하이퍼 파라미터 선택


13

(경쟁)으로 작업하는 특정 문제로 21 가지 기능 ([0,1]에서 숫자) 및 이진 출력이라는 다음 설정이 있습니다. 약 100K 행이 있습니다. 설정이 시끄 럽습니다.

나와 다른 참가자는 잠시 동안 기능 생성을 적용하고이 설정에서는 t- 분산 확률 론적 이웃 임베딩이 다소 강력한 것으로 나타났습니다.

나는 "t-SNE를 효과적으로 사용하는 방법"이라는 글을 우연히 발견 했지만 여전히 분류 설정에서 가장 좋은 하이퍼 파라미터를 선택하는 방법에 대해 결론을 내릴 수는 없습니다.

경험 법칙 (특징 수, 포함 차원-> 난이도 선택)이 있습니까?

다양한 설정을 반복하는 데 너무 오래 걸리기 때문에 현재 임시 설정을 적용합니다. 의견 주셔서 감사합니다.


이것은 좋은 질문입니다! 바라건대 누군가 내 대답이 충분하지 않아 다른 답변을 얻을 수 있기를 바랍니다 (그리고 새로운 것을 배우게됩니다).
usεr11852

답변:


17

나는 정기적으로 SNE ( 클러스터링 기술과 함께-결국 이것에 대해 더 많이 사용 )를 사용하여 내 데이터에 클러스터의 존재를 인식 / 평가합니다. 불행히도 내 지식으로는 생산 된 축소 차원 데이터 세트를보고 의미가 있는지 평가하는 것 외에 올바른 난처함을 선택하는 표준 방법이 없습니다. 예를 들어 몇 가지 일반적인 사실이 있습니다. 군집 사이의 거리는 대부분 의미가 없으며, 작은 난도 값은 작은 응괴와 같은 구조를 장려하지만 그 정도입니다.t

매우 거친 경험 법칙은 각각의 재건과 관련된 오류 값이 무엇인지 확인하는 것입니다. θ θt-SNE는 원래 도메인의 데이터 간 거리 분포와 축소 된 차원 도메인의 데이터 간 거리 분포 사이의 쿨백-레 블러 분산의 합을 최소화하려고합니다 (실제로 목표 분포는 점이 다른 점을 인접 점으로 선택하지만 두 점 사이의 거리에 직접 비례합니다). KL- 분산의 값이 작을수록 더 나은 결과를 나타낸다고 주장 할 수 있습니다. 이 아이디어는 실제로는 잘 작동하지 않지만 이론 상으로는 차분하지 않은 알고리즘의 실행뿐만 아니라 일부 범위의 난도 값을 제외하는 데 이론적으로 도움이됩니다. 이 휴리스틱이 왜 만병 통치약과 거리가 먼지 그리고 그것이 어떻게 유용한 지 설명 할 수 있습니다. 거리 / 확률을 계산하는 데 사용되는 가우시안의 분산에 따라 복잡도 매개 변수가 단조롭게 증가합니다. 따라서 전체 복잡도 매개 변수를 늘리면 절대 항과 후속 KL- 분산 값에서 더 작은 거리를 얻게됩니다. 그럼에도 불구하고 동일한 난이도를 가진 20 개의 런이 있고이를 볼 수없는 경우 (원치 않는), 원래 거리를보다 정확하게 유지하기를 희망하면서 가장 작은 변수를 가진 것을 선택할 수 있습니다. 동일하다 그럼에도 불구하고 동일한 난이도를 가진 20 개의 런이 있고이를 볼 수없는 경우 (원치 않는), 원래 거리를보다 정확하게 유지하기를 희망하면서 가장 작은 변수를 가진 것을 선택할 수 있습니다. 동일하다 그럼에도 불구하고 동일한 난이도를 가진 20 개의 런이 있고이를 볼 수없는 경우 (원치 않는), 원래 거리를보다 정확하게 유지하기를 희망하면서 가장 작은 변수를 가진 것을 선택할 수 있습니다. 동일하다θ복잡성이 고정되어 있다고 가정 할 때 Barnes-Hut 근사에 대한 근사 파라미터 인 는 변경 한 다음 결과 비용을 확인하는 것이 다소 유익해야합니다. 하루가 끝나면 비용을 낮추면보다 충실한 재구성이 이루어집니다. 그래도 모든 것이 사라지지는 않습니다 ...θ

특정 유스 케이스의 경우 좋은 난관도 값을 선택하는 절차를 약간 자동화하는 방법은 다음과 같습니다. 축소 된 차원 데이터 세트 에서 작은 클러스터링 절차 (예 : 평균 또는 DBSCAN)를 실행 한 다음 해당 클러스터링의 품질을 평가하십시오. 예측하려는 것에 대해 일종의 색인 ( Cohen 's , Rand index , Fowlkes-Mallows 등)을 사용하십시오. 여기서의 아이디어는 당면한 작업을 위해 데이터의 정확한 표현 ( 난도에 의존하는 -SNE 결과)이 속성과의 정렬 측면에서 가장 유용한 정보를 제공해야한다는 것입니다 (언급 된 메트릭 중 하나의 형태로). 당신은 예측하려고합니다. 이것이 왜k t tkktt-SNE는 결국 처음에 사용되었으며, 결과 표현이 우리가 조사하는 속성에 대해 유익하지 않은 경우 낮은 재구성 오류, 시각적 호소 등에도 불구하고 단순히 좋지 않습니다.

내가 설명하는 것은 휴리스틱 이라는 것을 지적하겠습니다 . 내 게시물의 시작 부분에서 언급했듯이 결과를 수동으로 검사하는 것은 결과 차원 축소 / 클러스터링의 품질을 평가하는 데 없어서는 안될 방법입니다.


감사합니다. 군집화가 분류에 얼마나 적합한 지에 대한 지수의 아이디어는 흥미롭게 들립니다.
Ric

4

일반적으로 난이도를 데이터 세트 크기의 5 %로 설정합니다. 따라서 100K 행의 데이터 집합의 경우 고성능 컴퓨터를 사용할 수없는 경우 난이도 5000 또는 최소 1000으로 시작합니다. 우리의 데이터 세트는 유세포 분석에서 얻은 것으로 보통 10 ~ 20 개의 수치로 각각 50 ~ 500k의 데이터 포인트를 갖습니다.


4

Cao와 Wang의 "t-SNE Perplexity의 자동 선택"을 살펴보면 흥미로울 것입니다 .

t-SNE (t-Distributed Stochastic Neighbor Embedding)는 데이터 시각화를 위해 가장 널리 사용되는 차원 축소 방법 중 하나이지만 수동 선택이 필요한 복잡도 하이퍼 파라미터가 있습니다. 실제로 t-SNE 난이도를 적절히 조정하려면 사용자가 분석법의 내부 작업을 이해하고 실무 경험이 있어야합니다. 우리는 t-SNE 자체의 계산량을 넘어 무시할만한 추가 계산이 필요한 t-SNE 당혹성에 대한 모델 선택 목표를 제안합니다. 우리는 우리의 접근 방식에 의해 발견 된 난이도 설정이 여러 데이터 세트에서 인간 전문가로부터 도출 된 선호와 일치하는지 경험적으로 검증합니다. 베이지안 정보 기준 (BIC)과 최소 설명 길이 (MDL)에 대한 우리의 접근 방식의 유사성도 분석됩니다.


2
결론은 무엇입니까?
Tim

1
S(Perplex.)=2KL(P||Q)+log(n)Perlex.n (단, 팀의 의견에 +1은 논문 초록이 완전한 답과 거리가 멀다. 설명이 포함 된 답변을 제공합니다.)
usεr11852
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.