나는 정기적으로 SNE ( 클러스터링 기술과 함께-결국 이것에 대해 더 많이 사용 )를 사용하여 내 데이터에 클러스터의 존재를 인식 / 평가합니다. 불행히도 내 지식으로는 생산 된 축소 차원 데이터 세트를보고 의미가 있는지 평가하는 것 외에 올바른 난처함을 선택하는 표준 방법이 없습니다. 예를 들어 몇 가지 일반적인 사실이 있습니다. 군집 사이의 거리는 대부분 의미가 없으며, 작은 난도 값은 작은 응괴와 같은 구조를 장려하지만 그 정도입니다.t
매우 거친 경험 법칙은 각각의 재건과 관련된 오류 값이 무엇인지 확인하는 것입니다. θ θt-SNE는 원래 도메인의 데이터 간 거리 분포와 축소 된 차원 도메인의 데이터 간 거리 분포 사이의 쿨백-레 블러 분산의 합을 최소화하려고합니다 (실제로 목표 분포는 점이 다른 점을 인접 점으로 선택하지만 두 점 사이의 거리에 직접 비례합니다). KL- 분산의 값이 작을수록 더 나은 결과를 나타낸다고 주장 할 수 있습니다. 이 아이디어는 실제로는 잘 작동하지 않지만 이론 상으로는 차분하지 않은 알고리즘의 실행뿐만 아니라 일부 범위의 난도 값을 제외하는 데 이론적으로 도움이됩니다. 이 휴리스틱이 왜 만병 통치약과 거리가 먼지 그리고 그것이 어떻게 유용한 지 설명 할 수 있습니다. 거리 / 확률을 계산하는 데 사용되는 가우시안의 분산에 따라 복잡도 매개 변수가 단조롭게 증가합니다. 따라서 전체 복잡도 매개 변수를 늘리면 절대 항과 후속 KL- 분산 값에서 더 작은 거리를 얻게됩니다. 그럼에도 불구하고 동일한 난이도를 가진 20 개의 런이 있고이를 볼 수없는 경우 (원치 않는), 원래 거리를보다 정확하게 유지하기를 희망하면서 가장 작은 변수를 가진 것을 선택할 수 있습니다. 동일하다 그럼에도 불구하고 동일한 난이도를 가진 20 개의 런이 있고이를 볼 수없는 경우 (원치 않는), 원래 거리를보다 정확하게 유지하기를 희망하면서 가장 작은 변수를 가진 것을 선택할 수 있습니다. 동일하다 그럼에도 불구하고 동일한 난이도를 가진 20 개의 런이 있고이를 볼 수없는 경우 (원치 않는), 원래 거리를보다 정확하게 유지하기를 희망하면서 가장 작은 변수를 가진 것을 선택할 수 있습니다. 동일하다θ복잡성이 고정되어 있다고 가정 할 때 Barnes-Hut 근사에 대한 근사 파라미터 인 는 변경 한 다음 결과 비용을 확인하는 것이 다소 유익해야합니다. 하루가 끝나면 비용을 낮추면보다 충실한 재구성이 이루어집니다. 그래도 모든 것이 사라지지는 않습니다 ...θ
특정 유스 케이스의 경우 좋은 난관도 값을 선택하는 절차를 약간 자동화하는 방법은 다음과 같습니다. 축소 된 차원 데이터 세트 에서 작은 클러스터링 절차 (예 : 평균 또는 DBSCAN)를 실행 한 다음 해당 클러스터링의 품질을 평가하십시오. 예측하려는 것에 대해 일종의 색인 ( Cohen 's , Rand index , Fowlkes-Mallows 등)을 사용하십시오. 여기서의 아이디어는 당면한 작업을 위해 데이터의 정확한 표현 ( 난도에 의존하는 -SNE 결과)이 속성과의 정렬 측면에서 가장 유용한 정보를 제공해야한다는 것입니다 (언급 된 메트릭 중 하나의 형태로). 당신은 예측하려고합니다. 이것이 왜k t tkktt-SNE는 결국 처음에 사용되었으며, 결과 표현이 우리가 조사하는 속성에 대해 유익하지 않은 경우 낮은 재구성 오류, 시각적 호소 등에도 불구하고 단순히 좋지 않습니다.
내가 설명하는 것은 휴리스틱 이라는 것을 지적하겠습니다 . 내 게시물의 시작 부분에서 언급했듯이 결과를 수동으로 검사하는 것은 결과 차원 축소 / 클러스터링의 품질을 평가하는 데 없어서는 안될 방법입니다.