감독되지 않은 학습 (클러스터링과 같은)과 관련하여 성능을 평가할 메트릭이 있습니까?
감독되지 않은 학습 (클러스터링과 같은)과 관련하여 성능을 평가할 메트릭이 있습니까?
답변:
어떤 의미에서는이 질문에 답할 수 없다고 생각합니다. 나는 이것이 감독되지 않은 특정 방법이 얼마나 잘 수행 하는가가 왜 먼저 감독되지 않은 학습을 수행하는지에 달려 있기 때문입니다. 즉, 최종 목표의 맥락에서 방법이 잘 수행됩니까? 분명히 이것은 완전히 사실이 아니며 사람들은 이러한 문제에 대해 연구하고 일종의 평가를 포함한 결과를 발표합니다. 아래에 익숙한 몇 가지 접근 방식을 간략하게 설명하겠습니다.
클러스터링을위한 좋은 자료 (참고 자료 포함)는 sklearn의 문서 페이지 인 Clustering Performance Evaluation 입니다. 여기에는 몇 가지 방법이 포함되어 있지만 Silhouette Coefficient는 하나만 제외하고 기본 진리 레이블을 사용할 수 있다고 가정합니다. 이 방법은 이 질문에 대한 의견에 링크 된 클러스터링 평가 척도 질문에도 언급되어 있습니다.
비지도 학습 방법이 확률론적일 경우, 또 다른 옵션은 보류 된 데이터에 대한 일부 확률 측정 (로그 가능성, 당황 등)을 평가하는 것입니다. 여기에서 동기 부여는 학습되지 않은 학습 방법이 매개 변수에 적합하지 않은 유사한 데이터에 높은 확률을 할당하는 경우 관심 분포를 캡처하는 데 큰 도움이되었을 것입니다. 이러한 유형의 평가가 일반적으로 사용되는 도메인은 언어 모델링입니다.
마지막으로 언급 할 옵션은 관련 보조 작업에서지도 학습자를 사용하는 것입니다. 감독되지 않은 방법으로 잠재 변수를 생성하는 경우 이러한 잠재 변수를 입력을 나타내는 것으로 생각할 수 있습니다. 따라서 이러한 잠재 변수를 데이터가 속한 도메인과 관련된 일부 작업을 수행하는 감독 분류기에 대한 입력으로 사용하는 것이 합리적입니다. 감독 된 방법의 수행은 감독되지 않은 학습자의 수행을위한 대리 역할을 할 수있다. 이것은 본질적으로 표현 학습에 대한 대부분의 작업에서 볼 수있는 설정입니다.
이 설명은 아마도 조금 성가 시므로 구체적인 예를 들어 보겠습니다. 단어 표현 학습에 대한 거의 모든 작업은 다음과 같은 평가 접근 방식을 사용합니다.
이 접근 방식의 예는 Dahl et al.의 단어 관찰 에 관한 교육 제한 Boltzmann 기계를 참조하십시오 .