비지도 학습을 평가하기위한 성능 지표

감독되지 않은 학습 (클러스터링과 같은)과 관련하여 성능을 평가할 메트릭이 있습니까?

— 사용자 3125
소스

클러스터링

— steffen

저는이 질문이 그 질문보다 더 일반적이라고 생각합니다.

— Peter Flom-Monica Monica 복원

나는 당신이 가지고있는 것과 같은 질문을 가지고 있으며 (아직 완전히 읽지 않은) 참고 문헌과 관련이 있습니다 : 클러스터 유효성 검사를위한 내부 유효성 측정에 대한 설문 조사 L.Jegatha Deborah, R.Baskaran, A.Kannan 및 클러스터 유효성 측정 기술 Ferenc Kovács, Csaba Legány, Attila Babos

— kasterma

어떤 의미에서는이 질문에 답할 수 없다고 생각합니다. 나는 이것이 감독되지 않은 특정 방법이 얼마나 잘 수행 하는가가 왜 먼저 감독되지 않은 학습을 수행하는지에 달려 있기 때문입니다. 즉, 최종 목표의 맥락에서 방법이 잘 수행됩니까? 분명히 이것은 완전히 사실이 아니며 사람들은 이러한 문제에 대해 연구하고 일종의 평가를 포함한 결과를 발표합니다. 아래에 익숙한 몇 가지 접근 방식을 간략하게 설명하겠습니다.

클러스터링을위한 좋은 자료 (참고 자료 포함)는 sklearn의 문서 페이지 인 Clustering Performance Evaluation 입니다. 여기에는 몇 가지 방법이 포함되어 있지만 Silhouette Coefficient는 하나만 제외하고 기본 진리 레이블을 사용할 수 있다고 가정합니다. 이 방법은 이 질문에 대한 의견에 링크 된 클러스터링 평가 척도 질문에도 언급되어 있습니다.

비지도 학습 방법이 확률론적일 경우, 또 다른 옵션은 보류 된 데이터에 대한 일부 확률 측정 (로그 가능성, 당황 등)을 평가하는 것입니다. 여기에서 동기 부여는 학습되지 않은 학습 방법이 매개 변수에 적합하지 않은 유사한 데이터에 높은 확률을 할당하는 경우 관심 분포를 캡처하는 데 큰 도움이되었을 것입니다. 이러한 유형의 평가가 일반적으로 사용되는 도메인은 언어 모델링입니다.

마지막으로 언급 할 옵션은 관련 보조 작업에서지도 학습자를 사용하는 것입니다. 감독되지 않은 방법으로 잠재 변수를 생성하는 경우 이러한 잠재 변수를 입력을 나타내는 것으로 생각할 수 있습니다. 따라서 이러한 잠재 변수를 데이터가 속한 도메인과 관련된 일부 작업을 수행하는 감독 분류기에 대한 입력으로 사용하는 것이 합리적입니다. 감독 된 방법의 수행은 감독되지 않은 학습자의 수행을위한 대리 역할을 할 수있다. 이것은 본질적으로 표현 학습에 대한 대부분의 작업에서 볼 수있는 설정입니다.

이 설명은 아마도 조금 성가 시므로 구체적인 예를 들어 보겠습니다. 단어 표현 학습에 대한 거의 모든 작업은 다음과 같은 평가 접근 방식을 사용합니다.

비지도 학습자를 사용하여 단어 표현을 배웁니다.
학습 된 표현을 음성 태깅 또는 명명 된 엔티티 인식과 같은 일부 NLP 작업을 수행하는 감독 학습자의 입력으로 사용하십시오.
이진 단어 존재 기능과 같은 표준 표현을 입력으로 사용하여 기준선과 비교하여 감독 된 학습자의 성능을 향상시킬 수있는 능력으로 감독되지 않은 학습자의 성능을 평가합니다.

이 접근 방식의 예는 Dahl et al.의 단어 관찰 에 관한 교육 제한 Boltzmann 기계를 참조하십시오 .

— 알토
소스

+1 " 특정 비지도 방법이 얼마나 잘 수행하는지는 왜 비지도 학습을 처음에 수행하는지에 달려 있습니다." 실제로 결과를 해석 하지 않고 주어진 결과를 정당화하는 데 사용할 수있는 마법의 숫자를 찾지 마십시오 .

— Marc Claesen

또한 감독되지 않은 접근 방식이 얼마나 잘 작동하는지에 대한 프록시로 감독 된 접근 방식을 사용하기 위해서는 새로운 기능을 발견 할 필요가 없다고 덧붙입니다. 예를 들어, 클러스터링은 새로운 기능을 배우지 않지만, 관리 대상 학습자의 예측 정확도를 향상시키기 위해 종종 클러스터링이 사용되며, 그 이유를 설명하는 추가 이점이 있습니다. 예를 들어, k- 평균 군집화는 발견 된 구조를 이용하고 군집화로부터 압축함으로써 개선 된 k 예측을 생성 할 수있다. 참조 ttic.uchicago.edu/~shubhendu/Papers/clustering_bagging.pdf

— 진화 된 인공 두뇌