데이터 세트에서 가능한 최고의 성능


9

분류와 같은 간단한 기계 학습 문제가 있다고 가정 해보십시오. 비전 또는 오디오 인식에 대한 일부 벤치 마크에서, 나는 인간으로서 매우 훌륭한 분류 자입니다. 그러므로 나는 분류자가 얼마나 잘 얻을 수 있는지에 대한 직감을 가지고 있습니다.

그러나 많은 데이터를 통해 한 가지 요점은 내가 훈련시키는 분류 기가 얼마나 좋은지 알 수 없다는 것 입니다. 이것은 내가 개인적으로 아주 좋은 분류자가 아닌 데이터입니다 (즉, EEG 데이터에서 사람의 기분을 분류하십시오). 내 문제가 얼마나 어려운지 직관을 얻는 것은 실제로 불가능합니다.

이제 기계 학습 문제가 발생하면 얼마나 잘 얻을 수 있는지 알고 싶습니다. 이것에 대한 원칙적인 접근법이 있습니까? 어떻게 하시겠습니까?

데이터를 시각화 하시겠습니까? 간단한 모델로 시작 하시겠습니까? 매우 복잡한 모델로 시작하여 과적 합할 수 있는지 확인하십시오. 이 질문에 대답하려면 무엇을 찾고 있습니까? 언제 시도를 중단합니까?

답변:


6

이것이 답변으로 간주되는지 모르겠습니다 ...

이것은 밤에 당신을 유지하는 하나의 문제입니다. 더 나은 모델을 만들 수 있습니까? 박사 코믹스는 잘 요약합니다 (만화를 업로드 할 수 있는지 여부를 알 수 없으므로 링크했습니다)

머신 러닝 경쟁에 참여함으로써 얻은 개인적인 경험을 바탕으로 여기에 경험이 있습니다.

분류 작업이 주어진다고 상상해보십시오. 앉아서 문제에 어떻게 접근 할 것인지 한 시간 이내에 브레인 스토밍하고이 분야의 최신 기술을 확인하십시오. 이 연구를 기반으로 모델을 작성하십시오. 바람직하게는 매개 변수를 너무 많이 조정하지 않고 안정적인 것으로 알려져 있습니다. 결과 성능은 달성 가능한 최대 성능의 약 80 %입니다.

이 규칙은 소위 파레토 원리를 기반으로하며 최적화에도 적용됩니다. 문제가 발생하면 합리적인 성능의 빠른 성능을 제공하는 솔루션을 만들 수 있지만,이 시점부터 개선 노력과 노력의 비율이 급격히 떨어집니다.

마지막 단어 : 새로운 분류 알고리즘에 관한 논문을 읽을 때, 저자는 새로운 품종을 이러한 "파레토 최적화"접근 방식과 비교할 것으로 기대합니다. (일부 매개 변수 최적화가 필요합니다). 불행히도 많은 사람들이 그렇게하지 않습니다.


0

일반적인 방법은 ROC와 그 아래 영역 (AUC) 을 고려하는 입니다. 이 접근법의 근거는 특정 가양 성 비율에 대한 실제 양성률이 높을수록 분류 기가 더 우수하다는 것이다. 가능한 모든 오 탐지율을 통합하면 전체적인 척도가됩니다.


3
내가 OP를 이해하는 한, 그의 문제는 분류기의 성능을 측정하는 것이 아니라 (미래에 예상되는 성능에 대한 좋은 추정 일 것입니다.) 메트릭 당 (AUC는 최대 1 또는 그와 비슷한 것), 그러나 주어진 문제에 대해)
steffen

그렇습니다.
bayerj

0

데이터를 시각화 할 수있는 방법이 있다면 가능한 최선의 시나리오이지만 모든 데이터를 동일한 방식으로 시각화 할 수있는 것은 아니므로 데이터를 이해하는 데 도움이되는 데이터를 투영하는 고유 한 방법을 찾아야 할 수도 있습니다. 보다 나은.

그러나 일반적으로 작은 데이터 샘플을 가져 와서 ARFF로 변환하고 WEKA와 다른 클러스터링 알고리즘을 시도합니다. 그런 다음 어떤 알고리즘이 더 나은 혼동 행렬을 제공하는지 알 수 있습니다. 클래스가 얼마나 잘 분리되어 있는지에 대한 힌트를 제공하고 왜 특정 알고리즘이이 데이터에 더 적합한 지 조사 할 수 있습니다. 또한 클러스터 수를 변경합니다 (즉, k = 2를 사용하지 않고 k = 3, 4 등을 사용합니다). 데이터에 조각화가 있는지 또는 한 클래스가 다른 클래스보다 더 단편화되어 있는지 여부를 알 수 있습니다. 클러스터링을 위해 교육 및 테스트 지점을 함께 사용하면 교육 지점으로 표시되는 클러스터를 측정 할 수도 있습니다. 일부 군집은 과도하게 표현되거나 일부는 과도하게 표현 될 수 있으며 둘 다 분류기를 배우는 문제를 일으킬 수 있습니다.

항상 훈련 정확도를 확인하십시오. 훈련 정확도가 좋아 보이지 않으면 잘못 분류 된 훈련 포인트도 큰 힌트입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.