KNN을위한 최적의 K 선택


15

KNN을위한 최적의 K를 선택하기 위해 5 중 CV를 수행했습니다. 그리고 K가 클수록 오류가 작아지는 것처럼 보입니다 ...

여기에 이미지 설명을 입력하십시오

죄송합니다. 범례가 없지만 색상이 다르면 시련이 다릅니다. 총 5 개가 있으며 그 사이에 약간의 차이가있는 것 같습니다. K가 커지면 오류는 항상 감소하는 것 같습니다. 그렇다면 최고의 K를 어떻게 선택할 수 있습니까? K = 3 이후에 그래프 종류가 사라지기 때문에 여기서 K = 3을 선택하는 것이 좋을까요?


클러스터를 찾으면 무엇을 하시겠습니까? 궁극적으로 클러스터링 알고리즘으로 생성 된 클러스터를 사용하면 더 많은 클러스터를 사용하여 작은 오류를 얻는 것이 가치가 있는지 여부를 결정하는 데 도움이됩니다.
Brian Borchers

높은 예측력을 원합니다. 이 경우 K = 20으로 가야합니까? 오류가 가장 낮기 때문입니다. 그러나 실제로 K에 대한 오류를 최대 100까지 플로팅했습니다. 그리고 100은 가장 낮은 오류를 가지고 있습니다. 따라서 K가 증가함에 따라 오류가 줄어 듭니다. 그러나 나는 좋은 차단 점이 무엇인지 모른다.
Adrian

답변:


12

kk케이k케이 CV 오류의 차이가 무시할 만하다면 작은 것보다

CV 오류가 다시 증가하지 않으면 속성이 유익하지 않은 것 (적어도 해당 거리 메트릭에 대해)이며 일정한 출력을 제공하는 것이 최선의 방법 일 것입니다.



0

군집 수 뒤에 물리적 또는 자연적 의미가 있습니까? 내가 틀리지 않으면 K가 커질수록 오차가 줄어드는 것은 당연합니다. 최적의 K를 낚시질하는 대신, 도메인 지식이나 직관에 따라 K를 선택하는 것이 더 좋을까요?


이 대답은 k-nn 분류 또는 회귀보다는 k- 평균 군집화에 더 적합하다고 생각합니다.
Dikran Marsupial

k가 너무 크면 적합하지 않은 것이므로 오류가 다시 증가합니다.
James
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.