답변:
k-NN의 경우 0 과 1 사이의 데이터를 정규화 하는 것이 좋습니다 .
k-NN은 유클리드 거리를 예제를 비교하는 수단으로 사용합니다 . 두 지점 사이의 거리를 계산하는 및 X 2 = ( F (1) (2) , f를 2 2 , . . . , f를 M 2 ) , F 나 1 의 값인 난 의 두 번째 특징 :
위해서는 모든 기능은이어야 동일한 거리를 계산할 때 중요성의 기능 해야 동일한 값 범위를 갖는다. 이것은 정규화를 통해서만 달성 할 수 있습니다.
그것들이 정규화되지 않고 예를 들어, 특징 은 [ 0 , 1 ) 에서 값의 범위를 갖는 반면, f 2 는 [ 1 , 10 ) 에서 값의 범위를 가졌다 . 거리를 계산할 때 두 번째 항은 첫 번째보다 10 배 중요하므로 k-NN은 첫 번째보다 두 번째 특징에 더 많이 의존합니다. 정규화는 모든 기능이 동일한 범위의 값에 매핑되도록 합니다.
반면에 표준화에는 유용한 속성이 많이 있지만 기능이 동일한 범위에 매핑되도록 보장 할 수는 없습니다 . 표준화는 다른 분류기에 가장 적합 할 수 있지만 k-NN 또는 다른 거리 기반 분류기에는 해당되지 않습니다.