KNN에 어떤 유형의 데이터 정규화를 사용해야합니까?


9

정규화에는 두 가지 이상의 유형이 있다는 것을 알고 있습니다.

예를 들어

1- z- 점수 또는 t- 점수를 사용하여 데이터 변환. 이것을 보통 표준화라고합니다.

2- 0에서 1 사이의 값을 갖도록 데이터 크기 조정

정규화가 필요한 경우 이제 질문

KNN에 어떤 유형의 데이터 정규화를 사용해야합니까? 그리고 왜?

답변:


11

k-NN의 경우 01 사이의 데이터를 정규화 하는 것이 좋습니다 .01

k-NN은 유클리드 거리를 예제를 비교하는 수단으로 사용합니다 . 두 지점 사이의 거리를 계산하는 X 2 = ( F (1) (2) , f를 2 2 , . . . , f를 M 2 ) , F 1 의 값인 엑스1=(에프11,에프12,...,에프1미디엄)엑스2=(에프21,에프22,...,에프2미디엄)에프1나는나는 의 두 번째 특징 :엑스1

(엑스1,엑스2)=(에프11에프21)2+(에프12에프22)2+...+(에프1미디엄에프2미디엄)2

위해서는 모든 기능은이어야 동일한 거리를 계산할 때 중요성의 기능 해야 동일한 값 범위를 갖는다. 이것은 정규화를 통해서만 달성 할 수 있습니다.

그것들이 정규화되지 않고 예를 들어, 특징 [ 0 , 1 ) 에서 값의 범위를 갖는 반면, f 2[ 1 , 10 ) 에서 값의 범위를 가졌다 . 거리를 계산할 때 두 번째 항은 첫 번째보다 10 배 중요하므로 k-NN은 첫 번째보다 두 번째 특징에 더 많이 의존합니다. 정규화는 모든 기능이 동일한 범위의 값에 매핑되도록 합니다.에프1[0,1에프2[1,10)10

반면에 표준화에는 유용한 속성이 많이 있지만 기능이 동일한 범위에 매핑되도록 보장 할 수는 없습니다 . 표준화는 다른 분류기에 가장 적합 할 수 있지만 k-NN 또는 다른 거리 기반 분류기에는 해당되지 않습니다.


4
유클리드 거리 대신 다른 거리 (예 : 맨해튼 거리 또는 다른 거리 심지어 분수 거리)를 사용하면 답이 동일합니까? 또한 변수의 범위가 서로 거의 근접한 경우.
jeza

7
예, 예를 들어 유클리드 거리를 보여 주었지만 모든 거리 측정법은 동일한 문제를 겪습니다. 범위가 서로 가까이에 있다면 그것은 메트릭의 계산에 영향을 미치지 않을 것이다 많은 것을 ,하지만 여전히 것. 예를 들어, f 2[ 0 , 1.2 ) 인 경우 f 2f 1 보다 20 % 더 중요합니다.에프1[0,1)에프2[0,1.2)에프220%에프1. 내가 언급 한 것을 잊어 버린 한 가지는 분명히 기능 스케일링을 수행하지 않는 것보다 표준화하는 것이 훨씬 낫다는 것입니다. 단순히 정규화보다 나쁩니다.
Djib2011

아 알 겠어요 "정규화보다 더 나쁘다"!?
jeza
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.