SVM 및 임의 포리스트에 대해 정규화를 수행해야합니까?


답변:


29

귀하의 질문에 대한 답변은 SVM에서 어떤 유사성 / 거리 기능을 사용하려고하는지에 따라 다릅니다. 단순 (무가 중) 유클리드 거리 인 경우 데이터를 정규화하지 않으면 무의식적으로 일부 기능이 다른 기능보다 중요합니다.

예를 들어 첫 번째 치수의 범위가 0-10이고 두 번째 치수의 범위가 0-1 인 경우 첫 번째 치수의 1 차이 (범위의 10 분의 1)가 거리 계산에서 크게 다른 두 값만큼 기여합니다 두 번째 차원 (0과 1) 이렇게하면 1 차원의 작은 차이를 과장하게됩니다. 물론 사용자 정의 거리 함수를 만들거나 전문가의 추정치에 따라 치수에 가중치를 부여 할 수 있지만, 이는 데이터의 치수에 따라 많은 조정 가능한 매개 변수로 이어집니다. 이 경우 최소한 시작할 수 있기 때문에 정규화가 더 쉬운 경로는 아니지만 반드시 이상적이지는 않습니다.

마지막으로 SVM의 경우 거리 기능 대신 유사성 기능을 사용하여 커널로 연결하는 것이 기술적으로 가능합니다 (기술적 으로이 기능은 양의 한정 행렬을 생성해야 함). 이 기능은 원하는 방식으로 구성 할 수 있으며 기능 범위의 차이를 고려할 수 있습니다.

반면 임의 포리스트의 경우 한 기능이 다른 기능과 크기가 비교되지 않으므로 범위는 중요하지 않습니다. 각 단계에서 분리되는 기능 하나만 있습니다.


12

랜덤 포레스트는 개별 지형의 단조로운 변형에 변하지 않습니다. 변환 또는 기능별 스케일링은 임의 포리스트에 대한 내용을 변경하지 않습니다. SVM은 일부 기능이 다른 기능보다 훨씬 중요하다는 것을 미리 알고 있지 않는 한, 기능의 크기가 대략 동일한 경우 더 좋을 것입니다.이 경우 더 큰 크기를 갖는 것이 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.