답변:
귀하의 질문에 대한 답변은 SVM에서 어떤 유사성 / 거리 기능을 사용하려고하는지에 따라 다릅니다. 단순 (무가 중) 유클리드 거리 인 경우 데이터를 정규화하지 않으면 무의식적으로 일부 기능이 다른 기능보다 중요합니다.
예를 들어 첫 번째 치수의 범위가 0-10이고 두 번째 치수의 범위가 0-1 인 경우 첫 번째 치수의 1 차이 (범위의 10 분의 1)가 거리 계산에서 크게 다른 두 값만큼 기여합니다 두 번째 차원 (0과 1) 이렇게하면 1 차원의 작은 차이를 과장하게됩니다. 물론 사용자 정의 거리 함수를 만들거나 전문가의 추정치에 따라 치수에 가중치를 부여 할 수 있지만, 이는 데이터의 치수에 따라 많은 조정 가능한 매개 변수로 이어집니다. 이 경우 최소한 시작할 수 있기 때문에 정규화가 더 쉬운 경로는 아니지만 반드시 이상적이지는 않습니다.
마지막으로 SVM의 경우 거리 기능 대신 유사성 기능을 사용하여 커널로 연결하는 것이 기술적으로 가능합니다 (기술적 으로이 기능은 양의 한정 행렬을 생성해야 함). 이 기능은 원하는 방식으로 구성 할 수 있으며 기능 범위의 차이를 고려할 수 있습니다.
반면 임의 포리스트의 경우 한 기능이 다른 기능과 크기가 비교되지 않으므로 범위는 중요하지 않습니다. 각 단계에서 분리되는 기능 하나만 있습니다.