Support Vector Machine은 속성 간의 상관 관계에 민감합니까?


11

20 개의 속성을 기반으로 사례 (TRUE / FALSE)를 분류하도록 SVM을 훈련하고 싶습니다. 이러한 속성 중 일부는 서로 밀접한 관련이 있다는 것을 알고 있습니다. 따라서 내 질문은 SVM이 기능 간의 상관 관계 또는 중복성에 민감합니까? 어떤 참조?


하나의 변수를 기반으로 분리를 생성하면 다른 상관 변수가 추가 분리와 관련하여 약해지기 때문에 내 추측은 아니오입니다. 그러나 어떤 변수가 선택되는지에 대해서는 약간의 불안정성이있을 수 있습니다.
mandata

선형 SVM 또는 RBF 커널에 대해 이야기하고 있습니까?
Dougal

흠, 모르겠다 ... 대답은 그것에 달려 있습니까?
user7064

네 그럼요. 원하는 경우 상관 관계를 명시 적으로 처리하도록 커널을 설계 할 수 있습니다.
Dougal

1
@Dougal : 상관 관계의 영향을 제거하는 방법이 있다면 표준 SVM이 상관 관계에 민감하다는 것을 의미하지 않습니까?
cfh

답변:


12

선형 커널 : 여기에서의 효과는 선형 회귀의 다중 공선 성과 비슷합니다. 학습 된 모델은 다른 가중치 벡터가 유사한 출력을 갖기 때문에 훈련 세트의 작은 변형에 대해 특히 안정적이지 않을 수 있습니다. 그러나 훈련 세트 예측은 상당히 안정적이므로 예측이 동일한 분포에서 나온 경우 테스트를 테스트합니다.

RBF 커널 : RBF 커널은 데이터 포인트 간의 거리 만 확인합니다. 따라서 실제로 11 개의 속성이 있지만 그 중 하나가 10 번 반복된다고 가정합니다 (매우 극단적 인 경우). 그런 다음 반복되는 속성은 다른 속성보다 거리에 10 배나 많이 기여하며 학습 된 모델은 해당 기능에 의해 훨씬 더 영향을받습니다.

d(x,y)=(xy)TS1(xy)SxCxCS1=CTCS1


이것은 매우 흥미로운 답변입니다. 이러한 종류의 문제를 완화하는 방법에 대해 자세히 알고 싶습니다. 하나 또는 두 개의 참조를 추가 할 수 있습니까?
Sycorax는 Reinstate Monica가

나는 좋은 사람을 모릅니다. 그러나 나는 아마도 오늘 밤 조금을 둘러 볼 것입니다.
Dougal

대박! 멋진 기사를 찾은 경우받은 편지함 내 (+1)이 3k를 넘을 수있게되어 기쁩니다. (- :
Sycorax는 분석 재개 모니카 말한다

1
Mahalanobis 거리에서 공분산 행렬의 역수가 핵심입니다. 확실하게 추정 할 수 있다면이 영향을 설명 할 수 있습니다.
Vladislavs Dovgalecs
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.