능선 회귀 분류 기가 왜 텍스트 분류에 잘 작동합니까?


18

텍스트 분류를 실험하는 동안 SVM, NB, kNN 등과 같이 텍스트 마이닝 작업에 더 일반적으로 언급되고 적용되는 분류기 중 테스트를 지속적으로 능가하는 능선 분류기 결과를 찾았습니다. 매개 변수에 대한 간단한 조정을 제외 하고이 특정 텍스트 분류 작업에서 각 분류자를 최적화하는 데 도움이됩니다.

이러한 결과는 Dikran Marsupial 에서도 언급 되었습니다 .

통계 배경에서 나오지 않고 온라인으로 일부 자료를 읽은 후에도 여전히 주요 원인을 알 수 없습니다. 누구든지 그러한 결과에 대한 통찰력을 제공 할 수 있습니까?

답변:


16

텍스트 분류 문제는 상당히 높은 차원 (다수의 특징) 인 경향이 있으며 높은 차원 문제는 선형으로 분리 할 수 ​​있습니다 (점의 방법에 관계없이 d- 차원 공간에서 d + 1 점을 선형 분류기로 분리 할 수 ​​있기 때문에) 라벨이 부착되어 있습니다). 따라서 능선 회귀 또는 선형 커널이있는 SVM과 같은 선형 분류기는 잘 수행 될 수 있습니다. 두 경우 모두 (tdc에서 +1로 언급 한 것처럼) SVM의 ridge 매개 변수 또는 C는 분류기의 복잡성을 제어하고 각 클래스의 패턴을 큰 마진으로 분리하여 과적 합을 피합니다 (예 : 결정 표면이 두 지점 모음 사이의 간격 중간). 그러나 좋은 성능을 얻으려면 능선 / 정규화 매개 변수를 적절히 조정해야합니다 (저렴한 일회성 교차 검증을 사용합니다).

그러나 능선 회귀가 제대로 작동하는 이유는 비선형 방법이 너무 강력하여 과적 합을 피하기 어렵 기 때문입니다. 최고의 선형 모델보다 더 나은 일반화 성능을 제공하는 비선형 분류 기가있을 수 있지만, 우리가 보유한 유한 한 훈련 데이터 샘플을 사용하여 이러한 매개 변수를 추정하는 것은 너무 어렵습니다. 실제로 모형이 단순할수록 모수를 추정 할 때 발생하는 문제가 줄어들어 과적 합 경향이 줄어 실제 결과가 더 좋아집니다.

또 다른 문제는 기능 선택이며, 능선 회귀는 가중치를 작게 유지하기 위해 가중치를 정규화하여 과적 합을 피하고 단일 회귀 매개 변수의 값만 선택하면되기 때문에 모델 선택이 간단합니다. 최적의 피처 세트를 선택하여 과적 합을 피하려고하면 각 피처에 대한 자유도 (정렬)가 있으므로 모델 선택이 어려워 져 피처 선택 기준을 과도하게 맞출 수 있습니다. 이 특정 데이터 샘플에 최적이지만 일반화 성능이 떨어지는 일련의 기능으로 끝납니다. 따라서 기능 선택을 수행하지 않고 정규화를 사용하면 예측 성능이 향상 될 수 있습니다.

나는 종종 능선 회귀 모델과 함께 배깅 (훈련 세트에서 부트 스트랩 샘플로 훈련 된 모델로 구성된위원회)을 사용하여 성능을 향상시키고 종종 모든 모델이 선형이므로 단일 선형 모델을 형성하기 위해 결합 따라서 성능 저하가 없습니다.


1

일반적으로 점은 "일반 위치"에 있다고 가정하므로 (예를 들어) 점이 직선 상에 있지 않은 경우 2 차원 공간에서는 3 점을 분리 할 수 ​​있습니다. 모든 점이 직선에 있으면 실제로 2 차원 공간에 포함 된 1 차원 부분 공간에 거주합니다.
Dikran Marsupial

위키 피 디아 문 아니에요 있지만 반드시 이유가 진실해야한다 "방법 평균 몇 가지 예측 보낸 사람,이 모델 선형 개선을 위해 유용하지 않다"가?
tdc

왜 그런지 모르겠습니다. 포장 선형 모델이 단일 선형 모델로 정확하게 표현 될 수 있다는 문제가 의심되지만 문제는 모델의 형식이 아니라 단일 모델의 매개 변수를 추정하는 것입니다. 배깅이 일반화를 향상시키는 것으로 나타 났지만 관측치보다 더 많은 기능이없는 경우 일반적으로 게인이 작습니다 (모델 추정이 불안정하고 데이터의 작은 변경으로 인해 모델이 크게 변경됨).
Dikran Marsupial

Wikipedia 페이지를 업데이트해야 할 수도 있습니다! 당신은 그 문제에 대해 잘 알고
있다고 들었습니다

6

릿지 회귀는 이름에서 알 수 있듯이 분류가 아닌 회귀 방법입니다. 아마도 임계 값을 사용하여 분류기로 바꿉니다. 어쨌든 하이퍼 플레인으로 정의 된 선형 분류기를 배우는 것입니다. 그것이 작동하는 이유는 작업이 본질적으로 선형으로 분리 가능하기 때문입니다. 즉, 간단한 초평면이 클래스를 분리하는 데 필요한 전부입니다. "ridge"매개 변수를 사용하면 완전히 선형으로 분리 할 수없는 경우 또는 순위가 부족한 문제 (이 경우 최적화가 저하됨)에서 작동 할 수 있습니다.

이 경우 다른 분류 기가 올바르게 구현되었다고 가정 할 때 다른 분류기의 성능이 좋지 않은 이유는 없습니다. 예를 들어, SVM은 "최적의 분리 초평면"(즉, 클래스 간 마진 또는 간격을 최대화하는 초평면)을 찾습니다. CSVM 의 매개 변수는 능선 매개 변수와 유사한 용량 제어 매개 변수로, 일부 오 분류 (이상치)를 허용합니다. 매개 변수 선택 프로세스가 부지런히 수행되었다고 가정하면 두 가지 방법으로 이러한 데이터 세트에서 거의 동일한 결과를 얻을 수 있습니다.


2
LS-SVM 이진 분류가 -1,1 레이블의 Ridge Regression과 동일하다는 것을 알 수 있습니다. 그들의 공식은 동일합니다.
Firebug

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.