텍스트 분류 문제는 상당히 높은 차원 (다수의 특징) 인 경향이 있으며 높은 차원 문제는 선형으로 분리 할 수 있습니다 (점의 방법에 관계없이 d- 차원 공간에서 d + 1 점을 선형 분류기로 분리 할 수 있기 때문에) 라벨이 부착되어 있습니다). 따라서 능선 회귀 또는 선형 커널이있는 SVM과 같은 선형 분류기는 잘 수행 될 수 있습니다. 두 경우 모두 (tdc에서 +1로 언급 한 것처럼) SVM의 ridge 매개 변수 또는 C는 분류기의 복잡성을 제어하고 각 클래스의 패턴을 큰 마진으로 분리하여 과적 합을 피합니다 (예 : 결정 표면이 두 지점 모음 사이의 간격 중간). 그러나 좋은 성능을 얻으려면 능선 / 정규화 매개 변수를 적절히 조정해야합니다 (저렴한 일회성 교차 검증을 사용합니다).
그러나 능선 회귀가 제대로 작동하는 이유는 비선형 방법이 너무 강력하여 과적 합을 피하기 어렵 기 때문입니다. 최고의 선형 모델보다 더 나은 일반화 성능을 제공하는 비선형 분류 기가있을 수 있지만, 우리가 보유한 유한 한 훈련 데이터 샘플을 사용하여 이러한 매개 변수를 추정하는 것은 너무 어렵습니다. 실제로 모형이 단순할수록 모수를 추정 할 때 발생하는 문제가 줄어들어 과적 합 경향이 줄어 실제 결과가 더 좋아집니다.
또 다른 문제는 기능 선택이며, 능선 회귀는 가중치를 작게 유지하기 위해 가중치를 정규화하여 과적 합을 피하고 단일 회귀 매개 변수의 값만 선택하면되기 때문에 모델 선택이 간단합니다. 최적의 피처 세트를 선택하여 과적 합을 피하려고하면 각 피처에 대한 자유도 (정렬)가 있으므로 모델 선택이 어려워 져 피처 선택 기준을 과도하게 맞출 수 있습니다. 이 특정 데이터 샘플에 최적이지만 일반화 성능이 떨어지는 일련의 기능으로 끝납니다. 따라서 기능 선택을 수행하지 않고 정규화를 사용하면 예측 성능이 향상 될 수 있습니다.
나는 종종 능선 회귀 모델과 함께 배깅 (훈련 세트에서 부트 스트랩 샘플로 훈련 된 모델로 구성된위원회)을 사용하여 성능을 향상시키고 종종 모든 모델이 선형이므로 단일 선형 모델을 형성하기 위해 결합 따라서 성능 저하가 없습니다.