하나의 우세 예측 변수로 분류


9

나는 (케이-클래스) 분류 문제, 100 개의 실제 예측 변수 순서 중 하나가 다른 하나보다 설명력이 훨씬 높은 것으로 보입니다. 다른 변수의 효과에 대해 더 깊이 알고 싶습니다. 그러나 표준 머신 러닝 기술 (임의의 포리스트, SVM 등)은 하나의 강력한 예측 변수에 휩싸여있는 것 같습니다.

이것이 회귀 문제라면, 간단히 강력한 예측 변수에 대해 회귀하고 나머지를 다른 알고리즘의 입력으로 사용합니다. 그래도이 접근법이 어떻게 분류 컨텍스트로 변환 될 수 있는지 알지 못합니다.

저의 본능은이 문제가 합리적으로 일반적이어야한다는 것입니다.이를 다루는 표준 기술이 있습니까?

답변:


2

2 클래스 문제의 경우 RGBM 패키지를 사용할 수 있습니다.이 경우 분류 트리를 손실 함수의 잔차에 반복적으로 맞출 수 있습니다. 불행히도 아직 다중 클래스 문제를 지원하지 않습니다.

이것은 부스팅에 적합한 문제처럼 보이지만 k 클래스 문제를 지원하는 부스팅 패키지는 알 수 없습니다. 문제는 여러 클래스에 적절한 손실 함수를 작성하는 것입니다. glmnet패키지는 아마 당신은 몇 가지 포인터에 대한 그것의 소스 코드를 볼 수하는 다항 손실 기능을 가지고 있습니다.

자체 부스팅 알고리즘을 작성하거나 문제를 k 이진 분류 문제 (한 클래스 대 다른 모든 클래스)로 변환하고 각 문제에 gbm 모델을 맞추고 각 모델의 클래스 확률을 평균화 할 수 있습니다.


2
Zach 개발 안정성이 어디에 있는지 확실하지 않지만 R Forge의 GBM은 다중 범주 분류를 허용하는 손실 함수로 다항 로지스틱을 가지고 있습니다.
B_Miner

감사! 나는 부스팅이 이것에 접근하는 좋은 방법이 될 것이라는 데 동의하며, 당신이 제안한 것들을 살펴볼 것입니다. 나는 여전히 문제를 변형 시켜서 이것을 해결할 수있는 좋은 방법이 있는지 알고 싶습니다.
Martin O'Leary

@Zach 어떻게 작동하는지 알려주세요.
B_Miner
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.