랜덤 포레스트에서 오 분류 비용을 제어하는 ​​방법은 무엇입니까?


21

R 패키지 randomForest 에서 오 분류 비용을 제어 할 수 있습니까?

내 자신의 연구에서 허위 부정 (예를 들어, 사람이 질병을 앓고있을 수있는 오류가 없음)은 허위 양성보다 훨씬 비쌉니다. 패키지 부품 은 사용자가 잘못 분류 된 가중치를 다르게하는 손실 매트릭스를 지정함으로써 잘못된 분류 비용을 제어 할 수 있도록합니다. 비슷한 것이 randomForest있습니까? 예를 들어, classwtGini 기준을 제어하는 ​​옵션을 사용해야 합니까?

답변:


8

실제로는 그렇지 않은 경우 수동으로 rpart모델 복제를 수행하는 RF 복제본을 만들어서는 안됩니다 .

일부 옵션은 RF의 출력이 실제로 결정적인 결정이 아닌 연속적인 점수, 즉 일부 클래스에서 투표 한 나무의 비율이라는 사실에서 비롯됩니다. predict(rf_model,type="prob")예를 들어, ROC 곡선을 사용하여 추출 하고 사용할 수 있습니다 . ROC 곡선은 0.5보다 나은 임계 값을 나타냅니다 (나중에 cutoff매개 변수를 사용 하여 RF 교육에 통합 할 수 있음 ).

classwt 접근 방식도 유효한 것처럼 보이지만 실제로는 잘 작동하지 않습니다. 속성에 관계없이 동일한 클래스의 균형 잡힌 예측과 사소한 캐스팅 간의 전환은 사용하기에 너무 예리한 경향이 있습니다.


MBQ. 많은 감사합니다. (i) ROC 곡선 :이 경우 비용 가중치가 무엇인지에 대한 사전 정의가 있으므로 ROC 곡선이 필요하지 않습니다. (ii) classwt: 그렇습니다. 실제로 다른 사용자와 일치하여 결과가 예상과 다릅니다. (iii) cutoff: cutoff이 경우 활용 방법에 대해 잘 모르겠 으며 추가 조언을 환영합니다.
user5944

3

비용을 포함시키는 방법에는 여러 가지가 있습니다.
(1) 각 포장 트리에 대한 오버 / 언더 샘플링 (층화 된 샘플링)은 가장 일반적인 비용 도입 방법입니다. 의도적으로 데이터 세트를 불균형합니다.
(2) 가중치. 절대 작동하지 않습니다. 나는 이것이 문서에서 강조되었다고 생각합니다. 일부는 지니 분할 및 최종 투표를 포함하여 모든 단계에서 가중치를 부여해야한다고 주장합니다. 작동한다면 까다로운 구현이 될 것입니다.
(3) Weka의 메타 코스트 함수.
(4) 랜덤 포레스트를 확률 분류기로 취급하고 임계 값을 변경합니다. 이 옵션이 가장 마음에 들지 않습니다. 아마도 지식이 부족하기 때문에 알고리즘이 확률을 출력 할 수는 있지만 이것이 확률 모델 인 것처럼 취급하는 것은 의미가 없습니다.

그러나 나는 추가적인 접근법이 있다고 확신합니다.


3

예측하려는 변수가 (대부분의 경우와 같이) class 150 % 및 50 % 가 아닌 class 2경우 cutoff실제 OOB를 요약 하여 나타내도록 매개 변수를 조정하는 것이 좋습니다 .

예를 들어

randomForest(data=my_data, formula, ntree = 501, cutoff=c(.96,.04))

이 경우, 하나의 값을 갖는 확률 class 1.96값을 갖는 상태 class 2이다 .04.

그렇지 않으면 임의의 포리스트는 0.5 .


1

하나는 통합 할 수 costMatrix있는 randomForest을 통해 명시 적으로 parms매개 변수 :

library(randomForest)
costMatrix <- matrix(c(0,10,1,0), nrow=2)
mod_rf <- randomForest(outcome ~ ., data = train, ntree = 1000, parms = list(loss=costMatrix))

0

패키지 의 sampsize기능을 사용하여 비용 민감도를 통합 할 수 있습니다 randomForest.

model1=randomForest(DependentVariable~., data=my_data, sampsize=c(100,20))

수치를 바꾸다 (100,20)가지고있는 데이터와 작업중인 가정 / 비즈니스 규칙에 를 변경하십시오.

분류 오류 비용을 반영하는 혼동 행렬을 얻으려면 약간의 시행 착오 접근법이 필요합니다. Richard Berk 's Criminal Forecasts of Risk : A Machine Learning Approach , p. 82.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.