과도하게 샘플링 된 데이터를 사용하여 SVM 또는 의사 결정 트리의 신뢰도를 매핑하는 등지도 학습의 확률로 신뢰 수준을 보정하려면 한 가지 방법은 Platt의 스케일링을 사용하는 것입니다 (예 : 부스팅에서 교정 확률 확보 ).
기본적으로 로지스틱 회귀를 사용하여 를 로 매핑 합니다. 종속 변수는 실제 레이블이고 예측 변수는 보정되지 않은 모델의 신뢰도입니다. 내가 이해하지 못하는 것은 1 또는 0 이외의 대상 변수를 사용하는 것입니다.이 메소드는 새로운 "라벨"의 생성을 요구합니다.
시그 모이 드 트레인 세트에 과적 합을 피하기 위해 샘플 외부 모델이 사용됩니다. 이 경우 긍정적 예 및 각 훈련 예를 들어 기차 세트 네거티브 예, 플랫 보정 사용 목표치 및 (대신 1과 0을 각각),
내가 이해하지 못하는 것은이 새로운 목표가 어떻게 유용한 지입니다. 로지스틱 회귀 분석은 종속 변수를 이진 레이블로 취급하지 않습니까 (어떤 레이블이 제공되는지에 관계없이)?
최신 정보:
SAS에서 종속 항목을 에서 다른 것으로 변경하면 (을 사용하여 ) 동일한 모델로 되돌아 갔다는 것을 알았습니다 . 아마도 내 오류 또는 SAS의 다양성이 부족할 수 있습니다. R에서 모델을 변경할 수있었습니다. 예를 들어 :PROC GENMOD
data(ToothGrowth)
attach(ToothGrowth)
# 1/0 coding
dep <- ifelse(supp == "VC", 1, 0)
OneZeroModel <- glm(dep~len, family=binomial)
OneZeroModel
predict(OneZeroModel)
# Platt coding
dep2 <- ifelse(supp == "VC", 31/32, 1/32)
plattCodeModel <- glm(dep2~len, family=binomial)
plattCodeModel
predict(plattCodeModel)
compare <- cbind(predict(OneZeroModel), predict(plattCodeModel))
plot(predict(OneZeroModel), predict(plattCodeModel))