ROC 곡선을 이해하는 데 문제가 있습니다.
트레이닝 세트의 각 고유 서브 세트에서 다른 모델을 빌드하고이를 사용하여 확률을 생성 할 경우 ROC 곡선 아래 영역의 장점 / 개선이 있습니까? 예를 들어, 에 값이 있고 1-4 번째 값과 8-9 번째 값을 사용하여 모델 를 작성 남은 열차 데이터를 사용하여 모델 를 빌드하십시오 . 마지막으로 확률을 생성하십시오. 모든 의견 / 의견은 대단히 감사하겠습니다.
내 질문에 대한 더 나은 설명을위한 r 코드는 다음과 같습니다.
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
그래서 내 질문의 ROC 곡선 아래 영역입니다 pred_combine
대는 pred_full
.