R의 각 예측에 대해 회귀에서 신뢰 점수 (임의의 포리스트 / XGBoost 포함)를 계산하는 방법은 무엇입니까?


11

Random Forests 또는 Extreme Gradient Boosting (XGBoost)과 같은 알고리즘을 사용할 때 각 예측 값에 대한 신뢰 점수를 얻는 방법이 있습니까? 이 신뢰 점수의 범위는 0에서 1까지이며 특정 예측에 대해 내가 얼마나 확신하는지 보여 줍니다 .

인터넷에서 신뢰에 대해 찾은 것에서 일반적으로 간격으로 측정됩니다. 다음은 라이브러리의 confpred함수를 사용하여 계산 된 신뢰 구간의 예입니다 lava.

library(lava)
set.seed(123)
n     <- 200
x     <- seq(0,6,length.out=n)
delta <- 3
ss    <- exp(-1+1.5*cos((x-delta)))
ee    <- rnorm(n,sd=ss)
y     <- (x-delta)+3*cos(x+4.5-delta)+ee
d     <- data.frame(y=y,x=x)
newd  <- data.frame(x=seq(0,6,length.out=50))
cc    <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
  plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
  with(cc, lava::confband(newd$x, lwr, upr, fit,  lwd=3, polygon=T, 
                          col=Col("blue"), border=F))
}

코드 출력은 신뢰 구간 만 제공합니다.

점, 예측 및 신뢰 구간을 보여주는 그래프

라이브러리도 conformal있지만 회귀 분석의 신뢰 구간에도 사용됩니다. "적합성 (conformal)은 등각 예측 프레임 워크에서 예측 오류의 계산을 허용합니다. (i) 분류 값 p. "

방법이 있습니까?

  1. 회귀 문제에서 각 예측에 대한 신뢰도 값을 얻으려면?

  2. 방법이 없다면 각 관측치에 대해 신뢰 점수로 사용하는 것이 의미가 있습니다.

    신뢰 구간의 상한과 하한 사이의 거리 (위의 예제 출력에서와 같이) 따라서이 경우 신뢰 구간이 클수록 불확실성이 커집니다 (그러나 구간 내에서 실제 값이 어디에 있는지 고려하지 않음)


1
randomForestCIStephan Wager 의 패키지와 Susan Athey와 관련된 문서를 살펴보십시오 . CI 만 제공하지만 잔차 분산을 계산하여 예측 간격을 만들 수 있습니다.
generic_user

답변:


4

신뢰 점수라고하는 것은 개별 예측의 불확실성에서 얻을 수 있습니다 (예를 들어 역수를 취함으로써).

이 불확실성을 정량화하는 것은 항상 포장으로 가능하며 임의의 숲에서는 비교적 간단하지만 이러한 추정치는 편향되었습니다. Wager et al. (2014)은 이러한 불확실성을보다 효율적이고 편견없이 얻는 두 가지 절차를 설명했다. 이것은 부트 교정 후의 잭나이프와 무한대 잭 나이프의 바이어스 수정 버전을 기반으로합니다. R 패키지 ranger및 에서 구현을 찾을 수 있습니다 grf.

최근에는 조건부 추론 트리로 구축 된 임의의 포리스트를 사용하여이를 개선했습니다. 시뮬레이션 연구 (Brokamp et al. 2018)를 기반으로, 무한대 잭나이프 추정기는 조건부 추론 트리를 사용하여 랜덤 포레스트를 만들 때 예측 오류를보다 정확하게 추정하는 것으로 보입니다. 이것은 패키지로 구현됩니다 RFinfer.


Wager, S., Hastie, T. & Efron, B. (2014). 임의의 포리스트에 대한 신뢰 구간 : jackknife 및 무한대 jackknife. 기계 학습 연구 저널, 15 (1), 1625-1651.

Brokamp, ​​C., Rao, MB, Ryan, P. & Jandarov, R. (2017). 무한 잭나이프를 사용하여 점근 분산을 추정하기위한 랜덤 포레스트에서의 리샘플링 및 재귀 분할 방법 비교. 통계, 6 (1), 360-372.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.