예측 간격으로 확률 론적 진술을 할 수 있습니까?


12

사이트에서 신뢰 구간과 예측 구간의 해석에 관한 많은 훌륭한 토론을 읽었지만 한 가지 개념은 여전히 ​​약간 수수께끼입니다.

OLS 프레임 워크를 고려하고 우리는 피팅 모델 획득 한 Y = X β를 . 우리는 x *를 받았으며 그 반응을 예측하도록 요청 받았다. 우리는 계산 X * T의 β를 보너스로, 우리는 또한 우리의 예측 주위에 95 % 예측 간격을 제공하고, 라 선형 모델의 예측 한계에 대한 수식을 획득 . 이 예측 구간 PI를 호출합니다.y^=Xβ^xxTβ^

이제 다음 중 PI에 대한 올바른 해석은 무엇입니까?

  1. 들면 특히, Y ( X * ) 는 95 %의 확률로 PI 내에 놓여있다.xy(x)
  2. 많은 수의 가 주어지면 PI 계산 절차에서 95 %의 실제 응답을 다룰 것입니다.x

선형 회귀 예측 간격 에서 @gung의 문구에서 , 전자가 사실 인 것처럼 보입니다 (오해가 잘 해석 될 수는 있지만). 그것이 올바른 만약 우리가하고 때문입니다 예측 a의 실현 확률 변수의추정 매개 변수를 ?

(질문) 보너스 질문 : 우리가 진정한 가 무엇인지 , 즉 데이터를 생성하는 과정 을 알고 있다고 가정 하면, 우리는 단지 ϵ ?βϵ

이것에 대한 나의 마지막 시도 : 우리는 예측 간격을 두 부분으로 "개념적으로 분해"(단어를 매우 느슨하게 사용) 할 수 있습니다. 오차항의 범위. (B) 실제 예측 평균을 아는 조건에 대해 확률 론적 진술을 할 수 있지만, 전체적으로 예측 간격을 예측 값 주변의 빈번한 CI로만 처리 할 수 ​​있습니다. 이것이 다소 맞습니까?


내가 stats.stackexchange.com/a/26704에 쓴 대답 은 (2)와 같은 것이지만 (많은 숫자의 법칙에 따르면) 반드시 (1) 은 아니라는 것을 암시합니다.
whuber

답변:


5

첫째, 단어 확률의 사용에있어서, 잦은 사람들은 무작위 조각이 아직 발생하지 않은 것을 예측할 때 단어 확률을 사용하는 데 아무런 문제가 없습니다. 실제 모수가 변하지 않고 (알 수없는 값이지만 고정 된 것으로 가정) 신뢰 구간에 대한 단어 확률은 마음에 들지 않으며 구간은 이미 수집 한 데이터를 기반으로하기 때문에 고정됩니다. 예를 들어, 데이터가 성인 남성 인간의 무작위 표본에서 나온 것이고 x는 신장이고 y는 체중이며 일반적인 회귀 모형에 적합하면 신뢰 구간에 대해 이야기 할 때 확률을 사용하지 않습니다. 그러나 65 인치 키가 65 세의 남성 중에서 일정 간격 내에서 체중이 무작위로 선택 될 확률에 대해 이야기하고 싶은 경우,

보너스 질문에 대한 대답은 "예"라고합니다. 충분한 정보를 알면 구간 내에서 y 값을 볼 확률을 계산하거나 원하는 확률로 구간을 찾을 수 있습니다.

"1"로 표시된 진술서 간격이나 확률에 대해 이야기 할 때 "대략"과 같은 단어를 사용하면 괜찮습니다. 보너스 질문에서 언급했듯이, 불확실성을 예측 중심에 대한 부분과 실제 평균에 대한 임의성에 대한 부분으로 분해 할 수 있습니다. 이들을 결합하여 모든 불확실성을 다룰 때 (그리고 모델 / 정확성이 정확하다고 가정 할 때) 너무 넓은 경향이있는 구간 (너무 좁을 수도 있음)을 가지므로 무작위로 선택된 새로운 지점의 확률 예측 구간으로 떨어지는 것이 정확히 95 %가되지는 않습니다. 이것을 시뮬레이션으로 볼 수 있습니다. 알려진 모든 모수로 알려진 회귀 모형으로 시작하십시오. 이 관계에서 표본 (다수의 x 값)을 선택하고 회귀에 적합하고, 예측 간격 (들)을 계산하도록 구성된다. 이제 실제 모델에서 많은 수의 새로운 데이터 포인트를 다시 생성하여 예측 간격과 비교하십시오. 다음 R 코드를 사용하여이 작업을 몇 차례 수행했습니다.

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

위의 코드를 몇 번 (약 10 회, 조심스럽게 세지 않았습니다) 실행했으며 대부분 간격에서 새 값의 비율은 96 % ~ 98 % 범위였습니다. 비율이 93 % ~ 94 % 범위에있는 것으로 추정 된 표준 편차가 매우 낮은 경우가 있었지만 나머지는 모두 95 % 이상이었습니다. 그래서 나는 "약 95 %"로 변경 한 당신의 진술 1에 만족할 것입니다.

마찬가지로, 진술 2는 "대략"또는 유사해야합니다. 불확실성을 다루기 위해 평균 95 % 이상을 캡처하고 있기 때문입니다.


0

두 번째가 더 좋습니다. 첫 번째는 다른 정보가 무엇인지에 달려 있습니다.

임의의 예를 사용하면 "95 % 구간 (95 % 신뢰도)에 [insert variable]의 실제 평균이 포함됩니다"는 것이 사실입니다.

반면에 결과가 반 직관적 일 경우, 우리는 주장 할 수 없다 (1).

예를 들어, "95 % 신뢰도에서의 나의 유의성 테스트는 키와 체중이 음의 상관 관계 가 있음을 보여줍니다 ". 그건 사실이 아닙니다 . "95 % 확률이 사실"이라고 말할 수는 없습니다 . 사실, 사전 지식을 고려할 때, 그것이 사실 일 가능성은 매우 적습니다. 그러나 "이러한 테스트의 95 %가 올바른 결과를 얻었을 "이라고 말하는 것이 타당합니다 .


1
이 답변은 예측 간격보다는 신뢰 구간에 대해 논의하는 것 같습니다.
whuber

@whuber 같은 원칙이 적용됩니다. 우리는 본질적으로 특정 변수 ( "예측 된"변수)에 대한 신뢰 구간을 다루고 있습니다.

2
파라미터와 같은 고정 값과 랜덤 변수의 값 사이에는 중요한 차이가 있습니다. 더욱이, 현재의 질문의 핵심은 이러한 구별에 도달합니다. ( "미래") 무작위 결과의 확률에 대해 무엇을 말할 수 있습니까? 그러므로이 질문을 단지 자신감의 의미에 관한 질문으로 취급하기에는 부적절하고 오해의 소지가있는 것으로 보인다.
whuber

@whuber 게시물의 명령문 (2)는 여전히 명령문 (1)을 의미하지 않습니다. 나의 예에서와 같이, 직관 / 배경 지식에 반하는 예측 은 미래의 결과가 PI에서 95 %의 확률로 떨어질 것이라는 것을 의미하지는 않습니다 . 시간의 95 %에 해당하는 프로세스가 미래의 결과를 포함하는 PI를 제공한다는 것은 사실입니다. 그러나 때때로 이것이 언제 발생했는지 감지하는 것이 가능합니다.

당신 말이 맞지만, 내가 당신의 의견을 올바르게 읽고 있다면 그것이 요점을 놓친 것 같습니다. 문제는 PI가 의도적으로 미래 가치를 커버 할 확률이 95 % 일 뿐이거나 추가 데이터 (또는 직관)가 더 많은 정보를 제공 할 수 있다는 사실이 아닙니다. 우리 앞에있는 문제는 PI가 미래 값에 대한 조건부 확률 (회귀 값을 기준으로)으로 해석 될 수 있는지에 관한 것입니다. 실제로 OP 참고 사항으로 Bayes PI 의 해석 이지만 잦은 PI에는 유효하지 않습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.