신뢰 구간과 예측 구간의 차이

80

선형 회귀 분석의 예측 구간의 경우 여전히 를 사용하여 구간을 생성합니다. 또한이를 사용하여 신뢰 구간 을 생성하십시오 . 둘의 차이점은 무엇입니까? $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ $E[Y|x_0]$

— 질문
소스

7

\hat{E} [Y | x] = \hat{β_{0}} + {\hat{β}}_{1} x

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ 는 "간격을 생성하지 않습니다".

— Glen_b

위의 답변 중 두 가지 방법이 다른 이유는 없습니다. 회귀 결과는 일반적으로 파라 메트릭 스튜던트 t 분포 모수 및 특히 회귀, 특히 데이터 회귀 모델과 잘못 일치하여 회귀를 기반으로 추정되며, 예를 들어 치우 치지 않지만 특히 꼬리가 두꺼운 경우 잔차가 발생합니다 (항상 그런 것은 아님). 대응하는 예상 측정 된 Quantile보다 큰 데이터 분산의 파라 메트릭 측정. 경험적으로 볼 때, 유용한 점은 이상치, 긴 꼬리 및 u가있는 잔차를 보는 경우

— Carl

관련 : 선형 모형에서 예측 한계에 대한 공식 구하기 .

— Scortchi

75

귀하의 질문이 정확하지 않습니다. 신뢰 구간은 말한 것처럼 의 범위를 제공합니다 . 예측 구간은 자체 의 범위를 제공 합니다. 당연히 대한 최선의 추측 은 이므로 간격은 모두 같은 값 중심으로합니다 . $\text{E}[y \mid x]$ $y$ $y$ $\text{E}[y \mid x]$ $x\hat{\beta}$

@Greg가 말했듯이 표준 오류는 다를 것입니다. 예상되는 값은 자체를 추정하는 것보다 더 정확하게 추측 합니다. 추정 하려면 실제 오차항에서 나온 분산을 포함해야합니다. $\text{E}[y \mid x]$ $y$ $y$

차이점을 설명하기 위해 계수 의 완벽한 추정치를 얻을 수 있다고 상상해보십시오 . 그러면 의 추정치 가 완벽 할 것입니다. 그러나 우리 가 고려해야 할 진정한 오류 항이 있기 때문에 여전히 자체가 무엇인지 확신 할 수 없습니다 . 정확히 추정하기 때문에 "간격"이라는 확신이 필요 하지만 실제 오차 항을 고려하여 예측 간격이 넓어집니다. $\beta$ $\text{E}[y \mid x]$ $y$ $\text{E}[y \mid x]$

따라서 예측 구간은 신뢰 구간보다 넓습니다.

— 야경
소스

40

예측 구간과 신뢰 구간의 차이가 표준 오차입니다.

평균에 대한 신뢰 구간의 표준 오차는 샘플링으로 인한 불확실성을 고려합니다. 표본에서 계산 한 선은 모집단 전체가있는 경우 계산 된 선과 다르며 표준 오차는이 불확실성을 고려합니다.

개별 관측치의 예측 구간에 대한 표준 오차는 위와 같은 샘플링으로 인한 불확실성을 고려하지만 예측 평균 주변의 개인의 변동성을 고려합니다. 예측 구간의 표준 오차는 신뢰 구간보다 넓고 따라서 예측 구간은 신뢰 구간보다 넓습니다.

— 그레그 스노우
소스

39

다음 설명이 도움이되었다는 것을 알았습니다.

신뢰 구간 은 평균을 얼마나 잘 결정했는지 알려줍니다. 데이터가 실제로 가우스 분포에서 무작위로 샘플링되었다고 가정합니다. 이 작업을 여러 번 수행하고 각 표본의 평균 신뢰 구간을 계산하면 해당 구간의 약 95 %에 모집단 평균의 실제 값이 포함될 것으로 예상됩니다. 핵심은 신뢰 구간이 실제 모집단 모수의 가능한 위치에 대해 알려준다는 것입니다.

예측 간격 은 샘플링 된 다음 데이터 포인트를 볼 수있는 위치를 알려줍니다. 데이터가 실제로 가우스 분포에서 무작위로 샘플링되었다고 가정합니다. 데이터 샘플을 수집하고 예측 간격을 계산하십시오. 그런 다음 모집단에서 하나 이상의 값을 샘플링하십시오. 이 작업을 여러 번 수행하면 다음 값이 표본의 95 %에서 해당 예측 간격 내에있을 것으로 예상됩니다. 요점은 예측 간격이 모집단을 결정할 때의 불확실성이 아니라 값의 분포에 대해 알려준다는 것입니다 평균.

예측 구간은 모집단 평균 값을 아는 불확실성과 데이터 분산을 모두 고려해야합니다. 따라서 예측 구간은 항상 신뢰 구간보다 넓습니다.

출처 : http://www.graphpad.com/support/faqid/1506/

— 폰즈
소스

도대체 "데이터 분산"이란 무엇입니까?

— 전화

2

@tel : 분명히 차이

— vonjd

36

하나는 미래 관측치의 예측이고 다른 하나는 예측 된 평균 반응입니다. 나는 그 차이와 그 차이가 어디에서 왔는지, 그리고이 차이가 자신감보다 예측을 위해 더 넓은 간격으로 어떻게 나타나는지를 희망적으로 설명하기 위해 더 자세한 답을 줄 것입니다.

이 예는 신뢰 구간과 예측 구간의 차이를 보여줍니다. 침실 수, 크기 등을 기준으로 주택 가격을 예측하는 회귀 모델이 있다고 가정합니다. 주어진 대해 두 가지 종류의 예측이있을 수 있습니다 . $x_0$

우리는 특성으로 시장에 출시되는 특정 새 집의 가격을 예측할 수 있습니다 ( "이 집의 예상 가격은 무엇 입니까? ?" ). 실제 가격은 입니다. 이후 , 예측 가격한다 이 예측의 변화 평가에, 우리가 우리의 불확실성을 포함 할 필요 예측에 대한 불확실성 (예측 오류)과 (예측 오류)의 분산도 포함해야합니다 . 이를 일반적으로 미래 가치 의 예측 이라고 합니다 . $x_0$ $x_0$
$y = x_{0}^{T} β + ϵ$ $y = x_0^T\beta+\epsilon$ $E(\epsilon)=0$ $\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$ $\epsilon$
우리는 또한 집의 평균 가격을 예측할 수있는 특성 ( "어떤 특성을 가진 집의 평균 가격 것 ?" ). 점 추정치는 여전히 이지만 이제 의 차이 만 고려하면됩니다. 이를 일반적으로 평균 반응 예측 이라고 합니다. $x_0$ $x_0$
$\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$

대부분의 경우, 우리가 정말로 원하는 것은 첫 번째 경우입니다. 우리는

v a r (x_{0}^{T} \hat{β}) = x_{0}^{T} (X^{T} X)^{- 1} x_{0} σ^{2}

$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$

이것이 우리의 평균 반응의 차이입니다 (사례 2). 그러나 향후 관측치 (사례 1)를 예측하려면 의 분산이 필요하다는 것을 기억하십시오 . 은 편차를 가지며 와 독립적 인 것으로 가정합니다 . 간단한 대수를 사용하면 다음과 같은 신뢰 구간이 생성됩니다. $x_0^T\hat{\beta} + \epsilon$ $\epsilon$ $\sigma^2$ $\hat{\beta}$

에 대한 단일 단일 응답에 대한 CI : $x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0} + 1}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$
에 대한 평균 반응에 대한 CI : $x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0}}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$

여기서 는 Quantile 에서 자유도를 갖는 t- 통계량입니다 . $t_{n-p}^{\alpha/2}$ $n-p$ $\alpha/2$

희망적으로 이것은 예측 간격이 항상 더 넓은 이유와 두 간격 사이의 근본적인 차이가 무엇인지 조금 더 명확하게 만듭니다. 이 예는 R, Sec. 4.1.

— jpgard
소스

2

명확하고 사려 깊은 응답으로 오래된 스레드가 상당히 개선 된 것을 보는 것이 좋습니다. 우리 사이트에 오신 것을 환영합니다!

— whuber

이 값은 ... x0 + 1 / n +1 (예측 구간 (1)) 및 ... x0 + 1 / n (신뢰 구간 (2)) _ www2.stat.duke.edu가 아니어야합니다. /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…

— user48956

12

짧은 답변:

예측 구간은 아직 발견 될 확률 변수 (예측)와 연관된 간격이다.

신뢰 구간은 매개 변수와 연관된 간격 및 빈도주의 개념이다.

전체 응답을 확인 여기 롭 Hyndman, R.에서 예측 패키지의 창조자에서

— pablo_sci
소스

3

이 답변은 이전 답변을 완전히 이해할 수없는 독자를위한 것입니다. 구체적인 예를 살펴 보겠습니다. 키, 성별 (남성, 여성) 및 다이어트 (표준, 저탄수화물, 채식주의 자)로부터 사람들의 체중을 예측한다고 가정 해보십시오. 현재 지구에는 80 억 명이 넘는 사람들이 있습니다. 물론, 키는 같고 무게는 다른 두 개의 매개 변수를 가진 수천 명의 사람들을 찾을 수 있습니다. 그들의 무게는 비만이 있고 다른 사람들은 기아로 고통받을 수 있기 때문에 크게 다릅니다. 그 사람들의 대부분은 중간 어딘가에있을 것입니다.

한 가지 과제는 세 가지 설명 변수의 값이 모두 같은 모든 사람의 평균 체중을 예측하는 것입니다. 여기서 신뢰 구간을 사용합니다. 또 다른 문제는 특정 사람의 체중을 예측하는 것입니다. 그리고 우리는 그 개인의 생활 환경을 모른다. 여기서 예측 간격을 사용해야합니다. 같은 점을 중심으로하지만 신뢰 구간보다 훨씬 넓어야합니다.

— 세리이 쿠첸 코
소스