선형 회귀 분석의 예측 구간의 경우 여전히 를 사용하여 구간을 생성합니다. 또한이를 사용하여 신뢰 구간 을 생성하십시오 . 둘의 차이점은 무엇입니까?
선형 회귀 분석의 예측 구간의 경우 여전히 를 사용하여 구간을 생성합니다. 또한이를 사용하여 신뢰 구간 을 생성하십시오 . 둘의 차이점은 무엇입니까?
답변:
귀하의 질문이 정확하지 않습니다. 신뢰 구간은 말한 것처럼 의 범위를 제공합니다 . 예측 구간은 자체 의 범위를 제공 합니다. 당연히 대한 최선의 추측 은 이므로 간격은 모두 같은 값 중심으로합니다 .
@Greg가 말했듯이 표준 오류는 다를 것입니다. 예상되는 값은 자체를 추정하는 것보다 더 정확하게 추측 합니다. 추정 하려면 실제 오차항에서 나온 분산을 포함해야합니다.
차이점을 설명하기 위해 계수 의 완벽한 추정치를 얻을 수 있다고 상상해보십시오 . 그러면 의 추정치 가 완벽 할 것입니다. 그러나 우리 가 고려해야 할 진정한 오류 항이 있기 때문에 여전히 자체가 무엇인지 확신 할 수 없습니다 . 정확히 추정하기 때문에 "간격"이라는 확신이 필요 하지만 실제 오차 항을 고려하여 예측 간격이 넓어집니다.
따라서 예측 구간은 신뢰 구간보다 넓습니다.
다음 설명이 도움이되었다는 것을 알았습니다.
신뢰 구간 은 평균을 얼마나 잘 결정했는지 알려줍니다. 데이터가 실제로 가우스 분포에서 무작위로 샘플링되었다고 가정합니다. 이 작업을 여러 번 수행하고 각 표본의 평균 신뢰 구간을 계산하면 해당 구간의 약 95 %에 모집단 평균의 실제 값이 포함될 것으로 예상됩니다. 핵심은 신뢰 구간이 실제 모집단 모수의 가능한 위치에 대해 알려준다는 것입니다.
예측 간격 은 샘플링 된 다음 데이터 포인트를 볼 수있는 위치를 알려줍니다. 데이터가 실제로 가우스 분포에서 무작위로 샘플링되었다고 가정합니다. 데이터 샘플을 수집하고 예측 간격을 계산하십시오. 그런 다음 모집단에서 하나 이상의 값을 샘플링하십시오. 이 작업을 여러 번 수행하면 다음 값이 표본의 95 %에서 해당 예측 간격 내에있을 것으로 예상됩니다. 요점은 예측 간격이 모집단을 결정할 때의 불확실성이 아니라 값의 분포에 대해 알려준다는 것입니다 평균.
예측 구간은 모집단 평균 값을 아는 불확실성과 데이터 분산을 모두 고려해야합니다. 따라서 예측 구간은 항상 신뢰 구간보다 넓습니다.
하나는 미래 관측치의 예측이고 다른 하나는 예측 된 평균 반응입니다. 나는 그 차이와 그 차이가 어디에서 왔는지, 그리고이 차이가 자신감보다 예측을 위해 더 넓은 간격으로 어떻게 나타나는지를 희망적으로 설명하기 위해 더 자세한 답을 줄 것입니다.
이 예는 신뢰 구간과 예측 구간의 차이를 보여줍니다. 침실 수, 크기 등을 기준으로 주택 가격을 예측하는 회귀 모델이 있다고 가정합니다. 주어진 대해 두 가지 종류의 예측이있을 수 있습니다 .
우리는 특성으로 시장에 출시되는 특정 새 집의 가격을 예측할 수 있습니다 ( "이 집의 예상 가격은 무엇 입니까? ?" ). 실제 가격은 입니다. 이후 , 예측 가격한다 이 예측의 변화 평가에, 우리가 우리의 불확실성을 포함 할 필요 예측에 대한 불확실성 (예측 오류)과 (예측 오류)의 분산도 포함해야합니다 . 이를 일반적으로 미래 가치 의 예측 이라고 합니다 .
우리는 또한 집의 평균 가격을 예측할 수있는 특성 ( "어떤 특성을 가진 집의 평균 가격 것 ?" ). 점 추정치는 여전히 이지만 이제 의 차이 만 고려하면됩니다. 이를 일반적으로 평균 반응 예측 이라고 합니다.
대부분의 경우, 우리가 정말로 원하는 것은 첫 번째 경우입니다. 우리는
이것이 우리의 평균 반응의 차이입니다 (사례 2). 그러나 향후 관측치 (사례 1)를 예측하려면 의 분산이 필요하다는 것을 기억하십시오 . 은 편차를 가지며 와 독립적 인 것으로 가정합니다 . 간단한 대수를 사용하면 다음과 같은 신뢰 구간이 생성됩니다.
에 대한 단일 단일 응답에 대한 CI :
에 대한 평균 반응에 대한 CI :
여기서 는 Quantile 에서 자유도를 갖는 t- 통계량입니다 .
희망적으로 이것은 예측 간격이 항상 더 넓은 이유와 두 간격 사이의 근본적인 차이가 무엇인지 조금 더 명확하게 만듭니다. 이 예는 R, Sec. 4.1.
이 답변은 이전 답변을 완전히 이해할 수없는 독자를위한 것입니다. 구체적인 예를 살펴 보겠습니다. 키, 성별 (남성, 여성) 및 다이어트 (표준, 저탄수화물, 채식주의 자)로부터 사람들의 체중을 예측한다고 가정 해보십시오. 현재 지구에는 80 억 명이 넘는 사람들이 있습니다. 물론, 키는 같고 무게는 다른 두 개의 매개 변수를 가진 수천 명의 사람들을 찾을 수 있습니다. 그들의 무게는 비만이 있고 다른 사람들은 기아로 고통받을 수 있기 때문에 크게 다릅니다. 그 사람들의 대부분은 중간 어딘가에있을 것입니다.
한 가지 과제는 세 가지 설명 변수의 값이 모두 같은 모든 사람의 평균 체중을 예측하는 것입니다. 여기서 신뢰 구간을 사용합니다. 또 다른 문제는 특정 사람의 체중을 예측하는 것입니다. 그리고 우리는 그 개인의 생활 환경을 모른다. 여기서 예측 간격을 사용해야합니다. 같은 점을 중심으로하지만 신뢰 구간보다 훨씬 넓어야합니다.