선형 회귀 분석에서 예측 된 값에 대한 신뢰 구간


69

선형 회귀 분석에서 예측 된 값에 대한 신뢰 구간이 예측 변수의 평균 주변에서 좁고 예측 변수의 최소 및 최대 값 주변에서 뚱뚱한 경향이 있음을 알았습니다. 이것은 다음 4 가지 선형 회귀의 도표에서 볼 수 있습니다.

여기에 이미지 설명을 입력하십시오

처음에 이것은 예측 변수의 대부분의 값이 예측 변수의 평균에 집중되어 있기 때문이라고 생각했습니다. 그러나 왼쪽 하단 선형 회귀와 같이 예측 변수의 극단 주위에 많은 값이 집중 되어도 예측 간격의 좁은 중간이 발생한다는 것을 알았습니다. 예측 자.

선형 회귀 분석에서 예측 값의 신뢰 구간이 극단적으로 중간 및 지방이 좁아지는 이유를 누구나 설명 할 수 있습니까?

답변:


86

직관적 인 용어로 설명하겠습니다.

회귀 분석의 신뢰 구간과 예측 구간은 절편과 기울기가 확실하지 않다는 사실을 고려합니다. 데이터에서 값을 추정하지만 모집단 값이 다를 수 있습니다 (새 표본을 채취 한 경우 추정치가 다름) 값).

회귀선은 를 통과 하므로 해당 점에 맞게 변경 사항에 대한 토론을 중심으로하는 것이 가장 좋습니다. 즉 (이 공식에서 ).(x¯,y¯)y=a+b(xx¯)a^=y¯

선이 그 점을 통과 했지만 기울기가 조금 더 높거나 낮다면 (즉, 평균에서 선의 높이가 고정되었지만 기울기가 약간 다른 경우) 처럼?(x¯,y¯)

새 선이 중간 근처보다 끝 근처의 현재 선에서 더 멀리 이동하여 기울어 진 X 의 종류가 평균에서 교차하는 것을 볼 수 있습니다 (아래의 각 보라색 선이 빨간색 선과 관련하여 수행됨) 자주색 선은 기울기의 표준 기울기 2 표준 오차를 나타냅니다 ).±

여기에 이미지 설명을 입력하십시오

기울기가 추정치와 약간 다른 선을 수집하면 끝 부분 '팬 아웃'근처에 예측 된 값의 분포가 표시됩니다 (예 : 두 개의 자주색 선 사이의 영역이 회색으로 표시되어 있음) 우리는 다시 샘플링하고 추정 된 경사 근처에 많은 경사를 그렸기 때문에 점 ( )을 통해 선을 부트 스트랩함으로써 이러한 감각을 얻을 수 있습니다 . 다음은 파라 메트릭 부트 스트랩과 함께 2000 개의 재 샘플을 사용하는 예입니다.x¯,y¯

여기에 이미지 설명을 입력하십시오

대신 상수의 불확실성을 고려하면 (행이 가깝지만 통과하지 못하도록 ) 행을 위아래로 이동하므로 모든 의 평균 간격 은 적합 선 위와 아래에 앉으십시오.(x¯,y¯)x

여기에 이미지 설명을 입력하십시오

(여기서 자주색 선은 추정 된 선의 어느 한 쪽 항에 대한 표준 오차 두 개입니다).±

당신이 두 가지를 한 번에 수행 할 때 다음, 평균에서 확산의 일부 금액을 얻을, (선이 위 또는 작은 조금 아래 수 있으며, 경사가 약간 가파른 또는 얕은 수 있음) 때문에의 불확실성, 일정하고 기울기의 불확실성으로 인해 추가로 팬이 나옵니다.x¯

그것은 직관입니다.


이제 원하는 경우 약간의 대수를 고려할 수 있습니다 (그러나 필수 사항은 아님).

실제로이 두 효과의 제곱의 합의 제곱근입니다. 신뢰 구간 공식에서 볼 수 있습니다. 조각을 만들어 봅시다 :

표준 오차 공지가 (기억 여기의 예상 값이고 상기 의 평균 아닌 일반적인 절편 그것은 평균 단지 표준 오차이다). 이것이 평균 ( ) 에서의 라인 위치의 표준 오차입니다 .abσ/nayxx¯

표준 오차 공지 인 . 어떤 값 에서 기울기의 불확실성의 영향은 평균으로부터의 거리 ( )와 곱해집니다 ( 레벨의 변화가 기울기 시간의 이동 거리만큼 변하기 때문에). 입니다.baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

이제 전반적인 효과는 그 두 가지의 제곱의 합의 제곱근입니다 (왜 관련이없는 것들의 분산이 추가되기 때문에 왜 형식으로 의 추정 와 상관있는 전체 표준 오차는 전체 분산의 제곱근이고, 분산이 구성 요소의 차이의 합계입니다 그래서 -. 즉, 우리가y=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

약간 간단한 조작은 의 평균값 추정치의 표준 오차에 대한 일반적인 용어를 제공합니다 .x

σ1n+(xx¯)2i=1n(xix¯)2

이것을 의 함수로 그리면 최소 로 곡선 (스마일처럼 보입니다)을 볼 수 있습니다. 그것이 적합 선에서 더하거나 빼는 것입니다 (물론, 원하는 신뢰 수준을 얻기 위해 여러 개가 있습니다).xx¯

[예측 간격으로 공정 변동성으로 인한 위치 변동도 있습니다. 이것은 한계를 위아래로 이동시켜 더 넓은 스프레드를 만드는 또 다른 용어를 추가하며,이 용어는 일반적으로 제곱근 아래의 합계를 지배하기 때문에 곡률이 훨씬 덜 두드러집니다.]


매우 직관적 인 Glen_b에게 감사드립니다. 신뢰 구간이 설명하는 것은 내 마음을 넘어 가지 않았습니다.
luciano

1

받아 들여진 대답은 실제로 필요한 직관력을 가져옵니다. 선형 및 각도 불확실성을 결합한 시각화 만 그리워합니다. 이는 문제의 플롯을 매우 잘 참조합니다. 그래서 여기에 간다. 의 호출하자 a'b'의 불확실성 a, 그리고 b각각, 수량은 일반적으로 어떤 인기있는 통계 패키지로 돌아왔다. 그런 다음 가장 적합한 것을 제외 a*x + b하고 그릴 수있는 네 개의 선 (이 경우 1 공변량 x)이 있습니다.

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

이들은 아래 그래프에서 4 개의 정렬 된 선입니다. 가운데의 검은 굵은 선은 불확실성없이 가장 잘 맞습니다. 따라서 "하이퍼 볼릭 (hyperbolic)"음영을 그리려면 실제로는 4 개의 선분이며 곡선이없는이 4 개의 선의 최대 값과 최소값을 가져와야합니다. 나에게 정확한 것).

이것이 @Glen_b의 좋은 답변에 무언가를 추가하기를 바랍니다.

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.