선형 회귀 분석에서 신뢰 구간의 모양 및 계산 이해


33

OLS 선형 회귀와 관련된 곡선 모양의 신뢰 대역의 원점과 회귀 매개 변수 (경사 및 절편)의 신뢰 구간과 관련이있는 방법을 이해하려고합니다 (예 : R 사용).

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

여기에 이미지 설명을 입력하십시오

밴드는 2.5 % 절편 및 97.5 % 기울기와 97.5 % 절편 및 2.5 % 기울기로 계산 된 선의 한계와 관련이있는 것으로 보입니다 (아직 그렇지는 않음).

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

여기에 이미지 설명을 입력하십시오

내가 이해하지 못하는 것은 두 가지입니다.

  1. 2.5 % 경사 및 2.5 % 절편과 97.5 % 경사 및 97.5 % 절편의 조합은 어떻습니까? 이것들은 위에 그려진 밴드 바깥에 분명히있는 선을 제공합니다. 어쩌면 나는 신뢰 구간의 의미를 이해하지 못하지만 95 %의 경우 추정치가 신뢰 구간 내에 있다면 가능한 결과처럼 보입니까?
  2. 상한과 하한 사이의 최소 거리를 결정하는 것은 무엇입니까 (즉, 두 선이 인터셉트 된 지점에 근접)?

이 밴드가 실제로 어떻게 계산되는지 알지 못하기 때문에 두 가지 질문이 모두 발생한다고 생각합니다.

회귀 모수의 신뢰 구간 (predict () 또는 유사한 함수 (예 : 수작업)에 의존하지 않고)을 사용하여 상한 및 하한을 어떻게 계산할 수 있습니까? R에서 predict.lm 함수를 해독하려고했지만 코딩이 저쪽에 있습니다. 통계 초보자에게 적합한 관련 문헌이나 설명에 대한 조언을 부탁드립니다.

감사.


4
아래에 두 가지 좋은 답변이 있습니다. 더 많은 정보를 원한다면 예측 간격 과 관련된 선형 회귀 예측 간격 이지만 내 아이디어 를 읽는 것이 도움이 될 수 있지만 아이디어는 매우 유사합니다.
gung-Monica Monica 복원

2
이 게시물에는 다음과 같은 직관적 인 설명이 자세히 설명 되어 있습니다. 선형 회귀 분석에서 예측 된 값에 대한 신뢰 구간의 모양
Glen_b-복지국 Monica

유용한 답변과 훌륭한 링크에 대한 TA.
David

답변:


18

XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X

sY|X=i=1n(YiY^)2n2

Y^±tν=n2,α/2sY^

YX

β^α^


1
이 공식의 출처를 설명하는 교과서가 있습니까?
Michael Goerz

1
@MichaelGoerz 보통 최소 제곱 선형 회귀 분석을 다루는 입문 통계, 생물 통계, 계량 분석 등의 교과서가 있어야합니다.
Alexis

나는 Wasserman-모든 통계, James et al-통계 학습 입문, Hastie et al. -통계 학습의 요소. 선형 회귀 신뢰 구간에 대한 방정식을 찾을 수 없었습니다. 이 책 들이나 널리 사용 가능한 다른 책에 대한 챕터 / eq 번호가 있습니까?
Michael Goerz

2
당신이 언급 한 어떤 책도 Alexis가 논의하고있는 책의 종류가 아닙니다. Applied Regression에 대한 Fox의 책은 내가 올바르게 기억한다면 그것을 가지고 있습니다.
Glen_b-복지국 모니카

1
@MichaelGoerz Pagano, M. 및 Gauvreau, K. (2000) 모두와 마찬가지로. 생물 통계학의 원리 . Duxbury Press, CA, Pacific Grove, 2 판 및 Glantz, SA (2011). 생물 통계학 입문서 . 맥그로 힐 메디컬 (McGraw-Hill Medical), 뉴욕, 뉴욕, 7 차 개정판은 회귀 관련 텍스트가 아니지만.
Alexis

16

좋은 질문. 이러한 개념을 이해하는 것이 중요하며 간단하지 않습니다.

y¯y¯y¯

가능한 모든 x에 대해 모든 신뢰 구간을 결합하면 출력에 표시되는 회색 밴드가 나타납니다.

이것이 기능적으로 의미하는 것은 진정한 회귀선이 회색 영역 어딘가에 있다고 95 % 확신한다는 것입니다.

신뢰 구간은 각 개별 포인트에 대해 95 % 신뢰 구간을 사용하여 계산되므로 인터셉트에 대한 95 % CI와 매우 밀접한 관련이 있습니다. 실제로 x = 0에서 회색 영역의 가장자리는 차단에 대해 95 % CI와 정확히 일치합니다. 이것이 신뢰 대역을 생성 한 방식이기 때문입니다. 그렇기 때문에 위에 추가 한 선이 회색 밴드의 가장자리를 왼쪽으로 향하게됩니다.

그러나 기울기는 약간 다릅니다. 위에서 보았 듯이 한계에 기여하지만 선형 회귀에서는 기울기와 절편을 분리 할 수 ​​없습니다. "절편이 CI 범위의 최소값이고 기울기가 최소값 인 경우 어떻게해야합니까?" 이 선은 많은 x에 대해 95 % CI를 벗어난 점을 생성합니다. 이것은 우리가 실제 회귀선이 아니라 95 % 확신한다는 것을 의미합니다.

x¯sy^x(xx¯)x=x¯

여기에 이러한 것들 중 일부를 시각화하는 데 도움이되는 적절한 파워 포인트가 있습니다 : http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
나는 그것을 고쳤다 고 생각한다-yhat을 ybar로 대체했다. 더 맞습니까? 난 항상 망쳐
던컨

고마워. 나에게 분명하지 않은 한 가지는 다음 두 진술을 일관성있게 만드는 방법이다. "이것이 기능적으로 의미하는 것은 진정한 회귀선이 회색 영역 어딘가에 있다고 95 % 확신한다는 것입니다." vs "[...] 절편과 기울기에 대한 신뢰 구간은 아직 다른 양입니다." 첫 번째 진술이 정확하다면, 절편과 기울기의 CI와 위에 그려진 대역 사이에 (수학적?) 관계가 있어야합니까? 나는 이것이 내 질문의 일부와 관련이 있다고 생각한다. CI의 기울기와 절편을 사용하여 위의 대역을 어떻게 계산할 수 있습니까?
David

1
x¯

이해하기 쉬운 게시물과 멋진 링크! +1
산림 생태 학자
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.