다항 회귀 분석의 신뢰 구간 이해


14

아래 그래프에 표시된 결과를 이해하려고합니다. 일반적으로 Excel을 사용하고 선형 회귀선을 얻는 경향이 있지만 아래의 경우 R을 사용하고 다음 명령으로 다항식 회귀를 얻습니다.

ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth()

그래서 내 질문은 이것으로 요약됩니다.

  1. 파란색 회귀선 주위의 회색 영역 (화살표 # 1)은 무엇입니까? 다항식 회귀 분석의 표준 편차입니까?

  2. 회색 영역 (화살표 2 번) 밖에있는 것은 '이상적'이고 회색 영역 (화살표 3 번) 안에있는 것은 표준 편차 내에 있다고 말할 수 있습니까?

여기에 이미지 설명을 입력하십시오

답변:


14

그레이 밴드는 회귀선에 대한 신뢰 밴드입니다. 나는 ggplot2에 대해 1 SE 신뢰 밴드인지 95 % 신뢰 밴드인지 확실하게 알지 못하지만, 그것이 전자의 신뢰 밴드 라고 생각합니다 ( 편집 : 분명히 95 % CI ). 신뢰 구간은 회귀선에 대한 불확실성을 나타냅니다. 어떤 의미에서, 실제 회귀선은 해당 밴드의 상단만큼 높거나, 하단만큼 낮거나, 밴드 내에서 다르게 흔들린다 고 생각할 수 있습니다. (이 설명은 직관적 인 것으로 의도 된 것이며 기술적으로 정확하지는 않지만 대부분의 사람들이 완전히 설명하기는 어렵습니다.)

회귀선을 이해 / 생각하는 데 도움이되도록 신뢰 구간을 사용해야합니다. 원시 데이터 포인트에 대해 생각할 때 사용해서는 안됩니다. 회귀선 은 X의 각 지점에서 의 평균을 나타냅니다 (이를 더 완전히 이해해야하는 경우 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다 . 조건부 가우스 분포의 직관은 무엇입니까? ). 반면에, 관측 된 모든 데이터 포인트가 조건 평균과 같을 것으로 예상하지는 않습니다. 즉, 데이터 포인트가 특이 치인지 여부를 평가하기 위해 신뢰 구간을 사용해서는 안됩니다. 와이엑스


( 편집 :이 메모는 주요 질문의 주변이지만 OP의 요점을 명확히하려고합니다. )

다항식 회귀는 직선 모양이 아니더라도 비선형 회귀가 아닙니다. '선형 (linear)'이라는 용어는 수학적 상황에서 매우 구체적인 의미를 지닙니다. 구체적으로, 추정하는 매개 변수 (베타)는 모든 계수라는 것입니다. 다항식 회귀는 공변량이 , X 2 , X 3 등임을 의미합니다 . 즉, 서로 비선형 관계를 가지고 있지만 베타는 여전히 계수이므로 여전히 선형 모델입니다. 베타가 지수 인 경우 비선형 모델이됩니다. 엑스엑스2엑스

요약하면 선이 직선으로 보이는지 여부는 모형이 선형인지 여부와 관련이 없습니다. 다항식 모형을 적합 할 때 (예 : 엑스 )에 적합하면 모델은 예를 들어 X 2 가 실제로 X 1 의 제곱 이라는 것을 알지 못합니다 . 이것들은 단지 두 개의 변수 일 뿐이다 (다중 선형성이 있다는 것을 인식 할 수는 있지만). 따라서, 진정으로 그것이 (직진 / 평) 회귀 피팅 평면을 삼차원 공간 아닌 (곡선) 회귀의 라인 이차원 공간이다. 이것은 우리가 X 2 이후로 생각하기에 실제로 유용하지 않으며, 실제로보기가 매우 어렵습니다.엑스2엑스2엑스1엑스2 의 완벽한 기능입니다 . 결과적으로 우리는 이런 식으로 생각하지 않으며 플롯은 실제로 ( X , Y ) 평면 에 대한 2 차원 투영 입니다. 그럼에도 불구하고, 적절한 공간에서 선은 실제로 어떤 의미에서 '직선'입니다. 엑스(엑스, 와이)

수학적 관점에서, 추정하려는 모수가 계수 인 경우 모형은 선형입니다. 더 명확하게하기 위해 표준 (OLS) 선형 회귀 모델과 두 가지 다른 형태로 제시된 간단한 로지스틱 회귀 모델 간의 비교를 고려하십시오.
ln ( π ( Y )

와이=β0+β1엑스+ε
ln(π(와이)1π(와이))=β0+β1엑스
π(와이)=특급(β0+β1엑스)1+특급(β0+β1엑스)
βββ로짓과 프로 빗 모델의 차이점 .)

+1 문서의 예제는 자신감이 95 %에 달할 것으로 확신합니다.
whuber

@gung 자세한 답변 주셔서 감사합니다 (또한 확인했습니다!). 나는 당신의 첫 번째 진술을 읽고 약간 혼란스러워합니다. 그것에 대해 더 자세히 설명해 주시겠습니까? 결과 라인이 직선이 아닌 경우 (y = mx + b) 그렇다면 무엇이 선형입니까? 답변 주셔서 다시 한 번 감사드립니다.
adhg

docs.ggplot2.org/0.9.3.1/stat_smooth.html 의 문서 는 회귀 곡선에 대한 95 % 신뢰 구간 이라고 주장합니다.
whuber

2
나는 다항식 회귀가 아닌 기본적으로 더 부드러운 황토를 사용한다고 생각합니까?
xan

@adhg, 다른 곳에서 선형 대 비선형을 다루었다고 생각했지만 찾을 수 없었습니다. 여기에 추가 자료를 추가했습니다. HTH
gung-복직 모니카

11

이미 존재하는 답에 더하기 위해 밴드는 평균의 신뢰 구간을 나타내지 만 질문에서 분명히 예측 구간을 찾고 있습니다. 예측 구간은 하나의 새로운 점을 그린 경우 해당 지점이 이론적으로 시간의 X % 범위 (X 레벨을 설정할 수있는) 범위에 포함되는 범위입니다.

library(ggplot2)
set.seed(5)
x <- rnorm(100)
y <- 0.5*x + rt(100,1)
MyD <- data.frame(cbind(x,y))

평활 황토 회귀선 평균 주위에 신뢰 구간을 사용하여 초기 질문에 표시 한 것과 동일한 유형의 플롯을 생성 할 수 있습니다 (기본값은 95 % 신뢰 구간).

ConfiMean <- ggplot(data = MyD, aes(x,y)) + geom_point() + geom_smooth()
ConfiMean

여기에 이미지 설명을 입력하십시오

예측 간격의 빠르고 더러운 예를 들어 평활 스플라인과 함께 선형 회귀를 사용하여 예측 간격을 생성합니다 (따라서 반드시 직선 일 필요는 없습니다). 샘플 데이터를 사용하면 100 점 만 4 범위 밖에 있습니다 (예측 함수에 90 % 간격을 지정했습니다).

#Now getting prediction intervals from lm using smoothing splines
library(splines)
MyMod <- lm(y ~ ns(x,4), MyD)
MyPreds <- data.frame(predict(MyMod, interval="predict", level = 0.90))
PredInt <- ggplot(data = MyD, aes(x,y)) + geom_point() + 
           geom_ribbon(data=MyPreds, aes(x=fit,ymin=lwr, ymax=upr), alpha=0.5)
PredInt

여기에 이미지 설명을 입력하십시오

이제 몇 가지 메모가 더 있습니다. Ladislav에 동의합니다. 2007 년 이후 정규 시리즈가 있기 때문에 시계열 예측 방법을 고려해야 하며 계절성 (열악한 점을 연결하면 훨씬 명확 해짐)을 보이면 음모에서 분명합니다. 이를 위해 계절별 창을 선택할 수있는 예측 패키지에서 predict.stl 함수를 확인하고 Loess를 사용하여 계절 성과 추세를 강력하게 분해하는 것이 좋습니다. 데이터에 눈에 띄는 스파이크가 있기 때문에 강력한 방법을 언급합니다.

비 시계열 데이터의 경우 일반적으로 특이 치가있는 데이터가있는 경우 다른 강력한 방법을 고려합니다. Loess를 직접 사용하여 예측 간격을 생성하는 방법을 모르지만 예측 간격이 얼마나 극단적인지에 따라 Quantile 회귀를 고려할 수 있습니다. 그렇지 않으면 잠재적으로 비선형이되기를 원한다면 함수가 x에 따라 변할 수 있도록 스플라인을 고려할 수 있습니다.


4

파란색 선은 매끄러운 국소 회귀 입니다. span매개 변수 (0에서 1까지)로 선의 흔들림을 제어 할 수 있습니다 . 그러나 귀하의 예는 "시계열"이므로 부드러운 곡선 만 맞추는 것 (가능한 경향을 나타 내기 위해서만 제공)보다 더 적절한 분석 방법을 찾아보십시오.

문서에 따르면 ggplot2(아래 주석으로 예약) : stat_smooth 는 회색으로 표시된 평활신뢰 구간 입니다 . 신뢰 구간을 끄려면 se = FALSE를 사용하십시오.


1
(1) 회색 영역이 포인트 단위 신뢰 구간이라고 주장하는 곳에서는 참조하지 않습니다. 예제에서 회색 영역이 곡선 의 신뢰 구간이라는 것이 분명해 보입니다 . (2) 아무도 회색 영역 너머의 많은 부분을 "이상 값"으로 합리적으로 선언하지 않습니다. 그들 중 너무 많습니다.
whuber

(1) 내 실수, 여기에 "포인트 단위 신뢰 구간"을 나타내는 책을 추가합니다. Wickham H (2009) ggplot2 우아한 그래픽 데이터 분석. 미디어 212. (14 페이지). (2) 동의합니다.
Ladislav Naďo

참조 중 기본 신뢰 수준이 설정되어있는 내용이 있습니까?
whuber

아니요, 기본 설정에 대한 참조를 찾을 수 없습니다.
Ladislav Naďo

참조의 첫 페이지에서 기본값을 찾았습니다 : "(0.95 기본)." 즉,이 매끄러운 부분에는 심각한 버그가 있거나 참조에 대한 해석이 잘못되었음을 의미합니다. 이러한 많은 데이터 포인트는 일반적으로 회색 영역을 넘어서고 코드가 정확하다고 가정하면 회색 영역 신뢰 영역이어야합니다 점에 대한 신뢰 영역이 아닌 예측 (적합 곡선)
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.