다항식 회귀 (MLR)에 대한 신뢰 구간의 모양 이해


11

다항식 회귀의 신뢰 구간 모양을 파악하기가 어렵습니다.

여기서 인공 . 왼쪽 그림은 UPV (비 스케일 예측 분산)를 나타내고 오른쪽 그래프는 신뢰 구간과 X = 1.5, X = 2 및 X = 3에서 측정 된 (인공) 점을 보여줍니다.와이^=+엑스+엑스2

기본 데이터의 세부 사항 :

  • 데이터 세트는 3 개의 데이터 포인트 (1.5; 1), (2; 2.5) 및 (3; 2.5)로 구성됩니다.

  • 각각의 포인트는 10 회 "측정"되었고 각각의 측정 값은 속한다 . poynomial 모델의 MLR은 30 개의 결과 포인트에서 수행되었습니다.와이±0.5

  • 신뢰 구간이 수식으로 계산 하였다 Y(X0)-tα/2,D(F)(E(R)(R)O, R)

    V=V아르 자형[와이^(엑스0)]σ^2=엑스0'(엑스'엑스)1엑스0
    μY| X0Y(X0)+tα/2,D(F)(E(R)(R)O, R)
    와이^(엑스0)α/2,에프(이자형아르 자형아르 자형영형아르 자형)σ^2엑스0'(엑스'엑스)1엑스0
    (둘 다 공식은 Myers, Montgomery, Anderson-Cook, "응답 표면 방법론"4 판, 407 및 34 페이지에서 가져옴)
    μ와이|엑스0와이^(엑스0)+α/2,에프(이자형아르 자형아르 자형영형아르 자형)σ^2엑스0'(엑스'엑스)1엑스0.

σ가 2 = M S E = S S E / ( N - P ) ~ 0.075α/2,에프(이자형아르 자형아르 자형영형아르 자형)=2σ^2=미디엄에스이자형=에스에스이자형/()0.075 .

특히 신뢰 구간의 절대 값에는 관심이 없지만 x 0 ( X X ) 1 x 0 에만 의존하는 UPV의 모양에 관심이 있습니다.엑스0'(엑스'엑스)1엑스0 .

그림 1 : 여기에 이미지 설명을 입력하십시오

  • 우리가 외삽하기 때문에 설계 공간 외부의 매우 높은 예측 분산은 정상입니다.

  • 그러나 왜 분산이 측정점보다 X = 1.5와 X = 2 사이에서 더 작은가?

  • 왜 X = 2 이상의 값에 대해 분산이 더 넓어 지지만 X = 2.3 이후에 감소하여 X = 3에서 측정 된 포인트보다 다시 작아 지는가?

측정 지점에서 분산이 작고 그 사이에서 큰 것이 논리적이지 않습니까?

편집 : 동일한 절차이지만 데이터 포인트 [(1.5; 1), (2.25; 2.5), (3; 2.5)] 및 [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2.5)].

그림 2 : 여기에 이미지 설명을 입력하십시오

그림 3 : 여기에 이미지 설명을 입력하십시오

와이^±α/2,에프(이자형아르 자형아르 자형영형아르 자형)미디엄에스이자형


2
작업중인 데이터를 포함하도록 게시물을 편집 할 수 있습니까?
Stephan Kolassa

@StephanKolassa 내가 사용한 데이터를 설명하려고했습니다. 그럼에도 불구하고 질문은 더 일반적인 방식이며 특정 예에 국한되지 않습니다.
John Tokka Tacos

데이터를 제공하면 답변을 더 쉽게 설명 할 수 있습니다.
Stephan Kolassa

답변:


6

(엑스,와이)(엑스,엑스2,와이)

우리는 3 차원 물체를 볼 필요가있는 비용을 지불하는데, 이는 정적 화면에서는하기가 어렵습니다. (끝없이 회전하는 이미지는 성가 시므로 도움이 될 수는 있지만 귀하의 이미지를 침해하지는 않습니다.) 따라서이 답변은 모든 사람에게 호소력이 없을 수 있습니다. 그러나 그들의 상상력으로 3 차원을 기꺼이 추가하려는 사람들은 보상을받을 것입니다. 신중하게 선택한 그래픽을 통해이 노력에 도움을 줄 것을 제안합니다.


독립 변수 를 시각화하여 시작하겠습니다 . 이차 회귀 모형에서

(1)와이나는=β0+β1(엑스나는)+β2(엑스나는2)+오류,

(엑스나는)(엑스나는2)(엑스나는,엑스나는2)엑스엑스2.(,2):

그림 1

(엑스,엑스2)

그림 2

이차 회귀는 평면 을 이러한 점에 맞 춥니 다 .

(β0,β1,β2),(엑스,엑스2,와이)(1)β1(엑스)β2(엑스2)+(1)와이β0,(β1,β2,1).β1=55/8β2=15/2,1,(엑스,엑스2) 비행기.)

다음은 이러한 점에 맞는 최소 제곱 평면입니다.

여기에 이미지 설명을 입력하십시오

와이=에프(엑스,엑스2),(,2)

(,2,에프(,2))
검정색으로 그렸습니다.

엑스와이엑스2

그림 4

(엑스,와이^)와이^엑스.

신뢰 대역 이 장착되어 곡선은 데이터 포인트가 무작위로 변화 할 때 적합 일어날 수 있는지 보여줍니다. 관점을 변경하지 않고, 5 개의 적합 평면 (및 그 상승 곡선)을 5 개의 독립적 인 새로운 데이터 세트 (하나만 표시됨)로 플롯했습니다.

그림 5

엑스1.75엑스삼.

3 차원 플롯 위로 마우스를 가져 가서 평면의 대각선 축을 따라 약간 아래로 살펴보면서 동일한 내용을 살펴 보겠습니다 . 평면이 어떻게 변하는 지 확인할 수 있도록 수직 치수도 압축했습니다.

그림 6

(,2)(엑스,엑스2).

(엑스나는,엑스나는2)(엑스,엑스2)(엑스,엑스2)(엑스,엑스2).

그림 7

(,2)엑스1.72.9 ) 이러한 점 부근에서 최소로 변화하는 경향이있다.

(엑스,와이)


이 분석은 개념적으로 고차 다항식 회귀뿐만 아니라 다중 회귀에도 적용됩니다. 비록 우리가 3 차원 이상을 실제로 "볼"수는 없지만, 선형 회귀의 수학은 여기에 표시된 유형의 2 차원 및 3 차원 도표에서 도출 된 직관이 더 높은 차원에서 정확하게 유지되도록 보장합니다.


이 위대한 답변에 감사드립니다! 이차 회귀가 평면을 점에 맞추는 것은 결코 일어나지 않았습니다. 이 기하 공식은 정말 직관적이며 많은 도움이되었습니다.
John Tokka Tacos

1
이것은 훌륭한 답변입니다. 최고의 게시물을 편집하여 오픈 소스 책으로 만들어야합니다
Xavier Bourret Sicotte

1
@Xavier 친절한 말씀 감사합니다. 나는 그런 것을 생각하고 모든 건설적인 제안과 비판을 환영합니다.
whuber

1

직관적

매우 직관적이고 거친 의미에서 다항식 곡선은 두 개의 선형 곡선이 함께 꿰매어있는 것으로 볼 수 있습니다 (하나는 증가하고 하나는 감소합니다). 이 선형 곡선의 경우 중앙좁은 모양을 기억할 수 있습니다 .

피크 왼쪽의 점은 피크 오른쪽 예측에 거의 영향을 미치지 않으며 그 반대도 마찬가지입니다.

  • 따라서 피크의 양쪽에 두 개의 좁은 영역이있을 것으로 예상 할 수 있습니다 (양쪽의 경사 변화가 상대적으로 거의 영향을 미치지 않음).

  • 곡선의 기울기 변화가이 영역에서 더 큰 영향을 미치기 때문에 피크 주변 영역은 비교적 불확실합니다. 여전히 측정점을 통과하는 피크의 큰 이동으로 많은 곡선을 그릴 수 있습니다.

삽화

아래는 몇 가지 다른 데이터가 포함 된 그림으로,이 패턴 (더블 매듭이라고 할 수 있음)을보다 쉽게 ​​보여줍니다.

이중 매듭으로 예측 구간 표시

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

공식적인

엑스

엑스


1
나는 이차 회귀가 이런 식으로 행동하지 않기 때문에이 특성 또는 결론을 믿는 데 어려움을 겪고 있습니다. 그들에게 정당성을 제시함으로써 나를 설득 할 수 있습니까?
whuber

1
나는 그것이 포인트의 위치에 달려 있다고 생각합니다. 이 예에서 점은 피크의 양쪽에 있습니다. 그런 다음 피크의 위치를 ​​일종의 외삽으로 간주 할 수 있습니다. 나중에 더 극단적 인 사례를 만들 것입니다. (또한 회귀가 어떻게 수행되는지 궁금하지만 계수의 오차가 상관 관계가있는 것으로 간주되거나 그렇지 않으면 실제로이 패턴을 얻지 못한다고 생각합니다)
Sextus Empiricus

포인트의 위치에 따라 다르지만 복잡한 방식으로 이루어집니다. (대수는 의 공분산 행렬의 역함수를 나타냅니다.(엑스나는,엑스나는2)엑스엑스2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.