차단의 표준 오차가 왜 가 0에서 증가 합니까?


13

절편 용어의 표준 오차 ( )에서 주어진다 여기서 는 의 평균 의., Y=β1X+β0+εSE( β 0)2=σ2[1β^0y=β1x+β0+εˉxxi

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

내가 이해 한 바에 따르면, SE는 불확실성을 정량화합니다. 예를 들어 표본의 95 %에서 에는 실제 이 포함됩니다 . 로 불확실성의 척도 인 SE가 어떻게 증가하는지 이해하지 못합니다 . 되도록 단순히 데이터를 이동하면 불확실성이 줄어 듭니까? 비합리적인 것 같습니다.β 0 ˉ X ˉ X = 0[β^02SE,β^0+2SE]β0x¯x¯=0

비슷한 해석은-데이터의 중심화되지 않은 버전에서 은 예측과 일치하고 , 중심 데이터의 경우 은 예측과 일치합니다 . 그렇다면 이것은 에서의 예측에 대한 나의 불확실성이 에서의 나의 예측에 대한 나의 불확실성보다 크다는 것을 의미 합니까? 오류 는 모든 값에 대해 동일한 분산을 가지 므로 예측 값의 불확실성은 모든 대해 동일해야합니다 .X=0 β 0X= ˉ X X=0, X= ˉ X εXXβ^0x=0β^0x=x¯x=0x=x¯ϵxx

내 이해에는 차이가 있다고 확신합니다. 누군가 무슨 일이 일어나고 있는지 이해하도록 도와 줄 수 있습니까?


3
데이트 상대로 회귀 한 적이 있습니까? 많은 컴퓨터 시스템이 먼 과거, 종종 100 년 이상 또는 2000 년 전에 날짜를 시작합니다. 절편 은 시작 시간으로 거꾸로 추정 된 데이터 값을 추정합니다 . 예를 들어, 일련의 21 세기 데이터의 회귀에 근거하여 CE 0 년에 이라크의 국내 총생산에 대해 얼마나 확신하십니까?
whuber

이런 식으로 생각하면 이해가됩니다. 이것이 gung의 답변입니다.
elexhobby

2
이 대답 은 평균 (적합한 선이 통과)에 맞춰 적합 선 을 캐스팅하여 발생하는 방법에 대한 직관적 인 설명을 다이어그램과 함께 제공하며 그 이유를 보여줍니다. (기울기의 불확실성으로 인해) 에서 멀어 질 때 선이 갈 수있는 위치가 넓어집니다 . ( ˉ x , ˉ y ) ˉ xx¯(x¯,y¯)x¯
Glen_b-복지 모니카

답변:


16

보통 최소 제곱에 맞는 회귀선은 반드시 데이터의 평균 (즉, )을 거쳐야합니다. 최소한 절편을 억제하지 않는 한 실제 값에 대한 불확실성 기울기의 기울기는 의 평균 (즉, ) 에서 선의 수직 위치에 영향을 미치지 않습니다 . 이것은 덜 수직 불확실성으로 변환 당신이에서 멀리 떨어져있는 것보다 당신이 있습니다. 절편, 만약 인 , 다음이의 진정한 가치에 대해 불확실성을 최소화(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. 수학적으로, 이것은 대한 표준 오차의 가능한 가장 작은 값으로 변환됩니다 . β^0

다음은 간단한 예입니다 R.

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

여기에 이미지 설명을 입력하십시오

이 수치는 약간 바쁘지만 분포가 에서 더 가깝거나 더 가까운 여러 다른 연구의 데이터를 볼 수 있습니다 . 기울기는 연구마다 조금씩 다르지만 크게 비슷합니다. (그들은 모두 내가 를 표시하는 데 사용한 원형 X를 통과한다는 것을 알 수 있습니다.) 그럼에도 불구하고, 그 기울기의 실제 값에 대한 불확실성은 에 대한 불확실성으로 인해 더 많은 것을 얻습니다. 는 가 부근에서 샘플링 된 데이터에 대해 매우 넓고 근처에서 샘플링 된 연구에 대해 매우 좁다는 것을 의미합니다 . x0(x¯,y¯)y^x¯SE(β^0)x=10x=0


논평에 대한 응답으로 편집하십시오 : 불행히도, 데이터를 얻은 후에 데이터를 중심에두면 값 에서 값 을 알고 싶다면 도움이되지 않습니다 . 대신, 데이터 수집을 우선 관심있는 지점에 집중시켜야합니다. 이러한 문제를 더 잘 이해하려면 선형 회귀 예측 간격 에서 내 대답을 읽는 데 도움이 될 수 있습니다 . yxxnew


그래서 어떤 이유로 내가 값의 예측에 가장 관심이 있다고 말해 봅시다 . 위의 설명은 내가 (즉, 시프트 내 데이터 센터 안된다는 의미 하도록 ), 대신 있도록를 이동 . 이 올바른지? x=xxx¯=0x¯=x
elexhobby

일반 수식 의 분자에는 대신 가 있습니다. 이동이 필요하지 않습니다. (xx¯)2x¯2
whuber

@elexhobby, 귀하의 의견에 답변 할 정보를 추가했습니다. 링크 된 자료를보고 싶을 수도 있습니다. 여전히 더 필요한 것이 있으면 알려주십시오.
복직 모니카

다음은 이해하는 방법입니다. 다른 곳을 읽었습니다 . 이제 기울기에서의 이러한 불확실성으로 인한 에서 예측 된 값의 오류 는 입니다. 또한, 수직선 위치의 불확실성으로 인한 오차는 입니다. 이들을 결합하면 불확실성으로 인해 예측값의 불확실성을 얻게 되고 은 . 틀린 점 있으면 지적 해주세요. SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2β 1 β 0σ2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2
elexhobby

1
또한 세로 위치의 오류가 이유가 분명합니다 . 에서 를 통과해야한다는 것을 알고 있습니다. 이제 에는 평균 id 오류가 포함 되므로 SE는 . 와! 귀하의 다이어그램과 명확한 설명에 감사드립니다. 정말 감사합니다. ˉ y x= ˉ x ˉ y nσ2σ2ny¯x=x¯y¯nσ2n
elexhobby
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.