회귀 잔차 분포 가정


12

오류에 대한 분포 가정을 배치해야하는 이유, 즉

yi=Xβ+ϵi , .ϵiN(0,σ2)

왜 쓰지 않습니까

yi=Xβ+ϵi , ,yiN(Xβ^,σ2)

어느 경우 든 입니다. 나는 분포 가정이 데이터가 아니라 설명이 아닌 오류에 관한 것이라고 강조했다 . ϵi=yiy^

나는이 두 공식의 차이점을 실제로 이해하지 못합니다. 일부 분포 분포 가정이 데이터에 배치되는 것을 보았지만 (Bayesian lit. 대부분 보인다) 대부분의 가정은 오류에 대한 것입니다.

모델링 할 때 왜 하나 또는 다른 가정을 시작하기로 선택해야합니까?


첫째, "필수"가 아니며, 수행하려는 작업에 따라 다릅니다. 좋은 답변이 있지만, 요점은 X가 y를 "원인"한다는 의미에서 인과 관계의 근본 가정이라고 생각합니다. 그런 식으로 보면 y의 분포가 rh의 분포, 즉 X와 오류 (있는 경우). 분포 가정이 매우 제한적이고 특히 정규성없이 많은 계량 경제학을 수행 할 수 있습니다. 하나님 감사합니다.
PatrickT

3
XβY의E( Y )=E(Y)=Xβy^ 아닌 , 그리고 인구의 평균 의 것은 그것의 샘플 추정치와 동일하지 않습니다. 즉, 두 번째 것은 실제로 첫 번째와 동일하지 않지만 기대치 ( )로 둘은 동일합니다. XβyE(y^)=E(y)=Xβ
Glen_b-복지 주 모니카

는 무엇입니까 ? 만약 에 따라 달라집니다 왜하지 않는 달라? 사용하려는 표기법, 벡터 또는 행렬을 확인하십시오. 이제 우리가 라고 가정하면, 당신의 표기법은 것 이상입니다 : 즉, 그 자체와 다른 모든 관측 값 의 관점에서 분포를 정의합니다 . YIIXβ Y =X βI~N(X ' I (ΣXJX ' J )-1ΣXJYj는,σ2)IJ를y^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
mpiktas

1
나는 표기법이 혼란스럽고 이미 미묘하게 상충되는 답변을 얻었 기 때문에 질문을 하향 투표했습니다.
mpiktas

답변:


9

선형 회귀 설정에서는 에 대해 조건부, 즉 "데이터"에 대해 조건부로 분석을 수행하고 결과를 도출하는 것이 일반적 입니다. 따라서 필요한 것은 가 정상이라는 것입니다. 즉, 이 정상이어야합니다. Peter Flom의 예에서 알 수 있듯이 정규성을 가지지 않고 정규성을 가질 수 있으므로 필요한 것은 정규성이므로 합리적인 가정입니다.y X ϵ ϵ y ϵXyXϵϵyϵ


9

나는 두 번째 정의를 다음과 같이 쓸 것이다.

yiN(Xiβ,σ2)

또는 (Karl Oskar가 +1을 제안한대로)

yi|XiN(Xiβ,σ2)

즉 모델링 가정은 응답 변수가 일정한 분산 와 함께 회귀선 (조건부 평균의 추정치) 주위에 정상적으로 분포된다는 것 입니다. 분포의 평균이 의존하기 때문에 가 정규 분포 를 제안한다는 다릅니다 .y i X iσ2yiXi

기계 학습 문헌에서 이와 비슷한 공식을 본 것 같습니다. 내가 볼 수있는 한, 첫 번째 정의와 동일하다는 것은 와 를 제거하기 위해 두 번째 공식을 조금 다르게 표현하는 것 입니다.Yϵiy^


3

차이점은 예를 통해 가장 쉽게 설명 할 수 있습니다. 다음은 간단한 것입니다.

Y가 바이 모달이고, 모달리티가 독립 변수에 의해 설명된다고 가정하십시오. 예를 들어 Y가 키이고 샘플이 어떤 이유로 든 기수와 농구 선수로 구성되어 있다고 가정합니다. 예를 들어R

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

첫 번째 밀도는 매우 비정규입니다. 그러나 모델의 잔차는 정상에 매우 가깝습니다.

제한이 이런 식으로 배치되는 이유에 관해서는 다른 누군가가 그 대답에 대답하도록하겠습니다.


1
감사합니다! 바이 모달 분포의 의미를 알 수 있습니다. 후속 질문 : 데이터의 분산이 다른 경우 (이분산성?) 예. 모든 기수는 작지만 농구 선수의 키는 다양합니다. 아마도 그것들은 키가 큰 <-rnorm (100,78,10)입니다. 이와 같은 상황은 또는 에 대한 가정을 어떻게 변경 합니까? ϵ yiϵi
bill_e

이 경우 이분산성은 문제가 될 수 있으며 다른 형태의 회귀 또는 변형을 사용해야하거나 다른 변수를 추가 할 수 있습니다 (이 바보 같은 예에서는 농구 경기 위치가이를 수행 할 수 있음).
Peter Flom-Monica Monica 복원

나는 공식이 y가 정규 분포되어 있음을 제안하기위한 것이 확실하지 않으며, 단지 정규 조건부 분포가 있다고 생각합니다.
Dikran Marsupial

2

당신은 당신의 두 번째 공식에 난을 suscripted 추가해야합니다 때문에 요구에 따라 변화 할 수 있도록 .
Y , X

yiN(y^i,σε2)
y^xi

주목 한 바, ? 그것은이다 . 이것은 @DikranMarsupial이 제시하는 공식으로 이어집니다 : 이것이 첫 번째와 정확히 동일하다는 것을 인식 할 가치가 있습니다. 정규 분포를 규정하고 예상 값이 동일하기 때문에 공식화. 즉 : (분산은 분명히 같습니다.) 즉, 이것은y^iI ~ N ( X β , σ 2 ε ) E [ X xiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
하지 가정의 차이, 단순히 기술상의 차이.

문제는 첫 번째 공식을 사용하여 아이디어를 제시하는 것을 선호하는 이유가 있습니까?

두 가지 이유로 대답이 ' 예' 라고 생각합니다 .

  1. 원시 데이터를 정규적으로 배포해야하는지 (예 : ) 또는 에 대한 조건부 데이터 가 오류를 으로 배포해야하는지 (예 : / ) 혼동하는 경우가 종종 있습니다. : 잔차가 정규 분포를 따르지만 y는 분포하지 않으면 어떻게됩니까?YXY|Xε
  2. 사람들은 종종 독립적 인 것으로 여겨지는 것, 원시 데이터 또는 오류를 혼동합니다. 더욱이, 우리는 종종 무언가가 iid (독립적이고 동일하게 배포 됨) 여야한다는 사실을 언급합니다. 관점에서 생각하는 경우 는 독립적 일 수 있지만 귀무 가설이 유지되지 않는 한 (평균이 다를 수 있기 때문에) 동일하게 분포 될 수 없으므로 혼란의 또 다른 잠재적 원인이 될 수 있습니다 . Y | 엑스Y|XY|X

나는 이러한 혼동이 첫 번째보다 두 번째 공식을 사용했을 가능성이 높다고 생각합니다.


1
@Glen_b, 나는 당신의 의견을 따르지 않습니다. 내 주장은 는 와 같지 않고 는 같다는 것이다 . 첨자 관찰 색인은 관련이 있습니다. 주어진 관측치에 대한 예측값 는 입니다. 이것은 의 모집단 평균과 관련이 없습니다 . (하지만 베타에 모자를 추가하는 것을 잊어 버린 것 같습니다. 지금 수정했습니다.) Xβ YX β I YX β Yy^Xβy^ixiβ^iy^ixiβ^Y
gung-Reinstate Monica

@Glen_b 샘플 인 경우 대신 입니다. 처음에는 표기법이 혼란 는 및 문에서 . 이 두 가지 모두 사실이라면 는 만 될 수 있습니다 . 의 Y Y =XβYI=Xβ+εIεI=YI - Y Y의 X의βy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.