정규 오차의 가정은 Y도 정규임을 의미합니까?


12

내가 실수하지 않으면, 선형 모델에서 반응의 분포는 체계적인 구성 요소와 임의의 구성 요소를 갖는 것으로 가정합니다. 오류 항은 임의 성분을 포착합니다. 따라서 오류 항이 정규 분포라고 가정하면 반응이 정규 분포도된다는 것을 의미하지 않습니까? 나는 그렇게 생각하지만 아래의 것과 같은 진술은 다소 혼란스러워 보입니다.

그리고이 모델에서 "정규성"에 대한 유일한 가정은 잔차 (또는 "errors" )가 으로 분포되어야한다는 것입니다. 예측 변수 또는 반응 변수 y_i 의 분포에 대한 가정은 없습니다 .ϵixiyi

출처 : 예측 자, 반응 및 잔차 : 정규 분포가 실제로 필요한 것은 무엇입니까?


7
x 가 확률이 아닌 경우 ϵ 정규성은 종속 변수의 정규성을 의미합니다. 확률 독립 변수의 경우 일반적으로 유지되지 않으며 독립 변수의 분포에 따라 다릅니다.

답변:


19

표준 OLS 모델은 고정 X \ in \ mathbb R ^ {n \ times p}에 대해 Y=Xβ+ε with εN(0,σ2In) 입니다 . XRn×p

이것은 실제로 을 의미하지만 이는 , 실제로 가정하기보다는. 또한 내가 조건부 분포에 대해서 이야기하고 있다는 사실을 양지 ,하지의 한계 유통 . 조건부 분포에 초점을 맞추고 있습니다. 왜냐하면 그것이 여러분이 정말로 요구하는 것이라고 생각하기 때문입니다.Y|{X,β,σ2}N(Xβ,σ2In)εYY

혼란스러운 부분은 이것이 의 막대 그래프가 정상적으로 보일 것이라는 것을 의미 하지는 않습니다 . 우리는 전체 벡터 가 각 요소가 잠재적으로 다른 평균 를 갖는 다변량 정규 분포로부터의 단일 드로우 라고 말합니다 . 이것은 iid 일반 샘플과 동일하지 않습니다. 오류 실제로 iid 샘플이므로 히스토그램은 정상적으로 보입니다 (따라서 응답이 아닌 잔차에 대한 QQ 플롯을 수행하는 이유).YYE(Yi|Xi)=XiTβε

예를 들어 , 6 학년 및 12 학년의 표본에 대해 높이 를 측정한다고 가정 합니다. 우리의 모델은 와 입니다. 의 히스토그램을 보면 아마도 6 학년생에게는 1 개의 피크와 12 학년생에게는 1 개의 피크가있는 이봉 분포를 볼 수있을 것입니다. 그러나 그것은 우리의 가정을 위반하는 것은 아닙니다.HHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


누군가 표기법을 명확히 해 주 시겠습니까? σ2In
snoram

이는 항등 행렬에 스칼라 곱한 것을 의미합니다 . n×nσ2
jld

아이덴티티 행렬 시간 차이가 발생. n×n
Sycorax는 Reinstate Monica가

11

따라서 오류 항이 정규 분포라고 가정하면 반응이 정규 분포도된다는 것을 의미하지 않습니까?

원격조차도 아닙니다. 내가 이것을 기억하는 방법 은 모형의 결정 론적 부분 에서 잔차가 정상적인 조건이라는 것입니다 . 실제 모습은 다음과 같습니다.

무작위로 데이터를 생성하는 것으로 시작합니다. 그런 다음 예측 변수의 선형 함수 인 결과를 정의하고 모형을 추정합니다.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

이러한 잔차가 어떻게 보이는지 살펴 보겠습니다. 결과 y에 iid 일반 노이즈가 추가 되었기 때문에 정규 분포를 사용해야한다고 생각 합니다. 그리고 실제로 그런 경우입니다.

여기에 이미지 설명을 입력하십시오

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

그러나 y의 분포를 확인하면 확실히 정상이 아님을 알 수 있습니다! 밀도 함수를와 같은 평균 및 분산으로 중첩 y했지만 분명히 끔찍한 결과입니다!

y의 밀도

이 경우에 발생한 이유는 입력 데이터가 원격으로 정상이 아니기 때문입니다. 이 회귀 모형에 대한 것은 독립 변수가 아닌 종속 변수가 아닌 잔차를 제외하고 정규성을 요구하지 않습니다.

x의 Denisty


8

아닙니다. 예를 들어 올림픽 선수의 체중을 예측하는 모델이 있다고 가정합니다. 체중은 각 스포츠의 운동 선수들 사이에 정상적으로 분배 될 수 있지만, 모든 운동 선수들에게 해당되는 것은 아니며, 심지어 단조로운 것도 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.