따라서 오류 항이 정규 분포라고 가정하면 반응이 정규 분포도된다는 것을 의미하지 않습니까?
원격조차도 아닙니다. 내가 이것을 기억하는 방법 은 모형의 결정 론적 부분 에서 잔차가 정상적인 조건이라는 것입니다 . 실제 모습은 다음과 같습니다.
무작위로 데이터를 생성하는 것으로 시작합니다. 그런 다음 예측 변수의 선형 함수 인 결과를 정의하고 모형을 추정합니다.
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
이러한 잔차가 어떻게 보이는지 살펴 보겠습니다. 결과 y
에 iid 일반 노이즈가 추가 되었기 때문에 정규 분포를 사용해야한다고 생각 합니다. 그리고 실제로 그런 경우입니다.
plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
그러나 y의 분포를 확인하면 확실히 정상이 아님을 알 수 있습니다! 밀도 함수를와 같은 평균 및 분산으로 중첩 y
했지만 분명히 끔찍한 결과입니다!
이 경우에 발생한 이유는 입력 데이터가 원격으로 정상이 아니기 때문입니다. 이 회귀 모형에 대한 것은 독립 변수가 아닌 종속 변수가 아닌 잔차를 제외하고 정규성을 요구하지 않습니다.