잔차가 정규 분포로 분포되어 있지만 y가 분포되어 있지 않으면 어떻게됩니까?


110

이상한 질문이 있습니다. 간단한 선형 모형으로 분석 할 종속 변수가 매우 왜곡 된 작은 표본이 있다고 가정합니다. 따라서 가 정규 분포되어 있지 않다고 가정하면 정규 분포 가 발생하기 때문 와이입니다. 그러나 QQ-Normal plot을 계산할 때 잔차가 정규 분포되어 있다는 증거가 있습니다. 따라서 와이 는 아니지만 오류 항이 정상적으로 분포되어 있다고 가정 할 수 있습니다 . 그렇다면 오류 항이 정규 분포 인 것처럼 보이지만 와이 는 그렇지 않은 것은 무엇을 의미합니까?

답변:


143

회귀 변수의 잔차가 반응 변수가 아닌 경우에도 정규 분포를 따르는 것이 합리적입니다. 변량 회귀 문제를 고려하십시오 . 회귀 모델이 적합하고 β = 1 의 실제 값으로 가정합니다 . 이 경우, 실제 회귀 모형의 잔차는 정상이지만 y 의 조건 평균 이 x 의 함수이므로 y 의 분포는 x 의 분포에 의존합니다 . 데이터 세트에 x 값이 많은 경우와이(β엑스,σ2)β=1와이엑스와이엑스엑스0에 가까워지고 값이 높아질수록 y 의 분포가 왼쪽으로 치우칩니다. x의 값이 대칭 적으로 분포되면 y 는 대칭 적으로 분포됩니다. 회귀 문제의 경우, 우리는 x 값에 대해 반응이 정상이라고 가정합니다 .엑스와이엑스와이엑스


9
(+1) 나는 이것이 자주 반복 될 수 있다고 생각하지 않습니다! 여기에서 설명한 동일한 문제를 참조 하십시오 .
Wolfgang

1
귀하의 답변을 이해하며 정확한 것으로 들립니다. 적어도 당신은 긍정적 인 투표를 많이 받았습니다 :) 그러나 나는 전혀 행복하지 않습니다. 따라서 귀하의 예 에서 가정 한 것은 y N ( 1 x , σ 2 ) 입니다. 그러나 회귀를 추정 할 때 E ( y | x )를 추정 합니다. 따라서 평균을 추정 할 때 x 가 주어져야합니다. 이것으로부터 x가 가치라는 것을 따라야하며 그것을 실현하기 전에 그것이 어떻게 분포되었는지는 신경 쓰지 않습니다. 그래서 y N ( v a lβ=1와이(1엑스,σ2)이자형(와이|엑스)엑스 y 의 분포입니다. x y에 영향을 미치는곳을 이해하지 못합니다. 와이(V에이이자형,σ2)와이엑스와이
MarkDollar

4
나는 투표 수에 의해서도 (유쾌하게) 놀랐다 .o) 회귀 모형에 적합하기 위해 사용 된 데이터를 얻기 위해, 당신은 추정하고자하는 일부 공동 분포 에서 표본을 취했다. E ( y | x ) . 그러나 Y는 의 (잡음) 함수이고 , x는 , 샘플의 분포 Y는 샘플의 분포에 의존해야 X 특정 샘플. x 의 "true"분포에 관심이 없을 수 있지만 y의 표본 분포는 x의 표본에 따라 다릅니다. p(y,x)E(y|x)yxyxx
Dikran Marsupial 2018

2
위도 ( x ) 의 함수로 온도 ( ) 를 추정하는 예를 고려하십시오 . 샘플에서 y 값 의 분포는 기상 관측소의 위치를 ​​선택하는 위치에 따라 다릅니다. 우리가 그것들을 모두 극이나 적도에 놓으면 양봉 분포가 생깁니다. 만약 우리가 그것들을 규칙적인 등가 격자에 놓으면, 기후의 물리학이 두 표본에 대해 동일하더라도 , 우리는 y 값 의 단일 분포를 얻게 될 것 입니다. 물론 이것은 적합 회귀 모형에 영향을 미치며, 이러한 종류의 연구는 "공변량 이동"이라고합니다. HTHyx와이와이
Dikran Marsupial

또한 가 사용 된 데이터가 운영 관절 분포 p ( y , x ) 의 iid 샘플이라는 암시 적 가정에 대한 조건이라고 생각합니다 . 이자형(와이|엑스)(와이,엑스)
Dikran Marsupial

100

@DikranMarsupial은 물론 옳습니다. 그러나 그의 관심사 를 설명 하는 것이 좋을 수 있습니다 . 특히이 문제가 자주 발생하는 것 같습니다. 구체적으로, 회귀 모형 의 잔차 는 p- 값이 정확하도록 정규 분포되어야합니다. 그러나 잔차가 정규적으로 분포되어 있어도 가 중요하다는 것을 보장하지는 않습니다 . 그것은 X 의 분포에 달려 있습니다 . 와이엑스

간단한 예를 들어 보겠습니다 (내가 구성하고 있음). 우리가 고립 수축기 고혈압 (즉, 최고 혈압 수치가 너무 높음)에 대한 약물을 테스트한다고 가정 해 봅시다 . 수축기 bp는 일반적으로 환자 인구 내에서 평균 160 및 SD 3으로 분배되며 환자가 매일 복용하는 약물의 각 mg에 대해 수축기 bp가 1mmHg 감소한다고 규정합시다. 즉, 진정한 값 160이고, β (1)은 : 27이며, 실제 데이터 생성 함수이고 B의 P의 S 개의 Y S = 160 - 1 × 일일 약물 투여 + εβ0β1 가상의 연구에서 300 명의 환자가이 새로운 약의 0mg (위약), 20mg 또는 40mg을 매일 복용하도록 배정되었습니다. ( X 가 정상적으로 분포되어 있지 않다는점에 유의하십시오.) 그런 다음 약물이 효력을 발휘하기에 충분한 시간이 지나면 다음과 같이 데이터가 나타납니다.

에스와이에스=1601×일일 약물 복용량+ε어디 ε(0,9)
엑스

여기에 이미지 설명을 입력하십시오

(저는 점들이 너무 겹치지 않아서 구별하기 어려워졌습니다.) 이제 의 분포 (즉, 한계 / 원래 분포)와 잔차를 확인하십시오. 와이

여기에 이미지 설명을 입력하십시오

와이와이

와이엑스<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

여기에 이미지 설명을 입력하십시오

이 결과는 모든 것이 잘 작동 함을 보여줍니다.

엑스 와이엑스


1
따라서 잔차가 정규 분포된다는 가정은 p- 값만 정확합니까? 잔차가 정상이 아닌 경우 왜 p- 값이 잘못 될 수 있습니까?
아보카도

3
@loganecolss, 새로운 질문으로 더 나을 수 있습니다. 어쨌든, 그것은 P-값이 올바른지 여부를 승 / 관련이있다. 잔차가 충분히 비정규이고 N이 낮 으면 샘플링 분포가 이론상 방법과 다릅니다. p- 값은 표본 추출 분포의 양이 검정 통계량을 초과하므로 p- 값이 잘못됩니다.
gung

0

엑스와이엑스


3
응답의 한계 분포는 전혀 의미가 없습니다. 그것은 반응의 한계 분포입니다 (그리고 종종 정상적인 오류가있는 평범한 회귀 이외의 모델을 암시해야합니다). 문제의 모델을 접한 후에는 조건부 분포가 중요하다는 것을 강조하는 것이 옳습니다. 그러나 이것이 기존의 우수 답변에 도움이되지는 않습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.