종속 변수의 정규성 = 잔차의 정규성?


34

이 문제는 항상 추악한 머리를 뒤로하는 것처럼 보이며, 나는 통계 (그리고 온전함)에 대한 내 자신의 이해를 위해 그것을 왜곡하려고합니다.

일반 선형 모형 (t- 검정, 분산 분석, 회귀 등)의 가정에는 "정상 가정"이 포함되지만, 이것이 명확하게 설명되지는 않습니다.

나는 종종 "정규 가정"이 각 그룹 (즉, 범주 형 X 변수)에 적용된다는 통계 교과서 / 매뉴얼 등을 접하게되며 , 각 그룹의 정규성에서 벗어나는지를 조사해야합니다 .

질문 :

  1. Y 의 또는 Y의 잔차 를 가정 하는가?

  2. 특정 그룹에 대해 , Y 의 강하게 비정규 분포 (예를 들어, 기울어 짐) 를 가질 수 있지만, Y 의 잔차 의 대략 (또는 적어도 더 정규적으로) 분포는 ?

    다른 출처들은이 가정이 모델 의 잔차와 관련이 있고 (예를 들어 t-tests / ANOVA와 같은 그룹이있는 경우), 이러한 잔차의 정규성 이탈을 조사해야합니다 (즉, 단 하나의 QQ 플롯 / 테스트 운영).

  3. 에 대한 잔차의 정규성 않는 모델은 에 대한 잔차의 정규성 의미 그룹을 ? 다시 말해, 우리는 모델 잔차를 조사해야합니까 (많은 텍스트의 지침과 달리)?

    이것을 문맥에 넣으려면 다음과 같은 가상의 예를 고려하십시오.

    • 두 모집단 (X) 사이의 나무 높이 (Y)를 비교하고 싶습니다.
    • 한 인구 집단에서 Y 분포는 강하게 치우친 다 (즉, 대부분의 나무는 짧고 키가 거의 없음).
    • 높이는 정규 분포 인구에서 전반적으로 더 높습니다 ( '실제'차이가있을 수 있음).
    • 데이터의 변환은 제 1 모집단의 분포를 실질적으로 개선하지는 않는다.
  4. 첫째, 근본적으로 다른 높이 분포가 주어진 그룹을 비교하는 것이 유효합니까?

  5. 여기서 "정상 가정"에 어떻게 접근합니까? 한 모집단의 회수 높이는 정상적으로 분포되지 않습니다. 두 모집단의 잔차 를 개별적으로 검사 하거나 모형의 잔차를 검사합니까 (t- 검정)?


답글에서 숫자로 질문을 참조하십시오. 경험에 따르면 사람들이 쉽게 길을 잃거나 회피 할 수 있습니다 (특히 나!). 저는 통계학자가 아닙니다. 통계에 대한 합리적으로 개념적 (즉, 기술적이지 않은) 이해가 있습니다.

추신 : 나는 아카이브를 검색하고 내 이해를 뒷받침하지 않는 다음 스레드를 읽었습니다.


2
" 질문 1) 가정은 Y의 값 또는 Y의 잔차를 의미합니까? "– 엄밀히 말하면, 번째는 점검 하는 것 입니다. 정상으로 가정되는 것은 관찰 할 수없는 오차 이거나 각 예측 변수 조합에서 Y 의 조건부 분포 입니다. Y의 무조건 분포는 정상적인 것으로 가정되지 않습니다.
Glen_b

1
+1이 문제가 발생하는 (많은) 스레드를 구성하고 통합하기 위해 노력해 주셔서 감사합니다. 확실히 FAQ입니다.
whuber

이 질문에 감사드립니다. 다루고있는 주제와 그것이 얼마나 잘 조직되고 연결되어 있는지. 나는 당신이 오래 전에 이것을 물었다는 것을 알고 있지만 그것은 매우 좋은 질문입니다!
흠 mm

답변:


14

이해하는 데 도움이되는 한 가지 점 :

경우 정규 분포되어 와 다음의 상수이다 또한 정규 분포는 (그러나와 평균 및 분산 가능한 다른)를.a bxaby=xab

잔차는 y 값에서 추정 평균을 뺀 값이므로 (표준 잔차는 표준 오차의 추정값으로 나눈 값) y 값이 정규 분포를 따르는 경우 잔차도 마찬가지입니다. 따라서 우리가 이론이나 가정에 관해 이야기 할 때, 어떤 것이 다른 것을 의미하기 때문에 우리가 무엇에 관해 이야기하는지는 중요하지 않습니다.

따라서 질문에 대해서는 다음과 같습니다.

  1. 예, 둘 다
  2. 아니요 (단, 개별 y- 값은 서로 그룹화되는 경우 비정규로 보일 수있는 다른 방법을 사용하여 법선에서 나옵니다)
  3. 잔차의 정규성은 그룹의 정규성을 의미하지만 경우에 따라 그룹별로 잔차 또는 y 값을 검사하는 것이 좋습니다 (풀은 그룹에서 명백한 비정규를 모호하게 할 수 있음). 그룹별로 결정하지만 모두 함께 알 수 있습니다).
  4. 이는 비교의 의미, 표본 크기의 크기 및 "대략"에 대한 감정에 따라 다릅니다. 정규성 가정은 결과에 대한 테스트 / 간격에만 필요하며 모형이 적합하고 정규성이 있는지 여부를 추정 할 수 있습니다. 중앙 한계 정리 (Central Limit Theorem)에 따르면 표본 크기가 충분히 크면 잔차가 아니더라도 추정값이 거의 정상이라고합니다.
  5. 그것은 당신이 어떤 질문에 대답하려고하는지 그리고 당신의 "대략적인"만족도에 달려 있습니다.

이해해야 할 또 다른 요점은 (학습에서 종종 혼동된다) 여기에는 두 가지 유형의 잔차가 있다는 것입니다. 관찰 된 값과 실제 이론적 모델 사이의 차이 인 이론적 잔차와 차이점 인 관찰 된 잔차 관측치와 현재 적합 모델의 추정치 사이. 이론적 잔차가 iid normal이라고 가정합니다. 관측 된 잔차는 i, i 또는 분포 정규 분포가 아니지만 평균은 0입니다. 그러나 실제적인 목적으로 관측 된 잔차는 이론적 잔차를 추정하므로 진단에 여전히 유용합니다.


오류 및 잔차에 대한 자세한 내용은 wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster

1
안녕하십니까, "잔차는 y 값에서 추정 평균을 뺀 값"에 불과합니까? 잔차가 라고 생각했습니다 . 이것은 어떻게 든 같은 것입니까? 분명해야 할 것이없는 경우 사과드립니다. yy^
Austin

@Jake, 당신의 방정식은 내가 말한 것을 진술하는 더 간단한 방법입니다. 는 "y 값"이고 는 해당 예측 변수 집합에서 y 값의 "추정 평균"입니다 (그리고 는 "빼기"). yy^
Greg Snow

Q1 (Q2에 대한 답변에서 확인 된 종류) : 분명히 Y가 아닌 잔차입니다. 공변량이 관측치간에 다를 경우 잔차가 정상이지만 이항 한계 분포를 쉽게 가질 수 있습니다. 그러므로 단순히 Y 만 볼 수없고 잔차 만 볼 수 있습니다.
Björn

@ 비요른, 이것은 좋은 설명입니다. y 변수는 정규적이고 x에 대한 조건부이므로 원시 y- 값은 법선의 혼합이며 y- 값의 플롯은 x의 정규 조건에 대한 가정에 적합하더라도 정규성을 나타내지 않을 수 있습니다. 진단의 경우 조건부가 대부분 제거되었으므로 일반적으로 잔차를 사용합니다. (조건부) 정규성의 가정은 이론적 잔차와 y- 값을 모두 나타냅니다.
Greg Snow

7

짧은 답변 :

  1. 잔차
  2. 아니
  3. 두 가지 방법 모두 장단점이 있습니다
  4. 왜 안돼? 평균 대신 중간 값을 비교하는 것이 더 합리적 일 수 있습니다.
  5. 당신이 우리에게 말한 것에서, 정상 가정은 아마도 위반되었을 것입니다

더 긴 대답 :

종속 변수 (y)는 정규적으로 분포되어 있지만 다른 그룹에 대해 다른 방법으로 가정합니다. 결과적으로 y의 분포 만 플롯하면 표준 종 모양의 법선 곡선과 매우 다르게 보일 수 있습니다. 잔차는 "필터링 된"평균의 차이로 y의 분포를 나타냅니다.

또는 각 그룹에서 y의 분포를 개별적으로 볼 수 있습니다. 또한 그룹 간의 평균 차이를 필터링합니다. 이 방법을 사용하면 각 그룹의 분포에 대한 정보를 얻을 수 있다는 장점이 있습니다. 단점은 각 그룹에 잔차를 볼 때 얻을 수있는 결합 된 데이터 세트보다 관측치가 적다는 것입니다. 또한 많은 그룹이있는 경우 그룹에 유의미하게 그룹을 비교할 수 없습니다. 예를 들어 모델에 많은 예측 변수를 입력했거나 모델에 (준) 연속 예측 변수를 입력했기 때문입니다. 따라서 모형이 하나의 범주 형 예측 변수로만 구성되고 각 그룹의 관측치 수가 충분히 큰 경우 각 그룹의 y 분포를 개별적으로 검사하는 것이 의미가있을 수 있습니다.


7
엄밀히 말하면 잔차는 알 수 없거나 알 수없는 오류 또는 교란에 대한 추정치 일 뿐이므로 정규성이 원칙적으로 정확하더라도 실제로는 정확히 정규 잔차를 얻을 수 없습니다. 더 중요한 것은 오류의 정규성이이 방법에서 가장 중요한 가정입니다!
Nick Cox

(+1) @NickCox는 모두 계산에 합의
마틴 Buis에게

1

가정의 정의에 따르면, 랜덤 변수 는 와 잔차 의 선형 조합이며 다른 모든 것은 일정합니다. 경우 확률이 아니며, 오류 문구가 정상 다음, 정상이며 그래서 잔차입니다.X X YYX
XY

질문 1)
가정은 두 가지를 말합니다. 첫째, 오류 조건의 정상입니다. 둘째, 모델의 선형성과 완전성. 두 가지 모두 추론에 필요합니다. 그러나 이러한 가정이 충족되면 잔차 와 가 모두 정규 분포를 주어진 오차항 에 의존하기 때문에 해를 매우 쉽게 계산할 수 있습니다 . 예를 들어 일반 OLS 모델에서 의 분포는 있습니다. 귀하의 경우 그룹이 정상이,이 잠재적으로 무조건 왜곡됩니다Y ϵ X Y Y | X - N ( X β , σ 2 ) X Y Y | 엑스eYϵX
YY|XN(Xβ,σ2)
XY. 실제로 이것은 일어날 가능성이 매우 높습니다. 그러나 중요한 것은 의 분포 가 정상이라는 것입니다.Y|X

질문 2)
그렇습니다 . 때문에 값이 기울어 질 수 있습니다 . 그러나 모든 가정이 충족되면 잔차는 정상입니다 (다른 방법으로 구간 및 가설 검정을 수행 할 수 있습니까?!). 귀하의 질문 의이 부분에 대해이 스레드에는 꽤 확실한 대답이 있습니다. 잔차가 정상적으로 분포되어 있지만 y는 그렇지 않은 경우는 무엇입니까?XYX

질문 3)
정규성을 요구하는 선형 모델을 사용하는 데 중요한 것은 이것이 그룹에 있든 아니든 정상이 아닌 잔차가 모형이 데이터에 적합하지 않을 수 있다는 중요한 지표라는 것입니다.
분산 분석을 수행하는 경우 물론 전체 잔차가 정상일 필요는 없습니다 (또는 동형 일 필요 없음). 그러나 회귀에서는 전체 정규 잔차로 끝나는 모델이 더 좋습니다. 그렇지 않으면 구간 추정기 및 테스트가 잘못됩니다. 이것은 특정 자기 상관 또는 변수 바이어스 누락의 경우 일 수 있습니다. 모델이 100 % 정확하면 (필요한 경우 구조적 중단 및 가중치 포함) 0을 중심으로 한 일반적인 오류 항을 가정하기 위해 가져 오지 않습니다. 실제로 문제는 종종 다음과 같습니다. 충분히 큽니까? 확실한 답은 없지만 100 % 올바른 접근 방식의 경우 모든 잔차가 정상이어야합니다.

질문 4 & 5)
그것은 당신이 비교한다는 의미에 달려 있습니다. 정규 오차 항을 가정하면 두 가지 분포의 가정을 기반으로 테스트 할 수 있습니다. 회귀 분석에 GLS 추정을 사용하여 다른 분포 모수를 설명 할 수 있습니다. 올바른 모형이있는 경우 그룹 자체가 지표 / 이항 변수로 작동한다고 생각하십니까?
그러면 잔차 분포가 정상적인 것으로 추론하기가 매우 어려울 것입니다. 결과적으로 데이터로 작업을 수행 할 수는 있지만 정기적 인 OLS를 기반으로하지는 않을 것입니다.
그러나 데이터로 수행하려는 작업에 따라 다릅니다.

중요한 것은 그래도 : 당신은 여전히 ​​사용중인 선형 모델의 가정을 피할 수 없습니다. 점근 적으로 큰 샘플 속성을 가정하면 문제를 더 잘 해결할 수 있지만, 내가 생각하고 있지 않은 결정적인 답변을 요구하고 있기 때문에 추측 할 수 있습니다.
예제의 경우, 왜도를 설명 할 수있는 데이터가있는 경우 잔차 및 에서 정규성을 회복합니다 . 그러나 회귀 분석에 이진 표시기를 사용하는 경우 본질적으로 잘못된 모델을 사용하는 것입니다. 실제로 이것으로 테스트를 할 수 있지만 회귀에 관해서는 간격 결과가 유효하지 않습니다. 본질적으로 완전한 모델에 대한 데이터가 누락됩니다.Y|X

나는 좋은 분포가 정규 분포 OLS의 대수를 조사하여 결과 분포에 초점을 맞추는 것이라고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.