회귀선 추정의 목적으로 잔차의 정규성이 왜“거의 중요하지 않은가?”


21

Gelman and Hill (2006)은 p46에 다음과 같이 썼다.

일반적으로 가장 중요하지 않은 회귀 가정은 오류가 정규 분포되어 있다는 것입니다. 실제로 회귀선을 추정하기 위해서는 (개별 데이터 요소를 예측하는 것과 비교하여) 정규성의 가정이 전혀 중요하지 않습니다. 따라서 많은 회귀 교과서와 달리 회귀 잔차의 정규성을 진단하는 것은 권장하지 않습니다.

Gelman과 Hill은이 점을 더 이상 설명하지 않는 것 같습니다.

Gelman과 Hill은 맞습니까? 그렇다면 다음을 수행하십시오.

  1. 왜 "아주 중요하지 않은가"? 왜 중요하지도, 전혀 관련이 없는가?

  2. 개별 데이터 포인트를 예측할 때 잔차 정규성이 중요한 이유는 무엇입니까?

Gelman, A., & Hill, J. (2006). 회귀 및 다단계 / 계층 모델을 사용한 데이터 분석 케임브리지 대학 출판부

답변:


21

대한 추정 정상 정확히 가정이 아니라 주요 고려 사항은 효율 것이다; 많은 경우에, 좋은 선형 추정기가 잘 수행 될 것이며,이 경우에 (가우스-마코프에 의해) LS 추정값은 그 중에서 가장 좋을 것입니다. (꼬리가 너무 무겁거나 매우 가벼운 경우 다른 것을 고려하는 것이 좋습니다.)

테스트 및 CI의 경우 정규성이 가정되지만 일반적으로 꼬리가 실제로 무겁거나 가벼우거나 각각이 하나가 아닌 한 중요하지는 않습니다. 소규모 표본 테스트 및 일반 CI는 명목상의 특성 (주어진 중요성 수준 또는 적용 범위와 너무 멀지 않은)에 가깝고 성능이 우수합니다 (일반적인 상황 또는 대안에 비해 너무 넓지 않은 CI의 합리적인 전력). 또한 일반적인 경우 보다 더 큰 전력 이 문제가 될 수 있으며,이 경우 큰 샘플은 일반적으로 상대 효율을 향상시키지 않으므로 효과 크기가 상대적으로 우수한 전력의 테스트에서 전력이 중간에 도달하는 경우 매우 열악 할 수 있습니다 정규성을 가정하는 테스트

CI의 공칭 특성에 가깝고 검정에서 유의 수준에 가까운 경향은 여러 요인이 함께 작동하기 때문입니다 (이 중 하나는 많은 값이 관련되어있는 한 변수의 선형 조합이 정규 분포에 가까운 경향이 있음). 이들 중 어느 것도 전체 분산의 큰 부분을 차지하지 않습니다).

그러나, 정규 가정에 기초한 예측 구간의 경우, 구간의 폭이 단일 값 의 분포에 크게 의존하기 때문에 정규성은 비교적 더 중요하다 . 그러나 가장 일반적인 구간 크기 (95 % 구간)의 경우, 많은 단봉 분포가 평균의 약 2sds 내에서 분포의 95 %에 매우 가깝다는 사실은 정상적인 예측 구간의 합리적인 성능을 가져 오는 경향이 있습니다. 분포가 정상이 아닐 때. [그러나 이것은 50 % 간격 또는 99.9 % 간격과 같이 훨씬 더 좁거나 넓은 간격으로 잘 전달되지는 않습니다.]


"변수의 선형 조합이 정규 분포에 가까워지는 경향이 있습니다." -이것이 중앙 제한 정리에 연결되어 있지 않다고 생각합니다. 그렇습니까? 그렇지 않다면,이 진술은 어떤 종류의 "정리"입니까?
Heisenberg

1
@Heisenberg 특정 버전의 CLT와 연결되어 있습니다. (Lyapunov 및 Lindeberg 버전 참조 ). 유한 샘플에 정리를 적용하려면 Berry-Esseen 정리 버전을 살펴 봅니다. 그러나이 진술은 정리보다 더 관찰 (따라서 "경향"이라는 단어의 사용)을 의도 한 것이다.
Glen_b-복지 모니카

7

2 : 개별 데이터 포인트를 예측할 때 해당 예측 주변의 신뢰 구간은 잔차가 정규 분포를 따른다고 가정합니다.

이는 신뢰 구간에 대한 일반적인 가정과 크게 다르지 않습니다. 유효하기 위해서는 분포를 이해해야하며 가장 일반적인 가정은 정규성입니다. 예를 들어 표본 평균의 분포가 정규성에 가까워 지므로 평균 주변의 표준 신뢰 구간이 작동하므로 az 또는 t 분포를 사용할 수 있습니다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.