선형 회귀 분석에서 학생 분포 또는 정규 분포를 언제 사용해야합니까?

10

나는 계수를 테스트하기 위해 몇 가지 문제를보고, 때로는 분포를 사용하는 사람들을보고 때로는 정규 분포를 봅니다. 규칙은 무엇입니까?

regression distributions hypothesis-testing

— 사자 별자리
소스

3

이것은 정답은 아니지만 자유도 모수

커짐에 따라

t

$t$ 분포가 정규 분포에 접근 한다는 점에 유의하십시오 . 과거

, 특히 대부분의 가설 검증 프레임 워크에서 눈에

차이는 없습니다. if

및

이면

이다 통계적으로 큰 이상

.

ν

$\nu$

ν \geq 30

$\nu \geq 30$

T \sim t_{ν}

$T \sim t_{\nu}$

Z \sim N (0, 1)

$Z \sim \mathcal{N}(0,1)$

| T |

$|T|$

| Z |

$|Z|$

— 추기경

15

정규 분포는 일부 버전의 중앙 한계 정리와 관련된 많은 의미있는 통계 문제에서 큰 표본 분포입니다. 답에 도달하기 위해 추가되는 대략적인 독립 정보가 있습니다. 모수 추정값이 점진적으로 정상인 경우 해당 함수 는 점진적으로 정상입니다 (일반적인 경우).

반면, 스튜던트 분포는 더 제한적인 조건의 iid 정규 회귀 오류에서 파생됩니다. 이 가정을 구입할 수 있다면 선형 회귀 분석에서 가설 검정에 사용되는 분포를 구입할 수 있습니다 . 이 분포를 사용하면 정규 분포를 사용하는 것보다 더 넓은 신뢰 구간이 제공됩니다. 그것의 실질적인 의미는 작은 표본에서 불확실성 측정, 회귀 평균 제곱 오차 또는 잔차의 표준 편차 를 추정해야한다는 것 입니다. (대규모 표본에서는 정보를 알고있는 것처럼 정보가 많으므로 분포는 정규 분포로 퇴보합니다.) $t$ $t$ $\sigma$ $t$

유한 분포에서도 학생 분포를 정당화 할 수없는 선형 회귀 분석이있을 수 있습니다. 회귀 오류에 대한 2 차 조건 위반과 관련이 있습니다. 즉, (1) 일정한 분산이고 (2) 독립적입니다. 이러한 가정을 위반 하고이 분산 식이지만 독립적 인 잔차에 대해 Eicker / White 추정기 를 사용하여 표준 오차를 수정하는 경우 또는 Newey-웨스트 직렬 상관 관계 오류 또는 대한 추정 클러스터 표준 오차군집 관련 데이터의 경우 학생 분포에 대한 합리적인 근거를 얻을 수있는 방법이 없습니다. 그러나 적절한 버전의 점근 정규성 인수 (수식 배열 등)를 사용하면 정규 근사를 정당화 할 수 있습니다 (신뢰 구간이 너무 좁을 수 있음을 명심해야 함).

— StasK
소스

1

(+1) 나는 세 번째 단락의 시작에서 선형 회귀가 무한 ( "무한") 샘플로 수행된다는 의미를 좋아합니다!

— whuber

@ whuber : :) 내 책에서 정상적인 경우 CLT 또는 점근선에 의존해야합니다. 그렇지 않으면 this 만큼 의미가 있습니다.

— StasK

6

나는 정규 분포와 감마 분포의 혼합으로 학생 t 분포의 표현을 좋아합니다.

S t u d e n t (x | μ, σ^{2}, ν) = \int_{0}^{\infty} N o r m a l (x | μ, \frac{σ^{2}}{ρ}) G a m m a (ρ | \frac{ν}{2}, \frac{ν}{2}) d ρ

$Student(x|\mu,\sigma^2,\nu)=\int_{0}^{\infty}Normal\left(x|\mu,\frac{\sigma^2}{\rho}\right)Gamma\left(\rho|\frac{\nu}{2},\frac{\nu}{2}\right)d\rho$

감마 분포의 평균은 분포의 분산은 입니다. 따라서 t- 분포를 상수 분산 가정을 "유사한"분산 가정으로 일반화하는 것으로 볼 수 있습니다. 기본적으로 분산이 얼마나 유사한지를 제어합니다. 또한 이것을 "무작위 가중"회귀로 간주합니다. 위의 적분을 다음과 같이 "숨겨진 변수"표현으로 사용할 수 있습니다. $E[\rho|\nu]=1$ $V[\rho|\nu]=\frac{2}{\nu}$ $\nu$

y_{i} = μ_{i} + \frac{e_{i}}{\sqrt{ρ_{i}}}

$y_i=\mu_i+\frac{e_i}{\sqrt{\rho_i}}$

여기서 및 모든 변수에 독립적입니다. 사실 이것은 과 같이 기본적으로 t- 분포의 정의입니다. $e_i\sim N(0,\sigma^2)$ $\rho_i\sim Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)$ $Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)\sim \frac{1}{\nu}\chi^2_\nu$

값이 크 거나 값이 작기 때문에 큰 오류 가 발생할 수 있기 때문에이 결과가 정규 분포에 비해 스튜던트 t 분포가 "강력한"이유를 수 있습니다 . 이제 becuase 는 모든 관측치에 공통적이지만 는 i 번째에만 해당합니다. 결론적으로 일반적인 "상식"은 특이 치가 작은 대한 증거를 제공한다는 것입니다 . 당신은 선형 회귀 수행하는 경우 또한, , 당신은 발견 할 것이다 가정하면, i 번째 관측에 무게가 알려져있다 : $y_i-\mu_i$ $\sigma^2$ $\rho_i$ $\sigma^2$ $\rho_i$ $\rho_i$ $\mu_i=x_i^T\beta$ $\rho_i$ $\rho_i$

\hat{β} = (\sum_{i} ρ_{i} x_{i} x_{i}^{T})^{- 1} (\sum_{i} ρ_{i} x_{i} y_{i})

$\hat{\beta}=(\sum_i\rho_ix_ix_i^T)^{-1}(\sum_i\rho_ix_iy_i)$

따라서 특이 작은 대한 증거를 구성 하므로 i 번째 관측치의 가중치가 줄어 듭니다. 또한 작은 "이상 값"(나머지보다 훨씬 더 잘 예측 / 적합 된 관측치)은 큰 대한 증거를 구성 합니다. 따라서이 관측 값은 회귀 분석에서 더 많은 가중치가 부여됩니다. 이것은 이상 치나 우수한 데이터 포인트로 직관적으로 수행하는 것과 일치합니다. $\rho_i$ $\rho_i$

이 질문에 대한 광산 및 다른 응답 이 유한 분산 경로를 따라 수행 할 수있는 일부 테스트를 찾는 데 유용 할 수는 있지만 이러한 것들을 결정하는 "규칙"은 없습니다 (학생 t는 자유도 이하의 무한 분산입니다) 두).

— 확률 론적
소스

+1 : 이것은 옳아 보이지만 정규 및 감마 분포가 혼합 된 것이 아니라 정상 감마-정상 화합물 분포를 말하고 정상 감마 분포가 정규 분포 이전의 켤레 (평균 및 정밀도로 매개 변수화).

— Neil G

예, 혼합물에 대한 요점-지금 당장 수정하는 비 서투른 방법을 생각할 수는 없지만. 이 형식은 켤레 분포에 고유하지 않습니다. 예를 들어 감마 pdf를 역 지수 pdf로 바꾸면 라플라스 분포가 나타납니다. 이로 인해 정규 분포를 강화하는 형태로 최소 제곱 대신 "최소 절대 편차"가 발생합니다. 다른 분포는 다른 "강화"로 이어질 것입니다. 아마도 학생만큼 분석적으로 예쁘지 않을 것입니다.

— probabilityislogic

X가 표준 정규 랜덤 변수이고 U가 자유도가 ν 인 카이 제곱 랜덤 변수 인 경우 는 학생의 t (ν) 랜덤 변수. 여기 .

\frac{X}{\sqrt{(U / ν)}}

${\frac {X}{\sqrt {(U/\nu )}}}$

— Carl