표본 크기가 증가함에 따라 t- 분포가 더 정상적인 이유는 무엇입니까?

Wikipedia에 따르면, 표본이 정규 분포 모집단의 iid 관측치 인 경우 t- 분포는 t- 값의 표본 분포입니다. 그러나 왜 t- 분포의 모양이 뚱뚱한 꼬리에서 거의 완벽하게 정상으로 바뀌는지를 직관적으로 이해하지 못합니다.

정규 분포에서 샘플링하는 경우 큰 표본을 추출하면 해당 분포와 비슷하지만 뚱뚱한 꼬리 모양으로 시작하는 이유는 알 수 없습니다.

normal-distribution t-distribution

— user1205901-복원 Monica
소스

답변:

직관적 인 설명을하려고합니다.

t- 통계량 *에는 분자와 분모가 있습니다. 예를 들어, 단일 표본 t- 검정의 통계량은

\frac{\bar{엑스} - μ_{0}}{에스 / \sqrt{엔}}

$\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$

* (여러 개가 있지만이 토론은 원하는 내용을 다루기에 충분히 일반적이어야합니다)

가정하에 분자는 평균이 0이고 표준 편차가 알려지지 않은 정규 분포를 갖습니다.

동일한 가정 세트에서 분모는 분자 분포의 표준 편차 (분자 통계량의 표준 오차)의 추정치입니다. 분자와 무관합니다. 이의 제곱은 카이 제곱 랜덤 변수를 자유도 (t- 분포의 df) 곱하기 나눈 값 입니다. $\sigma_\text{numerator}$

자유도가 작 으면 분모가 상당히 오른쪽으로 치우치는 경향이 있습니다. 평균보다 적을 확률이 높고 비교적 작을 가능성이 높습니다. 동시에, 그것은 그것의 평균보다 훨씬 더 클 가능성이 있습니다.

정규성 가정에서 분자와 분모는 독립적입니다. 따라서이 t- 통계의 분포에서 랜덤으로 추출하면 정규 랜덤 수는 평균 약 1 인 오른쪽으로 치우친 분포에서 무작위로 선택된 두 번째 값으로 나눈 값입니다.

* 정상적인 용어와 관계없이

분모에 있기 때문에 분모 분포의 작은 값은 매우 큰 t- 값을 생성합니다. 분모의 오른쪽으로 치우치면 t- 통계량을 헤비 테일로 만듭니다. 분모에 더 급격히과 같은 표준 편차 정상보다 뾰족해진 t 분포하게 분포의 오른쪽 꼬리 t을 .

그러나 자유도가 커짐에 따라 분포는 훨씬 더 평범 해 보이며 평균 주위에 훨씬 더 "밀착"됩니다.

여기에 이미지 설명을 입력하십시오

따라서 분자의 분포 형태에 대해 분모로 나눈 효과는 자유도가 증가함에 따라 감소합니다.

결국 Slutsky의 정리가 우리에게 일어날 수 있다고 제안 할 수 있듯이 분모의 효과는 상수로 나누는 것과 비슷 해지고 t- 통계의 분포는 정상에 매우 가깝습니다.

분모의 역수로 간주

whuber는 의견에서 분모의 역수를 보는 것이 더 밝을 것이라고 제안했습니다. 즉, t- 통계량을 분자 (정상) 곱하기 분모 (오른쪽으로 기울이기)로 쓸 수 있습니다.

예를 들어 위의 1- 표본 -t 통계량은 다음과 같습니다.

\sqrt{n} (\bar{x} - μ_{0}) \cdot 1 / s

${\sqrt{n}(\bar{x}-\mu_0)}\cdot{1/s}$

이제 원래의 인구 표준 편차를 고려 , . 우리는 다음과 같이 곱하고 나눌 수 있습니다. $X_i$ $\sigma_x$

\sqrt{n} (\bar{x} - μ_{0}) / σ_{x} \cdot σ_{x} / s

${\sqrt{n}(\bar{x}-\mu_0)/\sigma_x}\cdot{\sigma_x/s}$

첫 번째 용어는 표준 정규입니다. 그런 다음 두 번째 항 (축척 된 역 카이 제곱 랜덤 변수의 제곱근)은 1보다 크거나 작은 값으로 표준 정규 척도를 "확산"합니다.

정규성 가정에서 제품의 두 용어는 독립적입니다. 따라서이 t- 통계량의 분포에서 무작위로 추출하면 오른쪽으로 치우친 분포에서 정규 랜덤 수 (제품의 첫 번째 항)에 임의의 두 번째로 선택된 값 (일반 항에 관계없이)을 곱한 값이 ' 일반적으로 약 1입니다.

df가 크면 값이 1에 매우 가까운 경향이 있지만, df가 작 으면 찌그러지고 스프레드가 커집니다.이 스케일링 요소의 오른쪽 꼬리가 커지면 꼬리가 상당히 뚱뚱해집니다.

여기에 이미지 설명을 입력하십시오

— Glen_b-복귀 모니카
소스

감사! 이것으로 많은 것이 명확 해졌지만, 여전히 "제곱은 카이 제곱 랜덤 변수를 자유도 (t- 분포의 df)로 곱한 것"[분포의 표준 편차] 분자로 나눈 것입니다. ". 아는 것이 유용한 것이었기 때문에 또는 내 질문에 대한 답변과 직접적인 관련이 있다고 언급 했습니까? 나는 당신의 그림에 묘사 된 분모의 제곱의 분포와는 반대로 분모의 분포라는 것을 이해합니다.

— user1205901-복원 Monica Monica

통계의 분포 는 df에서 카이 제곱의 제곱근 이 아니더라도 정규 분포보다 더 무겁 습니다. 그런 의미에서 답을 생략하도록 직접 변경하지는 않습니다. 그러나 적어도 그것은 규모가 어디에 있는지에 대한 설명으로 작용합니다. 다이어그램 분포 가 .

— Glen_b-복지 주 모니카

나는 역수에 기초 하여이 분석을 수행하는 것이 조금 더 밝을 것이라고 생각합니다표본 표준 편차 에 . 즉, 샘플 SD가 샘플 평균과는 독립적이라는 주장과 함께 (IMHO는 조금 더 강조하고 설명하면 도움이되는 핵심 아이디어) 사람들이 샘플 SD로 샘플 평균을 나누는 것이 도움이 될 것입니다. 정규 분포가 아닌 다른 것을 분산시킵니다. (물론 이것은 Gossett의 발견의 요점이었습니다.)

— whuber

@ whuber 나는 상호 측면에서 논의하는 섹션을 추가했지만 원래 토론을 유지했습니다 (더 직접적인 것으로 보이지만 많은 사람들이 상호 측면에서 더 많은 것을 얻을 수 있음을 이해합니다) . 나는 또한 독립성에 약간을 추가 할 것입니다

— Glen_b -Reinstate Monica

t- 통계량의 분모 값 (

s / \sqrt{n}

$s/\sqrt{n}$ )은 평균적으로

σ / \sqrt{n}

$\sigma/\sqrt{n}$

s / σ

$s/\sigma$

σ / s

$\sigma/s$

σ

$\sigma$

@Glen_b는 표본 크기가 증가함에 따라 t 통계량이 더 평범하게 보이는 이유에 대한 직관을 제공했습니다. 이제 통계 분포를 이미 얻은 경우에 대해 약간 더 기술적으로 설명하겠습니다.

$n-1$ $n$ 은 표본 크기입니다. 해당 밀도는 다음과 같습니다.

\frac{{(1 + \frac{x^{2}}{n - 1})}^{- n / 2}}{\sqrt{n - 1} B (\frac{n - 1}{2}, \frac{1}{2})} .

$\frac{\left(1+\frac{x^2}{n-1}\right)^{-n/2}}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}.$

보여줄 수 있습니다

\frac{1}{\sqrt{n - 1} B (\frac{n - 1}{2}, \frac{1}{2})} \to \frac{1}{\sqrt{2 π}},

$\frac{1}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}\rightarrow \frac{1}{\sqrt{2\pi}},$

과

{(1 + \frac{x^{2}}{n - 1})}^{- n / 2} \to \exp (- x^{2} / 2),

$\left(1+\frac{x^2}{n-1}\right)^{-n/2}\rightarrow \exp(-x^2/2),$

$n\rightarrow \infty$

— 크루거
소스

PDF의 수렴은 많은 것을 말하지 않는 것 같습니다. 예를 들어

1 / n

$1/n$ 에 비례하는 PDF를 사용한 분포의

(1 + (x / n)^{2})^{- 1}

$(1 + (x/n)^2)^{-1}$ 각각

t_{n}

$t_n$ 배포는 여전히 동일한 제한 PDF에 도달하지만 시퀀스의 배포는 더 깊게 진행됩니다. 이와 같은 미묘한 동작의 가능성은 PDF의 한계에 기반한 인수가 만족스럽지 못하도록 만듭니다. 게다가, 그 질문은 실제로 작은 자유도에 대해 묻지 않습니까? 이 시퀀스가 왜 뚱뚱한 꼬리 모양으로 시작하는지 알고 싶어합니다.

— whuber

@ whuber 대답은 간단합니다.

- n

$-n$ 힘에서 이것은 꼬리를 더 가볍게 만듭니다.

n

$n$ 증가합니다. 이상한 일이 발생할 수있는 다른 가상의 경우가 아니라 현재의 경우에 대해서만 걱정하면됩니다.

— Kruger

나는 초보자로서 직관에 도움이되는 것을 나누고 싶었습니다 (다른 답변보다 덜 엄격하지만).

만약 $Z, Z_1, ..., Z_n$ iid 표준 일반 RV이고 다음 RV입니다.

\frac{지}{\sqrt{\frac{지_{1}^{2} + . . . + 지_{엔}^{2}}{엔}}}

$\frac{Z}{\sqrt{\frac{Z_1^2+...+Z_n^2}{n}}}$

와 t- 분포가있다 $n$ 자유도.

같이 $n$ 우리는 많은 수의 법칙을 사용하여 분모가 $1$ . 그래서 당신은 방금 남았습니다 $Z$ 이것은 표준 정규이므로 t- 분포가 정상으로 보이는 이유입니다 $n$ 커진다.

정교하게 ... $E[Z^2] = 1$ 카이 제곱 RV의 예상 값은 1입니다. 제곱근의 분수는 단지 표본 평균입니다. $n$ 이드 $Z_i^2$ RV. 샘플 평균은 $n$ 슈퍼 큰 것 중 하나의 예상 값과 같을 것입니다. $Z_i^2$ 의 하나입니다.

그래서 $n$ 당신이 방금 남아있는 정말 커집니다 $\frac{Z}{\sqrt{1}} = Z$

— HJ_ 초보자
소스