답변:
정규 분포는 일부 버전의 중앙 한계 정리와 관련된 많은 의미있는 통계 문제에서 큰 표본 분포입니다. 답에 도달하기 위해 추가되는 대략적인 독립 정보가 있습니다. 모수 추정값이 점진적으로 정상인 경우 해당 함수 는 점진적으로 정상입니다 (일반적인 경우).
반면, 스튜던트 분포는 더 제한적인 조건의 iid 정규 회귀 오류에서 파생됩니다. 이 가정을 구입할 수 있다면 선형 회귀 분석에서 가설 검정에 사용되는 분포를 구입할 수 있습니다 . 이 분포를 사용하면 정규 분포를 사용하는 것보다 더 넓은 신뢰 구간이 제공됩니다. 그것의 실질적인 의미는 작은 표본에서 불확실성 측정, 회귀 평균 제곱 오차 또는 잔차의 표준 편차 를 추정해야한다는 것 입니다. (대규모 표본에서는 정보를 알고있는 것처럼 정보가 많으므로 분포는 정규 분포로 퇴보합니다.)
유한 분포에서도 학생 분포를 정당화 할 수없는 선형 회귀 분석이있을 수 있습니다. 회귀 오류에 대한 2 차 조건 위반과 관련이 있습니다. 즉, (1) 일정한 분산이고 (2) 독립적입니다. 이러한 가정을 위반 하고이 분산 식이지만 독립적 인 잔차에 대해 Eicker / White 추정기 를 사용하여 표준 오차를 수정하는 경우 또는 Newey-웨스트 직렬 상관 관계 오류 또는 대한 추정 클러스터 표준 오차군집 관련 데이터의 경우 학생 분포에 대한 합리적인 근거를 얻을 수있는 방법이 없습니다. 그러나 적절한 버전의 점근 정규성 인수 (수식 배열 등)를 사용하면 정규 근사를 정당화 할 수 있습니다 (신뢰 구간이 너무 좁을 수 있음을 명심해야 함).
나는 정규 분포와 감마 분포의 혼합으로 학생 t 분포의 표현을 좋아합니다.
감마 분포의 평균은 분포의 분산은 입니다. 따라서 t- 분포를 상수 분산 가정을 "유사한"분산 가정으로 일반화하는 것으로 볼 수 있습니다. 기본적으로 분산이 얼마나 유사한지를 제어합니다. 또한 이것을 "무작위 가중"회귀로 간주합니다. 위의 적분을 다음과 같이 "숨겨진 변수"표현으로 사용할 수 있습니다.
여기서 및 모든 변수에 독립적입니다. 사실 이것은 과 같이 기본적으로 t- 분포의 정의입니다.
값이 크 거나 값이 작기 때문에 큰 오류 가 발생할 수 있기 때문에이 결과가 정규 분포에 비해 스튜던트 t 분포가 "강력한"이유를 수 있습니다 . 이제 becuase 는 모든 관측치에 공통적이지만 는 i 번째에만 해당합니다. 결론적으로 일반적인 "상식"은 특이 치가 작은 대한 증거를 제공한다는 것입니다 . 당신은 선형 회귀 수행하는 경우 또한, , 당신은 발견 할 것이다 가정하면, i 번째 관측에 무게가 알려져있다 :
따라서 특이 작은 대한 증거를 구성 하므로 i 번째 관측치의 가중치가 줄어 듭니다. 또한 작은 "이상 값"(나머지보다 훨씬 더 잘 예측 / 적합 된 관측치)은 큰 대한 증거를 구성 합니다. 따라서이 관측 값은 회귀 분석에서 더 많은 가중치가 부여됩니다. 이것은 이상 치나 우수한 데이터 포인트로 직관적으로 수행하는 것과 일치합니다.
이 질문에 대한 광산 및 다른 응답 이 유한 분산 경로를 따라 수행 할 수있는 일부 테스트를 찾는 데 유용 할 수는 있지만 이러한 것들을 결정하는 "규칙"은 없습니다 (학생 t는 자유도 이하의 무한 분산입니다) 두).