필자는이 단락을 언급하여 이해하기 쉽게 설명합니다. 아마도 원래 모집단의 정규성 가정이 너무 제한적이며 샘플링 분포에 초점을 맞추지 못하고 특히 큰 샘플의 경우 중앙 한계 정리 덕분에 무시 될 수 있습니다.
모집단 분산을 모르고 대신 표본 분산을 추정기로 사용하는 경우 검정을 적용 하는 것이 좋습니다. 풀링 된 분산을 적용하기 전에 동일한 분산의 가정을 F 분산 또는 Lavene 검정으로 테스트해야 할 수도 있습니다 . 여기서 GitHub에 대한 메모가 있습니다 .티
언급했듯이 t- 분포는이 빠른 R 플롯이 보여주는 것처럼 샘플이 증가함에 따라 정규 분포로 수렴합니다.
빨간색은 정규 분포의 pdf이며 자주색에서는 분포 의 pdf의 "뚱뚱한 꼬리"(또는 두꺼운 꼬리)가 점차적으로 변화 할 때까지 자유도가 증가함에 따라 점진적인 변화를 볼 수 있습니다 . 정규 플롯.티
따라서 큰 샘플에서는 z- 검정을 적용하는 것이 좋습니다.
초기 답변으로 문제를 해결했습니다. OP에 대한 도움을 주신 Glen_b에게 감사드립니다 (해석의 새로운 실수는 전적으로 내 실수 일 수 있습니다).
- 규범 적 가정하에 분포에 따른 T 통계 결과 :
1- 표본 대 2- 표본 (페어링 및 비 페어링)에 대한 공식에서 복잡성을 제외하고 , 샘플 평균을 모집단 평균과 비교하는 경우에 초점을 둔 일반적인 통계 는 다음과 같습니다.
t- 검정 = X¯− μ에스엔√= X¯− μσ/ n√에스2σ2−−−√= X¯− μσ/ n−−√∑엔x = 1( X− X¯)2n - 1σ2−−−−−−−−√(1)
가 평균 및 분산 정규 분포를 따르는 경우 :μ σ 2엑스μσ2
- 의 분자입니다 .~ N ( 1 , 0 )( 1 ) ~ N( 1 , 0 )
- 의 분모 의 제곱근 것 (scaled chi squared), 여기서 파생 된 이기 때문에 .s 2 / σ 2(1)s2/σ2n−1∼1n−1χ2n−1(n−1)s2/σ2∼χ2n−1
- 분자와 분모는 독립적이어야합니다.
이러한 조건에서 입니다.t-statistic∼t(df=n−1)
- 중앙 제한 이론 :
모집단이 정상이 아니더라도 표본 크기가 증가함에 따라 표본의 표본 분포 분포의 정규성 경향은 분자의 정규 분포를 가정 할 수 있습니다. 그러나 다른 두 조건 (분모의 카이 제곱 분포 및 분모와 분자의 독립성)에는 영향을 미치지 않습니다.
그러나 모든 것이 손실되지는 않습니다 .이 게시물에서 Slutzky 정리가 분모의 카이 분포가 충족되지 않더라도 정규 분포를 향한 점근 적 수렴을 어떻게 지원하는지 논의됩니다.
- 견고 함 :
Sawilowsky SS와 Blair RC ( 심리적 게시판, 1992, Vol.)의 논문 "인구 정규성에서 출발하기위한 t 검정의 견고성과 유형 II 오류 특성에 대한보다 현실적인 모습" 111, No. 2, 352-360 에서 전력 및 유형 I 오류에 대해 덜 이상적이거나 "실제"분포 (일반적이지 않은) 분포를 테스트 한 경우 다음과 같은 주장을 찾을 수 있습니다. "유형과 관련하여 보수적 인 성격에도 불구하고 이러한 실제 분포 중 일부에 대한 t 검정 오류, 연구 된 다양한 처리 조건 및 시료 크기에 대한 검정력 수준에는 거의 영향이 없었습니다. 연구원들은 약간 더 큰 표본 크기를 선택하여 약간의 검정력 손실을 쉽게 보상 할 수 있습니다. " .
" 일반적인 견해는 (a) 표본 크기가 같거나 거의 (b) 표본 인 한, 제 1 종 오류와 관련하여 비 가우시안 인구 형태에 대해 독립 표본 t 검정이 합리적으로 강력하다는 것 같습니다. 크기는 상당히 크며 (1960 년, 25 ~ 30의 표본 크기를 언급), (c) 단측이 아닌 양측 테스트를 수행하며, 이러한 조건이 충족 될 때 공칭 알파와 실제 알파의 차이는 유의합니다. 불일치는 자유 주의적 성격보다는 일반적으로 보수적으로하며, 발생합니다. "
저자들은 논란의 여지가있는 측면을 강조하고 Harrell 교수가 언급 한 대수 정규 분포를 기반으로 한 시뮬레이션을 진행하기를 기대합니다. 또한 비모수 적 방법 (예 : Mann-Whitney U 테스트)을 사용하여 Monte Carlo를 비교하고 싶습니다. 그래서 그것은 진행중인 작업입니다 ...
시뮬레이션 :
면책 조항 : 다음은 "직접 증명"하는 연습 중 하나입니다. 결과는 일반화를 만드는 데 사용할 수는 없지만 (적어도 나는 아닙니다)이 두 가지 (아마도 결함이있는) MC 시뮬레이션은 상황에서 t 테스트 사용에 대해 너무 낙담하지 않는 것 같습니다. 설명.
제 1 종 오류 :
유형 I 오류 문제에서 Lognormal 분포를 사용하여 Monte Carlo 시뮬레이션을 실행했습니다. 매개 변수 및 을 사용하여 로그 정규 분포에서 여러 번 더 큰 표본 ( ) 으로 간주되는 것을 추출 하여 평균을 비교할 경우 발생하는 t- 값 및 p- 값을 계산했습니다. 이 표본 중 동일한 모집단에서 발생하는 모든 표본과 동일한 크기입니다. 대수 정규는 오른쪽에 대한 분포와 주석의 왜곡을 기준으로 선택되었습니다.n=50μ=0σ=1
실제 수준 I 오류율 을 로 유의 수준을 설정하면 였을 것입니다 .5%4.5%
실제로 얻은 t 검정의 밀도 플롯은 t- 분포의 실제 pdf와 겹치는 것처럼 보입니다.
가장 흥미로운 부분은 카이 제곱 분포를 따르는 t 테스트의 "분모"를 살펴 보는 것입니다.
(n−1)s2/σ2=98(49(SD2A+SD2A))/98(eσ2−1)e2μ+σ2
.
이 위키 백과 항목 에서와 같이 공통 표준 편차를 사용합니다 .
SX1X2=(n1−1)S2X1+(n2−1)S2X2n1+n2−2−−−−−−−−−−−−−−−−−−−−−−√
놀랍게도 그 줄거리는 겹쳐진 카이 제곱 pdf와는 매우 달랐습니다.
유형 II 오류 및 전력 :
혈압의 분포는 가능한 로그 정상입니다 , 비교 그룹은 임상 적 관련성의 거리가 평균 값에서 분리되어있는 합성 시나리오를 설정하는 것이 매우 편리 제공, 혈압의 효과를 테스트하는 임상 연구에서 말하는 이완기 혈압에 초점을 맞춘 약물, 큰 영향은 평균 드롭 간주 될 수 mmHg로 (약의 SD mmHg로 선택되었다)9109
이 가상 그룹 사이의 유형 I 오류와 비슷한 다른 Monte Carlo 시뮬레이션에서 비교 t- 검정을 실행하면 의 유의 수준 으로 유형 II 오류와 의 거듭 제곱으로 끝납니다. .0.024 % 99 %5%0.024%99%
코드는 여기에 있습니다 .