생물학적 세부 사항과 실험을 모두 제거하고 당면한 문제와 통계적으로 수행 한 작업을 인용하겠습니다. 나는 그것이 올바른지 아닌지, 어떻게 진행하는지 알고 싶습니다. 데이터 (또는 내 설명)가 충분하지 않으면 편집하여 더 잘 설명하려고 노력할 것입니다.
크기가 이고 두 개의 그룹 / 관찰, X 및 Y가 있다고 가정하십시오 . 이 두 관측치의 평균이 같은지 알고 싶습니다. 내 첫 번째 질문은N y = 40
가정이 만족되면 여기서 파라 메트릭 2- 표본 t- 검정을 사용하는 것이 적절합니까? 크기가 작을 때 일반적으로 적용되는 것으로 이해하기 때문에 이것을 묻습니다.
나는 X와 Y의 히스토그램을 플로팅했고, 그것들은 정규 분포가 아니었다. 2- 표본 t- 검정의 가정 중 하나. 혼란스러워서, 나는 그것들을 두 모집단으로 간주하고 그래서 정규 분포를 확인했습니다. 그러나 나는 두 개의 샘플 t- 검정을 수행하려고합니다 ... 맞습니까?
중앙 한계 정리에서, 나는 당신이 (인구 크기에 따라 반복적으로 / 반복없이) 샘플링을 여러 번 수행하고 매번 샘플의 평균을 계산하면 대략 정규 분포됨을 이해합니다. 그리고이 랜덤 변수의 평균은 모집단 평균의 적절한 추정치입니다. 그래서 저는 이것을 X와 Y에서 1000 번, 1000 번 수행하기로 결정하고 샘플을 얻었으며, 각 샘플의 평균에 랜덤 변수를 할당했습니다. 음모는 매우 정규적으로 분포되었습니다. X와 Y의 평균은 4.2와 15.8 (이는 모집단 +-0.15와 같음)이고 분산은 0.95와 12.11입니다.
이 두 관측치 (각 1000 개 데이터 포인트)에 대해 분산이 같지 않기 때문에 t- 검정을 수행했습니다. 이는 매우 다르기 때문입니다 (0.95와 12.11). 그리고 귀무 가설은 기각되었습니다.
이것은 전혀 의미가 있습니까? 이 정확하고 의미있는 접근법이나 2- 표본 z- 검정이 충분합니까, 아니면 완전히 잘못 되었습니까?또한 비모수 Wilcoxon 검정을 수행하여 (원본 X 및 Y에서) 확실하게 귀무 가설을 확실하게 기각했습니다. 이전 방법이 완전히 잘못된 경우 통계적 힘을 제외하고 비모수 적 테스트를 수행하는 것이 좋을 것 같습니다.
두 경우 모두 평균이 크게 달랐습니다. 그러나 두 가지 방법 중 하나 또는 둘 다가 잘못되었거나 완전히 잘못된 지 알고 싶습니다. 그렇다면 어떤 대안이 있습니까?