두 개의 샘플이 있다고 가정 해 봅시다. 다른 집단에서 뽑아 낸 것인지를 알고 싶다면 t- 검정을 실행할 수 있습니다. 그러나 표본이 동일한 모집단에서 추출되었는지 테스트하고 싶다고 가정 해 봅시다. 어떻게합니까? 즉,이 두 표본이 동일한 모집단에서 추출 된 통계적 확률을 어떻게 계산합니까?
두 개의 샘플이 있다고 가정 해 봅시다. 다른 집단에서 뽑아 낸 것인지를 알고 싶다면 t- 검정을 실행할 수 있습니다. 그러나 표본이 동일한 모집단에서 추출되었는지 테스트하고 싶다고 가정 해 봅시다. 어떻게합니까? 즉,이 두 표본이 동일한 모집단에서 추출 된 통계적 확률을 어떻게 계산합니까?
답변:
분포를 비교하는 테스트는 제외 테스트입니다. 그들은 두 모집단이 동일하다는 귀무 가설로 시작한 다음 그 가설을 기각하려고합니다. 우리는 null이 참이라는 것을 결코 증명할 수 없으며 단지 거부하기 때문에이 테스트는 실제로 2 개의 표본이 동일한 모집단 (또는 동일한 모집단)에서 나온다는 것을 보여주는 데 사용될 수 없습니다.
분포에 약간의 차이가있을 수 있기 때문에 (동일하지 않음) 테스트가 실제로 차이를 찾을 수 없을 정도로 작습니다.
두 분포를 고려하십시오. 첫 번째는 0에서 1까지 균일하고 두 번째는 두 유니폼의 혼합이므로 0과 0.999 사이의 1이며 9.999와 10 사이의 1입니다 (다른 곳에서는 0). 따라서 이러한 분포는 분명히 다르지만 (차이가 의미가 있든 다른 질문인지), 각 표본에서 표본 크기가 50 인 (총 100 개)을 취하면 90 %가 넘는 확률로 0과 0.999 사이의 값만 볼 수 있습니다. 실제 차이를 볼 수 없습니다.
두 분포 / 인구가 동일한 지 묻는 등가성 테스트라고하는 방법이 있지만 동등한 것으로 간주하는 것을 정의해야합니다. 일반적으로 차이의 일부 측정 값이 지정된 범위 내에 있어야합니다. 즉, 두 평균의 차이가 두 평균의 평균의 5 %보다 작거나 KS 통계량이 지정된 컷오프보다 낮습니다. 그런 다음 차이 통계에 대한 신뢰 구간을 계산할 수 있습니다 (평균의 차이는 신뢰 구간, 부트 스트랩, 시뮬레이션 또는 다른 통계에 다른 방법이 필요할 수 있음). 전체 신뢰 구간이 "등가 영역"에 속하는 경우 두 모집단 / 분포가 "동일"한 것으로 간주합니다.
어려운 부분은 등가 영역이 무엇인지 파악하는 것입니다.
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
표본 값이 연속 분포에서 나온다고 가정하면 Kolmogorov-Smirnov 검정을 제안합니다. 연관된 경험적 분포를 기반으로 두 분포의 표본이 다른 분포 (이것이 모집단 사용을 해석하는 방법 임)에서 나온 것인지 테스트하는 데 사용할 수 있습니다.
Wikipedia에서 직접 :
이 통계의 귀무 분포는 표본이 동일한 분포에서 추출된다는 귀무 가설하에 계산됩니다 (두 표본의 경우).
이 테스트에는 R의 ks.test 함수를 사용할 수 있습니다.
kstest가 동질성을 테스트하지 않는 것이 사실이지만, 충분히 큰 표본 크기 (고출력 테스트)로 기각하지 않으면 차이가 실제로 크지 않다고 주장 할 수 있습니다. 차이가 존재하면 의미가 없을 것입니다 (다시 큰 표본 크기를 가정 할 때). 당신은 그들이 다른 사람들이 올바르게 언급 한 것과 같은 인구에서 왔다는 결론을 내릴 수 없습니다. 이 모든 것은 일반적으로 두 샘플의 유사성을 그래픽으로 검사합니다.
각 10 분마다 2 개의 분포가 다른지 확인하는 '시프트 기능'을 사용할 수 있습니다. 기술적으로 그것들이 같은 집단이 아닌 다른 집단 출신인지에 대한 테스트이지만, 분포가 십진법에 따라 다르지 않다면, 특히 집단 규모가 큰 경우, 같은 집단에서 나온 것인지 합리적으로 확신 할 수 있습니다.
자신의 분포를 오버레이 그들은 서로 닮은 있는지, 또는 더 나은 아직 각 그룹에서 천 개 부트 스트랩 샘플 몇을 그리고 플롯 : 나는 또한이 개 그룹을 시각화 할 사람들을 이 당신에게 그들이 같은에서 온 여부에 대한 아이디어를 제공하는 것처럼, 주어진 모집단이 변수에 대해 정상적으로 분포되어 있지 않은 경우 특히 모집단.