같은 모집단에서 두 개의 표본을 추출했는지 여부를 확인하기위한 통계 테스트?


30

두 개의 샘플이 있다고 가정 해 봅시다. 다른 집단에서 뽑아 낸 것인지를 알고 싶다면 t- 검정을 실행할 수 있습니다. 그러나 표본이 동일한 모집단에서 추출되었는지 테스트하고 싶다고 가정 해 봅시다. 어떻게합니까? 즉,이 두 표본이 동일한 모집단에서 추출 된 통계적 확률을 어떻게 계산합니까?


1
"동일한 것"의 의미를 가능한 한 정량적으로 설명하십시오. "조건"의 의미를 명확하게하는 것도 도움이 될 것입니다.
whuber

2- 표본 Kolmogorov-Smirnov와 같은 검정 (유일한 가능성은 아님; 일반적인 가정에서 t- 검정은 노트와 동일한 것을 검정 함)은 모집단 분포 가 다른지 여부를 검정 할 수 있지만 (거부 실패는 ' t는 그들이 실제로 동일하다는 것을 의미합니다). 그러나 테스트 결과에 따르면 너무 다르지 않은 두 분포가 비슷한 분포를 가진 두 개의 다른 모집단이 아니라 실제로 동일한 모집단 에서 온 것인지 여부는 알 수 없습니다 . 그것은 가정이나 다른 조사에서 나온 것입니다. ... ctd
Glen_b-복지국 Monica

3
ctd ... 마찬가지로, 검정은 분포가 사소한 방식으로 다를 수 있기 때문에 분포가 동일하다는 것을 알 수 없습니다. '동등성 테스트'또는 '동등성 테스트'를 검색하면 여기 또는 Google에서 몇 가지 인기를 얻을 수 있습니다.
Glen_b-복지국 Monica

답변:


20

분포를 비교하는 테스트는 제외 테스트입니다. 그들은 두 모집단이 동일하다는 귀무 가설로 시작한 다음 그 가설을 기각하려고합니다. 우리는 null이 참이라는 것을 결코 증명할 수 없으며 단지 거부하기 때문에이 테스트는 실제로 2 개의 표본이 동일한 모집단 (또는 동일한 모집단)에서 나온다는 것을 보여주는 데 사용될 수 없습니다.

분포에 약간의 차이가있을 수 있기 때문에 (동일하지 않음) 테스트가 실제로 차이를 찾을 수 없을 정도로 작습니다.

두 분포를 고려하십시오. 첫 번째는 0에서 1까지 균일하고 두 번째는 두 유니폼의 혼합이므로 0과 0.999 사이의 1이며 9.999와 10 사이의 1입니다 (다른 곳에서는 0). 따라서 이러한 분포는 분명히 다르지만 (차이가 의미가 있든 다른 질문인지), 각 표본에서 표본 크기가 50 인 (총 100 개)을 취하면 90 %가 넘는 확률로 0과 0.999 사이의 값만 볼 수 있습니다. 실제 차이를 볼 수 없습니다.

두 분포 / 인구가 동일한 지 묻는 등가성 테스트라고하는 방법이 있지만 동등한 것으로 간주하는 것을 정의해야합니다. 일반적으로 차이의 일부 측정 값이 지정된 범위 내에 있어야합니다. 즉, 두 평균의 차이가 두 평균의 평균의 5 %보다 작거나 KS 통계량이 지정된 컷오프보다 낮습니다. 그런 다음 차이 통계에 대한 신뢰 구간을 계산할 수 있습니다 (평균의 차이는 신뢰 구간, 부트 스트랩, 시뮬레이션 또는 다른 통계에 다른 방법이 필요할 수 있음). 전체 신뢰 구간이 "등가 영역"에 속하는 경우 두 모집단 / 분포가 "동일"한 것으로 간주합니다.

어려운 부분은 등가 영역이 무엇인지 파악하는 것입니다.


2
귀무 가설 검정은 귀무 가설에 대한 증거를 제공 할 수 없습니다. 그러나 베이지안 또는 일부 "기준"(AIC, BIC)에 기반한 모델 선택은 널 모델 (동일 분포)이 대체 모델 (다른 분포)보다 데이터에 대한 더 나은 설명임을 나타낼 수 있습니다. 물론 많은 가정 하에서이 모든 것이 가능합니다.
A. Donda 2019

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

표본 값이 연속 분포에서 나온다고 가정하면 Kolmogorov-Smirnov 검정을 제안합니다. 연관된 경험적 분포를 기반으로 두 분포의 표본이 다른 분포 (이것이 모집단 사용을 해석하는 방법 임)에서 나온 것인지 테스트하는 데 사용할 수 있습니다.

Wikipedia에서 직접 :

이 통계의 귀무 분포는 표본이 동일한 분포에서 추출된다는 귀무 가설하에 계산됩니다 (두 표본의 경우).

이 테스트에는 R의 ks.test 함수를 사용할 수 있습니다.

kstest가 동질성을 테스트하지 않는 것이 사실이지만, 충분히 큰 표본 크기 (고출력 테스트)로 기각하지 않으면 차이가 실제로 크지 않다고 주장 할 수 있습니다. 차이가 존재하면 의미가 없을 것입니다 (다시 큰 표본 크기를 가정 할 때). 당신은 그들이 다른 사람들이 올바르게 언급 한 것과 같은 인구에서 왔다는 결론을 내릴 수 없습니다. 이 모든 것은 일반적으로 두 샘플의 유사성을 그래픽으로 검사합니다.


6
KS 검정을 사용하여 분포 동등성을 나타낼 수 있는지 의심합니다.
Michael M

@MichaelMayer 맞습니다. OP는 많은 근본적인 방법 론적 문제가있는 동질성 테스트에 관심이 있습니다. 이질성 KS는 그 문제를 가지고 실질적으로는 없이 집단은 모든면에서 실질적으로 동일한 지의 큰 샘플에서 거부한다. 단지 테스트와 결과적으로 p- 값이 통계적 유의성보다 표본 크기의 척도로 더 잘 이해된다는 것을 보여줍니다.
AdamO

@AdamO 예, 그러나 표본이 많고 거부하지 않으면 모집단이 실제로 동일하다고 확신합니다. 내가 아는 한, 이것을 뒷받침하는 이론은 없지만 경험에 따르면 이질성에 대한 KS가 큰 표본 크기와 미세한 차이를 감지 할 수 있다는 사실을 알면 실제로 실패한 큰 표본 테스트를 사실상의 진술로 사용할 수 있습니다 동일한 인구. 내 대답은 "이 두 표본이 같은 모집단에서 추출 된 통계적 확률을 계산하십시오"라는 질문에 대답합니까? 확실히.
Underminer

포인트가 2 차원 인 경우 어떻게해야합니까? 즉, 저는 2 차원 점의 두 표본을 가지고 있으며, 그것들이 별개의 분포에서 나온 것인지 알고 싶습니다.
becko

KS 검정은 데이터에서 추정 된 모수가있는 분포가 아니라 미리 정의 된 분포에 대해서만 작동합니다.
qwr

2

각 10 분마다 2 개의 분포가 다른지 확인하는 '시프트 기능'을 사용할 수 있습니다. 기술적으로 그것들이 같은 집단이 아닌 다른 집단 출신인지에 대한 테스트이지만, 분포가 십진법에 따라 다르지 않다면, 특히 집단 규모가 큰 경우, 같은 집단에서 나온 것인지 합리적으로 확신 할 수 있습니다.

자신의 분포를 오버레이 그들은 서로 닮은 있는지, 또는 더 나은 아직 각 그룹에서 천 개 부트 스트랩 샘플 몇을 그리고 플롯 : 나는 또한이 개 그룹을 시각화 할 사람들을 이 당신에게 그들이 같은에서 온 여부에 대한 아이디어를 제공하는 것처럼, 주어진 모집단이 변수에 대해 정상적으로 분포되어 있지 않은 경우 특히 모집단.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.