2 개의 경험적 이산 분포 간의 차이에 대한 검정


14

나는 경험적 분포로 사용하는 불연속 분포에서 여러 개의 큰 표본이있는 테스트 데이터를 가지고 있습니다. 분포가 실제로 다른지 여부와 실제로 다른 분포에 대한 평균의 차이점은 무엇인지 테스트하고 싶습니다.

그것들은 불연속 분포이기 때문에 기본적으로 지속적인 분포 가정 때문에 Kolmogorov-Smirnov 검정이 유효하지 않다는 것을 이해합니다. 카이-제곱 검정이 분포가 실제로 다른지 여부에 대한 올바른 검정입니까?

평균 차이에 대해 어떤 테스트를 사용합니까? 분포에서 표본을 추출하여 차이를 얻은 다음 차이 분포를 분석하는 것이 더 나은 방법입니까?


예, -test가 올바른 것입니다. 이 질문에 대한 답은 정교합니다. 분포 1 = 항아리 1분포 2 = 항아리 2 . 여기에서 랜덤 변수의 값은 색상이며 경우에 따라 이산 숫자와 같은 다른 값일 수 있습니다. χ2
Georg Schnabel

의견을 보내 주셔서 감사합니다. 카이 제곱 검정에서 분포가 다른 것으로 확인 될 때의 차이에 대한 검정이 있습니까?
Wallhood

분포에서 표본을 추출하여 차이를 얻은 다음 차이에 대한 분석을 수행하는 것이 더 나은 방법입니까?
Wallhood

답변:


13

1) Kolmogorov-Smirnov를 계속 사용할 수 있지만, 표로 표시된 임계 값을 사용하면 보수적입니다 (전력 곡선을 아래로 내리기 때문에 문제가됩니다). 통계량의 순열 분포를 얻는 것이 좋습니다. 따라서 유의 수준이 원하는 수준이됩니다. 관계가 많은 경우에만 큰 차이가 있습니다. 이 변경은 실제로 구현 하기 쉽습니다 . (그러나 KS 테스트는 그러한 비교 만 가능한 것은 아닙니다. 어쨌든 순열 분포를 계산하는 경우 다른 가능성이 있습니다.)

2) 개별 데이터에 대한 바닐라 카이-제곱 적합도 검정은 일반적으로 제 생각에는 정말 나쁜 생각입니다. 위의 잠재적 인 전력 손실로 KS 테스트를 사용하지 않으면 카이 제곱의 문제가 종종 더 심해집니다. 가장 중요한 정보, 즉 카테고리 (순서 값) 사이의 순서, 전력의 수축 순서를 고려하지 않은 대안에 분산시킴으로써 위치 및 규모의 이동과 같은 부드러운 대안을 발견하는 것이 더 나빠집니다). KS 테스트는 무거운 타이의 나쁜 영향에도 불구하고 여전히 많은 경우에 더 나은 검정력을 갖습니다 (유형 I 오류율은 여전히 ​​낮음).

카이-제곱은 순서를 고려하여 수정 될 수도 있습니다 (직교 다항식을 통해 카이 제곱을 선형, 2 차, 3 차 등의 컴포넌트로 분할하고 적은 수의 항만 사용합니다-4-6은 일반적인 선택입니다). Rayner와 Best (및 기타)의 논문은 Neyman-Barton 부드러운 테스트에서 발생하는 이러한 접근 방식에 대해 설명합니다. 이것은 좋은 접근 방법이지만 소프트웨어에 액세스 할 수없는 경우 약간의 설정이 필요할 수 있습니다.

수정 된 접근 방식은 문제가 없지만 두 가지 접근 방식을 수정하지 않을 경우 카이-제곱이 KS 테스트보다 더 나은 경우는 아닙니다. 어떤 상황에서는 더 좋을 수도 있습니다. 실질적으로 악화 될 수 있습니다.

관계가 무겁지 않은 경우 (즉, 데이터에 의해 취해진 많은 다른 값이있는 경우), KS를있는 그대로 고려합니다. 그것들이 중간이면 순열 분포를 계산할 것입니다. 그것들이 매우 무겁다면 (즉, 데이터는 몇 가지 다른 값만 취함), 일반 카이-제곱은 경쟁적 일 수 있습니다.


경고 해 주셔서 감사합니다. KS 테스트 또는 Chi-Squared
Wallhood
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.