분포 차이의 유의성 평가


21

두 개의 데이터 그룹이 있습니다. 각각 여러 변수의 분포가 다릅니다. 이 두 그룹의 분포가 통계적으로 유의 한 차이가 있는지 확인하려고합니다. 나는 원시 형식의 데이터를 가지고 있으며 각각의 빈도 수를 가진 개별 범주를 다루기 쉽도록 비닝되었습니다.

이 두 그룹이 크게 다른지 여부를 판별하기 위해 어떤 테스트 / 프로 시저 / 방법을 사용해야합니까? 그리고 SAS 또는 R (또는 주황색)에서 어떻게 수행합니까?


2
분포가 다른 형태 (예 : 정규, 포아송 등)인지 또는 모수가 다른지 (예 : 정규 분포의 평균 또는 sd) 또는 둘 다에 관심이 있습니까?
Jeromy Anglim

답변:


15

나는 이것이 2- 표본 Kolmogorov–Smirnov 테스트 등을 요구한다고 믿는다 . 2- 표본 Kolmogorov–Smirnov 검정은 두 표본 의 경험적 분포 함수 (ECDF)의 차이를 비교 한 결과입니다. 즉, 두 표본의 위치와 모양에 민감합니다. 또한 다변량 형태로 일반화합니다.

이 테스트는 R의 다른 패키지에서 다양한 형태로 발견되므로 기본적으로 능숙하면 그 중 하나를 설치하고 (예 : fBasics ) 샘플 데이터에서 실행하면됩니다.


5
기본 "stats"패키지의 R ks.test의 경우 추가 패키지를 설치하지 않고 KS 테스트를 수행 할 수 있습니다.
russellpierce

SAS에서는 KS 테스트가에서 제공됩니다 proc npar1way. R에는 이외에도 여러 가지 다른 조정 테스트를 제공 ks.test()하는 nortest패키지가 있습니다.
chl

8

컨설턴트의 멍청한 질문을하겠습니다. 이러한 분포가 통계적으로 유의 한 차이가 있는지 왜 알고 싶습니까?

사용중인 데이터가 모집단 또는 프로세스의 대표 샘플이며 해당 모집단 또는 프로세스가 다른 증거를 평가하려고합니까? 그렇다면 통계 테스트가 적합합니다. 그러나 이것은 나에게 이상한 질문처럼 보입니다.

아니면 진실에 상관없이 그 집단이나 과정이 다른 것처럼 행동해야하는지에 관심이 있습니까? 그런 다음 손실 함수, 이상적으로는 자신에게 의미있는 단위를 반환하는 함수를 결정하고 (a) 모집단을 다르게 취급하고 (b) 동일한 것으로 취급 할 때 예상 손실을 예측하는 것이 좋습니다. 또는 다소 보수적 인 위치를 채택하려는 경우 손실 분포의 Quantile을 선택할 수 있습니다.


당신의 말투는 약간 울퉁불퉁하고 경멸 적입니다 ...하지만 당신 말이 맞아요, 내가 실제로 겪었던 것은 두 분포가 똑같다고 합리적으로 생각할 수 있는지 여부였습니다.
Jay Stevens

3
내 목소리가 마음에 들지 않아서 죄송합니다. 두 분포가 동일하다고 합리적으로 가정 할 수 있는지 알고 싶은 경우 KS는 두 분포가 동일하다는 귀무 가설을 검정하기 때문에 오도합니다.
앤드류 로빈슨

5

상대 분포 방법을 적용하는 데 관심이있을 수 있습니다. 한 그룹은 참조 그룹, 다른 그룹은 비교 그룹이라고합니다. 확률 확률도를 구성하는 것과 유사한 방식으로 밀도의 비율 인 상대 CDF / PDF를 구성 할 수 있습니다. 이 상대 밀도는 추론에 사용될 수 있습니다. 분포가 동일하면 상대 분포가 균일해야합니다. 균일 성에서 벗어난 것을 탐색하고 조사하기위한 그래픽 및 통계 도구가 있습니다.

더 나은 이해를위한 좋은 출발점 은 R에 상대적인 분산 방법을 적용하고 R 에있는 reldist 패키지를 적용하는 것입니다. 자세한 내용 은 Handcock and Morris 의 사회 과학의 상대 분포 방법 책을 참조하십시오 . 저자가 관련 기술을 다루는 논문 도 있습니다 .


2

두 분포의 차이에 대한 한 가지 척도는 "최대 평균 불일치"기준으로, 기본적으로 재생 커널 힐버트 공간 (RKHS)에서 두 분포의 표본에 대한 실험적 평균 간의 차이를 측정합니다. 이 백서 "두 샘플 문제에 대한 커널 방법"을 참조하십시오 .


이 방법은 내 견해로는 가장 강력하지만 분포에 유한 한 표본이있는 경우 똑같이 잘 작동하므로 잘 알려져 있지 않습니다 (따라서 표본 분포가 완전히 연속적이지 않음). 또한 KS 테스트를 위해 내가 아는 한 여전히 활발한 연구를 수행하는 다항 분포와 함께 작동합니다
www3

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.