두 개의 데이터 그룹이 있습니다. 각각 여러 변수의 분포가 다릅니다. 이 두 그룹의 분포가 통계적으로 유의 한 차이가 있는지 확인하려고합니다. 나는 원시 형식의 데이터를 가지고 있으며 각각의 빈도 수를 가진 개별 범주를 다루기 쉽도록 비닝되었습니다.
이 두 그룹이 크게 다른지 여부를 판별하기 위해 어떤 테스트 / 프로 시저 / 방법을 사용해야합니까? 그리고 SAS 또는 R (또는 주황색)에서 어떻게 수행합니까?
두 개의 데이터 그룹이 있습니다. 각각 여러 변수의 분포가 다릅니다. 이 두 그룹의 분포가 통계적으로 유의 한 차이가 있는지 확인하려고합니다. 나는 원시 형식의 데이터를 가지고 있으며 각각의 빈도 수를 가진 개별 범주를 다루기 쉽도록 비닝되었습니다.
이 두 그룹이 크게 다른지 여부를 판별하기 위해 어떤 테스트 / 프로 시저 / 방법을 사용해야합니까? 그리고 SAS 또는 R (또는 주황색)에서 어떻게 수행합니까?
답변:
나는 이것이 2- 표본 Kolmogorov–Smirnov 테스트 등을 요구한다고 믿는다 . 2- 표본 Kolmogorov–Smirnov 검정은 두 표본 의 경험적 분포 함수 (ECDF)의 차이를 비교 한 결과입니다. 즉, 두 표본의 위치와 모양에 민감합니다. 또한 다변량 형태로 일반화합니다.
이 테스트는 R의 다른 패키지에서 다양한 형태로 발견되므로 기본적으로 능숙하면 그 중 하나를 설치하고 (예 : fBasics ) 샘플 데이터에서 실행하면됩니다.
proc npar1way
. R에는 이외에도 여러 가지 다른 조정 테스트를 제공 ks.test()
하는 nortest
패키지가 있습니다.
컨설턴트의 멍청한 질문을하겠습니다. 이러한 분포가 통계적으로 유의 한 차이가 있는지 왜 알고 싶습니까?
사용중인 데이터가 모집단 또는 프로세스의 대표 샘플이며 해당 모집단 또는 프로세스가 다른 증거를 평가하려고합니까? 그렇다면 통계 테스트가 적합합니다. 그러나 이것은 나에게 이상한 질문처럼 보입니다.
아니면 진실에 상관없이 그 집단이나 과정이 다른 것처럼 행동해야하는지에 관심이 있습니까? 그런 다음 손실 함수, 이상적으로는 자신에게 의미있는 단위를 반환하는 함수를 결정하고 (a) 모집단을 다르게 취급하고 (b) 동일한 것으로 취급 할 때 예상 손실을 예측하는 것이 좋습니다. 또는 다소 보수적 인 위치를 채택하려는 경우 손실 분포의 Quantile을 선택할 수 있습니다.
상대 분포 방법을 적용하는 데 관심이있을 수 있습니다. 한 그룹은 참조 그룹, 다른 그룹은 비교 그룹이라고합니다. 확률 확률도를 구성하는 것과 유사한 방식으로 밀도의 비율 인 상대 CDF / PDF를 구성 할 수 있습니다. 이 상대 밀도는 추론에 사용될 수 있습니다. 분포가 동일하면 상대 분포가 균일해야합니다. 균일 성에서 벗어난 것을 탐색하고 조사하기위한 그래픽 및 통계 도구가 있습니다.
더 나은 이해를위한 좋은 출발점 은 R에 상대적인 분산 방법을 적용하고 R 에있는 reldist 패키지를 적용하는 것입니다. 자세한 내용 은 Handcock and Morris 의 사회 과학의 상대 분포 방법 책을 참조하십시오 . 저자가 관련 기술을 다루는 논문 도 있습니다 .
두 분포의 차이에 대한 한 가지 척도는 "최대 평균 불일치"기준으로, 기본적으로 재생 커널 힐버트 공간 (RKHS)에서 두 분포의 표본에 대한 실험적 평균 간의 차이를 측정합니다. 이 백서 "두 샘플 문제에 대한 커널 방법"을 참조하십시오 .
SAS / R / Orange를 사용하는 방법을 모르지만 카이 제곱 테스트 와 같은 테스트가 필요합니다 .