n 차원 연속 값 벡터로 구성된 두 개 이상의 표본 모집단이 있다고 가정 해 보겠습니다. 이러한 표본이 동일한 분포에 속하는지 테스트하는 비모수 적 방법이 있습니까? 그렇다면 R 또는 Python에 함수가 있습니까?
n 차원 연속 값 벡터로 구성된 두 개 이상의 표본 모집단이 있다고 가정 해 보겠습니다. 이러한 표본이 동일한 분포에 속하는지 테스트하는 비모수 적 방법이 있습니까? 그렇다면 R 또는 Python에 함수가 있습니까?
답변:
Kolmogorov-Smirnov 테스트가 다변량이 아님을 깨달았을 때 다변량 2 샘플 테스트에 대해 많은 연구를했습니다. 그래서 Chi 테스트, Hotelling의 T ^ 2, Anderson-Darling, Cramer-von Mises 기준, Shapiro-Wilk 등을 살펴 봤습니다.이 테스트 중 일부는 벡터가 동일한 것으로 간주되므로주의해야합니다. 길이. 다른 것은 두 표본 분포를 비교하지 않고 정규성 가정을 거부하는 데만 사용됩니다.
주요 솔루션은 두 샘플의 누적 분포 함수를 모든 가능한 순서와 비교하는 것으로 보입니다.
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
Xiao의 문서에서 알 수 있듯이 Fasano 및 Franceschini 테스트는 Peacock 테스트의 변형입니다.
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
Fasano와 Franceschini 테스트는 특별히 계산 집약적이지 않았지만 R에서 그들의 작업 구현을 찾지 못했습니다.
Peacock vs Fasano 및 Franceschini 테스트의 계산 측면을 살펴 보려는 경우 2 차원 Kolmogorov–Smirnov 테스트를위한 계산 효율적인 알고리즘을 확인하십시오.
예, 두 개의 다변량 샘플이 동일한 관절 분포에서 나온 경우 비모수 테스트 방법이 있습니다. L Fischman 이 언급 한 내용을 제외한 세부 사항에 대해 언급하겠습니다 . 당신이 요구하는 기본 문제는 '2 표본 문제'라고 할 수 있으며 현재 Journal of Machine Learning Research 및 Annals of Statistics 등과 같은 저널 에서 많은 연구가 진행 되고 있습니다. 이 문제에 대한 나의 작은 지식으로 다음과 같은 방향을 제시 할 수 있습니다.
다양한 점 세트 (샘플 세트)를 참조 점 세트와 비교하는 것이 참조 점 세트에 얼마나 근접하는지 보려면 f-divergence를 사용할 수 있습니다 .
다른 방법으로 접근 할 수도 있습니다.이 답변은 귀하의 질문을 포괄적으로 다루지는 않습니다.)