두 개의 다변량 분포가 동일한 기본 모집단에서 표본 추출되는지 여부를 어떻게 테스트합니까?


13

두 개의 다변량 데이터 세트가 제공되고 이전과 새 데이터 세트가 있으며 동일한 프로세스 (모델이 없음)로 생성되었지만 아마도 수집 / 생성 라인을 따라 어딘가에 있다고 가정하십시오. 데이터에 문제가 생겼습니다. 예를 들어 기존 데이터에 대한 유효성 검사 세트 또는 기존 데이터에 추가 할 때 새 데이터를 사용하고 싶지 않을 것입니다.

Wilcoxon 순위 합계와 같은 1D 통계 (변수 당)를 수행하고 여러 테스트 수정을 시도 할 수는 있지만 최적인지는 확실하지 않습니다 (다중 테스트 문제는 물론 다변량 데이터의 복잡성을 캡처하는 것). 한 가지 방법은 분류기를 사용하여 두 데이터 세트를 구별 할 수 있는지 확인하는 것입니다 (최적의 최적 분류 기가 제공됨). 그것은 작동하는 것처럼 보이지만 여전히 a) perhp 더 나은 방법이 있기 때문에 perhp b) 그것이 왜 다른지 알려주기 위해 실제로 설계되지 않았습니다 (아무것도 없다면 최고의 예측자를 사용하고 더 나은 것으로 추정되는 다른 좋은 예측 변수를 놓칠 수 있습니다)

답변:


3
http://131.95.113.139/courses/multivariate/mantel.pdf

데이터 집합의 크기가 같은 경우 두 가지 방법을 논의하십시오. 기본 접근 방식은 관찰 된 두 매트릭스 사이의 거리 메트릭을 계산하는 것입니다. 그런 다음 해당 거리가 중요한지 확인하려면 순열 테스트 를 사용합니다 .

데이터 집합의 크기가 동일하지 않은 경우 교차 일치 테스트를 사용할 수 있지만 널리 사용되지는 않습니다. 교차 일치 테스트 대신 동일한 크기로 데이터를 업 / 다운 샘플링 한 다음 첫 번째 논문에서 언급 한 방법 중 하나를 사용합니다.


크기가 고르지 않은 데이터 세트가있는 경우 교차 일치 테스트를 사용하십시오. 그러나 언급 한 논문에 따르면 동일한 동일한 데이터 세트를 사용하고 거리를 기준으로 페어링하는 것으로 보입니다. 이것이 사용되고 있다는 증거가 있습니까? 교차 일치에 대한 릴리스 정보
에서도이

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.