왜 Kolmogorov-Smirnov 테스트를 2 차원 이상으로 일반화 할 수 없습니까?


10

문제는 모든 것을 말합니다. 나는 KS를 2 이상의 차원으로 일반화 할 수 없으며 Numerical Recipes 에서와 같은 유명한 구현 은 단순히 잘못되었다는 것을 읽었습니다 . 왜 그런지 설명해 주시겠습니까?


나는 논문의 인용 된 (내 대답에) 섹션을 기반으로 몇 가지 태그 (이변 량, 경험적 및 cdf)를 추가했습니다.
Glen_b-복귀 모니카

pedrofigueira-나는 나의 대답에 상당한 변화를 일으켰다 (원본은 틀렸다; 미안하다). 여러 다변량 KS 테스트에 대한 참조를 다시 제공 할 예정이므로 더 많은 편집 작업을 수행 할 수 있습니다.
Glen_b-복지 주 모니카

@Glen_b 모든 시간과 노력에 대단히 감사합니다!
pedrofigueira

답변:


13

해당 단락의 관련 부분을 인용하는 것이 합법적이라고 생각합니다.

3. KS 시험은 2 차원 이상으로 적용 할 수 없습니다. 천문학 자들은 종종 선이 아닌 평면이나 더 높은 차원으로 점이 분포 된 데이터 세트를 가지고 있습니다. 천문학 문헌의 몇몇 논문은 2 차원 KS 테스트를 제시하기 위해 만들어졌으며, 그 중 하나는 유명한 음량 레시피로 재생산되었습니다. 그러나 EDF 기반 테스트 (KS, AD 및 관련 테스트 포함)는 2 차원 이상으로 적용 할 수 없습니다. 잘 정의 된 EDF 간의 거리를 계산할 수 있도록 점을 정렬하는 고유 한 방법이 없기 때문입니다. 순서 순서에 따라 통계를 구성한 다음 두 데이터 세트 (또는 하나의 데이터 세트와 곡선) 사이의 최고 거리를 계산할 수 있습니다. 그러나 결과 통계의 임계 값은 분포가 없습니다.

언급했듯이 이것은 너무 강해 보입니다.

1) 이변 량 분포 함수 는 에서 까지의 맵입니다 . 즉, 함수는 0과 1 사이의 일 변량 실제 값을 취 합니다. 확률 인 값은 이미 "정렬"되어 있습니다.이 값 (함수 값)은 ECDF 기반 테스트와 비교해야합니다. . 마찬가지로, ecdf, 는 이변 량 경우에 완벽하게 정의되어 있습니다.F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

텍스트가 제안하는 것처럼 일 변량 결합 변수의 함수로 변환해야 할 필요는 없다고 생각합니다. 당신은 단순히 계산 와 모든 필요한 조합에서 그 차이를 계산한다.FF^

2) 그러나 배포가 없는지 여부에 대한 질문에는 다음과 같은 요점이 있습니다.

a) 명백히 그러한 시험 통계량은 마진의 변형에 의한 변경에 의해 변경되지 않을 것이다. 즉, 이변 량 독립 제복의 시험으로 구성된 경우, , 그것은 동일하게 작동한다 웰의 독립 테스트 등 여기서 . 그런 의미에서 배포가 필요 없습니다 ( '여백 없음'이라고 할 수도 있음).U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b) 그러나 더 넓은 의미에서 KS 통계의 순진한 버전 (예 : 방금 설명한 바와 같이)이 더 일반적으로 배포되지 않는다는 근본적인 요점이 있습니다. 우리는 단순히 임의로 변환 할 수 없습니다. .UX=g(U)

내 대답의 이전 버전에서는 다음과 같이 말했습니다.

어려움없고 문제 없어

그건 틀렸어요. 방금 언급했듯이 이변 량 독립 유니폼의 마진뿐만 아니라 변화가있는 경우 실제로 문제가 있습니다. 그러나 이러한 문제는 여러 가지 방법으로 여러 문제에서 고려되지 않은 Kolmogorov-Smirnov 통계의 이변 량 / 다변량 버전을 산출하는 여러 논문에서 고려되었습니다.

다시 돌아와서 그러한 참고 문헌 중 일부와 시간이 허락하자마자 어떻게 작동하는지에 대한 토론을 추가 할 수 있습니다.


이 답변은 분명히 맞지만 KS 테스트를 사용할 수 있다는 것을주의해야합니다. 일반적으로 훨씬 더 나은 (더 강력한) 테스트가 있습니다.
kjetil b halvorsen

확실히-어떤 대안이 관심 있는지에 달려 있습니다.
Glen_b-복지 주 모니카

1
이 답변을 완전히 이해하지 못합니다. 많은 천문학적 데이터 세트 (및 다른 많은 작은 차원 데이터 세트)에는 본질적으로 의미있는 좌표계가 제공되지 않는다고 생각합니다. 따라서 귀하의 포인트가 "이미 주문"되었다고 주장하는 것은 그러한 상황에서 유효하지 않습니다. KS 통계가 위치를 식별하는 데 사용 된 좌표와 무관 하다는 것을 보여줄 수 있다면 구출 될 수 있습니다 . 나는 그것이 두 가지 이상의 차원에서 사실이라고 생각하지 않지만 실수 할 수 있습니다.
whuber

1
@ whuber 나는 내 오류에 대한 당신의 친절한 반응에 비추어 실질적으로 변화했습니다. 장기적으로 더 유용한 답변을 만들기 위해 참고 자료와 세부 사항을 추가 할 때 추가 변경을 할 것입니다.
Glen_b-복지 모니카

(+1)이 답변을 넓히고 더 미묘하게 만들어 준 글렌, 대단히 감사합니다. OP의 모호한 품질에 대한 참조 (초기 가설 검정의 의미를 잘못 해석 함)를 찾음에도 불구하고 마침내 "부트 스트랩이 구조에 올 수 있으며 특정 다차원 통계량 및 연구중인 특정 데이터 세트에 대한 유의 수준은 수치 적으로 계산되었습니다. " 이것은 적어도 정신적으로, 당신의 대답이 어떻게 형성되고 있는지에 맞춰 보입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.