분포 사이의 Kolmogorov 거리에 대한 동기


45

두 확률 분포가 얼마나 유사한 지 측정하는 방법에는 여러 가지가 있습니다. (다른 서클에서) 널리 사용되는 방법은 다음과 같습니다.

  1. Kolmogorov 거리 : 분포 함수들 간의 sup-distance;

  2. Kantorovich-Rubinstein 거리 : Lipschitz 상수 갖는 두 함수 분포에 대한 기대치 간의 최대 차이 는 분포 함수 사이의 L 1 거리 1이기도 합니다.L1

  3. 한정된 립 쉬츠 거리 : KR 거리와 같지만 함수는 최대 절대 값을 가져야 1합니다.

이들은 서로 다른 장단점이 있습니다. 3의 의미에서 수렴 만이 실제로 분포의 수렴에 정확히 일치한다. 1 또는 2의 의미에서 수렴은 일반적으로 약간 강합니다. (특히 Xn=1n 확률로1후,Xn수렴에0콜 모고 로프 거리에 분포 아니지만. 그러나 한계 분포가 연속적이라면이 병리가 발생하지 않습니다.)

기초 확률 또는 측정 이론의 관점에서 볼 때, 1. 어떤 세트에있을 확률을 비교하기 때문에 매우 자연 스럽다. 반면에보다 정교한 확률 론적 관점은 확률보다 기대에 더 집중하는 경향이 있습니다. 또한 기능 분석의 관점에서 볼 때 일부 기능 공간이있는 이중성을 기반으로 한 2 또는 3과 같은 거리는 매우 매력적입니다. 왜냐하면 그러한 작업을 수행하기위한 많은 수학적 도구가 있기 때문입니다.

그러나 통계에 따르면 Kolmogorov 거리는 일반적으로 분포의 유사성을 측정하는 기본 방법입니다. 한 가지 이유를 추측 할 수 있습니다. 분포 중 하나가 유한 지원으로 분리 된 경우 (특히 실제 데이터의 분포 인 경우) Kolmogorov 모델 분포까지의 거리는 계산하기 쉽습니다. KR 거리는 계산하기가 약간 어려울 수 있으며 BL 거리는 실제로는 불가능할 수 있습니다.

그래서 나의 질문은 (마지막으로) 통계 목적으로 Kolmogorov 거리 (또는 다른 거리)를 선호하는 다른 이유가 있습니까?


1
질문이 마음에 듭니다. 질문에 가능한 대부분의 답변이있을 수 있습니다 ... 원하는 답변 / 개발 유형에 대한 아이디어가 있습니까?
로빈 지라드

1
매우 구체적이지 않습니다. 통계에 대해 잘 모르고 요청하는 이유 중 하나는 통계학자가 다른 통계 중에서 선택하는 데 사용할 기준을 배우는 것입니다. 나는 1의 중요한 실질적인 이점 하나를 이미 설명했기 때문에 (실제로 계산할 수 있음) 나는 이론적 동기에 특히 관심이 있습니다. 콜 모고 로프 거리의 추정치가 정보를 자주 사용하는 경우에 해당 정보가 제공 되는가?
Mark Meckes

나는 이전의 코멘트를 다소 명백하게 끝내는 것을 잊었다. 그렇다면 그렇다면 어떻게?
Mark Meckes

나는 단지 위의 긴 의견을 다시 읽고 내가 제기 한 마지막 질문은 이론적 인 것만 큼 실용적인 고려 사항이라는 것을 깨달았습니다. 어쨌든, 그것은 내가 배우고 싶은 종류의 문제 중 하나입니다.
Mark Meckes

철저한 의미는 아니지만 Anderson 달링 통계를 추가 할 수 있습니다 ( en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test 참조 ). 이 날은 종이 fromo 생각 나게 야거 및 Wellner (참조했다 projecteuclid.org/... (Tukey에 특히 높은 비판 포함) extands는 / 일반화된다 앤더슨 달링 통계) ...
로빈 지라

답변:


12

표,

내가 KS의 사용에 대해 알고있는 주된 이유는 그것이 일 변량의 경험적 과정에서 Glivenko-Cantelli 이론에서 자연적으로 발생하기 때문입니다. 내가 추천하는 한 가지 참조는 AWvan der Vaart "Asymptotic Statistics", ch. 19.보다 진보 된 논문은 Wellner와 van der Vaart의 "약한 수렴과 경험적 과정"입니다.

두 가지 간단한 메모를 추가하겠습니다.

  1. 일 변량 분포에서 일반적으로 사용되는 거리의 다른 측정 값은 L ^ 2 거리 인 Cramer-von Mises 거리입니다.
  2. 일반적으로 벡터 공간에서는 서로 다른 거리가 사용됩니다. 많은 논문에서 관심있는 공간은 광택입니다. Billingsley의 "확률 측정의 수렴"은 아주 좋은 소개입니다.

더 구체적으로 말할 수 없다면 사과드립니다. 이게 도움이 되길 바란다.


2
노트에 두 개의 빠른 노트. 1. C-vM 거리는 정확하게 Kolmogorov (L ^ infinity) 및 (일 변량) KR (L ^ 1) 거리의 L ^ 2 사촌이므로 이들 사이에 보간됩니다. 2. KR과 BL 거리에 대해 언급하지 않은 한 가지 장점은 더 높은 차원 공간에 대해보다 자연스럽게 일반화한다는 것입니다.
Mark Meckes

1.에 관해서는 맞습니다. 위의 거리의 원칙 2. 전체에 관해서는 ^ R에 이상 수행 할 수 없음, 그러나 나는 기반으로 인기있는 비 파라 메트릭 테스트 모르겠어요 어떤 거리. 어떤 것이 있는지 아는 것이 흥미로울 것입니다.
gappy

8

계산 문제는 내가 들었던 가장 강력한 논쟁입니다. Kolmogorov 거리의 가장 큰 장점은 거의 모든 CDF에 대해 분석적으로 계산하기가 쉽다는 것입니다. 대부분의 다른 거리 메트릭에는 가우시안 경우를 제외하고는 닫힌 형식의 표현이 없습니다.

샘플의 Kolmogorov 거리에는 CDF (나는 대부분의 다른 것들은 그렇게 생각하지 않습니다)를 감안할 때 알려진 샘플링 분포를 가지고 있으며, 이는 Wiener 프로세스와 관련이 있습니다. 이는 표본을 분포 또는 두 표본을 서로 비교하기위한 Kolmogorov-Smirnoff 검정의 기초입니다.

보다 기능적인 분석 노트에서, sup 표준은 기본적으로 균일 한 수렴을 정의한다는 점에서 훌륭합니다. 이것은 포인트 수렴을 암시하는 표준 수렴을 남기므로 함수 시퀀스를 정의하는 방법에 대해 영리한 경우 RKHS 내에서 작업하고 제공하는 멋진 도구를 모두 사용할 수 있습니다.


8

요약하자면 , 내 대답은 다음과 같습니다. 만약 당신이 명시적인 표현을 가지고 있거나 거리가 측정하는 방법을 알아낼 수 있다면 (무엇을 "차이를 제공하는지"), 더 좋은 것을 말할 수 있습니다. 이러한 테스트를 분석하고 비교하는 또 다른 보완 방법은 최소 이론입니다.

결국 일부 테스트는 다른 대안과 다른 테스트에 적합합니다. 주어진 대안들에 대해 때때로 최악의 경우에 당신의 테스트가 최적의 속성을 가지고 있는지를 보여주는 것이 가능합니다 : 이것이 최소 이론입니다.


일부 세부 사항

따라서 "최적의 검출 경계" http : // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

거리를두고 거리를 봅시다 :

  1. KS 거리는 경험적 cdf와 cdf의 차이의 상한값을 계산하여 얻어진다. 최고 수준이기 때문에 지역 대안 (cdf의 지역 변화)에 매우 민감하지만 전역 변화에는 영향을 미치지 않습니다 (적어도 cdf 사이의 L2 거리를 사용하면 지역이 적을 것입니다 (Am I openning open door?)). 그러나 가장 중요한 것은 cdf를 사용한다는 것입니다. 이것은 비대칭 성을 의미합니다. 분포의 꼬리 변화에 더 중요합니다.

  2. Wassertein 메트릭 (Kantorovitch Rubinstein?의 의미) http://en.wikipedia.org/wiki/Wasserstein_metric 은 어디에나 있으므로 비교하기가 어렵습니다.

    • W2의 특정 경우에 대해서는 http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 에서 사용되었으며 cdf와 반대의 L2 거리와 관련이 있습니다. 내 이해는 그것이 꼬리에 더 많은 무게를 준다는 것입니다. 그러나 나는 당신이 그것에 대해 더 많이 알기 위해 논문을 읽어야한다고 생각합니다.
    • 밀도 함수 사이의 L1 거리의 경우 데이터에서 사용자의 dentity 함수를 추정하는 방법에 따라 크게 달라 지지만 그렇지 않으면 꼬리에 중요하지 않은 "균형 테스트"인 것 같습니다.

내가 작성한 의견을 기억하고 확장하기 위해 답을 완성했습니다.

나는 당신이 철저하지는 않았지만 Anderson 달링 통계를 추가 할 수 있음을 알고 있습니다 ( http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test 참조 ). 이것은 저에게 Jager와 Wellner의 논문을 떠올리게했습니다 ( http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 참조 ). Tukey에 대한 높은 비판). 더 높은 비판은 이미 광범위한 대안에 대해 최소치 인 것으로 나타 났으며 Jager와 Wellner도 그 범위를 확장했습니다. Kolmogorov 테스트에서 minimax 속성이 표시되지 않았다고 생각합니다. 어쨌든, 어떤 유형의 테스트가 minimax인지 이해하면 그 힘이 어디에 있는지 알 수 있으므로 위의 논문을 읽어야합니다.


1
그렇습니다. 간토로 비치-루빈스타인 거리는 L ^ 1 Wasserstein 거리 또는 W1이라고도합니다. 다른 많은 이름도 사용됩니다.
Mark Meckes

3
Wasserstein 거리에 익숙하지 않은 사람을 위해 이것을 명확하게 설명하기 위해 L ^ 2 Wasserstein 거리 (W2)는 Cramer-von Mises 거리와 같지 않습니다 .
Mark Meckes

4

FF

FF^F F =F

supx|Fn(x)F^(x)|.
F^F^=F

3

Kolmogorov-Smirnov 테스트를 사용해야하는 추가 이유는 없습니다. 그러나 사용하지 않는 중요한 이유를 알려 드릴 수 있습니다. 분포의 꼬리에 잘 맞지 않습니다. 이와 관련하여 우수한 분포 적합 검정은 Anderson-Darling입니다. 두 번째로 Chi Square 테스트는 꽤 좋습니다. 이와 관련하여 둘 다 KS 테스트보다 훨씬 우수한 것으로 간주됩니다.


2

기능 분석 및 측정 이론의 관점에서, 유형 거리는 기능 공간에서 측정 가능한 세트를 정의하지 않습니다 (무한 차원 공간은 미터법 볼 커버링에서 계산할 수없는 가산 성 첨가제). 이것은 선택 거리 2와 3의 거리에 대한 모든 종류의 측정 가능한 해석을 확실하게 실격시킵니다.Lp

물론 콜로 모고 로프는 우리 자신을 포함하여 게시 한 어느 것보다 훨씬 밝았습니다. 영리한 비트는 KS 테스트에서 거리가 품종이지만 균일 한 표준 자체는 측정 가능한 세트를 정의하는 데 사용되지 않는다는 것입니다. 오히려 세트는 관측 값에서 평가 된 분포 사이의 차이에 대한 확률 적 여과의 일부입니다. 이는 중지 시간 문제와 같습니다.L0

요컨대, 선택 1의 균일 한 표준 거리는 그것이 의미하는 테스트가 정지 시간 문제와 동등하기 때문에 바람직하며, 그 자체가 계산적으로 다루기 쉬운 확률을 생성한다. 선택 사항 2와 3은 측정 가능한 기능의 하위 집합을 정의 할 수 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.