두 확률 분포가 얼마나 유사한 지 측정하는 방법에는 여러 가지가 있습니다. (다른 서클에서) 널리 사용되는 방법은 다음과 같습니다.
Kolmogorov 거리 : 분포 함수들 간의 sup-distance;
Kantorovich-Rubinstein 거리 : Lipschitz 상수 갖는 두 함수 분포에 대한 기대치 간의 최대 차이 는 분포 함수 사이의 L 1 거리 이기도 합니다.
한정된 립 쉬츠 거리 : KR 거리와 같지만 함수는 최대 절대 값을 가져야 합니다.
이들은 서로 다른 장단점이 있습니다. 3의 의미에서 수렴 만이 실제로 분포의 수렴에 정확히 일치한다. 1 또는 2의 의미에서 수렴은 일반적으로 약간 강합니다. (특히 확률로후,수렴에콜 모고 로프 거리에 분포 아니지만. 그러나 한계 분포가 연속적이라면이 병리가 발생하지 않습니다.)
기초 확률 또는 측정 이론의 관점에서 볼 때, 1. 어떤 세트에있을 확률을 비교하기 때문에 매우 자연 스럽다. 반면에보다 정교한 확률 론적 관점은 확률보다 기대에 더 집중하는 경향이 있습니다. 또한 기능 분석의 관점에서 볼 때 일부 기능 공간이있는 이중성을 기반으로 한 2 또는 3과 같은 거리는 매우 매력적입니다. 왜냐하면 그러한 작업을 수행하기위한 많은 수학적 도구가 있기 때문입니다.
그러나 통계에 따르면 Kolmogorov 거리는 일반적으로 분포의 유사성을 측정하는 기본 방법입니다. 한 가지 이유를 추측 할 수 있습니다. 분포 중 하나가 유한 지원으로 분리 된 경우 (특히 실제 데이터의 분포 인 경우) Kolmogorov 모델 분포까지의 거리는 계산하기 쉽습니다. KR 거리는 계산하기가 약간 어려울 수 있으며 BL 거리는 실제로는 불가능할 수 있습니다.
그래서 나의 질문은 (마지막으로) 통계 목적으로 Kolmogorov 거리 (또는 다른 거리)를 선호하는 다른 이유가 있습니까?