Wasserstein 메트릭이라고도 하는 지구 이동기 거리는 두 히스토그램 사이의 거리를 측정합니다. 기본적으로 하나의 히스토그램을 여러 개의 먼지 더미로 간주 한 다음 이동해야하는 먼지의 양과이 히스토그램을 다른 막대로 변환 할 거리 (!)를 평가합니다. 일주일 동안 분포와 균일 한 거리 사이의 거리를 측정합니다.
이것은 물론 며칠의 근접성을 설명합니다. 월요일에서 화요일보다 월요일에서 화요일로 "흙"을 옮기는 것이 더 쉬우므로 (1 / 2,0,0,1 / 2,0,0,0)은 월요일과 화요일에 집중된 히스토그램보다 균일 분포로부터의 더 낮은 지구 이동기 거리.
이것이 수행하지 않는 것은주의 "순환"을 고려하는 것입니다. 즉, 토요일과 일요일은 일요일과 월요일만큼 가깝습니다. 이를 위해서는 순환 확률 질량 분포 에 정의 된 지구 이동 거리 를 찾아야합니다 . 적절한 최적화 방법을 사용하여 수행 할 수 있어야합니다.
편집 : R에서 emd
패키지 는 히스토그램 사이의 지구 이동 거리를 계산합니다.
"순환 성"문제는 아주 간단하지만 (임의하지만) 문제를 해결할 수 있습니다.
- 월요일부터 일요일까지 분포와 균일 한 분포 사이 의 지구 이동 거리 계산합니다 .d1
- 화요일부터 월요일까지 균일 분포에 대한 거리 를 계산합니다 .d2
- 수요일부터 화요일까지 균일 분포에 대한 거리 을 계산합니다 .d3
- ...
- 마지막으로 최종 거리로 평균 .d1,…,d7
이것은 몇 가지 추가 계산을 희생하면서 원형을 처리합니다.
두 번째 편집 : 이것은 원형 지구 이동 거리 가 아닙니다 . 이를 위해서는 검색이 시작 되는 문헌을 살펴 봐야 합니다 . 일 사이에 먼지를 이동하는 가장 좋은 방법은 월요일 토요일부터 이틀를 이동 포함하면,이 일곱 다섯 밖으로에 표시됩니다 아니라에서, 두 (흙이 필요로 이동하는 나머지 다섯 일).di
그러나 나는 여전히 단일 방식으로 원형을 고려할 수있는 잠재적으로 유용한 방법이라고 생각합니다. 단일 히스토그램을 사용하고 일주일을 일요일에서 토요일로 또는 다른 임의의 방식으로 정의하는 것보다 낫습니다. 또한, 위의 일부 링크는 원형 지구 이동 거리에 대한 구현을 나타내지 만 여기서 가장 많이 사용되는 언어 인 R에 대한 링크는 알지 못합니다.