주중 분포의 균일 성 측정


11

여기에 묻는 질문과 비슷한 문제가 있습니다.

분포의 불균일성을 어떻게 측정합니까?

요일에 대한 확률 분포 세트가 있습니다. 각 분포가 (1 / 7,1 / 7, ..., 1/7)에 얼마나 가까운 지 측정하고 싶습니다.

현재 위의 질문에 대한 답변을 사용하고 있습니다. 분포가 일 중 하나의 질량 1을 가질 때 값이 1이고 (1 / 7,1 / 7, ..., 1/7)에 대해 최소화되는 L2-Norm. 선형으로 크기를 조정하여 0과 1 사이에 놓은 다음 0을 뒤집 으면 0이 완벽하게 불균일하고 1이 완벽하게 균일하다는 것을 의미합니다.

이것은 꽤 잘 작동하지만 한 가지 문제가 있습니다. 매주 평일을 7-Dim 공간의 차원으로 동일하게 취급하므로 근사한 날을 설명하지 않습니다. 즉, (1 / 2,1 / 2,0,0,0,0,0) 및 (1 / 2,0,0,1 / 2,0,0,0)과 동일한 점수를 부여합니다. 어떤 의미에서는 후자가 "확산"되고 균일하며 이상적으로는 더 높은 점수를 받아야합니다. 일 순서가 순환 적이라는 추가 된 합병증이 있습니다.

이 휴리스틱을 변경하여 가까운 날을 설명하려면 어떻게해야합니까?


1
(1 / 2,1 / 2,0,0,0,0,0)과 (1 / 2,0,0,1 / 2,0,0,0)의 예는 동일한 방식으로 불균일합니다. 따라서 비 균일 성 테스트에만 관심이 있다면 중요하지 않습니다. 따라서 질문에 명시 적으로 명시되지 않은 것을 더 테스트하고 싶습니까? Btw, 엔트로피 는 균일 성의 척도입니다.
Tim

감사합니다. Tim, Entropy를 사용해 보았지만 위에서 언급 한 휴리스틱이 내 목적에 더 효과적이라는 것을 알았습니다. 일주일 동안 확률의 "확산 성"을 캡슐화해야한다는 점을 제외하고는 주중 확률 분포 속성을 무엇이라고 부를지 잘 모르겠습니다.
EBartrum

답변:


15

Wasserstein 메트릭이라고도 하는 지구 이동기 거리는 두 히스토그램 사이의 거리를 측정합니다. 기본적으로 하나의 히스토그램을 여러 개의 먼지 더미로 간주 한 다음 이동해야하는 먼지의 양과이 히스토그램을 다른 막대로 변환 할 거리 (!)를 평가합니다. 일주일 동안 분포와 균일 한 거리 사이의 거리를 측정합니다.

이것은 물론 며칠의 근접성을 설명합니다. 월요일에서 화요일보다 월요일에서 화요일로 "흙"을 옮기는 것이 더 쉬우므로 (1 / 2,0,0,1 / 2,0,0,0)은 월요일과 화요일에 집중된 히스토그램보다 균일 분포로부터의 더 낮은 지구 이동기 거리.

이것이 수행하지 않는 것은주의 "순환"을 고려하는 것입니다. 즉, 토요일과 일요일은 일요일과 월요일만큼 가깝습니다. 이를 위해서는 순환 확률 질량 분포 에 정의 된 지구 이동 거리 를 찾아야합니다 . 적절한 최적화 방법을 사용하여 수행 할 수 있어야합니다.


편집 : R에서 emd패키지 는 히스토그램 사이의 지구 이동 거리를 계산합니다.

"순환 성"문제는 아주 간단하지만 (임의하지만) 문제를 해결할 수 있습니다.

  • 월요일부터 일요일까지 분포와 균일 한 분포 사이 의 지구 이동 거리 계산합니다 .d1
  • 화요일부터 월요일까지 균일 분포에 대한 거리 를 계산합니다 .d2
  • 수요일부터 화요일까지 균일 분포에 대한 거리 을 계산합니다 .d3
  • ...
  • 마지막으로 최종 거리로 평균 .d1,,d7

이것은 몇 가지 추가 계산을 희생하면서 원형을 처리합니다.

두 번째 편집 : 이것은 원형 지구 이동 거리 가 아닙니다 . 이를 위해서는 검색이 시작 되는 문헌을 살펴 봐야 합니다 . 일 사이에 먼지를 이동하는 가장 좋은 방법은 월요일 토요일부터 이틀를 이동 포함하면,이 일곱 다섯 밖으로에 표시됩니다 아니라에서, 두 (흙이 필요로 이동하는 나머지 다섯 일).di

그러나 나는 여전히 단일 방식으로 원형을 고려할 수있는 잠재적으로 유용한 방법이라고 생각합니다. 단일 히스토그램을 사용하고 일주일을 일요일에서 토요일로 또는 다른 임의의 방식으로 정의하는 것보다 낫습니다. 또한, 위의 일부 링크는 원형 지구 이동 거리에 대한 구현을 나타내지 만 여기서 가장 많이 사용되는 언어 인 R에 대한 링크는 알지 못합니다.


3
처음에는 후자의 예 ( )가 원형 지구 이동 거리를 계산하는 방법의 예 라고 생각하고 혼란 스럽습니다 (결과가 일부 보다 클 수 있기 때문에 ). 그런 다음이 대답이 그 어디에도 해당하지 않음을 깨달았습니다. 다른 사람들이 내가했던 것처럼이 대답을 읽었는지 모르겠지만 예제가 원형 지구 이동 거리가 아니라는 것을 더 명확하게 언급하는 것이 좋습니다. d id1,,d7di
JiK

@JiK : 좋은 지적, 그리고 어제 연결을 잃은 후 나에게도 발생했습니다. 나는 이것이 실제 원형 지구 이동 거리가 아니라 핵임을 강조하기 위해 나의 대답을 분명히했다.
Stephan Kolassa

1
사실 많은 거리 덕분에 emd 패키지 및 emd2d 함수를 사용하여 R에서 원형 지구 이동 거리를 구현하고 자체 거리 함수를 정의했기 때문에 언급 한 핵을 사용할 필요가 없었습니다. 이것이 바로 내가 찾던 것입니다! 또 다른 사소한 문제 : 무엇을 불러야합니까? 팀이 위에서 말했듯이, 나는이 균일 성을 부를 수 없습니다. 이 휴리스틱에 적합한 이름은 무엇입니까?
EBartrum

1
글쎄, 당신 균일 성을 테스트하고 있으므로 그 용어는 괜찮을 것입니다. 팀이 주장하고있는 것은 당신이 평가하고자하는 균일 성에서 벗어난 것입니다. 따라서 " 균일 성" 보다 더 정확한 용어를 찾고있을 것 입니다. 논의한 바와 같이, 거리 의미 에서 출발을 찾고 있지 않지만 분명히 EMD 의미입니다. 그 아기에게 전화하기 좋은 이름이 보이지 않습니다. 아마도 당신은 당신의 산문에 "EMD"를 뿌리고 싶을 것입니다. "배포 A는 B보다 EMD 비 균일 성이 더 높습니다." "A는 B보다 균일 성과 거리가 멀다." 그래도 시적으로 들리지 않습니다. 죄송합니다. L2
Stephan Kolassa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.