내가 실행중인 실험에 대한 분포의 불균일성을 측정하기위한 메트릭을 만들려고합니다. 나는 대부분의 경우 균일하게 분포되어야하는 임의의 변수를 가지고 있으며 변수가 어느 정도의 범위 내에서 균일하게 분포되어 있지 않은 데이터 세트의 예를 식별하고 가능한 정도를 측정하고 싶습니다.
내가 측정하고있는 것의 발생 빈도를 나타내는 10 개의 측정치가있는 각각 3 개의 데이터 시리즈의 예는 다음과 같습니다.
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
c와 같은 분포를 a 및 b와 같은 분포를 구별하고 균일 분포와의 c 편차를 측정하고 싶습니다. 마찬가지로 분포가 얼마나 균일한지에 대한 메트릭이있는 경우 (표준 편차가 0에 가까울까요?) 분산이 높은 분포를 구별하는 데 사용할 수 있습니다. 그러나 내 데이터에는 위의 c 예와 같이 하나 또는 두 개의 특이 치가있을 수 있으며 그 방법으로 쉽게 감지 할 수 있는지 확실하지 않습니다.
소프트웨어에서 이것을하기 위해 무언가를 해킹 할 수는 있지만 이것을 공식적으로 정당화하기위한 통계적 방법 / 접근법을 찾고 있습니다. 나는 몇 년 전에 수업을 들었지만 통계는 내 영역이 아닙니다. 이것은 잘 알려진 접근법이 필요한 것 같습니다. 이 중 하나라도 완전히 머리가 아프면 죄송합니다. 미리 감사드립니다!