분포의 불균일성을 어떻게 측정합니까?

28

내가 실행중인 실험에 대한 분포의 불균일성을 측정하기위한 메트릭을 만들려고합니다. 나는 대부분의 경우 균일하게 분포되어야하는 임의의 변수를 가지고 있으며 변수가 어느 정도의 범위 내에서 균일하게 분포되어 있지 않은 데이터 세트의 예를 식별하고 가능한 정도를 측정하고 싶습니다.

내가 측정하고있는 것의 발생 빈도를 나타내는 10 개의 측정치가있는 각각 3 개의 데이터 시리즈의 예는 다음과 같습니다.

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

c와 같은 분포를 a 및 b와 같은 분포를 구별하고 균일 분포와의 c 편차를 측정하고 싶습니다. 마찬가지로 분포가 얼마나 균일한지에 대한 메트릭이있는 경우 (표준 편차가 0에 가까울까요?) 분산이 높은 분포를 구별하는 데 사용할 수 있습니다. 그러나 내 데이터에는 위의 c 예와 같이 하나 또는 두 개의 특이 치가있을 수 있으며 그 방법으로 쉽게 감지 할 수 있는지 확실하지 않습니다.

소프트웨어에서 이것을하기 위해 무언가를 해킹 할 수는 있지만 이것을 공식적으로 정당화하기위한 통계적 방법 / 접근법을 찾고 있습니다. 나는 몇 년 전에 수업을 들었지만 통계는 내 영역이 아닙니다. 이것은 잘 알려진 접근법이 필요한 것 같습니다. 이 중 하나라도 완전히 머리가 아프면 죄송합니다. 미리 감사드립니다!

— JJC
소스

관련 : stats.stackexchange.com/questions/66186/…

— kjetil b halvorsen

18

빈도뿐만 아니라 실제 개수가있는 경우 각 데이터 계열에 대해 적합도 검정 을 사용할 수 있습니다 . 특히, 이산 균일 분포에 대한 검정 을 사용하려고합니다 . 이것은 좋은 테스트를 제공 하여 균일 분포에 의해 생성되지 않았을 수도있는 데이터 계열을 파악할 수는 있지만 균일 성의 척도는 제공하지 않습니다. $\chi^2$

각 계열 의 엔트로피 계산과 같은 다른 가능한 방법이 있습니다 . 균일 분포는 엔트로피를 최대화하므로 엔트로피가 의심스럽지 않으면 균일 분포가 없다고 결론 내릴 수 있습니다. 그것은 어떤 의미에서 균일 성의 척도로 작용합니다.

또 다른 제안은 두 분포의 유사성을 측정하는 Kullback-Leibler 분기 와 같은 척도를 사용하는 것 입니다.

— MånsT
소스

답장과 관련하여 몇 가지 질문이 있습니다. 1. 왜 카이-제곱이 균일 성을 측정하지 않는다고 말합니까? 균일 분포에 대한 적합 검정이 균일 성의 척도가 아닙니까? 2. 언제 카이 제곱 또는 엔트로피를 사용해야하는지 어떻게 알 수 있습니까?

— kanzen_master 5

@kanzen_master : 카이 제곱 통계량은 균일 성의 척도로 볼 수 있지만 수렴 부족, 임의로 배치 된 빈에 의존, 셀의 예상 카운트 수가 필요한 몇 가지 단점이 있습니다. 사용하기위한 측정 / 테스트는 맛의 문제이며, 엔트로피도 문제가없는 것은 아니다 (특히, 분포의 엔트로피에 대한 많은 다른 추정기가 존재한다). 나에게 엔트로피는 덜 자의적인 척도처럼 보이고 해석하기가 더 쉽습니다.

— MånsT

8

@MansT의 좋은 아이디어 외에도 다른 조치를 취할 수 있지만 "비 균일 성"의 의미에 따라 다릅니다. 간단하게하기 위해 4 단계를 살펴 보자. 완벽한 균일 성은 쉽게 정의 할 수 있습니다.

25 25 25 25

그러나 다음 중 더 불균일 한 것은 무엇입니까?

20 20 30 30 또는 20 20 25 35

아니면 똑같이 불균일합니까?

이들이 균일하지 않다고 생각되면 정규 편차의 절대 값의 합을 가능한 최대로 스케일링하여 측정 할 수 있습니다. 그런 다음 첫 번째는 5 + 5 + 5 + 5 = 20이고 두 번째는 5 + 5 + 0 + 10 = 20입니다. 그러나 두 번째가 더 불균일하다고 생각하면 제곱 편차를 기반으로 무언가를 사용할 수 있습니다. 첫 번째는 25 + 25 + 25 + 25 = 100을 얻고 두 번째는 25 + 25 + 0 + 100 = 150을 얻습니다.

— 피터 플 로움-모니카 복원
소스

1

당신은 "균일하게 분포 된"을 "동등한"것으로 해석하는 것 같습니다, 피터. 그것이 OP의 의도인지 여부는 올릴만한 지적 포인트이지만 실제로 질문에 대한 의견으로 나타나야합니다.

— whuber

안녕 @ whuber 그것은 질문에서 그가 의미 한 것처럼 보였다. 다른 의미가 있습니까?

— 피터 플로 름-모니카 복원

2

"같음"수단 CDF는

에 대한

,

에 대해

"균일"이라 함 중에

에 대한

. 당신은 정의 표준 통계적 의미는 두 번째 반면 첫 번째 의미에서 "완벽한 균일 성을."

F (x) = 1

$F(x) = 1$

x \geq μ

$x\ge \mu$

F (x) = 0

$F(x) = 0$

x < μ

$x\lt \mu$

F (x) = (x - α) / θ

$F(x) = (x-\alpha)/\theta$

x \in [α, α + θ]

$x \in [\alpha, \alpha+\theta]$

— whuber

@ whuber, 그것은 나에게 첫 번째 것은 "uniform"의 원래 포스터가 의미하는 것에 더 가깝습니다. 다시 살펴보면 "균일 한"을 사용하여 "낮은 분산"을 의미하는 것 같습니다.

— 매크로

그저 매크로입니다. 실제로 말할 수는 없습니다. 이 질문에 대한 답을 얻으려면 설명이 필요합니다 (IMHO). 대답은 표준 통계적 의미에서 OP가 "균일 한"을 사용했음을 나타냅니다.

— whuber

6

다음은 간단한 휴리스틱은 : 만약 어떤 벡터 합 요소를 가정하면 (또는 단순히 평준화 합계와 각 요소는이를 달성하기 위해)하고 균일 내지 L2 놈에 의해 표현 될 수있다 $1$ 는이며는 벡터의 치수입니다. $\frac{1}{\sqrt d}$ $1$ $d$

하한 는 균일 성 및핫 벡터에 대한 상한에 상응한다. $\frac{1}{\sqrt d}$ $1$

이것을 과 사이의 점수로 조정하려면 사용할 수 있습니다 $0$ $1$ 이고, 여기서은 L2 규범입니다. $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

단순화를 위해 요소를 합한 치수와 동일한 치수를 가진 모든 벡터를 사용하여 수정 한 예 : $1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

다음은 얻을 것 , 및 행에 대한 : $0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

— 사용자 495285
소스

1

잘 작동합니다. 그런데 왜 (또는 어떤 상황에서) 그것은 다른 선호한다

규범 또는이 스레드에서 제공되는 다른 솔루션에?

L_{p}

$L_p$

— whuber

@whuber 내가 모르고 이것에 대한 연구를 모른다. 기본적으로 이것은 OP의 이후에 맞는 휴리스틱으로 사용 된 것으로 실제로 선호되는 접근 방식이라고 주장하지는 않습니다.

— user495285

@ whuber-이론적으로 왜 이것이 잘 작동하는지 알아낼 수 있습니까? 나는 이것을 인용해야한다.

— Ketan

@ user495285-이것은 주파수뿐만 아니라 값으로 직접 작동하는 것 같습니다. 경험상 주파수와 함께 사용하는 것이 좋거나 벡터에서 직접 사용하는 것이 좋습니다.

— Ketan

@Ketan 휴리스틱하고 이론적으로 지원되지 않기 때문에이 게시물을 인용하지 말 것을 권합니다. (샘플링 변동에 대한 고려에 의존하지 않기 때문에 추가 분석 없이는 그것이 좋은지 여부를 알 수있는 방법이 없습니다.) 그러나

규범은 간단한 대수적 연관성을 갖습니다.

에 사용 통계량 적합 시험의 장점은 : 하다는 이유는 불균일을 측정하는 것이 적합 할 수있다.

L_{2}

$L_2$

χ^{2}

$\chi^2$

— whuber

0

최근에 이것을 우연히 발견하고 내가 이해하는 한 @ user495285의 답변에 추가하기 위해 :

$\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

$L_2$ $p$

\frac{n \sqrt{d} - 1}{\sqrt{d} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

설명 된 공간의 각 위치 (치수)가 등가의 척도, 예를 들어 잠재적으로 동일한 분포의 모든 수로 측정 될 때 기하 측정의 유용성이 적용된다고 생각합니다. PCA / SVD와 같은 염기의 변화에 대한 동일한 가정은 아마도 여기서 비슷할 것입니다. 그러나 나는 다시 수학자가 아니므로 더 많은 정보를 공개 할 것입니다.

— lakinsm
소스

도움이 될 것 같습니다. 좀 더 잘 이해할 수 있도록 몇 가지 참조를 해 주시겠습니까? 나는 이것을 인용해야한다.

— Ketan

Lp 규범을 다루는 선형 대수 텍스트를 인용 할 수 있습니다. 이것은 기하학에서 매우 일반적인 주제입니다. N 차원 공간에서 두 점 사이의 거리를 계산하는 방법. 자신의 분야에 따라 인용하지 않아도 될 수도 있습니다.

— lakinsm