경계 데이터 세트에 대한 최대 변동 계수 값


17

표준 편차가 평균을 초과 할 수 있는지에 대한 최근의 질문 에 대한 토론 에서 한 질문이 잠깐 제기되었지만 완전히 대답하지는 않았습니다. 그래서 여기에 묻습니다.

대해 n 아닌 음수 의 집합을 고려하십시오. xi여기서 0xic 입니다 . 가 고유 할 필요는 없습니다 . 즉, 세트가 다중 세트 일 수 있습니다. 집합의 평균과 분산은 이고 표준 편차는 입니다. 숫자 집합이 아닙니다1inxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σx모집단의 표본으로 모집단 평균 또는 모집단 분산을 추정하지 않습니다. 문제는 다음과 같습니다.

간격 [0, c] 에서 의 모든 선택에 대한 변동 계수 인 의 최대 값은 얼마입니까?σxx¯xi[0,c]

\ frac {\ sigma_x} {\ bar {x}}에서 찾을 수있는 최대 값 σxx¯n1 이는 x_in1 에 값이 0 이고 나머지 (이상치) x_i 가 있을 때 달성됩니다. 값 c , \ bar {x} = \ frac {c} {n}, ~~ \ frac {1} {n} \ sum x_i ^ 2 = \ frac {c ^ 2} {n} \ Rightarrow \ sigma_x = \ sqrt {\ frac {c ^ 2} {n}-\ frac {c ^ 2} {n ^ 2}} = \ frac {c} {n} \ sqrt {n-1}. 그러나 이것은 전혀 c 에 의존하지 않으며 , 아마도 nc 모두에 의존하는 더 큰 값 이 달성 될 수 있는지 궁금합니다 .xi0xic

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
cnc

어떤 아이디어? 이 질문은 이전 통계 문헌에서 연구되었으므로 실제 결과가 아니라면 참고 문헌이 많이 인정 될 것입니다.


나는 그것이 당신이 가능한 가장 큰 가치에 대해 옳다고 생각하며, 또한 가 중요하지 않다는 것에 놀랐습니다 . 멋있는. c
Peter Flom-Monica Monica 복원

7
σ xc모든 값에 양의 상수 곱한 경우 가 변경되지 않으므로 는 결과에 영향을 미치지 않아야합니다 . kσxx¯k
Henry

답변:


15

기하학은 통찰력을 제공하고 고전적인 불평등은 엄격하게 접근하기 쉽습니다.

기하학적 솔루션

우리는에서 알고 최소 제곱의 형상 , 그 벡터의 정사영은 데이터x=(x1,x2,,xn)(1,1,,1)σxx ˉ x . Rnxiσx/ ˉ xx¯=(x¯,x¯,,x¯)x=(x1,x2,,xn) 상수 벡터 의해 생성 된 선형 부분 공간에 대한 및 는 (유클리드) 거리에 정비례합니다 사이 와 음이 아닌 구속 조건은 선형이며 거리는 볼록 함수입니다. 구속 조건에 의해 결정된 원뿔의 가장자리에서 극단 거리를 확보해야합니다. 이 원뿔은 의 긍정적 인 ortant입니다(1,1,,1)σxxx¯.Rn그리고 그 모서리는 좌표축이며, 중 하나를 제외한 모든 거리가 최대 거리에서 0이어야 한다는 것을 즉시 따릅니다 . 이러한 데이터 세트의 경우 직접 (간단한) 계산에는xiσx/x¯=n.

고전적 불평등을 이용하는 솔루션

σx/x¯ 는 그 단조 변환과 동시에 최적화됩니다. 이것에 비추어, 최대화하자

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

( 의 수식은 를 대수적으로 조작 하여 간단한 모양으로 만드는 단계 (왼쪽)를 기록 할 때까지 신비 수 있습니다.)σ x / ˉ xfσx/x¯

쉬운 방법은 Holder 's Iequality로 시작합니다 .

x12+x22++xn2(x1+x2++xn)max({xi}).

(이 간단한 맥락에서는 특별한 증거가 필요하지 않습니다. 각 항 한 요소를 최대 성분 . 분명히 제곱의 합은 줄어들지 않습니다. 일반적인 용어xi2=xi×ximax({xi})max({xi}) 은 부등식의 오른쪽을 나타냅니다.)

때문에 아닌 모두 (즉, 떠날 것이다xi0σx/x¯ 정의되지 않음), 합계의 제곱으로 나눈 값은 유효하며 동등한 불평등을 제공합니다.

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

분모는 분자 (분모의 항 중 하나 일뿐)보다 작을 수 없으므로, 오른쪽은 값으로 지배되며 , 중 하나를 제외한 모든 것이 과 같을 때만 달성됩니다 . 어떻게1xi0

σxx¯f1(1)=(1×(n1))nn1=n.

대체 접근법

때문에 음수이며 합계가 수 의 값 확률 분포를 결정 에 . 쓰기 의 합에 대한 , 우리는 인식xi0p(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

확률이 을 초과 할 수 없다는 공리 학적 사실은 이 기대치가 초과 할 수 없다는 것을 의미 하지만, 중 하나를 모두 으로 설정하고 중 정확히 하나 를 으로 설정 하면 과 같게 만드는 것은 쉽습니다 . 위의 기하학적 솔루션의 마지막 줄에서와 같이 변동 계수를 계산하십시오.111pi0xi


내가 많이 배운 자세한 답변에 감사드립니다! 나는 사이의 차이 가정 당신의 대답과 내가 얻은 (헨리가 확인 된) 것으로 인해 사용중인 사실입니다 를 의 정의로 사용하고nn1
σx=1n1i=1n(xix¯)2
σx
σx=1ni=1n(xix¯)2?
Dilip Sarwate

1
네, Dilip, 맞습니다. 질문과의 불일치에 대해 죄송합니다. 먼저 확인해야하고 ( 정의 했지만 잊어 버렸습니다)를 정의해야합니다 . σx
whuber

10

다른 사람들의 케이크에 작은 양초로 언급 된 것들 :

Katsnelson과 Kotz (1957)는 모든 이면 변동 계수가 초과 할 수 없음을 증명했습니다.xi0n1 . 이 결과는 Longley (1952)에 의해 이전에 언급되었습니다. Cramér (1946, p.357)는 덜 예리한 결과를 보였고 Kirby (1974)는 덜 일반적인 결과를 보였습니다.

Cramér, H. 1946. 통계의 수학적 방법 . 프린스턴, 뉴저지 : 프린스턴 대학 출판부.

Katsnelson, J. 및 S. Kotz. 1957. 일부 변동성 측정의 상한. 지질학 및 생물 생물계 보관소 , 시리즈 B 8 : 103-107.

Kirby, W. 1974 년. 표본 통계의 대수 경계. 수자원 연구 10 : 220–222.

Longley, RW 1952 년. 강수량 변동성의 척도. 월별 날씨 검토 80 : 111–117.

나는이 논문을 보았습니다.

Cox, NJ 2010. 샘플 왜도 및 첨도의 한계. 스타 타 저널 10 : 482-495.

모멘트 기반 왜도 및 첨도에 대해 광범위하게 유사한 범위를 설명합니다.


8

두 개의 숫자 , 일부 및 :xixjδ>0μ

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

음 이 아닌 데이터 포인트에 이것을 적용하면 숫자 중 하나를 제외한 모든 숫자가 0이 아니고 더 이상 줄어들 수 없으면 데이터 쌍 쌍 사이의 간격을 넓혀 분산과 표준 편차를 증가시킬 수 있습니다. 동일한 평균을 유지하면서 변동 계수를 증가시킵니다. 따라서 데이터 세트의 최대 변동 계수는 입니다.nnn1

c모든 값에 양의 상수 곱한 경우 가 변경되지 않으므로 는 결과에 영향을 미치지 않아야합니다 (내 의견에서 언급했듯이).σxx¯k

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.