산술 평균이 기하 평균에 매우 가까운 경우 데이터에 대해 무엇을 결론 낼 수 있습니까?


24

~ 0.1 %와 같이 서로 매우 근접한 기하 평균과 산술 평균에 대해 중요한 것이 있습니까? 그러한 데이터 세트에 대해 어떤 추측을 할 수 있습니까?

나는 데이터 세트를 분석하려고 노력했으며, 아이러니하게도 값이 매우 가깝다는 것을 알았습니다. 정확하지는 않지만 가깝습니다. 또한 산술 평균 기하학 평균 불평등의 빠른 온 전성 검사와 데이터 수집 검토를 통해 값을 어떻게 구성했는지에 대한 내 데이터 세트의 무결성에 대해 비린 것은 아무것도 없다는 것이 밝혀졌습니다.


6
작은 메모 : 먼저 데이터가 모두 긍정적인지 확인하십시오. 짝수의 음수 값은 긍정적 인 제품으로 남을 수 있으며 일부 패키지는 잠재적 문제를 표시하지 않을 수 있습니다 (AM-GM 불평등은 값이 모두 양수 임). 예를 들어 (R)을 참조하십시오.x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (산술 평균이 1 인 동안)
Glen_b-복지국 Monica

1
@Glen_b의 점을 자세히 설명하기 위해 데이터 세트 항상 같은 산술 및 기하 평균, 즉 0입니다. 그러나 원하는만큼 세 값을 분산시킬 수 있습니다. {x,0,x}
hardmath

모두 산술 및 기하 평균이 동일한 일반적인 화학식을 가진, 전자를 제공하고 , P 0 후자주는. 그러면 데이터 값 x 가 점점 더 같고 상수에 가까워지면 두 개가 서로 점점 더 가까워진다는 것이 직관적으로 명확 해집니다 . p=1p0x
ttnphns 2016 년

답변:


29

산술 평균은 산술 평균-기하 평균 (AMGM) 불평등을 통한 기하학적 평균과 관련이 있습니다.

x1+x2++xnnx1x2xnn,

여기서 균등 함은 iff 입니다. 따라서 데이터 포인트가 서로 매우 가깝습니다.x1=x2==xn


4
맞습니다. 일반적으로 값의 분산이 작을수록 두 평균이 더 가깝습니다.
Michael M

16
분산은 관측치의 크기와 비교하여 작아야합니다. 따라서 작아야하는 변동 계수 입니다.σ/μ
Michael Hardy

1
AMGM은 무엇을 의미합니까? 그렇다면 철자를 쓰는 것이 좋을 것입니다.
Richard Hardy

@RichardHardy : AMGM은을 위해 '- 기하 평균 산술 평균'을 의미

1
@ user1108, 감사합니다. 실제로 다른 게시물을 읽은 후에 얻었습니다. 나는 단지 답변에서 (설명뿐만 아니라) 철자가 될 수 있다고 생각합니다.
Richard Hardy

15

@Alex R의 답을 자세히 설명하면 AMGM 불평등을 보는 한 가지 방법은 Jensen의 불평등 효과입니다. 으로 옌센 부등식 : 그런 다음 양변의 지수를 취합니다 : 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

오른쪽은 ( x 1x 2x n ) 1 / n = exp ( 1 이기 때문에 기하 평균입니다.(x1x2xn)1/n=exp(1nilogxi)

AMGM 불평등은 언제 거의 평등하게 유지됩니까? 젠슨의 불평등 효과가 작을 때. 젠슨의 불평등 효과를 이끄는 것은 요철, 로그의 곡률입니다. 대수가 곡률이있는 영역에 데이터가 분산되면 효과가 커집니다. 로그가 기본적으로 적합한 지역에 데이터가 분산되어 있으면 효과가 작습니다.

예를 들어, 데이터의 변동이 적고 충분히 작은 이웃에 모여 있으면 대수는 해당 지역의 아핀 함수처럼 보입니다 (미적분학의 주제는 부드럽고 연속적인 함수를 충분히 확대하면 그것은 선처럼 보일 것입니다). 데이터가 충분히 가까이있을 경우 데이터의 산술 평균은 기하 평균에 가깝습니다.


12

산술 평균 (AM)이 기하학적 평균 (GM) 의 작은 배수 1 + δ ( δ 0 ) 인 경우 의 범위를 조사해 봅시다 . 문제에서 δ 0.001 이지만 우리는 n을 모른다 .x1x2xn1+δδ0δ0.001n

Since the ratio of these means does not change when the units of measurement are changed, pick a unit for which the GM is 1. Thus, we seek to maximize xn subject to the constraint that x1+x2++xn=n(1+δ) and x1x2xn=1.

This will be done by making x1=x2==xn1=x, say, and xn=zx. Thus

n(1+δ)=x1++xn=(n1)x+z

and

1=x1x2xn=xn1z.

The solution x is a root between 0 and 1 of

(1n)xn+n(1+δ)xn11.

It is easily found iteratively. Here are the graphs of the optimal x and z as a function of δ for n=6,20,50,150, left to right:

Figure

As soon as n reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).

At the other extreme, suppose n=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x1 and the other half equal another value z1. Now the solution (which is easily checked) is

xk=1+δ±δ2+2δ.

For tiny δ, we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.


On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry

@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber

I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.