동일한 평균, 다른 분산


14

8 명의 러너가 레이스를한다고 가정 해 봅시다. 개별 실행 시간의 분포는 보통이며 각각 평균 11 초입니다. 러너 1의 표준 편차는 가장 작고, 두 번째는 가장 작고, 세 번째는 가장 작으며, 8은 가장 큽니다. 두 가지 질문이 혼란 스럽습니다. (1) 첫 번째가 마지막을 이길 확률은 얼마입니까? (2) 누가 레이스에서 이길 가능성이 가장 높은가요?

내 대답은 1/28 각각. 그들은 확률 동일한 의미를 공유하기 때문에 그 x¯1x¯8<0 그냥 1/2 아니오? 두 번째 부분을 엄격하게 설명하고 정확한 우승 확률을 계산할 수 있습니까? 미리 감사드립니다.


1
@Silverfish 첫 번째 (임의 변수 로 모델링 됨 )를 마지막 ( X 1과 독립적으로 가정 된 X n ) 과 비교할 때 Z = X 1 - X n 만 고려하면됩니다 . 평균이 0 인 대칭 연속 분포가 있습니다. 첫번째 비트가 마지막으로 그 확률이라는 확률 Z < 0 (대칭 및 연속성에 의해 같음), 1 / 2 항에있어서,가. 마지막으로 레이스에서 우승 할 가능성이 더 높지만 역설은 없습니다. 대부분의 경우 첫 비트가 마지막 인 경우 다른 누군가 가 실제로 레이스에서 승리합니다.X1XnX1Z=X1XnZ<01/2
whuber

1
@ whuber 감사합니다. 제가 의미하는 바를 깨뜨 렸습니다. 혼란을 막기 위해 제거하겠습니다. 1/2의 수치는 정확하지만 평균 시간 를 비교하는 답 은 정확하지 않으며 인구 평균과 혼동을 불러 일으키는 것 같습니다. 글을 쓰면서 X i 의 차이가되어야합니다 . xi¯Xi
Silverfish

@Silver 이것은 친숙해 보이기 때문에 누군가의 표기법이 무엇을 의미하는지 항상 알고 있다고 가정 할 때의 위험을 강조합니다. 나는 (overlines가 "에 나오는와 그 문제를 통해 호도 "과 " X 8 의도 된 의미는 분명 충분했기 때문에")와 어느 쪽도 그 가능성이 아무것도의 평균을 나타낼 수 없다고 암시 :이 상황에서 그들이 가지고 방치 임의 변수 자체 ( X 1X n을 썼습니다 ). x1x8X1Xn
whuber

답변:


15

정확한 확률을 계산할 수는 없지만 ( 특수 상황 제외 ), 높은 정확도로 신속하게 수치 적으로 계산할 수 있습니다. 이러한 한계에도 불구하고, 표준 편차가 가장 큰 러너가 승리 할 가능성이 가장 높다는 것을 엄격하게 증명할 수 있습니다. 그림은 상황을 묘사하고이 결과가 직관적으로 명백한 이유를 보여줍니다.n2

그림

5 명의 러너 시점의 확률 밀도가 표시됩니다. 모두 공통 평균 μ에 대해 연속적이고 대칭입니다.μ 입니다. (확대 된 베타 밀도는 모든 시간이 양의 값을 갖도록하기 위해 사용되었습니다.) 진한 파란색으로 그려진 하나의 밀도는 훨씬 더 넓습니다. 왼쪽 꼬리의 보이는 부분은 다른 러너가 일반적으로 일치 할 수없는 시간을 나타냅니다. 상대적으로 넓은 면적을 가진 왼쪽 꼬리가 상당한 확률을 나타 내기 때문에이 밀도를 가진 러너는 레이스에서 이길 확률이 가장 높습니다. (그들은 또한 마지막에 올 확률이 가장 높습니다!)

이 결과는 정규 분포 이상의 것에서 입증됩니다. 여기에 제시된 방법은 대칭 분포에 동일하게 적용됩니다. 적이고 연속적인 . (이것은 정규 분포를 사용하여 실행 시간을 모델링하는 것에 반대하는 모든 사람에게 관심이있을 것입니다.) 이러한 가정이 위반 될 때 표준 편차가 가장 큰 러너가 이길 가능성이 가장 높지 않을 수 있습니다 ( SD가 충분히 큰 러너가 승리 할 가능성이 가장 높다는 가정은 여전히 ​​온화합니다.

이 그림은 또한 한쪽 편에 대한 분포의 분산을 측정하는 표준 편차 (일명 "반 분산")의 일측 아날로그를 고려하여 동일한 결과를 얻을 수 있음을 나타냅니다. 왼쪽으로 (더 나은 시간을 향해) 큰 분산을 가진 러너는 나머지 배포에서 일어나는 일에 관계없이 승리 할 가능성이 더 높아야합니다. 이러한 고려 사항은 그룹에서 최고가되는 속성이 평균과 같은 다른 속성과 어떻게 다른지 이해하는 데 도움이됩니다 .


은 러너 시간을 나타내는 임의의 변수라고 하자 . 문제는 그것들이 독립적이며 공통 평균 μ로 정규 분포되어 있다고 가정합니다 . (이것은 말 그대로 불가능한 모델이지만, 음의 시간에 긍정적 인 확률을 제시하기 때문에 표준 편차가 μ 보다 실질적으로 작 으면 현실에 대한 합리적인 근사치 일 수 있습니다 .)X1,,Xnμμ

다음의 주장을 수행하기 위해 독립의 가정을 유지하고 그렇지 않으면 X 의 분포를 가정하십시오. 주어진다 F 난을 이러한 분배 법이 될 수 있다는아무것도. 편의상, 분포 F n 이 밀도 f n 과 연속적이라고 가정하자. 나중에 필요에 따라 정규 분포의 경우를 포함한 추가 가정을 적용 할 수 있습니다.XiFiFnfn

어떠한 것도 및 무한소 차원 Y 마지막 러너 간격의 시간을 가지고있는 가능성 ( Y - D , Y , Y를 ]ydy(ydy,y] 가장 빠른 러너 (항상 독립적이기 때문에) 모든 관련 확률을 곱한이다 :

Pr(Xn(ydy,y],X1>y,,Xn1>y)=fn(y)dy(1F1(y))(1Fn1(y)).

상호 배타적 인 가능성을 모두 통합하면

Pr(Xnmin(X1,X2,,Xn1))=Rfn(y)(1F1(y))(1Fn1(y))dy.

정규 분포의 경우,이 적분은 닫힌 형태로 평가 될 수 없습니다 : 수치 평가가 필요합니다.n>2

Figure

이 그림은 1 : 2 : 3 : 4 : 5 비율의 표준 편차를 갖는 5 명의 러너 각각에 대해 정수를 나타냅니다. SD가 클수록 기능이 왼쪽으로 이동하고 영역이 커집니다. 면적은 약 8 : 14 : 21 : 26 : 31 %입니다. 특히 SD가 가장 큰 러너는 31 %의 확률로 승리합니다.


닫힌 양식을 찾을 수는 없지만 여전히 확실한 결론을 도출하고 SD가 가장 큰 러너가 이길 가능성이 가장 큽니다. 과 같은 분포 중 하나의 표준 편차가 변경 될 때 어떤 일이 발생하는지 연구해야합니다 . 랜덤 변수 때 X N은 로 재 스케일링된다 σ > 0 의 평균 주위의 SD가 곱해 σF N ( Y ) d는 Y가 변경됩니다 F N ( Y / σ ) (D)의 Y / σFnXnσ>0σfn(y)dyfn(y/σ)dy/σ. Making the change of variable y=xσ in the integral gives an expression for the chance of runner n winning, as a function of σ:

ϕ(σ)=Rfn(y)(1F1(yσ))(1Fn1(yσ))dy.

Suppose now that the medians of all n distributions are equal and that all the distributions are symmetric and continuous, with densities fi. (This certainly is the case under the conditions of the question, because a Normal median is its mean.) By a simple (locational) change of variable we may assume this common median is 0; the symmetry means fn(y)=fn(y) and 1Fj(y)=Fj(y) for all y. These relationships enable us to combine the integral over (,0] with the integral over (0,) to give

ϕ(σ)=0fn(y)(j=1n1(1Fj(yσ))+j=1n1Fj(yσ))dy.

The function ϕ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form

yfn(y)fi(yσ)(jin1Fj(yσ)jin1(1Fj(yσ)))

for i=1,2,,n1.

The assumptions we made about the distributions were designed to assure that Fj(x)1Fj(x) for x0. Thus, since x=yσ0, each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors yfn(y)fi(yσ) are clearly nonnegative because densities cannot be negative and y0. We may conclude that ϕ(σ)0 for σ0, proving that the chance that player n wins increases with the standard deviation of Xn.

This is enough to prove that runner n will win provided the standard deviation of Xn is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the Xi are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to 1/n). Start by setting all distributions to that of runner n. Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that n wins cannot decrease, while the chances of all the other runners have decreased. Consequently, n has the greatest chances of winning, QED.


@Phonon 맞습니다. (그러나 분포를 표본에서 추출한 추정치와 혼동하지 마십시오. 분포는 데이터 세트가 아닌 수학적 모델입니다.)λ, say, uniformly stretches the horizontal axis. Because (by the Law of Total Probability) the density function will cover a unit area, that stretch must be compensated by a stretch of the vertical axis by 1/λ, thereby preserving all areas. Thus, smaller SDs correspond to taller peaks and larger SDs to shorter peaks.
whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.
Phonon
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.