주어진 n에 대한 비율의 표준 오차가 0.5에 대해 가장 큰 이유는 무엇입니까?


10

비율의 표준 오차는 해당 비율이 0.5 일 때 주어진 N에 대해 될 수있는 최대 값이되고, 비율이 0.5에서 멀어 질수록 작아집니다. 비율의 표준 오차에 대한 방정식을 볼 때 이것이 왜 그런지 알 수 있지만 더 이상 설명 할 수는 없습니다.

공식의 수학적 특성을 넘어서는 설명이 있습니까? 그렇다면 왜 0 또는 1에 가까워 질 때 추정 비율 (주어진 N에 대한)에 대한 불확실성이 더 적은가?

답변:


8

배경과 용어

우리가 논의하고있는 것을 완벽하게 명확하게하기 위해 몇 가지 개념과 용어를 설정해 봅시다. 비율에 대한 좋은 모델은 이진 항아리입니다. 여기에는은 ( "성공") 또는 자홍색 ( "실패") 색의 공이 들어 있습니다. 항아리에있는은 공의 비율은 (그러나 이것은 우리가 이야기 할 "비율"이 아닙니다). p

이 항아리는 베르누이 시험 을 모델링하는 방법을 제공합니다 . 하나의 실현 을 얻으려면 공을 철저히 혼합하고 맹목적으로 그 색을 관찰하여 그립니다. 추가 실현을 얻으려면 먼저 뽑은 공을 반환하여 상자를 재구성 한 다음 절차를 미리 결정된 횟수만큼 반복하십시오. 실현 시퀀스는 성공 횟수 로 요약 할 수 있습니다 . 과 의해 속성이 완전히 결정되는 랜덤 변수입니다 . 의 분포를 이항 분포라고합니다. (실험 또는 "샘플") 비율 은 비율nXnpX(n,p)X/n.

그림

이 그림은 다양한 이항 비율 대한 확률 분포의 막대 그래프입니다 . 가장 주목할만한 점은 관계없이 가 에서 아래로 이동할 때 분포가 더 좁아지고 그에 따라 막대가 높아지는 일관된 패턴 입니다.X/nnp1/2

의 표준 편차 는 문제에서 언급 한 비율표준 오차입니다 . 주어진 ,이 수량은 에만 의존 할 수 있습니다 . 이것을 라고합시다 . 공의 역할을 바꾸면 (실버는 "실패", 자홍색은 "성공"이라고 함) 있습니다. 따라서 , 즉 상황은 특별해야합니다. 문제 는 가 에서 과 같이 더 극단적 인 값으로 갈수록 가 어떻게 변하는 지에 관한 것입니다.X/nnpse(p)se(p)=se(1p)p=1pp=1/2se(p)p1/20.

지식 이해

모든 사람들이 교육 초기에 이와 같은 수치를 보았 기 때문에 모든 사람들이 로 측정 한 줄거리의 폭을 "알고" 가 에서 멀어짐에 따라 감소해야 합니다. 그러나 그 지식은 실제로 경험에 불과하지만 질문은 더 깊은 이해를 추구합니다. 이러한 이해는 300 년 전에 시작된 Abraham de Moivre와 같은 이항 분포에 대한 신중한 분석에서 얻을 수 있습니다. (그들은 중앙 한계 정리 에 대한 논의 에서 제시 한 것들과 정신적으로 유사했습니다 .) 그러나 나는 상대적으로 간단한 고려만으로도 너비가 근처에서 가장 넓어야한다는 점을 지적하기에 충분하다고 생각합니다 .se(p)p1/2p=1/2

간단한 직관적 분석

실험에서 성공의 비율이 가까울 것으로 예상해야합니다 . 표준 오차는 실제 결과 이 합리적이라고 가정 할 수있는 기대치로부터 얼마나 멀리 떨어져 있는지에 관한 것입니다. 것으로, 일반성의 손실없이, 가정하면 사이에 과 이 증가하는 것을 걸릴 것이다, 에서 ? 전형적으로, 실험에서 그려진 공의 주위 는은이었고 (따라서) 주위 는 자홍색이었습니다. 더 많은 실버 볼을 얻으려면 그 중 일부pX/np01/2X/nppn(1p)npn자홍색 결과는 달라야했습니다. 그 기회가 이런 식으로 작동 할 가능성은 얼마나됩니까? 명백한 대답은 가 작을 때 우리가 은색 공을 그릴 가능성이 거의 없다는 것입니다. 따라서 자홍색 대신 은색 공을 그릴 가능성은 항상 낮습니다. 운이 좋으면 자홍색 결과의 가 다를 수 있었으면 좋겠지 만, 그보다 더 많은 변화가 있었을 것 같지는 않습니다. 따라서 가 보다 크게 변하지 않을 가능성이 높습니다 . 마찬가지로, 은 보다 크게 변하지 않습니다 .ppXp×(1p)nX/np(1p)n/n=p(1p)

대단원

따라서 매직 조합 가 나타납니다. p(1p) 이것은 사실상 의문을 해결합니다. 분명히이 수량은 에서 최고점에 도달 하고 또는 에서 0으로 감소합니다 . 그것은 "하나의 극단적 인 것이 다른 것보다 더 제한적이다"는 주장이나 우리가 아는 것을 묘사하려는 다른 노력에 대한 직관적이지만 정량적 인 정당성을 제공한다.p=1/2p=0p=1

그러나 는 정확한 값이 아닙니다. 단지 의 확산을 추정하기 위해 어떤 양이 중요한지 알려줍니다 . 우리는 운이 또한 우리를 대적하는 경향이 있다는 사실을 무시했습니다. 자홍색 공 중 일부는 은색 일 있듯이 , 은색 공 중 일부는 자홍색 일 수 있습니다 . 모든 가능성을 엄밀히 설명하는 것은 복잡해질 수 있지만, 결론은 을 가 기대 에서 얼마나 벗어날 수 있는지에 대한 합리적인 제한으로 사용하는 대신 가능한 모든 결과를 올바르게 설명 한다는 것입니다. 제곱근을 취하려면p(1p)Xp(1p)nXpn p(1p)n. (이유에 대한 자세한 설명을 보려면 ( https://stats.stackexchange.com/a/3904 ) 를 방문 하십시오 . 나누면 비율 자체 의 임의 변형 이 이는 표준 오류 입니다.nX/np(1p)n/n=p(1p)n,X/n


3

0 <= p <= 1에 대해 함수 p (1-p)를 고려하십시오. 미적분을 사용하면 p = 1 / 2에서 최대 값 인 1/4임을 알 수 있습니다. 이 값이 sqrt (p (1-p) / n) 인 비율 추정치의 표준 편차와 관련된 이항에 대한 것이면 p = 1 / 2가 최대 값입니다. p = 1 또는 0 인 경우 표준 오류는 0입니다. 항상 각각 1 또는 모두 0을 얻을 수 있기 때문입니다. 따라서 0 또는 1에 가까워지면 연속성 인수에 따르면 p가 0 또는 1에 가까워 질수록 표준 오류가 0에 가까워집니다. 실제로 p가 0 또는 1에 가까워지면 단조롭게 감소합니다. 비율.


3
OP는 이미 비율의 표준 오차에 대한 방정식을 볼 때 이것이 왜 그런지 알 수 있다고 말했다. 따라서 나는 그것들이 공식 의 분석을 요구하는 것이 아니라, 공식이 무엇이든간에 왜 공식이 실제로 에서 최대화 되어야 하는지에 대한 더 깊은 이해를 요구 한다고 생각합니다 . p(1p)p=1/2
whuber

1
@ whuber 나는 수식이 p = 1/2에서 가장 큰 이유와 p가 0 또는 1에 가까울 때 매우 작은 이유를 이해하는 데 기본이된다는 것을 알기 때문에 내가 한 방식에 대답했습니다. 공식에 완전히없는 설명은 없습니다.
Michael R. Chernick

1

이항 분포 (대형 대해 대략 대칭이되는 경향이 그것은 인 대략 법선 ).n

비율은 0과 1 사이 여야하므로 불확실성은이 경계에 의해 제한됩니다. 평균 비율이 정확히 중간에 있지 않으면 이러한 경계 중 하나가 다른 범위보다 더 제한적입니다.

에 중심을 둔 대칭 단봉 종 곡선 이 단위 간격에 맞도록하려면 절반 너비가 보다 작아야합니다 . pmin[p,1p]


예. 그러나 다른 경계는 덜 제한적입니다! 두 효과가 왜 취소되지 않습니까?
whuber

@whuber 나는 대칭에서 논쟁하고 있었다 (즉, 간단한 "large "의 경우, 대칭 벨 커브는 간격에 맞아야하므로 절반 너비는 더 단단한면에 의해 제한됩니다. )nmin[p,1p]
GeoMatt22
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.