뉴스를 보았을 때 대통령 선거와 같은 것들에 대한 갤럽 여론 조사에서 표본 크기가 1,000 개가 넘는 것으로 나타났습니다. 내가 대학 통계에서 기억하는 것으로부터 표본 크기 30은 "상당히 큰"표본이라는 것이 었습니다. 반품 감소로 인해 30을 초과하는 샘플 크기는 의미가없는 것으로 보입니다.
뉴스를 보았을 때 대통령 선거와 같은 것들에 대한 갤럽 여론 조사에서 표본 크기가 1,000 개가 넘는 것으로 나타났습니다. 내가 대학 통계에서 기억하는 것으로부터 표본 크기 30은 "상당히 큰"표본이라는 것이 었습니다. 반품 감소로 인해 30을 초과하는 샘플 크기는 의미가없는 것으로 보입니다.
답변:
Wayne은 "30"문제를 충분히 해결했습니다 (제 자신의 경험 법칙 : 통계와 관련하여 숫자 30에 대한 언급은 잘못된 것 같습니다).
1000 근방의 숫자가 자주 사용되는 이유
주변 1000-2000의 숫자는 종종 심지어 간단한 비율의 경우, 설문 조사에 사용됩니다 ( " 당신의 찬성 무엇 ?").
이것은 비율의 합리적으로 정확한 추정치가 얻어 지도록 수행됩니다.
이항 표본 추출을 가정하면, 비율이 때 표본 비율의 표준 오차 *가 가장 크지 만, 그 상한은 여전히 약 25 %와 75 % 사이의 비율에 대한 아주 좋은 근사치입니다.
* "표준 오차"= "분포의 표준 편차"
일반적인 목표는 백분율을 실제 백분율의 약 , 시간의 약 이내로 추정 하는 것입니다. 이 를 ' 오류 한계 '라고합니다 .
이항 샘플링에서 '최악의 경우'표준 오류로 인해
또는 '1000보다 조금 더'.
따라서 추론하고자하는 모집단에서 무작위로 1000 명을 조사하고 표본의 58 %가 제안을 뒷받침하면 모집단 비율이 55 %와 61 % 사이에 있다고 확신 할 수 있습니다.
(때로는 2.5 %와 같은 오차 한계에 대한 다른 값이 사용될 수 있습니다. 오차 한계를 절반으로 줄이면 표본 크기가 4의 배수로 증가합니다.)
일부 하위 집단의 비율에 대한 정확한 추정치가 필요한 복잡한 설문 조사 (예 : 제안에 찬성하여 텍사스 출신 흑인 대학 졸업자의 비율)의 수는 그 하위 그룹의 크기가 수백 명에이를 정도로 충분히 클 수 있습니다. 총 수만 개의 응답이 수반됩니다.
그것이 비현실적으로 될 수 있기 때문에, 인구를 소집단 (strata)으로 나누고 각각을 개별적으로 샘플링하는 것이 일반적입니다. 그럼에도 불구하고 매우 큰 설문 조사로 끝날 수 있습니다.
반품 감소로 인해 30을 초과하는 샘플 크기는 의미가없는 것으로 보입니다.
효과 크기와 상대 변동성에 따라 다릅니다. 분산에 대한 효과는 일부 상황에서 상당히 큰 표본이 필요할 수 있음을 의미합니다.
나는 매우 큰 샘플 크기 (정확한 것을 기억하면 백만 근처)를 다루는 질문 (엔지니어의 생각)에 대답했지만 그는 매우 작은 효과를 찾고있었습니다.
표본 크기가 30 인 랜덤 표본이 표본 비율을 추정 할 때 어떤 점을 남겼는지 살펴 보겠습니다.
우리가 30 명의 사람들에게 연방 정부 주소의 전체 승인 여부를 강하게 동의한다고 상상해보십시오 (강하게 동의, 동의, 반대, 반대) 또한 관심은 동의하거나 크게 동의하는 비율에 있다고 생각하십시오.
인터뷰 대상자 중 11 명은 동의했고 5 명은 총 16 명이라고 강력하게 동의했다고합니다.
16/30은 약 53 %입니다. 모집단 비율에 대한 우리의 한계는 무엇입니까 (95 % 간격으로)?
우리의 가정에 따르면 인구 비율을 35 %에서 71 % 사이 (대략)로 고정 할 수 있습니다.
그다지 유용하지는 않습니다.
이 특별한 경험 법칙에 따르면 데이터가 정상적으로 분포되어 있다고 가정하기에 30 개의 점만으로 충분하지만 (거울 종 모양처럼 보임) 이는 대략적인 지침입니다. 이것이 중요한 경우 데이터를 확인하십시오! 이는 분석이 이러한 가정에 의존하는 경우 여론 조사에 대해 최소 30 명의 응답자가 필요하지만 다른 요인도 있다고 제안합니다.
한 가지 주요 요인은 "효과 크기"입니다. 대부분의 레이스는 상당히 가까운 경향이 있으므로 이러한 차이를 확실하게 감지하려면 상당히 큰 샘플이 필요합니다. "올바른"표본 크기를 결정하려면 전력 분석을 조사해야합니다 . 약 50:50 인 Bernoulli 랜덤 변수 (두 가지 결과가있는 것)가있는 경우 표준 오차를 1.5 %로 낮추려면 약 1000 번의 시행이 필요합니다. 그것은 아마도 인종의 결과를 예측하기에 충분히 정확할 것입니다 (마지막 미국 대통령 선거 4 회 평균 ~ 3.2 %의 마진을 가졌음).
여론 조사 데이터는 종종 다른 방법으로 분리되고 절단됩니다. 또는 무엇이든. 각 응답자가 이러한 범주 중 일부에만 적합하기 때문에 더 큰 표본이 필요합니다.
대통령 여론 조사는 때때로 다른 설문 조사 질문 (예 : 의회 인종)과 "번들"으로 묶여 있습니다. 이들은 상태에 따라 다르기 때문에 일부 "추가"폴링 데이터로 끝납니다.
베르누이 분포의 분산은 이므로 평균의 표준 오차는 입니다. 플러그인 (선거 비긴), 1.5 % (0.015)로 표준 오차로 설정하고 해결한다. 1.5 % SE에 도달하려면 1,111 명의 피험자가 필요합니다 p=0.5
이이 질문에 대한 몇 가지 훌륭한 대답은 이미,하지만 난 대답 할 이유는 우리가 사용하는 이유, 표준 오류가 무엇인지입니다 최악의 경우 등을하는 방법과 표준 오차에 따라 변화 없음 .
유권자 한 명만 투표하고 유권자 1에게 전화하여 "보라색 정당에 투표 하시겠습니까?"라고 가정합니다. "예"는 1, "아니오"는 0으로 답을 코딩 할 수 있습니다. "예"의 확률이 라고 가정 해 봅시다 . 이제 확률이 p 인 1 이고 확률이 1 - p 인 0 인 이진 랜덤 변수 X 1 이 있습니다. 우리는 X 1 이 성공 확률 p를 갖는 Bernouilli 변수 라고 말하며 , X 1 ~ B e r n o u i l l i ( p )를 쓸 수 있습니다. 예상 또는 평균, 값 주어진다 E ( X 1 ) = Σ (X) P ( X 1 = X ) 우리가 위에 합 가능한 모든 결과는 X 의 X 1 . 오직 두 가지 결과, 확률 0 거기 1 - P 의 확률로 1 p는 합계 막 그래서, E ( X 1 ) = 0 ( 1 - P ) + 1 ( P ) . 멈추고 생각하십시오. 이는 실제로 정당한 것으로 보입니다. 유권자 1이 퍼플 파티를 지원할 확률이 30 % 일 경우 변수가 "예"이면 1, "아니오"이면 0으로 코딩 한 경우 X 1 은 평균 0.3이 될것으로 예상합니다.
제곱이 어떻게되는지 생각해 봅시다 . 만약 X 1 = 0 다음 X 2 1 = 0 그리고 만약 X 1 = 1 다음 X (2) (1) = 1 . 따라서 실제로 어느 경우 든 X 2 1 = X 1 입니다. 그것들이 동일하기 때문에 그들은 동일한 기대 값을 가져야하므로 E ( X 2 1 ) = p 입니다. 이것은 나에게 베르누이 변수의 분산을 계산하는 쉬운 방법을 제공합니다 : 내가 사용하는 V의 을 표준 편차는 σ X 1 = √ .
분명히 다른 유권자와 대화하고 싶습니다. 유권자 2, 유권자 3을 통해 유권자 . 하자가 모두 동일한 확률이 가정 P 퍼플 파티를 지원합니다. 이제이 N 베르누이 변수, X 1 , X 2 행 내지 X n은 각각, X I ~ B의 전자 R N O를 U는 L L I ( P ) 에 대한 전 1 내지 N . 그것들은 모두 같은 평균 p 와 분산 p ( .
내 샘플에서 얼마나 많은 사람들이 "예"라고 말하고 모든 추가 할 수 있습니다 . 나는 X = ∑ n i = 1 X i 라고 쓸 것이다 . 기대치가 존재하는 경우 E ( X + Y ) = E ( X ) + E ( Y ) 규칙을 사용하여 X 의 평균 또는 예상 값을 계산하고 E ( X 1 + X 2 + … + 엑스 . 그러나 나는그 기대치를 n 더하고각각은 p 이므로 총 E ( X ) = n p 입니다. 멈추고 생각하십시오. 내가 200 명을 조사하고 각각 30 %의 확률로 그들이 자주색 당을지지한다고 말할 때, 물론 0.3 x 200 = 60 명이 "예"라고 말할 것입니다. 따라서 n p 수식이 올바르게 보입니다. 덜 "명백한"것은 분산을 처리하는 방법입니다.
이 있다 라는 규칙 하지만 내가 할 수있는 내 임의의 변수가 서로 독립적 인 경우 에만 사용하십시오 . 자, 그 가정을 해봅시다. 그리고 V를 볼 수 있기 전과 비슷한 논리로
원래 문제는 샘플에서 를 추정하는 방법이었습니다 . 우리의 추정을 정의하는 합리적인 방법은 P = X / N . 예를 들어, 200 명 중 64 명 중 "예"라고 말한 결과, 64/200 = 0.32 = 32 %의 사람들이 자주색 당을지지한다고 답했습니다. 당신이 볼 수있는 페이지가 예 - 유권자의 우리의 총 수의 "축소 된"버전입니다 X . 이는 변수가 여전히 임의 변수이지만 더 이상 이항 분포를 따르지 않음을 의미합니다. 상수 변수 k 로 랜덤 변수를 스케일링 할 때 다음 규칙을 준수 하기 때문에 평균과 분산을 찾을 수 있습니다 . E ( k X ) (따라서 평균은 동일한 인자 k에 의해 스케일링 됨) 및 V a r ( k X ) = k 2 V a r ( X ) . 분산이 k 2로 어떻게 스케일되는지 확인하십시오. 일반적으로 분산은 변수가 측정되는 모든 단위의 제곱으로 측정됩니다. 여기에 적용 할 수 없지만 임의의 변수의 높이가 cm 인 경우 분산은 c m입니다. 2 당신이 경우 이중 길이, 당신 배 영역 - 다르게 확장 할 수 있습니다.
여기서 스케일 팩터는 . 이것은 우리 준다E( P )=1. 대단해! 평균적으로, 우리의 추정의 p는 이 될 "해야한다"임의의 유권자들이 퍼플 파티 투표 것이라고 말한다 진정한 (또는 집단) 확률 정확히이다. 우리는 견적자가편견이 없다고 말합니다. 그러나 평균적으로는 정확하지만 때로는 너무 작고 때로는 너무 높습니다. 그 차이를 살펴보면 그것이 얼마나 잘못되었는지 알 수 있습니다. VR( P )=1 . 표준 편차는 제곱근,√입니다. , 그것은 우리의 이해를 제공하기 때문에 우리의 추정은 효율적이다 (오프 얼마나 심하게루트 평균 제곱 오차, 평균 오차를 계산하는 방법이 평균화하기 전에를 제곱하여 긍정적 인 치료와 똑같이 나쁜 부정적인 오류, ), 일반적으로표준 오류라고합니다. 큰 표본에 대해 잘 작동하고 유명한Central Limit Theorem을사용하여보다 엄격하게 처리 할 수있는 좋은 경험법칙은 대부분의 시간 (약 95 %)이 두 가지 표준 오차 미만으로 잘못 될 것이라는 것입니다.
분수의 분모에 나타나기 때문에 클수록 표본이 클수록 표준 오차가 더 작아집니다. 작은 표준 오류를 원할 때 샘플 크기를 충분히 크게 만드는 것처럼 좋은 소식입니다. 나쁜 소식은 n 이 제곱근 안에 있다는 것이므로 표본 크기를 4 배로 늘리면 표준 오차 만 절반으로 줄입니다. 매우 작은 표준 오차에는 매우 큰 샘플이 포함됩니다. 또 다른 문제가 있습니다. 특정 표준 오류를 타겟팅하려면 1 %를 말하면 계산에 사용할 p의 값을 알아야합니다 . 과거 폴링 데이터가있는 경우 역사적인 값을 사용할 수 있지만 최악의 경우에 대비하고 싶습니다. p의 어느 값가장 문제가 있습니까? 그래프는 유익합니다.
때 최악의 (가장 높은) 표준 오류가 발생합니다 . 내가 미적분학을 사용할 수 있음을 증명하기 위해 " 사각을 완성하는 "방법을 알고있는 한 일부 고등학교 대수학이 트릭을 수행 할 것입니다 .
표현식은 대괄호가 제곱 된 것이므로 항상 0 또는 양수의 대답을 반환 한 다음 1/4에서 빼냅니다. 최악의 경우 (큰 표준 오류) 가능한 적은 제거됩니다. 빼기 가능한 최소값이 0이라는 것을 알고 있으며 p - 1 일 때 발생합니다.이므로p=1 인 경우 . 이것의 결과는 투표권의 50 % 가까이에있는 정당에 대한지지를 추정하려고 할 때 더 큰 표준 오류가 발생하고, 그보다 실질적으로 또는 훨씬 덜 인기있는 제안에 대한지지를 추정 할 때 표준 오류가 낮아진다는 것입니다. 사실 내 그래프와 방정식의 대칭은 퍼플 파티에 대한지지 추정치에 대해 30 %의 대중적인지지 또는 70 %의 표준 오차와 동일한 표준 오차를 얻을 수 있음을 보여줍니다.
그렇다면 표준 오류를 1 % 미만으로 유지하기 위해 얼마나 많은 사람들이 설문 조사를해야합니까? 이것은 대부분의 시간에 나의 추정치가 정확한 비율의 2 % 이내임을 의미합니다. 이제 최악의 표준 오류는 √ 라는 것을 알고 있습니다.되어√및n>2500. 그것은 왜 수천 명의 사람들이 설문 조사 결과를 보는지를 설명해 줄 것입니다.
실제로 낮은 표준 오차는 좋은 추정치를 보장하지 않습니다. 폴링의 많은 문제는 이론적 인 성격보다는 실제적인 문제입니다. 예를 들어, 표본이 각각 확률이 인 랜덤 유권자 인 것으로 가정 했지만 실제에서 "무작위"표본을 채취하는 것은 어려운 일입니다. 전화 나 온라인 폴링을 시도 할 수 있습니다. 모든 사람이 전화 나 인터넷에 접속할 수있을뿐만 아니라 인구 통계와 투표 의도가 다른 사람들과는 다릅니다. 결과에 대한 편견을 피하기 위해 폴링 회사는 실제로 단순한 평균이 아닌 모든 종류의 샘플에 대해 복잡한 가중치를 수행합니다. ∑ X i내가 가져간 n . 또한 사람들은 여론 조사자에게 거짓말을합니다! 여론 조사자들이이 가능성을 보상 한 다른 방법은 논란의 여지가 있습니다. 폴링 회사가영국의소위토리 토리 팩터 (Shy Tory Factor)를처리 한 방법에 대한 다양한 접근 방식을 볼 수 있습니다. 보정 한 가지 방법은 사람들이 자신의 주장의 투표 의도가 얼마나 그럴듯하게 판단하기 위해 과거에 투표 방법을 찾고 관여하지만 그것은 그들이 거짓말을하지 않을 경우에도 밝혀많은 유권자들이 단순히 선거 역사를 기억하지. 이 작업을 진행하면 "표준 오류"를 0.00001 %로 낮추는 것이 거의 중요하지 않습니다.
끝으로, 간단한 분석에 따라 필요한 샘플 크기가 원하는 표준 오차의 영향을받는 방법과 의 "최악의 경우"값 이보다 적절한 비율에 비해 얼마나 나쁜지를 보여주는 몇 가지 그래프가 있습니다. p = 0.7 의 곡선 은 √ 의 초기 그래프의 대칭으로 인해 p = 0.3 의 곡선 과 동일합니다.
"적어도 30"규칙은 Cross Validated에 대한 다른 게시물 에서 다룹니다 . 기껏해야 규칙입니다.
수백만 명의 사람들을 대표 할 것으로 생각되는 표본을 생각하면 30 명보다 훨씬 더 큰 표본을 가져야합니다. 직관적으로 30 명은 각 주에서 한 사람을 포함 할 수도 없습니다! 그런 다음 공화당, 민주당 및 독립국 (적어도)을 대표하고 각 연령대와 연령대가 각각 다른 소득 카테고리를 나타내려고한다고 생각하십시오.
30 명만 전화하면 샘플링해야 할 인구 통계의 막대한 부분을 놓치게됩니다.
EDIT2 : [abaumann과 StasK가 반대 한 단락을 제거했습니다. 나는 여전히 100 % 설득력이 없지만, 특히 동의하지 않는 StasK의 주장에 동의합니다.] 30 명을 모든 유권자 중에서 무작위로 완전히 선발한다면, 표본은 어떤 의미에서는 유효하지만, 너무 작습니다. 귀하의 질문에 대한 답변이 실제로 참인지 거짓인지 (유자격 유권자 중에서) 구분할 수 있습니다. StasK는 아래 세 번째 의견에서 그것이 얼마나 나쁜지를 설명합니다.
편집 : samplesize999의 의견에 대한 답으로, 여기에 설명 된 " 전력 분석 " 이라고하는 충분히 큰 크기를 결정하는 공식적인 방법 이 있습니다 . abaumann의 의견은 차이점을 구별하는 능력과 일정량의 개선에 필요한 데이터의 양 사이에 어떻게 상충 관계가 있는지를 보여줍니다. 그가 알 수 있듯이 계산에는 제곱근이 있습니다. 즉, 이익 (증가 된 힘으로)이 점점 느리게 증가하거나 비용 (필요한 더 많은 샘플 수로)이 점점 빠르게 증가하므로 원하는 것을 의미합니다 충분한 샘플이지만 더 많지는 않습니다.