선거에서 후보자가 승자가 될 것이라는 확신을 어떻게 알 수 있습니까?


14

내가 어제 살았던 총선이 있었고, 텔레비전 네트워크는 모든 투표 용지가 열리기 오래 전에 승자를 부르기 시작했습니다.

그들은 모든 계좌에서 올바르게 밝혀졌으며, 그들이 그렇게 놀랐다는 것은 놀라운 일이 아닙니다. 나는 통계가 절대적으로 실행 가능하다는 것을 알고 있습니다. 그래도 궁금합니다. 가정 :

  • 우리는 j 투표 용지에서 i 를 열었습니다 .j
  • 현재 점수가 c 1 , c 2 , c 3 , 후보자 가 있습니다 . . . c n ;nc1,c2,c3,...cn

주요 후보자가 승자가되는 확실성을 어떻게 계산할 수 있습니까?


1
일반적으로 광범위한 종료 폴링 데이터 및 결과를 예측하는 데 사용할 수있는 기타 데이터에 액세스 할 수 있습니다. 샘플링 오류로 인해 마크에서 벗어나지 않도록 들어오는 카운트에서 충분한 확인 만 필요합니다. 분명히 복잡성이 수반되고 들어오는 수는 일반적으로 편향된 샘플이지만 출구 조사는 이러한 문제 중 일부를 해결하는 데 큰 도움이됩니다.
gung-Monica Monica 복원

1
"확실히"라는 말이 문자 그대로 사용된다면 통계는 (거의?) "확실히"라는 질문에 대답 할 수 없습니다. 그러나 우리는 그 대답이 정확할 것이라는 확신을 가지고 대답 할 수 있습니다. (즉, 우리가 데이터를 얻고 분석을 올바르게 수행하면, "내 대답은 시간의 x % 정도만 잘못 될 것입니다."와 같은 것을 말할 수 있습니다.)
Emil Friedman

답변:


14

실제로 가장 어려운 점은 행운의 행진이 한 후보에게 더 많은 표를 줬다는 통계적 불확실성이 아닙니다. 가장 큰 어려움은, 개설 된 투표 용지가 투표에 대한 편견이없는 샘플 이 아니라는 점 입니다. 이 효과를 무시하면 큰 바이어스 된 샘플에서 발생 하는 유명한 오류 "Dewey Defeats Truman" 이 나타납니다.

실제로, 한 후보자에서 다른 후보자를 선호하는 유권자들은 지역에 따라, 낮 동안 일하는지, 해외에 배치 될지 여부에 따라 부재자 투표로 투표 할 것입니다. 이것들은 작은 차이가 아닙니다.

뉴스 조직이 지금하는 일은 인구를 그룹으로 나누고 그 결과를 사용하여 각 그룹의 투표 방식 (투표율 포함)을 추정하는 것입니다. 이것들은이 선거의 데이터뿐만 아니라 이전 선거에 근거한 모델과 이전의 가정에 근거 할 수도 있습니다. 이들은 팜 비치나비 투표 와 같은 이상한 점을 고려하지 않을 수 있습니다 .


3
10-15 년 전까지 호주에서 보수당은 일반적으로 초기 계산에서 강세를 보였으며, 진보당은 늦게 복귀했습니다. TV 네트워크는 아마도 무슨 일이 있었는지 알았지 만 그 변화는 아마도 드라마를 더 만들었습니다. 분석가 이름 Antony Green이 부스 결과로 부스를 사용하기 시작했을 때 시골 지역의 작은 부스가 수를 계산하고 조기에 결과를 얻는 경향이 있으며 더 보수적으로 투표하는 경향이 있다는 사실을 설명하기 위해 모든 것이 바뀌 었습니다. 안토니는 다른 사람들이 이것을 사용하기 전에 선거 결과를 몇 시간 전에 올바르게 부르는 것으로 유명했습니다.
Bogdanovist

1
전년도 부스 별 부스 결과를 사용하여 총 결과의 추정값을 매우 정확하게 교정 할 수 있습니다.
피터 엘리스

@DouglasZare 저는 현재 개표 한 투표 용지가 무작위 샘플이 아니라고 생각합니다.
Michael R. Chernick

1
@Michael Chernick : 비 랜덤 샘플과 바이어스 된 샘플의 차이점은 무엇입니까? en.wikipedia.org/wiki/Sampling_bias 는 그것들을 동의어로 사용하는 것 같습니다.
Douglas Zare

1
@DouglasZare 나는 Wikipedia가 바이어스가 아닌 샘플을 무작위가 아닌 것과 동의어로 사용한다는 것을 알았습니다. 나는 그것이 나쁜 선택이라고 생각합니다. 편향 일반은 추정값이 모수의 실제 값과 같지 않을 것으로 예상합니다. 샘플링과 관련하여 비 랜덤 샘플은 특정 추정치에 대한 편향을 의미하지 않습니다. 편견으로 이어질 수도 있고 그렇지 않을 수도 있습니다.
Michael R. Chernick

0

측량 샘플링에서는 비례 추정의 표준 오차가 필요합니다. j보다 i에 더 의존합니다. 또한 내가 개설 한 투표 용지를 무작위로 선택해야합니다. p가 후보 A의 실제 최종 비율이면 추정값의 분산은

(1나는제이)(1)나는

(1나는제이)유한 모집단 보정 계수라고합니다. 이 분산을 추정하기 위해 p에 대한 일반적인 추정치가 공식에서 p를 대신합니다. 제곱근을 취하면 표준 오차가 발생합니다. 승자를 예측할 때 설문 조사자는 추정 플러스 또는 마이너스 3 표준 오차를 사용할 수 있습니다. 0.5가 구간에 포함되지 않은 경우 0.5가 하한보다 낮 으면 후보 A가 승자로 선언되고, 0.5가 상한을 초과하면 그의 상대가 승자로 선언됩니다. 물론 이것은 0.5가 간격을 벗어난 경우에 누가 승자가 될 것인지 매우 확신합니다. 세 가지 표준 오차를 사용하는 경우 신뢰 수준은 0.99입니다 (이항에 대한 정규 근사 기준). 0.5가 해당 간격 내에 있으면 아무도 승자로 선언되지 않으며 폴러는 더 많은 데이터가 누적되기를 기다립니다.

조사를 실시 할 때 여론 조사원은 집계 된 투표에서 모든 무작위 투표를 볼 경우 발생할 수있는 잠재적 인 편향을 피하기 위해 누적 된 투표에서 계층화 된 무작위 표본을 선택할 수 있습니다. 누적 된 투표를 모두 볼 때의 문제점은 특정 선거구가 다른 선거구를 완전히 계산하여 인구를 대표하지 않을 수 있다는 것입니다.

여기 기사 문제 수많은 참고 문헌의 좋은 범위를 제공합니다.

아직보고하지 않은 선거구가 후행 후보와 함께 정당을 선호하는 선거구이거나 부재자 투표가 후행 후보를 선호 할 가능성이 있기 때문에 누적 투표는 편중 된 비율의 추정치를 제공 할 수 있다고 지적되었습니다 그리고 그 투표는 마지막으로 계산됩니다. 해리스 나 갤럽과 같은 정교한 투표자들은 그러한 함정에 빠지지 않습니다. 내가 요약 한 누적 표를 기반으로 신뢰 구간을 구성하는 간단한 분석은 사용 된 한 가지 요소 일뿐입니다. 이 여론 조사원은 처분에 더 많은 정보를 가지고 있습니다. 그들은 선거 직전에 치러진 여론 조사를 가지고 있으며, 최근 몇 년 동안 선거에서 치러진 모든 선거구 및 부재자 투표 투표 패턴을 가지고 있습니다.

따라서 반대 방향으로 긴밀한 선거를 펼칠 수있는 명확한 편견이 있다면 여론 조사원은이를 인식하고 승자를 예상하지 못하게됩니다.

미국에서는 부재자 투표 용지가 주로 해외에서 근무하는 외국 및 대학생들이 집에서 멀리 떨어져 있습니다. 군대는 더 보수적이고 공화당에 투표하는 경향이 있지만, 대학생들은 더 자유롭고 민주당에 투표하는 경향이 있습니다. 이러한 모든 고려 사항이 고려됩니다.

현대식 여론 조사의 보살핌과 정교함은 1936 년 Literary Digest 여론 조사 또는 1948 년 Dewey 선거에 대한 시카고 신문의 조기 양보와 같은 중대한 오류가 발생하지 않은 이유입니다.


2
설문 조사 샘플링과의 암시 적 유사성이 적절하지만이 질문에 복잡한 요소가 추가되지 않습니까? 첫 번째는 두 명 이상의 후보자가 될 가능성입니다. 두 번째는 이것이 순차적 인 결정 문제라는 점입니다. 일반적으로 투표 크기를 지정하고 표본을 기준으로 한 결정을 내리는 여론 조사 담당자와는 달리, 네트워크는 점점 증가하는 표본이 있으며 선거에 전화할지 또는 대기 할지를 결정해야합니다 추가 정보. 여기서 인용 한 설문 조사 응용 프로그램은이 역동적 인 상황에는 적용되지 않는 것 같습니다. 그리고 왜 네트워크가 3 SE를 사용합니까? (평판이 위험에 처해있다.)
whuber

1
@ whuber 나는 실제로 고려되지 않은 합병증이 있음에 동의합니다. 나는 단순성을 위해 대다수가 승리하는 두 가지 후보 사례를 선택했습니다. 이것이 OP가 생각한 상황이라고 생각합니다. 후보자가 3 명 이상인 다수의 승리는 "우승 후보가 그의 상대보다 높은 비율을 가지고 있음을 보여주는 것입니다. 당신이 설문 조사를 한 번 이상 실시한다면 샘플링의 순차적 특성을 고려해야합니다. 확실하지 않습니다. 그것은이다.
마이클 R. Chernick

1
3 SE를 선택한 이유는 여론 조사원이 승자를 선언하기 직전에 "매우 확신"하기를 원했기 때문입니다. 따라서 3을 2보다 많이 사용한다고 생각합니다. 더 작은 오류 위험을 원하면 3보다 더 높아질 수 있습니다. 표준 오류에 대한 공식을 사용하여 OP의 확실성 수준이 i에 어떻게 의존하는지에 대한 아이디어를 OP에 제공했습니다. 간단한 방법으로 j. 상황을 복잡하게하면 결과가 더 복잡해지고 의존성 i i와 j는 명확하게 보이지 않을 것입니다.
Michael R. Chernick

2
2

3
몇 개의 다운 보트를 받고 있는데 누군가 그 정당성을 설명 할 수 있을까요?
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.