선거는 일회성 사건이므로 반복 할 수있는 실험이 아닙니다. 그래서 정확히 문 무엇을 않는다 "힐러리가 승리의 75 %의 확률" 기술적으로 의미? 직관적 또는 개념적 정의가 아닌 통계적으로 올바른 정의를 찾고 있습니다.
저는 토론에서 나온이 질문에 답하려고하는 아마추어 통계 팬입니다. 나는 그것에 대한 객관적인 반응이 있다고 확신하지만, 나는 그것을 스스로 생각 해낼 수 없다 ...
선거는 일회성 사건이므로 반복 할 수있는 실험이 아닙니다. 그래서 정확히 문 무엇을 않는다 "힐러리가 승리의 75 %의 확률" 기술적으로 의미? 직관적 또는 개념적 정의가 아닌 통계적으로 올바른 정의를 찾고 있습니다.
저는 토론에서 나온이 질문에 답하려고하는 아마추어 통계 팬입니다. 나는 그것에 대한 객관적인 반응이 있다고 확신하지만, 나는 그것을 스스로 생각 해낼 수 없다 ...
답변:
지금까지 제공된 모든 답변이 도움이 되긴하지만 통계적으로 정확하지는 않으므로 자세히 살펴 보겠습니다. 동시에 이번 선거에 초점을 맞추기보다는 일반적인 답변을 드리겠습니다.
클린턴이 선거에서 승리하는 것과 같은 실제 사건에 대한 질문에 대답 할 때 가장 먼저 염두에 두어야 할 것은 항아리에서 다양한 색상의 공을 꺼내는 것과 같은 구성 수학 문제와는 달리 질문에 대답 할 수있는 독특하고 합리적인 방법이므로 고유 한 합리적 대답은 아닙니다. 누군가가 "힐러리가 승리 할 확률이 75 %입니다"라고 말하고 선거 모델, 설명에 사용한 데이터, 모델 검증 결과, 배경 가정, 설명 여부를 설명하지 않는 경우 '인기 투표 나 선거 투표 등을 언급하고 있는데, 그들이 실제로 의미하는 바를 말하지 않았으며, 예측이 좋은지 평가할 수있는 충분한 정보를 제공하지 못했습니다. 게다가
통계학자가 클린턴의 확률을 추정하기 위해 사용할 수있는 절차는 무엇입니까? 실제로 어떻게 문제를 해결할 수 있을까요? 높은 수준에서 확률 자체에 대한 다양한 개념이 있으며, 그중 가장 중요한 두 가지가 잦은 편과 베이지안입니다.
A의 베이지안 보기, 확률 (또는 실제 믿음, 당신이 주관 베이지안있어 여부에 따라하지 않을 수 있습니다) 사실성이나 신뢰성의 정도를 나타냅니다. 클린턴이 승리 할 확률이 75 %라는 것은 그녀가 이길 확률이 75 %라는 것을 의미합니다. 창의성은 확률의 기본 법칙 ( 베이 즈 정리 와 같은 )과 공동 사건의 확률이 한계 확률의 한계 확률을 초과 할 수 없다는 사실 내에서 자유로이 (모델 또는 분석가의 기존 신념에 따라) 자유롭게 선택할 수 있습니다. 구성 요소 이벤트). 이러한 법률을 요약하는 한 가지 방법은 이벤트 결과에 베팅을하고 도박꾼에게 귀하의 신용도에 따라 배당률을 제공하면 도박꾼이 네덜란드 도서를 만들 수 없다는 것 입니다당신에게, 즉, 이벤트가 실제로 어떻게 진행되는지에 관계없이 돈을 잃을 것을 보장하는 일련의 베팅.
확률에 대한 빈번한 관점 또는 베이지안 관점을 고려하든, 데이터를 분석하고 확률을 추정하는 방법에 대한 결정은 여전히 많이 있습니다. 아마도 가장 많이 사용되는 방법은 선형 회귀와 같은 파라 메트릭 회귀 모델을 기반으로하는 것입니다. 이 설정에서 분석가는 매개 변수라는 숫자의 벡터로 색인이 생성되는 모수 분포 군 (즉, 확률 측정 )을 선택합니다. 각 결과는 분석가가 결과를 예측하는 데 사용하고자하는 알려진 값 (실업률과 같은) 인 공변량에 따라 변환 된이 분포에서 추출 된 독립적 인 랜덤 변수입니다. 분석가는 데이터와 최소 제곱 과 같은 모형 적합 기준을 사용하여 모수 값 추정치를 선택합니다.또는 최대 가능성 . 이 추정값을 사용하여 모형은 공변량의 주어진 값에 대한 결과 예측 (아마도 단일 값, 가능 하면 간격 또는 다른 값 세트)을 생성 할 수 있습니다. 특히 선거 결과를 예측할 수 있습니다. 모수 적 모형 외에 비모수 적 모형 (즉, 무한히 긴 모수 벡터로 색인화 된 분포 군에 의해 정의 된 모형)과 데이터가 전혀 생성되지 않은 모형을 사용하는 예측 된 값을 결정하는 방법이 있습니다 , 등 가까운 이웃 분류 및 임의 숲 .
예측을 생각해내는 것이 한 가지 일이지만, 그것이 좋은지 어떻게 알 수 있습니까? 결국, 충분히 부정확 한 예측은 쓸모없는 것보다 나쁩니다. 예측 테스트는 더 큰 모델 유효성 검증 방법의 일부입니다. 즉, 주어진 모델이 주어진 목적에 얼마나 적합한 지 정량화합니다. 예측을 검증하는 데 널리 사용되는 두 가지 방법은 교차 검증 및 모델을 맞추기 전에 데이터를 학습 및 테스트 하위 집합으로 분할하는 것입니다. 데이터에 포함 된 선거가 2016 년 미국 대통령 선거를 대표 할 정도로 예측을 검증하여 얻은 예측 정확도 추정치는 2016 년 미국 대통령 선거에 대한 예측이 얼마나 정확한지를 알려줍니다.
통계 학자들이 이진 결과를 예측하려고 할 때 (힐러리 승리 대 힐러리가 승리하지 않음), 그들은 우주가 상상의 동전을 던지고 있다고 상상합니다-머리, 힐러리 승리; 그녀는 꼬리를 잃는다. 일부 통계 학자에게는 동전이 결과에 대한 신뢰도를 나타냅니다. 다른 사람들에게 동전은 우리가 같은 상황에서 계속해서 선거를 되 찾을 때 일어날 수있는 일을 나타냅니다. 철학적으로 말하면, 미래의 사건이 불확실하다고 말할 때, 숫자를 끌어 들이기 전에도 무슨 의미인지 알기가 어렵습니다. 그러나 우리는 숫자의 출처를 볼 수 있습니다.
선거의 현재 시점에서, 우리는 여론 조사 결과를 가지고 있습니다. 예를 들어, 오하이오 주에 1000 명이 설문 조사를했습니다. 40 % 지원 트럼프, 39 % 지원 Hillary, 21 %는 미정입니다. 각 민주당, 공화당 (및 기타 미량 정당) 후보에 대한 이전 선거와 유사한 여론 조사가있을 것입니다. 지난 몇 년간 성과도있었습니다. 예를 들어, 7 월 여론 조사에서 40 %의 투표를 한 후보가 이전 선거 10 건 중 8 건을 차지했다는 것을 알고있을 것입니다. 또는 10 개 선거 중 7 개 선거에서 민주당이 오하이오를 점령했다. 오하이오가 텍사스와 어떻게 비교되는지 알 수 있습니다 (아마도 같은 후보를 선택하지 않을 수도 있음). 미정의 투표가 어떻게 진행되는지에 대한 정보가있을 수 있습니다.
따라서 이전 선거를 고려할 때 선거 동전이 이미 여러 번 던져 졌다고 말할 수 있습니다. 같은 선거가 4 년마다 재개되지는 않지만, 우리는 그 선거가 일종의 척을 할 수 있습니다. 이 모든 정보를 통해 여론 조사원은 올해의 결과를 예측하기 위해 복잡한 모델을 구축합니다.
Hillary의 75 %의 우승 확률은 "오늘"지식 상태와 관련이 있습니다. 자신이 가지고있는 주에서 그녀가 "지금"가지고있는 여론 조사 결과의 종류를 가진 후보자가 선거 운동 전반에 걸친 여론 조사의 경향을 감안할 때, 4 년 중 3 번의 선거에서 선거에서 승리한다고 말하고 있습니다. 이제 모델이 8 월의 여론 조사 상태를 기반으로하므로 우승 확률이 변경 될 것입니다.
미국은 여론 조사가 시작된 이래로 통계적으로 많은 수의 선거를하지 않았습니다. 또한 70 년대의 폴링 트렌드가 여전히 적용되는지 확신 할 수 없습니다. 그래서 그것은 모두 약간 불안합니다.
결론은 힐러리가 취임 연설을 시작해야한다는 것입니다.
통계 학자들이 이것을 말할 때, 그들은 승리의 여백이나 투표의 몫을 언급하지 않습니다. 그들은 다수의 선거 시뮬레이션을 진행하고 있으며 각 후보자가 얻는 투표의 비율을 세고 있습니다. 많은 강력한 대통령 모델에 대해 각 주에 대한 예측이 있습니다. 일부는 가까우며 경기가 여러 번 진행되면 두 후보 모두 이길 수 있습니다. 예측 간격이 여러 번 0의 승리 마진과 겹치므로 이항 반응이 아니라 시뮬레이션이 더 정확히 무엇을 기대해야하는지 알려줍니다.
: FiveThirtyEight의 방법론 페이지는 후드 아래에 무엇을 좀 더 이해하는 데 도움이 될 수 있습니다 http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
이 질문과 매우 관련이있는 괴물 공학 라디오 에피소드가 있습니다 (일반적으로 선거의 세부 사항이 아님). 여기에서 Stephen Dubner는 미국 정치 기관의 프로젝트 리드를 인터뷰하여 세계 정치 사건을 예측하는 가장 좋은 방법을 결정했습니다.
그것은 또한 대부분의 사람들보다 정치에 대해 더 많이 알도록 도와줍니다. 나는 그들이 잘하기 위해 거의 필요한 조건이라고 말할 것입니다. 그러나 매우 똑똑하고 친근한 사람들이 많기 때문에 충분하지 않습니다. 매우 영리한 사람들이 많이 있으며 고유 한 이벤트에 확률을 부여하는 것이 불가능하다고 생각합니다 .
그런 다음 하지 말아야 할 것에 대해 토론합니다.
이런 유형의 질문을하면 대부분의 사람들은 “독특한 역사적 사건으로 보이는 것에 확률을 어떻게 할당 할 수 있을까요?” 라고 말할 수 있습니다 . 우리가 실제로 할 수있는 최선의 방법은 모호한 언어를 사용하고, 모호한 언어를 예측하는 것입니다. 우리는“이런 일이 일어날 수 있습니다. 이런 일이 일어날 수 있습니다. 이런 일이 생길 수 있습니다.”그리고 어떤 일이 일어날 수 있다고 말하는 것은 많은 것이 아닙니다.
그런 다음 에피소드는 가장 성공적인 예측자가 이러한 확률을 추정하는 데 사용 된 방법론으로 진행되어 비공식적 인 베이지안 접근법을 옹호합니다.
아프리카 독재자 나 그 나라에 대해 아는 바가 없습니다.이 독재자에 대해 들어 본 적이없고,이 나라에 대해 들어 본 적이 없으며, 기본 요금 만보고“음, 마치 약 87 %입니다.”이것은 나의 초기 직감 추정치입니다. 그렇다면 "무엇을해야합니까?"라는 질문이 있습니다. 그렇다면 나라와 독재자에 대해 배우기 시작합니다. 그리고 문제의 독재자가 91 세이고 전립선 암을 앓고 있다는 사실을 알게되면 내 확률을 조정해야합니다 . 그리고 수도에 폭동이 있고, 그 사건에서 군사 쿠데타의 암시가 있다는 것을 알게되면 다시 내 확률을 조정 해야합니다 . 그러나 기본 속도 확률로 시작하는 것이 최소한 초기에 타당성 야구장에있게하는 좋은 방법입니다.
이 에피소드는 미래를 예측할 때 덜 끔찍하게하는 방법 이라고 하며 매우 재미있는 이야기입니다. 이런 종류의 것에 관심이 있으시면 확인해 보시기 바랍니다.
2016 년 선거는 실제로 일회성 사건입니다. 그러나 동전 던지기 또는 주사위 던지기도 마찬가지입니다.
누군가 후보자가 75 %의 확률로 이길 확률이 높다고 주장하면 결과를 예측하지 않습니다. 그들은 주사위의 모양을 알고 있다고 주장합니다.
선거 결과는 이것을 무효로 할 수 없습니다. 그러나 그들이 75 %에 도달하기 위해 사용하는 모델이 많은 선거에 대해 테스트되면 예측 가치가 제한적인 것으로 보일 수 있습니다. 또는 귀중한 것으로 태어날 수도 있습니다.
물론, 일단 가치있는 예측자가 후보들에게 알려지면 그들의 행동을 바꿀 수 있고 모델을 무관하게 만들 수 있습니다. 또는 비율이 모두 불려질 수 있습니다. 아이오와에서 어떤 일이 일어나는지보십시오.
누군가 "힐러리가 이길 확률이 75 %"라고 말하면, 힐러리가 이기면 한 사람이 25 달러를 받고 힐러리가 이기지 않으면 다른 사람이 75 달러를 얻는 베팅을 제안했다면, 공정한 내기이며 양쪽을 선호 할 특별한 이유가 없습니다.
이 비율은 일반적으로 예측 시장에서 나옵니다. 여기에는 사용 가능한 모든 정보가 요약되어 있으며 대부분의 이벤트를 예측하는 분석 방법보다 성능이 뛰어납니다.
예측 시장은 사람들에게 특정 사건의 발생 여부에 대해 베팅 할 수있는 기회를 제공합니다. 그 결과는 제안의 양쪽에있는 사람들 사이의 협상에 의해 결정됩니다. 일반적으로 제안에 대해 특별한 지식을 가진 사람들은 그 지식을 활용하여 돈을 벌려고 노력할 것입니다.
예를 들어, 특정 유명인이 올해 말까지 살지 여부에 대한 예측 시장이 있다고 가정합니다. 대중은 유명인의 나이를 알고 있으며 누구나 유명인이 연말까지 죽을 것이라는 기본 확률을 찾을 수 있습니다. 그것이 모두 알려진 것이라면, 사람들은 대략 그 확률로이 제안의 한쪽 또는 다른쪽에 기꺼이 내기를 기대할 것입니다.
이제 누군가 유명인이 건강이 좋지 않다는 것을 알았지 만 숨기고 있다고 가정 해 봅시다. 또는 많은 사람들이 유명인의 가족이 생존 가능성을 줄이는 심장병 병력이 있다는 것을 알고 있다고 말합니다. 그 정보를 가진 사람들은 그 제안의 한쪽을 기꺼이 받아 들여 구매자가 주가를 높이고 판매자가 그것을 낮추는 것처럼 비율을 조정하게 될 것입니다.
다시 말해서, 확률이 너무 낮을 때, 이익을 추구하는 사람들은 그것을 밀어 올립니다. 그리고 그들이 너무 높을 때, 이익을 찾고자하는 사람들은 그들을 밀어 내립니다. 베팅의 가격은 모든 가격이 사물의 비용과 가치에 대한 집단적 지혜를 반영하는 것처럼 발생하는 제안의 가능성에 대한 모든 사람의 집단적 지혜를 궁극적으로 반영합니다.
중요한 질문은 확률을 고유 한 사건에 어떻게 할당 하는가하는 것입니다. 대답은 더 이상 고유하지 않은 모형을 개발하는 것입니다. 대통령이 재직 할 확률이 더 쉬운 예라고 생각합니다. 대통령을 특정 연령의 사람, 특정 연령 및 성별의 사람으로 볼 수 있습니다. 기타 ... 각 모델은 서로 다른 예측을 제공합니다 ... 사전에 올바른 모델이 없습니다. 통계에 따라 가장 적합한 모델을 선택해야합니다.
여론 조사에서 경쟁이 매우 타이트하다는 점을 감안하면 75 %가 정확하거나 정확하지 않을 수 있습니다.
그들이 어떻게 계산했는지가 아니라 그 의미를 묻습니다. 그 의미는 (우리가 클린턴과 그녀의 주요 상대를 제외한 다른 사람을 무시한다면) 당신이 이기면 $ 4의 수익 을 얻기 위해 $ 3을 베팅해야한다는 것입니다 . 또는 $ 다른 주자 1 베팅을하면 $ 4를 반환합니다.
제 답변은 후보자가 실제로 이길 수있는 기회와 사람들 (도박꾼 또는 확률)이 기대하는 것 사이에 작은 차이가 있습니다. 예를 들어 75 %와 같은 숫자가 표시 될 때 배당률 숫자가 표시되고 49 ~ 48 %가 표시되면 투표 결과가 표시되는 것 같습니다.
그들이 제대로하고 있다면 75 %의 확률로 75 %의 확률이 있다고 말합니다. (또는 일반적으로 모든 아이디어에 동일한 아이디어가 적용됨)
우리의 철학적 견해와 우리가 얼마나 많은 모델을 믿는지에 따라 그보다 더 많은 의미를 부여하는 것이 가능하지만,이 실용적인 관점은 가장 일반적인 공통 분모에 해당합니다. 이 실제적인 관점을 따르는 예측을하기 위해