Nate Silver 예측의 정확성을 어떻게 판단 할 수 있습니까?


19

첫째, 그는 결과의 가능성을 준다. 예를 들어, 미국 선거에 대한 그의 예측 은 현재 82 % 클린턴 대 18 % 트럼프입니다.

이제 트럼프가 이겼어도 그가 승리 한 시간의 18 %만이 아니라는 것을 어떻게 알 수 있습니까?

다른 문제는 그의 확률이 시간이 지남에 따라 변한다는 것입니다. 7 월 31 일 트럼프와 클린턴 사이의 거리는 거의 50-50이었습니다.

내 질문은, 같은 결과를 가진 동일한 미래의 사건에 대해 매일 다른 확률을 가지고 있다는 것을 감안할 때, 그 날까지 사용 가능한 정보를 기반으로 매일 그가 얼마나 정확한지 예측할 수 있습니까?


1
우리가 할 수없는 것 같아요. 그러한 평가를하기 위해서는 황금 표준이 필요하며, 우리가 가진 최선의 결과는 비교하기 어려운 이전 선거에서 얻은 관찰 만입니다 (모든 선거는 대안적인 표본 추출 방법과 유권자 행동을 포함하기 때문에). 그러나 나는 선거 조사에 전문가가 아니기 때문에 이것을 코멘트로 남기지 않고 답변으로 남겨두고 있습니다 :)
Tal Galili

2
@TalGalili : 우리는 회귀 분석에서 추정 할 수없는 관찰 할 수없는 매개 변수에 대해 말할 수 있듯이, 점수 규칙을 사용하여 최소한 무언가 를 말할 수 있습니다.
S. Kolassa-복원 Monica Monica

이것은 "점수 규칙"일 수 있지만 n 개의 이벤트의 경우 해당 이벤트에 대한 확률을 곱하고 n 번째 근을 사용하여 평균 예측 속도를 얻습니다 (0 % 예측을하지 않는다고 가정). 각 일일 확률을 별도의 예측으로 간주 할 수 있습니다.
barrycarter

시간이 지남에 따라 확률이 변하지 않는 이유는 무엇입니까? 스포츠 경기에서 골을 넣거나 홈런을 칠 때마다 확률이 바뀌지 않습니까?
Rodrigo de Azevedo

8
Silver의 모델은 확률 추정치보다 훨씬 더 많은 것을 제공합니다. 이는 예상 된 승리 마진을 제공하며, 이는 50 개 상태 각각의 승리 확률과 승리 마진에서 파생됩니다. 따라서 단일 이진 결과를 예측하는 것이 아니라 50 가지 측정에 대해 점 추정치 및 오류 마진을 제공합니다.
Micah

답변:


14

확률 예측 (또는 밀도 예측이라고도 함)은 , 즉 밀도 예측 및 관측 결과를 소위 스코어에 매핑하는 함수를 사용하여 평가할 수 있으며 , 이는 밀도 예측의 경우 예상에서 최소화됩니다 실제로 예측할 실제 밀도입니다. 적절한 점수 규칙은 실제 미래 밀도에 의해서만 예상되는 최소 점수 규칙입니다 .

확률 론적 일기 예보 와 관련하여 Brier (1950, Monthly Weather Review ) 부터 시작하여 적절한 점수 규칙이 많이 있습니다 . Czado et al. (2009, Biometrics ) 는 개별 사례에 대한 최신 개요를 제공합니다. Gneiting & Katzfuss (2014, 연례 통계 검토 및 그 적용 ) 는 일반적으로 확률 론적 예측에 대한 개요를 제공합니다.

그러나 점수 규칙은 해석하기가 다소 어려우며 실제로 여러 확률 론적 예측 을 비교 하는 데 도움이됩니다 . 점수가 낮을수록 좋습니다. 즉, 표본 추출 변동에 따라 평가할 평균 이 많은 평가를하는 것이 좋습니다.

Silver 또는 다른 예측의 "업데이트"를 포함시키는 방법은 좋은 질문입니다. 스코어링 규칙을 사용하여 한 시점에서 다른 예측의 "스냅 샷"을 비교하거나 시간에 따른 Silver의 확률 론적 예측을보고 각 시점의 점수를 계산할 수도 있습니다. 실제 결과가 가까워 질수록 점수가 점점 낮아 지길 (즉, 밀도 예측이 더 좋아 지길 바랍니다) 희망합니다.


5
다른 표현 방법 : 고유 이벤트의 개별 예측 확률은 단독으로 평가할 수 없지만 예측 기능은 점수 함수별로 평가할 수 있습니다.
kjetil b halvorsen

1
"예상 최소화"의 핵심 이슈는 어떤 앙상블에 대한 기대입니까? 우리는 Nate Silver의 모든 예측을 취합니까? 대통령 선거 이상의 사람들? 여기에 하나의 대답이 있는지 모르겠습니다. 다른 예측자를 비교하기 위해 일반적인 일련의 사건에 대한 예측이 합리적 일 수 있습니다.
GeoMatt22

@ GeoMatt22-그는 다른 선거에 대해 상당히 유사한 방법론을 가지고 있으므로 모든 선거 예측을 집계하는 것이 유효 할 수 있습니다
DVK

11

Nate Silver의 저서 The Signal and the Noise에서 그는 다음을 씁니다. 질문에 대한 통찰력을 제공 할 수 있습니다.

예측의 가장 중요한 테스트 중 하나는 이것이 가장 중요한 것 중 하나라고 주장합니다-교정이라고합니다. 비가 올 확률이 40 %라고 말한 시간 중 실제로 비는 얼마나 자주 발생 했습니까? 장기적으로 약 40 %의 비가 내렸다면 예측이 잘 조정되었다는 의미입니다. 대신 20 % 나 60 %의 비가 내렸다면 그렇지 않았습니다.

그래서 이것은 몇 가지 포인트를 발생시킵니다. 우선, 당신이 올바르게 지적했듯이, 당신은 당신이 예측하는 사건의 결과에 의해 단일 예측의 품질에 대해 어떤 추론을 할 수 없습니다. 최선의 방법은 많은 예측 과정에서 모델의 성능을 확인하는 것입니다.

고려해야 할 또 다른 사항은 Nate Silver가 제공하는 예측은 이벤트 자체가 아니라 이벤트의 확률 분포라는 것입니다. 따라서 대통령 선거의 경우 클린턴, 트럼프 또는 존슨이 경주에서 이길 확률 분포를 추정하고 있습니다. 따라서이 경우 그는 다항 분포를 추정합니다.

그러나 그는 실제로 훨씬 더 세밀한 수준에서 레이스를 예측하고 있습니다. 그의 예측은 각 후보자가 각 주에서 얻을 수있는 투표율의 확률 분포를 추정합니다. 따라서 우리가 3 개의 후보를 고려한다면, 이것은 길이 51 * 3의 랜덤 벡터로 특성화 될 수 있으며 [0, 1] 구간의 값을 취하는데, 상태 내 비율에 대한 비율의 합은 1로 제한됩니다. 51은 다른 50 개 주와 DC이기 때문에 (그리고 실제로는 일부 주가 선거 대학 투표를 나눌 수 있기 때문에 실제로 몇 개 더 있다고 생각합니다.) 숫자 3은 후보자 수 때문입니다.

이제 당신은 그의 예측을 평가할 데이터가 많지 않습니다-그는 내가 알고있는 마지막 3 선거에 대해서만 예측을 제공했습니다 (더 있었습니까?). 따라서 실제로 모델을 가지고 있고 시뮬레이션 된 데이터를 사용하여 모델을 평가할 수 없다면 모델을 공정하게 평가할 방법이 없다고 생각합니다. 그러나 여전히 당신이 볼 수있는 흥미로운 것들이 있습니다. 예를 들어, 그가 선거에서 일주일 등 특정 시점에서 주별 투표 비율을 얼마나 정확하게 예측했는지를 보는 것이 흥미로울 것이라고 생각합니다. 예를 들어 1 주일, 1 개월, 6 개월, 1 년 등 여러 시점에 대해이 작업을 반복하면 그의 예측에 대해 꽤 흥미로운 설명을 제공 할 수 있습니다. 한 가지 중요한 경고 : 결과는 선거 내에서 각 주에 걸쳐 높은 상관 관계가 있으므로 51 개의 주 * 3 개의 선거 독립 예측 사례가 있다고 말할 수 없습니다 (예 : 모델이 한 주에서 후보 성과를 과소 평가하는 경우 다른 주에서도 과소 평가되는 경향이 있음) . 그러나 어쨌든 나는 이것을 의미있는 것으로 할 수있는 충분한 데이터를 가질 수 있도록 이것을 그렇게 생각할 것입니다.


4

당신이 할 수없는 단일 예측에 대해, 우리는 "이 동전이 60 %의 확률로 머리를 올릴 확률이있다"는 주장이 단일 토스에서 정확한지 알 수 있습니다.

그러나 많은 예측에 걸쳐 그의 방법론을 평가할 수 있습니다. 주어진 선거에 대해 그는 대통령 선거뿐만 아니라 대통령 투표와 다른 많은 인종 (집, 상원, 가버 너)에 대한 많은 예측을합니다. 등등), 그는 또한 시간이 지남에 따라 매우 유사한 방법론을 사용합니다.

이 평가를 수행하는 방법은 여러 가지가 있지만 (일부는 상당히 정교하지만) 이해하기 쉬운 비교적 간단한 방법을 살펴볼 수 있습니다. 예를 들어, 승률 확률 예측을 예를 들어 (50-55 %, 55-65 % 등) 대역으로 분할 한 다음 해당 대역의 예측 비율이 어느 정도인지 확인할 수 있습니다. 작동 한 50-55 % 예측의 비율은 평균의 위치에 따라 50-55 % 사이 여야합니다 (임의 변동에 대한 마진 포함 *).

따라서 그 접근 방식 (또는 다양한 다른 접근 방식)을 통해 결과 분포가 선거 또는 여러 선거에 대한 예측과 일치하는지 확인할 수 있습니다. 표준 오류가 평균보다 약간 과대 평가되었음을 나타냅니다.

* 예측은 독립적이지 않기 때문에이를 평가하는 방법에주의해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.