내 날씨가 정확합니까?


20

한동안 나를 귀찮게 한 질문, 어떻게 해결할 지 모르겠다.

매일 내 기상학자는 비가 올 확률을 나타냅니다 (9000 자리수로 계산했다고 가정하고 숫자를 반복하지는 않았습니다). 그후 매일 비가 내리거나 비가 내리지 않습니다.

pct 기회 대 비 여부에 관계없이 수년간의 데이터가 있습니다. 이 기상 학자의 역사를 감안할 때 , 오늘 밤 내일 비가 올 확률이 X라고 말하면 비가 올 확률이 무엇인지에 대한 최선의 추측은 무엇입니까?


이것은 과거의 질문과 관련이 있습니다 : stats.stackexchange.com/q/2275/495
Simon Byrne

고려해야 할 사항 : 예측에 대한 Nate Silver의 저서, 신호 및 소음 : 왜 그렇게 많은 예측이 실패합니까-하지만 일부는 그렇지 않습니다. 그는 날씨가 날씨에 따라 마케팅상의 이유로 비 예보를 어떻게 조정하는지에 대해 길게 이야기합니다. NOAA는 그렇지 않지만 Weather Channel은 5에서 20 사이에서 20까지의 기회를 수정하는 것에 대해 상당히 개방적이지만 (비가 오는 경우 고객을 화나게하지 않기 위해) 현지 TV 방송국의 기상 담당자는 일상적으로 훨씬 더 용감하게 채취합니다. 이 의식적이고 비 윤리적 인 편견은 예측 품질의 통계적 평가에 영향을 미칩니다.
SQLServerSteve

답변:


6

실제로 당신은있는 모델을 생각하는 진정한 비의 기회 p는 ,의 함수 예측 기회 Q : P = P (Q ). 예측이 이루어질 때마다 확률 p (q) 가 성공한 베르누이 변이의 한 가지 실현을 관찰 합니다. 기본 함수 f1 , f2 , ..., fk 의 선형 조합으로 실제 기회를 기꺼이 모델링하려는 경우 이는 고전적인 로지스틱 회귀 설정입니다 . 즉, 모델은 말합니다

로짓 ( p ) = b0 + b1 f1 (q) + b2 f2 (q) + ... + bk fk (q) + e

iid 오류가있는 경우 e . 관계의 형태에 대해 무의식적 인 경우 (날씨가 좋은 p (q)-q 는 합리적으로 작아야 함에도 불구하고 ) 스플라인 세트를 기준으로 사용하는 것이 좋습니다. 평소와 같이 출력은 계수 추정치 및 분산 e 추정치로 구성됩니다 . 향후 예측 q가 주어지면 추정 계수로 모델에 값을 연결하여 질문에 대한 답변을 얻습니다 (원하는 경우 e 의 분산을 사용하여 해당 답변 주위에 예측 간격을 구성하십시오).

이 프레임 워크는 시간에 따른 예측 품질의 변화 가능성과 같은 다른 요소를 포함 할 수있을 정도로 유연합니다. 또한 p = q (날씨가 암시 적으로 주장하는 것) 여부와 같은 가설을 테스트 할 수 있습니다 .


흠-내 질문은 잘 정의되어 있지 않습니다. 내가 할 수있는 유일한 것은 매개 변수 설정을 허용하는 q ()에 대한 일부 모델을 선택 하고 해당 매개 변수로 조정하여 적합도를 최대화하는 것입니다. 그것은 내가 무엇을하든 q ()가 기본적으로 어떻게 보이는지에 대한 가정을해야 할 것입니다.
Paul Murray


3

예측에 "(비 지역에서 비가 올 확률 x %)"라고 표시되면 수치 날씨 모델이 해당 시간 간격 동안 해당 지역의 X 퍼센트로 비가 내렸음을 의미합니다. 예를 들어, 일반적으로 "북미에서 100 %의 비가 올 확률"을 예측하는 것이 정확합니다. 모델은 역학 예측에 우수하고 열역학 예측에 열악하다는 점을 명심하십시오.


1
오래된 주제이지만 OP의 설명을위한 핵심 요점 : 예측을 비교할 "비가 있거나없는"데이터가 있다고 말하거나, "내 집에"있거나, "예측 내에" 지역"?
Wayne

2

찔레 점수 접근 방식은 매우 간단하며 가장 직접적으로 적용 할 수있는 방법은 바이너리 이벤트 대 예측 결과의 정확성을 확인합니다.

공식에만 의존하지 말고 ... 시간, 데이터, 오류, [가중] 데이터의 평균 롤링 평균, 오류에 대한 점수를 작성하십시오 ... 생각한 후 시각적 분석이 무엇을 밝힐 수 있는지 말하기는 어렵습니다 ... 당신은 당신이 더 나은 당신이 때까지 수행하는 일종의 가설 검정의 알 것이다, 무언가를보고 찾아 데이터에.

Brier Score는 기본적으로 예측 모델을 구동하는 날씨 및 기술의 변동 / 기본 분포의 안정성, 선형성 부족, 편향 없음, 편향 변화 부족을 가정합니다. 이는 동일한 일반 수준의 정확도 / 부정확성이 일관성이 있다고 가정합니다. 아직 이해되지 않은 방식으로 기후가 변화함에 따라 일기 예보의 정확도는 떨어질 것입니다. 반대로, 기상 학자에게 정보를 제공하는 과학자들은 더 많은 자원, 더 완전한 모델, 더 많은 컴퓨팅 능력을 가지고 있으므로 예측의 정확도가 높아질 것입니다. 오류를 살펴보면 예측의 안정성, 선형성 및 편향에 대해 알 수 있습니다. 추세를 볼 수있는 데이터가 충분하지 않을 수 있습니다. 안정성, 선형성 및 바이어스는 문제가되지 않습니다. 일기 예보가 점점 정확 해지고 있음을 알게 될 것입니다.


0

주어진 예측을 비닝하고 관측 된 분수를 각 빈에 대한 추정값으로 취하는 것은 어떻습니까?

가우시안에 의해 관심 가치에 대한 모든 관측치 (내일 예측)를 가중하고 가중 평균이 무엇인지 확인하여이를 연속 모형으로 일반화 할 수 있습니다.

데이터의 주어진 부분을 얻을 수있는 너비를 추측 할 수 있습니다 (또는 좋은 추정을 위해 100 점 이상). 또는 가우스 너비를 얻기 위해 최대 가능성의 교차 검증과 같은 방법을 사용하십시오.


0

그의 예측이 다른 예측보다 정확한지 알고 싶습니까? 그렇다면 교차 엔트로피, 정밀도 / 호출, ROC 곡선 및 f1- 점수와 같은 확률 분류에 대한 기본 정확도 메트릭을 볼 수 있습니다.

예측이 객관적으로 좋은지 결정하는 것은 다른 문제입니다. 한 가지 옵션은 교정을 보는 것입니다. 그가 비가 올 확률이 90 %라고 말한 모든 날들 중 그 날의 대략 90 %가 비가 왔습니까? 그가 예측을 한 날을 모두 가지고 비가 올 확률에 대한 추정치에 따라 버립니다. 각 버킷에 대해 비가 실제로 발생한 일의 백분율을 계산하십시오. 그런 다음 각 버킷에 대해 비가 올 확률에 대한 추정치와 실제 비가 올 확률을 비교합니다. 예측이 잘 보정되면 플롯은 직선처럼 보입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.