한동안 나를 귀찮게 한 질문, 어떻게 해결할 지 모르겠다.
매일 내 기상학자는 비가 올 확률을 나타냅니다 (9000 자리수로 계산했다고 가정하고 숫자를 반복하지는 않았습니다). 그후 매일 비가 내리거나 비가 내리지 않습니다.
pct 기회 대 비 여부에 관계없이 수년간의 데이터가 있습니다. 이 기상 학자의 역사를 감안할 때 , 오늘 밤 내일 비가 올 확률이 X라고 말하면 비가 올 확률이 무엇인지에 대한 최선의 추측은 무엇입니까?
한동안 나를 귀찮게 한 질문, 어떻게 해결할 지 모르겠다.
매일 내 기상학자는 비가 올 확률을 나타냅니다 (9000 자리수로 계산했다고 가정하고 숫자를 반복하지는 않았습니다). 그후 매일 비가 내리거나 비가 내리지 않습니다.
pct 기회 대 비 여부에 관계없이 수년간의 데이터가 있습니다. 이 기상 학자의 역사를 감안할 때 , 오늘 밤 내일 비가 올 확률이 X라고 말하면 비가 올 확률이 무엇인지에 대한 최선의 추측은 무엇입니까?
답변:
실제로 당신은있는 모델을 생각하는 진정한 비의 기회 p는 ,의 함수 예측 기회 Q : P = P (Q ). 예측이 이루어질 때마다 확률 p (q) 가 성공한 베르누이 변이의 한 가지 실현을 관찰 합니다. 기본 함수 f1 , f2 , ..., fk 의 선형 조합으로 실제 기회를 기꺼이 모델링하려는 경우 이는 고전적인 로지스틱 회귀 설정입니다 . 즉, 모델은 말합니다
로짓 ( p ) = b0 + b1 f1 (q) + b2 f2 (q) + ... + bk fk (q) + e
iid 오류가있는 경우 e . 관계의 형태에 대해 무의식적 인 경우 (날씨가 좋은 p (q)-q 는 합리적으로 작아야 함에도 불구하고 ) 스플라인 세트를 기준으로 사용하는 것이 좋습니다. 평소와 같이 출력은 계수 추정치 및 분산 e 추정치로 구성됩니다 . 향후 예측 q가 주어지면 추정 계수로 모델에 값을 연결하여 질문에 대한 답변을 얻습니다 (원하는 경우 e 의 분산을 사용하여 해당 답변 주위에 예측 간격을 구성하십시오).
이 프레임 워크는 시간에 따른 예측 품질의 변화 가능성과 같은 다른 요소를 포함 할 수있을 정도로 유연합니다. 또한 p = q (날씨가 암시 적으로 주장하는 것) 여부와 같은 가설을 테스트 할 수 있습니다 .
찔레 점수 접근 방식은 매우 간단하며 가장 직접적으로 적용 할 수있는 방법은 바이너리 이벤트 대 예측 결과의 정확성을 확인합니다.
공식에만 의존하지 말고 ... 시간, 데이터, 오류, [가중] 데이터의 평균 롤링 평균, 오류에 대한 점수를 작성하십시오 ... 생각한 후 시각적 분석이 무엇을 밝힐 수 있는지 말하기는 어렵습니다 ... 당신은 당신이 더 나은 당신이 때까지 수행하는 일종의 가설 검정의 알 것이다, 무언가를보고 찾아 데이터에.
Brier Score는 기본적으로 예측 모델을 구동하는 날씨 및 기술의 변동 / 기본 분포의 안정성, 선형성 부족, 편향 없음, 편향 변화 부족을 가정합니다. 이는 동일한 일반 수준의 정확도 / 부정확성이 일관성이 있다고 가정합니다. 아직 이해되지 않은 방식으로 기후가 변화함에 따라 일기 예보의 정확도는 떨어질 것입니다. 반대로, 기상 학자에게 정보를 제공하는 과학자들은 더 많은 자원, 더 완전한 모델, 더 많은 컴퓨팅 능력을 가지고 있으므로 예측의 정확도가 높아질 것입니다. 오류를 살펴보면 예측의 안정성, 선형성 및 편향에 대해 알 수 있습니다. 추세를 볼 수있는 데이터가 충분하지 않을 수 있습니다. 안정성, 선형성 및 바이어스는 문제가되지 않습니다. 일기 예보가 점점 정확 해지고 있음을 알게 될 것입니다.
그의 예측이 다른 예측보다 정확한지 알고 싶습니까? 그렇다면 교차 엔트로피, 정밀도 / 호출, ROC 곡선 및 f1- 점수와 같은 확률 분류에 대한 기본 정확도 메트릭을 볼 수 있습니다.
예측이 객관적으로 좋은지 결정하는 것은 다른 문제입니다. 한 가지 옵션은 교정을 보는 것입니다. 그가 비가 올 확률이 90 %라고 말한 모든 날들 중 그 날의 대략 90 %가 비가 왔습니까? 그가 예측을 한 날을 모두 가지고 비가 올 확률에 대한 추정치에 따라 버립니다. 각 버킷에 대해 비가 실제로 발생한 일의 백분율을 계산하십시오. 그런 다음 각 버킷에 대해 비가 올 확률에 대한 추정치와 실제 비가 올 확률을 비교합니다. 예측이 잘 보정되면 플롯은 직선처럼 보입니다.