희귀 사건을 어떻게 예측합니까?


11

보험 위험 예측 모델을 개발 중입니다. 이 모델은 항공사 노쇼 예측, 하드웨어 오류 감지 등과 같은 "희귀 이벤트"입니다. 데이터 세트를 준비 할 때 분류를 적용하려고했지만 부정적인 사례가 많기 때문에 유용한 분류기를 얻을 수 없었습니다. .

고등학교 통계 과정 이외의 통계 및 모델링 데이터에 대한 경험이 많지 않아 다소 혼란 스럽습니다.

처음 생각할 때, 불균일 한 포아송 프로세스 모델을 사용하려고 생각했습니다. 특정 날짜의 특정 장소에서 특정 시간에 위험이 발생할 가능성을 잘 평가하기 위해 이벤트 데이터 (날짜, 위도, 경도)를 기준으로 분류했습니다.

희귀 한 사건을 예측하는 방법론 / 알고리즘이 무엇인지 알고 싶습니다.
이 문제를 해결하기 위해 어떤 방법을 권장합니까?

답변:


9

표준 접근법은 " 극단적 가치 이론 "이며, 스튜어트 콜스 (Stuart Coles)의 주제에 대한 훌륭한 책이 있습니다 (현재 가격은 오히려 어리석은 것처럼 보입니다).

분류 또는 회귀 방법을 사용하여 좋은 결과를 얻을 수없는 이유는 이러한 방법이 일반적으로 데이터의 조건부 평균 예측에 의존하고 극단적 인 이벤트는 일반적으로 "무작위"요인이 모두 같은 방향으로 정렬되어 발생하기 때문입니다. 그것들은 그럴듯한 결과의 분포의 꼬리에 있으며, 이는 일반적으로 조건부 평균과는 거리가 멀다. 당신이 할 수있는 것은 단지 평균이 아닌 전체 조건부 분포를 예측하고 분포의 꼬리를 일부 임계 값 이상으로 통합하여 극단적 인 사건의 확률에 대한 정보를 얻는 것입니다. 나는 이것이 강수의 통계적 다운 스케일링 에 대한 응용에서 잘 작동한다는 것을 알았다 .


1
파이썬 에서이 이론의 구현이 있습니까?
user3378649

죄송하지만 파이썬으로 프로그래밍하지 않아서 도울 수 없습니다.
Dikran Marsupial

죄송합니다, 당신의 추론을 이해하지 못합니다. rv 및 예측 변수 이 있다고 가정하십시오 . 이 거의 발생하지 않는 시점을 예측하는 데 관심이 있습니다. 조건부 확률 를 추정하기 위해 표준 분류 모델을 적용 할 수없는 이유는 무엇 입니까? 내가 올바르게 이해한다면 모델링 조건부 평균 극단적 이벤트 에 대한 유용한 정보를 얻을 수 없다고 말하는 것 입니다. 그러나 여전히 극단적 인 가치 이론없이 표준 분류를 사용하여 을 추정 할 수 있습니다 . yx1,,xny>Y0P(y>Y0|x1,,xn)E(y|x1,,xn)y>Y0P(y>Y0|x1,,xn)
Kochede

예, 그렇게 할 수는 있지만 최소화하려는 비용 함수는 분포의 꼬리를 얻는 데 초점을 맞추지 않으므로 관심이있는 경우 꼬리의 이벤트를보다 명확하게 시도하고 모델링하는 것이 좋습니다 .
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.