부적절한 점수 규칙을 사용하는 것이 언제 적절한가요?


27

Merkle & Steyvers (2013) 글 :

적절한 채점 규칙을 공식적으로 정의하려면 를 진정한 성공 확률 가진 Bernoulli 시행 의 확률 적 예측 이라고합시다 . 적절한 점수 규칙은 경우 예상 값이 최소화되는 지표입니다 .에프에프=

나는 우리가 예측 인들이 그들의 진실한 믿음을 정직하게 반영하는 예측을 생성하도록 장려하고, 그렇지 않으면 그들에게 다른 인센티브를주고 싶지 않기 때문에 이것이 좋다는 것을 알게되었다.

부적절한 점수 규칙을 사용하는 것이 적절한 실제 사례가 있습니까?

참조
는 Merkle, EC, Steyvers, M. (2013). 엄격히 적절한 점수 규칙을 선택합니다. 결정 분석, 10 (4), 292-304


1
Merkle & Steyvers (2013)가 인용 한 Winkler & Jose "Scoring rules" (2010) 의 마지막 페이지의 첫 번째 열이 답을 제공 한다고 생각합니다 . 유틸리티는 점수의 아핀 변환하지 않은 경우 즉, (위험 회피 등으로 정당화 될 수있는), 기대 효용의 극대화가 예상 점수의 극대화와 충돌 할 것
리차드 하디

답변:


25

목적이 실제로 예측되지만 추론이 아닌 경우 부적절한 점수 규칙을 사용하는 것이 좋습니다. 나는 내가 예측을하려고하는 사람 일 때 다른 예측자가 부정 행위를하고 있는지 아닌지 상관하지 않습니다.

적절한 스코어링 규칙은 추정 프로세스 동안 모델이 실제 데이터 생성 프로세스 (DGP)에 접근하도록합니다. 우리가 진정한 DGP에 접근함에 따라 우리는 모든 손실 함수 하에서 예측 측면에서도 잘 수행 할 것이기 때문에 유망한 것으로 보인다. 캐치 검색 공간에는 실제 DGP가 거의 포함되어 있지 않습니다. 우리는 제안한 기능적 형태로 실제 DGP를 근사화합니다.

이보다 현실적인 설정에서 예측 작업이 실제 DGP의 전체 밀도를 파악하는 것보다 쉬운 경우 실제로 더 잘할 수 있습니다. 이것은 분류에 특히 해당됩니다. 예를 들어 실제 DGP는 매우 복잡 할 수 있지만 분류 작업은 매우 쉽습니다.

Yaroslav Bulatov는 자신의 블로그에서 다음 예를 제공했습니다.

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

아래에서 볼 수 있듯이 실제 밀도는 흔들리지 만 이에 의해 생성 된 데이터를 두 개의 클래스로 분리하는 분류기를 작성하는 것은 매우 쉽습니다. 출력 클래스 1이고 출력 클래스 2 인 경우 간단합니다 .엑스0엑스<0

여기에 이미지 설명을 입력하십시오

위의 정확한 밀도와 일치하는 대신 아래의 조잡한 모델을 제안합니다. 이는 실제 DGP와는 상당히 다릅니다. 그러나 그것은 완벽한 분류를합니다. 이것은 적절하지 않은 힌지 손실을 사용하여 발견됩니다.

여기에 이미지 설명을 입력하십시오

반면에 로그 손실이있는 실제 DGP를 찾기로 결정한 경우 (정확한) 정확한 기능적 형태가 무엇인지 알지 못하므로 일부 기능을 갖추기 시작합니다. 그러나 당신이 그것을 맞추려고 더 열심히 노력할 때, 당신은 물건을 잘못 분류하기 시작합니다.

여기에 이미지 설명을 입력하십시오

두 경우 모두 동일한 기능 양식을 사용했습니다. 부적절한 손실의 경우 단계 함수로 퇴화되어 완벽한 분류가 이루어졌습니다. 적절한 경우 밀도의 모든 영역을 만족 시키려고 애를 썼다.

기본적으로 정확한 예측을 위해 항상 실제 모델을 달성 할 필요는 없습니다. 때로는 밀도의 전체 영역에서 좋은 일을 할 필요는 없지만 특정 부분에서만 잘 할 수도 있습니다.


13
그것은 참으로 훌륭한 음식입니다.
Matthew Drury

7

정확성 (정확하게 분류 된 백분율)은 부적절한 점수 규칙이므로 어떤 의미에서는 사람들이 항상 그렇게합니다.

보다 일반적으로 예측을 미리 정의 된 범주로 강제하는 모든 점수 규칙은 부적절합니다. 분류는 이것의 극단적 인 경우입니다 (유일한 예측은 0 %와 100 %입니다). 그러나 일기 예보도 약간 부적절 할 수 있습니다. 지역 방송국에서 10 ~ 20 % 간격으로 비가 올 확률을보고하는 것 같습니다. 기본 모델이 훨씬 더 정확합니다.

적절한 점수 규칙은 또한 예측자가 위험 중립적이라고 가정합니다. 일반적으로 위험에 불리한 실제 인간 예측가에게는 해당되지 않는 경우가 있으며, 일부 응용 프로그램에서는 해당 편향을 재현하는 점수 규칙의 이점을 누릴 수 있습니다. 예를 들어, 우산을 가지고 다니기 때문에 P (rain)에 약간의 무게를 더할 수 있지만 호우에 걸리는 것보다 훨씬 좋습니다.


3
세 번째 단락을 이해하지 못하는 것 같습니다. 나는 우리가 예측 밀도의 높은 수량을 얻는 데 더 집중하고 싶을 수도있는 유사한 대답을 작성했지만, 그러한 손실 함수가 어떻게 부적절한 점수 규칙을 사용하도록 동기를 부여하는지는 알 수 없습니다. 우리는 여전히 올바른 미래 분포를 예측하는 데 여전히 동기가 있습니다. 좀 더 자세히 설명해 주시겠습니까?
S. Kolassa-복원 Monica Monica

1
예측자가 값 대신 예상 유틸리티를 최대화하면 적절한 점수 규칙이 실제로 적절하지 않을 수 있습니다 (예 : 유틸리티가 점수의 선형 함수가 아닌 경우). 그러나 유틸리티 기능을 알고 있거나 추정 할 수 있다면 역수를 적용하는 대신 특수하게 맞춤 된 적절한 채점 규칙을 생각해 낼 수있을 것입니다.
매트 크라우스

3
그러나 점수 규칙의 적절성 여부는 유틸리티와 관련이 없으며 예측되고 실제 미래 분포와 만 관련이 있으므로 의견의 첫 번째 문장을 이해하지 못하거나 왜 우리가 부적절한 점수 규칙을 사용하고 싶습니까? . 그러나 당신 Ehm이 al논문 을 생각 나게합니다 . JRSS-B실 렸습니다. 나는 중단 된 답변을 쓰지 않았지만 현재 질문에 유용한 것을 찾지 못했습니다.
S. Kolassa-복 직원 모니카

@StephanKolassa, 아마도 Winkler & Jose 마지막 페이지의 첫 번째 열인 "점수 규칙" (2010)에 설명되어 있습니까?
Richard Hardy

의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.