Statistics.com이 잘못된 답변을 게시 했습니까?


28

Statistics.com은 이번 주 문제를 발표했습니다. 주택 보험 사기 율은 10 %입니다 (10 건 중 하나는 사기 임). 컨설턴트는 클레임을 검토하고 사기 또는 사기가 아닌 것으로 분류 할 수있는 기계 학습 시스템을 제안했습니다. 이 시스템은 사기 클레임을 감지하는 데 90 % 효과적이지만 사기가 아닌 클레임을 올바르게 분류하는 데 80 % 만 효과적입니다 (실수로 5 분의 1을 "사기"라고 표시). 시스템이 클레임을 사기로 분류하면 실제로 사기 일 확률은 얼마입니까?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

동료와 나는 동일한 대답을 독립적으로 제시했으며 게시 된 솔루션과 일치하지 않습니다.

우리의 솔루션 :

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

그들의 해결책 :

조건부 확률 문제입니다. (또한 베이지안 문제이기도하지만 베이 즈 규칙의 수식을 적용하면 진행 상황이 모호해집니다.) 100 개의 주장을 고려하십시오. 10 개는 사기 적이며 시스템은 이들 중 9 개를 "사기"로 올바르게 표시합니다. 90 개 주장은 문제가 없지만 시스템은 72 개 (80 %)를 "사기"로 잘못 분류합니다. 따라서 총 81 개의 주장이 표시되었습니다. 사기성이지만 실제로는 9 % (11 %) 만 사기성입니다.

누가 옳았 어


4
그들은 같은 외모는 계산 된 것과 일치로 자신의 웹 사이트에 솔루션을 수정
아니

2
@ nope, 조용히 대답을 수정했습니다. 몰래
Aksakal

상식 : 행동 의사 결정에서이 문제는 종종 "유방 촬영 문제"라고합니다. 왜냐하면 일반적인 프레젠테이션은 환자가 양성 유방 촬영 영상을 받았을 때 암에 걸릴 확률에 관한 것입니다.
Kodiologist

"우리의 시스템은 사기의 90 %를 사기로 분류합니다. 나쁜 소식은 사기 이외의 80 %를 사기로 분류한다는 것입니다." 그들이 계산 한 11 %는 10 % 기본 요율보다 약간 더 높습니다. 신고 된 사례의 사기 율이 기본 요율보다 10 % 더 높은 기계 학습 모델은 상당히 끔찍합니다.
누적

이것은로 알려져있다 가양 역설
대니 Pflughoeft - BlueRaja

답변:


41

나는 당신과 당신의 동료가 정확하다고 생각합니다. Statistics.com은 올바른 사고 방식을 가지고 있지만 간단한 실수를합니다. 90 건의 "OK"클레임 중 20 %가 80 %가 아니라 사기로 잘못 분류 될 것으로 예상합니다. 90의 20 %는 18 개이며 정확하게 식별 된 9 개의 클레임과 18 개의 잘못된 클레임으로 1/3의 비율로 정확히 Bayes의 규칙이 산출합니다.


11

당신이 올바른지. 웹 사이트가 게시 한 솔루션은 비사 기적 주장의 80 %가 주어진 20 % 대신 사기로 분류된다는 점에서 오해에 기초한 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.