두 가지 결과 a와 b로 이벤트를 모델링하고 있습니다. a 또는 b가 발생할 확률을 추정하는 모델을 만들었습니다 (예 : 모델이 a가 40 % 확률로 발생하고 b가 60 % 확률로 발생한다고 계산합니다).
모델의 추정치에 대한 시행 결과에 대한 큰 기록이 있습니다. 모델이이 데이터를 얼마나 정확하게 사용하고 있는지 정량화하고 싶습니다. 이것이 가능합니까? 그렇다면 어떻게해야합니까?
두 가지 결과 a와 b로 이벤트를 모델링하고 있습니다. a 또는 b가 발생할 확률을 추정하는 모델을 만들었습니다 (예 : 모델이 a가 40 % 확률로 발생하고 b가 60 % 확률로 발생한다고 계산합니다).
모델의 추정치에 대한 시행 결과에 대한 큰 기록이 있습니다. 모델이이 데이터를 얼마나 정확하게 사용하고 있는지 정량화하고 싶습니다. 이것이 가능합니까? 그렇다면 어떻게해야합니까?
답변:
모형이 실제로 A의 확률이 40 %이고 B의 확률이 60 %라고 예측한다고 가정합니다. 경우에 따라 B가 발생할 수있는 분류로 변환하기를 원할 수도 있습니다 (A보다 가능성이 높기 때문). 분류로 변환되면 모든 예측은 옳고 그름이며, 옳고 그른 답을 집계하는 흥미로운 방법이 많이 있습니다. 하나는 정확성 (정답의 백분율)입니다. 다른 것은 정밀도 및 리콜 또는 F- 측정을 포함 합니다. 다른 사람들이 언급했듯이 ROC 곡선 을 볼 수 있습니다 . 또한, 귀하의 상황은 진정한 부정과는 달리 진정한 긍정적 인 보상을하고 / 또는 거짓 부정과는 다르게 거짓 긍정을 처벌하는 특정 비용 매트릭스를 제공 할 수 있습니다.
그러나 나는 그것이 당신이 정말로 찾고있는 것이라고 생각하지 않습니다. B에 60 %의 확률이 있다고 말했고 99 %의 확률이 있다고 말한 경우, 간단한 분류 시스템에서 B에 매핑 될지라도 예측이 매우 다릅니다. A가 대신 발생하면, 당신은 내가 틀렸을 때 단지 틀린 것이므로, 나는 당신보다 더 엄격한 처벌을 받기를 바랍니다. 모형이 실제로 확률을 생성하는 경우 점수 규칙 은 확률 예측의 성과를 나타내는 척도입니다. 특히 적절한 점수 규칙을 원할 것입니다. 즉, 점수가 잘 보정 된 결과에 맞게 최적화됩니다.
물론 선택한 점수 규칙 유형은 예측하려는 이벤트 유형에 따라 달라질 수 있습니다. 그러나 이것으로 더 연구 할 아이디어를 얻을 수 있습니다.
이 방법으로 모델을 평가할 때 수행 한 작업에 관계없이 샘플에서 벗어난 데이터 (즉, 모델을 작성하는 데 사용되지 않은 데이터)에 대한 메트릭을 살펴 보는 것이 좋습니다. 이는 교차 검증을 통해 수행 할 수 있습니다 . 아마도 더 간단하게 하나의 데이터 세트에서 모델을 빌드 한 다음 다른 데이터 세트에서 모델을 평가할 수 있습니다 (샘플 부족으로 인한 유출이 샘플 내 모델링으로 유추되지 않도록주의하면서).