PREFACE : 컷오프 사용의 장점 또는 컷오프 선택 방법에 대해서는 신경 쓰지 않습니다. 내 질문은 순전히 수학적이며 호기심 때문입니다.
로지스틱 회귀는 클래스 A 대 클래스 B의 사후 조건부 확률을 모델링하며 사후 조건부 확률이 동일한 초평면에 적합합니다. 따라서 이론적으로 0.5 분류 포인트는 사후 확률을 모델링하기 때문에 (균일 한 동일한 클래스 비율이 있다고 가정 할 때) 세트 균형에 관계없이 총 오류를 최소화한다는 것을 이해했습니다.
실제 예제에서, 분류 컷오프 (약 51 % 정확도)로 P> 0.5를 사용하여 정확도가 매우 떨어집니다. 그러나 AUC를 살펴보면 0.99 이상입니다. 그래서 나는 다른 컷오프 값을보고 P> 0.6이 98 %의 정확도 (더 작은 클래스의 경우 90 %, 더 큰 클래스의 경우 99 %)를 제공한다는 사실을 발견했습니다.
수업은 불균형이 심하며 (1 : 9) 차원이 큰 문제입니다. 그러나 클래스 맞춤과 예측 간의 클래스 균형간에 차이가 발생하지 않도록 클래스를 각 교차 유효성 검사 세트에 동일하게 할당했습니다. 또한 모형 적합 및 예측에서 동일한 데이터를 사용해 보았으며 동일한 문제가 발생했습니다.
0.5가 오류를 최소화하지 않는 이유에 관심이 있습니다. 교차 엔트로피 손실을 최소화하여 모델이 적합하면 의도적으로 설계된 것이라고 생각했습니다.
왜 이런 일이 발생했는지에 대한 의견이 있습니까? 벌칙을 추가 한 것입니까? 그렇다면 누군가 어떻게되는지 설명 할 수 있습니까?