로지스틱 회귀 분석에 P> 0.5 컷오프가 "최적"이 아닌 이유는 무엇입니까?


13

PREFACE : 컷오프 사용의 장점 또는 컷오프 선택 방법에 대해서는 신경 쓰지 않습니다. 내 질문은 순전히 수학적이며 호기심 때문입니다.

로지스틱 회귀는 클래스 A 대 클래스 B의 사후 조건부 확률을 모델링하며 사후 조건부 확률이 동일한 초평면에 적합합니다. 따라서 이론적으로 0.5 분류 포인트는 사후 확률을 모델링하기 때문에 (균일 한 동일한 클래스 비율이 있다고 가정 할 때) 세트 균형에 관계없이 총 오류를 최소화한다는 것을 이해했습니다.

실제 예제에서, 분류 컷오프 (약 51 % 정확도)로 P> 0.5를 사용하여 정확도가 매우 떨어집니다. 그러나 AUC를 살펴보면 0.99 이상입니다. 그래서 나는 다른 컷오프 값을보고 P> 0.6이 98 %의 정확도 (더 작은 클래스의 경우 90 %, 더 큰 클래스의 경우 99 %)를 제공한다는 사실을 발견했습니다.

수업은 불균형이 심하며 (1 : 9) 차원이 큰 문제입니다. 그러나 클래스 맞춤과 예측 간의 클래스 균형간에 차이가 발생하지 않도록 클래스를 각 교차 유효성 검사 세트에 동일하게 할당했습니다. 또한 모형 적합 및 예측에서 동일한 데이터를 사용해 보았으며 동일한 문제가 발생했습니다.

0.5가 오류를 최소화하지 않는 이유에 관심이 있습니다. 교차 엔트로피 손실을 최소화하여 모델이 적합하면 의도적으로 설계된 것이라고 생각했습니다.

왜 이런 일이 발생했는지에 대한 의견이 있습니까? 벌칙을 추가 한 것입니까? 그렇다면 누군가 어떻게되는지 설명 할 수 있습니까?



스코트 치, 당신은 당신이 관련이 있다고 생각하는 컷오프에 대해 어떤 질문에 대해 좀 더 구체적 일 수 있습니까? 게시하기 전이나 지금은 관련 질문이나 답변을 보지 못했습니다.
felix000

죄송합니다, 모두가 귀하의 질문에 답변했다는 의미는 아닙니다. 그러나 성능 기준으로 컷오프에서 정확도를 사용하지 않거나 유틸리티에서 계산되지 않은 임의 컷오프가 아니라는 제안과 관련이 있다고 생각했습니다. 함수.
Scortchi-Monica Monica 복원

답변:


16

로지스틱 회귀 모델에서 예측 된 범주를 얻을 필요는 없습니다. 예상 확률로 괜찮을 수 있습니다. 예측 된 범주를 얻는 경우 해당 정보를 사용하여 '이 관찰은이 범주로 가장 잘 분류됩니다'라는 말 이외의 다른 작업을 수행 해서는 안됩니다 . 예를 들어, 모델을 선택하기 위해 '정확도'/ 백분위 수를 사용해서는 안됩니다.

그런 말을 했지만 이 관측을 분류하기위한 최적의 컷오프가되는 경우는 거의 없습니다. 이런 일이 수있는 방법의 직관적 인 감각을 얻으려면, 당신이 가지고 상상 로 양의 범주에서 관찰. 을 컷오프로 사용하면 단순한 절편 전용 모델에 쉽게 오탐이있을 수 있습니다 . 반면에 모든 것을 긍정적이라고 불렀다면 오탐 (false positive)이지만 정확합니다. .50N=1009949.50199%

보다 일반적으로 로지스틱 회귀 분석은 설명 변수의 함수로서 관측치에 대한 실제 확률 양성에 맞추려고합니다. 컷오프를 중심으로 예측 된 확률을 중심으로 정확도를 최대화하려고하지 않습니다 . 샘플이없는 경우 긍정적, 그냥 이유가 없다 퍼센트가 올바른 극대화 할 것입니다..5050%.50


안녕하세요, 설명해 주셔서 감사하지만 가로 채기 전용 모델의 예는 얻지 못했습니다. 인터셉트 전용 모델을 사용하면 모든 예에서 0.99를 얻을 수 있으므로 임계 값을 가져와 99 %의 정확도를 얻을 수 있습니다.
abcdaire

0

여러 가지 이유 때문일 수 있습니다.

  1. 데이터에 비선형 성이있을 수 있으므로 가중치를 선형으로 추가해도 항상 올바른 확률을 얻을 수있는 것은 아닙니다
  2. 변수는 좋은 예측 변수와 약한 예측 변수의 혼합이므로 점수가 약 0.5 인 인구는 예측 변수가 약하거나 강한 예측 변수의 영향이 적기 때문입니다. 위에 올라감에 따라 예측 변수의 효과가 강한 사람들을 얻게됩니다

따라서 정밀도, 정확도 등 원하는 출력을 최대화하기 위해 컷오프 값을 가지고 놀아야 할 수도 있습니다. 대부분의 시간 집단은 균질하지 않기 때문입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.