로지스틱 회귀 분석에서 결정 임계 값이 하이퍼 파라미터입니까?


13

(이진) 로지스틱 회귀 분석에서 예측 된 클래스는 모델에 의해 생성 된 클래스 멤버쉽 확률에 대한 임계 값을 사용하여 결정됩니다. 내가 이해하는 것처럼 일반적으로 0.5가 기본적으로 사용됩니다.

그러나 임계 값을 변경하면 예측 분류가 변경됩니다. 임계 값이 하이퍼 파라미터라는 의미입니까? 그렇다면 (예를 들어) scikit-learn의 GridSearchCV방법을 사용하여 임계 값 그리드를 쉽게 검색 할 수없는 이유는 무엇입니까 ( 정규화 매개 변수와 동일 C).


1
"알다시피, 일반적으로 기본적으로 0.5가 사용됩니다." "일반"이라는 단어의 의미에 따라 다릅니다. 실제로, 아무도 이것을하지 않아야합니다.
Matthew Drury


엄밀히 말하면 로지스틱 회귀를 의미하는 것이 아니라 이진 분류에 대한 임계 값으로 하나의 로지스틱 회귀를 사용하는 것을 의미합니다 (두 개의 클래스 각각에 대해 하나의 회귀를 훈련시킬 수 있으며 선형으로 의존하지 않도록 약간의 시드 임의성 또는 가중치를 부여 할 수 있습니다).
smci

답변:


12

의사 결정 임계 값은 예측하는 긍정 수와 예측하는 부정의 수 사이에 절충점을 만듭니다. 결과적으로 결정 임계 값을 늘리면 예측 긍정의 수가 감소하고 예측하는 부정의 수가 증가하기 때문에 당신은 예측합니다.

결정 임계 값은 하지 가 변경되지 않기 때문에 모델 조정의 의미에서 하이퍼 매개 변수 유연성 모델을.

결정 임계 값과 관련하여 "조정"이라는 단어에 대해 생각하는 방식은 하이퍼 파라미터를 조정하는 방법과 다릅니다. 변경 및 기타 모델 하이퍼 매개 변수하면 변경 모델을C(예 : 로지스틱 회귀 계수가 다름) 임계 값을 조정하면 TP는 FN, FP는 TN의 두 가지만 수행 할 수 있습니다. 그러나 계수를 변경하지 않기 때문에 모델은 동일하게 유지됩니다. (임의의 숲과 같이 계수가없는 모델의 경우도 마찬가지입니다. 임계 값을 변경해도 나무에 대해서는 아무런 변화가 없습니다.) 좁은 의미에서 오류 중에서 가장 좋은 절충점을 찾는 것이 맞습니다. 임계 값 변경이에 의해 최적화 된 방식으로 다른 모델 하이퍼 파라미터와 연결되어 있다고 생각하는 것은 잘못입니다 GridSearchCV.

달리 말하면, 결정 임계 값을 변경하면 원하는 False Positive 및 False Negatives 수에 대한 선택이 반영됩니다. 의사 결정 임계 값을 -1과 같은 완전히 무시할 수없는 값으로 설정 한 가설을 고려하십시오. 모든 확률은 음이 아니므로이 임계 값을 사용하면 모든 관측치에 대해 "긍정적"으로 예측됩니다. 특정 관점에서 보면 위음성 비율이 0.0이기 때문에 이것은 훌륭합니다. 그러나 오 탐지율도 1.0보다 크므로 -1에서 임계 값을 선택하는 것은 끔찍합니다.

물론 이상적인 TPR은 1.0이고 FPR은 0.0이고 FNR은 0.0입니다. 그러나 이것은 실제 응용 프로그램에서는 일반적으로 불가능하므로 질문은 "얼마나 많은 TPR을받을 수 있습니까?" 그리고 이것은 곡선 의 동기입니다 .


답변 @Sycorax에 감사드립니다. 당신은 저를 거의 확신 시켰습니다. 그러나 "얼마나 많은 TPR을 기꺼이 받아 들일 수 있습니까?"라는 아이디어를 공식화 할 수 없습니까? 예를 들어 비용 매트릭스 사용. 비용 매트릭스가있는 경우 하이퍼 파라미터를 튜닝 할 때 튜닝을 통해 최적의 임계 값을 찾는 것이 바람직하지 않습니까? 아니면 최적의 임계 값을 찾는 더 좋은 방법이 있습니까?
Nick

1
CGridSearchCV

@Sycorax 임계 값과 절편 (바이어스 용어)이 기본적으로 같은 일이 아닙니까? 즉, 임계 값을 0.5로 고정 할 수 있지만 그에 따라 절편을 변경할 수 있습니다. 이렇게하면 "마지막 주석에 따라"모델이 변경되지만 이진 예측의 관점에서 동일한 효과가 나타납니다. 이 올바른지? 그렇다면이 경우 "모델 변경"과 "결정 규칙 변경"간의 엄격한 구분이 그렇게 의미가 있는지 확신 할 수 없습니다.
amoeba는 Reinstate Monica가

@amoeba 이것은 도발적인 발언입니다. 나는 그것을 고려해야 할 것이다. 나는 당신의 제안이 "임계 값을 0.5로 유지하고 절편을 하이퍼 파라미터로 취급한다고 가정한다." 모델이 더 이상 가능성을 최대화하지 않는다는 관찰을 제외하고는 수학적으로 이것을 막을 수있는 것은 없습니다. 그러나 특정 상황에서는 MLE 달성이 우선 순위가 아닐 수 있습니다.
Sycorax는 Reinstate Monica가

10

그러나 임계 값을 변경하면 예측 분류가 변경됩니다. 임계 값이 하이퍼 파라미터라는 의미입니까?

그렇습니다. 그것은 의사 결정 규칙 의 초 매개 변수 이지만 근본적인 회귀는 아닙니다.

그렇다면 scikit-learn의 GridSearchCV 방법을 사용하여 임계 값 그리드를 쉽게 검색 할 수없는 이유는 무엇입니까 (정규화 매개 변수 C에서와 같이).

이것은 sklearn의 디자인 오류입니다. 대부분의 분류 시나리오에 대한 모범 사례는 이러한 확률의 품질 척도 (로지스틱 회귀 분석의 로그 손실과 같은)를 사용하여 기본 모델 (확률을 예측하는 모델)을 맞추는 것입니다. 그런 다음 분류 규칙의 일부 비즈니스 목표를 최적화하기 위해 이러한 확률에 대한 결정 임계 값을 조정해야합니다. 라이브러리는 일부 품질 측정을 기반으로 의사 결정 임계 값을 쉽게 최적화 할 수 있도록해야하지만 그렇게 잘하지는 않습니다.

나는 이것이 sklearn이 잘못한 곳 중 하나라고 생각합니다. 라이브러리에는에서 predict분류하는 모든 분류 모델에 대한 방법이 포함되어 0.5있습니다. 이 방법은 쓸모가 없으며 호출하지 않는 것이 좋습니다. sklearn이 더 나은 작업 흐름을 장려하지 않는 것은 불행한 일입니다.


또한 predict분석법의 기본 선택 0.5에 대한 회의론을 컷오프로 공유하지만 표본 외 교차 엔트로피 손실과 관련하여 모델을 조정할 수있는 객체를 GridSearchCV허용 scorer합니다. 요점을 놓치고 있습니까?
Sycorax는 Reinstate Monica가

맞습니다. 이것이 최선의 방법이라고 동의했지만 사용자가 의사 결정 임계 값을 조정하도록 권장하지는 않습니다.
Matthew Drury

알았어 네가 무슨 말을 하려는지 알 겠어!
Sycorax는 Reinstate Monica가

1
@Sycorax는 명확하게하기 위해 편집하려고했습니다!
Matthew Drury
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.