로지스틱 회귀에 대한 철학적 질문 : 왜 최적의 임계 값이 훈련되지 않습니까?


13

일반적으로 로지스틱 회귀 분석에서는 모형에 적합하고 훈련 세트에 대한 예측을 얻습니다. 그런 다음 훈련 예측 ( 여기서 와 같은 ) 을 교차 검증 하고 ROC 곡선과 같은 것을 기반으로 최적의 임계 값을 결정합니다.

실제 모델에 임계 값의 교차 검증을 통합하고 전체를 전체적으로 학습하지 않는 이유는 무엇입니까?

답변:


19

로지스틱 회귀가 분류자가 아니기 때문에 임계 값이 모형에 대해 훈련되지 않습니다 (참조 : 로지스틱 회귀가 로지스틱 분류라고하지 않는 이유는 무엇입니까? ). Bernoulli 분포의 거동을 지배하는 모수 를 추정하는 모형 입니다. 즉, 공변량에 대한 조건부 반응 분포가 Bernoulli라고 가정하므로 해당 변수를 제어하는 ​​매개 변수가 공변량의 함수로 어떻게 변하는 지 추정해야합니다. 직접 확률 모형 일뿐 입니다. 물론, 그것은 나중에 분류 자로 사용될 수 있으며 때로는 특정 상황에서 사용되지만 여전히 확률 모델입니다. p


1
좋아, 나는 이론의 그 부분을 이해한다. (웅변적인 설명에 감사한다!) 왜 분류 측면을 모델에 포함시킬 수 없습니까? 즉, 왜 우리는 p를 찾은 다음 임계 값을 찾은 다음 전체 손실을 최소화하기 위해 전체를 훈련시킬 수 없습니까?
StatsSorceress

4
당신은 확실히 할 수 있습니다 (@Sycorax의 답변 이 그 가능성을 말해줍니다). 그러나 이것이 LR 자체가 아니라 일부 기능 보강이기 때문에 전체 최적화 체계를 직접 코딩해야합니다. BTW는 Frank Harrell이 그 과정이 많은 표준에 의해 열등한 모델로 간주 될 수 있다고 지적했다 .
gung-복직 모니카

1
흠. 여기 에서 관련 질문에 대한 대답을 읽었 으며 이론적으로는 동의하지만 때로는 기계 학습 분류 응용 프로그램에서는 상대 오류 유형에 신경 쓰지 않고 "올바른 분류"에 대해서만 신경 씁니다. 이 경우, 내가 설명하는대로 종단 간 훈련을 할 수 있습니까?
StatsSorceress

4
내가 말했듯이, 모델을 훈련시키고 동시에 임계 값을 선택하는 맞춤형 최적화를 설정할 수 있습니다. 당신은 그것을 직접해야하며 최종 모델은 대부분의 표준에 의해 열악 할 수 있습니다.
gung-복직 모니카

1
@StatsSorceress "... 때때로 기계 학습 분류에서 ...". 때때로 큰 강조가 있어야한다 . 정확성 이 정답 인 프로젝트를 상상하기는 어렵습니다 . 내 경험상, 그것은 항상 소수 클래스의 정확성과 리콜을 포함합니다.
Wayne

15

최적의 임계 값은 TPR (True Positive Rate), FPR (False Positive Rate), 정확성 또는 그 밖의 다른 기능에 불과하기 때문입니다. 다른 중요한 요소는 정확하고 잘못된 결정 의 비용과 대가입니다 .

당신의 목표가 감기에 걸린 경우, 긍정적 인 검사에 대한 귀하의 반응은 두 개의 아스피린을 처방하는 것이며, 치료되지 않은 진정한 양의 비용은 2 일 동안 두통이 필요하지 않으며, 최적의 결정 (분류 아님)은 임계 값입니다. 당신의 목표가 생명을 위협하는 질병이라면, 당신의 결정은 (a) 충수 절제술과 같은 비교적 간단한 절차, 또는 (b) 화학 요법과 같은 주요한 개입입니다! 목표 변수가 이진 (병 / 건강) 일 수 있지만, 결정에 더 많은 가치가있을 수 있습니다 (두 개의 아스피린으로 집으로 보내거나 더 많은 검사를 실행 / 병원에 입원하고 즉시 감시 / 운영).

결론 : 비용 구조와 모든 다른 결정을 알고 있다면 확률 적 분류 또는 예측을 포함하여 의사 결정 지원 시스템 (DSS)을 직접 훈련시킬 수 있습니다. 그러나 나는 임계 값을 통해 예측이나 분류를 구별하는 것이 이것에 대한 올바른 방법이 아니라고 강력하게 주장합니다.

이전의 "분류 확률 임계 값"스레드에 대한 답변 도 참조하십시오 . 아니면 내 대답입니다 . 또는 저것 .


4

철학적 인 문제는 제쳐두고, 이것은 계산상의 어려움을 야기 할 것입니다.

그 이유는 연속 출력 기능이 비교적 최적화하기 쉽기 때문입니다. 함수가 증가하는 방향을 찾은 다음 그렇게합니다. "차단"단계를 포함하도록 손실 기능을 변경하면 출력이 불연속 적이기 때문에 손실 기능도 불 연속적입니다. 이제 로지스틱 함수의 매개 변수를 "조금"으로 변경하고 컷오프 값을 "조금"으로 변경하면 손실이 동일한 값을 제공하고 최적화가 어려워집니다. 물론 불가능하지는 않지만 ( 이산 최적화 에는 전체 연구 분야가 있습니다 ) 지속적인 최적화는 지금까지입니다많은 매개 변수를 최적화 할 때 해결하기 쉬운 문제. 편리하게는 일단 로지스틱 모델이 적합 해지면 여전히 불연속 출력 문제이지만 최적의 컷오프를 찾는 것이 이제는 하나의 변수에만 있고 그리드 검색 또는 하나의 변수에서 완전히 실행 가능한 일부만 수행 할 수 있습니다.


3

기본 모델에 관계없이 TPR 및 FPR의 샘플링 분포를 임계 값으로 계산할 수 있습니다. 이는 일부 임계 값에서 TPR 및 FPR의 변동성을 특성화 할 수 있으며 원하는 오류율 트레이드 오프로 되돌릴 수 있음을 의미합니다.

ROC 곡선은 제어하는 ​​유일한 것은 임계 값이기 때문에 약간 기만적이지만 플롯에는 임계 값의 함수 인 TPR 및 FPR이 표시됩니다. 또한 TPR과 FPR은 모두 통계 이므로 임의 샘플링의 차이가 있습니다. 이는 절차를 반복해야하는 경우 (예 : 교차 유효성 검사) 특정 임계 값에서 다른 FPR 및 TPR을 얻을 수 있음을 의미합니다.

그러나 TPR 및 FPR의 변동성을 추정 할 수 있으면 ROC 절차를 반복 할 필요가 없습니다. 신뢰 구간의 끝점 (일부 폭)이 허용되도록 임계 값을 선택합니다. 즉, FPR이 연구원이 지정한 최대 값 보다 낮게 그리고 / 또는 TPR이 연구원이 지정한 최소값 보다 높 도록 모델을 선택하십시오 . 모델이 목표를 달성 할 수 없으면 더 나은 모델을 만들어야합니다.

물론, 사용에서 허용 가능한 TPR 및 FPR 값은 상황에 따라 다릅니다.

자세한 내용 은 Wojtek J. Krzanowski와 David J. Hand의 연속 데이터대한 ROC 곡선을 참조하십시오 .


이것은 실제로 내 질문에 대답하지는 않지만 ROC 곡선에 대한 아주 좋은 설명입니다.
StatsSorceress

이것은 어떤 방법으로 귀하의 질문에 대답하지 않습니까? 분류 임계 값을 선택하는 방법에 대해 묻지 않은 경우 질문은 무엇입니까?
Sycorax는 Reinstate Monica가

2
나는 그런 식으로 작동하는 통계 절차를 모른다. 이 사각형 바퀴가 왜 좋은 생각입니까? 어떤 문제가 해결됩니까?
Sycorax는 Reinstate Monica가

1
"교육 시간을 줄이는 방식으로 임계 값을 어떻게 선택합니까?" 원래 게시물의 질문과는 매우 다른 질문 인 것 같습니다.
Sycorax는 Reinstate Monica가

1
어쨌든, 이것이 어떻게 시간을 절약하는지 알 수 없습니다. ROC 곡선을 만드는 것은 모델 추정에서 가장 비싼 부분이 아니므로 임계 값 선택을 최적화 단계로 옮기는 것은 특별 하고 불필요합니다.
Sycorax는 Reinstate Monica가

-2

일반적으로 생의학 연구에서는 훈련 세트를 사용하지 않습니다. 우리는 전체 데이터 세트에 로지스틱 회귀를 적용하여 현재 예측중인 결과에 어떤 위험 요소가 중요한지 확인합니다. 또는 결과에 대한 다른 가능한 예측 변수의 영향을 제어하면서 관심있는 예측 변수 하나를 살펴 봅니다.
나는 당신이 임계 값에 의해 무엇을 의미하는지 잘 모르겠지만, AUC, 연속 예측 변수의 이분법 화를위한 컷오프 값, 양수 및 음의 예측 값, 신뢰 구간 및 p- 값, 위양성 및 위음성. 로지스틱 회귀 분석은 피험자 집단을보고 해당 집단에 대한 관심 결과에 영향을 미치는 위험 요인의 강도 및 인과 방향을 평가합니다. 또한 "역순으로 실행"하여 말하자면 개인이 가지고있는 위험 요소를 고려할 때 결과에 ​​대한 개인의 위험을 결정하는 것도 가능합니다. 로지스틱 회귀 분석은 개별 위험 요인에 따라 각 개인에게 결과의 위험을 할당하며 기본적으로 0.5입니다. 주제가 s 결과 (모델의 모든 데이터 및 주제를 기반으로 함)를 가질 확률은 0.5 이상이며, 결과가있을 것으로 예상합니다. 0.5 미만이면 그는 그렇지 않을 것으로 예측합니다. 그러나이 컷오프 레벨을 조정하여 모델에 의해 더 많은 오탐 (false positive)이 예상 되더라도 결과를 낼 위험이있는 개인을 더 표시 할 수 있습니다. 예를 들어, 추가적인 의학적 후속 조치를 권고 할 개인을 예측하기 위해 선별 결정을 최적화하기 위해이 차단 수준을 조정할 수 있습니다. 로지스틱 회귀 모델을 기반으로 스크리닝 테스트를 위해 양의 예측 값, 음의 예측 값 및 위양성 및 위양성 비율을 구성합니다. 데이터 집합의 절반에 모델을 개발하고 다른 절반에 모델을 테스트 할 수 있지만 t는 실제로해야합니다 (그렇게하면 '훈련'데이터가 절반으로 줄어들어 모델에서 중요한 예측 변수를 찾는 힘을 줄입니다). 그렇습니다. '모든 것을 끝까지 훈련'할 수 있습니다. 물론의 생명 연구에서는 결과를 더 많은 인구로 일반화 할 수 있다고 말하기 전에 다른 데이터 세트에서 다른 인구 집단에 대해 유효성을 검사하고자합니다. 또 다른 접근법은 연구 모집단의 하위 샘플에서 모델을 실행하는 부트 스트래핑 유형의 접근 방식을 사용한 다음 해당 주제를 풀로 다시 대체하고 다른 샘플로 여러 번 (일반적으로 1000 회) 반복하는 것입니다. 규정 된 대부분의 시간 (예 : 95 %의 시간)으로 중요한 결과를 얻으면 최소한 자신의 데이터에서 모델의 유효성을 검증 한 것으로 간주 할 수 있습니다. 다시 말하지만 모델을 실행하는 연구 인구가 적을수록 일부 예측 변수는 통계적으로 유의미한 위험 요소가 될 가능성이 낮습니다. 이것은 참가자 수가 제한적인 생물 의학 연구에서 특히 그렇습니다.
데이터의 절반을 사용하여 모델을 '교육'한 다음 다른 절반에서 '검증'하는 것은 불필요한 부담입니다. t- 검정 또는 선형 회귀에 대해서는 그렇게하지 않는 이유는 무엇입니까? 가장 좋은 방법은 '그렇습니다.'라고 말하지만 전체 데이터 세트를 사용하는 경우 어쨌든 결정합니다. 데이터를 더 작은 데이터 세트로 나누면 표본 크기가 작고 연구 규모에 대한 예측 변수가 너무 많기 때문에 실제로 존재할 때 연구 집단 (또는 검증 집단)에서 유의 한 위험 요소를 감지하지 못할 위험이 있습니다. 귀하의 '유효성 검사 샘플'에는 우연히 연관성이 표시되지 않습니다. 'train then validate'접근 방식의 논리는 중요한 것으로 식별 한 위험 요소가 충분히 강하지 않으면 그런 다음 무작위로 선택한 데이터의 절반을 모델링 할 때 통계적으로 유의하지 않습니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요소가 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 무작위로 선택한 데이터의 절반을 모델링 할 때 통계적으로 유의하지 않아야합니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요소가 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 무작위로 선택한 데이터의 절반을 모델링 할 때 통계적으로 유의하지 않아야합니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요소가 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요인이 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요인이 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.