답변:
로지스틱 회귀가 분류자가 아니기 때문에 임계 값이 모형에 대해 훈련되지 않습니다 (참조 : 로지스틱 회귀가 로지스틱 분류라고하지 않는 이유는 무엇입니까? ). Bernoulli 분포의 거동을 지배하는 모수 를 추정하는 모형 입니다. 즉, 공변량에 대한 조건부 반응 분포가 Bernoulli라고 가정하므로 해당 변수를 제어하는 매개 변수가 공변량의 함수로 어떻게 변하는 지 추정해야합니다. 직접 확률 모형 일뿐 입니다. 물론, 그것은 나중에 분류 자로 사용될 수 있으며 때로는 특정 상황에서 사용되지만 여전히 확률 모델입니다.
최적의 임계 값은 TPR (True Positive Rate), FPR (False Positive Rate), 정확성 또는 그 밖의 다른 기능에 불과하기 때문입니다. 다른 중요한 요소는 정확하고 잘못된 결정 의 비용과 대가입니다 .
당신의 목표가 감기에 걸린 경우, 긍정적 인 검사에 대한 귀하의 반응은 두 개의 아스피린을 처방하는 것이며, 치료되지 않은 진정한 양의 비용은 2 일 동안 두통이 필요하지 않으며, 최적의 결정 (분류 아님)은 임계 값입니다. 당신의 목표가 생명을 위협하는 질병이라면, 당신의 결정은 (a) 충수 절제술과 같은 비교적 간단한 절차, 또는 (b) 화학 요법과 같은 주요한 개입입니다! 목표 변수가 이진 (병 / 건강) 일 수 있지만, 결정에 더 많은 가치가있을 수 있습니다 (두 개의 아스피린으로 집으로 보내거나 더 많은 검사를 실행 / 병원에 입원하고 즉시 감시 / 운영).
결론 : 비용 구조와 모든 다른 결정을 알고 있다면 확률 적 분류 또는 예측을 포함하여 의사 결정 지원 시스템 (DSS)을 직접 훈련시킬 수 있습니다. 그러나 나는 임계 값을 통해 예측이나 분류를 구별하는 것이 이것에 대한 올바른 방법이 아니라고 강력하게 주장합니다.
이전의 "분류 확률 임계 값"스레드에 대한 답변 도 참조하십시오 . 아니면 내 대답입니다 . 또는 저것 .
철학적 인 문제는 제쳐두고, 이것은 계산상의 어려움을 야기 할 것입니다.
그 이유는 연속 출력 기능이 비교적 최적화하기 쉽기 때문입니다. 함수가 증가하는 방향을 찾은 다음 그렇게합니다. "차단"단계를 포함하도록 손실 기능을 변경하면 출력이 불연속 적이기 때문에 손실 기능도 불 연속적입니다. 이제 로지스틱 함수의 매개 변수를 "조금"으로 변경하고 컷오프 값을 "조금"으로 변경하면 손실이 동일한 값을 제공하고 최적화가 어려워집니다. 물론 불가능하지는 않지만 ( 이산 최적화 에는 전체 연구 분야가 있습니다 ) 지속적인 최적화는 지금까지입니다많은 매개 변수를 최적화 할 때 해결하기 쉬운 문제. 편리하게는 일단 로지스틱 모델이 적합 해지면 여전히 불연속 출력 문제이지만 최적의 컷오프를 찾는 것이 이제는 하나의 변수에만 있고 그리드 검색 또는 하나의 변수에서 완전히 실행 가능한 일부만 수행 할 수 있습니다.
기본 모델에 관계없이 TPR 및 FPR의 샘플링 분포를 임계 값으로 계산할 수 있습니다. 이는 일부 임계 값에서 TPR 및 FPR의 변동성을 특성화 할 수 있으며 원하는 오류율 트레이드 오프로 되돌릴 수 있음을 의미합니다.
ROC 곡선은 제어하는 유일한 것은 임계 값이기 때문에 약간 기만적이지만 플롯에는 임계 값의 함수 인 TPR 및 FPR이 표시됩니다. 또한 TPR과 FPR은 모두 통계 이므로 임의 샘플링의 차이가 있습니다. 이는 절차를 반복해야하는 경우 (예 : 교차 유효성 검사) 특정 임계 값에서 다른 FPR 및 TPR을 얻을 수 있음을 의미합니다.
그러나 TPR 및 FPR의 변동성을 추정 할 수 있으면 ROC 절차를 반복 할 필요가 없습니다. 신뢰 구간의 끝점 (일부 폭)이 허용되도록 임계 값을 선택합니다. 즉, FPR이 연구원이 지정한 최대 값 보다 낮게 그리고 / 또는 TPR이 연구원이 지정한 최소값 보다 높 도록 모델을 선택하십시오 . 모델이 목표를 달성 할 수 없으면 더 나은 모델을 만들어야합니다.
물론, 사용에서 허용 가능한 TPR 및 FPR 값은 상황에 따라 다릅니다.
자세한 내용 은 Wojtek J. Krzanowski와 David J. Hand의 연속 데이터 에 대한 ROC 곡선을 참조하십시오 .
일반적으로 생의학 연구에서는 훈련 세트를 사용하지 않습니다. 우리는 전체 데이터 세트에 로지스틱 회귀를 적용하여 현재 예측중인 결과에 어떤 위험 요소가 중요한지 확인합니다. 또는 결과에 대한 다른 가능한 예측 변수의 영향을 제어하면서 관심있는 예측 변수 하나를 살펴 봅니다.
나는 당신이 임계 값에 의해 무엇을 의미하는지 잘 모르겠지만, AUC, 연속 예측 변수의 이분법 화를위한 컷오프 값, 양수 및 음의 예측 값, 신뢰 구간 및 p- 값, 위양성 및 위음성. 로지스틱 회귀 분석은 피험자 집단을보고 해당 집단에 대한 관심 결과에 영향을 미치는 위험 요인의 강도 및 인과 방향을 평가합니다. 또한 "역순으로 실행"하여 말하자면 개인이 가지고있는 위험 요소를 고려할 때 결과에 대한 개인의 위험을 결정하는 것도 가능합니다. 로지스틱 회귀 분석은 개별 위험 요인에 따라 각 개인에게 결과의 위험을 할당하며 기본적으로 0.5입니다. 주제가 s 결과 (모델의 모든 데이터 및 주제를 기반으로 함)를 가질 확률은 0.5 이상이며, 결과가있을 것으로 예상합니다. 0.5 미만이면 그는 그렇지 않을 것으로 예측합니다. 그러나이 컷오프 레벨을 조정하여 모델에 의해 더 많은 오탐 (false positive)이 예상 되더라도 결과를 낼 위험이있는 개인을 더 표시 할 수 있습니다. 예를 들어, 추가적인 의학적 후속 조치를 권고 할 개인을 예측하기 위해 선별 결정을 최적화하기 위해이 차단 수준을 조정할 수 있습니다. 로지스틱 회귀 모델을 기반으로 스크리닝 테스트를 위해 양의 예측 값, 음의 예측 값 및 위양성 및 위양성 비율을 구성합니다. 데이터 집합의 절반에 모델을 개발하고 다른 절반에 모델을 테스트 할 수 있지만 t는 실제로해야합니다 (그렇게하면 '훈련'데이터가 절반으로 줄어들어 모델에서 중요한 예측 변수를 찾는 힘을 줄입니다). 그렇습니다. '모든 것을 끝까지 훈련'할 수 있습니다. 물론의 생명 연구에서는 결과를 더 많은 인구로 일반화 할 수 있다고 말하기 전에 다른 데이터 세트에서 다른 인구 집단에 대해 유효성을 검사하고자합니다. 또 다른 접근법은 연구 모집단의 하위 샘플에서 모델을 실행하는 부트 스트래핑 유형의 접근 방식을 사용한 다음 해당 주제를 풀로 다시 대체하고 다른 샘플로 여러 번 (일반적으로 1000 회) 반복하는 것입니다. 규정 된 대부분의 시간 (예 : 95 %의 시간)으로 중요한 결과를 얻으면 최소한 자신의 데이터에서 모델의 유효성을 검증 한 것으로 간주 할 수 있습니다. 다시 말하지만 모델을 실행하는 연구 인구가 적을수록 일부 예측 변수는 통계적으로 유의미한 위험 요소가 될 가능성이 낮습니다. 이것은 참가자 수가 제한적인 생물 의학 연구에서 특히 그렇습니다.
데이터의 절반을 사용하여 모델을 '교육'한 다음 다른 절반에서 '검증'하는 것은 불필요한 부담입니다. t- 검정 또는 선형 회귀에 대해서는 그렇게하지 않는 이유는 무엇입니까? 가장 좋은 방법은 '그렇습니다.'라고 말하지만 전체 데이터 세트를 사용하는 경우 어쨌든 결정합니다. 데이터를 더 작은 데이터 세트로 나누면 표본 크기가 작고 연구 규모에 대한 예측 변수가 너무 많기 때문에 실제로 존재할 때 연구 집단 (또는 검증 집단)에서 유의 한 위험 요소를 감지하지 못할 위험이 있습니다. 귀하의 '유효성 검사 샘플'에는 우연히 연관성이 표시되지 않습니다. 'train then validate'접근 방식의 논리는 중요한 것으로 식별 한 위험 요소가 충분히 강하지 않으면 그런 다음 무작위로 선택한 데이터의 절반을 모델링 할 때 통계적으로 유의하지 않습니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요소가 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 무작위로 선택한 데이터의 절반을 모델링 할 때 통계적으로 유의하지 않아야합니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요소가 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 무작위로 선택한 데이터의 절반을 모델링 할 때 통계적으로 유의하지 않아야합니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요소가 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요인이 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 그러나 무작위로 선택된 표본은 우연히 연관성이 나타나지 않거나 위험 요인이 통계적으로 유의하기에 너무 작기 때문에 발생할 수 있습니다. 그러나 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다. 위험 요소의 크기와 통계적 중요성이 중요도를 결정하므로 이러한 이유로 전체 데이터 세트를 사용하여 모델을 작성하는 것이 가장 좋습니다. 통계적 유의성은 대부분의 통계 테스트와 마찬가지로 표본 크기가 작을수록 중요도가 떨어집니다. 로지스틱 회귀 분석은 통계 과학만큼이나 예술입니다. 스터디 디자인에 따라 사용 방법과 최적화 방법이 다릅니다.