분류 확률 임계 값


49

일반적으로 분류에 관한 질문이 있습니다. f는 일부 데이터 D가 주어진 확률 세트를 출력하는 분류기 (classifier)라고하자. 일반적으로 P (c | D)> 0.5이면 클래스 1을 할당하고 그렇지 않으면 0을 할당한다. 분류).

내 질문은, 내가 알면, 확률을 1로 분류하면 확률이 0.2보다 클 때 분류 기가 더 잘 수행된다는 것입니다. 분류를 수행 할 때이 새로운 임계 값을 사용하는 것이 합법적인가요?

더 작은 신호를 방출하는 데이터의 맥락에서 더 낮은 분류의 필요성을 해석합니다. 여전히 분류 문제에 중요합니다.

나는 이것이 그것을하는 한 가지 방법이라는 것을 알고 있지만, 이것이 올바른 생각이 아니라면 비슷한 방식으로 개별 기능을 강조하여 임계 값을 0.5로 유지할 수있는 데이터 변환은 무엇입니까?


7
당신은 이미 훌륭한 답을 가지고 있습니다. 그래서 그냥 이렇게 말하겠습니다 : 당신의 "정상적으로"는 정상적으로 정상이 아닙니다. 나는 "0.5의 임계 값"이 어디에서 표준이되었는지 잘 모르겠으며, 아이디어를 장려하는 훌륭한 소프트웨어가 있다는 것을 알고 있지만 일반적으로 매우 나쁜 관행입니다.
Matthew Drury

1
@MatthewDrury : 물론, 점수가 중요한 실수를하지 않는 잘 보정 된 관련 사후 확률이 아닌 한 (후자는 다른 분류 비용을 처리 할 것임).
cbeleites는 Monica를 지원합니다 Monica

답변:


68

프랭크 하렐 (Frank Harrell) 은 자신의 블로그 ( Classification vs. Prediction) 에이 글을 썼습니다 .

기본적으로 그의 주장은 새로운 표본의 각 클래스에 대한 확률을 출력 할 때 운동의 통계적 구성 요소가 종료된다는 것입니다. 새로운 관측치를 1 대 0으로 분류 할 수있는 임계 값을 선택하는 것은 더 이상 통계의 일부가 아닙니다 . 결정 구성 요소의 일부입니다 . 그리고 여기에는 모델의 확률 적 출력이 필요하지만 다음과 같은 고려 사항도 있습니다.

  • 새로운 관측 값을 클래스 1과 0으로 취급하기로 결정한 결과는 무엇입니까? 그런 다음 모든 마케팅 담당자에게 저렴한 마케팅 메일을 발송합니까? 아니면 큰 부작용으로 침윤성 암 치료를 적용합니까?
  • "true"0을 1로 처리하고 그 반대의 결과는 무엇입니까? 고객을 선택합니까? 누군가 불필요한 치료를 받습니까?
  • 나의 "클래스"는 정말로 이산 적입니까? 또는 실제로 임상 임계 값이 실제로인지적인 지름길 인 연속체 (예 : 혈압)가 있습니까? 그렇다면, 방법 까지 지금 내가 "분류"이야 경우 임계 값 이상인가?
  • 아니면 클래스 1이 될 가능성이 낮지 만 양성일 확률은 실제로 "더 많은 데이터를 얻는다", "다른 테스트를 실행"을 의미합니까?

따라서 귀하의 질문에 답변하려면 : 분류의 최종 소비자와상의하고 위의 질문에 대한 답변을 받으십시오. 또는 당신의 확률적인 결과를 그녀에게 설명하고, 그녀가 다음 단계를 밟게하십시오.


1
이 통찰력있는 답변에 감사드립니다. 문제 자체를 더 연구하겠습니다. 어떻게 든이 속성을 통계 학습 부분으로 변환 할 수 있습니다.
sdgaw erzswer

와우, 내가 이것에 무언가를 추가 할 수는 있지만 아무것도 얻지 못했으면 좋겠다.
the_SJC

4
아주 좋은 답변 : 질문이 바로 있습니다! 그러나 의사 결정 임계 값을 찾는 지 여부에 관계없이 내 직업은 응용 프로그램 측에 있습니다. 통계라고합니다. 그것은 내 전문 직무에 완전히 속합니다. 모델-또한 모든 결정이 검증 프로세스에서 다루어 져야하는 이유 때문입니다.
cbeleites는 Monica

11

스테판의 대답은 훌륭합니다. 기본적으로 분류기로 수행하려는 작업에 따라 다릅니다.

몇 가지 예만 추가하면됩니다.

최상의 임계 값을 찾는 방법은 목적 함수를 정의하는 것입니다. 이진 분류의 경우, 예를 들어 정확도 또는 F1- 점수가 될 수 있습니다. 선택한 항목에 따라 최상의 임계 값이 달라집니다. F1 점수의 경우 흥미로운 답변이 있습니다. F1 최적 임계 값이란 무엇입니까? 그것을 계산하는 방법? . 그러나 "F1- 점수를 사용하고 싶습니다"라고 말하면 실제로 선택할 수 있습니다. 이 선택이 좋은지 아닌지는 최종 목적에 달려 있습니다.

탐사와 착취 사이의 절충에 직면하는 또 다른 방법은 (Stephan의 마지막 요점) : 다중 무기 산적 은 그러한 문제의 예입니다. 정보를 수집하고 최고의 산적을 선택하는 두 가지 상충되는 목표를 다루어야합니다. . 하나의 베이지안 전략은 최선의 확률로 각 산적을 무작위로 선택하는 것입니다. 정확히 분류는 아니지만 비슷한 방식으로 출력 확률을 처리합니다.

분류자가 의사 결정 알고리즘에서 단 하나의 브릭 일 경우 최상의 임계 값은 알고리즘의 최종 목적에 따라 달라집니다. 전체 프로세스의 목적 함수와 관련하여 평가되고 조정되어야합니다.


또 다른 위대한 답변에 감사드립니다. 올바르게 이해하면 파이프 라인의 마지막 단계를 처리하는 경우 임계 값을 직접 최적화하는 것이 합법적입니다.
sdgaw erzswer

@ sdgawerzswer : 예. a) 올바른 질문에 대한 답을 최적화하고 b) 나머지 모델과 함께 해당 결정 (및 임계 값 찾기)을 확인해야합니다.
cbeleites는 Monica를 지원합니다 Monica

3

확률 계산 방법을 고려할 때 약간의 가치가있을 수 있습니다. 요즘 분류기는 바이어스 벡터를 사용하는데, 행렬에는 행렬 (선형 대수)이 곱해집니다. 벡터에 0이 아닌 값이 있으면 확률 (벡터와 행렬의 곱)은 절대 0이되지 않습니다.

이것은 선형 대수학을 사용하지 않은 사람들의 실제 세계에서 혼란을 야기합니다. 그것들은 그들이 0을 가져야한다고 생각하는 아이템들에 대한 확률 점수가 있다는 사실에 의해 방해받습니다. 다시 말해, 그들은 그 입력에 근거한 결정에서 통계적 입력을 혼동하고 있습니다. 인간으로서 우리는 확률이 0.0002234 인 것이 대부분의 "실용적인"사용 사례에서 0과 같다고 말할 수 있습니다. 더 높은인지 과학 토론에서, 편향 벡터가 왜 그렇게하는지에 대한 흥미로운 토론이있을 수도 있고, 이것이인지 응용에 유효 할 수도 있습니다.


2

잘못된 임계 값이 없습니다. 선택한 임계 값은 예측의 목표 또는 선호하는 것, 예를 들어 정밀도 대 리콜 (예 : 그래프를 표시하고 연관된 AUC를 측정하여 선택한 다른 분류 모델을 비교)에 따라 달라집니다.

나는 내가 당신 자신의 문제 사례를 지금 당장 연구하고 있기 때문에이 정밀도 대 리콜의 예를 제시하고 있습니다. 예측시 모델이 갖고 싶은 최소 정밀도 (또는 PPV Positive Predictive Value)에 따라 임계 값을 선택합니다. 부정에 대해별로 신경 쓰지 마십시오. 따라서 나는 일단 내 모델을 훈련하면 원하는 정밀도에 해당하는 임계 값을 취합니다. 정밀도는 저의 제약이며 리콜은 다른 분류 모델과 비교할 때 모델의 성능입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.