로지스틱 회귀 예측 확률을 분류의 신뢰도로 해석 할 수 있음


12

예측 된 클래스 값과 확률 (예 : 로지스틱 회귀 또는 Naive Bayes)을 출력하는 분류기에서 얻은 사후 확률을 예측 된 클래스 값에 할당 된 일종의 신뢰 점수로 해석 할 수 있습니까?

답변:


8

다른 답변의 상태가 정확하기 때문에 로지스틱 회귀 및 순진한 베이와 같은 모형의보고 된 확률은 클래스 확률의 추정치입니다. 모형이 참이면 확률은 정확한 분류의 확률 일 것입니다.

그러나 모델이 추정되어 올바른 모델이 아니기 때문에 이것이 오도 될 수 있음을 이해하는 것이 중요합니다. 적어도 세 가지 문제가 있습니다.

  • 추정치의 불확실성.
  • 모델이 잘못되었습니다.
  • 편견.

불확실성은 확률이 단지 추정치입니다 단지 어디에나 사실이다. 추정 된 클래스 확률의 신뢰 구간은 (분류가 아닌 클래스 확률의) 불확실성에 대한 아이디어를 제공 할 수 있습니다.

경우 모델이 잘못 그리고 그것을 얼굴, 그것은이다 클래스 확률은 매우 클래스 예측이 좋은 경우에도 오해의 소지가 될 수 있습니다. 로지스틱 회귀는 일부 데이터 포인트가 약간 극단적 인 경우 상당히 분리 된 두 클래스에 대해 클래스 확률을 잘못 얻을 수 있습니다. 분류 측면에서 여전히 잘 작동 할 수 있습니다.-

추정 절차가 (의도적으로) 편향 추정치를 제공하는 경우 클래스 확률이 잘못되었습니다. 이것은 로지스틱 회귀 분석을 위해 올가미 및 릿지와 같은 정규화 방법으로 볼 수 있습니다. 교차 검증 된 정규화를 선택하면 분류 측면에서 우수한 성능을 가진 모델이 생성되지만 결과 클래스 확률은 테스트 사례에서 명확하게 과소 평가됩니다 (너무 0.5에 가깝습니다). 반드시 나쁘지는 않지만 알고 있어야합니다.


2

A에 대한 테스트 케이스 (특정 입력)의 클래스 (이진 출력 레이블 1 말) , 예측 가능성은 시험 예 해당 클래스에 속하는 확률이다. 이러한 많은 테스트 사례에서 클래스 1에 속하는 비율은 예측 확률에 가깝습니다. 신뢰도 에는 신뢰 구간에 대한 의미가 있습니다.


1

분류자가 확률로 특정 클래스를 예측하면 해당 숫자를 해당 분류의 신뢰도에 대한 프록시로 사용할 수 있습니다. 신뢰 구간과 혼동하지 마십시오. 예를 들어 분류 자 ​​P가 두 경우를 확률 80 % & 60 %로 +1 & -1로 예측하면 -1 분류보다 +1 분류가 더 확실하다고 말하는 것이 옳습니다. p (1-p)에 의해 측정 된 분산은 또한 불확실성의 좋은 척도입니다. 기준 신뢰도는 0이 아니라 50 %입니다.


1

2 클래스가있는 분류 자 ​​(예 : 2 클래스 선형 판별 또는 로지스틱 회귀 분류기)를 지정하면 두 클래스의 판별 값을 softmax 함수에 적용하여 해당 클래스의 사후 확률을 추정 할 수 있습니다.

P1 = exp (d1) / (exp (d1) + exp (d2))

P1이 클래스 1에 대한 사후 확률 추정치 인 경우, d1 및 d2는 각각 클래스 1과 2에 대한 판별 값입니다. 이 경우 주어진 클래스에 대한 추정 사후 확률은 클래스에 대한 신뢰도로 간주 될 수 있습니다. 주어진 경우 P1은 1-P2와 같습니다.


1
이 대답은 "확률"과 "자신감"을 동일시하는 반면 @Yoda의 대답은 (정확히) 두 가지를 구별합니다.
whuber

@ whuber 나는 일반적으로 자신감은 믿음의 힘으로 볼 수 있다고 생각합니다. 그런 식으로 그것은 확률과 같습니다. 신뢰와 신뢰 구간은 서로 다른 두 가지입니다. 그러나 신뢰 구간이라는 용어에 대해서도 신뢰 구간은 임의 구간에 대한 적용 확률입니다.
Michael R. Chernick

"신뢰도 점수"와 같은 용어는 거의 모든 것을 의미 할 수 있다는 점에서 @Michael의 의견에 동의하지 않습니다 (그러나 그 이유 때문에 그 사용은 더 이상 사용되지 않아야합니다). 그러나 로지스틱 회귀에 의해 어떤 의미에서 "적용 확률"이 적용 되는가? 믿음의 힘으로 "자신감"을 제안한 것이 주관적인 "확률"과 동의어가됩니까, 아니면 여전히 구별이 유지됩니까? (그렇다면 무엇입니까?)
whuber

1
@ whuber 나는 당신이 내 말로 의도 한 것보다 훨씬 더 깊이 들어가고 있다고 생각합니다. "confidence"라는 단어를 신뢰 구간과 일반적으로 연결한다고해서 OPs 용어 신뢰 점수를 확률을 의미하는 데 사용할 수 없다는 의미는 아닙니다 (베이지의 확률에 대한 주관적 수준으로 볼 수 있음). 그러나 반드시 그런 것은 아닙니다.
Michael R. Chernick

1
@ whuber, 나는 실제로 '신념의 강도'라는 의미에서 클래스 레이블에 대한 신뢰를 언급했습니다. 즉, 주어진 클래스에 대한 사후 확률 값이 클수록 예측 된 클래스 레이블에 대한 자신감이 커집니다. 그러나이 답변을 제거하게되어 기쁩니다.
BGreene
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.