로지스틱 회귀 문제에 대한 decision_function, predict_proba 및 예측 함수의 차이점은 무엇입니까?


10

나는 sklearn 문서를 살펴 보았지만 로지스틱 회귀의 맥락에서 이러한 기능의 목적을 이해할 수 없습니다. 들어 decision_function그것이라고 그 초평면과 테스트 인스턴스 사이의 거리. 이 특정 정보는 어떻게 유용합니까? 방법이 어떤 관련이 있습니까 predictpredict-proba방법?

답변:


28

로지스틱 회귀의 기능적 형태는

에프(엑스)=11+이자형(β0+β1엑스1++β케이엑스케이)

이것이에 의해 반환됩니다 predict_proba.

지수 내부의 용어

(엑스)=β0+β1엑스1++β케이엑스케이

에 의해 반환되는 것 decision_function입니다. 설명서에 언급 된 "하이퍼 플레인"은

β0+β1엑스1++β케이엑스케이=0

이 용어는 문자 그대로 분리 초평면을 추정하는 서포트 벡터 머신의 용어입니다. 로지스틱 회귀 분석의 경우이 초평면은 약간 인공적인 구성이며, 모형이 두 대상 클래스가 똑같이 가능하다고 결정한 등가의 평면입니다.

predict함수는 규칙을 사용하여 클래스 결정을 반환합니다.

에프(엑스)>0.5

soapboxing의 위험이있는이 predict기능은 합법적 인 사용이 거의 없으며 다른 작업을 검토 할 때이 기능을 오류의 표시로 사용합니다. 나는 그것을 sklearn 자체에서 디자인 오류라고 부를 정도로 충분히 나아갈 것입니다 ( predict_proba함수는 호출 되어야 predict하고 , 무엇이든 predict호출되어야 predict_class합니다).


@Matthew의 답변에 감사드립니다.하지만이 점을 좀 더 명확하게 설명 할 수 있습니다. " ?
Sameed

이 설명은 흥미롭고 도움이됩니다. sklearn이 더 잘 설명하기를 바랍니다. 내가 이해하지 못하는 것은 로지스틱 함수 1 / (1 + e ^ -x)에서 x의 값을 아는 것이 무엇입니까? 내가 생각할 수있는 것은 x / (1+ | x |)와 같은 다른 시그 모이 드 함수를 사용하는 것입니다. 더 있습니까? 감사!
ldmtwo

기본적으로 결정 함수는 로지스틱 회귀 분석의 시그 모이 드 여야합니다. 옳은?
3nomis

2
@Matthew가 soapbox에있는 이유는 예측 임계 값으로 0.5를 사용하는 것이 순진하기 때문입니다. 가장 먼저해야 할 일은 교차 검증, ROC 곡선 및 AUC를 사용하여 적절한 임계 값 c를 선택하고 결정 함수 f (x)> c로 사용하는 방법을 배우는 것입니다.
hwrd
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.