로지스틱 회귀 분석이 잘 수행 된 이유와 교정 방법을 망치는 방법은 무엇입니까?


9

scikit에서 확률 보정에 대한 문서를 배우면 로지스틱 회귀 분석을 다른 방법과 비교하고 랜덤 포레스트가 로지스틱 회귀 분석보다 덜 교정되었음을 나타냅니다.

로지스틱 회귀 분석이 잘 조정 된 이유는 무엇입니까? 어떻게 로지스틱 회귀의 교정을 망칠 수 있습니까?

답변:


4

이 질문과 첫 번째 답변은 로지스틱 회귀 모델 교정의 이론적 문제에 초점을 맞추고 있지만 다음과 같은 문제입니다.

로지스틱 회귀의 교정을 어떻게 망칠 수 있습니까?

이 페이지의 향후 독자를 위해 실제 응용 프로그램과 관련하여 약간의주의를 기울여야합니다. 로지스틱 회귀 모델이 잘 지정되어 있어야하며이 문제는 로지스틱 회귀에 특히 문제가 될 수 있다는 것을 잊지 말아야합니다.

첫째, 클래스 멤버 자격의 로그 확률이 ​​모형에 포함 된 예측 변수와 선형으로 관련되지 않은 경우 제대로 보정되지 않습니다. 이항 로지스틱 회귀 분석에 관한 Harrell의 10 장은 "모형 적합도 평가"에 약 20 페이지를 할당하여 @whuber가 실제로 언급 한 것처럼 "최대 가능성 추정기의 점근 적 편견"을 활용할 수 있습니다.

둘째, 모델 사양은 로지스틱 회귀 분석에서 특별한 문제입니다 . 일반 선형 회귀 분석의 배경을 가진 사람들에게는 놀라 울 수 있는 고유 한 생략 된 변수 바이어스 가 있기 때문입니다. 그 페이지에 따르면 :

생략 된 변수가 포함 된 변수와 상관되지 않더라도 생략 된 변수는 포함 된 변수에 대한 계수를 바이어스합니다.

이 페이지에는 관련되고 분석적으로 다루기 쉬운 프로 빗 모델에 대한 이론적 설명 과 함께이 동작이 예상되는 이유에 대한 유용한 설명도 있습니다 . 따라서 클래스 멤버십과 관련된 모든 예측 변수를 포함했다는 사실을 알지 못하면 실제로는 사양이 잘못되어 교정이 제대로되지 않을 수 있습니다.

모델 사양과 관련하여 전체 예측 변수 값 범위에 대해 선형성을 가정하지 않고 기본적으로 예측 변수 간 상호 작용을 찾고 포함 할 수있는 가능성을 제공하는 임의 포리스트와 같은 트리 기반 방법이 더 나은 결과를 가져올 수 있습니다. 교호 작용 항이나 비선형 성을 충분히 고려하지 않은 로지스틱 회귀 모형보다 실제로 교정 모형. 생략 된 변수의 편향과 관련하여, 클래스 멤버쉽 확률을 평가하는 방법이 그 문제를 적절하게 처리 할 수 ​​있는지는 확실하지 않습니다.


5

로지스틱 회귀는 기본적으로 매개 변수 피팅하여 입력 공간 에서 확률 함수 를 학습하는 분류 방법입니다 . 예측 된 확률이 적절한 손실 함수로 학습되는 경우 로지스틱 회귀보다 이진 이벤트 확률의 충분한 용량 (입력 기능)이있을 때마다 이진 이벤트 확률의 편견없는 추정을 학습 할 가능성이 있습니다.πθ(x)θ

로그 손실은 이러한 편견없는 추정을 허용합니다. 로그 손실 함수는 단순히 Bernoulli 분포 의 음의 로그 가능성이라는 사실을 고려하십시오 . 변수 대한 일련의 관측치가 주어지면 의 최대 우도 추정값 은 편향되지 않습니다. 일부 입력 공간을 통해 분류의 경우 , 하나는 모든 점에 대해 하나 개의 베르누이 분포 상상할 수 . 대부분의 경우 Bernoulli 분포 당 1 개의 관측 값 만 있습니다. 관측 된 모든 Bernoulli 분포 대해 최대 우도 추정을 함께 적용zBer(p)pzXXyixiyiBer(π(xi)) 몇 가지 제약 조건이 적용됩니다 . 이러한 모든 제약 조건은 편견없는 추정으로 이어지고, 함수가 진정한 기본 확률 함수 에 적합하도록 충분히 유연하기 만하면 학습 절차는 일관되며 최적의 모델로 수렴됩니다. 더 많은 데이터. 따라서 모형 용량을 제한하면 (예 : 기능이 더 적음) 최적의 학습 가능한 모형과 실제 모형 간의 거리를 늘림으로써 로지스틱 회귀의 교정을 방해 할 수 있습니다.πθπθπ

로지스틱 회귀 분석에 잘못된 관측 모델을 사용하면 보정되지 않은 확률이 발생합니다. 정규 분포를 사용한 이진 이벤트 모델링은 부적절하며 로지스틱 회귀와 함께 사용해서는 안됩니다. 정규 분포 관측 모델에 해당하는 손실 함수는 평균 제곱 오차입니다. 따라서 MSE 손실을 사용하면 교정이 확실하게 방해됩니다.


2
이 사이트에서주의 깊은 로지스틱 회귀 분석 분류 방법! 답변 주셔서 감사합니다-로그 손실 목표가 교정의 이유임을 암시하는 것 같습니다 (모델이 충분히 유연하다고 가정)?
user0

1
후속 조치-교정에 확률에 대한 편견없는 추정이 필요하다고 생각합니다.
user0

«직접적 로그 손실 최적화로 로지스틱 회귀 반환은 물론 기본적으로 예측을 교정»- scikit-learn.org/stable/modules/calibration.html
cortax을

정의에 따르면, 벌칙 또는 정규화는 종종 추정기의 분산을 줄이기위한 바이어스 주입입니다. 대규모 정규화는 목적 함수의 데이터 부분을 지배하고 교정을 확실하게 망칠 수 있습니다.
cortax

2
"로그 손실 최적화"에 대한 scikit-learn 인용은 효과적인 설명이 아닙니다. 왜냐하면 이것과 편향되지 않은 것 사이에 필요한 연결이 없기 때문입니다. 내가 잘못 해요 않는 한, 질문에 대한 정답은 호출해야합니다 점근 unbiasedness최대 우도 추정 일반적으로 로지스틱 회귀 절차에 사용합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.