답변:
이 질문과 첫 번째 답변은 로지스틱 회귀 모델 교정의 이론적 문제에 초점을 맞추고 있지만 다음과 같은 문제입니다.
로지스틱 회귀의 교정을 어떻게 망칠 수 있습니까?
이 페이지의 향후 독자를 위해 실제 응용 프로그램과 관련하여 약간의주의를 기울여야합니다. 로지스틱 회귀 모델이 잘 지정되어 있어야하며이 문제는 로지스틱 회귀에 특히 문제가 될 수 있다는 것을 잊지 말아야합니다.
첫째, 클래스 멤버 자격의 로그 확률이 모형에 포함 된 예측 변수와 선형으로 관련되지 않은 경우 제대로 보정되지 않습니다. 이항 로지스틱 회귀 분석에 관한 Harrell의 10 장은 "모형 적합도 평가"에 약 20 페이지를 할당하여 @whuber가 실제로 언급 한 것처럼 "최대 가능성 추정기의 점근 적 편견"을 활용할 수 있습니다.
둘째, 모델 사양은 로지스틱 회귀 분석에서 특별한 문제입니다 . 일반 선형 회귀 분석의 배경을 가진 사람들에게는 놀라 울 수 있는 고유 한 생략 된 변수 바이어스 가 있기 때문입니다. 그 페이지에 따르면 :
생략 된 변수가 포함 된 변수와 상관되지 않더라도 생략 된 변수는 포함 된 변수에 대한 계수를 바이어스합니다.
이 페이지에는 관련되고 분석적으로 다루기 쉬운 프로 빗 모델에 대한 이론적 설명 과 함께이 동작이 예상되는 이유에 대한 유용한 설명도 있습니다 . 따라서 클래스 멤버십과 관련된 모든 예측 변수를 포함했다는 사실을 알지 못하면 실제로는 사양이 잘못되어 교정이 제대로되지 않을 수 있습니다.
모델 사양과 관련하여 전체 예측 변수 값 범위에 대해 선형성을 가정하지 않고 기본적으로 예측 변수 간 상호 작용을 찾고 포함 할 수있는 가능성을 제공하는 임의 포리스트와 같은 트리 기반 방법이 더 나은 결과를 가져올 수 있습니다. 교호 작용 항이나 비선형 성을 충분히 고려하지 않은 로지스틱 회귀 모형보다 실제로 교정 모형. 생략 된 변수의 편향과 관련하여, 클래스 멤버쉽 확률을 평가하는 방법이 그 문제를 적절하게 처리 할 수 있는지는 확실하지 않습니다.
로지스틱 회귀는 기본적으로 매개 변수 피팅하여 입력 공간 에서 확률 함수 를 학습하는 분류 방법입니다 . 예측 된 확률이 적절한 손실 함수로 학습되는 경우 로지스틱 회귀보다 이진 이벤트 확률의 충분한 용량 (입력 기능)이있을 때마다 이진 이벤트 확률의 편견없는 추정을 학습 할 가능성이 있습니다.
로그 손실은 이러한 편견없는 추정을 허용합니다. 로그 손실 함수는 단순히 Bernoulli 분포 의 음의 로그 가능성이라는 사실을 고려하십시오 . 변수 대한 일련의 관측치가 주어지면 의 최대 우도 추정값 은 편향되지 않습니다. 일부 입력 공간을 통해 분류의 경우 , 하나는 모든 점에 대해 하나 개의 베르누이 분포 상상할 수 . 대부분의 경우 Bernoulli 분포 당 1 개의 관측 값 만 있습니다. 관측 된 모든 Bernoulli 분포 대해 최대 우도 추정을 함께 적용 몇 가지 제약 조건이 적용됩니다 . 이러한 모든 제약 조건은 편견없는 추정으로 이어지고, 함수가 진정한 기본 확률 함수 에 적합하도록 충분히 유연하기 만하면 학습 절차는 일관되며 최적의 모델로 수렴됩니다. 더 많은 데이터. 따라서 모형 용량을 제한하면 (예 : 기능이 더 적음) 최적의 학습 가능한 모형과 실제 모형 간의 거리를 늘림으로써 로지스틱 회귀의 교정을 방해 할 수 있습니다.
로지스틱 회귀 분석에 잘못된 관측 모델을 사용하면 보정되지 않은 확률이 발생합니다. 정규 분포를 사용한 이진 이벤트 모델링은 부적절하며 로지스틱 회귀와 함께 사용해서는 안됩니다. 정규 분포 관측 모델에 해당하는 손실 함수는 평균 제곱 오차입니다. 따라서 MSE 손실을 사용하면 교정이 확실하게 방해됩니다.