로지스틱 회귀가 웹에서 클릭률을 예측하는 데 자주 사용되는 이유 중 하나는 잘 보정 된 모델을 생성한다는 것입니다. 이것에 대한 좋은 수학적 설명이 있습니까?
로지스틱 회귀가 웹에서 클릭률을 예측하는 데 자주 사용되는 이유 중 하나는 잘 보정 된 모델을 생성한다는 것입니다. 이것에 대한 좋은 수학적 설명이 있습니까?
답변:
예.
로지스틱 회귀 분석에서 예측 된 확률 벡터 는 행렬 방정식을 충족합니다.
여기서 는 설계 행렬이고 y 는 반응 벡터입니다. 이것은 설계 행렬 X 의 각 열에서 발생하는 선형 방정식의 모음으로 볼 수 있습니다 .
인터셉트 열 (전치 행렬의 행)을 전문으로하는 관련 선형 방정식은 다음과 같습니다.
전체 평균 예측 확률은 반응의 평균과 같습니다.
더 일반적으로, 이항 피쳐 열 경우, 관련 선형 방정식은 다음과 같습니다.
따라서 예측 확률의 합 (따라서 평균)은 레코드를 전문화 할 때도 반응의 합과 같습니다 .
다음과 같이 이해하기 쉬운 설명을 제공 할 수 있다고 생각합니다.
즉, 모델이 완전히 훈련 된 경우 훈련 세트에 대해 얻을 수있는 예측 확률 은 각 지형에 대해 해당 지형 의 가중치 (모두) 값의 합계가 해당 지형의 값의 합계와 같 도록 자체적으로 분산 됩니다. 양성 샘플의.
로지스틱 회귀 분석이 잘되어 있음을 분명히 알 수 있습니다 .