로지스틱 회귀 분석이 잘 보정 된 모델을 생성하는 이유는 무엇입니까?


13

로지스틱 회귀가 웹에서 클릭률을 예측하는 데 자주 사용되는 이유 중 하나는 잘 보정 된 모델을 생성한다는 것입니다. 이것에 대한 좋은 수학적 설명이 있습니까?


2
로지스틱 회귀 분석으로 확률을 예측했습니다. 대부분의 기계 학습 모델 probabilites, 오히려 클래스를 예측하지 않는 동안 - 그리고 이러한 예측에서 파생 된 의사 probabilites에 약간의 비틀기가 -> 따라서 잘 교정주의
찰스에게

2
나는 그 질문에서 분명히해야했지만, LR이 확률을 예측하는 데 그렇게 유용한 이유에 대해 더 많이 질문했습니다.
lsankar4033

보정 된 모델을 얻기 위해 잘못 교정 된 분류기의 출력에 로지스틱 회귀를 간단히 맞출 수 있다는 점은 주목할 가치가 있습니다. 이것을 Platt Scaling이라고합니다. en.wikipedia.org/wiki/Platt_scaling
generic_user

답변:


15

예.

로지스틱 회귀 분석에서 예측 된 확률 벡터 는 행렬 방정식을 충족합니다.

엑스(와이)=0

여기서 는 설계 행렬이고 y 는 반응 벡터입니다. 이것은 설계 행렬 X 의 각 열에서 발생하는 선형 방정식의 모음으로 볼 수 있습니다 .엑스와이엑스

인터셉트 열 (전치 행렬의 행)을 전문으로하는 관련 선형 방정식은 다음과 같습니다.

나는(나는와이나는)=0

전체 평균 예측 확률은 반응의 평균과 같습니다.

더 일반적으로, 이항 피쳐 열 경우, 관련 선형 방정식은 다음과 같습니다.엑스나는제이

나는엑스나는제이(나는와이나는)=나는엑스나는제이=1(나는와이나는)=0

따라서 예측 확률의 합 (따라서 평균)은 레코드를 전문화 할 때도 반응의 합과 같습니다 .엑스나는제이=1


1
1/(1+특급(엑스))

1
예, p는 그런 형태입니다. 첫 번째 방정식은 손실 함수의 도함수를 0으로 설정하는 것입니다.
Matthew Drury

1
이것은 우리가 원하는 것이 아닌 큰 교정 만 다룹니다.
Frank Harrell

1
@FrankHarrell 정교하게 관리 하시겠습니까? 나는 그 말을들은 적이 없다.
Matthew Drury

3
미국 기상청 1950 년까지 거슬러 올라가는 확률 예측 문헌에는 오랜 역사가 있습니다. 이곳은 Brier 점수가 처음으로 사용되었습니다. 작은 교정은 0.01, 0.02, ..., 0.99의 예측 위험을 살펴보면 각각이 정확합니다. 즉, 예측 위험이 0.4 인 모든 시간 동안 결과는 약 0.4 시간. 다음 단계는 "작은 교정"이라고합니다. 예측이 0.4 인 남성의 경우 0.4의 결과가 나타난 다음 여성의 경우입니다.
Frank Harrell

2

다음과 같이 이해하기 쉬운 설명을 제공 할 수 있다고 생각합니다.


제이(θ)=1미디엄나는=1미디엄[와이(나는)로그(hθ(엑스(나는)))+(1와이(나는))로그(1hθ(엑스(나는)))]

m와이(나는)hθ(엑스(나는))11+특급[α제이θ제이엑스제이(나는)]α

θ제이

제이(θ)θ제이=1미디엄나는=1미디엄[hθ(엑스(나는))와이(나는)]엑스제이(나는)


나는=1미디엄hθ(엑스(나는))엑스제이(나는)=나는=1미디엄와이(나는)엑스제이(나는)

즉, 모델이 완전히 훈련 된 경우 훈련 세트에 대해 얻을 수있는 예측 확률 은 각 지형에 대해 해당 지형 의 가중치 (모두) 값의 합계가 해당 지형의 값의 합계와 같 도록 자체적으로 분산 됩니다. 양성 샘플의.

α엑스0αθ0

나는=1미디엄hθ(엑스(나는))엑스0(나는)=나는=1미디엄와이(나는)엑스0(나는)
나는=1미디엄hθ(엑스(나는))=나는=1미디엄와이(나는)
hθ(엑스(나는))
나는=1미디엄(나는)=나는=1미디엄와이(나는)

로지스틱 회귀 분석이 잘되어 있음을 분명히 알 수 있습니다 .

참조 : Charles Elkan의 로그 선형 모델 및 조건부 임의 필드

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.