로지스틱 회귀 분석에 올바른 손실 함수는 무엇입니까?


30

로지스틱 회귀 분석에 대한 손실 함수의 두 가지 버전에 대해 읽었습니다. 둘 중 어느 것이 정확하고 왜 그런가요?

  1. 에서 기계 학습 , 저우 ZH (중국어에)와 β=(w,b) and βTx=wTx+b :

    (1)l(β)=i=1m(yiβTxi+ln(1+eβTxi))

  2. 내 대학 과정에서 zi=yif(xi)=yi(wTxi+b) :

    (2)L(zi)=log(1+ezi)


첫 번째 샘플은 모든 샘플의 누적이고 두 번째 샘플은 단일 샘플에 대한 것이지만 두 손실 함수의 형태 차이에 대해 더 궁금합니다. 어떻게 든 나는 그것들이 동등한 느낌을 가지고 있습니다.

답변:


31

관계는 다음과 같습니다. l(β)=iL(zi) .

로지스틱 함수를 f ( z ) = e z 로 정의하십시오 . 들은이 특성을 가지고F(-Z는)=1-F(Z를). 또는 다른 말로하면 :f(z)=ez1+ez=11+ezf(z)=1f(z)

11+ez=ez1+ez.

양쪽의 역수를 취하면 얻는 로그를 가져옵니다.

ln(1+ez)=ln(1+ez)+z.

양쪽에서 를 빼면 다음이 표시됩니다.z

yiβTxi+ln(1+eyiβTxi)=L(zi).

편집하다:

순간 나는이 대답을 재-읽고 내가 가진 방법에 대해 혼란 스러워요입니다 동일하게 - Y 내가 β T는 X 나에게 + N을 ( 1 + e y i β T x i ) . 아마도 원래 질문에 오타가있을 것입니다.yiβTxi+ln(1+eβTxi)yiβTxi+ln(1+eyiβTxi)

편집 2 :

원래 질문에 오타가없는 경우, @ManelMorales는 일 때 확률 질량 함수가 P ( Y = Y I ) = F ( Y I β T는 X I를 ) 기인하는 속성, F ( - Z는 ) = 1 - F를 ( Z )y{1,1}P(Yi=yi)=f(yiβTxi)f(z)=1f(z). 그는 표기법 에 대한 새로운 말을 소개하기 때문에 여기서 다르게 작성하고 있습니다 . 나머지는 각 y 코딩 에 대해 음의 로그 가능성을 취합니다 . 자세한 내용은 아래의 답변을 참조하십시오.ziy


41

OP는이 두 기능 간의 관계가 샘플 수 (즉, 단일 대 전체)에 기인한다고 잘못 생각합니다. 그러나 실제 차이점은 단순히 교육 레이블을 선택하는 방법입니다.

이진 분류의 경우 레이블 y=±1 또는 y=0,1 지정할 수 있습니다 .

이미 언급 한 바와 같이, 로지스틱 함수 σ(z) 은 확률, 즉 형태가 있기 때문에 좋은 선택이다 σ(z)=1σ(z)σ(z)(0,1)z± 합니다. 우리가 라벨을 선택하면 y=0,1 , 우리는 할당 할 수 있습니다

P(y=1|z)=σ(z)=11+ezP(y=0|z)=1σ(z)=11+ez

이것은 P(y|z)=σ(z)y(1σ(z))1y 로보다 간결하게 쓰여질 수 있습니다 .

로그 가능성을 최대화하는 것이 더 쉽습니다. 로그 우도를 최대화하는 것은 음의 로그 우도를 최소화하는 것과 같습니다. 대한 m 샘플 {xi,yi} , 자연 로그, 일부 단순화를 복용 후, 우리가 발견 할 것이다 :

l(z)=log(imP(yi|zi))=imlog(P(yi|zi))=imyizi+log(1+ezi)

jupyter 노트북 에서 전체 파생 및 추가 정보를 찾을 수 있습니다 . 반면에 레이블 y=±1 대신 사용했을 수도 있습니다 . 우리가 할당 할 수있는 것은 매우 분명합니다

P(y|z)=σ(yz).

또한 명백하다 P(y=0|z)=P(y=1|z)=σ(z) . 이 경우 이전과 같은 단계를 거쳐 손실 기능

L(z)=log(jmP(yj|zj))=jmlog(P(yj|zj))=jmlog(1+eyzj)

마지막 단계는 음수 부호에 의해 유도 된 역수를 취한 후에 따릅니다. 각 양식에서 y 는 다른 값을 취 한다는 점을 감안할 때이 두 양식을 동일시해서는 안되지만이 두 형식 은 동일합니다.

yizi+log(1+ezi)log(1+eyzj)

사례 yi=1 은 사소한 것입니다. 만약 yi1yi=0 왼쪽과 yi=1 오른쪽에서.

왜 우리가 두 가지 다른 형태를 갖는지에 대한 근본적인 이유가있을 수 있지만 ( 두 가지 다른 로지스틱 손실 공식화 / 표기법이있는 이유는 무엇입니까? ) 전자를 선택 해야하는 한 가지 이유는 실제적인 고려입니다. 전자에서는 σ(z)/z=σ(z)(1σ(z)) 속성을 사용하여 l(z)2 l ( z ) 를 간단히 계산할 수 있습니다2l(z)둘 다 수렴 분석에 필요합니다 (즉 , Hessian계산하여 손실 함수의 볼록 함을 결정하기 위해 ).


물류 손실 기능은 볼록합니까?
user85361

2
l(z)αlλl(z)=l(z)+λz2l(z)λl. 불행히도 우리는 이제 다른 기능을 최소화하고 있습니다! 다행스럽게도 정규화 된 함수의 최적 값이 원래의 최적 값에 가깝다는 것을 알 수 있습니다.
Manuel Morales

: 당신이 언급 된 노트북이왔다, 나는 또 다른 증거가있어 statlect.com/fundamentals-of-statistics/...
Domi.Zhang

2
이것이 가장 유용한 답변이라는 것을 알았습니다.
mohit6up

@ManuelMorales 정규화 된 함수의 최적 값과 원본에 가까운 링크가 있습니까?
Mark

19

로지스틱 회귀에 대한 손실 함수를 다음과 같이 배웠습니다.

로지스틱 회귀는 이진 분류를 수행하므로 레이블 출력은 이진, 0 또는 1입니다. 는 입력 특징 벡터 주어지면 이진 출력 가 1 일 확률입니다 . 계수 는 알고리즘이 배우려고하는 가중치입니다.P(y=1|x)yxw

P(y=1|x)=11+ewTx

로지스틱 회귀는 이항이므로 확률 는 단순히 1에서 1을 뺀 값입니다.P(y=0|x)

P(y=0|x)=111+ewTx

손실 함수 는 (A) 출력 에 곱한 값 과 (B) 출력 에 을 곱한 한 훈련 예의 합입니다. 이상의 훈련 예.J(w)y=1P(y=1)y=0P(y=0)m

J(w)=i=1my(i)logP(y=1)+(1y(i))logP(y=0)

여기서 는 학습 데이터 의 레이블을 나타냅니다 . 훈련 인스턴스의 레이블이 이면 이고 왼쪽 소환은 그대로두고 의 오른쪽 소환 은 됩니다. 반면, 교육 인스턴스의 이면 용어 의 오른쪽 소환은 그대로 유지되지만 왼쪽 소환은 됩니다. 로그 확률은 계산의 용이성을 위해 사용됩니다.y(i)ith1y(i)=11y(i)0y=01y(i)0

우리는 다음 교체 할 경우 와 이전의 표현으로, 우리는 얻을 :P(y=1)P(y=0)

J(w)=i=1my(i)log(11+ewTx)+(1y(i))log(111+ewTx)

이 양식에 대한 자세한 내용은 Stanford 강의 노트를 참조하십시오 .


이 답변 은 또한 여기에 관련된 관점을 제공합니다.
GeoMatt22

6
당신이 가진 표현은 손실 (최소화)이 아니라 로그 가능성 (최대화)입니다.
xenocyon 2016 년

2
@xenocyon true-이 동일한 공식은 일반적으로 전체 요약에 음의 부호가 적용됩니다.
Alex Klibisz

1

평균 제곱 오차 대신 로그 손실이라고도하는 교차 엔트로피라는 비용 함수를 사용합니다. 교차 엔트로피 손실은 두 가지 별도의 비용 함수 (y = 1에 대한 것과 y = 0에 대한 것)로 나눌 수 있습니다.

j(θ)=1mi=1mCost(hθ(x(i)),y(i))Cost(hθ(x),y)=log(hθ(x))if y=1Cost(hθ(x),y)=log(1hθ(x))if y=0

우리가 함께 모을 때 우리는 다음을 갖습니다.

j(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x)(i))]

위 방정식에서 와 를 곱하면 과 경우 모두 같은 방정식을 사용하여 해결할 수 있습니다. 하면 첫 번째 측면은 상쇄된다. 경우 두 번째 측면은 상쇄된다. 두 경우 모두 수행해야하는 작업 만 수행합니다.y(1y)y=1y=0y=0y=1

for루프 를 사용하지 않으려면 위의 방정식을 벡터화 한 형태로 시도 할 수 있습니다

h=g(Xθ)J(θ)=1m(yTlog(h)(1y)Tlog(1h))

전체 설명은 Machine Learning Cheatsheet 에서 볼 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.