나는 몇 달 동안 나 자신 에게이 질문을했다. CrossValidated 및 Quora에 대한 답변은 모두 로지스틱 시그 모이 드 함수의 훌륭한 속성을 나열하지만이 함수를 영리하게 추측 한 것처럼 보입니다. 내가 놓친 것은 그것을 선택하기위한 정당화였습니다. 마지막 으로 Bengio (2016) 의 "Deep Learning"책 의 6.2.2.2 섹션에서 하나를 찾았습니다 . 내 말로는 :
즉, 모델 출력의 로그가 훈련 데이터의 로그 우도에 대한 기울기 기반 최적화에 적합하기를 원합니다.
동기
- 우리는 선형 모델을 원하지만 z=wTx+b 를 z∈(−∞,+∞) 로 직접 사용할 수는 없습니다 .
- 분류의 경우 Bernoulli 분포를 가정하고 P ( Y = 1 ) = θ 에서 모수 θ 를 모델링하는 것이 좋습니다 .P(Y=1)=θ
- 따라서 분류를 수행하려면 z 를 (−∞,+∞) 에서 [0,1] 로 매핑해야합니다 .
왜 로지스틱 시그 모이 드 기능인가?
절단 지 와 피( Y=1|z)=max{0,min{1,z}} 에 대한 제로 기울기 산출 z 외부 [0,1] . 그라디언트 디센트로 로지스틱 회귀를 해결하기 때문에 모델의 예측이 잘못 될 때마다 강한 그라디언트가 필요합니다. 로지스틱 회귀 분석의 경우 닫힌 양식 솔루션이 없습니다.
로지스틱 함수는 모델의 예측에 최대 가능성 추정을 사용하여 모델의 예측이 잘못되었을 때 상수 기울기를 점진적으로 표현하는 훌륭한 속성을 갖습니다. 이것은 아래와 같습니다 :
수치 적 이점의 경우, 훈련 데이터의 음의 로그 가능성을 최소화하여 최대 가능성 추정을 수행 할 수 있습니다. 따라서 비용 함수는 다음과 같습니다.
제이( w , b )= 1엠∑나는 = 1엠− 로그피( Y= y나는| 엑스나는; 승 , b )= 1엠∑나는 = 1엠− ( y나는로그피( Y= 1 | 지) + ( y나는− 1 ) 로그피( Y= 0 | 지) )
이후 피( Y= 0 | 지) = 1 − P( Y= 1 | 지) , 우리는에 집중할 수 와이= 1 의 경우. 따라서 문제는 z = w T x + b 가 주어지면 피( Y= 1 | 지) 를 모델링하는 방법 입니다.지=wTx+b
z 에 P를 맵핑 하는 함수 f( Y = 1 | z )에 대한 명백한 요구 사항 은 다음과 같습니다.zP(Y=1|z)
- ∀z∈R:f(z)∈[0,1]
- f(0)=0.5
- f 는 회전 대칭 wrt(0,0.5) , 즉f(−x)=1−f(x) 여야하므로 클래스의 부호를 뒤집는 것이 비용 함수에 영향을 미치지 않습니다.
- f 감소하지 않고 지속적이며 차별화 할 수 있어야합니다.
이러한 요구 사항은 모두 시그 모이 드 기능의 크기를 조정하여 충족됩니다 . 모두 f(z)=11+e−z 및f(z)=0.5+0.5z1+|z|그들을 성취하십시오. 그러나, 시그 모이 드 함수는 로그 가능성의 그래디언트 기반 최적화 중에 동작에 따라 다릅니다. 로지스틱 함수f(z)=1을 연결하여 차이를 볼 수 있습니다.f(z)=11+e−z우리의 비용 함수에 1 + e - z가 포함 됩니다.
Y = 1의 채도Y=1
들면 P(Y=1|z)=11+e−z 및Y=1이면 잘못 분류 된 단일 샘플의 비용 (예 :m=1)은 다음과 같습니다.
J(z)=−log(P(Y=1|z))=−log(11+e−z)=−log(ez1+ez)=−z+log(1+ez)
−z
- zY=1log(1+ez)zz−z
- z|z|Y=1log(1+ez)0z−zz−1z, 채도가 진행되지 않아 사라지는 그라디언트가 발생합니다.
채도Y=0
Y=1Y=0
J(z)Y=1
Y=0
대안
로지스틱 S 자형 함수에 대한 대안 (예 : 을 언급했습니다.z1+|z|[0,1]P(Y=1|z)=0.5+0.5z1+|z|
Y=1
J(z)=−log(0.5+0.5z1+|z|)
이것은 다음과 같습니다
z→−∞