짧은 버전
긴 버전
수학적 모델링의 장점은 융통성이 있다는 것입니다. 이들은 실제로 동등한 손실 함수이지만 데이터의 매우 다른 기본 모델에서 파생됩니다.
공식 1
첫 번째 표기법은 에 대한 Bernoulli 확률 모델 에서 파생되며 일반적으로 에 정의됩니다 . 이 모델에서 결과 / 라벨 / 클래스 / 예측은 분포 를 따르는 임의의 변수 표시됩니다 . 따라서 그 가능성은 다음과 같습니다.
{ 0 , 1 } Y B e r n o u l l i ( p ) P ( Y = y | p ) = L ( p ; y ) = p y ( 1 - p ) 1 - y = { 1 − p y = 0 p y = 1y{0,1}YBernoulli(p)
P(Y=y | p)=L(p;y)=py (1−p)1−y={1−ppy=0y=1
대 . 지표 값으로 0과 1을 사용하면 가장 오른쪽에있는 조각 별 함수를 간결한 표현으로 줄일 수 있습니다.p∈[0,1]
만약 지적한 바와 같이, 그 다음에 연결할 수 입력 데이터의 행렬을 시켜서 . 여기에서 간단한 대수 조작은 가 질문 의 첫 번째 와 같다는 것을 나타냅니다 (힌트 : ). 따라서 대한 로그 손실을 최소화 하는 것은 Bernoulli 모델의 최대 가능성 추정과 같습니다.x 로짓 p = β T x 로그 L ( p ; y ) L ( y , β T x ) ( y - 1 ) = - ( 1 - y )Yxlogitp=βTxlogL(p;y)L(y,βTx)(y−1)=−(1−y){0,1}
이 공식은 또한 일반화 된 선형 모형 의 특별한 경우이며 , 이는 가역적이고 구별 할 수있는 함수 와 분포 에 대해 로 공식화됩니다 . 지수 가족 .Y∼D(θ), g(Y)=βTxDgD
공식 2
사실 .. Formula 2에 익숙하지 않습니다. 그러나 에서 를 정의하는 것은 지지 벡터 머신 의 공식에서 표준 입니다 . SVM 피팅은 최대화에 해당합니다
y{−1,1}
max({0,1−yβTx})+λ∥β∥2.
이것은 제한적인 최적화 문제 의 Lagrangian 형식 입니다. 그것은 인 도 (A)의 예 정규화 목적 함수 최적화 문제
일부 손실 함수 스칼라 hyperparameter 그 제어 정규화 양 ( "수축률"이라고도 함) 적용되었습니다 . 힌지 손실은 대한 여러 가지 드롭 인 가능성 중 하나이며 질문에 두 번째 도 포함됩니다 .
ℓ(y,β)+λ∥β∥2
ℓλβℓL(y,βTx)