왜 두 가지 로지스틱 손실 공식 / 표기가 있습니까?


23

나는 두 가지 유형의 물류 손실 공식을 보았다. 우리는 그것들이 동일하다는 것을 쉽게 보여줄 수 있습니다. 유일한 차이점은 레이블 의 정의입니다 .y

공식화 / 표기법 1, :y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

여기서 에서 로지스틱 함수는 실수 \ beta ^ T x 를 0.1 간격으로 매핑 합니다. βTxp=11+exp(βTx)βTx

공식화 / 표기법 2, y{1,+1} :

L(y,βTx)=log(1+exp(yβTx))

표기법을 선택하는 것은 언어를 선택하는 것과 같으며, 서로를 사용하는 장단점이 있습니다. 이 두 가지 표기법의 장단점은 무엇입니까?


이 질문에 대한 나의 시도는 통계 커뮤니티가 첫 번째 표기법을 좋아하고 컴퓨터 과학 커뮤니티가 두 번째 표기법을 좋아하는 것 같습니다.

  • 로지스틱 함수가 실수 βTx 를 0.1 간격으로 변환하기 때문에 첫 번째 표기법은 "확률"이라는 용어로 설명 할 수 있습니다 .
  • 두 번째 표기법은 더 간결하며 힌지 손실 또는 0-1 손실과 비교하기가 더 쉽습니다.

내가 맞아? 다른 통찰력이 있습니까?


4
나는 이것이 여러 번 이미 요청되었을 것이라고 확신합니다. 예 : stats.stackexchange.com/q/145147/5739
StasK

1
왜 두 번째 표기법이 힌지 손실과 비교하기 쉽다고 말합니까? 그것은 정의 그냥 있기 때문에 대신 다른, 또는 무언가? { 0 , 1 }{1,1}{0,1}
shadowtalker

1
나는 첫 번째 형태의 대칭과 비슷하지만 선형 부분은 매우 깊게 묻혀있어 작업하기가 어려울 수 있습니다.
Matthew Drury

@ssdecontrol이 그림을 확인하십시오. cs.cmu.edu/~yandongl/loss.html 여기서 x 축은 이고 y 축은 손실 값입니다. 이러한 정의는 01 손실, 힌지 손실 등과 비교하기 편리합니다.yβTx
Haitao Du

답변:


12

짧은 버전

긴 버전

수학적 모델링의 장점은 융통성이 있다는 것입니다. 이들은 실제로 동등한 손실 함수이지만 데이터의 매우 다른 기본 모델에서 파생됩니다.

공식 1

첫 번째 표기법은 에 대한 Bernoulli 확률 모델 에서 파생되며 일반적으로 에 정의됩니다 . 이 모델에서 결과 / 라벨 / 클래스 / 예측은 분포 를 따르는 임의의 변수 표시됩니다 . 따라서 그 가능성은 다음과 같습니다. { 0 , 1 } Y B e r n o u l l i ( p ) P ( Y = y | p ) = L ( p ; y ) = p y ( 1 - p ) 1 - y = { 1 p y = 0 p y = 1y{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

대 . 지표 값으로 0과 1을 사용하면 가장 오른쪽에있는 조각 별 함수를 간결한 표현으로 줄일 수 있습니다.p[0,1]

만약 지적한 바와 같이, 그 다음에 연결할 수 입력 데이터의 행렬을 시켜서 . 여기에서 간단한 대수 조작은 가 질문 의 첫 번째 와 같다는 것을 나타냅니다 (힌트 : ). 따라서 대한 로그 손실을 최소화 하는 것은 Bernoulli 모델의 최대 가능성 추정과 같습니다.x 로짓 p = β T x 로그 L ( p ; y ) L ( y , β T x ) ( y - 1 ) = - ( 1 - y )Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y){0,1}

이 공식은 또한 일반화 된 선형 모형 의 특별한 경우이며 , 이는 가역적이고 구별 할 수있는 함수 와 분포 에 대해 로 공식화됩니다 . 지수 가족 .YD(θ), g(Y)=βTxDgD

공식 2

사실 .. Formula 2에 익숙하지 않습니다. 그러나 에서 를 정의하는 것은 지지 벡터 머신 의 공식에서 표준 입니다 . SVM 피팅은 최대화에 해당합니다 y{1,1}

max({0,1yβTx})+λβ2.

이것은 제한적인 최적화 문제 의 Lagrangian 형식 입니다. 그것은 인 (A)의 예 정규화 목적 함수 최적화 문제 일부 손실 함수 스칼라 hyperparameter 그 제어 정규화 양 ( "수축률"이라고도 함) 적용되었습니다 . 힌지 손실은 대한 여러 가지 드롭 인 가능성 중 하나이며 질문에 두 번째 도 포함됩니다 .

(y,β)+λβ2
λβL(y,βTx)

py(1p)1y1y

7

@ ssdecontrol이 매우 좋은 대답이라고 생각합니다. 내 질문에 대한 공식 2에 대한 의견을 추가하고 싶습니다.

L(y,y^)=log(1+exp(yy^))

사람들이이 공식을 좋아하는 이유는 그것이 매우 간결하고 "확률 해석 세부 사항"을 제거하기 때문입니다.

y^yy^

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

여기에 이미지 설명을 입력하십시오

yy^y^βTx


나는 당신이 쉬운 비교에 대해 무슨 의미인지 알 수 있습니다
shadowtalker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.