통계가 모두 가능성을 최대화하는 것이라면 머신 러닝은 손실을 최소화하는 것입니다. 향후 데이터에서 발생할 손실을 알지 못하므로 근사, 즉 경험적 손실을 최소화합니다.
예를 들어 예측 작업이 있고 오 분류 횟수로 평가되는 경우 결과 모델이 훈련 데이터에서 가장 적은 오 분류를 생성하도록 매개 변수를 학습 할 수 있습니다. "오 분류 수"(예 : 0-1 손실)는 미분 할 수 없기 때문에 사용할 수없는 하드 손실 함수이므로 부드러운 "대리"로 근사합니다. 예를 들어, 로그 손실은 0-1 손실의 상한이므로이를 최소화 할 수 있으며 이는 데이터의 조건부 우도를 최대화하는 것과 같습니다. 파라 메트릭 모델에서는이 접근 방식이 로지스틱 회귀와 같습니다.
구조화 된 모델링 작업 및 0-1 손실의 로그 손실 근사에서 최대 조건부 가능성과는 다른 것을 얻을 수 있으며 대신 (조건부) 한계 가능성의 곱을 최대화 합니다.
손실을 더 잘 근사하기 위해 사람들은 손실을 최소화하고 향후 손실을 추정하는 데이 손실을 사용하는 훈련 모델이 지나치게 낙관적이라는 것을 알았습니다. 따라서보다 정확한 (실제 미래 손실) 최소화를 위해 경험적 손실에 편향 보정 용어를 추가하고이를 최소화합니다.이를 구조적 위험 최소화라고합니다.
실제로 올바른 바이어스 보정 항을 알아내는 것이 너무 어려울 수 있으므로 바이어스 보정 항의 "정신"표현 (예 : 매개 변수의 제곱합)을 추가합니다. 결국, 거의 모든 파라 메트릭 머신 러닝 감독 분류 접근법은 모델을 훈련시켜 다음을 최소화합니다.
∑iL(m(xi,w),yi)+P(w)
여기서, 벡터에 의해 매개 변수화 모델 인 w는 , 난 모든 데이터 포인트를 통해 촬영 { X I , Y I } , L은 진정한 손실의 일부 계산 좋은 근사치 P ( w는 ) 일부 바이어스 정정 / 정규화 용어mwi{xi,yi}LP(w)
예를 들어 , y ∈ { − 1 , 1 } 인 경우 일반적인 접근 방식은 m ( x ) = sign ( w ⋅ x ) , L ( m ( x ) , y ) = − log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w)) 이고교차 검증으로 q 를선택하십시오.P(w)=q×(w⋅w)q