0-1 손실 함수가 다루기 어려운 이유는 무엇입니까?


12

Ian Goodfellow의 딥 러닝 북에는 다음과 같이 쓰여 있습니다.

때때로, 우리가 실제로 걱정하는 손실 함수 (예 : 분류 오류)는 효율적으로 최적화 할 수없는 기능이 아닙니다. 예를 들어 선형 분류기의 경우에도 예상되는 0-1 손실을 정확하게 최소화하는 것은 일반적으로 다루기 어렵습니다 (입력 차원에서 지수). 이러한 상황에서 대체적으로 대리 손실 기능을 최적화하여 프록시 역할을하지만 장점이 있습니다.

0-1 손실을 다루기 어려운 이유는 무엇입니까?

답변:


18

0-1 손실 함수는 볼록하지 않고 불연속 적이므로 (하위) 그라디언트 방법을 적용 할 수 없습니다. 선형 구분 기호를 사용한 이진 분류의 경우이 손실 함수는 표시기 함수의 평균값을 최소화 하는 를 찾도록 공식화 할 수 있습니다. 모든 샘플에 대해. 즉, 각 쌍에 대한 두 개의 가능한 값들이 존재하기 때문에 같이 있는데, 입력의 지수이고 에 대해 확인할 수있다 구성1 ( y i β x i0 ) i 2 n nβ1(yiβxi0)i2nn총 샘플 포인트. 이것은 NP-hard로 알려져 있습니다. 손실 함수의 현재 값을 알면 볼록 또는 연속 함수에 대한 그래디언트 방법을 사용할 수 있는지에 따라 현재 솔루션을 수정하여 개선해야하는 방법에 대한 실마리가 제공되지 않습니다.


1
아주 좋은 점-실제로 임의 검색 또는 철저한 검색은 이러한 손실 함수의 최소값을 찾는 데 사용할 수있는 유일한 방법입니다.
DeltaIV

2
^^ 또는 진화론 / 스웜 기반 지능 방법일까요?
samra irshad

@samrairshad 네, 사실 0-1 손실은 진화론 적 방법에서 볼 수있는 드문 일이 아닙니다.
John Doucette

랜덤 탐색에서 복잡한 진화 / 스웜 알고리즘으로 넘어 가기 전에 교차 엔트로피 방법 (CEM)을 살펴 보겠습니다.
maxy

1

분류 오류는 실제로 다루기 어려운 경우가 있습니다. 이 기사에 표시된대로 Nelder-Mead 방법을 사용하여 정확하게는 아니지만 효율적으로 최적화 할 수 있습니다.

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"차원 축소는 다차원 벡터를 저 차원 공간으로 변환하는 프로세스입니다. 패턴 인식에서 분류 작업의 상당한 손실없이이 작업을 수행하는 것이 종종 바람직합니다. 베이 즈 오차는이 목적에 대한 이상적인 기준입니다. 수학적 치료에는 악명 높은 것으로 알려져 있으며, 결과적으로 차선의 기준이 실제로 사용되어 왔으며, 베이 즈 오차의 추정치에 근거하여 현재 사용중인 기준보다 최적의 기준에 더 가까운 다른 기준을 제안합니다. 이 기준에 기초한 선형 치수 감소 알고리즘이 고 안되고 구현된다. 실험은 종래의 알고리즘과 비교하여 우수한 성능을 보여준다. "

여기에 언급 된 베이 즈 오류는 기본적으로 0-1 손실입니다.

이 작업은 선형 치수 축소와 관련하여 수행되었습니다. 딥 러닝 네트워크를 훈련시키는 것이 얼마나 효과적인지 모르겠습니다. 그러나 요점은 다음과 같은 질문에 대한 답입니다. 0-1 손실은 보편적으로 다루기 어렵습니다. 적어도 일부 유형의 모델에 대해 비교적 잘 최적화 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.