MLE을 사용하여 신경망 가중치를 추정 할 수 있습니까?


23

방금 통계와 모델에 대해 공부하기 시작했습니다. 현재 MLE을 사용하여 모델에 가장 적합한 모수를 추정한다는 것을 알고 있습니다. 그러나 신경망의 작동 방식을 이해하려고하면 매개 변수를 추정하기 위해 다른 접근법을 일반적으로 사용하는 것처럼 보입니다. 왜 MLE를 사용하지 않습니까? 아니면 MLE을 전혀 사용할 수 없습니까?

답변:


16

인공 신경망 가중치 (ANN)의 MLE 추정이 확실히 가능하다 . 실제로, 그것은 전적으로 전형적입니다. 분류 문제의 경우 표준 목적 함수는 교차 엔트로피이며, 이항 모형의 음의 로그 가능성과 같습니다. 회귀 문제의 경우 잔류 제곱 오차가 사용되며 이는 OLS 회귀의 MLE과 유사합니다.

그러나 고전 통계에서 도출 된 MLE의 훌륭한 특성이 신경망의 MLE에도 적용된다고 가정 할 때 약간의 문제가 있습니다.

  1. ANN 추정에는 일반적인 문제가 있습니다. 단일 계층 ANN에도 많은 대칭 솔루션이 있습니다. 숨겨진 레이어에 대한 가중치의 부호를 반전시키고 숨겨진 레이어 활성화 매개 변수의 부호를 반전시키는 것은 모두 같은 가능성을가집니다. 또한 숨겨진 노드를 순열 할 수 있으며 이러한 순열도 같은 가능성을 갖습니다. 이는 식별성을 포기하고 있음을 인정해야하는 한 결과입니다. 그러나 식별 가능성이 중요하지 않은 경우 이러한 대안 솔루션이 서로의 반영 및 / 또는 순열이라는 것을 간단히 받아 들일 수 있습니다.

    이는 OLS 회귀와 같은 통계에서 MLE를 사용하는 기존 방식과 대조적입니다. OLS 문제는 볼록하고 디자인 행렬이 전체 순위 일 때 엄격하게 볼록합니다. 강한 볼록성은 하나의 고유 한 최소화 기가 있음을 의미합니다.

  2. ANN은 제약이없는 솔루션을 사용할 때 데이터를 과적 합하는 경향이 있습니다. 가중치는 원점에서 멀어지고 일반화되지 않거나 매우 정확하게 새 데이터를 예측할 수없는 엄청나게 큰 값을 갖습니다. 중량 감쇄 또는 다른 정규화 방법을 적용하면 중량 추정값을 0으로 축소하는 효과가 있습니다. 이것은 반드시 (1)의 불확실성 문제를 해결하지는 않지만 네트워크의 일반화를 향상시킬 수 있습니다.

  3. 손실 함수는 볼록하지 않으며 최적화는 전체적으로 최적 이 아닌 로컬 최적 솔루션을 찾을 수 있습니다 . 또는 이러한 솔루션은 일부 최적화 방법이 중단되는 안 장점 일 수 있습니다. 이 논문 의 결과는 현대의 추정 방법이이 문제를 회피한다는 것을 발견했다.

  4. 12


2
나는 당신이 말하는 것과 달라달라고 간청합니다. 대칭에서 발생하는 서로 다른 지역 최소값은 모두 동일한 품질이므로 전혀 걱정할 필요가 없습니다. 아마도 ANN에는 볼록한 손실 함수가 없으므로 최적화가 더 복잡해지고 전역 최적을 찾는 것이 보장되지 않습니다. 그러나 최근 ANN이 실제로 그 지역의 최소 문제가 많지 않고 안 장점 문제가 있다는 증거가 꽤 있습니다. 예를 들어 arxiv.org/abs/1412.6544를 참조하십시오 .
bayerj

11

분류 문제에서 가능성을 극대화하는 것이 신경망 (감독 및 비 감독 모델 모두)을 훈련시키는 가장 일반적인 방법입니다.

실제로, 우리는 일반적으로 음의 로그 가능성 (등가의 MLE)을 최소화합니다. 음의 로그 우도를 사용하는 유일한 제약은 확률 분포로 해석 될 수있는 출력 레이어를 갖는 것입니다. 그렇게하기 위해 일반적으로 softmax 출력 레이어가 사용됩니다. 신경망 공동체에서, 음의 로그 우도는 때때로 교차 엔트로피 (cross-entropy)라고 언급된다. 정규화 용어는 물론 추가 될 수 있습니다 (때로는 매개 변수에 대한 사전 분포로 해석 될 수 있으며,이 경우 최대 사후 ( MAP )를 찾고 있음).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.