신경망은 항상 수렴해야합니까?

16

소개

1 단계

나는 표준 역 전파 신경망을 작성하고 테스트하기 위해 XOR을 매핑하기로 결정했습니다.

2-2-1 네트워크입니다 (tanh 활성화 기능 포함).

X1  M1
        O1
X2  M2

B1  B2

테스트 목적으로, 상단 중간 뉴런 (M1)을 AND 게이트로 설정하고 하단 뉴런 (M2)을 OR 게이트로 설정했습니다 (참이면 출력 1, 거짓이면 -1).

이제 연결 M1-O1을 -.5로, M2-O1을 1로, B2를 -.75로 수동 설정했습니다.

따라서 M1 = 1이고 M2 = 1이면 합은 (-0.5 +1 -0.75 = -.25) tanh (0.25) = -0.24

M1 = -1이고 M2 = 1 인 경우 합은 ((-0.5) * (-1) +1 -0.75 = .75) tanh (0.75) = 0.63

M1 = -1이고 M2 = -1이면 합은 ((-0.5) * (-1) -1 -0.75 = -1.25) tanh (1.25) = -0.8

이것은 "첫 번째 반복"에 대해 비교적 좋은 결과입니다.

2 단계

그런 다음이 가중치를 약간 수정 한 다음 오류 전파 알고리즘 (그라디언트 디센트를 기반으로)을 사용하여 학습합니다. 이 단계에서는 입력과 중간 뉴런 사이의 가중치를 그대로두고 중간 (및 바이어스)과 출력 사이의 가중치를 수정합니다.

테스트를 위해 가중치를 .5 .4 .3 (각각 M1, M2 및 바이어스에 대해)으로 설정했습니다.

그러나 여기서는 문제가 발생하기 시작합니다.

내 질문

학습 속도를 0.2로 설정하고 프로그램이 10000 회 이상의 반복 학습 데이터 (ABA ^ B)를 반복하도록했습니다.

대부분 의 경우 가중치는 좋은 결과로 수렴됩니다. 그러나 때때로이 가중치는 1.5, 5.7 및 .9로 수렴되어 {1, 1}의 입력에 +1 출력이 발생합니다 (결과는 -1이어야 함).

전혀 수렴하지 않는 솔루션이 있거나 구현에 버그가있는 비교적 간단한 ANN이 가능합니까?

machine-learning neural-networks

— 소다 랩
소스

13

( "오류 전파"는 "오류 다시 전파"를 의미한다고 가정합니다 .)

신경 네트워크의 231 쪽 (Haykin)은 백 전파가 항상 수렴한다고 말하지만 속도는 "매우 느리게"느려질 수 있습니다.

나는 당신이 묻는 것은 알고리즘이 항상 수렴하는지 아닌 것이 아니라 항상 최적의 대답으로 수렴되는지 여부라고 생각합니다 . 불행히도 그렇지 않습니다. 당신과 같은 간단한 경우에도 전역 최소값이 아닌 로컬 최소값이있을 수 있습니다.

국소 극한의 문제를 다루는 것은 최적화에서 매우 중요한 주제이며,이를 해결하는 방법에 대한 많은 조언을 찾을 수 있습니다. 가장 일반적인 것 중 하나는 무작위로 다시 시작하는 것입니다. 즉, 임의의 위치에서 시작하여 알고리즘을 여러 번 실행하면됩니다.

코드에 버그가 있는지 확인하기 위해 오류 용어를 인쇄하고 각 반복마다 감소하는지 확인합니다. 그렇다면 아마도 지역의 최소 점에 도달했을 것입니다.

— 소다 랩
소스

입력이 {1,0}, {0,1}, {0,0} 일 때 오류를 최소화하지만 {1,1} 일 때 오류를 최대화하는 모든 가중치가 증가합니다 (OR 뉴런에 대한 가중치가 더 빠름). 이것은 배치 학습보다 온라인 학습에 문제가 있습니까?

@Shmuel : 온라인과 배치 모두 그라디언트 방향으로 진행됩니다. 해당 그라디언트가 잘못된 방향을 가리키면 둘 다 잘못된 방향으로 진행됩니다. Hill Climbing 의 Wikipedia 페이지 에는 관심이있는 경우이를 해결할 수 있는 몇 가지 방법이 있습니다.

— Xodarap 2016 년

6

입력과 숨겨진 단위 사이의 가중치를 수정하고 훈련 중에 숨겨진 가중치를 출력 가중치로 수정하는 경우 로컬 최소값이 없습니다. 숨겨진 가중치에 대한 고정 입력을 사용하면 해결하는 최적화 문제는 로지스틱 회귀와 유사하지만 시그 모이 드 함수 대신 tanh가 있습니다. 문제가 볼록한지 여부에 관계없이 전역 최소값은 하나만 있어야합니다.

국소 최소값으로 문제가 발생하지 않으므로 미분 값을 수치 적으로 근사한 다음 계산하는 값과 비교하는 것이 좋습니다. 이 작업을 수행하는 방법을 잘 모르는 경우 Standford ULFDL 튜토리얼 에 대한 개요가 훌륭합니다.

— 알토
소스