답변:
기본적으로 다중 계층 (일명 딥 네트워크)을 사용하면 네트워크가 입력 데이터의 특정 측면을보다 쉽게 인식 할 수 있습니다. 예를 들어, 주택의 세부 정보 (크기, 잔디밭 크기, 위치 등)가 입력으로되어 있고 가격을 예측하려는 경우. 첫 번째 계층은 다음을 예측할 수 있습니다.
두 번째 계층은 다음과 같이 결론을 내릴 수 있습니다.
그렇습니다. 한 계층은 통계를 '검출'할 수 있지만, 그 통계를 감지하는 데 필요한 총 계산의 '부분'을 수행하기 위해 다른 뉴런에 의존 할 수 없으므로 더 많은 뉴런이 필요합니다.
너무 많은 측면이 있습니다.
1. 훈련 : 사라지는 (최근 폭발) 구배 문제 로 인해 딥 넷을 훈련하는 것은 어려운 일 입니다. 따라서 10x100 신경망을 구축하는 것은 권장되지 않습니다.
2. 훈련 된 네트워크 성능 :
따라서 더 깊은 그물은 더 "영리한"것이지만 10x100 그물 구조는 좋은 선택입니다.
해결하려는 문제를 선형으로 분리 할 수있는 경우 1000 개의 뉴런 레이어 하나가 100 개의 뉴런마다 10 개 레이어보다 더 잘 작동 할 수 있습니다. 문제가 선형이 아니며 볼록하지 않은 경우 깊은 신경망이 필요합니다.
신경망의 기본에 혼란이 있다고 생각합니다. 모든 계층에는 별도의 활성화 기능과 입 / 출력 연결 가중치가 있습니다.
첫 번째 숨겨진 레이어의 출력에는 가중치가 곱해지고 다음 레이어의 활성화 기능으로 처리됩니다. 단일 계층 신경망은 간단한 작업을 위해 매우 제한되어 있으며 더 깊은 NN은 단일 계층보다 훨씬 우수한 성능을 발휘할 수 있습니다.
그러나 응용 프로그램이 상당히 복잡하지 않은 경우 레이어 이상을 사용하지 마십시오. 결론적으로 100 뉴런 레이어는 10 레이어 x 10 뉴런보다 더 나은 신경망을 의미하지는 않지만 딥 러닝을하지 않는 한 10 레이어는 가상의 것입니다. 숨겨진 레이어에서 10 개의 뉴런으로 시작하고 같은 레이어에 레이어를 추가하거나 더 많은 뉴런을 추가하여 차이를 확인하십시오. 더 많은 레이어로 학습하는 것이 더 쉬울 것이지만 더 많은 교육 시간이 필요합니다.