1000 개의 뉴런이있는 1 개의 숨겨진 레이어 vs 100 개의 뉴런이있는 10 개의 숨겨진 레이어


13

이러한 유형의 질문은 문제에 따라 다를 수 있지만 숨겨진 계층의 수와 크기 (각 계층의 뉴런 수)가 실제로 중요한지 여부를 다루는 연구를 찾으려고 노력했습니다.

내 질문은, 예를 들어 1000 뉴런의 1 개의 큰 숨겨진 레이어 대 100 뉴런이있는 10 개의 숨겨진 레이어가 있는지 여부는 실제로 중요합니까?

답변:


12

기본적으로 다중 계층 (일명 딥 네트워크)을 사용하면 네트워크가 입력 데이터의 특정 측면을보다 쉽게 ​​인식 할 수 있습니다. 예를 들어, 주택의 세부 정보 (크기, 잔디밭 크기, 위치 등)가 입력으로되어 있고 가격을 예측하려는 경우. 첫 번째 계층은 다음을 예측할 수 있습니다.

  • 넓은 지역, 더 높은 가격
  • 소량의 침실, 저렴한 가격

두 번째 계층은 다음과 같이 결론을 내릴 수 있습니다.

  • 넓은 면적 + 소량의 침실 = 넓은 침실 = +-효과

그렇습니다. 한 계층은 통계를 '검출'할 수 있지만, 그 통계를 감지하는 데 필요한 총 계산의 '부분'을 수행하기 위해 다른 뉴런에 의존 할 수 없으므로 더 많은 뉴런이 필요합니다.

이 답변을 확인하십시오


답변 주셔서 감사합니다. 간단히 설명하자면, "당신의 네트워크 [...]"를 작성할 때, 더 적은 수의 뉴런을 갖는 것보다 더 적은 수의 뉴런을 가진 숨겨진 층이 많은 경우를 언급하고 있습니까?
Stephen Johnson

@StephenJohnson이 죄송합니다. 질문을 편집했습니다. 나는 딥 네트워크 (다중 레이어)를 언급하고 있습니다.
Thomas W

좋은 답변입니다. 다시 감사합니다. 어쩌면 나는 이것을 다른 스레드에서 계속해야하지만 GRU 또는 LSTM과 같은 반복 신경 네트워크에 동일한 종류의 추론이 적용된다고 생각합니까?
Stephen Johnson

@StephenJohnson 당신은 하나의 계층 반복 네트워크 대 다층 반복 네트워크를 의미합니까, 아니면 반복 연결로 인해 의미합니까?
토마스 W

일반적으로, 그들은 장거리에 걸쳐 컨텍스트를 매핑 할 수있는 반복적 인 연결이 있기 때문에 그러한 네트워크가 일반적인 피드 포워드 네트워크와 같은 방식으로 딥이되는 이점이 있습니까? 오디오와 같은 순차 데이터가 사용될 때 되풀이 네트워크가 일반적으로 사용되므로 일반적으로 이러한 방식을 비교할 수 없습니다.
Stephen Johnson

4

너무 많은 측면이 있습니다.

1. 훈련 : 사라지는 (최근 폭발) 구배 문제 로 인해 딥 넷을 훈련하는 것은 어려운 일 입니다. 따라서 10x100 신경망을 구축하는 것은 권장되지 않습니다.

2. 훈련 된 네트워크 성능 :

  • 정보 손실 : 신경망의 전통적인 사용법은 분류 문제입니다. 이는 데이터에서 잘 정의 된 정보를 얻고 자 함을 의미합니다. (예. 그림에 얼굴이 있는지 여부) 일반적으로 분류 문제에는 입력이 많고 출력이 거의 없으므로 숨겨진 레이어의 크기가 입력에서 출력으로 내려갑니다. 그러나, 우리는 더 적은 뉴런을 사용하여 정보를 손실합니다. (즉, 얼굴에 얼굴이 있는지 여부에 따라 원본 이미지를 재생할 수 없습니다.) 따라서 입력 크기가 1000 인 경우 100 개 뉴런을 사용하여 정보가 손실된다는 것을 알아야합니다.
  • 정보의 복잡성 : 그러나 (Tomas W가 언급 한 바와 같이) 더 깊은 넷은 입력 데이터에서 더 복잡한 정보를 가져올 수 있습니다. 그럼에도 불구하고 완전히 연결된 10 개의 레이어를 사용하지 않는 것이 좋습니다. 컨 벌루 셔널 / 릴루 / 맥스 풀링 또는 다른 유형의 레이어를 사용하는 것이 좋습니다. 가장 까다로운 레이어는 입력의 일부 필수 부분을 압축 할 수 있습니다. (예 : 그림의 특정 부분에 선이 있습니다.) 두 번째 레이어는 다음과 같이 말할 수 있습니다. 그림에서이 위치에 특정 모양이 있습니다. 등

따라서 더 깊은 그물은 더 "영리한"것이지만 10x100 그물 구조는 좋은 선택입니다.


1

해결하려는 문제를 선형으로 분리 할 수있는 경우 1000 개의 뉴런 레이어 하나가 100 개의 뉴런마다 10 개 레이어보다 더 잘 작동 할 수 있습니다. 문제가 선형이 아니며 볼록하지 않은 경우 깊은 신경망이 필요합니다.


2
문제가 선형으로 분리 가능한 경우 숨겨진 레이어가 전혀 필요하지 않습니다
Amedeo Baragiola

0

신경망의 기본에 혼란이 있다고 생각합니다. 모든 계층에는 별도의 활성화 기능과 입 / 출력 연결 가중치가 있습니다.

첫 번째 숨겨진 레이어의 출력에는 가중치가 곱해지고 다음 레이어의 활성화 기능으로 처리됩니다. 단일 계층 신경망은 간단한 작업을 위해 매우 제한되어 있으며 더 깊은 NN은 단일 계층보다 훨씬 우수한 성능을 발휘할 수 있습니다.

그러나 응용 프로그램이 상당히 복잡하지 않은 경우 레이어 이상을 사용하지 마십시오. 결론적으로 100 뉴런 레이어는 10 레이어 x 10 뉴런보다 더 나은 신경망을 의미하지는 않지만 딥 러닝을하지 않는 한 10 레이어는 가상의 것입니다. 숨겨진 레이어에서 10 개의 뉴런으로 시작하고 같은 레이어에 레이어를 추가하거나 더 많은 뉴런을 추가하여 차이를 확인하십시오. 더 많은 레이어로 학습하는 것이 더 쉬울 것이지만 더 많은 교육 시간이 필요합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.