LSTM의 어느 계층에 대한 드롭 아웃?


11

LSTM드롭 아웃과 함께 멀티 레이어 를 사용하는 경우 출력 Dense 레이어뿐만 아니라 모든 숨겨진 레이어에 드롭 아웃을 배치하는 것이 좋습니다? Hinton의 논문 (드롭 아웃을 제안한)에서 그는 밀집된 레이어에만 드롭 아웃을 넣었지만 숨겨진 내부 레이어는 컨볼 루션이기 때문입니다.

분명히 특정 모델을 테스트 할 수 있지만 이에 대한 합의가 있는지 궁금합니다.


3
arxiv.org/abs/1512.05287 Gal, Yarin 및 Zoubin Ghahramani에 관심이있는 경우이 백서에서 되풀이되는 네트워크 중단에 대한 좋은 토론 . "반복적 인 신경망에서 이론적으로 근거한 드롭 아웃 적용." 신경 정보 처리 시스템의 발전. 2016.
redhqs

2
@Media가 아래에서 말한 내용을 확인하는 것 같습니다
BigBadMe

답변:


12

LSTM하나의 구체적이고 명확한 이유로 셀에 드롭 아웃을 추가하지 않는 것이 좋습니다 . LSTMs장기적으로는 좋지만 그들에 대해 중요한 것은 여러 가지를 동시에 암기하는 데 능숙하지 않다는 것입니다. 탈락의 논리는 특정 뉴런에 의존하지 않기 위해 뉴런에 노이즈를 추가하는 것입니다. LSTM셀에 드롭 아웃을 추가하면 잊어서는 안되는 것을 잊을 가능성이 있습니다. 결과적으로, CNNs항상 레이어 다음에 고밀도 레이어에서 드롭 아웃을 사용하는 것을 선호합니다 LSTM.


1
나는 당신이 말하는 것을 이해하고 의미가 있지만 Keras 또는 Tensorflow에서 LSTM 셀 구현이 왜 LSTM이 어떻게 행동해야하는지에 영향을 줄 경우 드롭 아웃 (및 반복 드롭 아웃)을 지정할 수있는 기능을 제공하는 이유는 무엇입니까? 함수?
BigBadMe

3
에서 CNNs완전히 수용 의한 컨벌루션 레이어 가중치 소수 전환 층들을 사용하지. 에서 LSTMs반면에, 무게의 수는 작지 않다. 내가 암기해야 할 많은 것들이 있다고 과제에서 언급했듯이, 드롭 아웃을 사용하려고 시도하지 않지만 많은 의존성이없는 동사의 시제와 같은 경우는 그리 나쁘지 않다고 생각합니다. 그건 그렇고, 그것은 내 경험이었습니다. 다른 응용 프로그램 도메인에 대한 다른 답변이있을 수 있습니다.
Media

1
두 답변 모두에 대한 훌륭한 설명! (+ 1)
Aditya

5

모든 모델 유형에서 입증 될 수있는 합의가 없습니다.

생각 드롭 아웃 그것을 (어디)를 적용하는 방법을 많이 정규화의 한 형태로,뿐만 아니라 내장 된 모델의 복잡성 (그것이 얼마나 큰)에 데이터 세트의 종류와 크기에 따라 본질적으로합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.