탈락과 다른 정규화를 조사하는 연구가 있습니까?


9

신경망에 대한 정규화 방법의 차이, 바람직하게는 다른 도메인 (또는 적어도 다른 데이터 세트)에 대한 차이점을 보여주는 논문이 있습니까?

나는 현재 대부분의 사람들이 컴퓨터 비전에서 정규화를 위해 드롭 아웃만을 사용하는 것처럼 보이기 때문에 묻고 있습니다. 다른 정규화 방법을 사용해야하는 이유가 있는지 확인하고 싶습니다.

답변:


3

두 가지 점 :

  1. 드롭 아웃은 보통 신경망 앙상블과 비교됩니다. 여러 신경망을 훈련하고 평균화하면 성능상의 이점이있는 것 같습니다.
  2. 드롭 아웃은 정규화보다 교정하기가 더 쉽습니다. 드롭 아웃 비율 인 하이퍼 파라미터는 하나 뿐이며 사람들은 교육 중에 0.5를 널리 사용합니다 (그리고 물론 평가시 1.0) . 예를 들어이 TensorFlow 예를 참조하십시오 .

어쨌든, 나는 신경망 경험적 연구에 대해 약간 회의적입니다. 네트워크의 토폴로지에서 그라디언트 디센트 최적화 절차, 활성화 기능 및 정규화와 같은 테스트 대상에 이르기까지 미세 조정하기에는 하이퍼 파라미터가 너무 많습니다. 그런 다음 전체가 확률 론적이며 일반적으로 성능 향상이 너무 작아서 차이를 통계적으로 테스트 할 수 없습니다. 많은 저자들이 통계 테스트를하지 않아도됩니다. 그들은 단지 교차 검증을 평균하고 가장 높은 소수점 이득을 가진 모델이 승자가 될 것이라고 선언합니다.

다른 판촉 정규화에 의해서만 이탈을 홍보하는 연구를 찾을 수 있습니다.

나는 그것이 미학 선호로 귀결된다고 생각합니다. 드롭 아웃 IMHO는 정규화보다 더 생물학적으로 그럴듯합니다. 또한 교정이 더 쉬운 것 같습니다. 따라서 TensorFlow와 같은 프레임 워크를 사용할 때 개인적으로 선호합니다. 우리가 자주하는 자체 신경망을 사용해야한다면, 구현하기가 쉬워 정규화를 사용할 것입니다.


0

명확히. 창조자 자신의 논문, Geoffrey Hinton. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf 읽어보십시오. 그러나 나는 그것을 직접 구현하여 차이점을 볼 것을 권장합니다.


2
이 논문은 당시 최첨단 결과를 개선하는 것으로 중퇴를 입증하는 것을 제외하고는 다른 정규화 접근법을 명시 적으로 비교하지 않습니다 (이전의 결과는 다른 형태의 정규화를 사용했을 가능성이 높지만 나열되지는 않았습니다). 또한 드롭 아웃을 늘리기위한 효과적인 추가 규칙으로 maxnorm weight constraints를 언급합니다.
Neil Slater
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.