회선 신경망 하이퍼 파라미터 선택 규칙


22

필터의 치수 선택, 단위 풀링 및 컨볼 루션 레이어의 수를 결정하는 체계적인 방법을 다루는 좋은 논문이 있습니까?


1
제목을 편집했습니다. 많은 경우 짧은 이름이 모호하므로 약어 대신 전체 이름을 사용하는 것이 좋습니다.
Tim

답변:


11

어느 정도 예, 구글 연구원들은 최근에 좋은 Inception 아키텍처를 선택하는 방법에 대한 논문을 발표했습니다. 시작 넷은 제한된 매개 변수 예산에서 매우 높은 성능을 달성하므로 어느 곳에서나 시작하기에 좋은 곳이며 최근입니다. 링크는 다음과 같습니다 : 컴퓨터 비전을위한 시작 아키텍처 재검토 .

엄격한 양적 규칙을 제공하지 않고 최근 ImageNet 경쟁에서 우수한 성능을 달성하는 데 도움이되고 사용했던 지침을 제공합니다.

예를 들어, 그들이 논의하는 일부 원칙은 다음과 같습니다.

  • 하나의 큰 수용 필드 컨볼 루션 레이어를 사용하는 대신 작은 수용 필드 컨볼 루션 레이어의 스택을 사용하십시오. 즉, 3x3 conv 레이어의 2 스택과 단일 7x7 conv 레이어를 사용하십시오. 이 아이디어는 새로운 것이 아니며 Oxford VGG 팀 의 세부 사항 : Convolutional Networks깊이 있음의 악마의 귀환 에서도 논의되었습니다 . 이는 매개 변수 효율적이어야한다는 동기가됩니다. 또한 더 많은 레이어에 더 많은 비선형 성을 도입함에 따라 더 많은 표현 능력의 이중 효과가 있습니다.

  • 이 기사에서 언급 한 문헌에서 내가 보지 못한 것은 컨볼 루션 레이어를 깊은 레이어로 분해하는 것입니다. 따라서 단일 7x7 전환 레이어를 사용하는 대신 1x7 전환 레이어와 7x1 전환 레이어를 갖게됩니다. 깊이를 더하고 매개 변수도 효율적이라고 생각합니다.

  • 그물의 깊이와 너비의 균형을 맞 춥니 다. 높은 차원의 표현을 사용하십시오. 이것은 여러 개의 복잡한 계층을 함께 연결하는 Inception 모듈의 기본 원리 중 하나입니다. 따라서 컨버전에 작은 공간 크기가 있더라도 Inception 모듈을 사용하면 1x1, 3x3, 3x3-3x3, 최대 풀을 모두 합한 다차원 컨벌루션 연결을 통해 높은 차원의 표현을 사용할 수 있습니다. 이 Inception 모듈은 여러 작업을 병렬로 수행하는 것으로 해석 될 수 있으므로 "폭"이 있습니다. 컨벌루션 크기, 1x3, 3x1 등을 인수 분해 한 새로운 Inception 모듈로 더욱 발전했습니다.

  • 차원을 줄이려면 1x1 전환 레이어 (네트워크 스타일의 네트워크)를 사용하십시오. 매개 변수 효율성을 달성하기 위해 많은 차원 축소 기법을 사용합니다. 인접 피처 맵의 상관 관계가 높은 출력이 있기 때문에 이것이 효과적이라고 생각합니다. 자연 이미지가 이것과 일치하는 일부 로컬 통계적 속성을 나타내는 것으로 알려져 있으므로 의미가 있습니다. 따라서 1x1 NIN 레이어를 통해 치수를 줄이면 표현력에 치명적인 영향을 미치지 않습니다.

이 기사에는 더 많은 내용이 있습니다. 나는 그것이 당신이 요구하는 것에 대해 약간의 통찰력을 제공 할 수있는 기사라고 생각합니다. 그들은 conv net 아키텍처 디자인의 핵심 개념에 대해 이야기하고 있습니다.


2

이 하이퍼 파라미터를 문제 사양의 함수로 선택하는 것에 대한 문헌은 읽지 않았습니다. 그러나 대부분의 사람들이 효과적인 값을 얻기 위해 베이지안 최적화 방법을 채택하고 있음을 이해합니다. 합리적인 범위를 지정하고 다양한 조합을 테스트하여 하이퍼 파라미터가 모델의 정확도와 어떤 관련이 있는지에 대한 모델을 학습합니다. 그것은 나를 위해 잘 작동했습니다. Snoek, Larochelle 및 Adams ( http://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf ) 에서 "기계 학습 알고리즘의 실용적인 베이지안 최적화"를 확인하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.