딥 러닝의 정사각형 이미지에 대한 이유


12

VGG, ResNet 등과 같은 대부분의 고급 딥 러닝 모델에는 일반적으로 픽셀 크기가 정사각형 이미지가 입력으로 필요합니다 .224x224

입력이 동일한 모양이어야하는 이유가 있습니까? 아니면 이라고 말하는 Convnet 모델을 만들 수 있습니까 (예를 들어 팩스 인식을 원하고 세로 이미지가있는 경우)?100x200

와 같이 더 큰 픽셀 크기로 이점이 증가 합니까?512x512

답변:


10

컨볼 루션 신경망이 정상적으로 기능하기 위해서는 특정 픽셀 크기가 필요하지 않습니다. 이미지 세부 사항 대 매개 변수 수와 필요한 훈련 세트 크기 간의 타협과 같은 실용적인 이유로 값이 선택되었을 수 있습니다.

또한 소스 데이터의 종횡비가 다른 경우, 대상 개체가 일반적으로 중앙에있는 일부 세로, 가로, 중간에서 제곱 자르기를 수행하는 것이 합리적인 타협이 될 수 있습니다.

입력 이미지 크기를 늘리면 해당 입력을 처리하기 위해 네트워크에서 처리해야하는 노이즈 및 분산도 증가합니다. 그것은 더 많은 레이어를 의미 할 수 있습니다-컨볼 루션 및 풀링. 또한 더 많은 교육 예제가 필요하며 각 교육 예제가 더 커질 수도 있습니다. 이를 통해 훈련을 완료하는 데 필요한 계산 리소스가 증가합니다. 그러나이 요구 사항을 극복 할 수 있다면 여분의 픽셀이 차이를 만들 수있는 모든 작업에 대해보다 정확한 모델이 될 수 있습니다.

더 높은 해상도를 원하는지 여부에 대한 한 가지 가능한 규칙은 네트워크의 목표를 위해 인간 전문가가 추가 해상도를 사용하고 작업에서 더 나은 성능을 발휘할 수있는 경우입니다. 이는 네트워크가 이미지로부터 수치를 도출하는 회귀 시스템의 경우 일 수 있습니다 (예 : 얼굴 특징 사이의 거리와 같은 얼굴 인식 추출 생체 인식). 자동화 된 마스킹과 같은 이미지 처리 작업에도 바람직 할 수 있습니다. 이러한 작업에 대한 최신 결과는 실제 적용하려는 상용 이미지보다 여전히 낮은 해상도 일 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.