예를 들어, 사람의 사진을 기반으로 연령 추정기를 구축한다고 가정 해 봅시다. 아래에는 정장을 입은 두 사람이 있지만 첫 번째 사람은 두 번째 사람보다 젊습니다.
(출처 : tinytux.com )
이것을 의미하는 많은 특징, 예를 들어면 구조가 있습니다. 그러나 가장 눈에 띄는 특징은 머리 크기와 신체 크기 의 비율입니다 .
(출처 : wikimedia.org )
따라서 사람의 나이를 예측하기 위해 CNN 회귀를 훈련했다고 가정합니다. 내가 시도한 많은 연령 예측기에서, 아이의 위 이미지는 소송 때문에 주로 얼굴에 의존하기 때문에 그가 나이가 많다고 생각하는 것에 대한 예측을 속이는 것 같습니다.
바닐라 CNN 아키텍처가 머리와 몸통의 비율을 얼마나 잘 추론 할 수 있을지 궁금합니다.
몸과 머리에 바운딩 박스를 얻을 수있는 지역 RCNN과 비교할 때 바닐라 CNN이 항상 더 나빠질까요?
바닐라 CNN에서 전체 평탄화 직전 (즉, 모든 컨볼 루션 직후) 각 출력에는 해당하는 수용 필드가 있으며 이는 스케일 감각을 가져야합니다. RCNN이 빠르면이 단계에서 바운딩 박스 제안을 정확하게하여이를 활용함으로써 모든 이전 컨볼 루션 필터가 자동으로 모든 스케일로 학습합니다.
그래서 바닐라 CNN이 머리 대 몸통 크기의 비율을 추론 할 수 있어야한다고 생각합니까? 이게 옳은 거니? 그렇다면 더 빠른 RCNN 프레임 워크를 사용하여 사람을 탐지하는 데 사전 훈련을 받았을 수있는 사실을 악용하는 유일한 이점은 무엇입니까?