여기서 핵심 단어는 사전 과 규모 입니다. 간단한 예로, 사진에서 사람의 나이를 예측한다고 가정하십시오. 이미지와 연령의 데이터 세트를 사용하면 딥 러닝 모델을 훈련시켜 예측할 수 있습니다. 이미지의 90 %가 쓸모없고 사람이있는 영역 만 실제로 유용하기 때문에 객관적으로 실제로 비효율적입니다. 특히, 사람의 얼굴, 몸 및 옷일 수 있습니다.
반면에 사전 훈련 된 물체 감지 네트워크를 사용하여 먼저 사람의 경계 상자를 추출하고 이미지를 자른 다음 네트워크를 통과 할 수 있습니다. 이 프로세스는 여러 가지 이유로 모델의 정확도를 크게 향상시킵니다.
1) 모든 네트워크 자원 (즉, 가중치)은 먼저 사람을 먼저 찾아야하는 것과 달리 실제 연령 예측 작업에 초점을 맞출 수 있습니다. 사람의 얼굴에 유용한 기능이 포함되어 있기 때문에 특히 중요합니다. 그렇지 않으면, 처음 몇 층에서 필요한 미세한 기능이 손실 될 수 있습니다. 이론적으로는 충분히 큰 네트워크가이 문제를 해결할 수도 있지만 비효율적입니다. 자른 이미지는 원본 이미지보다 훨씬 더 규칙적입니다. 원본 이미지에는 많은 노이즈가 있지만, 잘린 이미지의 불일치는 대상과 훨씬 더 밀접한 관련이 있습니다.
2) 잘라낸 이미지는 동일한 배율 로 정규화 될 수 있습니다 . 이렇게하면 두 번째 네트워크가 스케일링 문제를 처리하는 데 도움이됩니다. 원본 이미지에서는 사람들이 가까이 또는 멀리서 발생할 수 있기 때문입니다. 사전에 배율을 표준화하면 자른 이미지에 자른 이미지 전체를 채울 사람이있을 수 있습니다 (멀리 떨어져 있으면 얼빠진 상태 임에도 불구하고). 이것이 어떻게 스케일링에 도움이되는지보기 위해 원본 이미지의 너비와 높이의 절반 인 자른 몸체는 처리 할 픽셀 수가 4 배 적으므로이 이미지에 적용된 동일한 네트워크는 각 레이어에서 원래 네트워크의 수용 필드의 4 배가됩니다.
예를 들어, kaggle lung 경쟁에서 최상위 솔루션 의 공통 주제는 가능한 한 많이 자르고 각 폐의 구성 요소를 분리하는 폐 이미지에 대한 일종의 전처리였습니다. 입방체 효과이기 때문에 3D 이미지에서 특히 중요합니다. 각 치수의 20 %를 제거하면 거의 절반의 픽셀을 제거 할 수 있습니다!