가장자리 식별과 같은 작업을 수행하기 위해 필터를 적용한다는 아이디어는 매우 멋진 아이디어입니다.
예를 들어, 7의 이미지를 찍을 수 있습니다. 일부 필터를 사용하면 원래 이미지의 다른 특성을 강조하는 변환 된 이미지로 끝날 수 있습니다. 원본 7 :
네트워크는 다음과 같이 경험할 수 있습니다.
각 이미지가 원본 7의 다른 가장자리를 어떻게 추출했는지 확인하십시오.
이것은 훌륭하지만 네트워크의 다음 계층이 Max Pooling 계층이라고합니다.
내 질문은 일반적으로 이것이 과잉처럼 보이지 않습니까? 우리는 필터를 사용하여 에지를 식별하는 데 매우 신중하고 신중했습니다. 이제 픽셀 값에서 지옥을 폭파했기 때문에 더 이상 신경 쓰지 않습니다! 내가 틀렸다면 정정하십시오. 그러나 우리는 25 X 25에서 2 X 2로갔습니다! 그렇다면 Max Pooling으로 바로 가십시오. 기본적으로 같은 결과가 나오지 않습니까?
내 질문의 확장으로 우연히도 4 개의 사각형 각각에 동일한 최대 값을 가진 픽셀이 생기면 어떻게 될지 궁금해 할 수 없습니다. 확실히 이것은 드문 일이 아닙니다. 그렇습니까? 갑자기 모든 훈련 이미지가 똑같이 보입니다.


The pooling operation provides a form of translation invariance시겠습니까?