그래서 나는 convolutional net을 사용하여 인간의 이미지에 대해 사전 훈련을하려고합니다. 나는 논문 ( Paper1 및 Paper2 ) 과이 stackoverflow link를 읽었 지만 그물의 구조를 이해하고 있는지 잘 모르겠습니다 (논문에 잘 정의되어 있지 않습니다).
질문 :
입력과 노이즈 레이어, 컨볼 루션 레이어, 풀링 레이어를 차례로 가질 수 있는데, 출력을하기 전에 풀링을 해제합니까 (입력 이미지와 동일)?
여러 개의 (135,240) 이미지가 있다고 가정하십시오. 32, (12,21) 커널과 (2,2) 풀링을 사용하면 32 (62,110) 기능 맵으로 끝납니다. 이제 풀링하여 32 (124, 220) 피처 맵을 얻은 다음 평면화합니까? 내 (135,240) 출력 레이어를 제공하기 전에?
이러한 conv-pool 레이어가 여러 개인 경우 스택 형 노이즈 자동 인코더와 같이 하나씩 하나씩 훈련시켜야합니까? 또는-input-conv-pool-conv-pool-conv-pool-output (출력이 입력과 동일 함)과 같은 것을 가질 수 있습니까? 이 경우 풀링, 디 풀링은 어떻게 관리되어야합니까? 출력하기 전에 마지막 풀 레이어에서만 풀링해야합니까? 그리고 다시-풀링의 크기 조정 요소는 무엇입니까? 기능 맵을 입력 형태로 다시 가져 오려는 의도입니까?
모든 conv-pool-depool 레이어 뒤에 노이즈 레이어를 도입해야합니까?
그런 다음 미세 조정시-풀링 레이어를 제거하고 나머지는 그대로 두어야합니다. 또는 노이즈 레이어와 디 풀링 레이어를 모두 제거해야합니까?
이미지에 대한 사전 교육을 수행하기 위해 스택 형 컨볼 루션 자동 엔코더의 아키텍처를 자세히 설명하는 url / paper를 알려 주실 수 있습니까?