나는 현재이 논문 의 결과를 재현하기 위해 노력하고있다 . 이 논문에서는 특징 추출을 위해 CNN을 사용하는 방법을 설명하고 Dnn-hmm이고 RBM을 사용하여 사전 훈련 된 음향 모델을 가지고 있습니다.
섹션 III 하위 섹션 A는 입력 데이터를 표현할 수있는 다른 방법을 설명합니다. 정적, 델타 및 델타 델타의 스펙트럼 플롯을 수직으로 쌓기로 결정했습니다.
그런 다음이 문서는 네트워크의 상태를 설명합니다. 그들은 회선 네트워크를 사용한다고 말하지만 네트워크 구조에 대해서는 아무것도 없습니다. 더욱이 네트워크는 항상 컨볼 루션 플라이로 지칭됩니까? 나는 일반적인 네트워크 회선 신경망 (cnn)과 비교하여 어떤 차이가 있는지 확신합니다.
이 논문은 차이점에 대해 다음과 같이 설명합니다.
(섹션 III 하위 섹션 B에서)
그러나 컨벌루션 플라이는 두 가지 중요한 측면에서 완전히 연결된 표준 숨겨진 레이어와 다릅니다. 먼저, 각 컨볼 루션 유닛은 입력의 로컬 영역에서만 입력을 수신합니다. 즉, 각 단위는 입력의 로컬 영역의 일부 기능을 나타냅니다. 둘째, 컨벌루션 플라이의 단위는 여러 개의 피쳐 맵으로 구성 될 수 있으며, 동일한 피쳐 맵의 모든 단위는 동일한 가중치를 공유하지만 하위 레이어의 다른 위치에서 입력을받습니다.
내가 궁금했던 또 다른 것은 종이에 실제로 dnn-hmm 음향 모델을 공급하는 데 필요한 출력 매개 변수가 몇 개나 있는지 여부가 있습니다. 필터의 수, 필터 크기 등을 디코딩 할 수없는 것 같습니다. 네트워크의 일반적인 세부 사항은 무엇입니까?