오디오 분류를위한 컨볼 루션 깊은 믿음 네트워크를 이해하는 방법?


11

"에서 계층 적 표현의 확장 성 자율 학습을위한 길쌈 깊은 믿음 네트워크 Lee 등으로". al. ( PDF ) Convolutional DBN이 제안되었습니다. 또한이 방법은 이미지 분류에 대해 평가됩니다. 작은 모서리와 가장자리 등과 같은 자연스러운 로컬 이미지 기능이 있으므로 논리적으로 들립니다.

" Convolutional Deep Faith Networks를 이용한 오디오 분류를위한 비 감독 기능 학습 "에서 Lee 외. 알. 이 방법은 다른 유형의 분류에서 오디오에 적용됩니다. 스피커 식별, 성별 인식, 전화 분류 및 일부 음악 장르 / 아티스트 분류.

이 네트워크의 컨볼 루션 부분을 이미지에 대해 가장자리로 설명 할 수있는 것처럼 오디오로 해석하는 방법은 무엇입니까?


종이에 대한 코드는 누구입니까?

답변:


9

오디오 애플리케이션은 2 차원 이미지 분류 문제의 1 차원 단순화이다. 음소 (예 : 음소)는 가장자리 나 원과 같은 이미지 기능의 오디오 아날로그입니다. 두 경우 모두 이러한 기능은 필수 위치를 갖습니다. 이미지 위치 나 말의 순간이 비교적 작은 근처에있는 값으로 특징 지어집니다. 컨볼 루션 (convolution)은 지역 이웃 내에서 가치를 통제하는 규칙적인 형태의 가중 평균입니다. 이를 통해 컨볼 루션 형태의 DBN이 의미있는 기능을 식별하고 식별하는 데 성공할 수 있다는 희망에서 비롯 됩니다.


1

Convolutional RBM이 오디오 데이터에 적용된 경우, 저자는 먼저 단기 푸리에 변환을 수행 한 다음 스펙트럼에서 에너지 대역을 정의했습니다. 그런 다음 변환 된 오디오에 컨볼 루션 RBM을 적용했습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.