스펙트로 그램을 사용하여 소리 (예 : 동물 소리)를 분류 할 수있는 가능성을 조사했습니다. 아이디어는 깊은 컨볼 루션 신경망을 사용하여 스펙트로 그램의 세그먼트를 인식하고 하나 (또는 많은) 클래스 레이블을 출력하는 것입니다. 이것은 새로운 아이디어가 아닙니다 (예 : 고래 소리 분류 또는 음악 스타일 인식 참조 ).
내가 직면하고있는 문제는 길이가 다른 사운드 파일이 있고 크기가 다른 스펙트로 그램이라는 것입니다. 지금까지 내가 본 모든 접근 방식은 고정 된 크기의 사운드 샘플을 사용하지만 사운드 파일의 길이가 10 초 또는 2 분이기 때문에이를 수행 할 수 없습니다.
예를 들어 처음에는 새 소리가 나고 끝에는 개구리 소리가납니다 (출력은 "새, 개구리"여야 함). 내 현재 솔루션은 신경망에 임시 구성 요소를 추가하는 것 (재귀 신경망을 더 많이 생성하는 것)이지만 지금은 간단하게 유지하고 싶습니다. 어떤 아이디어, 링크, 튜토리얼 ...?