사운드 파일에서 기능을 추출하고 사운드를 특정 카테고리 (예 : 개 껍질, 차량 엔진 등)에 속하는 것으로 분류하려고합니다. 다음 사항에 대해 명확하게 설명하고 싶습니다.
1) 이것이 가능합니까? 음성을 인식하고 서로 다른 유형의 개 껍질을 구별 할 수있는 프로그램이 있습니다. 그러나 소리 샘플을 수신하고 어떤 종류의 소리인지 말할 수있는 프로그램을 가질 수 있습니까? (참조 할 사운드 샘플이 많은 데이터베이스가 있다고 가정하십시오). 입력 사운드 샘플은 약간 시끄러울 수 있습니다 (마이크 입력).
2) 첫 번째 단계는 오디오 기능 추출이라고 가정합니다. 이 기사에서는 MFCC를 추출하여 기계 학습 알고리즘에 공급하는 방법을 제안합니다. MFCC는 충분합니까? 사운드 분류에 일반적으로 사용되는 다른 기능이 있습니까?
시간 내 주셔서 감사합니다.