사운드 분류를위한 기능 추출

15

사운드 파일에서 기능을 추출하고 사운드를 특정 카테고리 (예 : 개 껍질, 차량 엔진 등)에 속하는 것으로 분류하려고합니다. 다음 사항에 대해 명확하게 설명하고 싶습니다.

1) 이것이 가능합니까? 음성을 인식하고 서로 다른 유형의 개 껍질을 구별 할 수있는 프로그램이 있습니다. 그러나 소리 샘플을 수신하고 어떤 종류의 소리인지 말할 수있는 프로그램을 가질 수 있습니까? (참조 할 사운드 샘플이 많은 데이터베이스가 있다고 가정하십시오). 입력 사운드 샘플은 약간 시끄러울 수 있습니다 (마이크 입력).

2) 첫 번째 단계는 오디오 기능 추출이라고 가정합니다. 이 기사에서는 MFCC를 추출하여 기계 학습 알고리즘에 공급하는 방법을 제안합니다. MFCC는 충분합니까? 사운드 분류에 일반적으로 사용되는 다른 기능이 있습니까?

시간 내 주셔서 감사합니다.

— 케빈 마틴 호세
소스

15

롱 샷으로 할 수 있습니다-무엇까지 확장 할 수 있습니까? 당신은 볼 것이다. 이러한 환경 적 사운드 분류 작업은 잘 연구되지 않았습니다. 또한 기계 학습 패러다임의 선택이 중요합니다-통계적 접근 방식 또는 아마도 이진 분류기입니까? GMM, ANN 및 SVM으로 시작할 수 있습니다. GMM 및 ANN을 선택합니다.
그렇습니다. 대부분의 사람들은 MFCC를 사용하고 있습니다. 왜냐하면 사람들이 실제로 듣고있는 것과 잘 연관되어 있고 그 이후로 더 좋은 것을 찾지 못했습니다. MPEG-7 디스크립터와 같은 추가 기능을 추가 할 수도 있습니다. 기능을 최적화 할 수없는 경우가 많기 때문에, 특히 분리 할 수없는 경우가 있으므로 적절한 기능 최적화를 수행해야합니다. 자세한 내용은 이전 답변을 참조하십시오.

스펙트럼에서 피쳐 추출

MFCC 추출

소리 감지

— jojek
소스

저녁에 답을 넓힐 것입니다.

— jojek

아직도 확장 된 답변을 기다리는 중 ...

— Nithin

저녁에 ...

— jojek

4

비언어적 오디오 (단독 환경)는 이미지, 음성, 텍스트와 같은 주요 스트림 머신 러닝 미디어 유형의 동생 인 것 같습니다.

질문에 대답하기 위해 주어진 소리를 식별하기 위해 네트워크를 훈련시킬 수 있습니까? 네! 그러나 머신 러닝이 어려운 이유는 모두 어렵습니다.

그러나 실제로 오디오를 보류하고있는 이유와 이미지 및 음성의 동생이라고 부르는 이유는 오디오에 대규모 레이블이 지정된 데이터 세트가 없기 때문입니다. 음성에는 TIMIT가 있으며 이미지에는 여러 ImagenNet, CIFAR, Caltech, 텍스트 및 자연 언어 처리가 있으며 많은 양의 문헌이 있습니다.

내가 아는 한, 비언어적 인간이 레이블이 붙은 최대 2 개의 오디오 데이터 세트는 UrbanSounds 및 ESC-100 데이터 세트이며, 이는 딥 러닝 접근을 위해 엄청나게 작습니다. 2 계층 ConvNet을 사용하여 이러한 데이터 세트에 대해 일부 혼합 된 결과가 있습니다.

MFCC 기능은 일반적으로 음성 인식 및 오디오 분석에서 잘 알려진 기본 기능 표현입니다. 그러나 수많은 다른 오디오 기능 표현이 있습니다! 이 문서 는 오디오 기능 유형에 대한 좋은 분류법을 제공합니다.

최근에 본 사운드 분류를 수행하는 가장 흥미로운 작업은 DeepNetd의 WaveNet 이라는 일부 사람들이 수행하고 있습니다 .

— 꿀벌
소스

3

개 짖는 소리, 카혼, 어린이 놀이 등 10 가지 클래스의 사운드 분류를위한 솔루션은 다음과 같습니다 . 신경망을 사용하는 tensorflow 라이브러리를 기반으로합니다. 사운드 클립을 스펙트로 그램으로 변환하여 기능을 추출합니다.

— abggcv
소스

3

단순히 연결하는 것만으로는 충분하지 않습니다.

— Gilles

예, 링크의 내용을 확장하십시오.

— Peter K.

2

그럼에도 불구하고 링크에 감사드립니다.

— Kevin Martin Jose

실제로 링크에서 제공되는 자습서에서 사용 된 기술에 대해 더 많이 이해하려고합니다. 컴퓨터 신호 및 이미지 처리 전문가이므로 소리 신호에 대한 지식이 매우 제한적입니다. 더 잘 이해하면 대답에 대해 더 자세히 설명하려고 노력할 것입니다.

— abggcv

1

예, 매우 가능합니다. NN은 이러한 종류의 분류 교육에 능숙하지만, 잘 선택된 기능 세트를 사용하면 가우시안 혼합 모델 또는 주요 구성 요소 분석과 같은 고전적인 클러스터링 알고리즘 만 필요할 수도 있습니다. . 현대 도서관은이 물건을 시간의 약 95 % 이상 얻을 수 있습니다.

— w 비드
소스