답변:
음성 대 비 음성을 감지하려고합니까, 아니면 구별하려고하는 비 음성 클래스가 있습니까? 나는 당신의 질문에서 명확하지 않습니다.
적절한 첫 번째 접근 방식은 신호를 프레임으로 차단하고 MFCC (Mel-Frequency Cepstral Coefficients)와 델타 -MFCC (인접 프레임의 MFCC 간의 차이)와 델타-델타 MFCC (MFC의 차이점)를 계산하는 것입니다. 두 프레임 떨어져있는 프레임). 이것이 유일한 방법은 아니지만 문제 영역에 대한 더 구체적인 지식이 없으면 시작하기에 좋은 곳일 것입니다.
인터넷 검색을 통해 MFCC에 익숙하지 않은 경우 MFCC를 계산하는 방법에 대한 좋은 참고 자료를 제공해야합니다. 기본적으로 DFT를 취하고 크기를 취하고 인간의 청각에 해당하는 삼각형 창 내부의 에너지를 계산하고 이러한 계수의 DCT를 압축 단계로 취한 다음 일반적으로 첫 12 개의 계수 만 사용하여 고차 계수를 버립니다. . 이 게시물에서 DCT 단계의 의미에 대한 설명이 있습니다. MFCC 추출 프로세스에서 DCT 단계를 어떻게 해석합니까?
그런 다음 이러한 계수를 SVM의 기능으로 사용할 수 있습니다.
나는 당신이 일반적으로 영원히 발견 된 음성 감지 문제를보고 있다고 생각하며, 지금 까지이 방법을 개발하는 무수한 방법이 있습니다. 그것은 모양 이 논문 당신이 거기 시작할 수 있도록 예를 들어, 또한, 스펙트럼 기술을 사용합니다. 오래된 Google 검색은 논문 및 기사에 대한 링크와 함께 많은 결과를 반환합니다.
일반적으로 음성 감지에는 두 가지 방법이 있습니다. 하나는 음성 대 잡음비가 우수하다는 가정을 허용하고 (음성은 주변 소음, 음악, 기타 관련없는 내용보다 더 크다), 다른 하나는 그러한 가정을하지 않으며 매우 시끄러운 신호에서 음성 존재를 식별하려고 시도합니다 (음성에 묻혀 있음) 소음). 어떤 것을하려고하는지에 따라 매우 다른 논문을 보게 될 것입니다. 아마도 질문을 좀 더 명확하게하고 작업중인 음성 신호 유형에 대해 자세히 설명하면이 사이트가 도움이 될 수 있습니다.