신호 처리 speech

음성 활동 감지를위한 라이브러리 (음성 인식 아님)

이전 질문에 따라 음성 감지 라이브러리가 있는지 궁금합니다. 음성 감지 란 오디오 버퍼를 전달하고 음성이 시작 및 중지되는 위치의 색인을 다시 가져 오는 것을 의미합니다. 따라서 44kHz에서 10 초의 오디오 샘플링을 수행하면 다음과 같은 숫자 배열이 필요합니다. 44000 88000 123000 190334 ... 예를 들어 말은 1 초 후에 시작하여 2 …

18 audio speech

일반 FFT 크기 스펙트럼 대신 PSD를 언제 계산해야합니까?

44.1 kHz로 샘플링 된 32 초의 음성 신호가 있습니다. 이제 연설의 주파수를 보여 드리고자합니다. 그러나 최선의 방법은 무엇인지 잘 모르겠습니다. 때로는 푸리에 변환의 절대 값과 때로는 파워 스펙트럼 밀도를 계산하는 것 같습니다. 올바르게 이해하면 후자가 작동하여 신호를 부분으로 나누고 FFT를 부분별로 수행하고 어떻게 든 합산합니다. 창 기능은 어떻게 든 관련되어 …

12 fft frequency-spectrum dft speech frequency-domain

«speech» 태그된 질문