음성 활동 감지를위한 라이브러리 (음성 인식 아님)


18

이전 질문에 따라 음성 감지 라이브러리가 있는지 궁금합니다. 음성 감지 란 오디오 버퍼를 전달하고 음성이 시작 및 중지되는 위치의 색인을 다시 가져 오는 것을 의미합니다. 따라서 44kHz에서 10 초의 오디오 샘플링을 수행하면 다음과 같은 숫자 배열이 필요합니다.

44000
88000
123000
190334
...

예를 들어 말은 1 초 후에 시작하여 2 초 지점에서 끝난다는 것을 나타냅니다.

내가 찾고 있지 않은 것은 음성으로 텍스트를 쓰는 음성 인식입니다. 불행히도 이것은 구글 '음성 감지'시 많이 볼 수 있습니다.

아이폰 용 앱을 작성할 때 라이브러리가 C, C ++ 또는 Objective-C에 있다면 좋을 것입니다.

감사!


1
다음 답변 중 하나에서 답을 찾을 수 있습니다. dsp.stackexchange.com/questions/912/…
Geerten

1
이 대신 연설의 노래를 제외하고는 매우 유사하다 dsp.stackexchange.com/q/2367/29
endolith

1
또한 관련 : dsp.stackexchange.com/a/1543/29 "음성 활동 감지"
endolith

1
시작 / 오프셋 감지를 조사해야합니다. 음악, 음성 및 레이더 신호 처리에 많은 응용 프로그램이있는 활성 분야입니다.
CyberMen

답변:


13

내에서 대답 하여 그 질문에, 나는 음성 활동 감지 G.729 및 다른 사람과 같은 코덱의 표준 기능이라고 언급했다.

이를 적용하는 알고리즘에 대한 참조 인코더 및 디코더를 찾아야합니다.

그러한 예 중 하나는 http://www.voiceage.com/openinit_g729.php입니다.

또 다른 가능한 소스는 Speex 코덱입니다. VAD를 구현하는

BTW : "음성 감지"가 아닌 Google "음성 활동 감지"또는 "토크 분출"을 사용해야합니다.



4

적응 형 임계 값을 사용한 음성 활동 감지는 모든 플랫폼에서 구현하기가 매우 쉽고 편리합니다.

여기 당신은 적응 형 에너지 기반 의 알고리즘을 가질 수 있습니다

처음 계산할 때 위의 알고리즘에 약간의 추가로 에너지 평균을 취하고 Emin으로 표시

이 과정에서 전달한 프레임은 서브 프레임으로 나뉘며 각 서브 프레임의 활동을 검사 할 수 있습니다

겹친 프레임으로 인한 추가 문제를 극복 할 수 있습니다


종이에 메소드를 구현하려고하는데 소음 억제로 인해 Min_E가 0이면 손실됩니다. 이 경우 Thresh_E는 방정식에서 -INF가됩니다. log1p (Min_E)를 취하더라도 Thresh_E는 0이되어 0이 아닌 에너지로 인해 음성 프레임을 잘못 분류하는 것이 매우 쉽습니다. 좋은 제안이나 오해가 있습니까? 방정식 : Thresh _ E Energy _ Pr imThresh * log (Min _ E)
Farley

3

LibVAD는 어떻습니까?

그것은 당신이 묘사 한 것과 정확히 일치하는 것 같습니다.

공개 : 저는 LibVAD의 개발자입니다


libVAD는 어떻게 얻습니까?
todd

그것을 구입함으로써. 그러나 웹 사이트는 양식을 작성한 후에 가격을 공개하지 않습니다.
Camille Goudeseune 21시 33 분

2
링크는 방문자가 플래시를 업데이트하도록하는 악성 사이트로 이동합니다.
Steve Severance
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.