사람의 말과 비슷한 오디오의 결정

이 문제에 대한 답을 찾고있는 동안,이 게시판 은 Stack Overflow 에서이 질문을 게시하기로 결정했습니다 .

오디오 세그먼트와 사람의 음성 사이의 유사성을 결정하는 방법을 찾고 있는데, 이는 숫자로 표현됩니다.

나는 꽤 많이 검색했지만 지금까지 찾은 것 (아래에 자세히 설명되어 있음)은 내가 필요한 것에 실제로 맞지 않습니다.

한 가지 방법은 음성 인식 소프트웨어를 사용하여 오디오 세그먼트에서 단어를 얻는 것입니다. 그러나이 방법은 "유사한"오디오가 사람의 언어와 얼마나 유사한지를 생각 해낼 수 없습니다. 종종 오디오에 단어가 있는지 여부를 알 수 있지만 명확한 단어가 없으면 오디오에 그런 단어가 있다는 것을 알 수 없습니다.
예 : CMU 스핑크스 , 잠자리 , SHoUT
보다 유망한 방법을 VAD ( Voice Activity Detection )라고합니다. 그러나 VAD를 사용하는 알고리즘 / 프로그램은 활동 임계 값에 도달했는지 여부와 해당 임계 값 전후에 "유사성"값을 반환하지 않는 경향이 있습니다. 대안 적으로, 많은 사람들은 인간의 말과 유사하지 않고 볼륨 만 찾습니다.
예 : Speex , 리스너 , FreeSWITCH

어떤 아이디어?

audio algorithms speech-recognition

당신의 질문에서 당신이 문제가 A / 오디오 녹음인지, 그리고 사람의 말이 포함되어 있는지 아닌지 (응용 프로그램의 예 : 라디오 쇼의 녹음에서 DJ 대화를 감지하고 제거) 여부가 확실하지 않습니다. 또는 B /는 음성 입력을 받고 그것이 기준 오디오 세그먼트와 얼마나 유사한 지 말한다. B 인 경우 어떤 기준에서 유사성을 측정하려고합니까? 멜로디 윤곽에? (예 : 노래 된 노래와 노래 일치) 리듬과 클러스터 수업에서? (예 : 비트 복싱 / 오노 마토 포아를 드럼 루프에 매칭). 음색에? (음성과 음향 효과 일치). 신청서를 알려주십시오.

— pichenettes

죄송합니다, 문제는 A에서 자세히 설명한 것입니다. 오디오 세그먼트가 인간의 연설인지 여부를 확인하고 싶습니다.

— Jeff Gortmaker

나는 코골이 / 호흡 음이 언제 말이나 음악에 의해 "오염"되었는지를 결정하려고 노력하는 관련 문제에 대해 작업하고 있습니다. 신뢰성이 높고 "고급"음성 인식 알고리즘에 의존하지 않고 (실제로 작동한다면) 좌절하기가 어렵습니다. 저의 한 가지 관찰은 말은 불규칙한 리듬을 갖는 경향이 있지만 음악은 (보통) 규칙적이라는 것입니다. 그와 아마도 "스펙트럼 평탄도"는 확인할 가치가 있습니다 (나는 여전히 내 목적을 위해 그 장점을 평가하고 있습니다).

— Daniel R은

(모발 세부 사항 : 오디오의 FFT에서 계산 된 스펙트럼 편평도의 표준화 된 표준 편차는 오디오 품질을 반영하는 것으로 보입니다.

— Daniel R Hicks

이러한 종류의 문제는 일반적으로 기계 학습 기술을 사용하여 해결됩니다.

신호를 20ms 또는 50ms 프레임 시퀀스로 분류하십시오. 각 프레임에서 기능을 추출하십시오. MFCC는 일반적으로 이러한 종류의 응용 프로그램에 적합하지만 음성 감지 (4Hz 변조 에너지-사람들이 말하는 속도, 제로 크로싱 속도)에 더 특정한 기능이 있습니다.

그런 다음, 음성 / 비음이 아닌 것으로 수동으로 레이블이 지정된 교육용 오디오 세트를 사용하여 프레임 기능에서 분류기 (가우스 혼합 모델, SVM ...)를 교육하십시오.

이렇게하면 레이블이없는 프레임을 음성 / 비 음성 클래스로 분류 할 수 있습니다. 마지막 단계는 예를 들어 HMM을 사용하거나 중간 필터와 같은 의사 결정을 부드럽게하는 것입니다 (수백 개의 음성 프레임으로 둘러싸인 비 음성으로 분류 된 프레임은 분류 오류 일 수 있음).

몇 가지 참조 :

오디오 문서의 강력한 음성 / 음악 분류 (Pinquier & al) 멀티미디어 응용 프로그램을위한 음성 / 음악 구별 (El-Maleh & al) 음성 / 음악 구별 기능 비교 (Carey & al)

그들이 설명하는 특징과 분류 기술은 (음성 식별 대 다른 것 대신) 음성을 감지하는 일류 문제와도 관련이 있습니다. 이 경우 1 클래스 SVM과 같은 1 클래스 모델링 기술을 사용하거나 음성 데이터에 대해 학습 된 GMM에서 "음성"측정 값으로 가능성 점수를 얻을 수 있습니다.

반면에, 문제가 스피치와 다른 것을 구별하는 것 (음악과 같은) 인 경우, 이 컨텐츠 자체를 식별하는 대신 유사한 오디오 컨텐츠 사이의 경계를 감지하는 데 중점을 둔 감독되지 않은 접근 방식 을 사용할 수도 있습니다.

— 피케 네트
소스

고마워, 이것은 톤을 돕는다! 신호를 작은 창으로 분해하면 어떤 이점이 있습니까? 내가 찾고있는 출력이 전체 오디오 세그먼트를 설명하는 숫자 값이기 때문에 특정 창뿐만 아니라 전체 신호의 기능을 추출하는 것이 더 좋습니까?

— Jeff Gortmaker

매우 긴 창에서 피쳐 (특히 스펙트럼 또는 두부)를 계산하면 음성을 두드러지게하는 일부 속성이 평균화되거나 취소됩니다. 많은 짧은 음성 조각을 혼합하여 직접 확인할 수 있습니다. 결과를 음성으로 인식하기가 어렵습니다. 따라서 작은 세그먼트에 대한 분류를 수행하는 것이 좋습니다. 그리고 귀하의 경우 점수를 집계하십시오 (예 : GMM에서 제공 한 가능성 점수의 평균을 계산하거나 이진 분류기로 음성으로 분류 된 프레임의 %를 계산하십시오).

— pichenettes 2016 년

더 정확하게 말하면 스펙트럼을 볼 때 시간 차원이 "축소"됩니다. 예를 들어, 500Hz 톤의 전력 스펙트럼과 시간에 1kHz 톤의 전력 스펙트럼은 동시에 재생되는 두 톤의 전력 스펙트럼과 유사합니다. 따라서 긴 시간 동안 많은 변화를 일으키는 신호의 전력 스펙트럼은 신호의 내용을 대표하지 않을 수 있습니다.

— pichenettes 2016 년