사람의 말과 비슷한 오디오의 결정


12

이 문제에 대한 답을 찾고있는 동안,이 게시판 은 Stack Overflow 에서이 질문을 게시하기로 결정했습니다 .


오디오 세그먼트와 사람의 음성 사이의 유사성을 결정하는 방법을 찾고 있는데, 이는 숫자로 표현됩니다.

나는 꽤 많이 검색했지만 지금까지 찾은 것 (아래에 자세히 설명되어 있음)은 내가 필요한 것에 실제로 맞지 않습니다.

  • 한 가지 방법은 음성 인식 소프트웨어를 사용하여 오디오 세그먼트에서 단어를 얻는 것입니다. 그러나이 방법은 "유사한"오디오가 사람의 언어와 얼마나 유사한지를 생각 해낼 수 없습니다. 종종 오디오에 단어가 있는지 여부를 알 수 있지만 명확한 단어가 없으면 오디오에 그런 단어가 있다는 것을 알 수 없습니다.
    예 : CMU 스핑크스 , 잠자리 , SHoUT

  • 보다 유망한 방법을 VAD ( Voice Activity Detection )라고합니다. 그러나 VAD를 사용하는 알고리즘 / 프로그램은 활동 임계 값에 도달했는지 여부와 해당 임계 값 전후에 "유사성"값을 반환하지 않는 경향이 있습니다. 대안 적으로, 많은 사람들은 인간의 말과 유사하지 않고 볼륨 만 찾습니다.
    예 : Speex , 리스너 , FreeSWITCH


어떤 아이디어?


1
당신의 질문에서 당신이 문제가 A / 오디오 녹음인지, 그리고 사람의 말이 포함되어 있는지 아닌지 (응용 프로그램의 예 : 라디오 쇼의 녹음에서 DJ 대화를 감지하고 제거) 여부가 확실하지 않습니다. 또는 B /는 음성 입력을 받고 그것이 기준 오디오 세그먼트와 얼마나 유사한 지 말한다. B 인 경우 어떤 기준에서 유사성을 측정하려고합니까? 멜로디 윤곽에? (예 : 노래 된 노래와 노래 일치) 리듬과 클러스터 수업에서? (예 : 비트 복싱 / 오노 마토 포아를 드럼 루프에 매칭). 음색에? (음성과 음향 효과 일치). 신청서를 알려주십시오.
pichenettes

죄송합니다, 문제는 A에서 자세히 설명한 것입니다. 오디오 세그먼트가 인간의 연설인지 여부를 확인하고 싶습니다.
Jeff Gortmaker

1
나는 코골이 / 호흡 음이 언제 말이나 음악에 의해 "오염"되었는지를 결정하려고 노력하는 관련 문제에 대해 작업하고 있습니다. 신뢰성이 높고 "고급"음성 인식 알고리즘에 의존하지 않고 (실제로 작동한다면) 좌절하기가 어렵습니다. 저의 한 가지 관찰은 말은 불규칙한 리듬을 갖는 경향이 있지만 음악은 (보통) 규칙적이라는 것입니다. 그와 아마도 "스펙트럼 평탄도"는 확인할 가치가 있습니다 (나는 여전히 내 목적을 위해 그 장점을 평가하고 있습니다).
Daniel R은

(모발 세부 사항 : 오디오의 FFT에서 계산 된 스펙트럼 편평도의 표준화 된 표준 편차는 오디오 품질을 반영하는 것으로 보입니다.
Daniel R Hicks

답변:


6

이러한 종류의 문제는 일반적으로 기계 학습 기술을 사용하여 해결됩니다.

신호를 20ms 또는 50ms 프레임 시퀀스로 분류하십시오. 각 프레임에서 기능을 추출하십시오. MFCC는 일반적으로 이러한 종류의 응용 프로그램에 적합하지만 음성 감지 (4Hz 변조 에너지-사람들이 말하는 속도, 제로 크로싱 속도)에 더 특정한 기능이 있습니다.

그런 다음, 음성 / 비음이 아닌 것으로 수동으로 레이블이 지정된 교육용 오디오 세트를 사용하여 프레임 기능에서 분류기 (가우스 혼합 모델, SVM ...)를 교육하십시오.

이렇게하면 레이블이없는 프레임을 음성 / 비 음성 클래스로 분류 할 수 있습니다. 마지막 단계는 예를 들어 HMM을 사용하거나 중간 필터와 같은 의사 결정을 부드럽게하는 것입니다 (수백 개의 음성 프레임으로 둘러싸인 비 음성으로 분류 된 프레임은 분류 오류 일 수 있음).

몇 가지 참조 :

오디오 문서의 강력한 음성 / 음악 분류 (Pinquier & al) 멀티미디어 응용 프로그램을위한 음성 / 음악 구별 (El-Maleh & al) 음성 / 음악 구별 기능 비교 (Carey & al)

그들이 설명하는 특징과 분류 기술은 (음성 식별 대 다른 것 대신) 음성을 감지하는 일류 문제와도 관련이 있습니다. 이 경우 1 클래스 SVM과 같은 1 클래스 모델링 기술을 사용하거나 음성 데이터에 대해 학습 된 GMM에서 "음성"측정 값으로 가능성 점수를 얻을 수 있습니다.

반면에, 문제가 스피치와 다른 것을 구별하는 것 (음악과 같은) 인 경우, 이 컨텐츠 자체를 식별하는 대신 유사한 오디오 컨텐츠 ​​사이의 경계를 감지하는 데 중점을 둔 감독되지 않은 접근 방식 을 사용할 수도 있습니다.


고마워, 이것은 톤을 돕는다! 신호를 작은 창으로 분해하면 어떤 이점이 있습니까? 내가 찾고있는 출력이 전체 오디오 세그먼트를 설명하는 숫자 값이기 때문에 특정 창뿐만 아니라 전체 신호의 기능을 추출하는 것이 더 좋습니까?
Jeff Gortmaker

매우 긴 창에서 피쳐 (특히 스펙트럼 또는 두부)를 계산하면 음성을 두드러지게하는 일부 속성이 평균화되거나 취소됩니다. 많은 짧은 음성 조각을 혼합하여 직접 확인할 수 있습니다. 결과를 음성으로 인식하기가 어렵습니다. 따라서 작은 세그먼트에 대한 분류를 수행하는 것이 좋습니다. 그리고 귀하의 경우 점수를 집계하십시오 (예 : GMM에서 제공 한 가능성 점수의 평균을 계산하거나 이진 분류기로 음성으로 분류 된 프레임의 %를 계산하십시오).
pichenettes 2016 년

더 정확하게 말하면 스펙트럼을 볼 때 시간 차원이 "축소"됩니다. 예를 들어, 500Hz 톤의 전력 스펙트럼과 시간에 1kHz 톤의 전력 스펙트럼은 동시에 재생되는 두 톤의 전력 스펙트럼과 유사합니다. 따라서 긴 시간 동안 많은 변화를 일으키는 신호의 전력 스펙트럼은 신호의 내용을 대표하지 않을 수 있습니다.
pichenettes 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.