전화 통화 오디오를 무음 / 무음으로 분할하는 방법은 무엇입니까?


9

내 문제는 배경 소음의 에너지를 모른다는 것이므로 에너지를 임계 할 수는 없습니다. 처리는 실시간으로 이루어지며 약 500msec을 결정해야합니다. 이상적으로는 조용한 자음이 침묵이 아닌 것으로 간주되기를 원합니다.


6
완전한 답변을 제공하기에 충분한 정보가 없지만 문제를 음성 활동 감지 라고합니다 . 이를위한 단일 합의 된 최선의 방법은 없으며, 보시면 여러 가지 다른 접근법을 접하게 될 것입니다. 아마도 다른 사람들은 그것을 조금 더 살릴 수 있습니다.
Jason R

@Michael 리트는, 'Teager - 카이저'의 이름으로 '에너지 감지'에 사용 된 비선형 필터 (의 클래스가있다. 나는 생각 이 'voltera 커널'로 알려져 있습니다 무엇의 하위 집합입니다. 죄송합니다 나는 어떤을 제공하지 못할 좀 더 자세한 정보를 원하신다면 검색하고자하는 단어를 찾으실 수 있습니다 티저-카이저 (Teager-Kaiser) 방법을 사용하여 고래 소리가 시작될 때 VS 배경 잡음 만 '시작'하는 데 사용됩니다.
Spacey

답변:


4

볼 수있는 많은 매개 변수가 있습니다.

  1. 전반적인 에너지
  2. 단기 스펙트럼 : 스피치는 상당히 독특한 "핑크와 같은"스펙트럼을 가지며, 음향이 아닌 경우 음성이 아닌 경우 (음성 부분이 아닌 부분에서 발생하는) 흰색으로 표시되거나 "적색"(예 : 저주파수가 무거움) 경향이 있습니다. 소음 또는 마이크 소음
  3. 진폭 통계. 대부분의 노이즈 신호에는 가우스 분포가 있으며 음성은 라플라스 분포에 더 가깝습니다.

이 세 가지의 조합은 상당히 강력한 탐지 체계를 제공해야한다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.