인간의 청각 시스템과 가장 유사한 변형은 무엇입니까?


12

푸리에 변환은 일반적으로 음의 주파수 분석에 사용된다. 그러나 인간의 소리 인식을 분석 할 때 몇 가지 단점이 있습니다. 예를 들어, 주파수 빈은 선형 인 반면, 사람의 귀는 선형이 아닌 대수적으로 주파수에 반응합니다 .

웨이블릿 변환은 푸리에 변환과 달리 다른 주파수 범위에 대한 해상도를 수정할 수 있습니다 . 는 속성이 웨이블릿 변환 고주파수 짧은 시간 폭을 유지하면서 낮은 주파수에서 큰 시간적 지원을 허용한다.

웨이블릿 Morlet 밀접 청각 인간의 인식과 관련이 있습니다. 음악 녹음에 적용 할 수 있으며 푸리에 변환 기술로는 불가능한 매우 정확한 결과를 생성합니다. 각 음표에 대해 명확한 시작 및 종료 시간으로 짧은 반복 버스트 및 반복 음표를 캡처 할 수 있습니다.

일정 Q 변환 (웨이브 렛 변환 밀접한 관련 Morlet)는 또한 잘 음악 데이터에 적합한 . 변환의 출력이 효과적으로 로그 주파수에 대한 진폭 / 위상이므로, 주어진 범위를 효과적으로 커버하기 위해 더 적은 스펙트럼 빈이 필요하며, 이는 주파수가 몇 옥타브에 걸쳐있을 때 유용합니다.

변환은 더 높은 주파수 빈으로 주파수 분해능 감소를 나타내며, 이는 청각 적용에 바람직하다. 그것은 인간의 청각 시스템을 반영하여, 낮은 주파수에서 스펙트럼 분해능이 더 좋은 반면, 시간 분해능은 더 높은 주파수에서 향상됩니다.

제 질문은 이것입니다 : 인간의 청각 시스템을 모방 한 다른 변형이 있습니까? 누구든지 인간의 청각 시스템과 해부학 적 / 신경 학적으로 일치하는 변환을 설계하려고 했습니까?

예를 들어, 사람의 귀는 소리 강도에 대한 대수 반응을 갖는 것으로 알려져 있습니다. 같은 소리 강도의 윤곽 은 강도뿐만 아니라 스펙트럼 성분의 주파수 간격에 따라 변하는 것으로 알려져 있습니다 . 전체 중요 음압이 일정하게 유지 되더라도 많은 중요 대역에 스펙트럼 성분이 포함 된 사운드는 더 크게 인식됩니다.

마지막으로, 인간의 귀는 주파수 의존적 제한된 시간적 해상도를가 집니다. 아마도 이것도 고려 될 수 있습니다.


"변환"에 수학적인 제한을 두십니까?
Olli Niemitalo

2
모든 링크에 대한 명성!
Gilles

인간의 청각 시스템만큼 복잡한 시스템을 단일 모방 할 수는 없습니다. 기존 HAS 모델 은 복잡한 신호 처리 아키텍처와 각 청각의 다른 측면을 모델링하는 다중 변환을 사용합니다. 조각 모델링을 고려하고 싶을 수도 있습니다.
Fat32

답변:


9

그러한 변화를 설계 할 때 경쟁 이익을 고려해야합니다.

  • 비선형 또는 혼란스러운 측면 (이명)을 포함하여 인간의 청각 시스템 (사람에 따라 다름)에 대한 충실도
  • 분석 부분에 대한 수학적 공식의 용이함
  • 이를 구별하거나 빠른 구현을 가능하게 할 가능성
  • 적당한 안정된 역의 존재

최근 두 가지 디자인이 귀를 사로 잡았습니다 : 청각 동기 감마 톤 웨이블릿 변환 , 신호 처리, 2014

CWT (Continuous Wavelet Transform) 기능을 사용하여 시간과 주파수를 효율적으로 파악할 수있어 신호의 시간-주파수 분석에 널리 사용됩니다. 웨이블릿은 상수 Q 특성을 나타내며, 이는 주변 청각 시스템의 기저막 필터에도 보유됩니다. 기저막 필터 또는 청각 필터는 종종 실험적으로 결정된 반응에 대한 근사치를 제공하는 감마 톤 함수에 의해 모델링됩니다. 이러한 필터에서 파생 된 필터 뱅크를 감마 톤 필터 뱅크라고합니다. 일반적으로 웨이블릿 분석은 필터 뱅크 분석에 비유 할 수 있으므로 표준 웨이블릿 분석과 감마 톤 필터 뱅크 사이의 흥미로운 링크입니다. 그러나 감마 톤 함수는 시간 평균이 0이 아니기 때문에 웨이블릿으로 정확하게 규정되지 않습니다. 선의 웨이블릿이 감마 톤 함수로 어떻게 구성 될 수 있는지 보여줍니다. 우리는 웨이블릿과 관련하여 특히 허용 성, 시간 대역폭 곱, 소실 모멘트와 같은 속성을 분석합니다. 우리는 제안 된 청각 웨이블릿이 어떻게 일정한 계수를 가진 선형 미분 방정식에 의해 제어되는 선형, 변이 불변 시스템의 임펄스 응답으로 생성되는지 보여줍니다. 제안 된 CWT의 아날로그 회로 구현을 제안합니다. 또한 감마 톤 파생 웨이블릿이 특이성 탐지 및 과도 신호의 시간-주파수 분석에 어떻게 사용될 수 있는지 보여줍니다. 우리는 제안 된 청각 웨이블릿이 어떻게 일정한 계수를 가진 선형 미분 방정식에 의해 제어되는 선형, 변이 불변 시스템의 임펄스 응답으로 생성되는지 보여줍니다. 제안 된 CWT의 아날로그 회로 구현을 제안합니다. 또한 감마 톤 파생 웨이블릿이 특이성 탐지 및 과도 신호의 시간-주파수 분석에 어떻게 사용될 수 있는지 보여줍니다. 우리는 제안 된 청각 웨이블릿이 어떻게 일정한 계수를 가진 선형 미분 방정식에 의해 제어되는 선형, 변이 불변 시스템의 임펄스 응답으로 생성되는지 보여줍니다. 제안 된 CWT의 아날로그 회로 구현을 제안합니다. 또한 감마 톤 파생 웨이블릿이 특이성 탐지 및 과도 신호의 시간-주파수 분석에 어떻게 사용될 수 있는지 보여줍니다.

ERBlet 변환 : 완벽한 재구성을 통한 청각 기반 시간-주파수 표현 , ICASSP 2013

이 논문은 소리 신호의 지각 적으로 동기를 부여하고 완벽하게 뒤집을 수없는 시간-주파수 표현을 얻는 방법을 설명합니다. 프레임 이론과 최근의 비 정지 Gabor 변환을 기반으로 주파수를 가로 질러 발전하는 해상도를 가진 선형 표현이 비 균일 필터 뱅크로 공식화되고 구현됩니다. 인간 청각 시간-주파수 분해능과 일치시키기 위해, 변환은 심리 음향 "ERB"주파수 스케일에서 등거리 간격으로 가우시안 윈도우를 사용합니다. 또한 변환 기능은 해상도와 이중화를 조정할 수 있습니다. 시뮬레이션은 빠른 반복 방법을 사용하고 ERB 당 하나의 필터를 사용하고 매우 낮은 이중화 (1.08)를 사용하여 전처리를 통해 완벽한 재구성을 달성 할 수 있음을 보여주었습니다.

그리고 나는 또한 언급 할 것이다 :

오디오 신호 처리를위한 청각 기반 변환 , WASPAA 2009

이 문서에는 청각 기반 변환이 제시되어 있습니다. 분석 프로세스를 통해 변환은 시간 영역 신호를 필터 뱅크 출력 세트로 변환합니다. 필터 뱅크의 주파수 응답 및 분포는 달팽이관의 기저막의 주파수 응답 및 분포와 유사합니다. 신호 처리는 분해 된 신호 도메인에서 수행 될 수있다. 합성 프로세스를 통해, 분해 된 신호는 간단한 계산을 통해 원래 신호로 다시 합성 될 수있다. 또한, 이산 시간 신호에 대한 빠른 알고리즘이 순방향 및 역변환 모두에 제공됩니다. 이 변환은 이론적으로 승인되었으며 실험에서 검증되었습니다. 노이즈 감소 애플리케이션에 대한 예제가 제공됩니다. 제안 된 변환은 백그라운드 및 계산 노이즈에 강하며 피치 고조파가 없습니다.


1
이것이 바로 내가 찾던 것입니다. 감사합니다.
user76284
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.