MFCC가 검색 시스템에 음악을 나타내는 최적의 방법입니까?


10

신호 처리 기술인 Mel frequency Cepstrum 은 종종 기계 학습 작업에 사용하기 위해 음악 작품에서 정보를 추출하는 데 사용됩니다. 이 방법은 단기 전력 스펙트럼을 제공하며 계수는 입력으로 사용됩니다.

음악 검색 시스템을 설계 할 때, 이러한 계수는 작품의 특성으로 간주됩니다 (분명히 독특하지는 않지만 구별). 네트워크 학습에 더 적합한 특성이 있습니까? Elman 네트워크 와 같은 장치에서 사용되는 저음의 진행과 같은 시변 특성이 더 효과적으로 작동합니까?

어떤 분류가 수행 될 수있는 광범위한 특성을 구성 할 수있는 특성은 무엇입니까?


특정 오디오 클립의 고유 한 품질을 찾고있는 검색 작업을하고 있습니까? 아니면 비슷한 음악을 식별하고 싶습니까?
앤드류 로젠버그

@AndrewRosenberg 유사한 음악을 식별하는 라인을 따라 더 많은.
jonsca

(나중에) MFCC를 다루는 방법에는 여러 가지가 있습니다. Kinunnen et al., 주파수 왜곡 및 강건한 스피커 검증 : 대안적인 멜-스케일 표현 비교 2013, 5p는 60 계수를 사용합니다. 그리고 무엇을 최적화합니까? 열려 있지 않은 데이터베이스는 무엇입니까? 그래서 나는 (전문가가 아닌) 질문이 너무 넓어서 대답하기 어렵다고 말하고 싶습니다.
데니스

@denis 정보 주셔서 감사합니다. 이것은 잘못된 머신 러닝 베타 (처음으로)에서 나왔습니다. 약간 모호한 점에 감사합니다.
jonsca

답변:


8

우리는 한 시점에서 이것에 대해 약간의 작업을 수행했습니다. 추출한 기능 세트는이 NIPS 워크숍 논문에 나와 있습니다. 필자는이 분야에서 다른 저자의 결과를 복제 할 수 없다는 것을 인정해야한다. 항상 그런 것은 아니지만 저작권을 이유로 대중에게 공개하는 행위). 본질적으로 그들은 모두 단기적인 스펙트럼 특징 이었습니다자기 회귀 계수도 함께 사용됩니다. 우리는 장르의 분류를보고 있었는데, 우리는 매우 짧은 시간 범위 (<1s)에서 인간에 의해 수행 될 수 있다는 사실을 알고 있습니다. . 일반적인 장르 / 아티스트 / 앨범 / 프로듀서 분류보다 복잡한 작업에 관심이있는 경우 더 긴 범위의 기능이 필요할 수 있습니다. 그렇지 않으면 이러한 단기 스펙트럼 기능이 가장 잘 작동하는 경향이 있습니다.


AR 계수를 던지는 목적은 무엇입니까?
jonsca

1
@jonsca 우리는 많은 "약한"학습자를 결합하여 작동하는 부스팅 방법을 사용하고 있었으므로 쉽게 계산할 수있는 기능을 사용하기로 결정했습니다. 약한 학습자가 유용하기 위해서는 필요한 모든 것이 기회 수준보다 크게 분류 될 수 있다는 것입니다. AR 계수는 스펙트럼 엔벌 로프의 압축과 동일하며, 이는 아주 느슨하지만 그 창 내 음악의 단기 정보 복잡성에 대한 개념을 제공합니다.
tdc

@tdc, "데이터 세트는 대중에게 공개되지 않는 경향이 있습니다 ...": 음소 표가 붙은 무료 온라인 음성 데이터 세트에 대해 알고 싶으십니까?
데니스

@denis 내가 아는 유일한 것은 이것이다 : orange.biolab.si/datasets/phoneme.htm
tdc

@tdc, 고맙지 만, 그것은 통계 학습 요소의 ~ 11 모음, ~ 1000 x 11 기능 (고대 LPC)입니다.
데니스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.