신호 처리 기술인 Mel frequency Cepstrum 은 종종 기계 학습 작업에 사용하기 위해 음악 작품에서 정보를 추출하는 데 사용됩니다. 이 방법은 단기 전력 스펙트럼을 제공하며 계수는 입력으로 사용됩니다.
음악 검색 시스템을 설계 할 때, 이러한 계수는 작품의 특성으로 간주됩니다 (분명히 독특하지는 않지만 구별). 네트워크 학습에 더 적합한 특성이 있습니까? Elman 네트워크 와 같은 장치에서 사용되는 저음의 진행과 같은 시변 특성이 더 효과적으로 작동합니까?
어떤 분류가 수행 될 수있는 광범위한 특성을 구성 할 수있는 특성은 무엇입니까?
특정 오디오 클립의 고유 한 품질을 찾고있는 검색 작업을하고 있습니까? 아니면 비슷한 음악을 식별하고 싶습니까?
—
앤드류 로젠버그
@AndrewRosenberg 유사한 음악을 식별하는 라인을 따라 더 많은.
—
jonsca
(나중에) MFCC를 다루는 방법에는 여러 가지가 있습니다. Kinunnen et al., 주파수 왜곡 및 강건한 스피커 검증 : 대안적인 멜-스케일 표현 비교 2013, 5p는 60 계수를 사용합니다. 그리고 무엇을 최적화합니까? 열려 있지 않은 데이터베이스는 무엇입니까? 그래서 나는 (전문가가 아닌) 질문이 너무 넓어서 대답하기 어렵다고 말하고 싶습니다.
—
데니스
@denis 정보 주셔서 감사합니다. 이것은 잘못된 머신 러닝 베타 (처음으로)에서 나왔습니다. 약간 모호한 점에 감사합니다.
—
jonsca