나는 당신이 찾고있는 구별이 경험적 대 이론적이라고 생각하지만 (감독 대상과 비 감독 대상이 아닌) 나는 그것에 대해 틀릴 수 있습니다. 다시 말해, 이상적인 것은 노래를 분류하는 데 사용할 수있는 불투명 한 데이터가 아니라 다양한 장르에 대한 이론적 정의를 갖는 것입니다 (실제 이해없이).
그러나 일반적인 장르 분류의 경우 처음에는 장르의 정의를 작성하더라도 최소한 예제의 교육에 푹 빠져있을 것입니다. 예를 들어, 사람들이 특정 트랙이 실제로 덥 스텝인지 (예 : 장르가 전혀 흔들리지 않고 시작 되더라도 더 멍청 하고 덜 흔들리는 트랙인지) 사람들이 [YouTube에서] 얼마나 자주 논쟁하는지 생각해보십시오 . 사람들은 시간이 지남에 따라 예제를 통해 장르를 정의하므로 해당 동작을 복제하는 알고리즘에도 몇 가지 예제가 필요할 것으로 예상됩니다. 사람들이 장르를 설명하는 방식은 거의 특징 벡터 와 같습니다. 어쨌든-그들은 노래에 관한 질문의 목록을 요구합니다 (예 : 더 깨지거나 흔들리는가? 서브베이스가 많이 있습니까? 얼마나 늦습니까? 템포는 무엇입니까? 보컬이 있습니까? 등).
물론 장르에 대한 직관적 인 이해를 제공하는 기능 목록을 선택할 수도 있습니다. "Dynamic Range"와 같은 기능은 사람이 귀로도 감지 할 수있는 기능이지만 "Time Domain Zero Crossings"와 같은 기능은 분류에 적합하더라도 매우 직관적이지 않습니다. 다음 백서에는 흥미로운 몇 가지 기능이 있습니다.
George Tzanetakis, Perry R. Cook : 오디오 신호의 음악 장르 분류. 음성 및 오디오 처리에 관한 IEEE 거래 10 (5) : 293-302 (2002) 링크 .
거칠기를 측정하기 위해서는 심리 음향 거칠기 가 시작하기에 좋은 곳이지만, 예를 들어 덥 스텝 리드와 전기 리드를 구분하기에는 충분하지 않을 수 있습니다. 세밀한 구분을 위해 살펴볼 한 가지는 음색 인식 입니다. 다음 논문은 기술에 대한 적절한 조사를 수행했습니다.
TH 박,“자동 악기 음색 인식으로”Ph.D. 2004 년 뉴저지 프린스턴 대학 논문. link .
Timbre, Tuning, Spectrum 및 Scale의 지각 거칠기와 관련된 모델도 있습니다.이 모델 은 임의의 음색에 대한 사용자 지정 스케일을 구성하는 데 사용됩니다. 아이디어는 매우 밀접한 고조파가 불협화음으로 인식되는 비트 주파수를 생성한다는 것입니다. 에서 의역 부록 F와 E ,
경우 주파수와 파셜 스펙트럼 , 극한 부조화 [단위 진폭은 가정]는Ff1,f2,...,fn
DF=1/2 ∑i=1n ∑j=1n d(|fi−fj|min(fi,fj))
여기서
d(x)=e−3.5x−e−5.75x
Plomp-Levelt Curve 의 모델입니다 .
주어진 화음이 음색에 대한 즐거움을 측정하는 데 사용됩니다 (불협화음을 최소화 함). 나는 심리 음향의 거칠기 나 본질적인 불협화음이 당신의 목적에 매우 유익한지를 알지 못하지만 다른 메트릭스와 함께 유용 할 수 있습니다.
장르보다 수학적으로 목재를 분류하는 것이 더 운이 좋을 것입니다. 예를 들어, 현에는 짝수 및 홀수 고조파가 있지만 클라리넷에는 홀수 고조파 만 있습니다 (참조 : Sawtooth wave , Square wave ). 덥 스텝 워블은 LFO 구동 필터 (로우 패스 및 / 또는 포먼트 필터)로 수행되는 경향이 있으므로 Spectral Flux (위의 [Tzanetakis] 참조)와 같은 기능이 좋은 출발점이 될 수 있습니다. 그러나 아무도 워블의 수학적 분류를 아직 연구하지는 않았을 것입니다.)