노래 내에서 수학 함수 인식


12

나는 DSP를 처음 사용하고 있으며이 StackExchange를 발견 했으므로이 질문을 게시하기에 적합하지 않은 경우 사과드립니다.

더 수학적인 용어로 장르를 설명하는 자료가 있습니까? 예를 들어, 노래의이 섹션에서 신호에 대해 FFT를 수행 한 경우 (링크가 시작되지 않으면 2:09)이 섹션에 거친 정렬이 있다는 것을 감지 할 수있는 방법이 있습니까? 소리? 이와 같은 소리가 내가 비교할 수있는 수학 함수를 따르고 있습니까? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (링크에서 바로 소리 재생 시작)

지도 학습 기술을 사용하는 유일한 방법입니까, 아니면 다른 접근 방식이 있습니까 (가급적 감독이 필요하지 않음)?

조언을 주셔서 감사합니다.


FFT를 사용하여 드럼 비트와 플루트를 감지 할 수 있지만 장르는 감지 할 수 없습니다. 전체 파일의 음악적 특성은 아니지만 소리에 관한 매우 로컬적인 내용입니다.
endolith

소리의 "거칠음"을 인식 할 수 있습니까? MFCC가 등장한 곳입니까?
XSL

답변:


10

나는 당신이 찾고있는 구별이 경험적 대 이론적이라고 생각하지만 (감독 대상과 비 감독 대상이 아닌) 나는 그것에 대해 틀릴 수 있습니다. 다시 말해, 이상적인 것은 노래를 분류하는 데 사용할 수있는 불투명 한 데이터가 아니라 다양한 장르에 대한 이론적 정의를 갖는 것입니다 (실제 이해없이).

그러나 일반적인 장르 분류의 경우 처음에는 장르의 정의를 작성하더라도 최소한 예제의 교육에 푹 빠져있을 것입니다. 예를 들어, 사람들이 특정 트랙이 실제로 덥 스텝인지 (예 : 장르가 전혀 흔들리지 않고 시작 되더라도 더 멍청 하고 덜 흔들리는 트랙인지) 사람들이 [YouTube에서] 얼마나 자주 논쟁하는지 생각해보십시오 . 사람들은 시간이 지남에 따라 예제를 통해 장르를 정의하므로 해당 동작을 복제하는 알고리즘에도 몇 가지 예제가 필요할 것으로 예상됩니다. 사람들이 장르를 설명하는 방식은 거의 특징 벡터 와 같습니다. 어쨌든-그들은 노래에 관한 질문의 목록을 요구합니다 (예 : 더 깨지거나 흔들리는가? 서브베이스가 많이 있습니까? 얼마나 늦습니까? 템포는 무엇입니까? 보컬이 있습니까? 등).

물론 장르에 대한 직관적 인 이해를 제공하는 기능 목록을 선택할 수도 있습니다. "Dynamic Range"와 같은 기능은 사람이 귀로도 감지 할 수있는 기능이지만 "Time Domain Zero Crossings"와 같은 기능은 분류에 적합하더라도 매우 직관적이지 않습니다. 다음 백서에는 흥미로운 몇 가지 기능이 있습니다.

George Tzanetakis, Perry R. Cook : 오디오 신호의 음악 장르 분류. 음성 및 오디오 처리에 관한 IEEE 거래 10 (5) : 293-302 (2002) 링크 .

거칠기를 측정하기 위해서는 심리 음향 거칠기 가 시작하기에 좋은 곳이지만, 예를 들어 덥 스텝 리드와 전기 리드를 구분하기에는 충분하지 않을 수 있습니다. 세밀한 구분을 위해 살펴볼 한 가지는 음색 인식 입니다. 다음 논문은 기술에 대한 적절한 조사를 수행했습니다.

TH 박,“자동 악기 음색 인식으로”Ph.D. 2004 년 뉴저지 프린스턴 대학 논문. link .

Timbre, Tuning, Spectrum 및 Scale의 지각 거칠기와 관련된 모델도 있습니다.이 모델 은 임의의 음색에 대한 사용자 지정 스케일을 구성하는 데 사용됩니다. 아이디어는 매우 밀접한 고조파가 불협화음으로 인식되는 비트 주파수를 생성한다는 것입니다. 에서 의역 부록 F와 E ,

경우 주파수와 파셜 스펙트럼 , 극한 부조화 [단위 진폭은 가정]는Ff1,f2,...,fn

DF=1/2 i=1n j=1n d(|fifj|min(fi,fj))

여기서

d(x)=e3.5xe5.75x

Plomp-Levelt Curve 의 모델입니다 .

주어진 화음이 음색에 대한 즐거움을 측정하는 데 사용됩니다 (불협화음을 최소화 함). 나는 심리 음향의 거칠기 나 본질적인 불협화음이 당신의 목적에 매우 유익한지를 알지 못하지만 다른 메트릭스와 함께 유용 할 수 있습니다.

장르보다 수학적으로 목재를 분류하는 것이 더 운이 좋을 것입니다. 예를 들어, 현에는 짝수 및 홀수 고조파가 있지만 클라리넷에는 홀수 고조파 만 있습니다 (참조 : Sawtooth wave , Square wave ). 덥 스텝 워블은 LFO 구동 필터 (로우 패스 및 / 또는 포먼트 필터)로 수행되는 경향이 있으므로 Spectral Flux (위의 [Tzanetakis] 참조)와 같은 기능이 좋은 출발점이 될 수 있습니다. 그러나 아무도 워블의 수학적 분류를 아직 연구하지는 않았을 것입니다.)


2
datageist의 탁월한 응답. 더 자세한 정보와 소스 코드가있는 개발 플랫폼을 찾고 있다면 isophonics.net/QMVampPlugins 도 제안 합니다
Dan Barry

@ Dan 그 링크에 감사합니다.
datageist

공부할 틈새 주제를 찾았습니다! : D 훌륭한 답변과 링크에 감사드립니다. Google을 객관적으로 사용하는 것이 아니라 방향으로 안내했습니다.
XSL

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.