(수학적으로 복잡한) 폴리포니에서 개별 음의 피치 이동을 가능하게하는 수학적 오디오 모델은 무엇입니까?


24

제 질문은 다음과 같습니다. 폴리 포닉 음향 악기의 단일 음성 채널 단일 오디오 녹음에서 개별 음표의 변화 (즉, 피치 시프 팅)를 가능하게하는 폴리 포닉 사운드의 수학적 모델은 무엇입니까? '음성 오디오의 음표 변경'이란 셀 로니의 멜로디 네 소프트웨어에서 ' 직접 음표 액세스 '기능을 사용하여 사운드를 편집하는 것과 같은 것을 의미 합니다.

Wikipedia에 따르면 멜로디 네가 음향 (따라서 음색이 복잡한) 악기에서 연주되는 단일 라인 멜로디의 오디오 신호를 모델링하는 데 사용하는 것은 Henning Thielemann이 논문에서 ' 단음 소리언 탱글 링 위상과 시간 '이라는 제목의 설명과 비슷합니다 . 폴리 포닉 악기의 오디오 신호 모델에 대한 참조를 찾을 수 없습니다. Peter Neubacker의 Youtube대한 인터뷰에 따르면 , 멜로디 네의 다성 오디오 편집 기능은 Thielemann의 설명과는 다른 접근법이 필요합니다.

다른 YouTube 클립의 한 가지 힌트 는 Neubacker의 모델이 악기의 한 종류의 오디오 레코드 (즉, 피아노 만, 기타 만, 문자열 만, 바람만 등)의 오디오 레코드에서만 더 잘 작동한다는 것입니다. 또 다른 단서는 음의 피치를 이동시킬뿐만 아니라 그것의 (시작 및 종료) 타이밍을 나타내는 능력을 보여주는 또 다른 클립 입니다.


아래는 '대포 식 자료가 다른 접근법을 요구한다'(22:00부터 시청할 시간이없는 경우)라고 언급 한 YouTube 동영상의 대본입니다.

  • 멜로디 네가 생겨난 질문은 어떻게 이런 식으로 3 차원 형태의 소리를 얻을 수 있을까요? 그러면 어떤 방법으로 연속 시간에 따라 사운드가 종속되지 않습니까? 이 조각은 실제로 이것에서 나온 것입니다. 그것은 플라스틱 조각입니다 .... 이것은 음악적 데이터에서 직접 파생되었습니다. 이 개체는이 메모를 [루트에 메모를 뜯어 냄] 것입니다. 왼쪽에서 오른쪽으로 가장 잘 시각화됩니다. 시간은이 방향으로 진행됩니다 [왼쪽에서 오른쪽으로]. 그리고 그것은 진폭입니다 [손가락과 반대되는 엄지 손가락으로 크고 작은 소리로 울림]. 내가 돌리면, 그것은 ... 어떤 주어진 인스턴스 에서이 소리의 음색을 나타냅니다. 여기서는 약간 삼각형 인 구조 (조각의 바닥에서 단면을 가리키는)를 매우 명확하게 볼 수 있습니다. 이 소리에서

    멜로 다인은 아직 존재하지 않았고 단순히 사운드를이 형태로 변환하는 실험을하고 있었기 때문에이 사운드로 거의 1 년 동안 일했습니다. ... 나는이 소리를 안팎으로 알고 있습니다. 또한 로컬 사운드를 잘 보여줍니다. 나는 [마우스 클릭] 사운드를 재생할 수있을뿐만 아니라 어떤 지점의 사운드도 입력 할 수 있으며 원하는만큼 느리게 또는 빠르게 이동할 수 있습니다. 나는 소리에 머 무르거나 앞뒤로 움직일 수 있으므로 여기 한 곳을 살펴보면 ... ... 10 년 전에는 새로운 것이 었습니다.

    최근에는 dna (직접 메모 액세스)가 추가되었습니다. 그것으로, 나는 또한 폴리 포닉 음악을 편집 할 수 있습니다. 즉, 기타 녹음과 같이 동시에 소리가 나는 음을 개별적으로 편집 할 수 있습니다. 이제 작은 화음 (화면에서 폴리-> 개별 음표 선택)을 연주하면 방금 분리 된 엔터티로 연주 한 3 개의 음표가 표시됩니다. 다시 한 번 들어 봅시다 [컴퓨터는 작은 코드를 연주합니다]. 이제 손가락을 더 높은 프렛으로 옮기는 것처럼이 한 음표를 올릴 수 있습니다. 컴퓨터는 주요 화음을 연주합니다]. 분할 된 오디오의 경우이 음표 하나를 분리하여 원하는대로 원하는대로 위 또는 아래로 이동할 수 있습니다.

    이전에 복잡한 재료 내에서 개별 톤을 분리 할 수 ​​없었던 이유는 무엇입니까? 나는 솔직히 모른다. 과학에서 자연스런 경향은 단순한 것, 예를 들어 사인파 또는 개별 음표로 시작하여 재료가 더 복잡해 지거나 전체적으로 처리되어야 할 때만 시스템이 작동하지 않습니다. 내 접근 방식이 다릅니다. 나는 실제로 복잡한 신호로 시작하며, 더 간단한 것으로 되돌아가는 세부 사항을 검토하고 싶을 때만 실제로는 실제로 실제로 일어나는 일에 대한 전반적인 인상을 가져야합니다.

    비밀은 아마도이 롤에 있습니까? Heheh, 이것은 실제로 화장실 롤입니다. 원래 돌로 제기 된 문제는 주어진 소리를 어떻게 3 차원 형태로 번역 할 수 있는가였습니다. 여기에서, 나는 개인이 소리의 샘플링 값을 여기에 1, 2, 3으로 표시하여 나선형으로 배열했습니다. 그리고 [나선을 가로 지르는 지점] 사이를 보간하면 소리의 개별 단면을 나타내는 풍경이 나타납니다 [조각의 단면 횡단].

    롤은 몇 살입니까? 12 년. 그 아이디어는 오늘날 우리가 본 것 중 멜로디 네의 원천입니다. 그렇습니다. 그러나 소리를 감는 이러한 방식은 더 이상 다성 물질에 사용되지 않으며, 이는 다른 접근법을 요구합니다.


지금은 시간이 없지만, 당신은 Consonance 에 관한 Bill Sethares의 작품 을 읽고 싶을 것 입니다. 게시물을 정리하고 다음 며칠 동안 더 자세히 답변 해 드리겠습니다.
Peter K.

질문이 무엇인지 잘 모르겠습니다. 개별 음표를 분리하고 "사운드 코일 링"을 수행하면 음표의 고조파가 서로 정렬되도록 스펙트럼을 나선형으로 감싸는 것을 생각할 수 있습니다. nastechservices.com/Spectrograms.html nastechservices.com/Spectratune.html
endolith

답변:


12

TL; DR? 고조파 부분 분리를 위한 Google Scholar .


신호를 sines + noise (결정적 및 확률 적) 구성 요소로 분리하는 정현파 모델링 기술이 좋은 출발점이 될 것입니다. 죄로 구성된 결정 론적 구성 요소는 설득력있게 재 합성 될 수 있습니다.

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

신호에서 사인을 빼고 노이즈 / 확률 부분이 남아 있습니다.

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

확률 적 부분은 잡음 형성 필터를 통해 잡음을가함으로써 합성된다. 일부 다른 사람들은 이것을 시간 확장에서 일시적인 확률 적 특성을 보존하는 데 도움이되는 sines + noise + transients 모델로 확장했습니다.

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

신호의 정현파 매개 변수가 있으면 고조파 비율을 찾고 발병 등으로 그룹화하여 겹치는 음표의 사인을 분리 할 수 ​​있습니다. 부분 추적은 Google Scholar에서 많은 결과를 나타냅니다.

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

숨겨진 Markov 모델 , 다항식Macaulay-Quatieri 가 일부 방법입니다. 확률 론적 남은 부분을 두 개의 음표로 분리하는 데 어려움을 겪고 있습니다. Melodyne이 어떻게 이것을 해결하는지 모르겠습니다.


5

멜로디에 사용되는 접근 방식에는 2 개의 별도 주파수 도메인 작업이 필요합니다. 먼저, 폴리 포닉 녹음 기술은 폴리 포닉 오디오의 주파수 성분 (표준 주파수 변환으로부터)을 노트 활성화로 그룹화하는데 사용된다. 다시 말해, 가장 가능성이 높은 음표 활성화에 따라 그룹 고조파 하위 집합을 말합니다. 참고 문헌 및 수학적 모델에 대해서는이 포럼의 "역대 음성 코드 인식"게시물에 대한 나의 답변을 참조하십시오.

두 번째 동작은 위에서 추출 된 고조파 부분 집합의 주파수 영역 피치 이동이다. 확실하지는 않지만 Melodyne이 이것을 달성하기 위해 위상 보코더 접근법을 사용한다는 것을 거의 보증합니다. 이 기술을 사용하여 시간 스트레칭을 수행 할 수도 있습니다 . 우리는 Riffstation에서 이와 유사한 기술을 사용하며 잘 작동합니다.


3

한 가지 가능성은 통계적 패턴 매칭 접근법을 사용하는 분석 / 재 합성 일 수 있습니다. 관련된 악기의 믹스를 알고 있거나 합리적으로 추측 할 수 있고 모든 예상되는 음의 악기 사운드에 대한 템플릿 (초기 트랜 션트, 스펙트럼 및 스펙트럼 진화 등 포함)이있는 경우 많은 수의 제정신 코드를 통계적으로 일치시킬 수 있습니다 템플레이트 사운드 패턴을 사용한 조합으로 가장 가능성이 높은 다성 조합을 추정합니다. 이것은 다양한 "AI"와 같은 검색 기술이 유용 할 수있는 전 세계 최소 점에 대한 계산 집약적 인 검색 일 가능성이 높습니다. 그런 다음 다양한 개별 화음 확률을 취한 다음 의사 결정 이론을 사용하여 가장 가능성이 높은 대위법 시퀀스를 제 시간에 선택할 수 있습니다.

그런 다음 추정 된 음표를 선택하여 선택한 건반 피치 및 지속 시간에 다시 합성하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.