사람이 최대 20kHz 주파수 사운드 만들을 수 있다면 왜 음악 오디오가 44.1kHz로 샘플링됩니까?


60

음악은 대부분 44.1 kHz로 샘플링되는 반면 어떤 곳에서는 최대 20 kHz까지만들을 수 있다고 읽었습니다. 왜 그렇습니까?


1
젊은 사람들은 더 높은 주파수를들을 수 있습니다. 다른 녹음 기술은 최대 48kHz를 사용합니다.
Thorbjørn Ravn Andersen

15
나이 퀴 스트 정리 : 당신은 파도의 주파수를 알려주기 위해 스윙마다 두 개의 샘플이 필요합니다.
mathreadler

프로세서는 빠르지 만 메모리는 저렴하지만 좋은 아날로그 필터는 여전히 까다롭기 때문에 더 높은 샘플 속도도 의미가있을 수 있습니다 (96 또는 192 kHz)
Nick T

2
48kHz는 비디오 제작에 사용되는 24, 25 및 30fps로 나눌 수 있기 때문에 일반적이라고 생각합니다. 24는 44100에 고르게 들어 가지 않습니다. Wikipedia가 언급 한 것입니다.
Nick T

4
@SohamDe 정확히 20kHz에서 20kHz 오디오 신호를 샘플링하면 아무 소리 들리지 않기 때문 입니다. 1 / 20,000 초마다 정점에 이르는 사인파를 상상해보십시오. 정확히 같은 속도로 샘플링하면 피크 (또는 노드 또는 샘플링 할 레벨) 만 샘플링합니다. 따라서 디지털 신호를 재생성하면 평평한 선이됩니다. 이 개념을 앨리어싱 (aliasing )이라고 하며, 듣고 자하는 최대 주파수의 두 배 이상을 샘플링해야합니다. 44 100 Hz는 2의 제곱으로 나눌 수있어 편리합니다.
MichaelK

답변:


89
  1. 실제 신호의 샘플링 속도는 신호 대역폭의 두 배보다 커야합니다. 오디오는 실제로 0Hz에서 시작하므로 44.1kHz로 녹음 된 오디오의 최고 주파수는 22.05kHz (22.05kHz 대역폭)입니다.
  2. 완벽한 브릭 월 필터는 수학적으로 불가능하므로 20kHz 이상의 주파수를 완벽하게 차단할 수는 없습니다. 여분의 2kHz는 필터의 롤오프를위한 것입니다. 불완전한 필터로 인해 오디오가 앨리어싱 될 수있는 "흔들리는 방" 이지만들을 수는 없습니다.
  3. 44.1 kHz의 특정 값은 당시 사용 된 PAL 및 NTSC 비디오 프레임 속도와 호환되었습니다.

이론적 근거는 여러 곳에 출판되어있다 : 위키 백과 : 왜 44.1 kHz?


9
안녕하세요, 저는 귀하의 답변에 정말로 동의하지만, ".. 두 배의 가장 높은 주파수"는 초보자에게 빨리 물립니다. 나이키 스트는 가장 높은 주파수가 아니라 대역폭에 관한 것입니다. 나는 당신의 대답을 약간 수정했습니다. 당신에게 괜찮은지 확인하십시오.
Marcus Müller

2
@Ruslan : Wikipedia 는 그것에 대해 꽤 좋습니다.
jojek

2
@BrianDrummond 편집하세요?
endolith

3
@ MarcusMüller는 "Nyqvist는 최고 허용 주파수입니다"로 물린 초보자는 인공물을 앨리어싱하여 어쨌든 물릴 것입니다 ... 그 후에 는 대역폭 의 모든 범위의 주파수가 에서 사이 의 범위로 어떻게 복조 되는지 이해합니다. . Δf0Δf=fs/2
leftaroundabout

1
고조파 10 개가 포함 된 19,999.9Hz 사운드와 9 개가 20,000.1Hz 사운드 사이의 차이를 구분할 수는 없지만 둘 사이의 전환이 들리지 않는다는 의미는 아닙니다. 점진적으로 차단되는 필터를 사용하면 이러한 문제를 피할 수 있습니다.
supercat

72

44,100은 처음 4 개의 소수의 제곱의 곱이므로 Sony가 선택했습니다. 이것은 많은 다른 정수로 나눌 수 있게 하는데, 이것은 디지털 샘플링에서 유용한 속성입니다.

44100 = 2^2 * 3^2 * 5^2 * 7^2

당신이 눈치 챘을 때, 44100은 또한 바로 위에 인간의 청각의 한계는 두 배. 바로 위의 부분은, 따라서 (이하 칩 거부)들을 저렴하게 필터를 약간의 여유를 제공합니다.

으로 러셀은 코멘트에 지적의 다른 많은 전체 숫자로 나누어 측면은 샘플 레이트가 선택되었을 때 즉각적인 혜택을했다. 초기 디지털 오디오는 지역에 따라 NTSC 또는 PAL 비디오 사양 을 지원하는 기존 아날로그 비디오 기록 매체에 기록되었습니다 . NTSC와 PAL은 필드 당 라인 수와 초당 필드 수 비율이 다르며, LCM (라인 당 샘플 수와 함께)은 44100 입니다.


12
선택은 단순히 많은 주요 요소를 얻는 것이 아니라 NTSC 및 PAL 비디오 녹화 장비를 사용하여 디지털 마스터를 저장하는 것입니다. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove 2014 년

3
@RussellBorogove : 감사합니다. Wiki 링크에 따라 44100은 NTSC 및 PAL 비디오 기능 속도의 샘플 속도의 LCM입니다 . 그것은 많은 요소가있는 숫자의 직접적인 결과이며, 나는 당신이 말이이 사양에서 카트를 주도했다고 믿습니다.
dotancohen

1
많은 숫자로 나눌 수 있지만 8으로 나눌 수는 없습니다.
Bogdan Alexandru

(Wikipedia에 따르면 40.5 ~ 46.8 kHz의 다양한 속도가 이러한 기준을 충족했을 것이며 44.1 kHz가 안티 에일리어싱 필터를위한 전이 대역을 제공하기 위해 선택되었다)
endolith

2
@BogdanAlexandru 또한 1 ms USB 프레임으로 나눌 수 없습니다 : D
endolith

13

나이 퀴 스트 속도는 모호함없이 캡처하려는베이스 밴드 신호의 대역폭의 두 배를 초과합니다 (예 : 앨리어싱).

20kHz의 두 배보다 낮은 속도로 샘플링하면 앨리어싱으로 인해 샘플을 보는 것만으로 매우 높은 주파수와 매우 낮은 주파수의 차이를 알 수 없습니다.

추가 : 유한 길이 신호는 주파수 영역에서 무한 지원되므로 엄격하게 대역 제한되지 않습니다. 이는 아직 이유 비 무한 음원 조금 샘플링 다른 이유는 상기 (유한 필터 전이 롤오프 단지 이유 이상) 중요한 앨리어싱을 피하기 위해 필요하다 (베이스 밴드 신호)의 두 배 높은 주파수 스펙트럼.


안녕하세요, 저는 귀하의 답변에 정말로 동의하지만, ".. 두 배의 가장 높은 주파수"는 초보자에게 빨리 물립니다. 나이키 스트는 가장 높은 주파수가 아니라 대역폭에 관한 것입니다. 나는 당신의 대답을 약간 수정했습니다. 당신에게 괜찮은지 확인하십시오.
Marcus Müller

6
@ MarcusMüller는 샘플링에 대한 "초보자"가 통과 대역 신호가 아닌 베이스 밴드 신호 샘플링으로 시작하기 때문에 실제로 대역폭이 아닌 가장 높은 주파수 ( "대역 제한"이라고도 함 ) 에 관한 것이므로 단면 또는 양면에 대한 추가 모호함이 있습니다. 대역폭).
robert bristow-johnson 2012

@ robertbristow-johnson은 그 모호성을 보지 않았습니다. 흠; 나는 bandlimit 접근 방식을 좋아한다!
Marcus Müller

3
위키 백과 문서 우리는 "호출 섀넌 말했다 있지만,"와 , 그가 유한 한 에너지를 가정에서 이렇게 무한한 에너지를 가지고 더 사인 곡선은 (도 넣을 수 디랙 델타했다 충분하다 ). 주파수 에서 정현파를 허용 하면 더 자주 입니다. Bfs2B±BBfs>2B
robert bristow-johnson 2012

10

기본적으로 신호 샘플링에는 두 배의 대역폭이 일반적인 요구 사항이므로 kHz가 최소입니다. 그런 다음 불완전한 필터링 및 양자화에 대처하는 데 조금 더 유용합니다 . 자세한 내용은 다음과 같습니다.2×20=40

이론적으로 필요한 것은 실제로 필요한 것이 아닙니다. 이것은 인용문을 따라갑니다 (많은 사람들에게 귀속됨).

이론적으로는 이론과 실제에 차이가 없습니다. 실제로는 있습니다.

저는 오디오 전문가는 아니지만 고품질 오디오 샘플링 / 압축 전문가의 교육을 받았습니다. 내 지식이 녹슬었을 수 있으니 조심하십시오.

첫째, 표준 샘플링 이론은 선형 시스템 및 시간 불일치와 같은 일부 가정에서 작동합니다. 이어서, 이론적으로, 연속 대역 제한 현상이 손실없이 대역폭의 약 2 배 (또는 기저 대역 신호의 최대 주파수의 2 배)에서 샘플링 될 수있는 것으로 알려져있다. "Nyquist rate"는 종종 다음과 같이 정의됩니다.

오류없이 신호 샘플링 할 수있는 최소 속도

이것은 "샘플링 정리"의 분석 부분입니다. "할 수있다"는 것이 중요합니다. 합성 부분이있다 : 연속 신호 " 추적 사인을 사용하여 유사하게 재구성 될 수있다 ". 이것은 유일한 기술이 아니며 저역 통과 프리 필터링, 비선형 (예 : 양자화, 포화) 및 기타 시변 계수를 고려하지 않습니다.

인간의 청각은 단순한 주제가 아닙니다. 인간은 20Hz에서 20,000Hz까지의 주파수를 듣는 것이 허용됩니다. 그러나 Hertz의 정확한 경계는 모든 인간에게 자연의 특성이 아닙니다. 더 높은 주파수에 대한 감도의 점진적인 손실은 나이가 들면서 빈번합니다. 다른쪽에 :

이상적인 실험실 조건에서 인간은 12Hz의 낮은 소리와 28kHz의 높은 소리를들을 수 있지만 성인의 임계 값은 15kHz에서 급격히 증가합니다.

청각은 선형 적이 지 않습니다 : 오디션과 어려움이 있습니다. 시간이 변하지 않습니다. 시간과 주파수 모두에 마스킹 효과가 있습니다.

20Hz에서 20,000Hz까지의 대역이 공통 범위이고 이론적으로 40,000Hz로 충분하다면 추가 왜곡에 대처하기 위해 약간의 추가가 필요합니다. 경험에 따르면 10 % 이상 ( 신호 대역폭) 더 좋고 44,100Hz 만 사용하면됩니다. 1970 년대 후반으로 거슬러 올라갑니다. 44,000Hz가 왜 사용되지 않습니까? 주로 CD의 인기로 설정된 표준 때문에 기술은 항상 트레이드 오프를 기반으로합니다. 또한 44,100은 처음 4 개의 소수의 제곱 ( )의 이므로 작은 요소가 있으므로 계산에 유리합니다 (FFT).2.2×22×32×52×72

따라서 에서 (및 배수)까지 안전, 양자화, 유용성, 계산 및 표준이 균형을 이룹니다.2×2044.1

다른 옵션이 있습니다. 예를 들어 DAT 형식은 48kHz 샘플링으로 출시되었으며 처음에는 변환이 어려웠습니다. 어떤 샘플 속도와 비트 심도를 사용해야합니까? 에서 양자화 (또는 비트 심도)와 관련하여 96kHz가 논의됩니다 . 이것은 논란의 여지가있는 주제입니다. 24 비트 48kHz 구절 24 비트 96kHz 참조 . 예를 들어 Audacity 샘플 속도 를 확인할 수 있습니다 .


2
1.이 질문에 대한 답은 나이키 스트 정리가> 20kHz가 아니라> 40kHz를 지시한다는 것입니다. 2. 사람의 청력이나 CD 형식은 최저값에서 20Hz로 제한되지 않습니다. 충분히 큰 파이프 오르간은 16Hz 톤을 생성 할 수 있으며 CD는 쉽게 재생할 수 있습니다. 일부 기관은 8Hz로 내려 가는데, 이는 개별 진동으로 인식되기 시작하지만 CD는 다시 재생할 수 있습니다.
user207421

"지시"를 제외하고 귀하의 의견에 동의합니다 ( "if"조건 임). 내가 이탈 한 곳을 지적 해 주시겠습니까?
Laurent Duval

1
@LaurentDuval의 답변에 대한 보충 자료가 하나 있습니다. 일반적으로 말, 음악 및 소리는 정지 신호입니다. 이것들은 효과적으로 대역 제한적이지만 우리는 아직 인간의 귀가 어떻게 연속적인 시간 신호를 신경 발사로 변환하여 소리의 인식을 용이하게하는지 알지 못합니다. 어떤 사람들은 "황금 귀"를 가지고 있으며 44.1 kHz와 96 kHz 녹음의 차이를 만들 수 있다고 종종 주장합니다. 또한, 나는 다음을 아직 확인하지 않았지만, 높은 샘플링 속도는 바 이노 럴 레코딩의 현지화와 같은 추가 신호에 대한 인식에 도움이되는 것으로 보입니다.
Neeks

0

정확히 44.1 kHz 인 이유는 이미 답변되었지만 인간의 인식 한계와 관련된 질문의 측면에 초점을 맞추기 위해 그 이유는 매우 간단합니다.

시간의 분해능은 모든 가능한 파형을 감지 할 수있는 한계까지 생성 할 수있을 정도로 정밀해야합니다. 받는 따르면 샘플링 이론 해상도는 샘플링 주파수의 두 배 이상이되도록 주파수이어야한다. 직관적으로 가장 높은 주파수에서 신호의 최대 값과 최소값을 나타내려면 최소 2 개의 점이 필요합니다.이 Ascii-art 구형파는 다음과 같습니다.

_   _
 |_| |_

-1

신호를 충실하게 재생하려면 샘플 속도가 빠를수록 좋습니다. ~ 40kHz는 대부분의 사람들이 (재 구축 할 때) 차이를 알 수없는 낮은 샘플링 속도이기 때문에 선택되었습니다. 오디오 샘플링이 도입되었을 때 메모리와 스토리지는 비싸고 더 높은 샘플링 속도는 저렴하지 않았습니다.

사람의 청각 상한의 두 배인 사이클 당 두 개의 샘플은 샘플링 신호에 대한 나이 퀴 스트 기준을 충족하더라도 재구성이 매우 열악합니다. 파형을 재생할 때. 문자 적으로 사인파를 구형파로 바꿀 수 있습니다. 아무도 알 수없는 20kHz에서 좋은 것입니다. 나는 개가 할 수 있다고 내기했다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.