윈디하나의 누리사랑방. 이런 저런 얘기

글쓴시간
분류 문화,취미/Hi-Fi,PC-Fi
샘플링레이트(Sampling Rate), 비트깊이(Bit Depth)

※ 디지털 오디오 음원인 CD는 16bit-44.1kHz 이라는 규격을 가지고 있다. 이 규격은 디지털 오디오에서 상당한 고음질을 낼 수 있는 스펙이다. 여기서 44.1kHz 는 샘플링레이트, 16bit 는 비트깊이다.

- 비트깊이는 다이내믹레인지(Dynamic Range, 이하 DR으로 표기, 소리의 최대크기와 최소크기의 비율)와 관련있다. 이론적으로 비트당 6dB 의 다이내믹 레인지를 표현가능하다고 한다. 따라서 16bit 는 이론상 96dB 의 다이내믹 레인지를 가진다. 초고가 아날로그 녹음기의 다이내믹 레인지가 80dB 안팍인걸 고려하면 굉장히 높은 다이내믹 레인지다.

- 샘플링레이트는 소리의 주파수와 관련있다. 사람의 일반적인 가청주파수는 20Hz ~ 18kHz 정도로 잡는다. 소리를 키우면 20kHz까지 듣는 아이들도 있지만 일반적인 가청 주파수는 저정도이고(가청 주파수는 나이가 들면 더 떨어진다. 20세 성인인 경우 개인차가 있겠지만 좋은 경우 250 ~ 16kHz 정도다) 따라서 CD의 44.1kHz 라는 샘플링 레이트는 "나이키스트-섀넌 표본화 정리"(신호의 완전한 재구성은 표본화 주파수가 표본화된 신호의 최대 주파수의 두 배보다 더 커야 한다는 정리)에 의해 이론상 22.05kHz 주파수까지 커버 가능하므로 인간의 가청 영역을 모두 담을 수 있다.

※ 왜 고음질 디지털 오디오에서 24bit-48kHz 를 사용하나?

- 16bit 비트깊이는 이론상 훌륭한 다이나믹 레인지를 제공하긴 하지만, 실질적으로 ADC(아나로그-디지털 컨버터, 디지털 녹음기의 핵심 부품)가 오디오를 디지털로 담을때 1~2bit 정도의 다이내믹 레인지 손실이 발생한다. 또한 헤드룸(Headroom, Crest factor, 피크를 제대로 표현하기 위해 남겨두는 여유 공간)에 최소 3bit (~20dB) 정도를 할당하게 되는데, 이를 다 합하면 5비트 손실이 되고, 16-5=11 해서 11비트(=66dB)정도의 다이내믹 레인지가 된다. 아무리 좋은 ADC를 사용해도 다이내믹 레인지가 줄어드는 문제는 피해갈 수 없다.

- ADC로 변환한 디지털 오디오 소스를 가지고, 믹싱하고 음향효과를 주고, 컴프레싱작업을 하는 등의 마스터링을 하면 다이내믹 레인지는 더 떨어진다. 이렇게 점점 다이내믹 레인지가 떨어지다 보면 최종 소비자에게 제공되는 음원의 다이내믹 레인지는 처음 녹음했던 것 보다 더 떨어지게 된다. 물론 마스터링 작업을 하고나면 보통 사람이 듣기엔 더 좋아지지만, 전문가의 입장에서는 마냥 좋아할 수는 없는 셈이다. 그냥 이론상 다이내믹 레인지가 떨어지니 말이다. (특히 다이내믹 레인지가 떨어지면 웅장하고 섬세한 느낌의 음악을 만들기 어려워진다) 그래서 라이브 공연 시장이 남아있는 것이다. CD로 듣는 음악과 라이브로 듣는 음악이 그래서 다르다.

- 16bit 대신 24bit 를 사용하면 5비트 정도 손해를 봐도 다이내믹 레인지에 문제 없고 더 많은 헤드룸 영역을 할당해도 다이내믹 레인지에 여유가 생긴다. 16 비트로는 이론상으로나 실제로나 한계가 명확하기 때문에, 24bit 를 사용하는 것이다.

- 이왕하는거 32bit 로 하는건 어때? 라고 생각할지 모르겠지만 16 -> 24bit 만 해도 음원 데이터의 양이 50% 가 늘어나며 그만큼 연산양도 50%가 늘어난다. 이는 소비자들이 사용하는 재생기(오디오 플레이어)의 성능이 50% 좋아야 한다는걸 의미하고 성능이 좋은 만큼 기기의 배터리도 더 빨리 닳게 되며, 기기의 가격도 더 비싸진다는걸 의미한다. 그래서 데이터 양을 마냥 높일수만은 없다. 결정적으로 24bit 만 되어도 충분한 다이나믹 레인지를 얻을 수 있기 때문에 굳이 32비트로 높일 필요가 없다.

- 44.1 kHz 은 가청주파수를 담을 수 있는 40kHz 이상의 샘플링레이트에서, 당시 기술로 알리아스 제거를 위한 로우패스 필터를 개발하기 쉬운 샘플링레이트를 찾은게 44.1kHz 다. 게다가 44100 이라는 숫자는 처음 4개의 소수(2,3,5,7)를 각각 제곱승한걸 곱한값이다. 2^2*3^2*5^2*7^2 =44100 즉 뭔가 있어 보인다. 그냥 쉽게말하면 40kHz 이상 되는 숫자에서 괜찮아보이는 숫자를 선택한것이다. 44.1 이라는 숫자에 큰 의미를 둘 필요는 없다.

- 48kHz 는 뭔가요? 이건 비디오 스트리밍 규격때문에 나온거다. 30프레임, 60프레임, 720p, 1080p 등 비디오 전송 양을 자유롭게 조절하는 실시간 비디오 스트리밍 시장에서, 음원 전송 양도 줄일 수 있는 기능을 담아야 하는데, 어쩌다보니 48kHz, 16bit 로 전송하면 딱 맞는 비트레이트가 되었기 때문이다. 또한 12의 배수라 정수로 나누기 쉽다는 장점도 있다. 음향학적인 이유가 있어서 그런게 아니다. 하지만 현재 이 시장을 무시할 수 있는건 아닌데다 44.1 kHz 나 48kHz 나 데이터 양에 큰 차이가 없고 따라서 기기 가격도 차이 없기 때문에 그냥 48kHz 쓴다.

- 96kHz 를 사용하면 더 좋지 않나요? 맞다. 더 좋다. 문제는 이걸 만족시키려면 많은 비용이 들어간다는 거다. 위에서 말한 배터리및 플레이어의 성능 문제 말이다. 또한 96kHz 를 사용하면 48kHz 까지 음향이 담긴다. 이 대역은 잡음이 많은 대역이다. (정확하게 말하자면 인간이 들을 수 있는 20kHz까지는 말 그대로 인간이 들을 수 있기 때문에 잡음이나 소음에 대한 규제가 있어 사실상 깨끗한 대역이다. 인간이 못 듣는 대역을 녹음해 분석해보면 훨씬 많은 잡음이 있다) 따라서 96kHz 이상으로 샘플링 하려면 방음시설이 좋아야 하고, 음향 시설이 좋아야 하고, 녹음시설도 좋아야 한다. 열악한 녹음 환경에서 96kHz 으로 녹음하면 환경의 열악함만을 확인할 수 있을 뿐이다. 더 결정적인건 48kHz 나 96kHz나 일반인은 물론 전문가가 들어도 유의미한 차이가 없다는 거다. 대부분의 디지털 악기는 48kHz 로 출력하고 앞으로도 그럴것이다. 그래서 현실적으로 스튜디오를 96kHz를 구성해도 큰 차이가 나질 않는다. 세계의 메이저급 스튜디오도 96kHz 레코딩 시설을 갖춘 경우가 별로 없다.

-> 그래서 48kHz, 24bit 가 산업계 표준이 되었다.

※ 비트깊이, 샘플링 레이트 변환

- 비트깊이의 변환은 자유로운 편이다. 비트깊이를 다운시키면 음질의 손실이 생기긴 하겠지만 그리 큰 차이 없다. 높이는 것도 그냥 의미없는 값으로 (0으로) 채워넣으면 되기 때문에 (대신 디지털상 음질은 당연히 똑같다) 문제 없다. 하지만 같은 24비트를 지원하는 DAC을 채용한 기기에서, 16bit 와 24bit 의 출력 회로가 다르게 구성되는 경우가 많기 때문에, 소프트웨어적으로라도 이를 업 스케일링(16bit 음원을 24bit 음원으로 비트깊이를 높이는 것)하면 음질 향상에 효과가 있는 경우가 많다.

- 하지만 샘플링 레이트의 변환은 전혀 다른 문제다. 어렵다. 이론상 없던 음이 생기고 실제로도 없는 음이 생기니까 말이다. 노이즈, 앨리어스라고 표현하는게 그거다. (이런 잡음을 들을수 있고 느낄 수 있느냐는 다른 문제다) 특히 배수로 변환(예를 들어 96kHz <-> 48kHz로 샘플링 레이트를 1/2 으로 줄이거나 2배로 늘이는것)하는건 그나마 덜 생기지만 48kHz -> 44.1kHz 등으로 변환하는건 훨씬 많이 생기기 때문에 사실상 안된다고 봐야 한다. 이런 경우는 48kHz 를 스피커로 출력한후 다시 마이크로 받아 44.1kHz으로 디지털 작업하는게 나은 경우도 있다. (이렇게 써 놓으니 실제로 못 들을것 처럼 써 놓았는데 그건 아니다. 필자도 구형 MP3 기기를 사용하기 위해서 샘플링 레이트를 변환해서 듣고 있다. 잡음이 유독 심하게 들어가는 극히 일부 음원(필자가 변환해본 음원의 1% 정도)을 제외하고는 유의미한 차이는 없다. 잡음이 들어간것도 3분짜리 곡에서 1개의 음이 그렇다는 것일 뿐이다. 물론 이게 상당히 거슬리긴 하기 때문에 아예 구형 기기에서는 안듣는다)