Research Article

The Journal of the Acoustical Society of Korea. 30 September 2020. 424-434
https://doi.org/10.7776/ASK.2020.39.5.424

ABSTRACT


MAIN

  • I. 서 론

  • II. 절대음량

  • III. ASL 산출 알고리즘

  •   3.1 주파수 영역

  •   3.2 최대에너지

  •   3.3 에너지 변동계수

  •   3.4 인지가중 에너지 분포도

  •   3.5 가중치 정규화

  • IV. 콘텐츠 플랫폼 적용 예

  • V. 결 론

I. 서 론

음원은 마스터링 과정을 통하여 전체 음량이 결정된다. 마스터링의 목적은 크게 2가지로 “음감의 보정 혹은 변형” 그리고 “전체 음량의 결정”이다. 마스터링은 decibel Full scale(dBFS)영역에서의 영구적인 파형 편집 작업이며, 여기서 전체적인 음감이나 음색을 수정하는 것은 마스터링 작업의 본질이지만, 이론적으로 봤을 때 전체 음량 편집은 굳이 마스터링 단계에서 파형에 변형을 가하지 않더라도, 향후 출력단에서 의도한 만큼 음량을 증폭 혹은 감소시키는 것이 가능하다.

2000년대 초반, 절정에 치달은 음량경쟁을[1,2] 비롯한 다양한 이유로 인하여, 현재는 마스터링 과정에서 음감 및 음색 보정 의도와 관계없이 인위적인 파형 압축 과정을 거쳐야 일반적으로 통용되는 음량으로 증폭하여 제작할 수 있다. 그리고 디지털과 아날로그 영역의 수많은 음량단위들은 각각 특화된 목적에 한정되어 사용된다.[3,4,5]

만약 출력 단에서, 제작자 혹은 청취자가 의도한 음량으로 음원 서비스 가능한 상황을 전제로 한다면, 기존 마스터링의 주 역할과 개념을 바꿀 수 있다. 여기서 더 나아가 실용적인 범위에 한정하여, 디지털과 아날로그 음량단위의 통합도 가능하다.

위의 목적으로 제안된 절대음량[6] 체계는 Fig. 1의 다음 3가지 영역에서 최종적인 음량이 출력된다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F1.jpg
Fig. 1.

Key elements of absolute sound level system.[6]

(1) 0 dBFS의 범위를 가지는 디지털영역의 입력절대음량. (2) 제작자가 의도한 음원에 따른 음량의 차이를 구현하는 의도감소태그. (3) 청자가 최종적으로 목표한 아날로그 영역의 출력절대음량.

Fig. 2는 다양한 장르의 상용음반 25개에 수록된 전체 트랙의 음반별 평균 절대음량을 시대별로 나열한 것이다. 이 그래프를 통해 절대음량 표현 방식의 직관성을 확인할 수 있으며, 음량경쟁을 이해하는데도 매우 효과적이다. ×표기된 4개의 음반은, 음반 출시일과 마스터링 시기에 10년 이상의 차이가 있으므로, 그 시대의 음량 추세를 반영하지 않는다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F2.jpg
Fig. 2.

(Color available online)Absolute sound level of albums according to the times.[1]

절대음량 시스템에서 가장 이상적인 마스터링이란, 전체 음량이 어떻게 출력될지와 관계없이, 다이내믹레인지를 항상 0 dBFS 풀레인지로 활용하고, 컴프레서 등의 파형 압축 기술은 음감이나 음색을 원하는 사운드로 변형하기 위해서만 사용하는 것이다. 그리고 음량에 관해서는 해당 음원내의 상대적인 밸런스에만 관여한다. 그럼으로써 전체 음량을 인위적으로 편집하는 과정을 과감하게 생략하고, 음질과 음감에만 집중할 수 있다.

본 논문에서는 디지털영역에 해당하는 입력절대음량(Input Absolute Sound Level) 수치를 자동으로 산출하는 방법과 실제 음원 콘텐츠 플랫폼에서의 활용 예를 서술한다.

II. 절대음량

사람이 최종적으로 음량을 인지하는 원리는 대단히 복잡한 것으로, 제한된 조건과 용도에 따라서 정의된 단위로는 효과적인 측정과 표현이 불가능하다. 사람이 느끼는 음량은 청각적인 개인차를 논외로 두더라도 최대피크와 평균에너지, 음색, 리듬, 에너지 변화양상 등의 요소가 복합적으로 작용하며, 무한대의 음향특성에 따라 일일이 샘플 음원을 제작하여 측정 및 기준을 잡는 것은 현실성이 없다.

또한 이러한 세부적인 측정 결과들을 결합한다고 단순히 합산된 결과가 나오지 않으며 다른 형태의 변수들이 끊임없이 생성된다.[4,7] 결과적으로 청각과 뇌의 생리학적 특성과 개별적인 음원 측정 실험을 통하여, 최종적인 인지음량을 순서에 따라 예측하는 방법은 한계가 있다.

하지만 이미 경험에 의하여 보편적으로 증명된 결과부터 역방향으로 접근하면, 실용적인 영역에서 빠르게 의미 있는 결론을 도출할 수 있다. 예를 들어, 일반적인 청취 환경에서, 전문가가 마스터링 한 하나의 음반내의 개별 트랙들은, 청취자가 트랙(음원)별로 일일이 음량을 변경할 필요가 없다. 심지어 개별 트랙의 음악 및 음향 특성이 크게 다르더라도, 음반내의 모든 음원의 음량밸런스에는 문제가 없다.[8]

그 이유는 사람의 청음 및 직접 조절에 의해서 보편타당한 수준의 음량 평준화가 가능하기 때문이다. 특히 음악음원은 매우 복잡하고 다양한 음향특성을 포함하므로, 다른 종류의 콘텐츠에도 광범위하게 적용될 확률이 높다. 즉 이미 결과로 증명되어(전문가에 의해서 마스터링 된) 실생활에서 서비스 중인 음악음원의 결과를 중심으로 음량을 먼저 정의한 후, 역방향으로 기준과 음량단위를 정의하는 것이다.

절대음량(Absolute Sound Level, ASL)의 단위는 dB (S: Sound)이다. 이 단위는 0 dBFS로 풀스윙하는 핑크잡음 60 dB(A) = 60 dB(S)를 기준으로 하며, 모든 음원의 인지음량을 동등하게 만드는 dB차이를 적용한다. 핑크잡음(1/f noise)을 기준으로 하는 이유는 실제 마스터링을 할 때 보편적으로 사용하는 레퍼런스 음원이기 때문이다. 그리고 옥타브 대역 당 에너지 총량이 동일한 점에서 청각인지 특성과 상당 부분 유사하고, 음향적 특성과 정의가 명확한 지속음이다.[9]

절대음량 기준 60 dB(S)는 핑크잡음 60 dB(A)와 같으며 기준이 세팅된 이후부터 dB(A)단위는 사용하지 않는다. Fig. 3은 ASL 측정 순서도이다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F3.jpg
Fig. 3.

(Color available online) ASL Measure flow chart.[1,6]

위의 방법으로 측정된 개별 디지털 음원의 절대음량을 통하여, 모든 음원의 음량 평준화가 가능하다. 절대음량 시스템을 실제 음향 환경에 활용하기 위해서는 마스터링 엔지니어가 직접 청음으로 측정한 ASL과 유사한 수치를 도출하는 절대음량 산출 알고리즘이 필요하다.

III. ASL 산출 알고리즘

Fig. 4는 절대음량 산출 알고리즘의 전체적인 순서이다. 최초 입력된 음원을 일정한 길이의 프레임을 씌우고 에너지를 계산한다. 이후 오버랩 형태로 이동하면서 최대에너지 프레임을 추출한다. 이후에 주파수 영역과 파형(에너지)영역의 분석을 진행한다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F4.jpg
Fig. 4.

(Color available online)Conceptual diagram of ASL algorithm.

3.1 주파수 영역

동일한 파형, 진폭, 에너지 포락선을 가지는 음원이라도 주파수 특성에 따라 체감하는 음량의 크기는 다르다. 따라서 ASL 산출 알고리즘은 인간의 주파수별 음량 인지 특성을 반영한 인지가중필터를 적용하여 그 결과를 dB(S)산출에 반영한다.

등라우드니스곡선의 (60 phon) 특성을 참고하여 적용한 주파수 영역 필터는 Fig. 5와 같다. 모든 수치는 등라우드니스 곡선(ISO 226:2003)에 해당하는 데이터를 활용하였다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F5.jpg
Fig. 5.

Filter spectrum of frequency domain.

Eq. (1)의 λF는 최대음량 구간의 원본 에너지와 주파수 영역 인지가중필터를 적용한 음원의 에너지 차이이다. 극히 예외적인 경우를 제외하면, 제안한 주파수 영역인지가중필터를 거칠 경우 전체 에너지는 필연적으로 원본의 에너지보다 감소한다. 사람이 등라우드니스 곡선의 기준 주파수 1000 Hz보다 크게 느끼는 주파수 대역폭은 약 2500 Hz ~ 4500 Hz로서, 옥타브 기준으로 전체 가청 대역의 10 % 미만 이며, 그 외의 가청 대역에서 상대적으로 청각이 인지하지 못하는 에너지의 양이 훨씬 크기 때문이다.

λF가 크다면, 물리적인 에너지에 비해 음량 인지에 미치는 영향이 적은 주파수 대역에 에너지가 많은 음원이며, λF가 작을수록 음량에 민감하게 반응하는 주파수 대역에 에너지가 많은 음원이다. 예를 들어 저음대역이나 초고음 대역에 에너지가 큰 음원일수록, 물리적인 에너지에 비해 상대적으로 사람이 느끼는 인지음량의 크기는 작기 때문에 λF가 증가한다.

아래 식은 이러한 물리와 청각인지간의 에너지 차이를 반영하는 것으로, 주파수 영역 인지가중필터를 통해 산출된 값은, 절대음량 산출 알고리즘의 주파수 영역 파라미터로 사용된다.

$$\lambda_F\lbrack dB\rbrack=10\log\sum_{N=i}^j\frac{X_i^2}{Y_i^2}.$$ (1)

Xi = Original Samples
Yi = Filtered Samples

해당 필터는 기존 등라우드니스 곡선에서 증폭되는 대역이 없도록 전체 대역을 -3.6 dB 감소 처리하므로, 어떠한 음원에 적용해도 0 dBFS를 초과하는 피크가 발생하지 않는다. 음량의 크기에 따라서 인지주파수 특성은 변하지만, 실제 최종 서비스되는 절대 다수의 음원의 목표음량 범위는 ±10 dB 범위를 벗어나지 않으며, 이러한 음량 범위에서 주파수대역 웨이팅 필터를 차등화 하는 것은 유의미한 차이를 도출하지 못한다. 따라서 주파수 영역 파라미터는 핵심적인 요소만 반영하였다. 실제로 사람이 인지하는 대표음량을 산출하는데 더 중요한 요소는 다음부터 설명되는 진폭과 에너지에 관련된 파라미터들이다.

3.2 최대에너지

80 ms 이하의 시간단위에서는 소리의 지속시간이 달라도 전체 에너지가 같으면 인지하는 음량의 크기도 같다. 따라서 80 ms를 사람이 음량을 감지하는데 영향을 미치는 가장 짧은 한계지점으로 간주할 수 있다.[10] 그리고 일반적인 소음측정기에서 사용하는 음량 측정 모드는 Fast와 Slow이며, 각각 125 ms와 1000 ms의 시간단위로 에너지를 평균 내어 측정한다. 하지만 본 실험에서 사람의 한계영역인 80 ms 및 소음측정기의 Fast모드인 125 ms 단위의 최대에너지는 ASL을 산출하는데 거의 영향이 없었다.

실험 결과 음원별 ASL 산출에 주요한 최대에너지 시간단위는 1000 ms이며, 이를 보완하는 가장 짧은 시간단위는 200 ms이다. 사람이 콘텐츠 음원을 청취할 때, 최종적으로 느끼는 음량은 200 ms의 순간적인 구간의 최대에너지만으로 결정되지 않으며, 그와 반대로 1000 ms 이상의 긴 구간의 에너지만 사용할 경우, 임펄스성이 강한 타격음 등이 다수 포함된 음원일수록, 효과적인 인지음량 반영이 불가능하다.

따라서 상호보완적인 관계에 있는 200 ms, 1000 ms구간 윈도우를 50 ms 단위로 오버랩하여 에너지를 분석한 후, 각각의 최대에너지를 파라미터로 사용하며, 마지막 단계에서 가중치가 적용되어 ASL 산출 결과에 반영된다.

3.3 에너지 변동계수

일정한 에너지가 지속되는 소리와 에너지 변동 폭이 큰 소리는 구간별 전체 에너지가 같더라도 인지음량에는 분명한 차이가 있다. 에너지 변동 계수는 이러한 음원의 에너지 변동 양상을 수치화하여 ASL 산출에 적용한다.

에너지 변동 양상은 에너지 구간별 표준편차로 비교가 가능하지만 전체평균에 차이가 있는 음원끼리는 동등한 비교를 할 수 없다. 이런 경우에는 표준편차 또는 분산과 같은 절대적 수치보다, 평균을 고려한 변동의 상대적 수치를 사용해야 한다. 이를 상대적 표준편차 또는 변동계수(Coefficient of Variation, CV)라고 한다. 변동계수 산출에는 Eq. (1) 수식이 사용되었으며, 분석 프레임 길이는 100 ms, 오버랩 구간은 50 ms를 적용하였다.

$$CV=\frac{\sqrt{\left(\frac{{\textstyle\sum_{i=1}^n}(x_i-\overline x)^2}{n-1}\right)}}{\overline x}\times100\%.$$ (2)

xi: Sample, x¯: Average of Samples

n: The Number of Sample

3.4 인지가중 에너지 분포도

에너지 분포도는 에너지 변동 포락선의 결과를 토대로 분포를 정규화 하여 각각의 빈도수를 나타낸다. 에너지 분포도에 대한 분석은 결국 진폭통계를 포함하는 것이며, 사람이 실제로 느끼는 음량을 예측하는데 중요한 가중치로 활용된다.

에너지 분포도의 에너지 빈도수는 음량에 개별적인 영향을 미치며, 분포의 전체 형태에 따라서 음량에 미치는 영향이 다르다. 사람이 음량을 인지하는 감각은 에너지에 대한 로그스케일이므로, 일반적으로 dB단위로 표현한다. 하지만 연속적으로 변화하는 개별 에너지의 분포일 경우, 각각의 개별 에너지가 클수록 인지음량에 미치는 영향력은 일반적인 에너지 합산보다 추가로 가산됨을 확인하였다.

제안한 인지가중에너지 λe는 아래 식에 의해 얻어진다. 분모의 상수는 수치를 다루기 용이한 단위로 바꾸는 역할을 하며, 소수점 이하는 반올림 처리해도 무방하다. 즉, 기존의 에너지 분포도의 빈도를 인지가중 에너지로 대처한 것이 인지가중 에너지 분포도이다. λE는 전체 인지가중에너지의 합산으로 가중치 정규화식에 사용된다.

$$\lambda_e=\frac{10^\frac{dB_E}{15}N}{1000},\;\;\lambda_E=\sum_{}^{}\lambda_e.$$ (3)

dBE: Weighted Energy

N: Total Number of the dB

Figs. 6 ~ 8은 기준이 되는 “핑크잡음”과 1990년 초반에 마스터링 된 “Duke Jordan-Glad I Met Pat”, 2012년에 마스터링 된 “싸이-강남스타일“의 프레임별 에너지 변동, 에너지빈도, 인지가중 에너지를 시각적으로 표현한 것이다. 에너지 축의 dB수치는 16 bit 음원을 기준으로 진폭단위를 1단위 정수로 처리하였으므로, 이론상 최대 기준은 96 dB이다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F6.jpg
Fig. 6.

(Color available online)Pink noise [ASL: 60 dB(S)].

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F7.jpg
Fig. 7.

(Color available online) Duke Jordan - Glad I Met Pat [ASL: 54.5 dB(S)].

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F8.jpg
Fig. 8.

(Color available online) Psy - Gangnam Style [ASL: 57.2 dB(S)].

에너지 변동 포락선은 앞에서 설명한 에너지 변동 계수를 직관적으로 나타낸다. 에너지 변동 포락선의 변화가 크다는 것은 청각의 자극하는 에너지의 움직임이 역동적이라는 뜻이다. 변동 계수가 작은 가장 전형적인 음원은 백색잡음과 핑크잡음이 있으며, 이런 음원은 청각을 일정한 에너지로 집중적으로 자극하므로 인지음량도 크게 상승한다.

인지가중 에너지 분포도는 에너지 빈도에 추가적인 가중치가 부여하여, 에너지 합산 시 실제 인지하는 음량을 유사하게 추종한다.

3.5 가중치 정규화

실험에 과정에서 사용한 음량 관련 파라미터는, 최종적으로 사용한 파라미터 이외에도 80 ms ~ 500 ms 사이의 구간 최대에너지, 200 ms ~ 1000 ms 구간 변동계수, 에너지 첨도(Kurtosis), 음량별 주파수인지가중 필터 등이 포함된다. 해당 파라미터 중 상당수는 독립적으로 적용할 경우 어느 정도 의미가 있었으나, 다른 파라미터들과 통합할 경우 유의미한 결과를 도출할 수 없었다. 그 이유는 다른 파라미터들과 상호보완적인 관계보다 중첩적인 역할이 더 많기 때문으로 추정된다.

Eq. (4)는 원본 음원에서 추출한 최대음량 구간을 주파수 영역과 파형/에너지 영역 분석을 통해 얻은 가장 유의미한 5개의 파라미터를 가중치 개념으로 정규화한, 절대음량 산출 방법이다. 모든 파라미터는 상호 보완적인 역할을 하며, 전문가에 의해서 마스터링 된 상용음반을 중심으로, 청음 측정 결과와 비교하여 가장 작은 표준편차를 도출하기 위해 수많은 형태의 파라미터 조합과 가중치 최적화 작업이 수행되었다. 알고리즘의 성능 판단 척도는, 청음을 통해 측정한 약 350개의 절대음량의 개별 편차에 대한 표준편차를 최소화하는 값이다.

$$dB(S)=\frac{\lambda_E-2\lambda_F-25}6-1.9\log_{10}CV+10^{-2}(33\max\nolimits_{1000}+\max\nolimits_{200})+28.6.$$ (4)

λE : Sum of Perceptual Weighted Energy

λF: Energy Difference after Weighting Filter of Frequency

CV : Coefficient of Energy Variation. If CV<1, CV5.2

max1000: Maximum Energy among 1000 ms Frames

max200: Maximum Energy among 200 ms Frames

λE는 Figs. 5 ~ 7의 Perceptual Weighted Emergy Distribution 그래프의 Y축 개별 값들의 총합이며, λF는 주파수 인지가중필터를 적용한 에너지의 차이로서, 사람에게 둔감한 주파수 대역에 에너지가 많은 음원일수록, 더 많은 인지음량의 감소를 반영한다.

CV는 에너지변동계수로서, CV가 낮을수록 인지음량은 증가한다. 이때 CV가 1보다 낮으면 인지음량에 미치는 영향력이 급격하게 감소한다. 이것을 반영하기 위해서 CV5.2를 적용한다. CV가 가장 낮은 대표적인 음원으로 화이트, 핑크, 브라운 노이즈 계열이 있으며, 이러한 음원들은 수식에 있는 음수부분이 거의 반영되지 않아서, 실제 인지음량도 매우 크다.

Table 1은 1978년에 마스터링 한 “Keith Jarret - My Song”음반에 수록된 6개 트랙(음원)에 대한, Eq. (4)의 5가지 파라미터 값이다. 상대적인 비교를 위하여 일반적인 음악음원과는 다른 특성을 가진 백색잡음의 파라미터를 추가하였다.

Table 1.

ASL and parameters of "Keith Jarrett - My Song".

Sound Source Listening dB(S) Calculation dB(S) λFλEmax200max1000CV
Questar 53.7 53.5 6.2 23.3 71.2 69.8 2.2
My Song 53.4 52.5 3.8 23.6 72.7 71.1 5.3
Tabarka 53.7 53.8 4.7 24.2 71.5 70.8 1.5
Country 53.0 52.8 5.6 23.0 71.9 70.7 5.4
Mandala 53.7 53.3 7.4 22.7 70.3 68.9 2.7
The Journey Home 53.0 53.0 5.0 23.4 70.7 70.2 2.7
Album Average 53.4 53.1 5.4 23.4 71.4 70.3 3.3
White Noise 62.0 62.0 8.4 25.1 72.5 72.3 0.2

우선 청음을 통한 이 음반의 절대음량 평균은 53.4 dB(S)이며, 개별트랙은 평균에서 ±0.4 dB 이내에 균일하게 분포한다. 그리고 산출 알고리즘을 통한 결과는 53.1 dB(S)로서 청음결과와 유사하다.

하나의 음반을 구성하는 개별 곡의 음악적, 음향적 특징에 따라서 개별 5개 파라미터의 값에 다소 차이가 있음에도, 최종적으로 산출된 음량이 청음결과와 유사한 이유는, 독립된 개별 파라미터가 음량 인지에 미친 영향들이 알고리즘에 의하여 복합적이고 효과적으로 반영되었기 때문이다.

이 음반평균과 백색잡음의 절대음량을 비교할 경우, 백색잡음이 약 9 dB 크다. 이것은 청각적으로 매우 큰 차이이다. 하지만 일반적인 음향학 상식에 따라서, 음량과 가장 직접적인 관계에 있는 에너지 파라미터 max200, max1000의 차이는 각각 1 dB ~ 2 dB 수준에 불과하다.

에너지 다음으로 음량을 인지하는데 주요한 것으로 알려진 것은 주파수 특성이다. 하지만 주파수인지가중 필터를 반영한 λF값이 백색잡음이 더 크므로, 반대로 인지음량을 감소시키는 역할을 한다. 백색잡음에는 인간이 잘 듣지 못하는 초고음대역에 많은 에너지가 분포하기 때문이다.

그럼에도 백색잡음의 최종 인지음량이 9 dB이나 더 큰 주요한 이유는, CV(에너지변동계수)가 극단적으로 낮기 때문이다.

시중에 마스터링 되어 판매 중인 1970년대부터 2010년대까지의 상용 음반의 음원을 중심으로 광고음원, 음성음원을 일부 포함한 약 350개 음원을 대상으로 실험 하였다. 산출된 전체 ASL 표준편차는 0.79 dB이며, 가장 큰 편차를 보인 개별 음원은 1.93 dB의 차이를 보였다. 0.79 dB의 표준편차는 청음결과와 연산결과의 평균적인 차이를 의미한다. 절대음량 연산결과, 65 % 이상이 ±0.5 dB 편차 이내에 분포하며, ±1 dB를 넘는 편차의 수는 전체의 15 % 수준이다.

Table 2는 마스터링 엔지니어의 청음결과와 알고리즘에 따른 산출 결과를 요약한 결과이다. 요약 기준은 음반 단위로서 개별 음반에는 최소 6개에서 최대 31개까지의 음원(트랙)을 포함한다. 따라서 해당 표의 ASL 수치는 개별 음반에 포함된 트랙들의 평균값이다.

Table 2.

Summary of listening and calculation results of ASL [dB(S)].

No Album or Sound Source Listening Calculation Deviation
1 Pink Noise 60.0 60.0 0.0
2 Duke Jordan - Flight to Denmark 53.4 53.2 -0.2
3 Led Zeppelin - The Song Remains the Same 53.0 53.3 +0.3
4 Keith Jarrett - My Song 53.4 53.1 -0.3
5 George Winston - December 51.4 51.8 +0.4
6 Metallica - Master of Puppets 53.6 53.6 0.0
7 Sound bird - 1 51.5 52.2 +0.7
8 Dave Weckl - Master Plan 52.9 52.0 -0.9
9 T-Square - Summer Planet 55.8 55.6 -0.2
10 Blind Guardian - Somewhere Far Beyond 52.1 51.5 -0.6
11 Bare Knuckle 2- OST 51.7 52.3 +0.6
12 Pantera - Vulgar Display of Cowboys 54.3 54.0 -0.3
13 Kim Kwang Seok - Sing Again 2 54.4 54.4 0.0
14 Symphony X - V 56.9 56.5 -0.4
15 Bare Knuckle 2 - OST (Remastered) 56.4 55.6 -0.8
16 ZARD - Blend II: Leaf & Snow 56.2 55.9 -0.3
17 Pantera - Reinventing Hell 56.8 56.0 -0.8
18 Sarah Brightman - Diva 55.0 55.8 +0.8
19 Blind Guardian - Somewhere Far Beyond (Remastered) 56.8 56.1 -0.7
20 Brown Eyes - The Very Best of Browneyes 55.7 55.6 -0.1
21 Classical Collection 1 - Bach& Beethoven 51.5 52.3 +0.8
22 Classical Collection 2 - Tchaikovsky& Vivaldi 51.1 51.4 +0.3
23 ZARD - Beautiful Memory 56.2 56.4 +0.2
24 Symphony X - Paradise Lost 56.5 56.2 -0.3
25 George Benson - Guitar Man (Deluxe Ver) 53.6 54.0 +0.4
26 PSY 6 57.6 56.6 -1.0
27 Advertisement Sound Sources 55.1 54.9 -0.2
28 Voice Sources of News 51.7 52.2 +0.5

Fig. 9는 절대음량 연산 결과를 15개 계급으로 나누어 표현한 전체 분포도로서, 57 dB(S)에 가장 많은 음원이 분포하고 있다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F9.jpg
Fig. 9.

(Color available online) ASL Distribution plot based on computational results.

그래프 형태상의 특징은 약 53 dB(S)와 57 dB(S)의 포락선 피크이다. 그 이유는 음량경쟁이 본격적으로 시작된 2000년을 기준으로 전과 후의 음량 마스터링 트랜드를 반영하는 결과이다.

IV. 콘텐츠 플랫폼 적용 예

절대음량이 적용된 콘텐츠 플랫폼은 모든 음원의 음량을 절대음량을 통해서 판단하고, 그것을 통해 원래 의도한 출력으로 제어한다. 여기서 말하는 음원의 주체는 음악이나 유튜브 등과 같이 영상과 결합한 멀티미디어 콘텐츠와 같은 제작물을 말한다.

절대음량은 음원 파일내의 디지털 영역인 “내부절대음량”과 스피커로 출력된 물리적 영역의 “외부절대음량”으로 구분된다. “내부절대음량”은 근본적으로 변하지 않는 해당 디지털 음원을 대표하는 하나의 음량이다. 그리고 기준음원으로 60 dB(A) = 60 dB(S)로 내부와 외부를 캘리브레이션 하면, 실용적인 범위 내에서 하나로 통합된 음량단위로 활용이 가능하다.

여기서는 내부/외부 절대음량이 동등하게 캘리브레이션 된 이상적인 시스템을 기준으로 설명한다. 비록 캘리브레이션 되지 않은 환경이라도, 음원 간에 고유한 음량 밸런스를 그대로 유지되므로, 절대음량 시스템의 주요 장점은 동일하다.

절대음량의 장점을 극대화할 수 있는 환경은 영상 및 음악 콘텐츠 플랫폼이다. Fig. 10은 절대음량을 적용한 콘텐츠 플랫폼의 개념도이다.

http://static.apub.kr/journalsite/sites/ask/2020-039-05/N0660390506/images/ASK_39_05_06_F10.jpg
Fig. 10.

(Color available online) Conceptual diagram of content platform applied with ASL.

음원 제작자는 인위적인 음량 편집 작업을 생략하고, 음질이나 음감과 같이 본질적인 부분에만 집중하여 콘텐츠를 제작한 후, 플랫폼에 업로드 한다. 이때 해당 콘텐츠의 목적이 음악(감상목적)인지, 방송(의미전달)인지를 선택한다.

콘텐츠의 목적을 선택하는 이유는, “의미전달 목적”으로 제작된 방송용 콘텐츠의 경우 (예: 유튜브) 감상용으로 재생하는 음악이나 영화보다 작은 음량이 출력되는 것이 일반적이고 자연스럽기 때문이다.

기능성 목적으로 사용하는 배경 음원들은 의미 전달 목적 음원보다 더 작은 음량으로 서비스하는 것이 적절하다. 예를 들어 명상이나 도서관 등에서 사용하는 자연의 소리, 수면용 음원, 그 외 다양한 기능성 배경음들은 일반적인 방송음원보다 작은 음량으로 서비스되는 것이 제작자와 청취자 의도에 모두 부합한다.

현재는 이러한 음량 밸런스를 표현하기 위해서는, 제작자나 크리에이터는 마스터링 단계에서 인위적인 음량편집 작업을 거쳐야 하며, 음향의 파형자체를 영구적으로 변형 및 왜곡시킨다.

청취자의 경우에도 개별 음원의 음량 밸런스가 맞지 않을 경우, 기준 없이 단지 감에만 의존하여, 일일이 수동으로 음량을 조절해야 하며, 같은 음반에서 마스터링 작업한 한 음원이 아닌 이상, 제작자가 의도한 상대적인 음량 밸런스대로 감상하는 것이 불가능하다.

절대음량 적용 시스템에서는 이러한 과정이 필요 없으며, 해당 콘텐츠의 목적에 따른 최적의 음량을 서비스할 수 있다. 예를 들어 크리에이터가 일반적인 방송목적의 서비스 할 경우, 콘텐츠 등록 시 목적에서 “방송(의미전달)”을 선택한다. 해당 크리에이터가 음향에 대한 지식이 없고, 사전에 음원 단에서 음량 편집 작업을 하지 않았더라도, 해당 콘텐츠는 절대음량이 적용된 시스템(플랫폼)에 의해, 자동으로 적절한 음량 밸런스로 최종 서비스된다.

절대음량을 사용한 목적별 기준 음량은 Table 3과 같다. 선택한 목적에 따라서, 플랫폼은 내부에 태그 형태로 의도감소 수치를 저장한다.[6]

Table 3.

Standard of reduction value according to purpose.

Target Appreciation Communication Background Specific setting
Example Music, MV,
Movie,
Drama
YouTube,
Broadcasting,
News
narration
Nature sound, lullaby,
Pink Noise,
Functional sound
Specific setting
(ex. Official publishing music
or movie, etc.)
Intention reduction dB
Output
0 [60 dB(S)] 5 (60 - 5 = 55) 10 (60 - 10 = 50) # = Intended value
(60 - #)

위의 기준은 음량 dB에 대한 지식과 감각이 없는 대부분의 콘텐츠 제작자들이 직관적으로 사용할 수 있는 3가지 기본 선택지(감상, 의사전달, 배경음)와 전문가를 위한 구체적인 설정이다. 이 기준을 통해 콘텐츠 목적에 따라서 적절한 해당 음량 밸런스가 구현된다. 만약 제작자가 dB 차이에 대한 지식과 감각을 가지고 음량밸런스를 세부적으로 표현하길 원할 경우, 전문가 설정에 있는 “의도감소”에 구체적으로 의도한 수치를 입력한다.

직관적인 3개의 기본 선택지를 통해 음향에 대한 전문적인 지식과 감각이 없는 제작자들이, 음량 편집 작업을 직접 하거나 외부 전문 업체에 마스터링을 의뢰하지 않아도, 자신이 의도하는 음량으로 서비스할 수 있다. 즉 기존의 불필요한 과정을 생략하고 영상과 음악을 플랫폼에 바로 업로드 할 수 있으므로 시간 및 경비의 절약이 가능하다. 특히 음향 및 음량 지식이 없는 개인 크리에이터나 음악가들이, 본질적인 콘텐츠 완성도에 더 많은 자원을 투자하거나 절약할 수 있다.

청취자 역시, 상황에 따라서 매번 감에 의해서 음량을 수동 조절할 필요가 없어진다. 내가 원하는 외부절대음량을 설정하면, 해당 상황에 맞춰서 모든 콘텐츠가 그 음량을 기준으로 출력되기 때문이다.

한 예로, 같은 음악 음원이라도 커피숍과 같은 장소에서 조용하게 청취하고 싶다면, 외부 대표음량 기준 60 dB(S)에서 원하는 음량(dB)만큼 줄이면 된다. 만약 6 dB를 줄인 54 dB(S)가 그런 상황에서 적절한 음량이라면, 해당 사용자는 향후에도 같은 상황에서, 시행착오 과정 없이 처음부터 54 dB(S)로 설정 및 출력이 가능하다. 그리고 외부절대음량 수치를 알 수 없는 환경이라 하더라도, 기본적으로 음원별 음량 밸런스가 보정됨과 동시에 제작자가 의도한 차등 음량이 구현되므로, 절대음량의 거의 모든 장점이 반영된다.

콘텐츠 플랫폼에서 절대음량이 적용되는 과정을 요약하면 다음과 같다.

(1) 제작자는 0 dBFS영역을 모두 활용하되, 인위적인 전체 음량 편집 작업을 생략하여, 콘텐츠를 플랫폼에 업로드 및 등록한다. (2) 음원 등록 시 해당 콘텐츠의 서비스 목적을 3가지(감상, 의사전달, 배경음) 중에서 선택한다. 만약 음향에 관련된 실무 감각이 있는 전문가라면 정확한 의도감소 수치를 직접 입력할 수 있다. (3) 플랫폼 내에서 음원 분석을 거쳐, 절대음량을 자동 산출한다. 이때 원본 콘텐츠에는 어떠한 변형도 가하지 않는다. (4) 절대음량 태그가 생성되어 음량 결과와 서비스목적에 따른 의소감소 수치가 함께 저장되어, 음량 서비스 기준으로 활용된다. (5) 내부절대음량을 60 dB(S)로 평준화하되, 실제 음원을 출력할 때는 태그에 기록된 의도감소 수치를 반영하여 출력한다. (6) 청취자는 콘텐츠를 감상하기 전에 자신이 목표로 하는 외부절대음량을 설정한다. 이 단계부터는 청취 환경이 핑크잡음 60 dB(A) = 60 dB(S)로 앰프 등의 하드웨어 시스템과 연동 및 캘리브레이션 된 이상적인 상황으로 가정하여 설명한다. (7) 청취자가 설정한 출력절대음량을 기준으로, 제작자가 의도한 의도감소 수치가 적용되어 최종 출력된다. 결과적으로 청취자가 의도한 전체 음량 기준과, 제작자가 의도한 상대적 음량 밸런스가 함께 반영된다.

V. 결 론

1인 콘텐츠 크리에이터가 차지하는 미디어 시장의 규모가 매년 증가하고 있다. 하지만 미디어 콘텐츠 제작자들이 필수적으로 거쳐야 하는 음량 편집 작업은 항상 애매하고 소모적인 과정이며, 그 결과 역시 일관적이지 않다. 청취자 역시 직관적 음량 설정이 불가능하므로, 매번 감에 의존하여 수동으로 음량을 조절해야 한다. 또한 제작자가 의도한 상대적 음량 밸런스로 청취하는 것이 불가능하다.

절대음량이 실제로 적용된 시스템을 활용하면, 콘텐츠 제작자들은 전체 음량 편집 작업을 생략하여도 의도가 반영된 적절한 음량으로 콘텐츠 서비스가 가능하기 때문에, 더 많은 양질의 콘텐츠 생산에 기여할 수 있다. 그리고 청취자는 상황에 따라 직관적으로 자신이 의도하는 최적의 음량으로 콘텐츠를 이용할 수 있다.

현재의 절대음량 알고리즘은 초기 단계로서, 정확도 개선을 포함하여, 모든 종류의 음원 콘텐츠 및 실시간 방송에 적용하기 위해서는 추가적인 연구가 필요하다.

절대음량은 현재 개발 중인 음악 콘텐츠 플랫폼에 단계적인 도입을 준비하고 있으며, 적용한 결과를 기반으로 인공지능 및 딥러닝을 활용하여 성능을 향상시키고 활용범위를 확장하는 후속 연구를 진행할 예정이다.

References

1
D. H. Kyon and M. J. Bae, "Evaluating the absolute volume of digital sound source measurement and standard measuring unit," J. Acoust. Soc. Am. 133, 3367 (2013).
10.1121/1.4805764
2
M. J. Hove, P. Vuust, and J. Stupacher, "Increased levels of bass in popular music recordings 1955-2016 and their relation to loudness," J. Acoust. Soc. Am. 145, 2247 (2019).
10.1121/1.509758731046334
3
E. M. Grimm, R. van Everdingen, and M. J. L. C. Schöppin. "Toward a recommendation for a european standard of peak and LKFS loudness levels," SMPTE Motion Imaging J. 119, 28-34 (2010).
10.5594/J11396
4
B. Moore, An Introduction to the Psychology of Hearing (Brill, Cambridge, 2013), pp.174-180.
5
R. M. Warren. "Measurement of sensory intensity," Behavioral and Brain Sciences, 4, 175-189 (1981).
10.1017/S0140525X00008256
6
D. H. Kyon and M. J. Bae, "Concepts of sound control system using absolute sound level" (in Korean), J. Acoust. Soc. Kr. 33, 60-67 (2014).
10.7776/ASK.2014.33.1.060
7
E. Zwicker and B. Scharf, "A model of loudness summation," Psychological Review, 72, 3-26 (1965).
10.1037/h002170314296451
8
Y. Kuzumaki, All About Mastering (Rittor Music Tokyo, 2008), pp. 8-12.
9
G. Pareyon, On Musical Self-similarity: Intersemiosis as Synecdoche and Analogy (International Semiotics Institute at Imatra, Helsinki, 2011), pp. 238-255.
10
S. Buus, M. Florentine, and T. Poulsen, "Temporal integration of loudness, loudness discrimination, and the form of the loudness function," J. Acoust. Soc. Am. 101, 669-680 (1997).
10.1121/1.4179599035390
페이지 상단으로 이동하기