Adaptive Watermarking for MP3 Copyright Protections Using Psychological Acoustics

Kyeong-Hwan Lee

doi:10.7776/ASK.2013.32.1.064

Preview

The Journal of the Acoustical Society of Korea. 31 January 2013. 64-70
https://doi.org/10.7776/ASK.2013.32.1.064

Adaptive Watermarking for MP3 Copyright Protections Using Psychological Acoustics

심리음향 분석을 이용한 MP3 저작권 보안을 위한 적응적 워터마킹

Kyeong-Hwan Lee¹^*

이 경환¹^*

¹위덕대학교 사이버경찰보안학과

^{*Corresponding Author}

License:

ABSTRACT

In this paper, we suggest a new audio watermarking method for audio contents copyrights that can efficiently provide protection from MP3 compression attacks. Watermarks were inserted at the coefficients repeatedly from low frequencies to high frequencies after DCT transform in commonly used Cox’s spread spectrum method. Because the methods using arbitrary coefficients are not effective, we use the new weight functions that make small losses for the watermark coefficients during attacks, using psychological acoustics. In the results of various sound clips, the suggested method had overall better outcomes than the Cox's method by preserving watermarks and reducing distortions of the original sounds.

Keywords

Watermarking

Psychological acoustics

Copyrights

MP3

DCT

본 논문에서는 오디오 컨텐츠 저작권 보안을 위하여 MP3 공격에 강인한 워터마킹 방법을 제안한다. 일반적인 주파수 도메인에서의 워터마킹 방법인 Cox의 스프레드 스펙트럼 방법에서는 DCT후 값이 큰 저주파수의 계수에 순차적으로 워터마크를 삽입하였다. 임의의 주파수 계수에 삽입하는 방법은 효과적이지 못하므로, 본 논문에서는 심리음향 모델을 분석하여 MP3 공격시 손실이 적은 주파수 계수에 적응적인 함수를 적용하여 가중치를 부여한 후 계수에 워터마크를 삽입하는 방법을 제안한다. 다양한 음원에 대하여 실험한 결과, 제안한 방법은 기존의 방법들에 비해 워터마크의 보존하고 원본 음원의 왜곡을 줄이는 두 가지 측면 모두 좋은 결과를 나타내었다.

키워드

워터마킹

심리음향

저작권

MP3

DCT

MAIN

I. 서 론
II. 스프레드 스펙트럼 워터마킹 방법
2.1 워터마크 삽입
2.2 워터마크 검출
2.3 유사도
2.4 기존의 방법
III. 심리음향 분석을 이용한 적응적 워터마킹
3.1 심리음향과 MP3 오디오 압축
3.2 심리음향 주파수 분석을 이용한 적응적 워터마킹
IV. 실험결과 및 고찰
V. 결 론

I. 서 론

초고속 인터넷 및 모바일 등 여러 가지 매체를 이용한 정보통신의 발전으로 디지털 컨텐츠(contents)에 대한 수요가 크게 높아지고 있다. 특히 오디오 분야에서는 디지털 음원시대가 도래하여 CD 형태의 배포가 감소하고 온라인을 통해 MP3(MPEG-1 Audio layer3) 파일 형태로 다운 받는 경향이 높아지고 있는데, 특성상 용량이 작으므로 손쉽게 복사되고 불법으로 배포되어 저작권 보안에 대한 문제가 발생한다.

MP3 파일의 보안을 위하여 먼저 DRM(Digital Rights Management) 기술을 적용한 방법이 있다. 이는 MP3파일에 사용자인증, 요금부과 등을 위한 암호화된 부가 정보를 포함시켜 특수한 파일을 생성하는 기술로, 2001년 음악공유서비스로 유명한 냅스터가 MP3 저작권 보호를 위해 채택한 것이 시초인데, 이를 지원하는 MP3 플레이어가 아닌 경우 재생이 되지 않는 등 표준화에 대한 문제가 있다.

MP3 저작권 보안을 위한 가장 효과적인 방법으로 평가되고 있는 것으로 워터마킹(watermarking) 기술이 있다. 이는 디지털 컨텐츠의 소유권 및 저작권에 대한 문제를 해결하기 위하여 원본 데이터에 사람이 인지할 수 없는 저작권 정보를 삽입하는 기술로 DRM 기술의 대안으로 등장하였으며 많은 연구가 이루어지고 있다. 워터마킹 기술은 크게 시간영역(time domain)에서 워터마크를 삽입하는 방법들과 주파수영역(frequency domain)에서 행하는 방법들로 나누어지는데, 시간영역 방법들은 절단(cropping) 공격으로 워터마크가 쉽게 제거되는 단점이 있어 주파수영역 방법들이 더 효과적인데, Cox는 워터마크를 준잡음(pseudo-noise) 코드를 통해 대역 확산시킨 후 적절한 가중치(weghting)를 주어 주파수 계수(coefficient)에 삽입하는 스프레트 스펙트럼(spread spectrum) 방법을 제안하여 원본과 워터마크의 보존에 있어서 좋은 성능을 보여주었다.^[1-4]

워터마크에 대한 대부분의 공격은 원신호에 큰 변형을 주지 않고 워터마크만을 제거하는데 그 목적이 있기 때문에 신호의 중요 부분에 워터마크를 삽입하여, 워터마크가 제거되면 원신호에 큰 변형을 가져오게 하면 효과적이다. 일반적으로 오디오 원신호의 중요한 정보는 저주파수 대역에 존재하고 또한 MP3 압축시 고주파수 대역이 많이 손실되므로 낮은 주파수의 계수에서 부터 순차적으로 워터마크를 삽입하면 강인한 워터마킹이 가능하다. 이때 DC 신호의 경우 약간의 변형에도 원신호에 큰 영향을 끼치므로 Cox 방법에서는 이를 제외하고 AC 신호에 대해 순서적으로 워터마크를 삽입하였다. 그러나 우동훈 등^[5]은 저주파 계수의 경우 DC 신호와 같이 원신호에 큰 변화를 주므로 중간 주파수의 임의의 계수에 워터마크를 삽입하는 방법을 사용하여 원신호의 왜곡 특성을 나타내는 SNR 특성에서 더 좋은 결과를 보였다. 또한 정원교 등^[6]은 임의의 중간 주파수 계수를 사용하지 않고, MP3 압축을 한 후 왜곡이 적은 주파수를 통계적으로 구하여 이러한 계수에 대하여 순서적으로 워터마크를 삽입 하였는데, 이때 가중치를 모든 주파수에 일괄적으로 적용하지 않고 주파수 계수의 위치에 따라서 세 가지로 나누어 적용함으로써 보다 향상된 성능을 보였다.

현재 오디오 컨텐츠의 경우 MP3 형태의 압축 코딩을 통한 배포가 일반적이다. 이는 10배 정도의 용량 압축이 이루어지지만, 마스킹 효과(masking effect) 등 심리음향 모델을 사용하여 인간이 감지하기 힘든 부분의 정보를 손실시킴으로써 주관적인 음질의 변화는 크게 느낄 수 없다. 이러한 심리음향 모델에서 보면 인간의 귀는 4 kHz에서 동일한 음압레벨에서 가장 크게 소리가 들리는데, 이러한 가장 민감하게 들리는 부분의 주파수 구간에서 왜곡이 적도록 MP3 압축이 이루어지고 있다.^[7-10]

본 논문에서는 MP3 공격에 워터마크들의 잔존률이 높아 저작권 보안 성능이 좋은 새로운 워터마킹 방법을 제안한다. 심리음향 모델을 이용하기위해 원신호와 MP3 압축된 음원사이의 MSE(Mean Square Error)를 여러 음원을 사용하여 통계를 내어 왜곡이 가장 작은 DCT 계수를 구하고, 이를 중심으로 새로운 가중치 함수를 적용하여 적응적으로 워터마크를 삽입하였다. 실험결과 기존의 Cox 방법 등에 비해 워터마크의 잔존율을 나타내는 유사도(similarity)에서 많은 향상을 보였고, 원신호와 워터마크된 신호의 SNR 비교에서도 향상된 성능을 나타내었다.

II. 스프레드 스펙트럼 워터마킹 방법

2.1 워터마크 삽입

디지털 오디오 원신호를 DCT(Discrete Cosine Transform)하여 주파수 영역으로 변환한다. 변환된 주파수 계수들 중 워터마크를 삽입(embedding)할 n개의 주파수 계수를 추출한다. 추출한 계수를 V로 두면

(1)

와 같다. 또한 n개의 삽입될 워터마크를 X로 두면

(2)

와 같이 나타낸다. 워터마크 X를 추출된 주파수 계수 V에 삽입하기 위한 방법은

(3)

(4)

(5)

와 같이 계수에 워터마크가 결합된다. 이중 (4)를 가장 널리 사용하므로 본 논문에서도 이를 사용하였으며, 가중치 α 값은 심리음향모델을 이용하여 사람이 인지하지 못하도록 하기위해 보통 0.3~0.7까지의 값이 주로 사용된다. 이렇게 워터마크가 삽입된 계수들을 나머지 계수들과 함께 다시 IDCT(Inverse DiscreteCosine Transform)를 행하여 워터마킹된 오디오 신호가 된다. 스프레드 스펙트럼방법에서 워터마크를 삽입하는 과정을 Fig. 1에서 도식적으로 나타내었다.

Fig. 1. Watermark embedding process using the spread spectrum method.

2.2 워터마크 검출

저작권을 확인하기위한 워터마크의 검출(extraction)은 삽입의 역 과정이며, 워터마킹된 신호로부터 워터마크를 추출하기 위하여 원 신호를 필요로 한다. 워터마크가 삽입된 신호에 공격이 가해진 신호, 즉 MP3 압축 코딩된 신호에 대해 DCT한 계수 중 워터마킹이 행해진 계수를 V^*라고 하면

(6)

과 같다. 만약 식(4)에서와 같이 워터마크가 삽입되었다면 , 추출된 계수 V*와 원신호의 계수 V를 이용하여 다음과 같이 삽입된 워터마크 신호 x*_i를 추출한다.

(7)

Fig. 2에서는 Cox 방법에서의 워터마크를 추출하는 과정을 나타내고 있다. 워터마크를 추출하기 위해서는 워터마킹된 신호와 원신호를 DCT하여 워터마크를 검출함을 알 수 있다. 이때 워터마킹된 신호에 공격이 가해졌을 경우 검출된 워터마크는 삽입한 워터마크와 유사하지 않을 것이다.

Fig. 2. Watermark extraction process using the spread spectrum method.

2.3 유사도

워터마킹 방법을 비교할 때, 공격을 받은 신호에서 워터마크를 추출하여 그 보존성이 좋아야 저작권 보호를 할 수 있는 방법이라고 평가한다. 그러므로 추출된 워터마크 X*와 원본 워터마크 X와의 유사도(similarity)를 측정하여 워터마크의 생존여부를 판별한다. 유사도는 식(8)에서와 같이 구해낸다.

(8)

이때, 구해진 유사도가 6보다 클 경우 워터마크가 존재하여 저작권이 있는 신호로 판단한다.^[2]

워터마킹 방법들의 성능을 비교할 때 워터마크가 삽입된 신호가 원신호에 비해 얼마나 잡음이 적은 유사한 신호인가를 나타내는 SNR과 함께, 이러한 유사도를 이용하여 워터마크가 얼마나 강인하게 살아남느냐를 평가한다.

2.4 기존의 방법

주파수 분석을 해보면 대부분의 오디오 신호가 저주파 대역에 중요한 정보가 존재한다. 워터마크에 대한 대부분의 공격은 원신호에 큰 변형을 주지 않고 워터마크만을 제거하려는데 그 목적이 있기 때문에 신호의 중요 부분에 워터마크를 삽입함으로써 워터마크를 제거하면 원신호의 큰 변형으로 사용할 수 없게 된다. 따라서 Cox 등^[3]은 변형을 가할 경우 원신호에 너무 큰 변형을 가지고 오는 DC 계수는 제외하여 워터마킹을 행하였다.

우동훈 등^[5]은 여전히 남아있는 저주파 계수가 DC 신호와 같이 원신호에 큰 변화를 주므로 중간 주파수의 임의의 계수에 워터마크를 삽입하는 방법을 사용하여 원신호의 왜곡 특성을 나타내는 SNR 특성에서 더 좋은 결과를 보였다. 또한 정원교 등^[6]은 이때 임의의 중간 주파수 계수를 사용하기보다 MP3 압축시 계수의 손실이 적은 중간 주파수 계수들을 선별하여 워터마크의 생존률을 더 높이기 위해, 여러 음원을 이용하여 통계적으로 이러한 주파수 계수를 구하여 이러한 계수에 대하여 순서적으로 워터마크를 삽입 하였는데, 이때 가중치를 모든 주파수에 일괄적으로 적용하지 않고 주파수 계수의 위치에 따라서 세 가지로 나누어 적용함으로써 보다 향상된 성능을 보였다.

III. 심리음향 분석을 이용한 적응적 워터마킹

3.1 심리음향과 MP3 오디오 압축

인간의 심리에 작용하는 음의 특성으로는 가청 범위, 음의 높이, 음의 크기, 음의 길이, 마스킹(masking) 현상 등이 있다. 인간의 귀에 음으로 느껴지기 위해서는 음파의 세기와 주파수 범위에 한계가 있는데, 이를 가청주파수라고 한다. 음파의 물리적 세기는 음장중의 1 m²의 단면을 통과하는 음파의 에너지 또는 단순히 음압 레벨로 나타낼 수 있다. 물리적 세기는 10-12 W/m²을 기준으로, 음압의 레벨은 2×10-5 N/m²를 기준으로 각각 dB로 나타낸다. 동일한 크기로 들리는 순음의 주파수와 음압 레벨과의 관계를 구한 커브를 등감곡선이라 하며 Fig. 3과 같다. 이는 1 kHz의 순음을 기준음으로 하여, 비교할 주파수의 순음을 자유 음장에서 양쪽 귀에 1초 동안 번갈아 듣게 하면서 기준 음과 동일한 크기로 들리는 음압 레벨을 구한 것이다.

Fig. 3. Isophonic contours for the pure tone in the free sound field.

이러한 1 kHz의 기준음과 동일한 크기로 들리는 비교 주파수 음의 크기를 라우드니스 레벨(loudness level)이라 하며, 라우드니스 레벨의 단위로는 phon를 사용한다. 예를 들면 Fig. 3에서 150 Hz, 30 dB의 음은 20 phon이다. 이때 이러한 심리음향 모델에서 인간의 귀에는 4 kHz 부근에서의 음이 가장 크게 들리며 음의 크기의 차이에 민감함을 알 수 있다.

MP3 오디오 압축 부호화 방법은 심리음향학을 이용한 인식부호화(perceptual coding) 와 손실압축(lossy coding)을 행함으로써 좋은 음질을 유지하면서 높은 압축률을 얻는다. 음질 대 파일 크기 조절이 가능하며, 표준 압축은 44.1 kHz의 표본화 주파수(sampling frequency)하에서 128 kbps의 비트율(bit rate)을 발생키면서 오디오 파일 크기를 10배 정도 압축한다. 이때 20 Hz~20,000 Hz의 가청대역 중 보통의 인간에게 잘 들리지 않는 주파수를 없애거나 민감하지 않은 주파수의 정보를 줄이는데, 심리음향 모델의 라우드니스 레벨에 따라 4 kHz 부근의 주파수의 손실이 상대적으로 가장 적도록 압축하므로 압축을 복원하였을 경우 이 주파수에 해당되는 계수가 원신호와의 왜곡이 상대적으로 가장 작음을 알 수 있다.

3.2 심리음향 주파수 분석을 이용한 적응적 워터마킹

제안한 논문에서는 이러한 심리음향 모델을 이용한 MP3 압축에서 4 kHz 부근에서 가장 신호의 손실이 적다는 점을 이용하여, 이 주파수 대역에 워터마크를 삽입하면 워터마크의 보존성이 좋고 신호의 SNR 특성 또한 우수하다는 점을 이용하여, 이 주파수에 대응하는 DCT 계수에 가장 큰 가중치를 주고 주변의 주파수에 가중치를 조절하여 적응적인 가중치를 줌으로써, 음질의 저하를 최소화하고 MP3 공격에도 강인한 적응적 가중치 함수를 제안한다.

Fig. 4에서는 여러 실험 오디오 파일을 이용하여, 원신호의 DCT 주파수 계수와 MP3 압축을 행한 다음 복원한 신호의 DCT 계수들의 MSE(Mean Squared Error)를 나타내고 있다. 이때 전체 512개의 DCT 주파수 계수 중 저주파 및 고주파의 경우 손실이 많아지며 중간주파수와 초고주파의 경우 손실이 적음을 볼 수 있는데, 이중 초고주파의 경우 원래 계수들의 크기가 작으므로 MSE가 작게 나타난 것이며, 손실이 적은 주파수 4 kHz에 대응하는 계수는 250번 계수 부근임을 알 수 있다.

Fig. 4. MSEs between the DCT coefficients for original audio signals and the signals after MP3 attacks.

본 논문에서는 Cox의 방법과 같이 DCT 변환 후 주파수 계수가 큰 순서대로 워터마크를 삽입하지 않고, 통계적으로 분석하여 MP3 압축시 손실이 적은 순서로 워터마크의 삽입을 행하여 MP3 공격에 강인한 워터마킹이 되도록 하였다. 또한 가중치 α의 경우 Cox의 방법에서는 일률적으로 정하여 사용하였으나, 제안한 방법에서는 MSE가 가장 작은 계수를 V_min, 최대 가중치를 , 최소 가중치를 이라고 하였을 경우, 적응적인 가중치는 식(9)에서와 같이 구한다.

(9)

이때 Fig. 4에서의 통계에 근거해 V_min을 250으로, 는 0.7로, 은 0.3으로 하여 가중치를 구해 DCT 계수에 워터마킹을 행하였으며, 워터마크의 개수는 512개의 계수 중 90개를 사용하였다.

IV. 실험결과 및 고찰

먼저 Fig. 4에서 보여진 MP3 압축시 손실되는 주파수 계수를 통계적으로 구하기 위하여 각 장르의 음악과 음성 등 20가지의 음원을 사용하였다.

또한 제안한 방법의 성능 실험을 위하여 통계 음원에 포함되지 않은 팝음악, 클래식음악, 음성대사의 음원 등 3개를 사용하였다. 이때 샘플링 주파수는 44.1 kHz, 16 bit 양자화, 모드는 모노(mono)이며, 시간은 각각 5초에 대해 실험하였으며, 워터마크는 준잡음 코드를 사용하여 90개를 삽입하였다.

비교를 위하여 가중치 α는 Cox 방법^[3]에서는 0.5하나만 사용하였고, 정원교 등^[6]의 방법에서는 계수에 따라 0.3, 0.5, 0.7 세 가지를 사용하였으며, 제안한 방법에서는 식(9)에서와 같이 적응적인 함수를 이용한 가중치를 사용하고 소수점 둘째자리는 반올림하여 사용하였다.

워터마크의 삽입 및 검출은 각각 식(4)와 식(7)에서와 같이 행하였으며, 삽입된 워터마크와 추출된 워터마크간의 유사도는 식(8)에서와 같이 측정하였다. 또한 유사도와 함께 워터마킹의 성능을 평가하는 원신호(original audio data)와 워터마킹된 신호간의 왜곡을 나타내는 SNR은

(10)

와 같이 측정하였다.

Table 1에서는 MP3 공격후 즉, MP3 압축 부호화 후 복호화 하였을 경우 워터마크의 생존율를 나타내는 유사도를 실험 결과를 통해 기존의 방법들과 제안한 방법들을 비교하고 있다. Cox 방법의 경우 계수가 크고 중요도가 높은 저주파 신호에서 워터마크의 손실이 발생한 것을 알 수 있으며, 정원교 등의 방법은 이에 비해 성능이 좋으나 통계에 포함된 음원으로 실험하지 않음으로 인해 팝음악이나 음성대사 등 변화가 많은 음원에서 제안한 방법보다 성능이 떨어짐을 알 수 있다.

Table 2는 음질과 직결되는 각각에 대한 원본과 워터마킹된 음원 간의 SNR 특성을 나타내고 있다. 제안한 방법은 MP3 부호화에 사용되는 심리음향 모델을 분석하여 압축시 손실이 적은 주파수에 워터마크를 삽입하므로 기존의 방법들에 비해 음질의 손실도 적음을 알 수 있다. 이는 제안한 방법이 MP3 압축시 이전의 방법에 비해 저작권을 효과적으로 보호하면서 음질의 저하가 기존의 방법에 비해 적음을 나타낸다.

Table 1. The similarities resulted by Cox's, Jeong's, and the proposed method.
Pop music		Classic music		Narration
Cox	16.2	Cox	16.1	Cox	15.5
Jeong	16.8	Jeong	16.9	Jeong	16.6
Proposed	17.1	Proposed	16.9	Proposed	17.3

Table 2. The SNR[dB] resulted by Cox's, Jeong's, and the proposed method.
Pop music		Classic music		Narration
Cox	63.8	Cox	49.0	Cox	41.5
Jeong	72.0	Jeong	59.9	Jeong	43.2
Proposed	72.5	Proposed	60.6	Proposed	44.8

V. 결 론

대부분의 오디오 신호에서 초저주파는 계수값이 커서 워터마크를 삽입할 경우 왜곡이 심해지며 초고주파의 경우 계수값이 작아서 워터마크를 삽입하기 힘들며 MP3 압축시 제거되는 특성이 있다. 이러한 특성을 이용하여 중간 주파수에 워터마킹하는 방법들이 제안되어 좋은 성능을 보였다.

본 논문에서는 이러한 방법들의 단점을 보안하기 위해 MP3 부호화에 적용된 심리음향모델을 분석하여, 압축시 손실이 적은 주파수 계수로부터 적응적 가중치 함수를 이용하여 워터마크를 삽입하여 워터마크의 손실이나 음질의 열화에 강한 워터마킹 방법을 제안하였다.

아울러 가중치 함수를 음원 장르에 따라서 조절한다면 더 좋은 특성을 보일 것으로 판단되며, 또한 MP3 프레임 특성에 맞게 동기화 되도록 DCT 변환의 계수의 수를 맞추어 워터마크셋의 독립성이 보장되어 생존율을 증가시키는 연구가 필요할 것으로 보인다.

Acknowledgements

이 연구결과물은 2011학년도 위덕대학교 학술진흥연구비 지원에 의하여 이루어 졌음.

References

I. Cox, J. Bloom, and M. Miller, Digital Water-marking (Academic Pr, San Diago, 2001).

S. Katzenbeisser and F. Petitcolas, Information Hiding Techniques for Steganography and Digital Water-marking (Artech House, London, 2000).

10.1201/1079/43263.28.6.20001201/30373.5

I. Cox, J. Kilian, T. Leighton, and T. Shamoon, "Secure spread spectrum watermarking for multimedia," Pro-ceedings of the IEEE ICIP '97 6,1673-1687 (1997).

10.1109/83.65012018285237

W. Bender, D. Gruhl, N. Morimoto and A. Lu, "Techniques for data hiding," IBM Systems J. 25, 313-335, 1996.

10.1147/sj.353.0313

Dong-Hoon Woo, Ui-Pil Chong, "Audio watermarking using specific frequency coefficients" (in Korean), J. Acoust. Soc. Kr. 22, 269-275 (2003).

Won-Kyo Jeong, Kyeong-Hwan Lee, Hong-Chae Woo, Yong-Doo Lee, "Robust audio watermarking using frequency coefficient analysis for MP3 com-pression Attack" (in Korean), J. Acoust. Soc. Kr. 24, 492-497 (2005).

John Hedtke, MP3 and The Digital Music Revolution [Electronic Resource] (Top Floor Pub., Lakewood, 1999).

M. Swanson, B. Zhu, A. Tewfik, and L. Boney, "Robust audio watermarking using perceptual masking," Signal Process. 66, 337-355 (1998).

10.1016/S0165-1684(98)00014-0

I. Cox and M. Miller, "A rview of wtermarking and the importance of perceptual modeling," Proceeding of SPIE, Human Vision & Electronics Imageing II 3016, 92-99 (1997).

10.1117/12.274502

Russell Shaw, Starting with MP3 (Prima tech, Columbus, 2001).

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Adaptive Watermarking for MP3 Copyright Protections Using Psychological Acoustics

ABSTRACT

MAIN

Acknowledgements

References