I. 서 론
II. Constant Q 변환 기반의 오디오 핑거프린팅
2.1 CQT 스펙트럼 획득과 Log 스케일 평균 차감
2.2 CQT 스펙트럼 피크 검출
2.2.1 초기 순방향 문턱값 계산
2.2.2 순방향 최대 피크(Forward High Peak, FHP) 선정과 적응적인 피크 검출 문턱값 갱신
2.2.3 역방향 최대 피크(Backward High Peak, BHP) 검출
2.3 CQT 피크 쌍을 사용하는 핑거프린트 해시
2.4 핑거프린트 데이터베이스 식별
III. 실험 결과
V. 결 론
I. 서 론
오디오 핑거프린팅 기술은 배경잡음, 에코 등에 의한 왜곡에도 불구하고 몇 초 동안의 짧고, 표기되지 않은 오디오 클립을 성공적으로 식별하는 기능을 제공하는 기술로서 검색 정확도를 향상시키기 위해서 다양한 방법[1]들이 연구 및 개발되어 오고 있다.
이러한 오디오 핑거프린팅 기술은 음악식별을 기반으로 음악서비스에 활용되어 오다가 최근 들어 모바일 기기를 통한 TV 광고식별 분야에 적용되고 있다. 특별히, Wang[2]의 오디오 핑거프린팅 시스템과 Haitsma and Kalker[3]가 제안한 해시 알고리즘은 대표적인 오디오 핑거프린팅 기술로서 높은 정확도를 제공하고 있기 때문에, 현재 이를 응용 및 개선한 다양한 알고리즘이 개발되어 모바일 기기에 구현되어 오고 있다.
Wang의 방법에서는 각 오디오 트랙으로부터 에너지가 집중된 주파수의 두드러진 피크를 찾기 위해 Short Time Fourier Transform(STFT)를 사용한다. 이 피크들은 주파수와 시간에 의해서 파라미터화된 타겟 영역 내에서 피크들 간의 쌍으로 형성된다. 형성된 피크 쌍은 쿼리를 식별하기 위해, 양자화 되어 landmark로 변환하고 해시로 사용한다. 쿼리에서 추출된 해시의 시간차 정보와 데이터베이스의 핑거프린트의 시간차 정보를 비교하여 가장 유사한 매칭결과를 획득한다. Wang 알고리즘의 아이디어를 기반으로, Pan등[4]은 오디오 핑거프린트를 생성하기 위한 지역 에너지 centroid 방식, Jiang등[5]은 실시간 피크 검색 방식을 제안하였다.
Haitsma and Kalker의 방법에서는 오디오 트랙으로부터 오버랩된 각 프레임의 스펙트럼을 300~2000 Hz 사이의 33개 서브밴드로 나누고, 인접한 서브밴드간의 에너지 차이관계에 의해서 총 32 bit의 핑거프린트를 추출한다. 추출된 핑거프린트의 고속 검색을 위해서는 32 bit 값을 이용한 lookup table을 이용하였다. 이 방식의 결점은 TV 광고 음원을 식별하기 위한 정보의 양이 상대적으로 많고 낮은 신호대잡음비(SNR)에서 낮은 성능을 보인다.[4] Haitsma and Kalker의 알고리즘을 기반으로 Park등[6]은 실제 잡음환경에서 견고한 핑거프린팅 방법을 위해 주파수-시간 필터링, Son등[7]은 Haitsma and Kalker의 해싱 알고리즘의 각 서브 핑거프린트에서 두드러진 피치 추정에 의해 생성된 마스킹 방식, 그리고 Anguera등[8]은 Wang과 Haitsma and Kalker의 아이디어를 기반으로, 견고한 오디오 핑거프린팅을 위해 마스크 된 오디오의 스펙트럼 키포인트 방식을 제안하였다.
TV 광고 식별을 위한 오디오 핑거프린팅 시스템의 정확도를 향상시키기 위해서는 무엇보다도 잡음환경과 왜곡에 강인한 오디오의 특성을 반영한 오디오 핑거프린트를 추출해야 한다. 본 논문에서는, Wang의 방법의 아이디어를 기반으로, 실제 잡음환경에서 오디오 기반 TV 광고 식별 시스템의 성능을 향상시키기 위해 Constant Q Transform(CQT)기반의 현저한 피크 검출을 통한오디오 핑거프린팅 방법을 제안한다.
본 논문은 다음과 같이 구성되었다. 2장에서 제안된 방법을 설명한다. 3장에서 실험결과를 제시한다. 마지막으로, 4장에서 결론을 서술한다.
II. Constant Q 변환 기반의 오디오 핑거프린팅
제안된 CQT 기반의 현저한 오디오 피크 쌍 핑거프린팅 방식은 Fig. 1과 같이, 다섯 단계로 구성된다.먼저, 전처리 과정으로, 입력된 스테레오 오디오 신호는 모노로 변환되고(스테레오 좌우 오디오 신호의 각 샘플값별 평균값을 모노신호로 변환), 16 kHz로 다운샘플링 된다. 변환된 오디오 신호는 Hamming Window 함수(각각 512개 샘플 오버랩)에 의해 오버랩된 프레임으로 나뉜다. 스펙트럼 피크를 찾기 위해, CQT가 각 프레임(1024개 샘플)마다 적용된다. 세부적인 단계별 과정은 다음과 같다.
2.1 CQT 스펙트럼 획득과 Log 스케일 평균 차감
입력된 오디오 신호
은 Hamming window된 오버랩 프레임으로 나뉘고, CQT를 사용하여 오디오 신호의 스펙트럼을 분석한다.
여기서,
는 주파수 빈 인덱스,
은 시간 프레임 인덱스,
는
크기의 window 분석[
의 크기
는 주파수 빈 별로 변화된다],
은 프레임 이동 단계이며,
는 중심 주파수와 주파수 대역의 비율로 계산되는 상수로, 각 주파수 대역의 크기를 조절하여 해상도를 조절하는 품질 상수이다.
CQT 기반의 스펙트럼 분석은 낮은 주파수 영역에서는 좁은 대역폭을 가지고, 높은 주파수 영역에서는 넓은 대역폭을 가지는, 인간 귀의 주파수 특성과 비슷한 특성을 가지고 있다. STFT 기반의 방식과 같이 낮은 주파수 영역의 해상도를 높은 주파수 영역에 적용하는 것은 시스템적인 낭비이다. 그래서 CQT에서는 주파수 마다 해상도를 달리하여 낮은 주파수대역에서는 STFT에 비해 좁은 영역을 분석함으로써 주파수특성에 대한 이점을 살려 더 많은 피크를 보존할 수 있고, 높은 주파수 영역에서는 STFT에 비해 넓은 영역을 한번에 분석함으로써 더 효과적으로 주파수 피크를 식별 할 수 있다.
이전 프레임에서 검색된 최소값과 CQT 스펙트럼의 비교를 사용하여, 모든 프레임에서 구역 에너지의 최소값
을 찾는다. 찾아진 최소값으로부터, 각 주파수 빈에서
의 최대값을 얻는다.
CQT 스펙트럼과
의 비교를 통해 각각의 CQT 계수에 Log 스케일을 다음과 같이 수행한다.
Log 스케일의 CQT 스펙트럼
로부터, CQT 스펙트럼의 평균
이 추정되고, Log 스케일 CQT 스펙트럼의 하한 및 상한의 ripple을 최소화하기위해 모든 프레임에서 차감된다.
2.2 CQT 스펙트럼 피크 검출
정규화된 Log 스케일의 CQT 스펙트럼
에서 어느 한 점을 중심으로 주위 영역보다 높은 에너지를 포함한다면 이는 피크의 후보군이라 할 수 있다. 피크 후보군은 정규화된Log 스케일의 CQT 스펙트럼을 통해 분석된 시간-주파수 영역에서 잡음 혹은 왜곡에도 강인하다. 이러한 피크후보군을 검출하기 위해서 적응적인 피크 검출 문턱값을 사용하는 순방향과 역방향 필터링 방식이 적용되며, 그 과정은 다음과 같다.
2.2.1 초기 순방향 문턱값 계산
정규화된 Log 스케일의 CQT 스펙트럼과
프레임 범위에서 이전 프레임의 최대값과 프레임 단위 비교를 통해서 각 주파수 빈의 최대값을 산출한다.
기울기가 양에서 음으로 변화가 발생하는 기본적인 가정을 사용하여,
에서 극대값
을 선택한다. 극대값이 선택되지 않은 부분은, 인접한 2개의 극대값 간에 값이 선형적으로 보간되어, 첫 번째 프레임을 위한 문턱값
으로 사용된다.
여기서
는
와
사이의주파수 인덱스이고,
는 극대값에서 찾아진 이전 주파수 인덱스이다.
2.2.2 순방향 최대 피크(Forward High Peak, FHP) 선정과 적응적인 피크 검출 문턱값 갱신
순방향 문턱값
보다 큰
의 모든 피크가 순방향 최대 피크라는 명칭의
의 형태로 저장된다.
만약
중에서 FHP가 선택되면, FHP는
로 표현되고, 피크 검출 문턱값이 갱신된다.
다음 프레임을 위한 새로운 피크 검출 문턱값이 감쇠 계수
와 갱신된 피크 검출 문턱값
, 그리고 감쇠 이전 문턱값을 비교를 통해 적응적으로 계산된다.
여기서
과
은 각 문턱값의 주파수 밴드의 평균과 분산을 나타낸다. 감쇠 계수를 사용하는 문턱값은 원본 핑거프린트와 쿼리의 핑거프린트를 비교하기 위해 더 현저한 피크를 추출할 수 있다.
에 의해 모든 프레임이 처리될 때 까지 순방향 피크를 계속 검출한다.
2.2.3 역방향 최대 피크(Backward High Peak, BHP) 검출
앞서 검출한 FHP를 검증하고 잡음에 강인한 피크를 추출하기 위해, 마지막 프레임에서부터 역방향으로 피크를 검출한다. BHP검출에서는
의 마지막 프레임의 값을 이용해서 BHP검출의 초기 문턱값을 생성한다. 그리고 BHP검출은 FHP를 검증하는 단계이기 때문에, 앞서 검출하고 저장된 FHP의
만을 고려한다.
여기서
는 적응적인 피크 검출 문턱값
을 사용하는 역방향 필터링 후에 검출된 피크이다.
2.3 CQT 피크 쌍을 사용하는 핑거프린트 해시
핑거프린트 해시들은
쌍의 시간-주파수 정보를 연관 지음으로써 생성된다. 각 피크 쌍(landmark로 명칭)은 기준 점과 정의된 영역 내에서 근접하는 landmark를 결합하여 선택된다.
는 기준 점이고
는 결합된 다른 landmark들이라 가정하여, 해시를 얻는다.
모든
(주파수 빈)과
(프레임)은 고정된 높은 바운드와 정수이고, 각 landmark점은 쌍의 고정 숫자를 생성한다. 획득한 핑거프린트 해시에 의해 데이터베이스의 인덱스가 생성되고, track ID와 해시의 시간 오프셋이 빠른 처리속도를 위한 해시값에 저장된다.
2.4 핑거프린트 데이터베이스 식별
사용자가 알고자하는 TV 광고를 식별하기 위해 짧은 오디오 쿼리를 입력하여, 앞서 설명한 방식과 동일하게 쿼리의 핑거프린트를 생성한다. 생성된 쿼리의 핑거프린트에서 시간과 주파수의 오프셋 정보를 사용하여 쿼리의 해시를 획득한다.
이때, 중복된 해시를 제거하여 불필요한 비교를 막고 TV 광고 식별 정확도를 향상시킨다. 중복된 정보가 제거된 해시는 데이터베이스의 인덱스로 사용되어, 각 인덱스에 저장된 해시값을 불러온다.
해시값을 통해 track ID와 시간 오프셋을 얻는다. 먼저, 얻어진 track ID를 비교하여 가장 많은 수가 카운트된 상위 20개의 음원 후보군 ID를 선정한다. 다음으로, 선정된 상위 20개의 음원 후보군에 대한 각각의 시간 오프셋를 비교하여, 동일한 시간 오프셋이 검색되는 수를 카운트한다. 카운트 수가 가장 많은 track ID가 쿼리와 가장 근접한 음원이라 판별하여, 최종적인 식별결과인 track ID를 출력한다.
III. 실험 결과
이 장에서는 TV 광고 식별을 위해 제안된 CQT 피크 쌍 핑거프린트 추출 알고리즘의 성능을 측정한다. 알고리즘의 성능을 네 가지 기존 방식들과 성능을 비교한다. 방식 1은 Wang[2]이 제안한 STFT 기반의 피크 쌍 핑거프린트 추출방식, 방식 2는 피치 추출 기반의 서브 핑거프린트 마스킹 오디오 핑거프린트 방식,[4] 방식 3은 마스크된 오디오 스펙트럼 주요영역기반의 오디오 핑거프린트 추출 방식,[8] 그리고 방식 4는 오디오 신호의 시간-크로마 표현을 적용한 오디오 핑거프린트 추출방식[9]이다.
실험을 위해, 총 740 h 길이의 4,000편의 TV 광고로 구성된 데이터베이스를 사용하였다. 각 광고는 10~15 s 길이로 구성된다. 모든 오디오 데이터는 모바일폰 혹은 스마트폰과 같은 휴대 기기를 고려하여 PCM 포맷, 모노, 16-bit, 16 kHz 샘플링 rate를 사용하였다. TV 광고 식별을 위한 오디오 쿼리 클립은 5 s 길이로 구성되며, 모바일 전화기를 사용하여 2.1 채널 스피커와 연결된 TV로부터 5 m 떨어진 거리에서 캡쳐되었다. 모바일 전화기에 내장된 핑거프린트 생성 모듈을 통해, 캡쳐된 오디오 클립으로부터 CQT 피크 쌍 핑거프린트가 추출되고, 서버 영역의 매칭 모듈로 쿼리가 전송되었다
임의로 생성한 3,000개의 쿼리는 서로 다른 수준의 다양한 형태를 가지는 잡음을 추가함으로써 생성되었다. 즉, 다섯 가지 다른 형태의 잡음(배블 잡음, 움직이는 자동차 잡음, 백색 잡음, 길거리 잡음, 그리고 컴퓨터 팬 잡음)이 클린과 신호대잡음비 0 dB, 6 dB, 12 dB의 수준으로 첨가되었다. 오디오 쿼리 데이터는 각 세트마다 임의로 선택된 1,000개가 캡쳐되었고, 각 오디오 샘플은 임의의 세트 오프셋에서 30회 재생되었다.
Table 1은 5s 길이의 쿼리를 사용한 네 가지 방식의 실험결과를 나타낸다. MW, MS, MC, MX는 각각 방식1, 2, 3, 4를 나타내고, CQT는 제안된 방식이다. Table 1의 수치는 다섯 가지 다른 형태의 잡음환경에서의 실험에 대한 인식 결과의 평균을 나타내었다.
Table 1과 같이, 음악 식별에 대한 가장 좋은 인식 정확도는 94.8 % 이다. TV 광고는 오디오 신호에 묵음구간이 캡쳐되어 매칭에 사용되는 경우가 많기 때문에 더 높은 결과를 얻진 못했다. MW와 MS의 인식률이 매우 유사하지만, CQT 방식보다 낮음을 알 수 있다. MX는 가장 낮은 인식률을 보이고, SNR 0 dB에서 가장 나쁜 결과를 보였다. 제안된 방식은 평균 87 % 이상의 만족스러운 성능을 보여주어, 기존의 다른 방식보다 뛰어난 성능을 보여줌을 알 수 있다. 또한, SNR 0 dB의 높은 잡음신호가 함께 입력되는 상황에서도 타 방식에 비해 높은 정확도인 74.1 %의 결과를 보여주었다. 이 결과는, 실제 사용 환경에서 나타날 수 있는 다섯 가지의 잡음이 입력되는 상황을 모두 실험한 결과로, 실제 사용자가 음원을 식별하기위해 사용하는 잡음환경에서도 좋은 성능을 보일 것으로 예상된다.
IV. 결 론
본 논문에서는 CQT라 불리는 오디오 신호의 수정된 스펙트럼 표현방법 기반의 강인한 오디오 피크 쌍 핑거프린트 추출을 제안하였고, 이를 통한 TV 광고 식별 성능을 측정하였다. 제안된 알고리즘은 CQT를 기반의 안정적인 강인한 피크 쌍 핑거프린트를 생성함으로써 Wang의 핑거프린트 알고리즘보다 잡음이 합성된 음원에서도 더 많은 음원 고유의 핑거프린트 정보와 양질의 핑거프린트 정보를 획득할 수 있기 때문에, 실제 잡음 환경에서 오디도 핑거프린팅 시스템의 정확도를 향상시켰다. 실험결과는 제안된 방법이 기존의 다른 방식과 비교하여 실제 사용자가 사용하는 환경에서도 더 좋은 결과를 보여주었으며, 많은 실제 휴대용 소비자 기기에 적합함을 보여주었다.
향후, 검색 알고리즘을 최적화 시키는데 초점을 둘 것이다. 그리고 더 강인한 콘텐트 식별을 위해 오디오와 비디오 핑거프린트를 결합한 방식을 연구할 예정이다. 제안된 방식은 앞으로 스마트 TV와 모바일 전화기에서 작동하는 콘텐트 보안 어플리케이션에 적용 될 것이다.



















