Design of Low Bits Rate Transform Excitation Wide Band Speech and Audio Coder of Analysis-by-Synthesis Structure

Sunghoon Jang; Kibong Hong; Insung Lee

doi:10.7776/ASK.2012.31.7.472

Preview

The Journal of the Acoustical Society of Korea. 31 October 2012. 472-479
https://doi.org/10.7776/ASK.2012.31.7.472

Design of Low Bits Rate Transform Excitation Wide Band Speech and Audio Coder of Analysis-by-Synthesis Structure

분석/합성 구조의 저 전송률 변환여기 광대역 음성/오디오 부호화기 설계

Sunghoon Jang¹

Kibong Hong¹

Insung Lee¹^*

장 성훈¹

홍 기봉¹

이 인성¹^*

¹충북대학교 전파통신 공학과

^{*Corresponding Author}

License:

ABSTRACT

This paper is aimed to design 9.2 kbps low bits late transform excitation coder that target to voice and audio signal. To set up low bit rate, we used Band-selection in frequency domain and gain-shape quantization and AbS structure. To decrease lots of calculation from ABS structure, we used each band IDFT and synthesis. And we designed non-transfer band for performance by inserting comfort noise. We propose coder that has low bit rate and similar performance comparing with original 10.4 kbps AMR-WB+ TCX mode.

Keywords

AMR-WB+

TCX

Band-selection

AbS

mixed signal

Transform coder

본 논문은 음성과 오디오의 혼합 콘텐츠를 대상으로 하는 9.2 kbps 저 전송률 변환여기 부호화기 설계를 목표로 한다. 저 전송률 환경을 위하여 주파수 영역 신호의 중요도에 따른 Band-Selection 방법과 Gain-Shape 양자화를 이용한 Analysis by Synthesis(AbS) 구조를 이용한다. AbS 구조를 이용하는 과정에서 발생하게 되는 연산량을 감소시키기 위하여 밴드별 IDFT를 취하고 합성하는 방법을 이용한다. 전송 되지 않는 구간에 대하여 Comfort Noise를 삽입 함으로써 음질 저하 없이 설계한다. 기존의 TCX모드와 비교하여 저 전송률에서 성능의 저하 없는 부호화기를 제안한다.

키워드

AMR-WB+

TCX

Band-selection

AbS

혼합 신호

변환 코더

MAIN

I. 서 론
II. 저 전송률 부호화기에서 분석/합성 구조의 필요성
III. 분석/합성 구조의 TCX 부호화기
3.1 부밴드의 선택과 양자화
3.2 최적 밴드 선택을 위한 AbS 구조
3.3 Comfort Noise의 준위 연산
IV. 성능평가
4.1 객관적 평가 방법
4.2 주관적 평가 방법
4.3 계산량 평가
V. 결 론

I. 서 론

음성 신호의 경우 perceptual weighting filter와 함께 사람의 발성 시스템을 모델링한 Code Excited Linear Prediction(CELP) 기술,^[1,2] 오디오 신호의 경우 사람의 청각 시스템을 모델링한 심리음향(Psychoacoustics) 기술^[3,4]을 기반으로 신호를 부호화, 복호화 하는 것이 효율적이다. 하지만 더 이상 음성과 오디오 신호를 별도의 컨텐츠로 분리하는 것이 어렵게 되어, 음성과 오디오에 대한 전반적인 융합 코덱이 요구 되었다. 이에 따라 Moving Picture Experts Group(MPEG)에서는 Unified Speech and Audio coding(USAC)을 통하여 음성과 오디오 신호를 통합적으로 부호화 하는 기술이 최근 개발 되고 있다.^[5]

신호의 특성상 음성 신호보다는 오디오 신호가 더 많은 정보량을 요구하며, 오디오 신호의 통신을 위해서는 더 많은 대역의 통신망 확보를 필요로 한다. 오디오 신호의 대역폭에 맞추어 코덱을 사용하면 음성 신호처리시 대역폭의 낭비가 발생하며 음성 신호의 대역폭에 따를 경우 오디오 신호에 대한 성능이 저하된다. 따라서 통신망의 대역폭이 확장 되더라도 좋은 성능의 저 전송률 코덱은 항상 요구 되고 있다.

본 논문에서는 최근 표준 코덱인 AMR-WB+^[6,7]의 음성과 오디오 신호를 대상으로 하는 Transform Coded Excitation(TCX)모드를 대체하는 9.2 kbps의 저 전송률 혼합신호 부호화기를 제안하였다. 기존의 TCX 모드와 비교하여 저 전송률에서 기존과 동일한 성능의 부호화기를 설계하여 합성 콘텐츠에 대한 고품질 요구사항을 반영한다.

II. 저 전송률 부호화기에서 분석/합성 구조의 필요성

그림 1은 AMR-WB+의 TCX 모드의 블록도를 보여 주고 있다. AMR-WB+의 TCX 모드는 입력신호를 먼저 시간-변화 가중 필터를 통해 여과 된다. 가중 필터 계수는 Immittance Spectral Frequencies(ISF) 영역에서 보간된다. 이후, 신호는 윈도우를 취하고 윈도우가 취해진 신호를 주파수 영역으로 변환한다. 주파수 영역에서 신호의 저주파 부분에서 코딩 잡음을 최소화하기 위하여 pre-shape 과정을 거친 후 lattice 양자화기를 사용하여 양자화 된다.

그림 1.AMR-WB+ TCX 모드의 블록도

Fig. 1.Block of AMR-WB+ TCX mode.

양자화후 inverse pre-shape가 적용되고, 이 신호는 양자화 된 시간 영역의 신호를 얻기 위하여 역변환 된다. 역변환 후, 가중된 입력 신호와의 상관도를 최적화하기 위하여 프레임에 대한 gain 값이 재조정 된다. 재조정 된 신호는 주파수 영역에서 양자화 때문에 발생한 블록 효과를 최소화하기 위하여 다시 양자 화된 신호에 적용되나, 최종적으로 적절한 필터 메모리 갱신이 이루어지는 역 필터를 통해 여기 신호가 만들어 지게 된다.

AMR-WB+의 TCX 모드는 LPC 필터의 잔여 신호를 이용한 주파수 변환 기반 부호화기^[8]이며, 제안하는 부호화기 역시 LPC 필터의 잔여 신호를 이용한다. 저 전송률을 목표로 하기 때문에 입력되는 잔여 신호의 모든 정보를 전송할 수는 없다. 따라서 중요한 정보를 선택하여 전송하여야 한다.

LPC 필터의 잔여신호를 입력 신호로 받아들이기 때문에 입력신호의 에너지가 큰 값을 가지는 부분이 중요한 전송의 대상이 될 수 있다. 하지만 입력 신호와 전송 신호의 복호화된 신호를 비교하여 본다면 결과는 다르게 나타 날 수가 있다.

그러므로 TCX 모드를 대체하는 저 전송률의 부호화기를 설계하기 위하여 본 논문의 연구에서는 기존의 pre-shape 방법 대신 분석/합성(Analysis by Synth- esis : AbS)구조를 이용하였다. 신호의 부호화 과정에서 전송하려는 신호를 대상으로 복호화의 역할을 수행함으로써 전송의 대상 신호를 입력 신호와 비교한다. AbS구조의 과정을 통하여 최적의 전송 대상을 선택하는 구조를 취함으로써 입력 신호에 대한 부분적인 전송 임에도 최적의 결과를 보여 줄 수 있다.

AMR-WB+ TCX 모드는 pre-shape와 lattice 양자화기를 이용하여 한 프레임당 208 bits에서 480 bits까지 가변적으로 사용하는데, 제안하는 부호화기는 band- selection과 gain shape 양자화기를 이용하여 한프레임당 184 bits를 고정적으로 사용한다. 184 bits를 구성하는 자세한 할당 내용은 표 1에 나타내었다. AMR- WB+구조의 Mode 선택을 위하여 ACELP/TCX와 Dis-continuous Transmission(DTX) Mode에 2 bits가 할당 되고 LPC 계수를 위한 ISF의 bit 는 기존의 TCX 모드와 동일한 bit를 사용하였다. 제안하는 gain shape 양자화기의 bit의 할당은 표 2에 나타내었다.

표 1. 분석/합성 변환여기 부호화 방식과 AMR-WB+ TCX 모드의 프레임당 비트 할당 Table 1. Bits allocation of AbS transform excitation coder and AMR-WB+ TCX mode per frame.
Parameter		AbS Tranform excitation coder	TCX mode
ACELP/TCX mode		1	1
DTX mode		1	1
ISF parameter		46	46
Frequency Spectrum		136	160
Total		184	208

표 2. 분석/합성 변환여기 부호화 방식의 프레임당 주파수 스펙트럼 파라미터 비트 할당 Table 2. Bits allocation of AbS transform excitation frequency spectrum parameters per frame.
Parameter	Bits allocation (number of target)			Total bits
Band position	5 bits (4 band)			20
Shape VQ index	6 bits (16 vector)			96
Codebook mode	1 bit (8 band)			8
Comfort noise level	4			4
Global gain	7			7
Unsigned bit	1			1
Total				136

III. 분석/합성 구조의 TCX 부호화기

입력신호에서 전송을 위한 신호를 선택하기 위하여 입력신호를 FFT를 통하여 주파수 변환 후, 실수와 허수의 교차로 이루어진 주파수 도메인의 신호를 부밴드(sub-band)로 나누어 밴드별로 전송의 여부를 평가 하게 된다. 판단 여부는 다음의 순서를 따른다.

1) 입력 신호의 주파수 변환

2) 부밴드 구성과 후보 밴드의 선택

3) 선택된 밴드의 정규화/양자화

4) 후보 밴드별 신호의 조합

5) 조합된 신호의 시간영역의 신호로 변환

6) 변환된 신호를 입력신호와의 비교 후 전송 결정

그림 2는 제안하는 9.2 kbps 부호화기의 블록도를 보여준다. 양자화 된 밴드를 가지고 최종 전송 밴드를 정하기 위하여 AbS 구조를 통하여 양자화된 필수 전송 밴드와 후보 밴드들의 신호를 시간 영역의 신호로 합성한다. 이 시간영역으로 합성된 신호를 원 신호와 비교함으로써 최적을 전송 밴드를 결정한다.

그림 2.분석/합성 변환여기 부호화기의 블록도

Fig. 2.Block of AbS transform excitation coder.

전송의 대상이 되지 않는 밴드(zero-band)는 신호를 불연속적이게 만들어 음질의 성능에서 문제가 된다. 따라서 비 전송 구간에는 comfort noise를 삽입 한다.

3.1 부밴드의 선택과 양자화

입력신호의 부밴드는 주파수 변환 후 식(1)의 조건에 의하여 288개 샘플의 입력 신호에서 8개의 샘플씩, 총 36개의 밴드로 나뉘게 된다.

(1)

그림 3과 같이 밴드 중 하위 4개의 밴드는 저주파수 대역 밴드()로써 필수적인 전송의 대상이다. 저주파수 밴드를 제외한 32개의 밴드중 밴드별 에너지가 가장 높은 순으로 6개의 밴드가 후보 밴드로 선택된다. 총 10개의 선택된 밴드를 제외한 부분을 0으로 채운 신호 를 정규화 하여 신호 를 생성한다.

그림 3.Band-selection 과정(a) 입력신호 (b) 하위 4개 밴드 (c) 상위 후보밴드

Fig. 3.Band-selection process.(a) Input signal (b) Low band (c) Candidate band

신호 는 4개의 샘플씩 묶어 6 bits 코드북의 4차원 gain shape 벡터 양자화 과정을 거치게 된다. 양자화 대상의 밴드의 에너지가 식(2)에 나타난 의 양자화 gain값()보다 크고 작음을 비교하여 다른 코드북을 참조하는 이중 코드북을 구성하여 양자화 오류를 감소시킬 수 있다.

(2)

3.2 최적 밴드 선택을 위한 AbS 구조

최적의 밴드를 선택하기 위하여 AbS 구조는 6개 의 밴드 중 4개를 선택하는 경우의 수인 15번의 반복 과정을 거치기 때문에 많은 연산량을 필요로 한다. AbS 구조에서 가장 많은 연산량을 요구하는 부분은 IDFT 역변환 과정이다. 역변환으로 인한 연산량의 문제를 개선하기 위하여 밴드별로 IDFT를 하여 조합하는 과정을 제안한다.

밴드별 IDFT를 이용한 분석/합성 구조를 위하여 저주파수 대역인 하위 4개의 밴드와 후보 밴드의 각각에 대한 주파수 영역으로 구분 지어야 한다. 이를 위하여 양자화된 신호 을 하위 4개의 밴드에 대해서 하위 4개의 밴드 이외의 부분을 0의 값으로 채운 신호를 식(3)과 같이 을 생성하고, 후보 밴드 역시 밴드의 번호 에 대하여 각각 같은 방법으로 식(4)와 같이 주파수 영역의 신호 을 생성한다.

(3)

(4)

이 7개의 주파수 영역 신호를 식(5, 6)에 의하여 시간 영역으로 변환 한다.

(5)

(6)

시간의 영역으로 변환된 각 신호는 필수 전송 밴드의 신호 과 후보밴드 중 4개를 조합하여 입력신호와 비교하게 된다. 그림 4는 각 밴드별 주파수 영역의 신호를 시간 영역으로 변환하여 선택 하는 구조를 보여주고 있다. 시간영역으로 변환된 후보 밴드의 신호 중 선택된 4개의 신호를이라 한다면 각 신호는 식(7)과 같이 단순한 연산으로 합성 할 수 있다.

그림 4.Band-Selection 역변환이 적용된 AbS 구조

Fig. 4.AbS Structure using band selection inverse transform.

15가지의 경우에 대하여 합성된 신호 는 TCX 모드의 입력신호 와 비교 한다. 입력신호와 합성신호는 LPC 필터를 통과한 잔여신호로써 segmental SNR을 이용하여 비교한다. segmental SNR은 다음의 식(8)에 의하여 측정한다.

(8)

15가지 신호에 의하여 측정된 segmental SNR중 가장 높은 값을 가지는 신호의 밴드 구성이 전송의 대상이 된다.

밴드별 역변환이 아닌 직접적인 역변환 AbS의 경우 288포인트의 역변환 과정을 15번을 반복하기 때문에 매우 많은 연산량을 요구한다. 하지만 제안하는 밴드별 역변환은 7번의 역변환 과정과 신호의 단순한 조합 구성으로 이루어져 있다. AbS 구조의 연산 대부분을 차지하는 IDFT의 역변환 과정의 수를 대폭 줄인 AbS 구조를 적용함으로써 연산량을 개선한 AbS 구조를 가진 부호화기를 설계하였다.

대부분의 연산량을 차지하는 주파수-시간 영역간의 변환 과정과, 양자화 과정의 복잡도를 Big-O 시간 복잡도에 의한 내용을 표 3에 나타내었다. 이를 통하여 보면, AbS 구조를 취함으로써 변환과정의 복잡도가 증가하였지만, 밴드별 변환과정을 통하여 일반적인 AbS 구조보다 낮은 복잡도를 가지고 있다. 또한 기존 AMR-WB+의 lattice 양자화 보다 낮은 복잡도의 gain-shape 양자화를 사용하여 AbS 구조로 인해 발생 하는 높은 복잡도를 감소시킬 수 있다.

표 3. Big-O 시간 복잡도에 의한 복잡도 비교

Table 3. Comparing complexity of Big-O.

AMR-WB+TCX mode

AbS Tramsform Excitation coder

Generic AbS Structure

Transform

IFFT

O()

1 cycle

IDFT

O()

7 cycle

IDFT

O()

15 cycle

Quantization

Lattice

O()

GainShape

O()

GainShape

O()

(7)

3.3 Comfort Noise의 준위 연산

36개의 밴드로 나누어진 한 프레임에서 AbS 구조를 통하여 8개의 밴드가 전송의 대상이 된다. 전송 되지 않는 밴드는 zero-band로 신호를 불연속적이게 만들어 복호화시 음질 저하를 유발한다. 그러므로 복호화 과정에서 비 전송 밴드에 comfort noise를 삽입하여 신호의 불연속성을 제거하도록 한다. comfort noise의 경우 전송신호에 영향을 미치지 않는 준위를 부호화시 연산하여 4 bits 양자화 하여 전송한다.

comfort noise 는 전송된 신호에 영향이 미치지 않는 준위를 정해야 하기 때문에 TCX의 전체 입력신호를 정규화한 신호 중 상위 18개의 밴드를 이용한다. 이 신호에서 식(9) 과 같이 총 에너지와 평균에너지를 연산하게 되는데 의 임계값을 넘는 밴드는 총 에너지의 연산 대상에서 제외 한다. 여기에서 0.8 여러 악기소리를 대상으로 실험에 의해 구해진 가중치이다.

(9)

IV. 성능평가

본 논문에서 제안하는 알고리즘을 실험하기 위해 AMR-WB+ 코덱의 표준 소스로 3GPP TS 26.304 v9.0.0 부동소수점 ANSI-C 코드^[9]를 이용하였다. TCX 모드 대신 제안하는 부호화기를 삽입하여 제안하는 부호화기의 객관적인 성능과 인간의 청각을 기반으로 한 주관적인 성능을 평가하였다.

4.1 객관적 평가 방법

제안하는 부호화기는 LPC 필터를 통과한 잔여신호를 대상으로 양자화가 이루어지기 때문에 합성 후 청각적 가중 필터를 통과한 신호의 segmental SNR을 측정하는 방법을 이용하였다.

종합적인 결론은 그림 5에 나타내었다. 실험에 이용한 신호의 특성에 따라 individual-line 신호(특정 주파수에서 에너지가 부각되는 신호), harmonic 신호(백파이프, 오르간 - 특정 주파수의 배수에서 에너지가 부각되는 신호), mixed 신호(음성/음악의 혼합신호)로 나누어 프레임별로 기존의 10.4 kbps AMR- WB+ TCX 모드를 통과한 신호와, 9.2 kbps의 제안하는 알고리즘을 통과한 신호의 SNR 값의 차이를 보여준다. 대부분의 프레임에서 기존 AMR-WB+ TCX 모드 보다 높은 SNR 값이 나타나며 특히 individual-line 신호에서 좋은 성능을 보여주고 있다.

(a)

(b)

(c)

그림 5.기존알고리즘과 프레임별 segmental SNR 차이값(a) individual (b) harmonic (c) Mixed signal

Fig. 5.Difference value of segment SNR per frame.(a) individual (b) harmonic (c) Mixed signal

4.2 주관적 평가 방법

주관적인 평가 방법으로는 ITU-R의 표준인 MUSHRA^[10^]를 이용한다. 실험에 이용한 신호는 신호의 특성에 따라 generic 신호(기타, 징 - 일반적인 특성이 나타나지 않는 신호), harmonic 신호, mixed 신호를 각각 2개씩 사용하였다. 비교 신호의 처리 방식은 입력신호, LPF(fc = 3.5 kHz), 제안하는 알고리즘의 통과 신호, 기존 AMR-WB+의 최저 전송률인 10.4 kbps 신호를 이용하였다.

MUSHRA 테스트의 결과는 그림 6, 7, 8에 나타내었다. 제안하는 알고리즘의 주관적 평가 결과는 기존의 AMR-WB+의 TCX 모드의 MUSHRA 테스트 결과와 매우 유사하였다. 제안 하는 알고리즘이 기존의 AMR-WB+ TCX 모드 보다 낮은 전송률이기 때문에 대역폭 활용에 효과적인 결과를 보여 준다.

그림 6.Generic 신호의 MUSHRA 실험 결과

Fig. 6.MUSHRA test result of generic signal.

그림 7.Harmonic 신호의 MUSHRA 실험 결과

Fig. 7.MUSHRA test result of harmonic signal.

그림 8.합성 신호의 MUSHRA 실험 결과

Fig. 8.MUSHRA test result of mixed signal.

4.3 계산량 평가

계산량을 평가하기 위하여 Weighted Million Opera- tions Per Second(WMOPS)^[11]를 사용하였다. 기존의 TCX 모드는 0.738 WMOPS를 가지며, 전체적인 부분을 IDFT 취하는 AbS 구조의 경우 6.7 WMOPS 값을 가진다. 반면 제안하는 알고리즘은 3.693 WMOPS의 값을 보이며 AbS구조의 계산량을 줄였음을 확인하였다.

V. 결 론

본 논문에서는 music/mixed content에 대하여 저 전송률을 위해 분석/합성 구조의 부호화기를 설계 하였다. 부호화기 에서 전송의 대상 신호를 결정하기 위하여 band-selection을 이용하여 전송밴드의 후보를 정하고, 양자화를 위하여 대상 신호의 준위에 따른 선택적 구조의 양자화를 이용하였다. 후보 밴드에서 최적의 전송 대상을 확정 짓기 위하여 AbS 구조를 이용하며, AbS 구조상 나타나는 연산량의 문제를 해결하기 위하여 밴드 별로 IDFT를 취하여 조합하는 방법을 사용하였다. 전송 대상에 포함되지 못한 부분을 위하여 comfort noise를 삽입하여 청각적인 효과를 확인 하였다.

성능 평가를 통하여 제안하는 부호화기가 기존의 10.4 kpbs TCX 모드 보다 낮은 9.2 kbps의 저 전송률임에도 불구하고 매우 유사한 성능을 보여 주는 것을 확인하였다. 결론적으로 제안하는 부호화기를 통하여 합성 신호에 대한 효율적인 부호화, 복호화가 가능함을 보여주며 차후 오디오, 합성 신호를 대상으로 실시간 전송을 목표로 하는 코덱에서 활용 될 것으로 기대한다.

Acknowledgements

이 논문은 2012년도 정부(교육과학기술부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임.(No.2012-0004611)

References

A. Spanias, "Speech Coding: A Tutorial Review", Proc. IEEE, vol. 82, no. 10, pp. 1541-1582, 1994.

10.1109/5.326413

Kondoz A.M, "Digital Speech: Coding for Low Bit Rate Communication Systems, 2nd Ed.", John Wiley &Sons, New Jersey, 2004.

10.1002/0470870109

T. Painter, A. Spanias, "Perceptual Coding of Digital Audio", Proc. IEEE, vol. 88,no. 4, pp. 451-515 , 2000.

10.1109/5.842996

J. Schnitzler, P. Vary, "Signal Processing: Trends and perspectives in wideband speech coding", Elsevier, vol. 80,no. 11, pp. 2267-2281. 2000.

10.1016/S0165-1684(00)00116-X

이태진, 강경옥, 김환우, "MPEG 오디오 최신 표준: USAC 기술", 방송공학회논문지, 16권, 5호, pp. 693- 704, 2011.

10.5909/JEB.2011.16.5.693

Jari Makinen, Bruno Bessette, Stefan Bruhn, Pasi Ojala, Redwan Salami, Aniswse Taleb, "AMR-WB+: A NEW AUDIO CODING STANDARD FOR 3RD GENERATION MOBILE AUDIO SERVICES", Proc. of ICASSP, pp.1109-1112, March. 2005.

3GPP TS 26.290, Extended Adaptive Multi-Rate- Wideband(AMR-WB+) codec: Transcoding functions, V9.0.0, 2009.

ISO/IEC 14496-3:2005/FPDAM9, Enhanced Low Delay AAC, Apr 2007.

3GPP TS 26.304, ANSI-C code for the floating point Extended AMR Wideband codec, V9.0.0, 2009.

ITU-R BS.1534, Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA), 2001.

ITU-R BS.1534, ITU-T Software Tool Library 2009 User's Manual, pp. 229-264, November 2009.

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Design of Low Bits Rate Transform Excitation Wide Band Speech and Audio Coder of Analysis-by-Synthesis Structure

ABSTRACT

MAIN

Acknowledgements

References