Frequency Band Selection Exited Linear Prediction Wideband Speech/Audio Coding Using SBR

Sunghoon Jang; Insung† Lee

doi:10.7776/ASK.2013.32.6.556

Preview

The Journal of the Acoustical Society of Korea. 30 November 2013. 556-562
https://doi.org/10.7776/ASK.2013.32.6.556

Frequency Band Selection Exited Linear Prediction Wideband Speech/Audio Coding Using SBR

SBR을 이용한 주파수 밴드선택 여기 선형예측 광대역 음성/오디오 부호화

Sunghoon Jang

Insung† Lee^†

장 성훈

이 인성†^†

Department of Radio Communication Eng. Chungbuk National University

충북대학교 전파통신공학과

^{†교신저자.}^{†Corresponding Author.}

License:

ABSTRACT

This paper is aimed to improve performance of Band-Selection speech/audio Coder reconstucted band spectrum that is not sent by the comfort noise. To improve the performance, we use the Spectral Band Replication(SBR) technique instead of substitution of Comfort noise. To synthesize SBR signal, the SBR algorithm is referenced in selected signals and the spectrum synthesized by SBR is injected to non-selected band. Each sub-band spectrum has been energy-weighted by real audio signal. We propose the enhanced the Band-Selection Coder that utilizes synthesized SBR signal from selected signal instead of comfort noise.

Keywords

AMR-WB+

TCX

Band-selection

SBR

Transform coder

본 논문은 컴포트 노이즈(comfort noise)를 이용하는 주파수 밴드선택 음성/오디오 코덱에서 컴포트 노이즈 대신 SBR(Spectral Band Replication) 기술을 이용하여 여기 신호를 대체 함으로서 밴드 선택 광대역 음성/오디오 부호화기의 성능 향상을 목표로 한다. 비 전송 밴드에 SBR 기술로 합성된 신호를 삽입하기 위하여 부밴드 별로 전송된 신호를 활용하며, 각각의 부밴드 별로 에너지 가중치를 설정한다. 백색잡음 성분의 컴포트 노이즈 대신 전송신호에 의존하는 신호를 합성 함으로서 보다 높은 음질의 밴드 선택 부호화기를 제안하였다.

키워드

AMR-WB+

TCX

Band-selection

SBR

변환 코더

MAIN

Transform coder
II. 밴드 선택 여기 부호화기
2.1 밴드 선택 여기 부호화기의 밴드 선택 방법
2.2 밴드 선택 여기 부호화기의 비 선택 밴드 복원
III. 목표 신호 합성과 비 선택 밴드 신호 복원
3.1 목표 신호 합성을 위한 선택 밴드 활용
3.2 목표 신호의 밴드별 에너지 가중치
3.3 목표 신호의 생성과 삽입
IV. 성능평가
V. 결 론

I. 서 론

음성 신호의 경우 인지가중필터(Perceptual Weighting filter)와 함께 사람의 발성 시스템을 모델링한 CELP (Code Excited Linear Prediction) 기술을,[1-2] 오디오 신호의 경우 사람의 청각 시스템을 모델링한 심리음향(Psycho-acoustics) 기술[3-4]을 기반으로 신호를 부호화, 복호화 하는 것이 효율적이다. 하지만 더 이상 음성과 오디오 신호를 별도의 콘텐츠로 분리하는 것이 어렵게 되어, 음성과 오디오에 대한 전반적인 융합 코덱이 요구 되었다. 이에 따라 MPEG(Moving Picture Experts Group)에서는 USAC(Unified Speech and Audio Coding) 을 통하여 음성과 오디오 신호를 통합적으로 부호화 하는 기술이 최근 개발의 마무리 단계에 있다.[5]

USAC에서 ACELP(Algebraic Code Excited Linear Prediction), TCX(Tranform Code Excited), AAC(Advanced Audio Coding)로 구성되어 저주파 대역 부호화기는 입력신호를 하향 표본화(down sampling) 후 변환 혹은 선형 예측(linear prediction) 등의 기법을 사용하여 저주파 대역의 신호를 충실히 부호화 한다. 반면 고주파 대역에서는 SBR 기법을 이용하여 이미 부호화된 저주파 대역 신호를 참조하여 적은 비트량으로 고주파 대역 신호를 합성한다. 이 SBR 기법은 하모닉 성분으로 인하여 저 주파수 대역과 고 주파수 대역에는 밀접한 연관이 있다는 원리에 입각하고 있다.[6]

일반적으로 SBR 기법을 사용하는 HE-AAC(High Efficiency Advanced Audio Coding), USAC에서는 입력 신호의 3~12 kHz 대역을 주 부호화기를 이용하여 부호화 하며, SBR 기법을 이용하여 복원되는 대역폭은 주 부호화기에서 부호화되는 대역에 이어 주 부호화기의 대역폭 만큼 이루어진다. 즉 전체 대역을 반으로 나누어 저 주파수 대역은 주 부호화기를 통하여, 고 주파수 대역은 SBR 기법을 통하여 부호화 된다.[6]

본 논문에서는 선택적 밴드를 부호화 하는 분석/ 합성 부호화기의 경우,[7] 선택되지 않은 밴드를 SBR 기법을 활용하여 복원하는 방법을 제안한다. 선택적 밴드를 부호화 하는 경우에는 비 선택 밴드에 컴포트 노이즈를 삽입하여 비 선택 밴드로 부터 나타나는 음질 열화를 줄이고 있다. 밴드 선택 여기 부호화 알고리즘[7]은 여기 신호를 주파수 영역에서 분석/합성 구조를 처음 제안한 방법으로 저전송률에서 좋은 음질을 보였다. 중요도가 낮은 여기 신호는 신호 에너지만 전송하고 컴포트 노이즈를 자체적으로 만들어 합성하는 방식으로 음질에 제한이 있었다. 본 논문에서는 이러한 문제점을 보완하기 위 해 고대역 음성 합성 기법인 SBR 방법을 밴드 선택 여기부호화기에 적용하려 한다. SBR 기법의 기본 원리에 따라 선택된 밴드와 비 선택 밴드는 하모닉 성분으로 인한 밀접한 관련이 있음을 가정하여 비 선택 밴드의 SBR 원리를 통하여 복원 하고자 한다.

II. 밴드 선택 여기 부호화기

2.1 밴드 선택 여기 부호화기의 밴드 선택 방법

Fig. 1의 분석 합성 구조의 밴드 선택 부호화기[7]는 선형예측 입력신호로 부터 입력신호의 288 포인트 주파수 변환 후 식(1)의 조건에 의하여 8개의 샘플씩, 총 36개의 부 밴드로 나뉘게 된다.

Fig. 1. Block of AbS transform excitation coder.

Fig. 2. Band-selection process (a) Input signal (b) Low band (c) Candidate band.

(1)

Fig. 2 의 (b)처럼 하위 4개의 부 밴드는 저주파수 대역()으로써 필수 전송의 대상으로 설정한다. 저주파수 대역을 제외한 32개의 부 밴드에서 밴드별 에너지가 가장 높은 순으로 6개의 부 밴드가 후보 밴드로 Fig. 2의 (c)처럼 선택되고 이 중 4개의 부 밴드가 최종 선택 밴드로 선택되어진다.

최적의 밴드를 선택하기 위하여 밴드선택 부호화기는 6개의 밴드 중 4개를 선택하는 경우의 수인 15번의 반복 과정을 거치는 AbS(Analysis-by-Synthesis)구조를 취하였다.

분석/합성 구조를 위하여 저주파수 대역인 하위 4개의 밴드와 후보 밴드의 각각에 대한 주파수 영역으로 구분 지었다. 이를 위하여 양자화된 신호 을 하위 4개의 밴드에 대해서, 하위 4개의 밴드 이외의 부분을 0의 값으로 채운 신호를 식(2)과 같이 을 생성한다.

(2)

후보 밴드 역시 밴드의 번호 에 대하여 각각 같은 방법으로 식(3)과 같이 주파수 영역의 신호 을 생성한다.

(3)

이 7개의 주파수 영역 신호를 식(4, 5)에 의하여 시간 영역으로 변환 한다.

(4)

(5)

시간의 영역으로 변환된 각 신호는 필수 전송 밴드의 신호 과 후보밴드 중 4개를 조합하여 입력신호와 비교하게 된다. 시간영역으로 변환된 후보 밴드의 신호 중 선택된 4개의 신호를이라 한다면 각 신호는 식(6) 과 같이 단순한 연산으로 합성 할 수 있다.

(6)

2.2 밴드 선택 여기 부호화기의 비 선택 밴드 복원

이처럼 밴드 선택을 이용하는 부호화기는 비 선택 밴드에 컴포트 노이즈를 삽입 함으로서 음질 열화를 줄일 수 있다. 컴포트 노이즈는 백색잡음(white noise)의 성분으로서 주파수 신호의 불연속성을 제거 하고 빈 주파수 밴드를 채움으로서 음질 열화를 줄인다.

밴드 선택을 이용하는 부호화기는 컴포트 노이즈를 위하여 부호화시 컴포트 노이즈의 에너지 가중치를 결정한다. 이 에너지 준위는 식(7)과 같이 주파수 영역의 상위 18개의 밴드를 이용한다. 이 18개의 밴드의 평균 에너지에 가중치 0.8을 곱하여 얻게 된다.

(7)

이 연산에서 얻은 준위를 이용한 컴포트 노이즈 삽입 결과는 Fig. 3의 스펙트로그램에서 확인 할 수 있다. 컴포트 노이즈가 삽입되지 않은 복호화 신호에서는 많은 주파수 대역이 복원 되지 않았으며 큰 음질 열화를 예측 할 수 있다.

(a)

(b)

Fig. 3. Decoded signal spectrogram of band selection coder (a) without comfort noise (b) with comfort noise.

컴포트 노이즈가 삽입된 스펙트로그램에서 복원되지 않은 부분에 컴포트 노이즈가 삽입되어 삽입되지 않은 신호보다 좀 더 편안한 청취감을 얻을 수 있다. 하지만 실제 청취 시 주파수 신호의 불연속으로 인한 음질열화는 억제 되었으나, 컴포트 노이즈의 백색잡음성분의 잡음이 나타나게 된다.

따라서 컴포트 노이즈를 대신하여 SBR 기법의 기본 원리에 따라 비 선택 밴드를 선택 밴드의 신호를 활용하여 목표 신호를 합성 후 삽입 하고자 한다. 이는 신호의 하모닉 성분으로 인하여 선택된 밴드와 비 선택 밴드와의 밀접한 관계가 있는 특성에 의존한다.

III. 목표 신호 합성과 비 선택 밴드 신호 복원

3.1 목표 신호 합성을 위한 선택 밴드 활용

비 선택 밴드에 목표 신호를 삽입하기 위하여 선 택 밴드에서 목표 신호를 합성 하여야 한다. 목표 신호의 합성은 비 선택 밴드 별로 선택 밴드의 신호로 활용하게 된다. 밴드별 신호 활용의 원리는 Fig. 4에 나타내었다.

Fig. 4에서 5번째와 8번째 밴드는 비 선택 밴드로 서 부호화된 신호의 전송이 이루어 지지 않는다. 따라서 복호화 시 선택된 신호로 부터 목표 신호를 합성하여 삽입하게 된다. Fig. 4 (a)의 기존 밴드 선택 부호화기 에서는 컴포트 노이즈를 삽입하지만 이 밴드를 목표 신호로 대체 할 수 있다.

(a) Using comfort noise band

(b) Using proposed target signal band

N	comfort noise band

number

selected band

number'

reconstructed band from selected band

Fig. 4. Concept of band refer.

목표 신호의 합성은 선택 밴드의 신호를 활용 하게 되는데 Fig. 4 (b)에서 처럼 첫 번째 비 선택 밴드는 1번째 밴드로 부터, 2번째 비 선택 밴드는 2번째 선택 밴드로 부터 차례로 활용 하여 목표 신호를 합성한다. 비 선택 밴드가 선택 밴드 보다 많을 경우에는 처음으로 돌아와 1번째 선택 밴드부터 차례로 다시 사용한다.

여기에서 선택 밴드의 신호를 활용한다는 의미는 SBR의 기본 원리와 같이 선택 밴드의 샘플들을 그대로 받아들여 사용한다는 뜻이다. 하지만 선택된 밴드의 신호를 원본 그대로 활용 할 수 없기 때문에 비 선택 밴드 별로 에너지 가중치를 사용한다.

3.2 목표 신호의 밴드별 에너지 가중치

컴포트 노이즈를 삽입하는 경우에는 식(7)같이 부호화시 한 프레임을 대상으로 하는 컴포트 노이즈의 에너지 가중치를 연산하여 양자화 후 전송하게 된다. 하지만 목표 신호를 삽입하게 되는 경우 각 비 전송 밴드는 서로 다른 신호를 활용하기 때문에 컴포트 노이즈 같이 전 대역을 대상으로 하는 에너지 가중치를 사용 할 수 없다. 따라서 각각의 밴드에 서로 다른 에너지 가중치를 부여 하여야 한다.

(a)

(b)

Fig. 5. Example of each band energy-weighted (a) Input signal (b) Calculated energy-weighted of each band from input signal.

에너지 가중치를 부여 하는 과정은, 부호화시 식(8)의 과정에서 입력된 전체 신호 중 하위 4개의 고정 선택 밴드의 에너지가 차지하는 비율을 연산하여 전송한다. 이 비율을 나타내는 는 복호화시 식(9)에 의하여 에너지 가중치를 연산한다.

(8)

(9)

대부분 신호의 경우 많은 에너지가 저주파수 대역에 분포 하고, 고 주파수 대역으로 갈수록 에너지가 작아지는 특성을 이용하여 지수 분포의 수식으로부터 식(9)를 유도 하였다. 최고 에너지 가중치 는 여러 신호를 대상으로 값을 조정하며 실험으로 얻은 결과 값이다. Fig. 5는 위의 수식에 대한 예를 보여 준다. Fig. 5(a)의 입력 신호로부터 연산된 를 통해서 복호화시 연산되는 각 하위 밴드의 에너지 가중치는 Fig. 5(b)와 같이 각 하위 밴드 순서에 따라 나타나게 된다. 이렇게 연산된 에너지 가중치는 전송 밴드의 신호와 함께 비 선택 밴드에 삽입될 목표 신호를 생성 하게 된다.

3.3 목표 신호의 생성과 삽입

위의 각 밴드별 에너지 가중치와 전송 밴드 신호 에 의하여 목표 신호를 생성 한다. 생성된 목표 신호 는 아래의 식(10)으로 표현 할 수 있다.

(10)

여기에서 은 목표 신호가 삽입될 부 밴드를 나타내고, 는 입력 신호로 부터 활용하는 부 밴드를 나타낸다.

목표 신호의 생성과 삽입 과정은 Fig. 6에 나타나 있다. Fig. 6 (a)는 복호화기에서 입력 받은 신호로서 선택적 부호화기에 의하여 많은 밴드의 전송이 이루어 지지 않는다. 이 부분들을 전송된 밴드의 신호로 부터 목표 신호를 생성 후 삽입함 으로써 Fig. 6 (b)와 같이 전송되지 않는 밴드의 복원이 이루어진다.

Fig. 6. Synthesis and injection of target signal.

이렇게 목표 신호를 삽입하는 경우 밴드간의 연속성이 문제가 될 수 있다. 따라서 컴포트 노이즈의 삽입 방법과 같이 매우 경미한 수준의 백색 잡음을 추가 하여 밴드간의 불연속성으로 인한 음질 열화를 줄일 수 있다.

기존 선택적 부호화기에서 백색 잡음 성분의 컴포트 노이즈를 삽입하여 신호의 불연속성으로 부터 나타나는 음질 열화를 해결하였다면, 목표 신호의 삽입은 비 전송 밴드에서 일부 하모닉 성분을 복원 하는 장점을 갖고 있으며 실제 음성 스펙트럼을 어느 정도 복원할 수 있다. 실제 오디오 신호를 청취하였을 때 유성음이나 하모닉 성분에서 음질 개선을 청취할 수 있었다.

IV. 성능평가

(a)

(b)

(c)

Fig. 7. Comparison of spectrogram (a) original signal (b) using comfort noise (c) using target signal.

본 논문에서 제안하는 알고리즘을 실험하기 위해 AMR-WB+ 코덱의 표준 소스로 3GPP TS 26.304 v9.0.0 부동소수점 ANSI-C 코드[8]의 부호화 알고리즘을 이용하였다.

평가 방법으로는 제안 하는 알고리즘이 전송되지 않은 밴드에 합성된 신호를 삽입함에 따라 나타나는 음질열화를 평가하기 위하여 직접 청취하여 평가하는 ITU-R의 표준 MUSHRA[9]를 이용하였다. MUSHRA 음질시험에는 훈련되지 않은 일반인 12명이 평가에 참여하였으며 동일한 헤드폰과 동일한 컴퓨터를 사용하여 시험하였다 .

실험에 이용한 입력신호는 선택적 부호화기의 성능 평가에 사용된 신호의 특성에 따라 제네릭(generic) 신호(Guitar, Gong-일반적인 특성이 나타나지 않는 신호), 하모닉 신호, 음성 신호를 포함한 믹스 신호를 각각 2개씩 사용하였다.[7]


(a) Result of generic Guitar signal	(b) Result of generic Gong


(c) Result of harmonic Xylophone signal	(d) Result of harmonic Bagpipes signal


(e) Result of speech(woman)/audio signal	(f) Result of speech(man)/audio signal
REF - Oroginal Signal	CF-Result of 9.2 kbps Band Selection coder using comfort noise
LP-Result of passed 3.5 kHz Low-pass filter	NN-Result of 9.2 kbps Band Selection coder not using anyone at Non-selection band
SC-Result of 9.2 kbps Band Selection coder using proposed target signal	TC-Result of 10.4 kbps AMR-WB+
Fig. 8. MUSHRA test result by the characteristics of the signal.

우선 Fig. 7(a)의 스펙트로그램을 보면 기존의 컴포트 노이즈 삽입의 경우 과도한 백색 잡음을 확인 할 수 있으며, 실제 청취 시 백색잡음을 들을 수가 있다. 하지만 Fig. 7(b)의 목표 신호를 삽입 한 경우에는 과도한 백색잡음이 현저히 줄어들고 일부 하모닉 성분이 복원 된 것을 확인 할 수 있다.

음질 비교를 위한 사용된 오디오 신호는 입력신호, LPF(fc=3.5 kHz), AMR- WB+의 최저 전송률인 10.4 kbps 출력신호, 선택적 부호화기에서 컴포트 노이즈를 삽입한 출력 신호와 비 선택 밴드를 처리 하지 않은 출력신호를 비교하였다.

MUSHRA 실험 결과는 아래의 Fig. 8에 나타내었다. 제안된 SBR를 이용한 오디오 부호화기는 하모닉 성분이 존재 하지 않는 제네릭 신호에서는 컴포트 노이즈의 삽입과 동일한 성능을 보인다. 하모닉 성분을 띄는 신호와 음성을 포함한 신호에서는 컴포트 노이즈 보다 3~5점의 성능 향상을 나타내었다.

컴포트 노이즈를 사용한 선택적 부호화기가 9.2 kbps에서 AMR-WB+ 10.4 kbps와 유사한 성능을 보이거나 SBR을 사용한 9.2 kbps 부호화기의 음질은 10.4 kbps AMR-WB+ 보다 나은 성능을 보이는 것을 통하여 비 선택 밴드에 컴포트 노이즈를 삽입 하는 것 보다 SBR 기법을 통한 목표 신호를 삽입하는 것이 더 높은 성능을 보이는 것을 알 수 있다.

V. 결 론

본 논문에서는 저 전송률의 분석/합성 구조의 부호화기[7]에서 비 선택 밴드에 컴포트 노이즈를 삽입하였을 때 나타나는 단점을 SBR의 목표 신호를 이용하여 보완하였다. SBR 기법의 원리에 입각하여 비 전송 밴드를 전송 밴드의 신호를 활용하여 복원하도록 하였고, 효율적인 활용을 위해 각 밴드별로 에너지 가중치를 부여하였다.

각 밴드별 에너지 가중치를 두기 위하여 저 주파수 밴드에 에너지가 주로 분포하는 특성을 이용해 지수 분포를 이용하여 에너지 가중치를 연산하여 최종적으로 삽입되는 신호를 연산하도록 하였다. 전송 밴드의 신호를 활용함으로써 일부 하모닉 성분이 비 전송 밴드에서 복원 되는 것 을 확인하였다.

MUSHRA 성능평가를 통하여 제안하는 비 전송 밴드 복원 방법의 성능을 시험한 결과, 하모닉 성분을 가지지 않은 신호에서는 기존 방법과 유사한 성능을 보였으며, 하모닉 성분을 포함한 신호에서는 기존 보다 향상된 성능을 나타내었다.

분석/합성 구조의 부호화기가 9.2 kbps로써 AMR- WB+의 10.4 kbps의 성능과 비슷한 성능을 보였으며 제안 하는 비 전송 밴드 복원 방법은 하모닉 성분이 있는 신호에서 AMR-WB+의 10.4 kbps 보다 향상된 성능을 보였다.

Acknowledgements

“이 논문은 2012년도 충북대학교 학술연구지원사업의 연구비 지원에 의하여 연구되었음.” “This work was supported by the research grant of the Chungbuk National University in 2012.”

References

1.A. Spanias, “Speech coding: a tutorial review” Proc. IEEE, 82, 1541-1582 (1994).

2.Kondoz A.M, Digital Speech: Coding for Low Bit Rate Communication Systems, 2nd Ed., (John Wiley & Sons, New Jersey, 2004), pp. 219-255.

3.T. Painter, A. Spanias, “Perceptual coding of digital audio,” Proc. IEEE, 88, 451-515 (2000).

4.J. Schnitzler, P. Vary, “Signal processing: trends and per-spectives in wideband speech coding,” Elsevier, 80, 2267- 2281 (2000).

5.T.J. Lee, K.O. Kang and W.W. Kim, “MPEG audio new standard: USAC technology,” JBE, 16, 693-704 (2011).

6.K. J. An, “Performance evaluation of the MPEG USAC according to the spectral band replication bandwidth,” JBE, 15, 705-713 (2011).

7.S. H. Jang, K. B. Hong and I. S. Lee, “Design of low bits rate transform excitation wide band speech and audio coder of analysis-by-synthesis structure” (in Korean), J. Acoust. Soc. Kr. 31, 472-479 (2012).

8.3GPP TS 26.304, ANSI-C code for the floating point Extended AMR Wideband codec, V9.0.0., 2009.

9.ITU-R BS.1534, Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA), 2001.

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Frequency Band Selection Exited Linear Prediction Wideband Speech/Audio Coding Using SBR

ABSTRACT

MAIN

Acknowledgements

References