Partitioned Block Frequency Domain Adaptive Filtering Algorithm for Nonlinear Acoustic Echo Cancellation

Keunsang Lee; Youna Ji; Youngcheol Park

doi:10.7776/ASK.2015.34.3.177

Preview

The Journal of the Acoustical Society of Korea. 31 May 2015. 177-183
https://doi.org/10.7776/ASK.2015.34.3.177

Partitioned Block Frequency Domain Adaptive Filtering Algorithm for Nonlinear Acoustic Echo Cancellation

비선형 음향 반향 제거를 위한 파티션 블록 주파수 영역 적응 필터링 알고리즘

Keunsang Lee¹

Youna Ji¹

Youngcheol Park¹^*

이 근상¹

지 유나¹

박 영철¹^*

¹Division of Computer and Telecommunication Engineering, Chanjo, Room 269, Yonsei University

¹연세대학교 컴퓨터정보통신공학부

^{*교신저자.}^{*Corresponding Author.}

License:

ABSTRACT

This paper proposes a robust nonlinear acoustic echo canceller (NAEC) which is effective for modeling the nonlinearity of a speaker module and the long acoustic echo path within a speech communication environment. The proposed NAEC utilizes a sigmoid pre-processor for modeling the speaker nonlinearity and a partitioned block frequnecy-domain adaptive filter for identifying the acoustic echo path with small delay. Simulation results confirmed that the proposed algorithm achieves excellent performance with much lower computational complexity than the previous NAEC.

Keywords

Nonlinear acoustic echo canceller (NAEC)

partitioned block frequency-domain adaptive filter (PB-FDAF)

nonlinear pre-processor

본 논문은 음성 통신 환경에서 스피커 모듈 비선형 특성 모델링과 긴 음향 반향 경로에서 효율적으로 동작하는 강인한 비선형 음향 반향 제거기를 제안한다. 제안하는 비선형 음향 반향 제거기는sigmoid 전처리기를 사용하여 스피커 모듈의 비선형 특성을 모델링하며, 적은 시간 지연으로 긴 음향 반향 경로를 추정할 수 있도록 파티션 블록 주파수 영역 적응 필터를 사용한다. 실험을 통해 스피커 모듈의 비선형 특성이 발생하는 환경에서 제안 비선형 음향 반향 제거기는 기존 비선형 음향 반향 제거기에 비해 적은 연산량으로 우수한 성능을 보임을 확인하였다.

키워드

비선형 음향반향 제거기

비선형 전처리기

파티션 블록 주파수 영역 적응 필터

MAIN

I. 서 론
II. 기존연구
2.1 Sigmoid 비선형 전처리기 기반 NAEC
2.2 PB-FDAF 알고리즘
III. Sigmoid 전처리기 기반 PB-FDAF
IV. 실험 및 결과
V. 결 론

I. 서 론

음성 통신 환경에서 양방향 오디오 서비스는 스피커로부터 출력되는 음향 신호가 음향 공간에 의해 형성된 경로를 거쳐 다시 마이크로 유입되어 발생하는 음향 반향은 선형적인 특성을 가지고 있기 때문에 선형 적응 필터기반의 음향 반향 제거기(Acoustic Echo Canceller, AEC)를 사용하여 제거할 수 있다.^[1] 하지만 최근 음성 통신 장치의 소형화 추세에 따라 오디오 시스템을 구성하는 소자들의 비선형 특성이 전체 적인 음향 반향에 미치는 영향이 커지고 있으며, 이는 선형 AEC를 사용하여 제거할 수 없다. 따라서 오디오 소자의 비선형 특성을 효과적으로 모델링할 수 있는 비선형 음향 반향 제거기(Nonlinear Acoustic Echo Canceller, NAEC)를 필요로 한다.^[2]

NAEC를 위한 대표적인 비선형 필터로는 볼테라 필터(Volterra filter)와 파워 필터(power filter)들이 있다.^[3,4] 이들 비선형 필터는 오디오 소자의 비선형 특성과 음향 반향 경로를 동시에 모델링하여 음향 반향을 제거한다. 하지만 필터 차수가 증가함에 따라 높은 연산 복잡도와 느린 수렴 속도를 가지며 시스템의 안전성을 보장할 수 없는 문제가 발생한다.^[5] 한편 시스템 소자의 대부분의 비선형 특성은 스피커 모듈에서 발생한다는 사실을 바탕으로 비선형 전처리기와 시간영역 선형 적응 필터를 결합하여 시스템 소자의 비선형 특성과 음향 경로를 각각 모델링하는 방법이 제안되었다.^[5,6] 비선형 전처리기로 볼테라 필터와 파워 필터와 같은 비선형 필터를 사용할 수 있는데, 이 경우 스피커 모듈의 비선형 특성을 모델링하기 위해서는 높은 차수가 요구되어 연산 복잡도 및 수렴 속도의 문제가 발생한다. 이에 스피커의 비선형 특성을 효과적으로 모델링하기 위한 비선형 전처리기로 메모리가 필요 없는 sigmoid함수를 사용하는 방법이 제안되었다.^[7]

실제 음향 환경에서는 상당히 긴 음향 경로를 가지기 때문에 음향 경로 추정을 위해 높은 차수의 적응 필터를 사용해야 한다. 이런 문제는 sigmoid함수를 사용하는 Reference [7]의 방법에서도 마찬가지로 발생한다. 한편 주파수 영역 적응 필터(Frequency Domain Adaptive Filter, FDAF)는 시간 영역 적응 필터에 비해 적은 연산 복잡도로 빠른 수렴 속도를 가진다.^[8] 하지만 필터 차수만큼의 시간 지연으로 인해 긴 음향 경로 환경에서는 통화 품질에 심각한 문제를 야기 시킬 수 있다. 따라서 파티션 블록 주파수 영역 적응 필터(Partitioned Block FDAF, PB-FDAF)를 사용하여 시간 지연 및 연산량 문제를 해결할 수 있다.^[9]

이에 본 논문에서는 스피커의 비선형 특성이 빈번히 발생하는 실제 음향 환경에 강인하게 대처하기 위해 블록 평균 제곱 오차(Mean Square Error, MSE)를 최소화하기 위한 비선형 전처리기와 선형 필터의 계수 갱신 식을 도출하였습니다. 이때, 변형된 sigmoid 함수 블록 비선형 전처리기는 블록 LMS(Least Mean Square) 알고리즘을 이용하여 적응적으로 갱신함으로써 스피커 모듈의 비선형 특성을 효과적으로 모델링하며, 실제 음향 환경에 적합한 PB-FDAF를 사용하여 적은 시간 지연과 연산 복잡도로 안정적으로 음향 경로를 추정하는 방법을 제안한다.

본 논문의 구성은 II장에서 sigmoid함수를 사용하는 비선형 전처리기 기반 NAEC와 PB-FDAF에 대해서 설명하고, III장에서 제안하는 sigmoid전처리기 기반 PB-FDAF 알고리즘을 보인다. IV장에서 실험을 통해 제안 알고리즘의 성능을 평가하고 마지막으로 V장에서 결론을 맺는다.

II. 기존연구

2.1 Sigmoid 비선형 전처리기 기반 NAEC

Fig. 1은 비선형 전처리기 기반 NAEC 블록선도를 보이고 있다. 전송 신호 은 비선형 특성을 가지는 스피커 모듈을 통해 출력되어 음향 반향 경로를 거친 반향 신호는 배경 잡음 과 함께 마이크로폰 모듈에 입력된다. 마이크 입력 신호 은 비선형 전처리기 기반 NAEC를 통해 추정된 반향 신호 를 뺀 을 전송한다. 이때 비선형 전처리기 는 다음 sigmoid함수를 사용한다.^[7]

Fig. 1. Block diagram of nonlinear acoustic echo canceller based on nonlinear pre-processor.

, (1)

여기서 와 는 비선형 상수로 각각 스피커의 증폭과 클리핑 크기를 조절하는 상수이다. 에러 신호 은 다음과 같다.^[7]

, (2)

여기서 과 은 각각 차 적응 필터의 계수 벡터와 입력 벡터이다. 을 최소화하기 위한 MSE 는 다음과 같다.^[10]

, (3)

을 최소화하기 위한 , 그리고 의 최적 해(optimum solution)를 얻기 위해 와 는 LMS 알고리즘을 이용하여 적응적으로 갱신함으로써 스피커 모듈의 증폭과 클리핑 크기를 모델링한다.^[7] 다음으로 선형 적응 필터의 계수 벡터 의 최적 해는 NLMS 알고리즘을 이용하여 음향 경로를 추정한다. 이때, 적응 필터의 입력 벡터는 비선형 전처리기의 출력 신호를 이용한다.

2.2 PB-FDAF 알고리즘

PB-FDAF의 필터 출력 신호 은 다음과 같이 표현된다.^[9]

, (4)

여기서 와 은 번째 파티션의 계수 벡터와 입력 벡터이다. 와 은 각각 파티션 수와 파티션 사이즈로 과 같다. 각 파티션 블록에 대한 컨벌루션 연산을 주파수 영역에서 수행하면 다음출력 벡터 을 얻을 수 있다.

, (5)

여기서 은 블록 인덱스이다. 과 은 각각 번째 파티션에 대한 주파수 영역 입력 신호 행렬과 계수 벡터이다. 이때, 와 는 각각 DFT와 대각 행렬이며, , 이고, 이다. 필터 출력 벡터 은 에 오버랩 세이브(overlap-save) 기법을 적용하여 얻을 수 있으며, 은 역 DFT 행렬이다. 다음은 시간 영역 에러 벡터 을 보이고 있다.

, (6)

여기서 은 주 신호 벡터이다. 주파수 영역 에러 벡터 를 이용하여 주파수 영역 적응 필터의 계수 벡터를 다음과 같이 적응적으로 갱신한다.

, (7)

여기서 와 는 각각 수렴상수와 Hermitian 연산자이며, 이다. 이며, 은 의 파워로 1차의 IIR 필터로 추정한다.

III. Sigmoid 전처리기 기반 PB-FDAF

제안 알고리즘은 스피커의 비선형 특성을 모델링하기 위한 비선형 전처리기로 sigmoid 함수를 사용하며, 음향 경로 추정을 위한 선형 적응 필터로 PB-FDAF 알고리즘을 사용함으로써 스피커의 비선형 특성이 발생하는 실제 음성 통신 환경에 효율적으로 대처할 수 있다.

다음은 제안 알고리즘의 출력 벡터 을 보이고 있다.

, (8)

여기서 은 s비선형 전처리기가 적용된 입력 행렬이다. Eq.(8)를 이용하여 Eq.(3)의 샘플 단위 MSE를 블록 단위 MSE로 다시 정리 하면 다음과 같다.

, (9)

여기서 이며, 이다. 다음 Fig. 2는 스피커 모듈의 비선형 특성과 음향 반향 경로 그리고 비선형 전처리기와 적응 필터의 구조를 보이고 있다.

제안 NAEC의 적응 필터는 Fig. 2와 같이 스피커 모듈의 클리핑 크기를 조절하는 와 음향 반향 경로 를 동시에 모델링하며 다음과 같이 표현할 수 있다.

Fig. 2. Block diagram of (a) the speaker module with acoustic echo path and (b) nonlinear function with adaptive filter.

. (10)

이에 제안 비선형 전처리기는 스피커 모듈의 증폭에 대한 변수 에 대해서만 적응적으로 갱신함으로써 스피커 모듈의 비선형 특성을 모델링한다. 다음은 변형된 sigmoid 함수이다.

. (11)

LMS 알고리즘을 이용하여 Eq.(9)를 최소로 하기 위한 갱신 식은 다음과 같다.

, (12)

여기서 는 수렴 상수이며, 전처리기 출력 벡터 부터 PB-FDAF의 출력 벡터 까지 연산들은 모두 선형 연산이기 때문에 에 대한 의 편미분은 다음과 같이 표현할 수 있다.

, (13)

여기서 은 에 대해서 열벡터 을 편미분한 것으로 번째 원소는 다음과 같다.

, (14)

스피커의 비선형 특성은 시불변한 특성을 가지기 때문에 시간 동안에는 변하지 않는 다고 가정할 수 있다. 따라서 Eq.(13)을 얻기 위해 개의 입력 벡터 에 대해서만 Eq.(14)를 적용하여 얻는다. 제안 비선형 전처리기는 스피커 모듈의 증폭에 대해서만 고려하며, 지수함수를 개의 입력 벡터에 적용함으로써 기존 sigmoid 전처리기에 비해 적은 계산 복잡도를 가진다.

선형 적응 필터를 위한 PB-FDAF는 비선형 전처리기 출력 신호를 입력 신호로 하므로 PB-FDAF의 계수 갱신 식 Eq.(7)을 다시 표현하면 다음과 같다.

, (15)

여기서 이며, 은 의 파워로 1차의 IIR 필터를 이용하여 추정한다.

IV. 실험 및 결과

제안 알고리즘의 실효성을 검증하기 위해 제안 알고리즘과 기존 비선형 알고리즘인 볼테라 필터와 비선형 전처리기로 sigmoid함수를 사용하고 선형 필터로 NLMS를 사용하는 sigmoid-NLMS를 필터 차수에 대한 연산 복잡도를 다음 Table 1에 정리 하였다.

Table 1로부터 필터 차수는 2048, 파티션 수는 8이고, 볼테라 필터의 2차 커널 사이즈를 256 샘플에 대해서만 적용하면, 는 32896이 된다. 이때 볼테라 필터, sigmoid-NLMS 그리고 제안 알고리즘의 계산 복잡도는 각각 , 그리고 이 된다. 따라서 기존 비선형 음향반향 제거기인 볼테라 필터와 sigmoid-NLMS는 제안 알고리즘에 비해 필터 차수가 증가함에 따라 높은 계산 복잡도를 가진다. 비선형 전처리기에 의한 계산 복잡도를 비교하면 필터 차수와 파티션 수가 위와 동일하게 각각 2048과 8일 일 때 sigmoid-NLMS와 제안 알고리즘의 비선형 전처리기 계산 복잡도는 각각 과 이다. 이것으로부터 제안 알고리즘은 기존 비선형 전처리기에 비해 높은 필터 차수에서도 상당히 적은 계산 복잡도를 가짐을 확인할 수 있다. 그러므로 긴 음향 경로를 가지는 음성 통신 환경에서 sigmoid-NLMS 비해 제안 알고리즘이 적합함을 확인하였다.

Table 1. Complexity comparison between AEC and NAEC algorithms [: filter order, : number of partition, : block size, : 2^nd kernel size of Volterra filter, : c times exponential operations].
	Volterra Filter	sigmoid- NLMS	Proposed
Pre processor	-
Pre-proc. update	-
Filter output
ADF update
Total

제안 비선형 전처리기의 수렴 성능을 검증하기 위해 서로 다른 네 가지의 를 가지는 비선형 모델 에 대한 실험을 수행하였다. 이때 수렴 상수 는 0.2를 사용하였다. 스피커의 비선형 왜곡을 sigmoid 함수로 모델링한 후 제안한 비선형 전처리기 Eq.(12)가 얼마나 정확하게 비선형 왜곡을 추정하는지 실험하였다. 실험을 위한 음향 경로는 1024차를 사용하였으며, 입력 신호는 음성 신호와 유사한 스펙트럼을 가지도록 모델링하기 위해 all-pole 필터인 AR(Auto Regressive) 프로세서를 사용하였으며, 다음과 같다.^[10]

, (16)

은 백색잡음이고, 는 AR 프로세서의 차수로 12를 사용하였다. 제안 비선형 전처리기의 수렴 성능을 다음 Fig. 3에 보이고 있다.

Fig. 3의 결과는 제안된 비선형 전처리기가 임의의 비선형 계수 에 잘 수렴함을 보여준다. 이로부터 제안한 비선형 전처리기가 충분히 비선형성을 충분히 추정할 수 있음을 확인할 수 있다.

실제 음향 반향 실험을 위해 사무실 환경의 음향 반향 경로의 임펄스 응답을 16 kHz 샘플링 주파수로 측정하였다. 반향 경로 임펄스 응답의 길이는 2048 샘플로 하였다. 선형 AEC의 필터 차수 은 측정 음향 방향 경로와 동일한 2048를 사용하였으며, 파티션 수 는 8로 하고 파티션의 블록 크기 는 256를 사용하였다. 제안 알고리즘의 성능을 평가하기 위해 NLMS, 볼테라 필터 그리고 sigmoid-NLMS와 비교하였다. 각 알고리즘들의 수렴 상수들은 스피커의 비선형 특성이 없는 정상적인 환경에서 동일한 정상 상태를 가지도록 결정하였다. 선형 알고리즘들인 NLMS의 수렴 상수는 로 하였으며, 비선형 알고리즘들인 볼테라 필터의 1차와 2차 커널의 수렴 상수는 각각 와 을 사용하였고, sigmoid-NLMS의 수렴 상수들은 , 그리고 로 하였다. 제안 알고리즘의 수렴 상수들은 와 을 사용하였다. 음향 반향 제거 성능을 확인하기 위해 ERLE(Echo Return Loss Enhancement)를 측정하였으며 다음과 같다.^[1]

Fig. 3. Convergence behaviour of the pre-processor () (a) sigmoid function according to the different and (b) learning curves of .

. (17)

Fig. 4는 20차의 AR 프로세스로 모델링된 입력 신호를 사용하였을 때의 ERLE 결과를 보이고 있다.

위의 결과로부터 스피커 모듈의 비선형 특성이 없는 정상적인 환경인 Fig. 4(a)에서는 제안 알고리즘이 빠르게 정상 상태에 도달하고 모든 알고리즘들이 동일한 정상 상태를 갖는 것을 관찰할 수 있다. 반면, 실제 스피커 모듈의 비선형 왜곡을 각각 sigmoid함수와 하이퍼볼릭 탄젠트(hyperbolic tangent)로 모델링하였을 때의 결과를 Fig. 4 (b)와 (c)에 보이고 있다. (b)와 (c)의 결과로부터 비선형 전처리기를 사용하는 sigmoid- NLMS와 제안 알고리즘이 NLMS와 볼테라에 비해 높은 ERLE를 보이며, 또한 제한 알고리즘이 sigmoid- NLMS에 비해 빠른 수렴 속도를 보인다. 이때, 볼테라 필터는 스피커 모듈의 비선형 특성을 모델링하기 위해서는 높은 차수가 요구된다.^[7] 하지만 본 실험에서는 2차의 볼테라 필터를 사용하였기 때문에 스피커의 비선형 특성을 충분히 모델링하지 못하고 NLMS와 유사한 수렴 성능을 보이는 것을 관찰할 수 있다.

Fig. 4. ERLE curves for changing acoustic echo path; (a) without nonlinear distortion, (b) with speaker distor-tion being modelled using sigmoid function ( and ), and (c) hyperbolic tangent.

다음은 3 × 4 × 2.5 m²의 사무실 환경에서 실제 녹음된 TIMIT database의 음성 신호로 스피커 모듈의 비선형 특성이 발생하도록 높은 볼륨으로 신호를 출력하였을 때의 결과를 보이고 있다. 이때, 각 알고리즘들의 파라미터들은 Fig. 4와 동일하게 사용하였다.

Fig. 5에서 입력 신호가 큰 0에서 1 s 사이의 신호를 보면 스피커 모듈의 비선형 특성으로 인하여 비선형 전처리기를 사용하는 sigmoid-NLMS와 제안 알고리즘이 NLMS와 볼테라 필터에 비해 높은 ERLE를 가지는 것을 관찰할 수 있다. 이때, 제안 알고리즘은 주파수 영역 알고리즘이기 때문에 시간 영역 알고리즘보다 초기 빠른 수렴 속도를 가지는 것을 확인할 수 있다. 반면, 스피커 모듈의 비선형 특성이 발생하지 않을 정도의 작은 크기의 신호에 대해서는 선형 알고리즘과 유사한 수렴 성능을 보인다. 다음은 스피커 모듈의 비선형 특성이 발생하는 0 ~ 1.5 s 사이에서 각 알고리즘들의 에러 신호를 시간 영역에서 관찰한 결과를 보이고 있다.

Fig. 5. ERLE curves for recorded real speech under the speaker nonlinearity.

Fig. 6. Error signals in time domain; (a) NLMS, (b) Volterr filter, (c) sigmoid-NLMS, and (d) proposed.

Fig. 6으로부터 sigmoid-NLMS와 제안 알고리즘은 NLMS와 볼테라 필터에 비해 큰 입력 신호에 대해서 높은 반향 신호 제거 성능을 보이는 것을 관찰할 수 있다. 또한, Fig. 6 (c)와 (d)로부터 sigmoid-NLMS와 제안 알고리즘의 반향 제거 성능이 유사함을 확인할 수 있다.

Table 1과 Figs. 4에서 6의 결과들로부터 제안 알고리즘은 적은 연산량으로 기존 알고리즘들에 비해 빠른 수렴 속도와 유사한 정상 상태 및 반향 제거 성능을 보임을 확인할 수 있다. 따라서 제안 알고리즘은 스피커의 비선형 특성에 강인하게 대처할 수 있을 뿐만 아니라 긴 음향 반향 경로를 가지는 실제 통신 환경에서 적합하다.

V. 결 론

본 논문은 sigmoid 비선형 전처리기와 파티션 블록 주파수 영역 적응 필터를 결합한 형태의 비선형 음향 반향 제거 알고리즘을 제안한다. 실험을 통해 제안 알고리즘은 기존 비선형 반향 제거 알고리즘들에 비해 적은 연산량으로 우수한 성능을 보임을 검증함으로써 스피커의 비선형 특성이 발생하는 실제 음향 환경에 적합함을 확인하였다.

References

1.S. J. Elliott and P. A. Nelson, “Acoustic echo control; an application of very-high-order adaptive filters,” IEEE Signal Process. Mag. 16, 12-35 (1999).

2.B. S. Nollett and D. L. jones, “Nonlinear echo cancellation for handsfree speakerphones,” in Proc. IEEE Workshop on Nonlinear Signal Image Process. (NSIP), Mackinac Island, MI, Sep. 8-10 (1997).

3.A. Stenger and R. Rahenstein., “Adaptive volterra filters for acoustic echo cancellation,” in Proc. IEEE-EURASIP Work-shop on Nonlinear Signal and Image Process. 2, 679-683 (1999).

4.F. Kuech and W. Kellermann, “Orthogonalized power filters for nonlinear acoustic echo cancellation,” Signal Process. 86, 1168-1181 (2006).

5.J. P. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 5, pp. V389-V392 (2003).

6.A. Stenger and W. Kellermann, “Nonlinear acoustic echo cancellation with fast converging memoryless pre-processor,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2, II805-II808 (2000).

7.J. Fu and W. Zhu, “A nonlinear acoustic echo canceller using sigmoid transform in conjunction with RLS algorithm,” IEEE Trans. Circuits Syst. II, Exp. Briefs, 55, 1056-1060 (2008).

8.J. J. Shynk, “Frequency-domain and multirate adaptive filtering,” IEEE Signal Process. Mag. 9, 14-37 (1992).

9.J. P. Borrallo and M. G. Otero, “On the implementation of a partitioned block frequency domain adaptive filter (pbfdaf) for long acoustic echo cancellation,” Signal Process. 27, 301-315 (1992).

10.S. Haykin, Adaptive Filter Theory, 4th ed. (Prentice-Hall, New Jersey, 1996), pp. 46-51, 100-101.

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Partitioned Block Frequency Domain Adaptive Filtering Algorithm for Nonlinear Acoustic Echo Cancellation

ABSTRACT

MAIN

References