I. 서 론
II. 기존연구
2.1 Sigmoid 비선형 전처리기 기반 NAEC
2.2 PB-FDAF 알고리즘
III. Sigmoid 전처리기 기반 PB-FDAF
IV. 실험 및 결과
V. 결 론
I. 서 론
음성 통신 환경에서 양방향 오디오 서비스는 스피커로부터 출력되는 음향 신호가 음향 공간에 의해 형성된 경로를 거쳐 다시 마이크로 유입되어 발생하는 음향 반향은 선형적인 특성을 가지고 있기 때문에 선형 적응 필터기반의 음향 반향 제거기(Acoustic Echo Canceller, AEC)를 사용하여 제거할 수 있다.[1] 하지만 최근 음성 통신 장치의 소형화 추세에 따라 오디오 시스템을 구성하는 소자들의 비선형 특성이 전체 적인 음향 반향에 미치는 영향이 커지고 있으며, 이는 선형 AEC를 사용하여 제거할 수 없다. 따라서 오디오 소자의 비선형 특성을 효과적으로 모델링할 수 있는 비선형 음향 반향 제거기(Nonlinear Acoustic Echo Canceller, NAEC)를 필요로 한다.[2]
NAEC를 위한 대표적인 비선형 필터로는 볼테라 필터(Volterra filter)와 파워 필터(power filter)들이 있다.[3,4] 이들 비선형 필터는 오디오 소자의 비선형 특성과 음향 반향 경로를 동시에 모델링하여 음향 반향을 제거한다. 하지만 필터 차수가 증가함에 따라 높은 연산 복잡도와 느린 수렴 속도를 가지며 시스템의 안전성을 보장할 수 없는 문제가 발생한다.[5] 한편 시스템 소자의 대부분의 비선형 특성은 스피커 모듈에서 발생한다는 사실을 바탕으로 비선형 전처리기와 시간영역 선형 적응 필터를 결합하여 시스템 소자의 비선형 특성과 음향 경로를 각각 모델링하는 방법이 제안되었다.[5,6] 비선형 전처리기로 볼테라 필터와 파워 필터와 같은 비선형 필터를 사용할 수 있는데, 이 경우 스피커 모듈의 비선형 특성을 모델링하기 위해서는 높은 차수가 요구되어 연산 복잡도 및 수렴 속도의 문제가 발생한다. 이에 스피커의 비선형 특성을 효과적으로 모델링하기 위한 비선형 전처리기로 메모리가 필요 없는 sigmoid함수를 사용하는 방법이 제안되었다.[7]
실제 음향 환경에서는 상당히 긴 음향 경로를 가지기 때문에 음향 경로 추정을 위해 높은 차수의 적응 필터를 사용해야 한다. 이런 문제는 sigmoid함수를 사용하는 Reference [7]의 방법에서도 마찬가지로 발생한다. 한편 주파수 영역 적응 필터(Frequency Domain Adaptive Filter, FDAF)는 시간 영역 적응 필터에 비해 적은 연산 복잡도로 빠른 수렴 속도를 가진다.[8] 하지만 필터 차수만큼의 시간 지연으로 인해 긴 음향 경로 환경에서는 통화 품질에 심각한 문제를 야기 시킬 수 있다. 따라서 파티션 블록 주파수 영역 적응 필터(Partitioned Block FDAF, PB-FDAF)를 사용하여 시간 지연 및 연산량 문제를 해결할 수 있다.[9]
이에 본 논문에서는 스피커의 비선형 특성이 빈번히 발생하는 실제 음향 환경에 강인하게 대처하기 위해 블록 평균 제곱 오차(Mean Square Error, MSE)를 최소화하기 위한 비선형 전처리기와 선형 필터의 계수 갱신 식을 도출하였습니다. 이때, 변형된 sigmoid 함수 블록 비선형 전처리기는 블록 LMS(Least Mean Square) 알고리즘을 이용하여 적응적으로 갱신함으로써 스피커 모듈의 비선형 특성을 효과적으로 모델링하며, 실제 음향 환경에 적합한 PB-FDAF를 사용하여 적은 시간 지연과 연산 복잡도로 안정적으로 음향 경로를 추정하는 방법을 제안한다.
본 논문의 구성은 II장에서 sigmoid함수를 사용하는 비선형 전처리기 기반 NAEC와 PB-FDAF에 대해서 설명하고, III장에서 제안하는 sigmoid전처리기 기반 PB-FDAF 알고리즘을 보인다. IV장에서 실험을 통해 제안 알고리즘의 성능을 평가하고 마지막으로 V장에서 결론을 맺는다.
II. 기존연구
2.1 Sigmoid 비선형 전처리기 기반 NAEC
Fig. 1은 비선형 전처리기 기반 NAEC 블록선도를 보이고 있다. 전송 신호
은 비선형 특성을 가지는 스피커 모듈을 통해 출력되어 음향 반향 경로를 거친 반향 신호는 배경 잡음
과 함께 마이크로폰 모듈에 입력된다. 마이크 입력 신호
은 비선형 전처리기 기반 NAEC를 통해 추정된 반향 신호
를 뺀
을 전송한다. 이때 비선형 전처리기
는 다음 sigmoid함수를 사용한다.[7]
, (1)
여기서
와
는 비선형 상수로 각각 스피커의 증폭과 클리핑 크기를 조절하는 상수이다. 에러 신호
은 다음과 같다.[7]
, (2)
여기서
과
은 각각
차 적응 필터의 계수 벡터와 입력 벡터이다.
을 최소화하기 위한 MSE
는 다음과 같다.[10]
, (3)
을 최소화하기 위한
,
그리고
의 최적 해(optimum solution)를 얻기 위해
와
는 LMS 알고리즘을 이용하여 적응적으로 갱신함으로써 스피커 모듈의 증폭과 클리핑 크기를 모델링한다.[7] 다음으로 선형 적응 필터의 계수 벡터
의 최적 해는 NLMS 알고리즘을 이용하여 음향 경로를 추정한다. 이때, 적응 필터의 입력 벡터는 비선형 전처리기의 출력 신호를 이용한다.
2.2 PB-FDAF 알고리즘
PB-FDAF의 필터 출력 신호
은 다음과 같이 표현된다.[9]
, (4)
여기서
와 
은 
번째 파티션의 계수 벡터와 입력 벡터이다.
와
은 각각 파티션 수와 파티션 사이즈로
과 같다. 각 파티션 블록에 대한 컨벌루션 연산을 주파수 영역에서 수행하면 다음출력 벡터
을 얻을 수 있다.
, (5)
여기서
은 블록 인덱스이다.
과 
은 각각
번째 파티션에 대한 주파수 영역 입력 신호 행렬과 계수 벡터이다. 이때,
와
는 각각 DFT와 대각 행렬이며, 
,
이고, 
이다. 필터 출력 벡터
은
에 오버랩 세이브(overlap-save) 기법을 적용하여 얻을 수 있으며,
은 역 DFT 행렬이다. 다음은 시간 영역 에러 벡터
을 보이고 있다.
, (6)
여기서
은 주 신호 벡터이다. 주파수 영역 에러 벡터 
를 이용하여 주파수 영역 적응 필터의 계수 벡터를 다음과 같이 적응적으로 갱신한다.
, (7)
여기서
와
는 각각 수렴상수와 Hermitian 연산자이며,
이다.
이며,
은
의 파워로 1차의 IIR 필터로 추정한다.
III. Sigmoid 전처리기 기반 PB-FDAF
제안 알고리즘은 스피커의 비선형 특성을 모델링하기 위한 비선형 전처리기로 sigmoid 함수를 사용하며, 음향 경로 추정을 위한 선형 적응 필터로 PB-FDAF 알고리즘을 사용함으로써 스피커의 비선형 특성이 발생하는 실제 음성 통신 환경에 효율적으로 대처할 수 있다.
다음은 제안 알고리즘의 출력 벡터
을 보이고 있다.
, (8)
여기서
은 s비선형 전처리기가 적용된 입력 행렬이다. Eq.(8)를 이용하여 Eq.(3)의 샘플 단위 MSE를 블록 단위 MSE로 다시 정리 하면 다음과 같다.
, (9)
여기서
이며, 

이다. 다음 Fig. 2는 스피커 모듈의 비선형 특성과 음향 반향 경로 그리고 비선형 전처리기와 적응 필터의 구조를 보이고 있다.
제안 NAEC의 적응 필터는 Fig. 2와 같이 스피커 모듈의 클리핑 크기를 조절하는
와 음향 반향 경로
를 동시에 모델링하며 다음과 같이 표현할 수 있다.
|
Fig. 2. Block diagram of (a) the speaker module with acoustic echo path and (b) nonlinear function with adaptive filter. |
. (10)
이에 제안 비선형 전처리기는 스피커 모듈의 증폭에 대한 변수
에 대해서만 적응적으로 갱신함으로써 스피커 모듈의 비선형 특성을 모델링한다. 다음은 변형된 sigmoid 함수이다.
. (11)
LMS 알고리즘을 이용하여 Eq.(9)를 최소로 하기 위한
갱신 식은 다음과 같다.
, (12)
여기서
는 수렴 상수이며, 전처리기 출력 벡터
부터 PB-FDAF의 출력 벡터
까지 연산들은 모두 선형 연산이기 때문에
에 대한
의 편미분은 다음과 같이 표현할 수 있다.
, (13)
여기서
은
에 대해서 열벡터
을 편미분한 것으로
번째 원소는 다음과 같다.
, (14)
스피커의 비선형 특성은 시불변한 특성을 가지기 때문에
시간 동안에는 변하지 않는 다고 가정할 수 있다. 따라서 Eq.(13)을 얻기 위해
개의 입력 벡터 에 대해서만 Eq.(14)를 적용하여 얻는다. 제안 비선형 전처리기는 스피커 모듈의 증폭에 대해서만 고려하며, 지수함수를
개의 입력 벡터에 적용함으로써 기존 sigmoid 전처리기에 비해 적은 계산 복잡도를 가진다.
선형 적응 필터를 위한 PB-FDAF는 비선형 전처리기 출력 신호를 입력 신호로 하므로 PB-FDAF의 계수 갱신 식 Eq.(7)을 다시 표현하면 다음과 같다.
, (15)
여기서
이며,
은
의 파워로 1차의 IIR 필터를 이용하여 추정한다.
IV. 실험 및 결과
제안 알고리즘의 실효성을 검증하기 위해 제안 알고리즘과 기존 비선형 알고리즘인 볼테라 필터와 비선형 전처리기로 sigmoid함수를 사용하고 선형 필터로 NLMS를 사용하는 sigmoid-NLMS를 필터 차수에 대한 연산 복잡도를 다음 Table 1에 정리 하였다.
Table 1로부터 필터 차수는 2048, 파티션 수는 8이고, 볼테라 필터의 2차 커널 사이즈를 256 샘플에 대해서만 적용하면,
는 32896이 된다. 이때 볼테라 필터, sigmoid-NLMS 그리고 제안 알고리즘의 계산 복잡도는 각각
,
그리고
이 된다. 따라서 기존 비선형 음향반향 제거기인 볼테라 필터와 sigmoid-NLMS는 제안 알고리즘에 비해 필터 차수가 증가함에 따라 높은 계산 복잡도를 가진다. 비선형 전처리기에 의한 계산 복잡도를 비교하면 필터 차수와 파티션 수가 위와 동일하게 각각 2048과 8일 일 때 sigmoid-NLMS와 제안 알고리즘의 비선형 전처리기 계산 복잡도는 각각
과
이다. 이것으로부터 제안 알고리즘은 기존 비선형 전처리기에 비해 높은 필터 차수에서도 상당히 적은 계산 복잡도를 가짐을 확인할 수 있다. 그러므로 긴 음향 경로를 가지는 음성 통신 환경에서 sigmoid-NLMS 비해 제안 알고리즘이 적합함을 확인하였다.
제안 비선형 전처리기의 수렴 성능을 검증하기 위해 서로 다른 네 가지의
를 가지는 비선형 모델
에 대한 실험을 수행하였다. 이때 수렴 상수
는 0.2를 사용하였다. 스피커의 비선형 왜곡을 sigmoid 함수로 모델링한 후 제안한 비선형 전처리기 Eq.(12)가 얼마나 정확하게 비선형 왜곡을 추정하는지 실험하였다. 실험을 위한 음향 경로는 1024차를 사용하였으며, 입력 신호는 음성 신호와 유사한 스펙트럼을 가지도록 모델링하기 위해 all-pole 필터인 AR(Auto Regressive) 프로세서를 사용하였으며, 다음과 같다.[10]
, (16)
은 백색잡음이고,
는 AR 프로세서의 차수로 12를 사용하였다. 제안 비선형 전처리기의 수렴 성능을 다음 Fig. 3에 보이고 있다.
Fig. 3의 결과는 제안된 비선형 전처리기가 임의의 비선형 계수
에 잘 수렴함을 보여준다. 이로부터 제안한 비선형 전처리기가 충분히 비선형성을 충분히 추정할 수 있음을 확인할 수 있다.
실제 음향 반향 실험을 위해 사무실 환경의 음향 반향 경로의 임펄스 응답을 16 kHz 샘플링 주파수로 측정하였다. 반향 경로 임펄스 응답의 길이는 2048 샘플로 하였다. 선형 AEC의 필터 차수
은 측정 음향 방향 경로와 동일한 2048를 사용하였으며, 파티션 수
는 8로 하고 파티션의 블록 크기
는 256를 사용하였다. 제안 알고리즘의 성능을 평가하기 위해 NLMS, 볼테라 필터 그리고 sigmoid-NLMS와 비교하였다. 각 알고리즘들의 수렴 상수들은 스피커의 비선형 특성이 없는 정상적인 환경에서 동일한 정상 상태를 가지도록 결정하였다. 선형 알고리즘들인 NLMS의 수렴 상수는
로 하였으며, 비선형 알고리즘들인 볼테라 필터의 1차와 2차 커널의 수렴 상수는 각각
와
을 사용하였고, sigmoid-NLMS의 수렴 상수들은
,
그리고
로 하였다. 제안 알고리즘의 수렴 상수들은
와
을 사용하였다. 음향 반향 제거 성능을 확인하기 위해 ERLE(Echo Return Loss Enhancement)를 측정하였으며 다음과 같다.[1]
|
Fig. 3. Convergence behaviour of the pre-processor ( |
. (17)
Fig. 4는 20차의 AR 프로세스로 모델링된 입력 신호를 사용하였을 때의 ERLE 결과를 보이고 있다.
위의 결과로부터 스피커 모듈의 비선형 특성이 없는 정상적인 환경인 Fig. 4(a)에서는 제안 알고리즘이 빠르게 정상 상태에 도달하고 모든 알고리즘들이 동일한 정상 상태를 갖는 것을 관찰할 수 있다. 반면, 실제 스피커 모듈의 비선형 왜곡을 각각 sigmoid함수와 하이퍼볼릭 탄젠트(hyperbolic tangent)로 모델링하였을 때의 결과를 Fig. 4 (b)와 (c)에 보이고 있다. (b)와 (c)의 결과로부터 비선형 전처리기를 사용하는 sigmoid- NLMS와 제안 알고리즘이 NLMS와 볼테라에 비해 높은 ERLE를 보이며, 또한 제한 알고리즘이 sigmoid- NLMS에 비해 빠른 수렴 속도를 보인다. 이때, 볼테라 필터는 스피커 모듈의 비선형 특성을 모델링하기 위해서는 높은 차수가 요구된다.[7] 하지만 본 실험에서는 2차의 볼테라 필터를 사용하였기 때문에 스피커의 비선형 특성을 충분히 모델링하지 못하고 NLMS와 유사한 수렴 성능을 보이는 것을 관찰할 수 있다.
|
Fig. 4. ERLE curves for changing acoustic echo path; (a) without nonlinear distortion, (b) with speaker distor-tion being modelled using sigmoid function ( |
다음은 3 × 4 × 2.5 m2의 사무실 환경에서 실제 녹음된 TIMIT database의 음성 신호로 스피커 모듈의 비선형 특성이 발생하도록 높은 볼륨으로 신호를 출력하였을 때의 결과를 보이고 있다. 이때, 각 알고리즘들의 파라미터들은 Fig. 4와 동일하게 사용하였다.
Fig. 5에서 입력 신호가 큰 0에서 1 s 사이의 신호를 보면 스피커 모듈의 비선형 특성으로 인하여 비선형 전처리기를 사용하는 sigmoid-NLMS와 제안 알고리즘이 NLMS와 볼테라 필터에 비해 높은 ERLE를 가지는 것을 관찰할 수 있다. 이때, 제안 알고리즘은 주파수 영역 알고리즘이기 때문에 시간 영역 알고리즘보다 초기 빠른 수렴 속도를 가지는 것을 확인할 수 있다. 반면, 스피커 모듈의 비선형 특성이 발생하지 않을 정도의 작은 크기의 신호에 대해서는 선형 알고리즘과 유사한 수렴 성능을 보인다. 다음은 스피커 모듈의 비선형 특성이 발생하는 0 ~ 1.5 s 사이에서 각 알고리즘들의 에러 신호를 시간 영역에서 관찰한 결과를 보이고 있다.
|
Fig. 5. ERLE curves for recorded real speech under the speaker nonlinearity. |
|
Fig. 6. Error signals in time domain; (a) NLMS, (b) Volterr filter, (c) sigmoid-NLMS, and (d) proposed. |
Fig. 6으로부터 sigmoid-NLMS와 제안 알고리즘은 NLMS와 볼테라 필터에 비해 큰 입력 신호에 대해서 높은 반향 신호 제거 성능을 보이는 것을 관찰할 수 있다. 또한, Fig. 6 (c)와 (d)로부터 sigmoid-NLMS와 제안 알고리즘의 반향 제거 성능이 유사함을 확인할 수 있다.
Table 1과 Figs. 4에서 6의 결과들로부터 제안 알고리즘은 적은 연산량으로 기존 알고리즘들에 비해 빠른 수렴 속도와 유사한 정상 상태 및 반향 제거 성능을 보임을 확인할 수 있다. 따라서 제안 알고리즘은 스피커의 비선형 특성에 강인하게 대처할 수 있을 뿐만 아니라 긴 음향 반향 경로를 가지는 실제 통신 환경에서 적합하다.





: filter order,
: number of partition,
: block size,
: 2nd kernel size of Volterra filter,
: c times exponential operations].













) (a) sigmoid function according to the different
and (b) learning curves of
.
and
), and (c) hyperbolic tangent.

