The Journal of the Acoustical Society of Korea. 31 May 2015. 177-183
https://doi.org/10.7776/ASK.2015.34.3.177

ABSTRACT


MAIN

  • I. 서 론

  • II. 기존연구

  •   2.1 Sigmoid 비선형 전처리기 기반 NAEC

  •   2.2 PB-FDAF 알고리즘

  • III. Sigmoid 전처리기 기반 PB-FDAF

  • IV. 실험 및 결과

  • V. 결 론

I. 서  론

음성 통신 환경에서 양방향 오디오 서비스는 스피커로부터 출력되는 음향 신호가 음향 공간에 의해 형성된 경로를 거쳐 다시 마이크로 유입되어 발생하는 음향 반향은 선형적인 특성을 가지고 있기 때문에 선형 적응 필터기반의 음향 반향 제거기(Acoustic Echo Canceller, AEC)를 사용하여 제거할 수 있다.[1] 하지만 최근 음성 통신 장치의 소형화 추세에 따라 오디오 시스템을 구성하는 소자들의 비선형 특성이 전체 적인 음향 반향에 미치는 영향이 커지고 있으며, 이는 선형 AEC를 사용하여 제거할 수 없다. 따라서 오디오 소자의 비선형 특성을 효과적으로 모델링할 수 있는 비선형 음향 반향 제거기(Nonlinear Acoustic Echo Canceller, NAEC)를 필요로 한다.[2]

NAEC를 위한 대표적인 비선형 필터로는 볼테라 필터(Volterra filter)와 파워 필터(power filter)들이 있다.[3,4] 이들 비선형 필터는 오디오 소자의 비선형 특성과 음향 반향 경로를 동시에 모델링하여 음향 반향을 제거한다. 하지만 필터 차수가 증가함에 따라 높은 연산 복잡도와 느린 수렴 속도를 가지며 시스템의 안전성을 보장할 수 없는 문제가 발생한다.[5] 한편 시스템 소자의 대부분의 비선형 특성은 스피커 모듈에서 발생한다는 사실을 바탕으로 비선형 전처리기와 시간영역 선형 적응 필터를 결합하여 시스템 소자의 비선형 특성과 음향 경로를 각각 모델링하는 방법이 제안되었다.[5,6] 비선형 전처리기로 볼테라 필터와 파워 필터와 같은 비선형 필터를 사용할 수 있는데, 이 경우 스피커 모듈의 비선형 특성을 모델링하기 위해서는 높은 차수가 요구되어 연산 복잡도 및 수렴 속도의 문제가 발생한다. 이에 스피커의 비선형 특성을 효과적으로 모델링하기 위한 비선형 전처리기로 메모리가 필요 없는 sigmoid함수를 사용하는 방법이 제안되었다.[7]

실제 음향 환경에서는 상당히 긴 음향 경로를 가지기 때문에 음향 경로 추정을 위해 높은 차수의 적응 필터를 사용해야 한다. 이런 문제는 sigmoid함수를 사용하는 Reference [7]의 방법에서도 마찬가지로 발생한다. 한편 주파수 영역 적응 필터(Frequency Domain Adaptive Filter, FDAF)는 시간 영역 적응 필터에 비해 적은 연산 복잡도로 빠른 수렴 속도를 가진다.[8] 하지만 필터 차수만큼의 시간 지연으로 인해 긴 음향 경로 환경에서는 통화 품질에 심각한 문제를 야기 시킬 수 있다. 따라서 파티션 블록 주파수 영역 적응 필터(Partitioned Block FDAF, PB-FDAF)를 사용하여 시간 지연 및 연산량 문제를 해결할 수 있다.[9]

이에 본 논문에서는 스피커의 비선형 특성이 빈번히 발생하는 실제 음향 환경에 강인하게 대처하기 위해 블록 평균 제곱 오차(Mean Square Error, MSE)를 최소화하기 위한 비선형 전처리기와 선형 필터의 계수 갱신 식을 도출하였습니다. 이때, 변형된 sigmoid 함수 블록 비선형 전처리기는 블록 LMS(Least Mean Square) 알고리즘을 이용하여 적응적으로 갱신함으로써 스피커 모듈의 비선형 특성을 효과적으로 모델링하며, 실제 음향 환경에 적합한 PB-FDAF를 사용하여 적은 시간 지연과 연산 복잡도로 안정적으로 음향 경로를 추정하는 방법을 제안한다.

본 논문의 구성은 II장에서 sigmoid함수를 사용하는 비선형 전처리기 기반 NAEC와 PB-FDAF에 대해서 설명하고, III장에서 제안하는 sigmoid전처리기 기반 PB-FDAF 알고리즘을 보인다. IV장에서 실험을 통해 제안 알고리즘의 성능을 평가하고 마지막으로 V장에서 결론을 맺는다.

II. 기존연구

2.1 Sigmoid 비선형 전처리기 기반 NAEC

Fig. 1은 비선형 전처리기 기반 NAEC 블록선도를 보이고 있다. 전송 신호 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5AA7.gif은 비선형 특성을 가지는 스피커 모듈을 통해 출력되어 음향 반향 경로를 거친 반향 신호는 배경 잡음 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5AF6.gif과 함께 마이크로폰 모듈에 입력된다. 마이크 입력 신호 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5B26.gif은 비선형 전처리기 기반 NAEC를 통해 추정된 반향 신호 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5B46.gif를 뺀 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5B86.gif을 전송한다. 이때 비선형 전처리기 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5B97.gif는 다음 sigmoid함수를 사용한다.[7]

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5C72.png

Fig. 1. Block diagram of nonlinear acoustic echo canceller based on nonlinear pre-processor.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5CD1.gif, (1)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5CE2.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5CF2.gif는 비선형 상수로 각각 스피커의 증폭과 클리핑 크기를 조절하는 상수이다. 에러 신호 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5D51.gif은 다음과 같다.[7]

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5ED9.gif, (2)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5EF9.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5F38.gif은 각각 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5F49.gif차 적응 필터의 계수 벡터와 입력 벡터이다. http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5F89.gif을 최소화하기 위한 MSE http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC5FB8.gif는 다음과 같다.[10]

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6085.gif, (3)

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC60A5.gif을 최소화하기 위한 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC60C5.gif, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC60C6.gif 그리고 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC60E6.gif의 최적 해(optimum solution)를 얻기 위해 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC60F7.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6108.gif 는 LMS 알고리즘을 이용하여 적응적으로 갱신함으로써 스피커 모듈의 증폭과 클리핑 크기를 모델링한다.[7] 다음으로 선형 적응 필터의 계수 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6137.gif의 최적 해는 NLMS 알고리즘을 이용하여 음향 경로를 추정한다. 이때, 적응 필터의 입력 벡터는 비선형 전처리기의 출력 신호를 이용한다.

2.2 PB-FDAF 알고리즘

PB-FDAF의 필터 출력 신호 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6177.gif은 다음과 같이 표현된다.[9]

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC632D.gif, (4)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6409.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6439.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC64E6.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6516.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6536.gif번째 파티션의 계수 벡터와 입력 벡터이다. http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6537.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6557.gif은 각각 파티션 수와 파티션 사이즈로 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6587.gif과 같다. 각 파티션 블록에 대한 컨벌루션 연산을 주파수 영역에서 수행하면 다음출력 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC65B7.gif을 얻을 수 있다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6616.gif, (5)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6636.gif은 블록 인덱스이다. http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC66A4.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC66E4.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6714.gif은 각각 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6744.gif번째 파티션에 대한 주파수 영역 입력 신호 행렬과 계수 벡터이다. 이때, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6764.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6765.gif는 각각 DFT와 대각 행렬이며, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6795.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC67E4.gif, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6872.gif 이고, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC68B1.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC692F.gif이다. 필터 출력 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC694F.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC697F.gif에 오버랩 세이브(overlap-save) 기법을 적용하여 얻을 수 있으며, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6980.gif은 역 DFT 행렬이다. 다음은 시간 영역 에러 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC69B0.gif을 보이고 있다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6A0F.gif, (6)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6AAC.gif은 주 신호 벡터이다. 주파수 영역 에러 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6B1A.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6B5A.gif를 이용하여 주파수 영역 적응 필터의 계수 벡터를 다음과 같이 적응적으로 갱신한다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6D20.gif, (7)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6D50.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6DBE.gif는 각각 수렴상수와 Hermitian 연산자이며, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6E2D.gif이다. http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6E7C.gif이며, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6E9C.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6ECC.gif의 파워로 1차의 IIR 필터로 추정한다.

III. Sigmoid 전처리기 기반 PB-FDAF

제안 알고리즘은 스피커의 비선형 특성을 모델링하기 위한 비선형 전처리기로 sigmoid 함수를 사용하며, 음향 경로 추정을 위한 선형 적응 필터로 PB-FDAF 알고리즘을 사용함으로써 스피커의 비선형 특성이 발생하는 실제 음성 통신 환경에 효율적으로 대처할 수 있다.

다음은 제안 알고리즘의 출력 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6EFC.gif을 보이고 있다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6F6A.gif, (8)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC6FB9.gif은 s비선형 전처리기가 적용된 입력 행렬이다. Eq.(8)를 이용하여 Eq.(3)의 샘플 단위 MSE를 블록 단위 MSE로 다시 정리 하면 다음과 같다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7066.gif, (9)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7103.gif이며, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7162.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7182.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC71A3.gif이다. 다음 Fig. 2는 스피커 모듈의 비선형 특성과 음향 반향 경로 그리고 비선형 전처리기와 적응 필터의 구조를 보이고 있다.

제안 NAEC의 적응 필터는 Fig. 2와 같이 스피커 모듈의 클리핑 크기를 조절하는 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC71B3.gif와 음향 반향 경로 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC71D4.gif를 동시에 모델링하며 다음과 같이 표현할 수 있다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7213.png

Fig. 2. Block diagram of (a) the speaker module with acoustic echo path and (b) nonlinear function with adaptive filter.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC72C0.gif. (10)

이에 제안 비선형 전처리기는 스피커 모듈의 증폭에 대한 변수 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC72D1.gif에 대해서만 적응적으로 갱신함으로써 스피커 모듈의 비선형 특성을 모델링한다. 다음은 변형된 sigmoid 함수이다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC733F.gif. (11)

LMS 알고리즘을 이용하여 Eq.(9)를 최소로 하기 위한 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7350.gif 갱신 식은 다음과 같다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC75E1.gif, (12)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC75F1.gif는 수렴 상수이며, 전처리기 출력 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7650.gif부터 PB-FDAF의 출력 벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7680.gif까지 연산들은 모두 선형 연산이기 때문에 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC76B0.gif에 대한 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC76FF.gif의 편미분은 다음과 같이 표현할 수 있다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC77BC.gif, (13)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC782A.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC782B.gif에 대해서 열벡터 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC78B9.gif을 편미분한 것으로 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC78D9.gif번째 원소는 다음과 같다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7995.gif, (14)

스피커의 비선형 특성은 시불변한 특성을 가지기 때문에 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC79A6.gif 시간 동안에는 변하지 않는 다고 가정할 수 있다. 따라서 Eq.(13)을 얻기 위해 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC79A7.gif개의 입력 벡터 에 대해서만 Eq.(14)를 적용하여 얻는다. 제안 비선형 전처리기는 스피커 모듈의 증폭에 대해서만 고려하며, 지수함수를 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC79B8.gif개의 입력 벡터에 적용함으로써 기존 sigmoid 전처리기에 비해 적은 계산 복잡도를 가진다.

선형 적응 필터를 위한 PB-FDAF는 비선형 전처리기 출력 신호를 입력 신호로 하므로 PB-FDAF의 계수 갱신 식 Eq.(7)을 다시 표현하면 다음과 같다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7AC2.gif, (15)

여기서 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7B11.gif이며, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7B51.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7B71.gif의 파워로 1차의 IIR 필터를 이용하여 추정한다.

IV. 실험 및 결과

제안 알고리즘의 실효성을 검증하기 위해 제안 알고리즘과 기존 비선형 알고리즘인 볼테라 필터와 비선형 전처리기로 sigmoid함수를 사용하고 선형 필터로 NLMS를 사용하는 sigmoid-NLMS를 필터 차수에 대한 연산 복잡도를 다음 Table 1에 정리 하였다.

Table 1로부터 필터 차수는 2048, 파티션 수는 8이고, 볼테라 필터의 2차 커널 사이즈를 256 샘플에 대해서만 적용하면, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7B91.gif는 32896이 된다. 이때 볼테라 필터, sigmoid-NLMS 그리고 제안 알고리즘의 계산 복잡도는 각각 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7BA2.gif, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7BC2.gif 그리고 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7BE2.gif이 된다. 따라서 기존 비선형 음향반향 제거기인 볼테라 필터와 sigmoid-NLMS는 제안 알고리즘에 비해 필터 차수가 증가함에 따라 높은 계산 복잡도를 가진다. 비선형 전처리기에 의한 계산 복잡도를 비교하면 필터 차수와 파티션 수가 위와 동일하게 각각 2048과 8일 일 때 sigmoid-NLMS와 제안 알고리즘의 비선형 전처리기 계산 복잡도는 각각 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7C12.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7C23.gif이다. 이것으로부터 제안 알고리즘은 기존 비선형 전처리기에 비해 높은 필터 차수에서도 상당히 적은 계산 복잡도를 가짐을 확인할 수 있다. 그러므로 긴 음향 경로를 가지는 음성 통신 환경에서 sigmoid-NLMS 비해 제안 알고리즘이 적합함을 확인하였다.

Table 1. Complexity comparison between AEC and NAEC algorithms [http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7C43.gif: filter order, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7C44.gif : number of partition, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7C64.gif: block size, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7CB4.gif: 2nd kernel size of Volterra filter, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7D03.gif: c times exponential operations].

Volterra Filter

sigmoid-

NLMS

Proposed

Pre

processor

-

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7D33.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7D62.gif

Pre-proc. update

-

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7D92.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7E3F.gif

Filter 

output

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7E9E.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7ECE.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7EFE.gif

ADF

 update

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7F5C.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC7F8C.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC800A.gif

Total

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8079.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC80E7.gif

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8194.gif

제안 비선형 전처리기의 수렴 성능을 검증하기 위해 서로 다른 네 가지의 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC81F3.gif를 가지는 비선형 모델 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8232.gif에 대한 실험을 수행하였다. 이때 수렴 상수 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8252.gif는 0.2를 사용하였다. 스피커의 비선형 왜곡을 sigmoid 함수로 모델링한 후 제안한 비선형 전처리기 Eq.(12)가 얼마나 정확하게 비선형 왜곡을 추정하는지 실험하였다. 실험을 위한 음향 경로는 1024차를 사용하였으며, 입력 신호는 음성 신호와 유사한 스펙트럼을 가지도록 모델링하기 위해 all-pole 필터인 AR(Auto Regressive) 프로세서를 사용하였으며, 다음과 같다.[10]

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC831F.gif, (16)

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC838D.gif은 백색잡음이고, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC83AD.gif는 AR 프로세서의 차수로 12를 사용하였다. 제안 비선형 전처리기의 수렴 성능을 다음 Fig. 3에 보이고 있다.

Fig. 3의 결과는 제안된 비선형 전처리기가 임의의 비선형 계수 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC83CD.gif에 잘 수렴함을 보여준다. 이로부터 제안한 비선형 전처리기가 충분히 비선형성을 충분히 추정할 수 있음을 확인할 수 있다.

실제 음향 반향 실험을 위해 사무실 환경의 음향 반향 경로의 임펄스 응답을 16 kHz 샘플링 주파수로 측정하였다. 반향 경로 임펄스 응답의 길이는 2048 샘플로 하였다. 선형 AEC의 필터 차수 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC847E.gif은 측정 음향 방향 경로와 동일한 2048를 사용하였으며, 파티션 수 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC848F.gif는 8로 하고 파티션의 블록 크기 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC84BF.gif는 256를 사용하였다. 제안 알고리즘의 성능을 평가하기 위해 NLMS, 볼테라 필터 그리고 sigmoid-NLMS와 비교하였다. 각 알고리즘들의 수렴 상수들은 스피커의 비선형 특성이 없는 정상적인 환경에서 동일한 정상 상태를 가지도록 결정하였다. 선형 알고리즘들인 NLMS의 수렴 상수는 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC84DF.gif로 하였으며, 비선형 알고리즘들인 볼테라 필터의 1차와 2차 커널의 수렴 상수는 각각 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC84E0.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC84F1.gif을 사용하였고, sigmoid-NLMS의 수렴 상수들은 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8501.gif, http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8502.gif 그리고 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8513.gif로 하였다. 제안 알고리즘의 수렴 상수들은 http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8524.gifhttp://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC8525.gif을 사용하였다. 음향 반향 제거 성능을 확인하기 위해 ERLE(Echo Return Loss Enhancement)를 측정하였으며 다음과 같다.[1]

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC83EE.png

Fig. 3. Convergence behaviour of the pre-processor (http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC840E.gif) (a) sigmoid function according to the different http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC842E.gif and (b) learning curves of http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC845E.gif.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC85F1.gif. (17)

Fig. 4는 20차의 AR 프로세스로 모델링된 입력 신호를 사용하였을 때의 ERLE 결과를 보이고 있다.

위의 결과로부터 스피커 모듈의 비선형 특성이 없는 정상적인 환경인 Fig. 4(a)에서는 제안 알고리즘이 빠르게 정상 상태에 도달하고 모든 알고리즘들이 동일한 정상 상태를 갖는 것을 관찰할 수 있다. 반면, 실제 스피커 모듈의 비선형 왜곡을 각각 sigmoid함수와 하이퍼볼릭 탄젠트(hyperbolic tangent)로 모델링하였을 때의 결과를 Fig. 4 (b)와 (c)에 보이고 있다. (b)와 (c)의 결과로부터 비선형 전처리기를 사용하는 sigmoid- NLMS와 제안 알고리즘이 NLMS와 볼테라에 비해 높은 ERLE를 보이며, 또한 제한 알고리즘이 sigmoid- NLMS에 비해 빠른 수렴 속도를 보인다. 이때, 볼테라 필터는 스피커 모듈의 비선형 특성을 모델링하기 위해서는 높은 차수가 요구된다.[7] 하지만 본 실험에서는 2차의 볼테라 필터를 사용하였기 때문에 스피커의 비선형 특성을 충분히 모델링하지 못하고 NLMS와 유사한 수렴 성능을 보이는 것을 관찰할 수 있다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC865F.png

Fig. 4. ERLE curves for changing acoustic echo path; (a) without nonlinear distortion, (b) with speaker distor-tion being modelled using sigmoid function (http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC869F.gif and http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC86BF.gif), and (c) hyperbolic tangent.

다음은 3 × 4 × 2.5 m2의 사무실 환경에서 실제 녹음된 TIMIT database의 음성 신호로 스피커 모듈의 비선형 특성이 발생하도록 높은 볼륨으로 신호를 출력하였을 때의 결과를 보이고 있다. 이때, 각 알고리즘들의 파라미터들은 Fig. 4와 동일하게 사용하였다.

Fig. 5에서 입력 신호가 큰 0에서 1 s 사이의 신호를 보면 스피커 모듈의 비선형 특성으로 인하여 비선형 전처리기를 사용하는 sigmoid-NLMS와 제안 알고리즘이 NLMS와 볼테라 필터에 비해 높은 ERLE를 가지는 것을 관찰할 수 있다. 이때, 제안 알고리즘은 주파수 영역 알고리즘이기 때문에 시간 영역 알고리즘보다 초기 빠른 수렴 속도를 가지는 것을 확인할 수 있다. 반면, 스피커 모듈의 비선형 특성이 발생하지 않을 정도의 작은 크기의 신호에 대해서는 선형 알고리즘과 유사한 수렴 성능을 보인다. 다음은 스피커 모듈의 비선형 특성이 발생하는 0 ~ 1.5 s 사이에서 각 알고리즘들의 에러 신호를 시간 영역에서 관찰한 결과를 보이고 있다.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC86FE.png

Fig. 5. ERLE curves for recorded real speech under the speaker nonlinearity.

http://static.apub.kr/journalsite/sites/ask/2015-034-03/N0660340301/images/PIC874D.png

Fig. 6. Error signals in time domain; (a) NLMS, (b) Volterr filter, (c) sigmoid-NLMS, and (d) proposed.

Fig. 6으로부터 sigmoid-NLMS와 제안 알고리즘은 NLMS와 볼테라 필터에 비해 큰 입력 신호에 대해서 높은 반향 신호 제거 성능을 보이는 것을 관찰할 수 있다. 또한, Fig. 6 (c)와 (d)로부터 sigmoid-NLMS와 제안 알고리즘의 반향 제거 성능이 유사함을 확인할 수 있다.

Table 1과 Figs. 4에서 6의 결과들로부터 제안 알고리즘은 적은 연산량으로 기존 알고리즘들에 비해 빠른 수렴 속도와 유사한 정상 상태 및 반향 제거 성능을 보임을 확인할 수 있다. 따라서 제안 알고리즘은 스피커의 비선형 특성에 강인하게 대처할 수 있을 뿐만 아니라 긴 음향 반향 경로를 가지는 실제 통신 환경에서 적합하다.

V. 결  론

본 논문은 sigmoid 비선형 전처리기와 파티션 블록 주파수 영역 적응 필터를 결합한 형태의 비선형 음향 반향 제거 알고리즘을 제안한다. 실험을 통해 제안 알고리즘은 기존 비선형 반향 제거 알고리즘들에 비해 적은 연산량으로 우수한 성능을 보임을 검증함으로써 스피커의 비선형 특성이 발생하는 실제 음향 환경에 적합함을 확인하였다.

References

1
1.S. J. Elliott and P. A. Nelson, “Acoustic echo control; an application of very-high-order adaptive filters,” IEEE Signal Process. Mag. 16, 12-35 (1999).
2
2.B. S. Nollett and D. L. jones, “Nonlinear echo cancellation for handsfree speakerphones,” in Proc. IEEE Workshop on Nonlinear Signal Image Process. (NSIP), Mackinac Island, MI, Sep. 8-10 (1997).
3
3.A. Stenger and R. Rahenstein., “Adaptive volterra filters for acoustic echo cancellation,” in Proc. IEEE-EURASIP Work-shop on Nonlinear Signal and Image Process. 2, 679-683 (1999).
4
4.F. Kuech and W. Kellermann, “Orthogonalized power filters for nonlinear acoustic echo cancellation,” Signal Process. 86, 1168-1181 (2006).
5
5.J. P. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 5, pp. V389-V392 (2003).
6
6.A. Stenger and W. Kellermann, “Nonlinear acoustic echo cancellation with fast converging memoryless pre-processor,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2, II805-II808 (2000).
7
7.J. Fu and W. Zhu, “A nonlinear acoustic echo canceller using sigmoid transform in conjunction with RLS algorithm,” IEEE Trans. Circuits Syst. II, Exp. Briefs, 55, 1056-1060 (2008).
8
8.J. J. Shynk, “Frequency-domain and multirate adaptive filtering,” IEEE Signal Process. Mag. 9, 14-37 (1992).
9
9.J. P. Borrallo and M. G. Otero, “On the implementation of a partitioned block frequency domain adaptive filter (pbfdaf) for long acoustic echo cancellation,” Signal Process. 27, 301-315 (1992).
10
10.S. Haykin, Adaptive Filter Theory, 4th ed. (Prentice-Hall, New Jersey, 1996), pp. 46-51, 100-101.
페이지 상단으로 이동하기