The Journal of the Acoustical Society of Korea. 30 September 2017. 345-352
https://doi.org/10.7776/ASK.2017.36.5.345

ABSTRACT


MAIN

  • I. 서 론

  • II. TDOA 기반의 음원 위치 추정 알고리즘

  •   2.1 TDOA를 이용한 각도 추정 방법

  •   2.2 TDOA 추정을 위한 샘플링 주파수와마이크로폰 간의 간격

  • III. TDOA의 정확성 향상 방법

  •   3.1 업샘플링(Up-Sampling)

  •   3.2 조정 응답 파워 방법을 사용한 폐루프 예측

  •   3.3 음성 구간 검출

  • IV. 성능 평가

  •   4.1 실험 환경

  •   4.1.1 입력 신호 모델링

  •   4.1.2 음원 위치 설정

  •   4.2 성능 평가

  • V. 결 론

I. 서  론

최근 마이크로폰 어레이를 이용한 음원의 위치 추정 및 음질 향상을 위한 연구가 꾸준히 진행되고 있다. 화자의 위치를 파악하는 지능형 로봇 시스템,[1,2] 화상회의 시스템,[3,4] CCTV와 연동된 보안 시스템[5,6] 등 다양한 분야에서 음원의 위치 추정 방법이 사용되고 있다. 그러나 잔향이나 잡음이 존재하는 사용 환경이 음원의 위치 추정 성능을 감소시키고, 단말기의 크기에 따라 마이크로폰 어레이를 구성하는 마이크로폰 개수가 제한되어 진다.

마이크로폰 어레이를 이용한 음원의 위치 추정 방법 중 각 마이크로폰에 도착하는 신호의 도착 지연 시간을 보상하고, 그 신호들의 합을 통하여 위치를 추정하는 빔포밍 방법 등은 많은 연산량이 사용되고, 우수한 성능을 위해서는 많은 수의 마이크로폰이 요구된다.[7] 또한, MUSIC(Multiple Signal Classi- fication) 알고리즘[8] 등과 같이 각 마이크로폰에 수신된 신호들의 상관 행렬의 스펙트럼 분석을 기반으로 하는 방법은 협대역 신호에 대하여 고안된 방법으로 광대역 신호인 음성 신호를 다루기 위한 부가적 연산과 고유치 분해에 따른 많은 연산량이 요구된다. 반면 GCC-PHAT(Generalized Cross Correlation with Phase Transform) 방법은 TDOA(Time -Difference of Arrival) 기반으로, 지연시간 추정에 따라 발생하는 쌍곡선의 교차점을 통해 음원의 위치를 추정하는 방법으로,[9,10] 비교적 간단하여 연산량이 적고, 최소 두 개의 마이크로폰으로도 측정이 가능하여 다양하게 사용되고 있다.[11]

본 논문에서는 잔향과 잡음이 존재하는 환경을 모델링하여 두 개의 마이크로폰을 이용한 음원 위치 추정의 정확성을 향상시키는 방법을 제안한다. 샘플링 주파수 제한으로 인한 측정 범위를 벗어나는 프레임은 업셈플링을 이용하여 도착 지연 시간을 재 추정하였다. 추정된 지연 시간은 미리 구해진 Time-table을 참조하여 주변 후보 위치의 지연 값들을 토대로 입력 신호를 지연 시간만큼 딜레이 시킨 후 합을 구해 각각의 파워 값을 비교함으로써, 최대 파워 값을 갖는 지연 시간을 선택하였으며, 프레임간의 상관성을 이용하여 연속된 음성 프레임의 경우 큰 추정 차가 발생하는 곳을 찾아 주변 프레임의 평균값으로 대체하여 음원 위치 추정의 정확성을 향상시켰다. 또한 마이크로폰에 입력되는 신호를 음성과 비음성 구간으로 구분하여 위치 추정 알고리즘을 수행함으로써 음원 위치 추정 성능 저하의 원인을 감소시켰다.

II. TDOA 기반의 음원 위치 추정 알고리즘

2.1 TDOA를 이용한 각도 추정 방법

마이크로폰 어레이를 구성하는 각 마이크로폰 간 신호의 도착 지연 시간 추정 방법에서 음원 위치 추정은 지연 시간을 추정하는 단계와 음원의 위치를 찾는 단계로 나누어진다. Fig. 1은 한 개의 음원과 두 개의 마이크로폰이 있을 경우 지연 시간의 발생을 나타내고 있다. 음원으로부터 음속으로 신호가 입력될 때 MIC 1보다 MIC 2에 신호가 먼저 입력된다. 이때 MIC 2에 신호가 입력된 시점부터 MIC 1에 신호가 입력될 때까지의 거리(http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC955.gif)에 해당하는 시간이 지연된다. 도착 지연 시간을 구하게 되면 삼각법에 의하여 음원의 각도를 추정하게 된다. 지연 시간 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC966.gif는 Eq. (1)과 같이 신호가 더 이동해야 하는 거리인 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC967.gif를 음속 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC968.gif로 나눈 값이다. 이를 음원의 각도에 관하여 Eq. (2)와 같이 정리하면 최종적으로 음원의 위치를 추정하게 된다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F1.jpg
Fig. 1.

Microphone array and sound source.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC979.gif. (1)

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC97A.gif. (2)

2.2 TDOA 추정을 위한 샘플링 주파수와마이크로폰 간의 간격

TDOA 추정에 있어서 샘플링 주파수와 마이크로폰 어레이 사이의 관계는 변환된 이산 신호의 측정 가능한 범위를 결정하는데 이용된다. Fig. 1의 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC98A.gif는 음원의 위치가 0 ° 혹은 180 °에 위치하였을 경우 마이크로폰 사이의 최대 거리차가 된다. 이 최대값은 지연 시간 추정의 값의 유효한 범위를 나타내는데 이용된다. Eq. (3)은 샘플링 주파수와 마이크로폰 사이의 거리가 주어졌을 때 측정 가능한 최대 지연 샘플을 의미한다.

샘플링 주파수가 16 kHz이고 마이크로폰 사이의 거리가 0.5 m인 경우 Eq. (3)에 의하여 최대 측정 가능 지연 샘플은 23이 되며, 이에 따라 측정 가능 범위는 -23~23으로 총 47개의 지연 값을 가지게 되며, 각각 0 °~180 °를 47 등분하여 매핑된다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC98B.gif. (3)

2.3 GCC(Generalized Cross-Correlation)

시간 영역의 상호상관함수는 주파수 영역의 상호 파워 스펙트럼 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC98C.gif와 퓨리에 변환 관계를 갖는다. 실내 공간에서 음원 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC99D.gif와 잡음 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC99E.gif에 의해 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC99F.gif번째 마이크로폰에 입력되는 신호 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9B0.gifhttp://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9B1.gif은 Eqs. (4)와 (5)로 모델링 된다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9C1.gif. (4)

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9C2.gif. (5)

이때, http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9C3.gif는 실내 임펄스 응답을 나타낸다. 위와 같이 모델링된 신호의 상관 함수를 상호 파워 스펙트럼과 퓨리에 변환 관계를 이용하여 표현하면 Eq. (6)과 같이 표현된다. 이상 신호 형태의 마이크로폰 출력신호를 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9D4.gif-포인트 DFT(Discrete Fourier Transform)로 구한 이산 스펙트럼 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9D5.gif를 곱하여 Eq. (7)과 같이 상호 파워 스펙트럼을 구할 수 있다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9E5.gif. (6)

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9E6.gif. (7)

지연 시간 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9F7.gifhttp://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9F8.gif를 최대가 되게 하는 값을 의미한다. Fig. 2는 GCC 함수의 TDOA 추정 과정을 나타낸 블록도이고, Fig. 3은 GCC 함수의 결과를 나타내고 있다. Fig. 3에서 알 수 있듯이 피크값이 존재하지만, 퍼짐 현상을 확인할 수 있다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F2.jpg
Fig. 2.

TDOA block diagram of GCC.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F3.jpg
Fig. 3.

Peak detection using GCC.

GCC 함수는 Eqs. (8)과 (9)와 같이 PHAT 프리필터 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PIC9F9.gif를 사용하여 계산한다.[12] 프리필터는 잔향에 따른 다중 경로로 인한 상관 함수의 피크 값 퍼짐 현상과 잡음 간섭으로 인한 피크 값의 부정확성을 억제하기 위하여 적용된다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA0A.gif. (8)

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA0B.gif. (9)

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA1B.gif. (10)

GCC 함수의 다양한 프리필터 중 PHAT는 잔향에 의한 퍼짐 현상을 억제하는데 우수한 성능을 가지지만, 신호 대 잡음비가 낮은 주파수 영역을 강조하기 때문에 잡음에 취약하다. 반면에 다른 필터들은 잡음의 영향을 줄이는 특성을 가지고 있지만, 잔향에는 취약한 성능을 가진다. 따라서 잔향이 존재하는 실내 환경에 적용하는 경우 PHAT가 일반적으로 가장 많이 사용되고 있다.

III. TDOA의 정확성 향상 방법

GCC-PHAT 함수를 이용하여 TDOA를 구하는 방법은 추정에 이용되는 데이터가 많을수록 정확성이 향상되지만, 음원의 위치의 변화를 실시간으로 추적하기에는 적절하지 않다. 따라서 제안하는 알고리즘은 실시간으로 음원의 위치를 추정하며, 적은 계산량으로 정확한 위치를 추정하기 위한 알고리즘을 제안한다. 실시간 위치 인식 가능한 저계산량 GCC -PHAT 알고리즘에 위치 인식 정확도를 높이기 위해 업샘플링 방법, 조정응답 파워 방법, VAD(Voice Activity Detection) 기능을 결합하는 방법을 제안한다. 업샘플링 방법을 사용하여 위치 인식 분해능을 높였고 위치 인식 정확도를 더욱 높이기 위해 조정 응답 파워 방법을 사용하여 GCC-PHA에서 예측된 지연 예측 값의 주변 9개의 후보 중 응답 파워 값을 최대로 갖는 지연 값을 최종 예측 지연으로 결정한다. 또한 각 마이크로폰에 입력된 신호에 VAD를 적용하여 음성 구간을 검출하고, 검출된 음성 구간의 신호를 프레임 단위로 나누어 TDOA 추정을 수행한다. 실제 음성이 존재하지 않는 묵음 구간에서 위치 인식을 수행하지 않고 음원이 존재하는 프레임에서만 위치 인식 알고리즘을 수행함으로써 위치 인식의 정확도를 높인다.

음성 신호는 프레임 단위로 FFT를 취한 후 GCC- PHAT 알고리즘을 수행한다. GCC-PHAT를 이용하여 측정 가능 범위를 벗어난 지연 시간이 검출되면, 해당 프레임을 업샘플링하여 측정 가능 범위를 증가시켜 다시 TDOA 추정을 수행한다. 검출된 음원 위치는 프레임의 연속성을 고려하여 버퍼에 저장된 음원 위치 추정 값과의 비교를 통하여 최종 음원 위치를 추정한다. Fig. 4는 제안하는 알고리즘을 나타내고 있다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F4.jpg
Fig. 4.

Proposed algorithm.

3.1 업샘플링(Up-Sampling)

샘플링 주파수는 측정 가능한 지연 샘플의 최대값과 관련이 있다. 이 최대값에 의한 측정 범위 -max ~ max의 각 지연 샘플들은 측정하고자 하는 각도 범위인 0° ~ 180°에 각각 매핑된다. 즉, 측정 가능 범위의 지연 샘플들은 각도의 해상도를 나타낸다. TDOA를 추정하는데 있어서 입력 신호 데이터의 증가는 신호의 유사성을 비교함에 있어서 더 정확한 측정 값을 가질 뿐만 아니라, 측정 가능한 최대 지연 샘플의 증가로 인한 각도에 대한 해상도를 증가시킨다.

오디오 신호의 업샘플링 과정은 오디오 데이터 사이 에 영의 값을 넣어 데이터 수를 늘리고 저주파통과 필터를 통과하여 얻는다.

본 논문에서의 실험 환경 조건인 16 kHz의 샘플링 주파수에서는 최대 지연 샘플 값이 23으로 총 47개의 지연 샘플들을 가지고 있다. 이때, 업샘플링하여 샘플링 주파수를 2배 증가시키면 최대 지연 샘플 값이 47로 증가하게 되고, -47 ~ 47 범위의 지연 샘플들을 가지게 된다. Table 1은 16 kHz의 샘플링 주파수를 사용하였을 때 지연 샘플 값에 따른 주파수 매핑 상황을 나타내고, Table 2는 2배로 업샘플링하였을 때의 지연 샘플 값과 그에 따른 주파수 매핑을 나타낸다. 0에 가까운 지연샘플일수록 각도의 변화가 적고 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA1C.gif에 가까운 지연샘플은 각도의 변화가 더 크다.

Table 1. Delay sample and angle mapping.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Table_ASK_36_05_08_T1.jpg

Table 2. Delay sample and angle mapping after up-sampling.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Table_ASK_36_05_08_T2.jpg

3.2 조정 응답 파워 방법을 사용한 폐루프 예측

마이크로폰의 위치와 샘플링 주파수를 알고 있을 경우 임의의 위치에서 발생된 음원에 의한 시간 지연을 미리 구할 수 있다. 고정된 마이크로폰 어레이의 위치와 임의의 음원 위치를 각각 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA2D.gif, http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA2E.gif으로 표현하면, Eq. (11)을 이용하여 음원의 위치에 따른 지연 값을 미리 구할 수 있다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA3F.gif. (11)

GCC-PHAT를 이용해 구해진 값이 Eq. (11)에 의해 계산된 Time-table의 후보 위치 중 하나와 매칭이 되고, 그 값을 감싸고 있는 주변의 지연 값과 추정된 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA40.gif 를 이용하여 입력 신호를 지연시켜 DAS(Delay and Sum)을 하였을 경우 최대 파워 값을 나타내는 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA41.gif 를 최종 위치로 추정한다. GCC-PHAT얻어진 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA51.gif는 기존 SRP(Steered Response Power)-PHAT 방식과 유사하게 후보 위치들 추정하는 방식으로, 모든 후보 위치의 추정으로 인한 많은 계산량을 후보 위치의 한 부분만을 추정 영역으로 정하여 그 계산량을 줄이고, 잡음이나 잔향에 의한 추정의 정확도 저하를 주변 값들과의 비교를 통하여 최적의 위치를 추정함으로써 정확도를 향상 시킬 수 있다. Fig. 5는 측정하고자 하는 실내 환경에서 임의의 음원 위치별 값과 각도를 나타내고 파란원이 GCC-PHAT에 의해 계산된 값일 때, 빨간 테두리에 둘러싸인 부분이 비교 추정될 부분이다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F5.jpg
Fig. 5.

Time-table.

3.3 음성 구간 검출

VAD 방법에는 영교차율(Zero Crossing Rate), 선형 예측 부호화(Linear Predictive Coding, LPC) 계수, 프레임의 에너지를 활용하는 양적 특징들을 이용하는 방법, 우도비(Likelihood Ratio), 엔트로피 등과 같이 통계적인 특징들을 이용하는 방법들이 있다.[13]

제안하는 알고리즘에서는 Eq. (12)를 이용하여 양적 특징을 활용한 방법 중 프레임의 에너지를 측정하여 음성과 비음성 구간을 구분하였다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA52.gif. (12)

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA53.gif는 프레임 인덱스, http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA64.gif은 프레임 길이를 나타낸다.

본 논문에서는 프레임 에너지의 임계값을 http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/PICA65.gif 로 정의하여, 임계값보다 높으면 음성 구간, 낮으면 비음성 구간으로 판별하였다. 전체 신호에 대하여 프레임 별 음성 구간을 Fig. 6에 나타내었다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F6.jpg
Fig. 6.

SNR 20 dB, TDOA estimation result of GCC-PHAT.

IV. 성능 평가

4.1 실험 환경

4.1.1 입력 신호 모델링

두 개의 마이크로폰과 각각 1개의 음원과 잡음, 그리고 잔향이 존재하는 5 m × 5 m내 공간을 모델링하였다. 실내 공간에서 음원과 잡음의 위치가 서로 다르기 때문에, 음원과 잡음에 대한 실내 충격 응답함수를 각각 적용하여 마이크로폰에 입력되는 신호를 생성하였다.[14]

Fig. 7은 마이크로폰 1에 입력된 신호를 나타낸다. 음원과 잡음 각각에 대하여 직접음과 간접음을 모두 적용하였다. Fig. 8은 두 마이크로폰에 입력된 신호의 지연 시간을 보여준다. 실험에 사용된 음원은 16 kHz의 한국 남성, 한국 여성, 미국 남성 및 Babble Noise이다. 실험에 있어서 DFT Point 개수는 512, 프레임 길이는 320을 사용하였다.

4.1.2 음원 위치 설정

두 개의 마이크로폰 사이의 거리를 0.5 m로 고정하고, 음원 및 잡음의 위치를 변경하며 실험을 진행하였다. 마이크로폰 기준에서 음원이 60 °, 2m의 거리에 위치할 때 잡음은 135 °, 1.41 m 거리에, 음원이 120 °, 2 m의 거리에 위치할 때 잡음은 45 °, 1.41 m에 위치하였다. Fig. 9는 실험을 위한 마이크로폰 어레이, 음원, 잡음의 배치를 나타낸다.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F7.jpg
Fig. 7.

Microphone input signal generation process.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F8.jpg
Fig. 8.

Delay time of input signal.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F9.jpg
Fig. 9.

Test environment.

4.2 성능 평가

본 논문에서는 위의 실험 환경에서 기존의 GCC- PHAT와 기존 GCC-PHAT 방법에 VAD를 적용하여 음성 구간에서만 음원의 위치 추정, 제안하는 방법에 대한 각각의 실험을 통하여 성능을 평가하였다. Table 3은 마이크로폰 간의 거리 0.5 m일 때 각각의 실험 결과를 보여준다.

지연 샘플당 매칭되는 각도의 수 제한에 따라 추정하고자 하는 각도의 ± 10° 이내의 결과를 성공, 각도 차이가 많이 나는 결과는 실패, Eq. (3)에 의한 추정 지연 시간 범위를 넘는 결과는 기타로 분류하였다.

Table 3의 GCC-PHAT와 VAD가 적용된 방법의 결과에서 알 수 있듯이 GCC-PHAT 성능은 비음성 구간에서의 추정 실패에 큰 영향을 받는다. 그 이유는 음원의 프레임 별 처리에 있어서 각 프레임마다 TDOA 추정 값들이 결정되는데, 음원의 위치 정보를 표현하지 않는 잡음이나 묵음과 같은 비음성 구간이 상당부분 차지하면서 음원 위치 추정의 전체적인 정확성에 영향을 주기 때문이다. 이러한 문제점을 해결하기 위하여, 본 논문에서는 VAD를 적용하여 음원의 위치 정보를 담고 있는 음성 구간에서만 TDOA를 추정하여 성능을 향상시켰다. 또한 음성 구간에서도 측정 범위를 벗어난 TDOA 값을 추정하는 프레임은 업샘플링 과정을 통하여 TDOA 값을 다시 추정하고 Time-table을 이용하여 음원의 위치를 최종적으로 추정함으로써 Table 3의 내용과 같이 성능을 향상시켰다.

Fig. 10은 한국 남성의 음원이 60°에 위치하는 상황에서 기존 GCC-PHAT의 결과와 제안하는 방법의 결과를 나타낸 것이며, 그림의 음영 부분은 실험에서 오차 범위로 한 ± 10° 범위인 50° ~ 70°를 나타낸 것이다. Fig. 10은 순차적으로 마이크로폰에 입력된 음성 및 잡음 신호, 음성 구간 판별 결과, 기존 알고리즘의 위치 추정 결과, 제안하는 방법의 위치 추정 결과이다. Fig. 10을 비교하였을 때 제안하는 방법이 비음성 구간의 영향을 적게 받아 기존의 방법보다 균일하게 음원의 위치를 추정한 것을 알 수 있다.

Table 3. MD:0.5m, SNR:20 dB, comparison of experimental results.

http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Table_ASK_36_05_08_T3.jpg
http://static.apub.kr/journalsite/sites/ask/2017-036-05/N0660360508/images/Figure_ASK_36_05_08_F10.jpg
Fig. 10.

Performance comparison between GCC-PHAT and proposed algorithm.

V. 결  론

본 논문에서는 GCC-PHAT를 이용한 음원 위치 추정 알고리즘의 잔향 및 잡음에 의한 정확성 저하 특성을 개선하고자 GCC-PHAT 알고리즘에 3가지 방법을 추가하는 방법을 제안하였다. 업샘플링 방법, VAD 적용, 조정 파워 방법을 사용한 여러 후보 지연 값 중의 최적의 지연 값 결정의 방법을 GCC-PHAT에 적용하였다. 프레임 별로 입력 신호를 나누어 실시간으로 위치를 추정하였으며, 정확성의 향상을 위해 VAD를 적용하여 음원의 정보를 담고 있는 음성 구간에서만 TDOA를 추정하였다. 또한 마이크로폰 특성에 따른 샘플링 주파수에 의한 측정 범위를 초과하는 신호는 업샘플링을 통해 최대 측정 범위를 넓혀 측정 가능하도록 하였으며, 미리 구해진 Time-table의 주변 지연 값들과의 파워값을 비교하여 음원의 위치를 최종적으로 추정하였다.

기존 GCC-PHAT 방법의 경우 비음성 구간에서 의미 없는 TDOA를 추정함에 따라 그 정확도가 떨어지고, 음성 구간에서도 음원 위치 추정의 오차가 발생하는 반면, 제안하는 알고리즘의 경우 음원의 정보를 담고 있는 음성 구간에서만 TDOA를 추정함에 따라 위치 추정의 정확성이 향상되었고, 음성 구간에서의 추정 오차도 기존의 알고리즘보다 비음성 구간의 영향을 적게 받아 그 편차가 적은 것을 확인할 수 있었다. 실험 결과 기존 알고리즘의 전체 추정 평균 정확도 35.7 %, 음성구간에서의 평균 정확도 61.2 %를 제안하는 방법에서는 평균 정확도 86.3 %로 각각 50.6 %, 25.1 %의 성능을 향상시켰다. 이후 제안하는 알고리즘의 성능 개선을 위하여, 마이크로폰 간 거리에 따른 성능 저하와, 여러 레벨의 SNR에 따른 음원 위치 추정 성능을 개선하고자 한다.

Acknowledgements

이 논문은 2016 년도 충북대학교 연구년제 사업의 연구비 지원에 의하여 연구되었음(This work was financially supported by the Research Year of Chungbuk National University in 2016).

References

1
Y. E. Kim and J. G. Chung, “The method of elevation accuracy in sound source localization system” (in Korean), IEEK 2, 24-29 (2009).
2
K. Nakadai, T. Lourens, H. G. Okuno, and H. Kitano, “Active audition for humanoid,” AAAI/IAAI, 832-839 (2000).
3
B. Kwon, G. Kim, and Y. Park, “Considering microphone positions in sound source localization methods:in robot application,” Robot & Human Interac-tive Communication, 7, 1050-1054 (2007).
4
W. Kellemann, “A self-steering digital microphone array,” Acoustics, Speech, and Signal Processing(ICA-SSP), 5, 3581-3584 (1991).
5
J. Stachurski, L. Netsch and R. Cole, “Sound Source localization for video surveillance camera,” Advanced Video and Signal Based Surveillance (AVSS),  93-98 (2013).
6
M. Omologo and P. Svaizer, “Acoustic event localization using a crosspower-spectrum phase based technique,” Acoustics, Speech, and Signal Processing(ICASSP), 2, 273-276 (1994).
7
A. Johansson and S. Nordholm, “Robust acoustic direction of arrival estimation using Root-SRP-PHAT, a realtime implementation,” Acoustics, Speech, and Signal Processing (ICASSP), 4, 933-936 (2005).
8
J. Wang, Y. Zhao, and Z. Wang, “A MUSIC like DOA estimation method for signals with low SNR,“ Global Symposium on Millimeter-Waves(GSMM), 321-324 (2008).
9
J. Baszun, “Passive sound source localization system,” Zeszyty Naukowe Politechniki Bialostockiej. Informa-tyka, 5-16 (2011).
10
M. S. Brandstein and H. F. Silverman, “A robust method for speech signal time-delay estimation in reverberant rooms,” Acoustics, Speech, and Signal Processing (ICASSP), 1, 375-378 (1997).
11
J. H. DiBiase, H. F. Silverman, and M. S. Brandstein, Robust Localization in Reverberant Rooms, Microphone Arrays (Springer, Berlin Heidelberg, 2001), chapter 8, pp. 157-180.
12
Abad Sorbet. Marta, “Comparison of different methods for time delay estimation,“ UPNA 10-15 (2010).
13
G. H. Lee, Y. J. Lee, and M. N. Kim, “Voice activity detection algorithm using wavelet band entropy ensem-ble analysis in car noisy environments” (in Korean), Journal of Korea Multimedia Society, 16, 1005-1017 (2013).
14
A. Bertrand and G. Bernardi, Audio processing: lab sessions, Session 1: Introduction to the acoustic simula-tion environment, 2015.
페이지 상단으로 이동하기