I. 서 론
음성검출기법(VAD, Voice Activity Detection)은 잡음이 섞여있는 음성신호에서 음성이 존재하는 부분과 잡음만 존재하는 부분을 판별하는 기술이다. 이 기술은 현재 음성코딩, 음성향상, 음성인식 그리고 이동통신 등 다양한 분야에 널리 사용되고 있다. 최근에 우도비검증(LRT, Likelihood Ratio Test)을 결정규칙으로 사용하는 통계적 모델에 기반한 음성검출 기법들이 많이 연구되고 있다.[1-9] 이런 통계적 음성검출 알고리즘은 DFT(Discrete Fourier Transform), DCT(Discrete Cosine Transform)와 KLT(Karhunen- Loeve Transform)와 같은 선형영역에서 동작한다. 이러한 영역에서 우도비에 의한 음성검출을 잘 수행하기 위해서는 각 영역에서 음성과 잡음에 대한 통계적 특성을 정확히 모델링이 할 수 있어야 한다.[10] 대부분 통계적 음성검출 기법들은 DFT 영역에서 동작하는데, 이 기법은 입력신호의 DFT 계수들이 Gaussian, Laplacian 또는 Gamma 형태의 확률밀도함수(PDF, Probability Density Function)을 갖는다고 가정한다.[3] DFT영역에서 음성을 좀 더 정확하게 모델링하기 위해 GGD(Generalized Gaussian Distribution)와 일반화된 감마분포(generalized Gamma distribution)분포를 사용한 음성검출 기법이 제안되었다.[4,5]
최근에는 KLT와 같은 신호준공간(signal subspace) 영역에서의 음성검출기법이 제안되었다.[6-9] Gazor 등은 DCT와 KLT 영역에서 음성의 분포를 Laplacian, 잡음 분포를 Gaussian으로 하는 기법을 제시하였다.[6]또한 시간영역에서 동작하는 확률 주성분분석(principal component analysis)과 EP(Embedded Prewhitening) 기법을 사용하는 신호준공간 기반한 기법이 제안되었다.[7-8] 이러한 신호준공간 기법에서는 잡음음성과 잡음에 대해 다변수 가우시안(multivariate Gaussian) 분포를 갖는다고 가정하였다.1)
본 논문에서는 신호준공간 영역에서 향상된 음성검출기법을 제안한다.[1] 이를 위해 EP 기법[11]을 사용하여 비상관적인(uncorrelated) 신호준공간을 생성하고, 이 영역에서 잡음음성과 잡음에 대한 Kolmogorov- Smirnov (KS)-test[12]를 통해 다양한 통계적 특성을 조사한다. 이러한 신호의 통계적 특성을 바탕으로 GGD를 사용한 음성검출 알고리즘을 제안 한다. 실험을 통해 신호준공간 영역에서 제안된 GGD 모델이 기존 방식에 비해 음성검출 성능이 향상됨을 보여준다.
II. Embedded Prewhitening에 의한 신호 준공간
이 장에서는 음성검출을 위한 EP 기법[11]에 의한 신호준공간에 대해 소개한다.[8]
는 시간
에서 영 평균 (zero-mean)을 갖는 깨끗한 음성 신호를 나타내고,
는 깨끗한 음성신호와 비상관적인 영 평균 가산잡음이다. 이때 잡음음성은 ![]()
와 같이 표현된다. 이와 같은 잡음음성신호를 프레임기반으로 처리하는 경우에는 벡터 형식으로 표현할 수 있다. 시간영역에서
개의 잡음음성 샘플로 구성된 벡터
라 하면 잡음음성은 다음과 같이 표현한다.
(1)
여기서 편의상 시간변수
는 생략되었고
와
는
와 비슷하게 정의된다. 이때
,
그리고
는
공간상에 위치한 벡터들이 된다.
와
는 비상관적이기 때문에 잡음음성
의 상관행렬(correlation matrix)
는 깨끗한 음성과 잡음의 상관 행렬의 합으로 표현된다.
(2)
본 논문에서 음성검출을 위해 사용되는 신호준공간을 얻기 위해 아래와 같이
와
를 동시에 대각화할 수 있는 EP 기법을 이용한다.[8,11]
(3)
여기서
와
는 행렬
의 고유벡터 행렬과 고유값 행렬이다.[11] 즉,
와 같은 관계식이 성립한다. 여기서 행렬
가 rank
이면,
는 행렬
이고,
는 오직
개의 non-zero 고유값
을 갖는 대각행렬
이다. 이때 행렬
를 사용하여
공간에 놓여있는
차원의 잡음음성 벡터
에 선형변환을 수행하면 다음과 같다.
(4)
그러면 벡터
는
공간상에 놓인
차원의 벡터가 되고, 벡터
가 위치한 이 공간을 EP 기법에 의한 신호준공간이라 부른다.
위와 같이 음성검출을 위한 신호준공간을 사용하는 경우의 주요 장점은 신호준공간 영역에서 잡음음성의 성분들은 다른 성분들과 비상관적이기 때문에 이 영역에서 음성신호와 잡음에 대한 최적의 통계적 모델을 이용할 수 있다는 것이다. 이를 살펴보기 위해 신호준공간 영역에서 잡음음성의 성분을 식(1)과 (4)로부터 다음과 같이 표현한다.
(5)
여기서
와
는 깨끗한 음성과 잡음에 대한 신호준공간의 신호성분이다.
와
의 영 평균 가정과 식(5)의 관계로부터
도 영 평균, 즉
임을 알 수 있다. 이 때
의 공분산은 식(3)과 (5)로부터 다음과 같이 주어진다.
(6)
여기서
,
이다. 즉
의 공분산 행렬이 대각 성분만 존재함으로 신호준공간에서
의 성분들이 비상관적임을 알 수 있다. 따라서 원래의 신호공간인
영역 대신 신호 준공간인
영역에서 잡음음성과 잡음을 모델링 하는 것이 훨씬 용이함을 알 수 있다.
III. 신호준공간에서 신호 모델링
통계적 모델에 기반한 음성 검출기에서는 음성과 잡음에 대한 정확한 확률밀도 함수를 가정하는 것이 중요하다.[10] 따라서 신호준공간 영역에서 잡음음성 성분과 잡음 성분에 대한 분포를 조사하는 것이 필요하다. 일반적으로 DFT 영역에서 통계모델로는 Gaussian, Laplacian, Gamma 확률밀도 함수를 많이 사용되고 있다.[3] 이 장에서는 신호준공간 영역에서 통계적 모델로서 보다 효율적인 GGD를 사용한 모델링 기법을 소개한다 . 스칼라 신호
가 영 평균 GGD로 모델링 되는 경우, 이에 대한 확률밀도 함수는 다음과 같다.[13]
(7)
여기서
이며,
는 Gamma 함수이고,
와
는 GGD의 파라미터이다.
는 shape 파라미터로 지수의 감소율을 나타내며,
는 표준편차를 나타낸다. 식(7)에서
이면 Laplacian,
이면 Gaussian을 나타낸다.
식(4)와 같이 주어진 신호준공간에서 잡음음성과 잡음에 대한 통계적 특성을 구하기 위해 다양한 잡음환경 하에서 신호들을 조사하였다. Fig. 1과 2는 배블(babble) 잡음 5 dB 조건하에서 신호준공간의 첫 번째 성분벡터
에 의한 잡음음성과 잡음에 대한 크기 성분을 히스토그램(histogram)과 다양한 통계모델로 나타낸 것이다. GGD는 잡음음성에 대해서는
, 잡음에 대해서는
를 사용하였다. 잡음음성과 잡음에 대한 표준편차는 식(6)로부터 각각
과
을 사용하였다. 그림에서 나타난 것 같이 신호준공간에서 최적화된 파라미터 값을 갖는 GGD 모델이 히스토그램에 가장 잘 근사됨을 알 수 있다.
주어진 분포와 실험적인 분포 사이의 객관적인 오차를 측정하기 위해 KS-test[12]를 사용하였다. KS-test는 데이터
를 사용하여 실험적인 CDF(Cumulative Distribution Function)
와 이론적인 CDF
사이의 최대 거리를 측정하는 테스트로 다음과 같다.[3,12]
(8)
가장 작은 KS-test 거리 값을 나타내는 분포가 실험적인 데이터 분포에 가장 잘 맞는 분포를 나타낸다. Fig. 3은 Fig. 1과 2에 나타난 배블(babble) 잡음에 대한 실험적 분포와 다양한 통계모델을 사용하는 경우의 KS-test 거리 값을 나타낸다. 그림에 나타나듯이 GGD 모델이 잡음음성과 잡음에 대한 모델로서 최적임을 나타낸다.
| ||||||
Fig. 3. KS-test results of the noisy speech and noise based on various statistical distributions for the babble noise at 5 dB SNR. |
위의 GGD를 사용하기 위해 다양한 잡음에 대해 최적의
값을 추정하는 것이 필요하다. 이를 위해 babble 잡음 5 dB 환경에서 잡음음성과 잡음에 대해 첫 번째와 두 번째 성분에 대해
값을 변화시키면서 KS-test를 시행하였다. Fig. 4와 5는 잡음음성과 잡음에 대한
값에 따른 KS-test 거리 값을 나타낸다. Fig. 4로부터 잡음음성을 위한 파라미터
값은 0.4 ~0.8 사이에 분포하고 SNR이 낮아질수록
값이 일정하게 커짐을 알 수 있다. 반면에 잡음을 위한 파라미터
는 1.3~1.5 사이에 분포함을 알 수 있다. babble 잡음뿐 아니라 백색(white)이나 핑크(pink) 등과 같은 다른 잡음환경에서도 비슷한 결과가 나타남을 실험을 통해 확인할 수 있었다. 다양한 잡음환경에 대해 최적의 파라미터를 갖는 GGD를 사용하기 위한 실험적인 방법을 통해 SNR에 따라 Table 1과 같이 추정하였다.
IV. GGD 기반 VAD
이장에서는 앞 장에서 제시된 통계적 모델에 근거하여 GGD을 사용한 음성검출기법을 제안한다. 먼저 음성검출을 위한 두 가지 가설을 가지고 신호준공간에서 잡음음성을 모델링 할 수 있다.
와
가 각각 음성 부재와 음성 존재를 나타낼 때 식(5)에 의해 신호준공간에서 통계적 가설은 다음과 같이 주어진다.
(9)
(10)
식(7)을 사용하여 GGD에 의한 각각의 가설에 대한 잡음음성
의
번째 성분,
에 대한 분포는 다음과 같이 나타낼 수 있다.
(11)
![]()
(12)
여기서
와
은 GGD가
와
일 때 각각의 형태(shape) 파라미터이고 Table 1에 나타내듯이 SNR에 따라 그 값이 다르게 사용되며, 각 분포의 표준편차는 식 (6)로부터 각각
과
이다. 따라서 가정된 분포에 의해 음성검출을 위한 신호준공간 영역에서 GGD 기반의
번째 성분에 대한 우도비는 다음과 같이 나타낼 수 있다. [4]
![]()
(13)
또한 신호준공간 영역에서 다양한 통계적 모델들을 적용하여 여러 가지 우도비를 구할 수 있다. 만약
이면 Gaussian에 의한 우도비
, ![]()
이면 Laplacian에 의한 우도비
을 각각 다음과 같이 구할 수 있다.
(14)
(15)
신호준공간에서 음성검출을 위한 최종적인 결정규칙은 다음과 같이 우도비들의 기하평균으로 수행된다.
(16)
여기서
는 음성검출을 위한 임계값을 나타낸다.
V. 실험 및 결과고찰
제안된 신호준공간 기반 음성검출 알고리즘을 구현하기 위해 잡음음성과 잡음에 대한 공분산 행렬
와
에 대한 정확한 추정이 필요하다. 잡음음성은 직사각형 윈도우(rectangular window)을 사용하여 프레임(frame) 별로 처리하였다. 8 kHz로 샘플링된 음성에 대해 한 프레임으로 20 msec(160샘플)을 사용하였고 50% overlap 하였다.
준프레임(sub-frame)을 사용하여 자기상관 계수 추정을 통해 각각의
잡음음성과 잡음의 공분산 행렬을 추정하였다. 이 공분산 행렬을 바탕으로 행렬
에 고유값 분해를 수행하여 고유값과 고유벡터를 얻었다. 신호 준공간의 차원
값을 결정하기 위해서 행렬
의 고유값이 영보다 큰 고유값의 수로 설정하였다. 그리고 GGD의 SNR에 따른 최적의 파라메터 값을 사용하기 위해 각 프레임마다 SNR 값을 추정하는 것이 필요하다.
이를 위해 SNR의 추정은 신호준공간에서 식 ![]()
을 사용하였고, 이전 프레임의 SNR
값과 현재 SNR값을 스무딩(smoothing)하여 사용하였다.[14] 그리고 한 프레임 내에서
잡음음성을 생성하여 음성검출에 이용하였다.
시간
에서 잡음 공분산은 음성신호가 부재한 구간의 신호를 사용하여 다음과 같은 회귀적 방식에 의해 갱신되었다.
(18)
여기서
는 현재의 잡음 공분산 추정값
와 전 데이터 샘플의 영향을 조절하는 망각 인자(forgetting factor)이다.
제안된 알고리즘의 실험결과를 평가하기 위해 여러 가지 음성검출 알고리즘에 대한 탐색(detection)과 False- Alarm(FA) 확률
와
를 조사 하였다.
는 실제로 정확하게 음성이라고 판단 할 확률을 뜻하고,
는 비음성을 음성이라 잘못 판단할 확률을 뜻한다.
와
의 값을 계산하기 위하여 456초의 음성을 10 ms단위로 수동으로 된 레이블을 기준으로 삼았다. 전체 신호 중에서 음성의 비율은 58.2%이고, 이 중 44.85%는 유성음(voiced sounds)이며 13.4%는 무성음(unvoiced sound)이었다. 잡음에 오염된 음성신호를 만들기 위해 white, babble, pink잡음을 NOISEX-92 잡음으로부터 SNR을 변화하면서 원래의 음성신호에 첨가하였다.
제안된 신호준공간 기반 음성검출기의 성능을 평가하기 위해 기존의 Gaussian 분포를 사용한 DFT 기반과 신호준공간 기법을 비교하였다. 새로운 기법으로는 신호 준 공간에서 Laplaican과 GGD을 사용하였다. 모든 알고리즘에는 같은 hang-over 기법을 적용하였다.[2] 또한 ETSI AMR VAD option 2와 같은 표준 음성검출기를 비교를 위해 포함하였다. 은 babble, pink 및 white 잡음에서 AMR, Gaussian 기반 DFT와 신호준공간 기법 그리고 제안된 Laplacian와 GGD 기법에 대한 ROC(Receiver Operating Characteristic) 곡선을 나타내다. 실제 실험 결과 신호준공간 기반 GGD 음성검출기는 Gaussian이나 Laplacian 기반 기법보다 뛰어난 성능을 보여준다. 그리고 특히 SNR이 더 높을수록 GGD을 사용한 신호준공간 기법이 다른 기법에 비해 성능 향상이 더 크게 나타남을 확인할 수 있다. GGD 기법이 다른 기법에 비해 성능이 향상된 이유로는 신호준공간에서 음성신호와 잡음의 통계치와 잘 맞는 GGD의 파라미터 값을 추정하여 이용했기 때문이다.
|
Fig. 6. ROC curves for the babble noise at various SNR conditions. |
|
Fig. 7. ROC curves for the pink noise at various SNR conditions. |
|
Fig. 8. ROC curves for the white noise at various SNR conditions. |











