Online blind source separation and dereverberation of speech based on a joint diagonalizability constraint

Ho-Gun Yu; Do-Hui Kim; Min-Hwan Song; Hyung-Min Park

doi:10.7776/ASK.2021.40.5.503

Preview

Research Article

The Journal of the Acoustical Society of Korea. 30 September 2021. 503-514
https://doi.org/10.7776/ASK.2021.40.5.503

Online blind source separation and dereverberation of speech based on a joint diagonalizability constraint

공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거

Ho-Gun Yu¹

Do-Hui Kim¹

Min-Hwan Song²

Hyung-Min Park¹^*

유 호건¹

김 도희¹

송 민환²

박 형민¹^*

¹서강대학교 전자공학과

²한국전자기술연구원 자율지능IoT연구센터

^{*Corresponding Author}

ABSTRACT

Reverberation in speech signals tends to significantly degrade the performance of the Blind Source Separation (BSS) system. Especially in online systems, the performance degradation becomes severe. Methods based on joint diagonalizability constraints have been recently developed to tackle the problem. To improve the quality of separated speech, in this paper, we add the proposed de-reverberation method to the online BSS algorithm based on the constraints in reverberant environments. Through experiments on the WSJCAM0 corpus, the proposed method was compared with the existing online BSS algorithm. The performance evaluation by the Signal-to-Distortion Ratio and the Perceptual Evaluation of Speech Quality demonstrated that SDR improved from 1.23 dB to 3.76 dB and PESQ improved from 1.15 to 2.12 on average.

Keywords

Online blind source separation

Online dereverberation

Independent component analysis

Joint diagonalizability constraints

신호에서의 잔향은 암묵음원분리 시스템의 성능을 크게 저하시키는 경향이 있다. 특히 온라인으로 진행되는 시스템일 때, 그 영향이 더욱 두드러진다. 최근 공동 행렬대각화를 활용하여 해당 문제를 해결하고자 하는 연구들이 이루어지고 있다. 본 논문에서는 이를 활용, 발전하여 잔향이 존재하는 환경에서의 미결정 다중 화자의 음원 분리 온라인 알고리즘에 잔향 제거 기능을 추가함으로써 분리한 음원의 품질을 개선하였다. WSJCAM0 데이터베이스에서 실험을 통해 기존에 사용되고 있는 온라인 알고리즘 성능과 비교하였다. 성능 평가는 신호 대 왜곡 비(Signal-to-Distortion Ratio, SDR)와 Perceptual Evaluation of Speech Quality(PESQ)를 통해 이루어졌고, 기존 알고리즘 대비 SDR은 평균 1.23 dB에서 3.76 dB로 향상되었고, PESQ는 1.15에서 2.12로 성능이 향상되었음을 검증하였다.

키워드

온라인 암묵음원분리

온라인 잔향제거

독립 성분 분석

공동 행렬대각화 조건

MAIN

I. 서 론
II. 기존 암묵음원분리 방법
2.1 문제 정의
2.2 암묵음원분리에서 rank-1 공간 모델
2.3 잔향을 고려한 이상적인 공간 모델에 기반한 암묵음원분리
2.4 공분산 행렬의 공동 행렬대각화 조건
2.5 인접 채널 및 인접 시간에 대한 역상관화(decorrelation)를 이용한 암묵음원분리 및 잔향제거
III. 제안 방법
3.1 대각화 행렬분해
3.2 온라인에서의 최적화
IV. 실 험
4.1 평가 지표
4.2 실험 환경
4.3 실험 결과
V. 결 론

I. 서 론

암묵음원분리(Blind Source Separation, BSS)란 음원의 혼합과정에 대한 사전 정보 없이 동시 다발적으로 발생, 혼합된 음원 신호를 분리하는 것이다. 주파수 영역에서 혼합된 신호를 분리하는 대표적인 기술들로는 주파수영역 독립성분분석(Frequency-Domain Independent Component Analysis, FDICA),^[1] 독립벡터분석(Independent Vector Analysis, IVA),^[2] 보조함수를 통해 안정성과 필터의 빠른 학습을 적용한 독립벡터분석(auxiliary-function-based IVA, AuxIVA),^[3,4] 음원 신호의 분산에 대하여 비음수행렬분해(Nonnegative Matrix Factorization, NMF)를 적용한 Independent Lowrank Matrix Analysis(ILRMA)^[5]들이 있다. 이런 전통적인 암묵음원분리 방법은 국소푸리에변환(Short- Time Fourier Transform, STFT)의 프레임 길이가 잔향 시간보다 충분히 긴 경우에만 성능 저하가 없다는 단점이 있다. 이러한 단점은 weighted prediction error^[6,7]와 같은 잔향제거 방법을 통해 프레임 길이보다 긴 잔향 성분을 제거하여 해결할 수 있다. 특히, 최근에는 오프라인 과정에서 암묵음원분리와 잔향제거를 함께 진행하는 방법^[8]도 연구되고 있다. 또한, 공분산 행렬에 대하여 공동 행렬대각화 조건을 적용하여 음원 신호의 인접 채널, 주파수, 프레임에 대한 상관도를 고려한 암묵음원분리^[9,10]와 공분산 행렬을 full-rank로 추정하는 암묵음원분리^[11]에 대한 연구가 있다. 하지만 실제 상황에 대하여 고려한다면 화자가 발화하는 중에 움직이는 상황 뿐 만 아니라, 보청기와 같은 장비는 온라인 동작을 요구한다. 기존 온라인 방식의 암묵음원분리^[12,13,14]와 잔향제거^[15]를 적용한 연구가 있다. 본 논문은 오프라인에서 공동 대각화 조건 기반 및 행렬 분해를 통해 암묵음원분리 및 잔향제거 알고리즘 제안과 더 나아가 온라인 방식의 알고리즘을 제안한다.

II. 기존 암묵음원분리 방법

여기서는 전통적인 암묵음원분리로서 rank-1의 공간 모델로 가정한 접근과 잔향을 고려한 이상적인 공간 모델에 대한 접근에 대하여 살펴본다.

2.1 문제 정의

N개의 음원 신호가 혼합된 M개의 다채널 마이크입력 신호에 대한 국소푸리에변환 영역에서 각각의 시간 프레임 t 와 주파수 인덱스 f 에서의 마이크 입력 신호는

(1)

x_{f, t} = \sum_{τ = 0}^{L_{A} - 1} A_{f, τ} s_{f, t - τ}

와 같이 표현된다.^[1] 여기서 $x_{f, t} = [x_{1, f, t}, \dots, x_{M, f, t}]^{T}$ 와 $s_{f, t} = [s_{f, t, 1}, \dots, s_{f, t, N}]^{T}$ 는 마이크와 음원의 신호에 대한 벡터이며, $[\cdot]^{T}$ 는 전치행렬을 의미한다. $A_{f, τ} \in ℂ^{MxN}$ 는 음원에서 마이크까지의 선형시불변 특성을 갖는 전달함수이며, $L_{A}$ 은 해당 필터의 길이를 의미한다. 이 때, N개의 음원 신호를 역으로 추정하기 위한 선형 분리과정^[16]은

(2)

s_{f, t} = W_{f, 0} x_{f, t} + \sum_{τ = ∆}^{∆ + L - 1} W_{f, τ} x_{f, t - τ}

와 같이 표현된다. $W_{f, 0}$ 은 분리 행렬이며, $\{W_{f, τ}\}_{τ = ∆}^{∆ + L - 1} =$ 은 잔향제거 행렬이다. $∆, L \in ℕ$ 은 각각 벽에 의해 반사되어 마이크에 도달하는 초기반사음 시간과 잔향 길이를 나타낸다.

2.2 암묵음원분리에서 rank-1 공간 모델

마이크 입력신호 $x_{f, t}$ 는 N개의 음원 공간 이미지들 $\{y_{f, t, n}\}_{n = 1}^{N}$ 의 합으로 구성된다.

(3)

x_{f, t} = \sum_{n = 1}^{N} y_{f, t, n} .

각각의 음원 신호 $s_{f . t, n}$ 는 복소정규분포를 따른다고 가정하여

(4)

s_{f, t, n} ~ N_{ℂ} (0, λ_{f, t, n})

로 표현할 수 있다. $λ_{f, t, n}$ 은 n번째 음원 신호에 대한 파워 스펙트럼의 분산을 나타낸다. 만약 음원 신호가 점 음원이면, 혼합 모델 $A_{f}$ 는 다음과 같이 rank-1인 특성을 갖게 된다. 즉, 음원 공간 이미지 $y_{f, t, n}$ 은

(5)

y_{f, t, n} = a_{f, n} S_{f, t, n}

으로 표현되며 $a_{f, n}$ 은 $A_{f}$ 의 n번째 열벡터에 해당한다. 음원 $y_{f, t, n}$ 의 확률 분포는

(6)

y_{f, t, n} ~ N_{ℂ} (0, λ_{f, t, n} G_{f, n}) \approx N_{ℂ} (0, R_{f, t, n})

로 표현된다. $G_{f, n} = a_{f, n} a_{f, n}^{H}$ 은 rank-1을 갖는 n번째 음원 신호의 공간분산행렬이며, $R_{f, t, n} \in S_{+}^{M}$ 은 공분산 행렬, $[\cdot]^{H}$ 은 켤레 전치행렬이다. Eqs. (3), (6)과 가우시안 분포의 특징을 통해 마이크 입력 신호의 확률 분포는

(7)

x_{f, t} ~ N_{ℂ} (0, \sum_{n = 1}^{N} λ_{f, t, n} G_{f, n}) \approx N_{ℂ} (0, \sum_{n = 1}^{N} R_{f, t, n})

으로 표현된다. Table 1을 통해 주요 변수들에 대한 설명을 정리하였다.

Table 1.

Glossary and definition of variables.

#	Term	Definition	dimension
1	N	the number of source signals	-
2	M	the number of sensers	-
3	$s_{f, t}$	source signal vector	$ℂ^{N}$
4	$x_{f, t}$	microphone signal vector	$ℂ^{M}$
5	$y_{f, t, n}$	source spatial image vector	$ℂ^{M}$
6	$A_{f, τ}$	convolutional transfer function matrix	$ℂ^{M \times N}$
7	$a_{f, n}$	column vector of $A_{f, 0}$ (steering vector )	$ℂ^{M}$
8	$W_{f, τ}$	coefficient matrix	$ℂ^{N \times M}$
9	$G_{f, n}$	spatial Covariance Matrix	$ℂ^{M \times M}$
10	$λ_{f, t, n}$	power spectral density	$ℂ$
11	$R_{f, t, n}$	covariance matrix of source signal	, $ℂ^{M \times M}$

2.3 잔향을 고려한 이상적인 공간 모델에 기반한 암묵음원분리

음원의 공간 이미지에는 마이크 채널간의 상관관계를 갖고 있기 때문에 공간에 대한 정보를 얻을 수 있고, 혼합된 신호로부터 음원을 분리할 수 있다. 하지만 실제 환경에서는 잔향 성분에 의해 공간에 대한 모델이 복잡해진다. 국소푸리에변환을 위한 윈도우의 길이가 음원과 마이크 간에 주파수 응답보다 충분히 길면 잔향에 의한 영향이 줄어들지만 실제 환경에서는 보통 이 가정이 적절하지 않기 때문에 국소푸리에변환을 통해 완벽하게 인접 시간 프레임간의 상관관계를 제거하지 못한다. 본 논문에서는 수식의 단순화를 위해 아래와 같은 표기법을 정의한다.

(8)

x_{f} : = [x_{f, 1}^{T}, \dots, x_{f, T}^{T}]^{T} \in ℂ^{TM} .

(9)

x : = [x_{1}^{T}, \dots, x_{F}^{T}]^{T} \in ℂ^{FTM} .

(10)

y_{n, f} : = [y_{f, 1, n}^{T}, \dots, y_{f, T, n}^{T}]^{T} \in ℂ^{TM} .

(11)

y_{n} : = [y_{f, n}^{T}, \dots, y_{f, n}^{T}]^{T} \in ℂ^{FTM} .

음원 신호들은 독립적인 특성^[2]을 갖기 때문에

(12)

p ({\{y_{f, t, n}\}}_{f, t, n}) = \prod_{n = 1}^{N} p ({\{y_{f, t, n}\}}_{f, t})

의 식을 만족한다. 이 때 각각의 음원 공간 이미지 $z_{n}$ 는 평균이 0이고, 공분산 행렬 $R_{n} \in S_{+}^{FTM}$ 을 갖는다. 변량 복소정규분포를 따른다고 가정하면

(13)

y_{n} ~ N_{ℂ} (0, R_{n})

와 같이 표현된다. 이때, $S_{+}^{K}$ 는 K×K 크기를 갖는 에르미트 양의 준정부호행렬이다. Eqs (3), (12) ~ (13)과 정규분포의 특성을 통해

(14)

x ~ N_{ℂ} (0, \sum_{n = 1}^{N} R_{n})

을 갖는다.

결론적으로, ${\{R_{n}\}}_{n = 1}^{N}$ 이 추정된다면, 음원의 공간 이미지는 다채널 Wiener 필터를 통해

(15)

y_{n} = R_{n} {(\sum_{n = 1}^{N} R_{n})}^{- 1} x

와 같이 각각의 음원 공간이미지를 추정한다. 하지만 공분산 행렬의 차원은 N(FTM)으로 상당히 많은 수의 매개변수를 최적화하는 문제점이 존재한다.

2.4 공분산 행렬의 공동 행렬대각화 조건

공분산 행렬의 차원을 줄이기 위하여 N개의 공분산 행렬 ${\{R_{n}\}}_{n = 1}^{N}$ 을 공동으로 대각화하는 방법^[9,10,11을 적용하여 나타내면

(16)

P^{H} R_{n} P = diag (λ_{n})

와 같다. 이때 $P \in ℂ^{FTM \times FTM}$ 은 정칙행렬이며, $λ_{n} \in ℝ_{+}^{FTM}$ 은 비음수 벡터이다. Eqs. (14)과 (16)로부터

(17)

P^{H} x ~ N_{ℂ} (0, \sum_{n = 1}^{N} P^{H} R_{n} P) ~ N_{ℂ} (0, \sum_{n = 1}^{N} diag (λ_{n}))

이고, 공분산에 대한 비대각성분들이 0이 되어 $P^{H} x$ 의 요소들이 상관관계가 없는 독립적특성을 갖는다. 따라서 $P^{H} x$ 를 각각의 음원 신호로 간주할 수 있으며, 공동 행렬대각화 방법으로 인해 ${\{R_{n}\}}_{n = 1}^{N}$ 의 매개변수 수는 N(FTM)²개에서 (FTM)² + FTM으로 줄어들게 된다. P와 $λ_{n}$ 의 추정을 위한 마이크 입력 신호의 스펙트럼에 대한 음의 우도비용 함수는 다음과 같다.

(18)

J_{cost} = - \log p (x | P, λ_{n}) = - \log p (P^{H} x) - \log |d e t P P^{H}| .

Eq. (18)의 비용함수가 최소가 될 때, P와 $λ_{n}$ 을 추정해 공분산 행렬을 구할 수 있다.

2.5 인접 채널 및 인접 시간에 대한 역상관화(decorrelation)를 이용한 암묵음원분리 및 잔향제거

주파수영역 독립성분분석,^[1] 독립벡터분석,^[2,3,4] ILRMA^[5]는 마이크 입력 신호와 음원 신호의 수가 같은 상황에서 잘 작동하는 대표적인 암묵음원분리 방법이다. 또한 마이크 입력 신호의 잔향성분을 제거하기 위한 여러 효과적인 잔향제거 알고리즘 기술들도 존재한다.^[6,7] 음원 스펙트럼의 인접 채널 및 인접시간에 대한 역상관 모듈 통합 방법^[9,10,11]으로 잔향을 제거함과 동시에 음원 분리를 수행할 수 있다. 인접 채널 및 시간프레임을 고려하여 식(16)의 정칙행렬 P를 각 주파수에 대하여 $T^{2}$ 개의 M×M의 차원을 갖는 블록으로 구성된 블록 상 Toeplitz 행렬 ${\{P_{f}\}}_{f = 1}^{F} \in ℂ^{TM \times TM}$ 로 정의하고, 행렬의 ( $α, β$ )번째 블록은

(19)

P_{f, 0} \in ℂ^{M \times M} (if α - β = 0) P_{f, β - α - ∆} (if β - α - ∆ + 1 \in [1, \dots, L]) O_{M \times M} (otherwise)

와 같이 정의한다. 이때 $O_{M \times M}$ 은 $M \times M$ 의 영행렬이다. 따라서 정칙행렬 P는 아래 Eq. (20)과 같이 표현된다.

(20)

P = \oplus_{f = 1}^{F} P_{f} = diag \{P_{1,} \dots, P_{F}\} .

이때, $\oplus_{f = 1}^{F} P_{f}$ 은 행렬 ${\{P_{f}\}}_{f = 1}^{F}$ 의 블록 대각행렬이다. Eq. (20)을 통해 Eq. (16)은

(21)

\oplus_{f = 1}^{F} P_{f}^{H} x_{f} ~ N_{ℂ} (0, \sum_{n = 1}^{N} d i a g (λ_{n}))

와 같이 표현된다. Eqs. (18)과 (21)로 대각화기 $P_{f}$ 를 최적화하는 비용함수는 다음과 같다.^[9]

(22)

J = \frac{1}{2} \sum_{f, t, m}^{F, T, M} [\frac{{|e_{m}^{T} {\hat{P}}_{f}^{H} {\hat{x}}_{f, t}|}^{2}}{λ_{f, t, m}} + {logλ}_{f, t, m}] - T \sum_{f = 1}^{F} \log |{detP}_{f, 0}| .

공동 대각화 ${\hat{P}}_{f}$ 은 $[P_{f, 0}^{T}, \dots, P_{f, L}^{T}]^{T} \in ℂ^{(L + 1) M \times M}$ , ${\hat{x}}_{f, t}$ 는 $[x_{f, t}^{T}, x_{f, t - ∆}^{T}, \dots, x_{f, t - ∆ - L + 1}^{T}]^{T} \in ℂ^{(L + 1) M}$ 이며, $e_{m}$ 은 m 번째 항이 1인 단위벡터이다.

III. 제안 방법

공동 행렬대각화 조건을 사용한 기존 방법에서는 인접 채널 및 인접 시간의 상관도를 없애는 하나의 필터 ${\hat{P}}_{f}$ 를 제안하였다. 하지만 매 시간 프레임마다 필터를 추정하기에는 필터의 차원이 다소 크기 때문에 암묵음원분리 및 잔향제거 된 신호를 추정하는 것이 불안정하다. 따라서 하나의 필터를 추정하는 것보다 행렬분해를 적용하여 잔향제거와 음원분리의 필터로 분해하는 방법을 제안하고 온라인 알고리즘 구현을 제안한다.

3.1 대각화 행렬분해

식(22)의 공동 대각화 ${\hat{P}}_{f}$ 행렬을 $P_{f, 0} \in ℂ^{M \times M}$ 와 $\bar{P_{f}} = {[P_{f, 1}^{T}, \dots P_{f, L}^{T}]}^{T} \in ℂ^{LMxM}$ 로 분리하여 표현하면,

(23)

{\hat{P}}_{f} = [\begin{matrix} P_{f . 0} \\ P_{f} \end{matrix}] = [\begin{matrix} p_{f, 0, 1} & \dots & p_{f, 0, M} \\ p_{f, 1} & \dots & p_{f, M} \end{matrix}]

와 같이 표현되며, $p_{f, 0, m}, p_{f, m}$ 은 각각 $P_{f, 0}$ 와 $P_{f}$ 의 m번째의 열벡터이다. 공동 대각화 행렬에 대한 구조는 Fig. 1(a)와 같다.

https://cdn.apub.kr/journalsite/sites/ask/2021-040-05/N0660400513/images/ASK_40_05_13_F1.jpg

Fig. 1.

Diagonalizer matix ${\hat{P}}_{f}$ and observed mixture ${\hat{x}}_{f, t}$ structure.

m번째 열벡터에 대하여 행렬분해를 진행하면

(24)

[\begin{matrix} p_{f, 0, m} \\ p_{f, m} \end{matrix}] = [\begin{matrix} I_{MxM} \\ - L_{f, m} \end{matrix}] w_{f, m}

로 ${\bar{L}}_{f, m} \in ℂ^{LMxM}, w_{f, m} \in ℂ^{M}, I_{MxM} \in ℝ^{MxM}$ 은 단위행렬로 표현된다. 이 때, Eq. (23)를 통해 아래와 같이 표현된다.

(25)

z_{f, t, m} = x_{f, t} - {\bar{L}}_{f, m}^{H} {\bar{x}}_{f, t} .

(26)

e_{m}^{T} {\hat{P}}_{f}^{H} {\hat{x}}_{f, t} = {[\begin{matrix} p_{f, 0, m} \\ {\bar{p}}_{f, m} \end{matrix}]}^{H} {\hat{x}}_{f, t} = w_{f, m}^{H} (x_{f, t} - {\bar{L}}_{f, m}^{H} {\bar{x}}_{f, t}) = w_{f, m}^{H} z_{f, t, m} .

${\bar{L}}_{f, m} \in ℂ^{LMxM}$ 의 필터는 단일 음원신호에 대한 잔향 제거 필터다. 각 마이크 채널별 잔향 제거된 출력은 $z_{f, t, m}, {\bar{x}}_{f, t} = [x_{f, t - ∆}^{T}, \dots, x_{f, t - ∆ - L + 1}^{T}]^{T} \in ℂ^{LM}$ 은 이전 시간 프레임에 대한 입력신호이며 자세한 구조는 Fig. 1(b)와 같다. $w_{fm} \in ℂ^{M}$ 는 분리행렬 $W_{f}$ 의 m번째 열벡터이다. Eqs. (22)와 (26)을 통해 최적화 함수는

(27)

J = \frac{1}{2} \sum_{f, t, m}^{F, T, M} [\frac{| w_{f, m}^{H} z_{f, t} |^{2}}{λ_{f, t, m}} + \log λ_{f, t, m}] - T \sum_{f = 1}^{F} \log | \det W_{f} |

과 같다. 음원 분리행렬 $W_{f}$ 를 업데이트 하는 수식은 보조함수를 이용한 기존 방법^[3,4]과 같다. 이 방식은 기존의 경사하강법의 방식^[17]보다 안정적이고 빠르게 수렴한다.

(28)

w_{f, m} \leftarrow (W_{f} V_{f, m})^{- 1} e_{m} .

(29)

w_{f, m} \leftarrow \frac{w_{f, m)}}{\sqrt{w_{f . m}^{H} V_{f, m} w_{f, m}}},

여기서 $V_{f, m}$ 은 아래 Eq. (30)이다.

(30)

V_{f}, m = \frac{1}{T} \sum_{t = 1}^{T} \frac{z_{f, t, m} z_{f, t, m}^{H}}{λ_{f, t, m}} \in S_{+}^{M} .

선형 예측 필터 ${\bar{L}}_{f, m}$ 를 업데이트하는 수식은 Eq. (27)를 ${\bar{L}}_{f, m}$ 로 편미분하여 구할 수 있다.

(31)

\frac{\partial J}{\partial {\bar{L}}_{f, m}} = \frac{1}{2} w_{f, m}^{H} (\frac{1}{T} \sum_{t = 1}^{T} [\frac{{\bar{x}}_{f, t} {\bar{x}}_{f, t}^{H}}{λ_{f, t, m}}] {\bar{L}}_{f, m} - \frac{1}{T} \sum_{t = 1}^{T} [\frac{{\bar{x}}_{f, t} x_{f, t}^{H}}{λ_{f, t, m}}]) w_{f, m} = 0 .

Eq. (31)를 통해 선형 예측 필터 ${\bar{L}}_{f, m}$ 는 다음과 같다.

(32)

K_{f, m}^{x} = \frac{1}{T} \sum_{t = 1}^{T} \frac{{\bar{x}}_{f, t} {\bar{x}}_{f, t}^{H}}{λ_{f, t, m}} \in ℂ^{LM \times LM} .

(33)

K_{f, m}^{x} = \frac{1}{T} \sum_{t = 1}^{T} \frac{{\bar{x}}_{f, t} {\bar{x}}_{f, t}^{H}}{λ_{f, t, m}} \in ℂ^{LM \times M} .

(34)

{\bar{L}}_{f, m} = {K_{m}^{x}}^{- 1} k_{m}^{x} \in C^{LM} \times M .

3.2 온라인에서의 최적화

앞서 설명한 오프라인의 방식인 batch processing 알고리즘은 프레임 전반에 걸쳐 $(t = 1, \dots, T)$ 얻어진 입력 신호를 통해 필터를 추정한다. 하지만 이러한 시스템은 실제 환경에서와 같이 화자의 위치가 고정되지 않고 발화하는 비정상 음원에 대해서는 채널 간 및 프레임 간의 상관관계가 변하기 때문에 잔향 제거 및 암묵음원분리 성능이 저하된다. 또한 보청기와 같은 음원향상 장치에서는 온라인 동작을 요구한다는 점이다. 이러한 점을 고려하여 앞서 제안한 오프라인 방식 대신에 매 프레임마다 필터를 업데이트하며 분리된 음원을 출력하는 온라인 방식의 알고리즘을 제안한다.

온라인 암묵음원분리를 위해 재귀최소자승법(Recursive Least Squares, RLS)^[12,13,14]을 사용하여, 현재 시간 프레임 $t$ 의 $V_{f, t, m}$ 을 이전 시간 프레임의 $V_{f, t - 1, m}$ 을 통해 재귀적으로 계산한다. 따라서 Eq. (30)의 $V_{f, t, m}$ 는

(35)

V_{f, t, m} = {αV}_{f, t - 1, m} + (1 - α) \frac{z_{f, t} z_{f, t}^{H}}{λ_{f, t, m}}

와 같이 계산되고, $α (1 \leq α ≺ 1)$ 는 망각인자로 과거 신호에 대한 비중을 조절하는 요소이다. 또한, Eq. (28)의 역행렬 연산은 연산비용이 크기 때문에 실시간 동작에서 적합하지 않다. 이를 해결하기 위해 아래 식의 matrix inversion lemma^[18]를 이용한다.

(36)

(B + CD)^{- 1} = B^{- 1} - B^{- 1} C (I + {DB}^{- 1} C)^{- 1} {DB}^{- 1} .

이 때,

(37)

(W_{f, t} V_{f, t, m})^{- 1} = V_{f, t, m}^{- 1} W_{f, t}^{- 1} = U_{f, t, m} A_{f, t}

와 같이 역행렬 행렬 $U_{f, t, m}, A_{f, t}$ 을 설정하면 Eq. (36)를 사용하여 유도하면 각각의 역행렬들은 이전 시간 프레임에 대해

(38)

U_{f, t, m} = \frac{1}{α} U_{f, t - 1, m} - \frac{p_{f, t} U_{f, t - 1, m} x_{f, t} x_{f, t}^{H} U_{f, t - 1, m}^{H}}{α^{2} + {αp}_{f, t} x_{f, t}^{H} U_{f, t - 1, m} x_{f, t}} .

(39)

A_{f, t} \leftarrow A_{f, t} - \frac{A_{f, t} e_{m} ∆ w_{f, t, m}^{H} A_{f, t}}{1 + ∆ w_{f, t, m}^{H} A_{f, t} e_{m}}

와 같이 매 프레임마다 추정된다. $∆ w_{f, t, m}$ 은 $W_{f, t}$ 의 m번째 열벡터 $w_{f, t, m} \in ℂ^{M}$ 의 업데이트 전과 후의 차이를 나타내며 아래와 같이 반영된다.

(40)

w_{f, t} W_{f, t} + e_{m} ∆ w_{f, t, m}^{H} .

다음으로 온라인 잔향제거^[15]의 경우에는 이전과 같은 방식으로 Eq. (32)의 LM×LM의 차원을 갖는 $K_{f, m}^{x}$ 의 역행렬 연산이 음원 분리보다 더 큰 연산비용을 갖게 된다. 마찬가지로 재귀최소자승법의 방식을 적용하여 다음과 같이 나타낼 수 있다.

(41)

K_{f, t, m}^{x} = β K_{f, t - 1, m}^{x} + \frac{{\bar{x}}_{f, t} {\bar{x}}_{f, t}^{H}}{λ_{f, t, m}} .

(42)

K_{f, t, m}^{x} = β K_{f, t, m}^{x} + \frac{{\bar{x}}_{f, t} {\bar{x}}_{f, t}^{H}}{λ_{f, t, m}} .

또한, matrix inversion lemma를 통해 $K_{f, t, m}^{x^{- 1}}$ 을

(43)

Q_{f, t} \leftarrow \frac{K_{f, t - 1, m} {\bar{x}}_{f, t}}{β λ_{f, t, m} + {\bar{x}}_{f, t}^{H} K_{f, t - 1, m}^{x^{- 1}} {\bar{x}}_{f, t}} .

(44)

K_{f, t, m}^{x^{- 1}} \frac{K_{f, t - 1, m}^{x^{- 1}} - Q_{f, t} {\bar{x}}_{f, t}^{H} K_{f, t - 1, m}^{x^{- 1}}}{β} .

(45)

{\bar{L}}_{f, t, m} = {\bar{L}}_{f, t - 1, m} + Q_{f, t} z_{f, t, m}^{H}

와 같이 매 프레임마다 추정할 수 있다. 온라인 알고리즘에서 잔향제거 부분에서의 $λ_{f, t, m}^{W . P . E}$ 는 전 시간 프레임을 통해 업데이트된 필터를 통해 다음과 같이 추정할 수 있다.

(46)

λ_{f, t, m}^{W . P . E} \leftarrow w_{f, t - 1, m}^{H} (x_{f, t} - {\bar{L}}_{f, t - 1, m}^{H} {\bar{x}}_{f, t}) .

이 때, $λ_{f, t, m}^{BSS}$ 는 음원 신호가 정규분포를 따른다고 가정하여 다음과 같이 계산할 수 있다.

(47)

λ_{f, t, m}^{BSS} = \frac{\sum_{f = 1}^{F} = | w_{f, t - 1, m}^{H} z_{f, t, m} |^{2}}{F}

IV. 실 험

4.1 평가 지표

첫 번째 지표는 신호 대 왜곡 비(Signal-to-Distortion Ratio, SDR)^[19]이다. 즉, 마이크에 들어온 입력 신호를 암묵음원분리를 통해 얻은 해당 음원 clean 신호 ${sig}_{target}$ 와 해당 음원 출력신호 ${sig}_{output}$ 의 power 비로 아래의 식과 같다.

(48)

SDR = 10 \log_{10} \frac{||{sig}_{target}||^{2}}{||{sig}_{output} - {sig}_{target}||^{2}} .

두 번째 지표는 Perceptual Evaluation of Speech Quality (PESQ)^[20]이다. 이 지표는 해당 음원 신호와 암묵음분리를 통한 해당 신호 간의 유사도를 인지적 특성을 반영하여 측정하는 방식이다. PESQ는 주관적 음질 평가 방법을 대체할 수 있는 객관적 음질평가로 만점인 4.5점에 가까울수록 사람들은 음질이 높다고 느낀다.

4.2 실험 환경

본 실험은 WSJCAM0 데이터베이스^[21]를 기반으로 음원 신호를 구성했고, 잔향이 존재하는 입력신호는 음원으로부터 마이크 위치까지의 임펄스 응답을 image method^[22]에 따라 음원 신호에 합성 곱하여 혼합입력 신호를 생성하였다. 이때, 음원신호와 마이크는 각각 2개, 6개로 구성하고, 혼합하는 음원들은 서로 중복되지 않고, 임의로 선택하였다. 구체적인 실험 환경은 Fig. 2와 같다.

https://cdn.apub.kr/journalsite/sites/ask/2021-040-05/N0660400513/images/ASK_40_05_13_F2.jpg

Fig. 2.

(Color available online) Recording conditions of impulse response obtained from image method.

마이크 어레이는 0.04 m 간격으로 일렬로 위치시켰다. 마이크 어레이의 중심은 [2.5 m, 2.5 m, 1 m]에 존재하고, 음원의 거리는 1 m이고, 음원의 각도는 중심선을 기준으로 30°, -80°를 이룬다. 방의 크기는 5 m × 4 m × 3 m이다. 이때, 잔향 시간(RT₆₀)은 잔향시간이 작은 0.2 s부터 잔향시간이 큰 1 s로 0.2 s 간격으로 설정했다. 그리고 각 음원과 마이크 위치 사이의 임펄스 응답을 합성 곱하며 잔향 별로 동일한 음원 데이터를 생성하였다. 마이크 입력신호의 샘플링 주파수는 16 kHz이며, 국소푸리에변환에서 Hanning 윈도우 및 윈도우 프레임 길이와 프레임 간 간격은 각각 64 ms, 16 ms로 설정하였다. 필터 및 매개변수의 초기 값에 대해서는 $W_{f, t} = 0$ 와 $A_{f, t} = 0$ 는 $I_{MxM}, K_{f, t = 0, m}^{x^{- 1}}$ 는 $10^{- 5} ∙ I_{LMxLM} {\bar{L}}_{f, t = 0, m} = O_{LMxM}$ 및 매개변수 { $α, β$ }는 {0.98, 0.99}로 설정하였다.

4.3 실험 결과

본 실험은 기존 온라인 IVA^[13]와 제안 알고리즘을 두 가지 지표를 통해 비교하였다. 두 방법 모두 암묵음원분리에서 사용되는 음원 파워 스펙트럼 밀도 $λ^{B S S}$ 의 값은 정규분포를 따른다는 가정으로 동일하게 설정하였다.

잔향 환경에서 초기 반사는 음성인식에 있어서 사람의 명료도를 향상시키고,^[23] 음성인식(ASR) 성능을 향상시킨다.^[24] 따라서 초기 반사음 및 잔향 시간 { $∆, L$ }의 값을 고려하여 잔향 시간이 짧은 0.2 s부터 비교적 긴 1 s의 실험 환경에서 SDR과 PESQ의 평균 값 성능을 평가한다.

위의 Table 2은 실험을 통해 가장 높은 성능을 나타내는 초기반사음과 잔향길이를 고려한 실험 결과이다. 기존 온라인 IVA보다 제안한 방법의 성능이 모두 높은 것을 확인 할 수 있다. Fig. 3은 초기 반사음 및 잔향시간에 따른 성능 추이 그래프이다. 첫 번째로 초기 반사음에 따른 성능 추이를 살펴보면, 초기 반사음의 길이를 $∆$ =1로 설정할 경우 가장 높은 성능을 나타내는 것을 확인할 수 있다. 또한 초기 반사음의 길이가 길수록 분리 성능이 낮아지는 것을 확인할 수 있다. 이러한 점은 초기 반사음을 길게 설정할 경우 반사되어 돌아오는 잔향신호 성분이 남아있기 때문에 성능이 낮아지게 된다. 두 번째로 잔향시간에 따른 성능 추이를 살펴보면, 잔향이 커짐에 따라 최적의 필터 길이가 길어짐을 알 수 있다. 즉 잔향에 영향이 클수록 고려해야하는 이전 시간의 입력 또한 길어진다는 것이다.

Table 2.

Source separation performance in terms of SDR, PESQ according to reverberation time.

Method	Online IVA	Proposed method
Method	SDR (dB) / PESQ	SDR (dB) / PESQ
0.2 s	5.93 / 2.35	7.77 / 2.60
0.4 s	1.60 / 0.97	5.18 / 2.28
0.6 s	0.33 / 0.86	3.13 / 2.06
0.8 s	-0.67 / 0.80	1.87 / 1.94
1 s	-1.19 / 0.78	0.82 / 1.87
average	1.12/1.15	3.75/2.15

https://cdn.apub.kr/journalsite/sites/ask/2021-040-05/N0660400513/images/ASK_40_05_13_F3.jpg

Fig. 3.

Online source separation performance according to late-reverberation and early reflection.

다양한 잔향 실험에서 기존의 온라인 분리 방법보다 SDR과 PESQ 모두 높은 성능을 확인할 수 있다. 하지만 온라인 방식은 시간경과에 따른 재귀적 방식을 사용하기 때문에 잔향의 영향이 큰 환경일수록 잔향의 영향이 적은 환경보다 성능이 낮아지는 것을 확인할 수 있다. 다음 실험은 시간 경과에 따른 SDR 및 PESQ의 성능을 통해 온라인 방식에서의 시간에 따른 각 온라인 분리방법의 암묵음 분리 성능을 살펴보았다. Fig. 4는 Fig. 3의 실험 결과를 통해 각 잔향 환경마다 높은 성능을 나타내는 최적의 초기 반사음과 잔향 시간을 설정하여 실험하였다. Fig. 4의 결과를 살펴보면, 기존의 Online-IVA는 잔향의 영향이 적은 환경(RT₆₀ = 0.2 s)에서는 시간에 따른 분리성능이 향상되지만, 잔향의 영향이 커질수록 제대로 분리가 되지 않는 것을 확인 할 수 있다. 기존의 방법과 비교하여, 제안한 방법을 살펴보면 초기 시간에는 분리 성능이 떨어지지만 시간의 경과에 따라서 분리 성능이 점차 향상되는 것을 확인할 수 있다. 상단의 Fig. 5 는 잔향 시간이 0.4 s인 실험 환경에서의 음원 분리 결과 스펙트로그램의 예시이다. 온라인 방식으로 인해 두 방법 모두 초기 시간에서는 신호의 분리가 뚜렷하게 나타지 않는다. 하지만 기존 방법(c)에서는 시간이 경과해도 목표 음원 신호에 가깝게 분리되지 않지만 제안 방법(d)에서는 목표 음원신호(b)에 가깝게 분리된 것을 확인 할 수 있다.

https://cdn.apub.kr/journalsite/sites/ask/2021-040-05/N0660400513/images/ASK_40_05_13_F4.jpg

Fig. 4.

Online source separation performance over time.

https://cdn.apub.kr/journalsite/sites/ask/2021-040-05/N0660400513/images/ASK_40_05_13_F5.jpg

Fig. 5.

(Color available online) Spectrogram of (a) a reverberant mixture, spectrogram of (b) a clean signal and spectrograms of separated signals obtained by (c) online IVA and (d) proposed method.

V. 결 론

본 연구에서는 공동 행렬대각화의 행렬 분해를 통해 잔향 성분에 대한 상관도를 줄이는 방법을 제안했고, 또한 온라인 암묵음원분리 및 잔향제거 알고리즘을 제안하였다. 실험 결과 제안된 온라인 방식은 잔향이 존재하는 다중화자 발화 환경에서 기존의 암묵음원분리 알고리즘보다 우수한 분리 성능을 보이는 것을 확인하였다.

Acknowledgements

이 논문은 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2020-0-00860, 음향기반 멀티-롤 지원 초소형 재난·안전용 센서 디바이스 및 재난상황 인식 기술 개발 및 2019-0-01376, 다중 화자간 대화 음성인식 기술개발).

References

P. Smaragdis,"Blind separation of convolve mixtures in the frequency domain," Neurocomput. 22, 21-34 (1998). 10.1016/S0925-2312(98)00047-2

T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, "Blind source separation exploiting higher order frequency dependencies," IEEE Trans. ASLP. 15, 70-79 (2007). 10.1109/TASL.2006.872618

N. Ono, "Stable and fast update rules for independent vector analysis based on auxiliary function technique," Proc. IEEE Workshop Appl. Signal Process. Audio Acoust. 189-192 (2011). 10.1109/ASPAA.2011.6082320

N. Ono and S. Miyabe, "Auxiliary-function-based independent component analysis for super-Gaussian sources," Proc. Int. Conf. Latent Variable Anal. Signal Separation, 165-172 (2010). 10.1007/978-3-642-15995-4_21

D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM Trans. ASLP. 24, 1626-1641 (2016). 10.1109/TASLP.2016.2577880

T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and B. H. Juang, "Blind speech dereverberation with multi-channel linear prediction based on short time fourier transform representation," Proc. ICASSP. 85- 88 (2008). 10.1109/ICASSP.2008.4517552

T. Yoshioka and T. Nakatani, "Generalization of multi- channel linear prediction methods for blind MIMO impulse response shortening," IEEE Trans. Audio, Speech Lang. Process. 20, 2707-2720 (2012). 10.1109/TASL.2012.2210879

T. Nakatani, C. Boeddeker, K. kinoshita, R. Ikeshita, M. Delcroix, and R. Haeb-Umbach, "Jointly optimal denoising, dereverberation, and source separation," IEEE/ACM Trans. ASLP. 28, 2276-2282 (2020). 10.1109/TASLP.2020.3013118

R. Ikeshitam N. Ito, Nakatani, and H. Sawada, "A unifying framework for blind source separation based on a joint diagonalizability constraint," Proc. Eur. Signal Process. Conf. 1-5 (2019). 10.23919/EUSIPCO.2019.890308730625339

R. Ikeshita, N. Ito, T.Nakatani, and H. Sawada, "Independent low-rank matrix analysis with decorrelation learning," Proc. IEEE WASPAA. 288-292 (2019). 10.1109/WASPAA.2019.8937171

K. Sekiguchi, Y. Bando, A. Nugraha, K. Yoshiim, and T. Kawahara, "Fast multichannel nonnegative matrix factorization with directivity-aware jointly-diagonalizable spatial covariance matrices for blind source separation," IEEE/ACM Trans. ASLP. 28, 2610-2625 (2020). 10.1109/TASLP.2020.3019181

M. T. Akhtar, T.-P. Jung, S. Makeig, and G. Cauwenberghs, "Recursive independent component analysis for online blind source separation," IEEE Int. Symp. Circuits Syst. 6, 2813-2816 (2012). 10.1109/ISCAS.2012.6271896

T. Taniguchi, N. Ono, A. Kawamata, and S. Sagayama, "An auxiliary-function approach to online independent vector analysis for real-time blind source separation," Proc. HSCMA. 107-111 (2014). 10.1109/HSCMA.2014.6843261PMC4490172

S.-H. Hsu, T. Mullen, T.-P. Jung, and G. Cauwenberghs, "Online recursive independent component analysis for real-time source separation of high-density EEG," Proc. IEEE Eng. Med. Biol. Soc. Conf. 3845-3848 (2014).

T. Yoshioka and T. Nakatani, "Dereverberation for reverberation-robust microphone arrays," Proc. Eur. Signal Process. Conf. 1-5 (2013).

T. Nakatani and K. Kinoshita, "A unified convolutional beamformer for simultaneous denoising and dereverberation," IEEE Signal Processing Letters, 26, 903- 907 (2019). 10.1109/LSP.2019.2911179

S.-I. Amari, A. Cichocki, and H. H. Yang, "A new learning algorithm for blind signal separation," Adv. Neural Inf. Process. Syst. 8, 752-763 (1996).

M. Woodbury, "Inverting modified matrices," Memorandum Rep. 42, MR0038136 (1950).

E. Vincent, R. Gribonval, and C. Févotte, "Performance measurement in blind audio source," IEEE Trans. Audio, Speech, and Lang. Process. 14, 1462-1469 (2006). 10.1109/TSA.2005.858005

A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, "Perceptual evaluation of speech quality (PESQ)-A new method for speech quality assessment of telephone networks and codecs," Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 2, 749-752 (2001).

T. Robinson, J. Fransen, D. Pye, J. Foote, and S. Renals, "WSJCAM0: A british english speech corpus for large vocabulary continuous speech recognition," Proc. ICASSP. 81-84 (1995).

J. B. Allen and D. A. Berkley, "Image method for efficiently simulating small-room acoustics," J. Acoust. Soc. Am. 65, 943-950 (1979). 10.1121/1.382599

S. Bradley, H. Sato, and M. Picard, "On the importance of early reflecꠓtions for speech in rooms," J. Acoust. Soc. Am. 113, 3233-3244 (2003). 10.1121/1.157043912822796

T. Nishiura, Y. Hirano, Y. Denda, and M. Nakayama, "Investigations into early and late reflections on distant-talking speech recognition toward suitable reverberation criteria," Proc. Interspeech, 1082-1085 (2007). 10.21437/Interspeech.2007-109

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Online blind source separation and dereverberation of speech based on a joint diagonalizability constraint

ABSTRACT

MAIN

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Table 1.

Glossary and definition of variables.

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

(23)

Fig. 1.

Diagonalizer matix P^f and observed mixture x^f,t structure.

(24)

(25)

(26)

(27)

(28)

(29)

(30)

(31)

(32)

(33)

(34)

(35)

(36)

(37)

(38)

(39)

(40)

(41)

(42)

(43)

(44)

(45)

(46)

(47)

(48)

Fig. 2.

(Color available online) Recording conditions of impulse response obtained from image method.

Table 2.

Source separation performance in terms of SDR, PESQ according to reverberation time.

Fig. 3.

Online source separation performance according to late-reverberation and early reflection.

Fig. 4.

Online source separation performance over time.

Fig. 5.

(Color available online) Spectrogram of (a) a reverberant mixture, spectrogram of (b) a clean signal and spectrograms of separated signals obtained by (c) online IVA and (d) proposed method.

Acknowledgements

References

Diagonalizer matix ${\hat{P}}_{f}$ and observed mixture ${\hat{x}}_{f, t}$ structure.