Postprocessing method using reverberation smoothing and Wiener mask for active sonar reverberation suppression algorithm based on non-negative matrix factorization

Seokjin Lee

doi:10.7776/ASK.2025.44.6.608

Preview

Research Article

The Journal of the Acoustical Society of Korea. 30 November 2025. 608-619
https://doi.org/10.7776/ASK.2025.44.6.608

Postprocessing method using reverberation smoothing and Wiener mask for active sonar reverberation suppression algorithm based on non-negative matrix factorization

잔향 평활화와 위너 마스크를 활용한 비음수 행렬 분해 기반 능동소나 잔향제거 기법의 후처리 방법

Seokjin Lee¹^*

이 석진¹^*

¹경북대학교 전자전기공학부

^{*Corresponding Author}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0/):

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

In this paper, we present a study on improving the performance of active sonar reverberation suppression based on Non-negative Matrix Factorization (NMF). NMF is a technique that decomposes a non- negative matrix into the product of two non-negative matrices. In reverberation suppression, this method decomposes the magnitude spectrogram of the input signal into two components: the target echo and the reverberation matrices. While conventional approaches utilize only the separated target echo matrix to recover the desired signal, this study proposes a post-processing method that utilizes both the target echo and reverberation components to enhance reverberation suppression performance. Specifically, the proposed method smooths the reverberation component and constructs a Wiener mask to suppress reverberation. The effectiveness of the proposed method was verified through simulations, demonstrating an improvement in the signal-to-noise ratio of up to 4 dB compared to conventional techniques.

Keywords

Active sonar

Reverberation suppression

Non-negative Matrix Factorization (NMF)

Postprocessing

본 논문에서는 비음수 행렬 분해 기반의 능동 소나 잔향 제거 기법의 성능을 개선하는 연구를 진행하였다. 비음수 행렬 분해 기법은 하나의 비음수 행렬을 두 비음수 행렬의 곱으로 분해하는 기법으로, 잔향 제거 기법에서는 이를 활용하여 입력 신호의 크기 스펙트로그램을 두 행렬 성분, 즉 표적 반향 성분과 잔향 성분으로 분리한다. 기존의 기법에서는 이와 같이 분리된 표적 반향 성분만을 이용하여 원하는 신호를 획득하는 반면, 본 연구에서는 표적 반향 성분과 잔향 성분을 모두 활용하여 잔향 제거 성능을 더욱 향상시키는 후처리 기법에 대해 연구하였으며, 이를 달성하기 위하여 잔향 성분을 평활화하고 위너 마스크를 구성하여 잔향을 제거하는 기법을 제안한다. 본 연구에서는 제안하는 기법의 효과를 검증하기 위하여 시뮬레이션을 진행하였으며, 기존 기법 대비 최대 4 dB의 신호대잡음비 향상을 얻을 수 있었다.

키워드

능동 소나

잔향 제거

비음수 행렬 분해

후처리

MAIN

I. 서 론
II. 비음수 행렬 분해 기반의 잔향 제거 알고리즘
2.1 비음수 행렬 분해의 기본 원리
2.2 비음수 행렬 분해와 음원 분리 기법
2.3 비음수 행렬 분해 기반의 잔향 제거
III. 제안하는 후처리 기법
3.1 시간-주파수 마스크 기반의 후처리 기법
3.2 잔향 성분 평활화
IV. 시뮬레이션
4.1 시뮬레이션 환경
4.2 시뮬레이션 결과
V. 결 론

I. 서 론

선박 혹은 잠수함 등의 함정이 수중에서 표적을 탐지하기 위해서는 주로 음파를 활용한 소나 시스템을 사용한다. 소나 시스템은 표적이 내는 소음을 수신하여 표적을 정위할 수도 있지만, 원거리의 표적 위치와 침로를 탐지하기 위해서는 음파를 송신한 후 표적에 맞고 돌아오는 반향을 탐지하는 능동소나를 활용한다.

소나 시스템이 신호의 세기를 조절할 수 없는 수동소나와 달리, 능동소나 시스템은 송신하는 신호의 세기를 직접 조절할 수 있다는 장점이 있다. 신호의 세기를 조절할 수 있다는 것은 신호대잡음비를 원하는 대로 조절하여 탐지 거리를 확보할 수 있다는 장점이 된다.^[1] 원거리의 표적을 탐지하기 어려운 이유는 표적으로부터의 반향이 음파의 전파 특성에 의해 거리에 따라 감쇠되어 충분한 신호대잡음비를 확보하기 어렵기 때문인데, 송신 음파의 세기를 증가시키면 신호대잡음비를 확보할 수 있기 때문이다.^[1]

위와 같은 특성을 활용하면 송신 음파의 세기를 증가시켜 탐지 거리를 증가시킬 수 있지만, 이와 같은 이득을 항상 취할 수 있는 것은 아니다. 송신 음파의 세기를 증가시키면 주변으로부터의 원하지 않는 반사음들, 즉 잔향의 세기도 함께 증가하기 때문이다. 송신 음파의 세기가 상대적으로 작을 때에는 잡음이 잔향보다 더 주요한 탐지방해요인이 되지만, 송신 음파의 세기가 커지게 되면 잔향도 함께 커지게 되며, 이 경우 잡음이 아닌 잔향이 주요 탐지방해요인이 된다. 따라서, 원거리의 표적을 탐지하거나 표적의 반사강도가 작은 경우 이와 같이 잔향을 제거하는 기술이 필요하다.

수중음향 신호처리 분야에서는 이와 같이 능동소나에서 잔향을 효과적으로 제거하기 위한 연구를 지속적으로 수행해왔다. 적응신호처리 등의 신호처리 기술이 발전되었을 때에는 이를 활용한 자기회귀모델 기반의 사전-백색화기반의 잔향 제거 기법이 개발되었다.^[2] 또한, 신호처리 분야에서 주성분 분석 기반의 신호 분석 기법이 개발되었을 때에는 이를 활용한 주성분 역산 기반의 능동 소나 잔향 제거 기법이 개발되었다.^[3] 2000년대 초반 이후 음원 분리 기법으로 비음수 행렬 분해 기법이 개발되어 음악 혹은 음성 신호를 분리하는 데에 적용된 바 있으며,^[4,5] 최근에는 이를 기반으로 한 능동소나 잔향 제거 기법이 개발되어 활용되고 있다.^[6,7,8] 비음수 행렬 분해 기법을 활용하여 최초로 개발된 잔향 제거 알고리즘은 연속파 펄스를 활용하는 시스템에 적용할 수 있도록 개발되었으나,^[6] 이후 이를 선형 주파수 변조 펄스에도 활용할 수 있도록 확장되었는데,^[7] 특히 이 확장된 알고리즘은 기존 알고리즘^[6]을 코어 알고리즘으로 활용하면서 전/후처리의 추가를 통해 선형 주파수 변조 펄스로 확장할 수 있는 특징이 있다.

이와 같은 비음수 행렬 분해 기반의 잔향 제거 기법은 음향 신호에 대한 음원 분리 기법에 기반을 두고 개발되었다. 다음 장에서 후술할 바와 같이, 비음수 행렬 분해^[9,10] 기법은 하나의 비음수 행렬을 두 비음수 행렬의 곱으로 분해하는 기법이다. 음향 신호 분리 기법의 경우, 입력 음향 신호를 시간-주파수 영역의 크기 성분으로 나타내면 2차원의 비음수 행렬이 되기 때문에, 이를 두 행렬의 곱으로 분해하는 방법을 활용한다. 이 경우 분리된 성분 또한 시간-주파수 영역의 크기 성분만 표현하게 되며, 이를 복원하는 과정에서 별도의 후처리 과정이 필요하게 된다. 초기에 개발된 알고리즘에서는 원하는 신호 성분에 대한 결과를 출력 신호의 크기값으로 활용하고, 위상은 입력 신호의 값을 그대로 사용하는 방법을 사용하였으나,^[4,5] 이후 개발된 알고리즘에서는 입력 신호를 원하는 신호 성분과 원하지 않는 방해 신호 성분의 에너지 비율로 나누는 위너 마스크 기법을 활용한 바 있으며,^[11,12] 일부 응용 분야에서는 기존의 방법보다 위너 마스크를 활용하는 방안이 더 우수한 성능을 보이는 것을 보여주었다.

잔향 제거 기법에서 활용되는 기존의 비음수 행렬 분해 기법들^[6,7,8]은 초기의 음원 분리 알고리즘에서 활용되었던 방법, 즉 원하는 표적 반향 신호의 성분만을 활용하는 기법을 활용하고 있으며, 연구 과정에서 이와 같은 후처리 과정에 대해 특별히 고찰하지는 않았다. 본 연구에서는 이러한 점에 착안하여 기존의 비음수 행렬 분해 기반의 잔향 제거 기법의 후처리를 개선하고자 한다. 본 연구에서 제안하는 기법은 다른 음원분리 기법에서 일부 좋은 성능을 보였던 위너 마스크를 활용하는 것과, 능동소나에서 활용되는 Continuous False Alarm Rate(CFAR)^[13] 기법에서 영감을 얻은 잔향신호 평활화를 적용하는 것을 주요 아이디어로 하여 도출되었다.

본 논문의 구조는 다음과 같다. 2장에서는 음원 분리 관점에서의 비음수 행렬 분해에 대한 고찰과, 기존의 비음수 행렬 분해 기반의 잔향 제거 기법에 대한 요약을 기술한다. 3장에서는 연속파 펄스를 다루는 잔향 제거 기법에 대하여 제안하는 후처리 방법을 기술하고, 4장에서는 시뮬레이션을 통하여 효과를 검증한다.

II. 비음수 행렬 분해 기반의 잔향 제거 알고리즘

2.1 비음수 행렬 분해의 기본 원리

비음수 행렬 분해 알고리즘은 주어져 있는 하나의 비음수 행렬 $V \in ℝ_{+}^{K \times N}$ 로 부터 다음과 같은 관계를 만족하는 두 비음수 행렬 $W \in ℝ_{+}^{K \times R}$ 및 $H \in ℝ_{+}^{R \times N}$ 을 추정하는 기법이다.^[9,10]

(1)

V \approx WH = WH + E,

여기서 에러 행렬 $E \in ℝ^{K \times R}$ 은 가능한 작은 값을 가진다. 위와 같은 비음수 행렬 W와 H를 추정하기 위해서는, 다음과 같이 V와 WH 사이의 거리함수 $D (V ∣ WH)$ 를 각 W, H 행렬에 대해 교대로 최적화하는 작업을 수행한다.^[10]

(2)

W \leftarrow {argmin}_{W} D (V ∣ WH),

(3)

H \leftarrow {argmin}_{H} D (V ∣ WH),

여기서 거리함수 $D (V ∣ WH)$ 로는 유클리드 거리 함수, 쿨백-라이블러 발산 함수, 이타쿠라-사이토 발산 함수 등이 사용되며, 예를 들어 다음과 같이 정의되는 쿨백-라이블러 발산 함수를 활용하는 경우,^[10]

(4)

D (V ∣ WH) = \sum_{i, j} \{(V)_{i, j} \log \frac{(V)_{i, j}}{(WH)_{i, j}} - (V)_{i, j} + (WH)_{i, j}\},

Lee와 Seung이 제안한 곱셈 갱신법을 적용하면 Eqs. (2)와 (3)의 갱신식은 다음과 같이 구해진다.^[10]

(5)

(W)_{k, r} \leftarrow (W)_{k, r} \frac{\sum_{n} (H)_{r, n} \frac{(V)_{k, n}}{(WH)_{k, n}}}{\sum_{n} (W)_{r, n}},

(6)

(H)_{r, n} \leftarrow (H)_{r, n} \frac{\sum_{k} (W)_{k, r} \frac{(V)_{k, n}}{(WH)_{k, n}}}{\sum_{k} (W)_{k, n}},

여기서 $(A)_{k, n}$ 의 표현은 행렬 A 의 $(k, n)$ 번째 원소를 의미한다. 비음수 행렬 분해 기법은 Eqs. (5)와 (6)의 갱신식을 수렴할 때까지 반복하여 두 행렬 W와 H를 추정하게 된다.

2.2 비음수 행렬 분해와 음원 분리 기법

만약 어떤 행렬 V가 두 행렬 V_P, V_R 의 합으로 구성되어 있다고 가정하면, Eq. (1)의 비음수 행렬 분해 모델은 Fig. 1과 같이 각 신호 성분에 해당하는 1-랭크 행렬의 합으로 해석할 수 있다. 이와 같은 점에 착안하여 비음수 행렬 분해 기법을 음원 분리에 적용하려는 연구가 꾸준히 진행되고 있다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440606/images/ASK_44_06_06_F1.jpg

Fig. 1.

Non-negative matrix factorization model for source separation.

음향 신호는 2차원 비음수 행렬이 아니기 때문에, 비음수 행렬 분해 기법을 적용하기 위해서는 이를 2차원 비음수 행렬로 변환하여야 한다. 음원 분리 기법에서는 음향 신호에 대하여 단시간 푸리에 변환을 적용하여 시간-주파수 영역의 2차원 행렬, 즉 스펙트로그램으로 변환한다. 이렇게 얻어진 스펙트로그램은 복소수 값이기 때문에 이에 대한 절대값 연산을 통해 크기 값을 취하여 2차원 비음수 행렬 V를 얻는다. 이를 분해한 두 행렬 W, H 또한 비음수 행렬이 되므로, 각 행렬의 부분을 곱해서 얻어진 V_P, V_R 또한 비음수 행렬이 된다. 따라서, V_P 및 V_R 행렬을 이용하여 원하는 신호를 얻어내는 후처리 과정이 필요하다.

초기의 비음수 행렬 분해 기반 음원분리 기법에서는 다음과 같이 원하는 신호 성분의 크기 V_P 만을 사용하여 원하는 신호의 스펙트로그램을 복원하였다.^[4]

(7)

S_{P} = (\sum_{r \in R_{P}} w_{r} h_{r}) \otimes e^{j ∠ S},

여기서 $w_{r}$ 과 $h_{r}$ 은 각각 W 행렬의 $r$ 번째 열벡터와 H 행렬의 $r$ 번째 행벡터를 의미하며, $R_{P}$ 는 원하는 신호 성분에 해당하는 기저 벡터 번호의 집합을, S와 S_P는 각각 입력 신호와 원하는 신호의 복소 스펙트로그램을 나타낸다. 단시간 푸리에 역변환을 S_P에 적용하여 시간축의 신호로 변환하면 원하는 신호를 복원해 낼 수 있다.

2.3 비음수 행렬 분해 기반의 잔향 제거

Lee가 개발한 비음수 행렬 분해 기반의 잔향 제거 기법^[6]은 Fig. 2와 같이 입력 음향 신호의 크기 스펙트로그램을 활용하여 표적 반향 성분을 추출하는 알고리즘이다. 이 잔향 제거 기법에서는 표적 반향 기저 행렬 V_P와 잔향 기저 행렬 V_R을 추정함에 있어서 서로 다른 비용 함수를 적용하는 것을 주요 아이디어로 하며, V_P를 추정할 때에는 거리 함수 $D (V ∣ WH)$ 와 시간 연속성 제약조건, 그리고 시간 길이 제한 제약조건을 사용하고, V_R을 추정할 때에는 거리 함수 $D (V ∣ WH)$ 만을 사용하여 이를 추정한다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440606/images/ASK_44_06_06_F2.jpg

Fig. 2.

Non-negative matrix factorization-based active sonar reverberation suppression method.

거리 함수로는 쿨백-라이블러 함수 등을 활용할 수 있으나, 최근 개발된 알고리즘에서는 쿨백-라이블러 함수, 유클리드 거리 함수, 그리고 이타쿠라-사이토 함수를 모두 포괄하는 베타-발산 함수를 활용한 바 있다.^[14] 임의의 값 $x$ 와 $y$ 에 대한 베타-발산 함수 $D (x | y)$ 는 다음과 같이 정의된다.

(8)

D_{β} (x ∣ y) = \{\begin{array}{l} x \log \frac{x}{y} - x + y & if β = 1 \\ \frac{x}{y} - \log \frac{x}{y} - 1 & if β = 0 \\ \frac{x^{β}}{β (β - 1)} + \frac{y^{β}}{β} - \frac{x y^{β - 1}}{β - 1} & o.w. \end{array} .

Eq. (8)의 베타-발산 함수는 𝛽 값에 따라 조절되는 거리 함수로, 𝛽=0, 𝛽=1, 𝛽=2 일 때 각각 이타쿠라-사이토 함수, 쿨백-라이블러 함수, 유클리드 거리 함수와 같아진다. 잔향 성분 V_R을 구성하는 기저 행렬 W_R과 H_R은 V와 WH 사이의 거리 함수 $D (V ∣ WH)$ 만을 최소화하는 방법으로 추정되며, 이는 다음의 두 갱신식을 반복적으로 적용하여 수행된다[상세한 도출 과정은 Reference [14]에서 확인할 수 있다].

(9)

W_{R} \leftarrow W_{R} \otimes \frac{\{V \otimes (WH)^{\cdot (β - 2)}\} H_{R}^{T}}{(WH)^{\cdot (β - 1)} H_{R}^{T}},

(10)

H_{R} \leftarrow H_{R} \otimes \frac{W_{R}^{T} \{V \otimes (WH)^{\cdot (β - 2)}\}}{W_{R}^{T} (WH)^{\cdot (β - 1)}},

여기서 ⊗는 두 행렬의 각 원소끼리의 곱셈을, A^.𝛽는 행렬 A의 각 원소에 대한 𝛽 거듭제곱을 나타낸다.

또한, 표적 반향 성분 V_P은 두 기저 행렬 W_P와 H_P 에 의해 구성되며, 그 중 H_P는 다음과 같이 추정 거리 함수 $D (V ∣ WH)$ 외에 시간 연속성 비용 함수 $C_{T} (H_{P})$ 및 시간 길이 제한 비용 함수 $C_{L} (H_{P})$ 을 함께 적용한 비용함수를 사용하여 최적화된다.

(11)

C_{P} (H_{P}) = D (V ∣ WH) + α C_{T} (H_{P}) + γ C_{L} (H_{P}),

여기서 𝛼와 𝛾는 각 비용함수에 대한 가중치 상수이다. 각 비용함수에 대한 미분을 구하면 다음과 같이 얻어진다(역시 상세한 도출 과정은 Reference [14]에서 확인할 수 있다).

(12)

\nabla_{H_{P}} C_{E, β} (W, H) = \underset{= : \nabla_{H_{P}}^{+} C_{E, β} (W, H)}{\underset{⏟}{W_{P}^{T} (WH)^{. (β - 1)}}} - \underset{= : \nabla_{H_{P}}^{-} C_{E, β} (W, H)}{\underset{⏟}{W_{P}^{T} \{V \otimes (WH)^{. (β - 2)}\}}},

(13)

\nabla_{H_{P}} C_{T} (H_{P}) = \frac{4 N H_{P}}{\underset{= : \nabla_{H_{P}}^{+} C_{T} (H_{P})}{\underset{⏟}{H_{P}^{. 2} 1_{N \times N}}}} - \underset{= : \nabla_{H_{P}}^{-} C_{T} (H_{P})}{\underset{⏟}{[2 N \frac{Δ_{2} H_{P}}{H_{P}^{. 2} 1_{N \times N}} + \frac{2 N H_{P} \otimes \{{(Δ H_{P})}^{. 2} 1_{N \times N}\}}{{(H_{P}^{2} 1_{N \times N})}^{. 2}}]}},

(14)

{[\nabla_{H_{P}} C_{L} (H_{P})]}_{r, n} = \underset{= : {[\nabla_{H_{P}}^{+} C_{L} (H_{P})]}_{r, n}}{\underset{⏟}{\sum_{m = n}^{n + l_{n} - 1} {\{\frac{\exp ({[{\bar{H}}_{P}]}_{r, m})}{\sum_{i = 1}^{N} \exp ({[{\bar{H}}_{P}]}_{r, i})}\}}^{2}}} - \underset{= : {[\nabla_{H_{P}}^{-} C_{L} (H_{P})]}_{r, n}}{\underset{⏟}{\sum_{m = n}^{n + l_{n} - 1} \frac{\exp ({[{\bar{H}}_{P}]}_{r, m})}{\sum_{i = 1}^{N} \exp ({[{\bar{H}}_{P}]}_{r, i})}}},

여기서 𝛥H_P는 H_P 행렬에서 이를 우측으로 한칸 이동시킨 행렬을 뺀 것이며, 𝛥₂H_P는 H_P행렬을 좌측으로 한칸 이동시킨 행렬에서 H_P행렬을 우측으로 한칸 이동시킨 행렬을 뺀 값이다. 또한, ${\bar{H}}_{P}$ 행렬은 다음과 같이 H_P 행렬을 시간 축에 따라 $l_{n}$ 길이만큼 시간 평균을 취한 행렬이다.

(15)

{[{\bar{H}}_{P}]}_{r, n} = \sum_{m = n - l_{n} + 1}^{n} {[H_{P}]}_{r, m} .

위에서 얻은 미분식을 활용하여 H_P의 갱신식은 다음과 같이 수행된다.

(16)

H_{P} \leftarrow H_{P} \otimes \frac{\{\begin{array}{r} \nabla_{H_{P}}^{-} C_{E, β} (W, H) + α \nabla_{H_{P}}^{-} C_{T} (H_{P}) \\ + γ \nabla_{H_{P}}^{-} C_{L} (H_{P})\} \end{array}\}}{\{\begin{array}{r} \nabla_{H_{P}}^{+} C_{E, β} (W, H) + α \nabla_{H_{P}}^{+} C_{T} (H_{P}) \\ + γ \nabla_{H_{P}}^{+} C_{L} (H_{P}) \end{array}\}} .

W_P 행렬은 송신 파형의 도플러 레플리카 신호들의 주파수 특성이기 때문에, 사전에 주어진 정보로 초기화된 이후 갱신되지 않는다. 따라서, Eqs. (9), (10), 그리고 (16)을 반복하면 각 기저 행렬을 추정할 수 있고, 수렴이 끝난 이후 표적 반향 성분의 크기 스펙트로그램 V_P는 다음과 같이 얻어진다.

(17)

V_{P} = (\sum_{r \in R_{P}} w_{r} h_{r}) = W_{P} H_{P} .

그리고 이렇게 얻어진 크기 스펙트로그램에 Eq. (7)과 같이 입력 신호의 위상을 적용하여 시간 축의신호를 복원함으로써 표적 반향 신호를 얻어낸다.^[14]

III. 제안하는 후처리 기법

3.1 시간-주파수 마스크 기반의 후처리 기법

앞서 살펴본 바와 같이, Reference [14]를 포함한 기존의 비음수 행렬 분해 기반 잔향 제거 기법들은 Eq. (17)과 같이 표적 반향 성분의 추정 결과, 즉 V_P=W_PH_P만을 활용하여 원래의 신호를 복원한다. 본 논문에서는, 이와 같은 기존 알고리즘에서는 잔향 신호에 대한 추정 결과, 즉 V_R=W_RH_R을 전혀 활용하지 않는 점에 착안하여, 잔향 신호 성분을 활용하여 성능을 향상시킬 여지가 있을 것이라 예상하고 이를 연구하고자 하였다. 예를 들어, 표적 반향이 존재하지 않는 어느 시간-주파수 구간에서 핑 신호 성분 V_P 이 크게 추정되었다고 가정하자. 만약 해당 구간의 V_R 도 크게 추정이 되었다면, V_R을 활용한 후처리로 표적 반향 성분의 크기를 작게 하여 오차를 줄일 수 있을 것이다.

본 논문에서는 다음과 같이 시간-주파수 영역의 마스크를 활용하는 방법을 고려하였다.

(18)

S_{P} = M \otimes S,

여기서 M은 입력 스펙트로그램에 원소 단위로 곱해지는 마스크 행렬로, V_P와 V_R에 의해 결정된다.

이와 같이 시간-주파수 마스크를 활용하는 예시는 고전적인 음원 분리 알고리즘에서도 찾아볼 수 있다. 음향 및 음성 분리 알고리즘으로 널리 활용되었던 DUET^[15] 혹은 CASA^[16] 등의 알고리즘의 경우가 그러한데, 이와 같은 알고리즘들에서는 이진 마스크를 활용하여 음원을 분리한다. 이는 다음과 같은 가정을 토대로 하고 있다. 두 음원 신호 $s_{p} (t)$ 와 $s_{r} (t)$ 가 혼합된 입력 신호 $s (t)$ 가 존재할 때, 이를 창 함수 기반의 단시간 푸리에 변환을 적용하여 시간-주파수 영역으로 변환한 스펙트로그램을 각각 S_P, S_R 및 S라 하자. 이 때, $(k, n)$ 번째 시간-주파수 빈에 대해서 다음과 같은 식이 성립한다고 가정한다.^[15]

(19)

{(S_{P})}_{k, n} {(S_{R})}_{k, n} \approx 0 .

Eq. (18)은 혼합 신호의 임의의 $(k, n)$ 번째 시간-주파수 빈의 값의 신호에 대해서 반드시 특정 음원 신호의 기여가 우세하고, 다른 신호의 기여는 무시할만큼 작다는 의미를 나타낸다. 이를 W-disjoint orthogonal 가정이라고 한다. 우리가 얻고자 하는 신호가 S_P라 가정할 때, CASA^[16]와 같은 알고리즘에서는 위와 같은 가정을 바탕으로 하여 다음과 같은 이진 마스크를 생성한다.

(20)

{(M_{B})}_{k, n} = \{\begin{cases} 1, if 20 \log_{10} (\frac{{|S_{P}|}_{k, n}}{{|S_{R}|}_{k, n}}) > θ \\ 0, otherwise \end{cases},

여기서 𝜃는 임의의 문턱값을 의미한다.

우리가 다루고 있는 수중음향 잔향 제거 문제의 경우 두 음원 신호는 각각 표적 반향 신호와 잔향 신호가 된다. 불행히도, 표적 반향과 잔향은 주파수 대역이 매우 유사하기 때문에, 위와 같은 W-disjoint orthogonal 가정이 성립한다고 보기 어렵다. 따라서, 우리는 Eq. (20)과 같이 강한 문턱치(hard threshold)를 적용하는 대신 다음과 같이 부드러운 문턱치(soft threshold)를 적용하여 마스크를 구성하였다.

(21)

{(M_{W})}_{k, n} = \frac{{|S_{P}|}_{k, n}}{{|S_{P}|}_{k, n} + {|S_{R}|}_{k, n}} = \frac{{(V_{P})}_{k, n}}{{(V_{P})}_{k, n} + {(V_{R})}_{k, n}} .

이는 최근 연구된 비음수 행렬 분해 기반 음원 분리 기법에서 사용되는 위너 마스크^[11,12]와 유사한 개념이며, Reference [11] 등에서는 개별 기저에 대해 마스크를 계산하고 있지만 본 논문에서는 표적 반향 성분과 잔향 성분으로 구분하여 계산하고 있다는 정도의 차이가 있다. 따라서, 본 논문에서도 이를 위너 마스크로 명명하였다.

3.2 잔향 성분 평활화

최근 활용되는 능동 소나 시스템에서, 정합 필터를 거친 능동 소나 수신 신호에서 표적 신호를 탐지하기 위해서는 신호대잔향비에 기반한 문턱값을 적용하며, 이를 Continuous False Alarm Rate(CFAR) 기법이라 한다.^[13] Fig. 3(a)에서 보는 바와 같이, CFAR 기법에서는 주변 신호 에너지의 평균을 취하여 잔향 신호의 에너지를 추정한 후, 이를 바탕으로 신호대잔향비를 계산한다. 이와 같이 평균값을 활용하는 경우 정확한 잔향에너지 대신 평활화된 잔향 에너지를 얻게 되지만, 그럼에도 불구하고 실제 시스템에서 CFAR 알고리즘의 효용성이 입증되어 널리 사용되고 있다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440606/images/ASK_44_06_06_F3.jpg

Fig. 3.

Ilustrative diagrams of SRR calculations for (a) CFAR and (b) proposed method.

본 논문에서는, 이와 같은 CFAR 알고리즘에서 영감을 얻어 잔향 성분 V_R을 평활화하는 기법을 적용하였다. 물론, CFAR에서 다루는 신호, 즉 정합 필터가 처리된 신호와 잔향 성분 V_R은 서로 다른 신호이기 때문에 이를 그대로 적용할 수는 없지만, CFAR 알고리즘의 효용성이 적어도 잔향 신호를 평활화하여 다루어도 괜찮을 수 있다는 하나의 좋은 예시가 될 수 있다. 이러한 관점에서, 각 시간-주파수 빈 별 신호대잔향비 행렬 𝜞를 다음과 같이 평활화된 잔향 성분을 활용하여 계산한다.

(22)

{({\bar{V}}_{R})}_{k, n} = \frac{1}{(2 M + 1)} \sum_{l = n - M}^{n + M} {(V_{R})}_{k, l},

(23)

(Γ)_{k, n} = \frac{{(V_{P})}_{k, n}}{{({\bar{V}}_{R})}_{k, n}} .

Eq. (23)의 신호대잔향비 행렬을 다음과 같이 활용하면 Eq. (21)과 같은 위너 마스크를 구성할 수 있다.

(24)

(M)_{k, n} = \frac{1}{1 + \frac{1}{(Γ)_{k, n}}} = \frac{{(V_{P})}_{k, n}}{{(V_{P})}_{k, n} + {({\bar{V}}_{R})}_{k, n}} .

제안하는 알고리즘을 정리하면 Table 1과 같이 요약된다. 기존의 알고리즘은 비음수 행렬 분해를 통해 얻어진 V_P 에 입력 신호의 위상값만을 적용하여 표적 반향 신호를 복원한 반면, 제안하는 알고리즘은 Eq. (24)와 같이 평활화된 잔향 성분을 활용한 위너 마스크를 구성하여 Eq. (18)과 같이 입력 스펙트로그램을 처리하는 것이 가장 큰 차이점이다.

Table 1.

Summary of the proposed algorithm.

NMF-based reverberation suppression algorithm with wiener mask and reverberation smoothing

Initialization: W_P is initialized with frequency structures of transmitted ping and its Doppler-shifted replicas. W_R, H_P, and H_R are initialized by absolute values of Gaussian random numbers.
Input: magnitude spectrogram

V \in ℝ_{+}^{K \times N}

of received signal.
Iterations:
1) W_R is updated using Eq. (9);
2) W is updated by W=[W_P∣W_R];
3) H_P is updated using Eqs. (12), (13), (14), (15), (16);
4) H_R is updated using Eq. (10);
5) H is updated by

H = {[H_{P}^{T} ∣ H_{R}^{T}]}^{T}

.
After convergence:
1) V_P and V_R are calculated by VP=W_PH_P and V_R=W_RH_R, respectively;
2)

{\bar{V}}_{R}

is calculated by Eq. (22);
3) M is calculated by Eq. (24);
4) output spectrogram S_P is calculated by Eq. (18), and estimated target echo is reconstructed by inverse Fourier transform.

IV. 시뮬레이션

4.1 시뮬레이션 환경

본 논문에서 제안하는 알고리즘의 효과를 검증하기 위하여 MATLAB을 활용한 PC 환경에서의 시뮬레이션을 수행하였다. 본 시뮬레이션 환경은 기본적으로 References [6] 및 [14]와 유사하게 구성되었으며, 잔향 신호 역시 기존 실험과 동일하게 Reference [17] 의 비-레일레이 분포 기반의 잔향 환경 모델을 활용하여 합성하였다. 소나 송수신기는 $2 V / c = 0.033$ 의 속력 $V$ 로 이동하면서 0.1 s 길이의 지속파 펄스를 송신하는 단상태 소나 송수신기로 가정하였다. 표적은 $f_{d} = 0.005 f_{0}$ 의 도플러를 가지도록 이동한다고 가정하였으며, 송수신기 및 표적의 이동 속력은 낮은-도플러 상황, 즉 잔향이 표적 탐지를 방해하는 상황을 가질 수 있도록 이와 같이 설정되었다.

잔향과 표적 반향을 포함하도록 생성된 5 s 길이의 수신 신호는 먼저 단시간 푸리에 변환을 활용하여 크기 스펙트로그램으로 변환된다. 이 때 사용된 창 함수는 75 % 중첩된 16 ms 길이의 해밍 윈도우이며, 주파수 빈은 128개가 되도록 변환하였다. 비음수 행렬 분해 파라미터인 표적 반향 기저의 개수는 17개, 잔향 기저의 개수는 60개로 설정하였으며, 시간 연속성 제약 조건의 가중치 𝛼는 0.001, 시간 길이 제약 조건의 가중치 𝛾는 0.1, 시간 길이 제한 파라미터 $l_{n}$ 은 0.1 s로 설정하였고, 거리 함수 베타-발산 함수의 파라미터 𝛽는 1.2로 설정하여 쿨백-라이블러 발산과 유클리드 거리 함수의 사이에 해당하는 특성을 가지도록 하였다. 제안하는 후처리 기법의 평활화 파라미터인 $M$ (Eq. (22) 참고)은 0.4 s로 설정하였다.

본 알고리즘의 성능을 비교 평가하기 위하여 기존의 비음수 행렬 분해 기반 잔향 제거(후처리 없음)^[14] 및 주성분 역산^[3] 기법과 비교하였다. 기존 비음수 행렬 분해 기반 기법의 파라미터인 기저 개수, 𝛼, 𝛾, $l_{n}$ , 그리고 𝛽는 모두 제안하는 기법과 동일하게 설정되었으며, 주성분 약산 기법의 파라미터인 고유값 문턱치는 잔향 에너지를 알고 있다는 가정을 통해 이상적인 값으로 설정하였다.

알고리즘의 성능에 주요한 영향을 미치는 잔향의 세기는 신호대잔향비가 –6 dB 인 환경부터 –18 dB 인 환경까지 3 dB 간격을 가지도록 설정되었으며, 각 신호 환경에 대해 다음과 같이 정의되는 출력 신호의 신호대잡음비를 성능 지표로 활용하였다.

(25)

S N R = \frac{\sum_{n} {|s_{e} (n)|}^{2}}{\sum_{n} {|s_{e} (n) - {\hat{s}}_{e} (n)|}^{2}},

여기서 $s_{e} (n)$ 는 잔향 및 잡음이 없는 이상적인 표적 반향 신호, 즉 정답 신호를 의미하고, ${\hat{s}}_{e} (n)$ 는 알고리즘의 출력 신호를 나타낸다. 이와 같은 출력 신호대잡음비는 각 신호 환경에 대해 100회의 몬테-카를로 시뮬레이션을 수행한 후 평균값을 취하여 산출되었다.

4.2 시뮬레이션 결과

Fig. 4는 각 신호대잔향비 환경에 대한 PCI,^[3] 기존의 NMF 기반 잔향 제거,^[14] 그리고 기존의 NMF 잔향 제거 기법에 위너 마스크[Eq. (21)]만을 취한 결과, 그리고 잔향 성분 평활화와 위너 마스크를 모두 적용한 제안하는 기법에 대한 결과를 도시하고 있다. 해당 그래프를 살펴보면, 잔향 평활화와 위너 마스크를 모두 적용한 제안하는 기법의 성능이 기존 NMF 잔향 제거 기법의 성능에 비해 1.5 dB ~ 4 dB 가량의 성능 향상이 있는 것을 확인할 수 있다. 특히, 잔향 성분 평활화를 적용하지 않고 위너 마스크만을 활용하는 경우에는 기존에 비해 성능이 향상되지 않는 반면, 잔향 성분 평활화를 함께 적용한 경우의 성능이 크게 향상되는 것을 확인할 수 있으며, 이는 잔향 성분 평활화가 성능 향상에 크게 기여하는 것을 의미한다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440606/images/ASK_44_06_06_F4.jpg

Fig. 4.

(Color available online) Comparison results of reverberation suppression performances for PCI,^[3] conventional NMF suppression,^[14] conventional NMF with Wiener (no smoothing), and the proposed algorithm.

제안하는 알고리즘의 성능에 영향을 주는 파라미터는 NMF 알고리즘의 파라미터인 𝛼, 𝛽, 𝛾, $l_{n}$ , 그리고 평활화 길이 파라미터인 $M$ 이 있다. 하지만 본 논문에서 NMF 코어 알고리즘은 기존의 논문과 동일하게 사용하였기 때문에 NMF 알고리즘의 파라미터인 𝛼, 𝛽, 𝛾, $l_{n}$ 에 대한 성능 영향을 살펴보는 것은 본 논문의 범위를 벗어나는 것으로 판단하여, 본 논문에서는 평활화 길이 파라미터인 $M$ 에 대한 성능 변화를 살펴보았다. 본 실험에서는 $M$ 이 송신 파형의 길이 (0.1 s)의 정수배가 되도록 0.1 s, 0.2 s, 0.3 s, 0.4 s, 0.5 s, 0.6 s로 설정하였으며, Fig. 5에 그 결과를 도시하였다. Fig. 5의 그래프를 살펴보면 $M$ 의 값이 0.1 s 일때를 포함한 모든 설정값에서 기존의 알고리즘에 비해 유의미한 성능 향상을 보이는 것을 확인할 수 있으며, 0.3 s ~ 0.6 s의 값이 비교적 좋은 결과를 보이는 것을 확인할 수 있다. 그 중에서도 0.4 s 및 0.5 s의 설정값이 가장 안정적인 성능을 보이며, 0.6 s의 경우 높은 SRR 환경(–6 dB, –9 dB)에서 성능 향상이 크지만 낮은 SRR 환경(–15 dB, –18 dB) 에서는 0.4 s 및 0.5 s의 설정값 대비 성능 향상이 없거나 혹은 더 낮은 성능을 보인다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440606/images/ASK_44_06_06_F5.jpg

Fig. 5.

(Color available online) Comparison results for the proposed algorithm in various smoothing parameters.

앞서 살펴본 SNR 향상이 실제 탐지에 미치는 효과를 살펴보기 위해서, $M$ 이 0.4 s 인 경우에 대해 정합 필터를 거친 이후에 대한 탐지 성능을 살펴보았다. Fig. 6은 각 알고리즘에 대해 1000 회의 몬테-카를로 시뮬레이션을 수행한 후, 각 알고리즘의 출력에 대해 정합 필터를 거쳐 얻은 결과에 다양한 문턱치를 적용하여 Receiver Operating Characteristic(ROC) 곡선을 구한 것이다. 도시의 편의성을 위해 낮은 오탐지율 구간(0 % ~ 10 %, –6 dB SRR의 경우는 0 % ~ 5 %) 에 대해서만 확대하여 도시하였다. Fig. 6의 그래프를 살펴보면 모든 입력 SRR 환경에서 유의미한 성능 향상을 보이는 것을 확인할 수 있으며, 특히 낮은 입력 SRR 환경에서 기존의 NMF 잔향 제거 기법보다 향상된 성능, 즉 동일한 오탐지율 조건에서 더 높은 탐지율 성능을 보이는 것을 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440606/images/ASK_44_06_06_F6.jpg

Fig. 6.

(Color available online) Comparison results of detection performance with ROC curve for (a) -9 dB, (b) -12 dB, (c) -15 dB, and (d) -18 dB SRR conditions.

Fig. 7은 –12 dB의 입력 SRR 조건에서의 입력 신호와 기존 NMF 잔향 제거 기법의 출력 신호, 그리고 제안하는 잔향 제거 기법의 출력 신호의 스펙트로그램을 도시하고 있다. Fig. 7(b)와 Fig. 7(c)의 결과를 비교해 보면 제안하는 알고리즘의 결과에서 표적 반향이 더욱 강하게 남아있는 것을 확인할 수 있다. 이는 잔향 성분에 일부 남아있던 표적 반향 성분이 잔향 성분 평활화 과정을 통해 제거되고, 이를 통해 줄어든 잔향 성분 만큼 위너 마스크를 적용하는 과정에서 표적 반향 성분의 에너지가 더 강화되는 효과를 얻은 것으로 추정된다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440606/images/ASK_44_06_06_F7.jpg

Fig. 7.

Examples of spectrograms of (a) input signal, (b) output of the conventional NMF, and (c) output of the proposed reverberation suppression algorithm for -12 dB SRR condition.

V. 결 론

본 논문에서는 비음수 행렬 분해 기반의 능동 소나 잔향 제거 기법의 성능을 개선하기 위하여 후처리 과정을 개선하는 연구를 진행하였다. 기존의 비음수 행렬 분해 기반 신호 분리 기법에서는 후처리과정, 특히 비음수 행렬 분해 기법을 통해 분석된 신호 성분을 어떻게 활용하여 원하는 신호를 더욱 효율적으로 얻어낼 것인지 그 과정에 대해서 충분히 고찰되지 않았으며, 본 논문에서는 이와 같은 부분을 개선하여 성능을 확보하는 연구를 진행하였다. 본 연구에서 제안하는 후처리 과정은 기존의 비음수 행렬 분해 기반의 신호 분리에서 사용되었던 신호대잡음비 기반 위너 마스크 기법을 토대로 하여, 수중음향 신호처리에서 활용되는 CFAR 기법에서 착안한 잔향 성분 평활화 아이디어를 적용하여 도출되었다.

본 논문에서 제안하는 비음수 행렬 분해 기반 잔향 제거 기법의 후처리 과정의 성능을 검증하기 위하여 PC 환경의 시뮬레이션을 활용한 몬테-카를로 반복 실험을 진행하였다. 본 논문에서 제안한 후처리 과정을 활용하지 않은 기존의 비음수 행렬 분해 기반 잔향 제거 기법과 논문에서 제안하는 기법을 비교하였을 때, 여러 입력 신호대잔향비 환경에서 약 1.5 dB ~ 4 dB 향상된 출력 신호대잡음비 성능을 획득할 수 있었으며, 알고리즘 파라미터에 대해서도 민감하지 않은 성능을 보이는 것을 확인하였다. 또한, 정합 필터를 활용한 탐지 성능 또한 유의미하게 개선되는 것을 확인하였다.

Acknowledgements

본 연구는 2025년 정부(방위사업청)의 재원으로 국방기술진흥연구소의 지원을 받아 수행된 물리 데이터 기반 지능형 소나 신호 탐지 기술 연구임(No. KRIT-CT-22-052, 물리데이터 기반 지능형 소나 신호 탐지 기술 연구).

References

L. E. Kinsler, A. R. Frey, A. B. Coppens, and J. V. Sanders, Fundamentals of Acoustics, 4th ed (John Wiley & Sons, Hoboken, 2000), pp. 456-464.

S. Kay and J. Salisbury, “Improved active sonar detection using autoregressive preshiteners,” J. Acoust. Soc. Am. 87, 1603-1611 (1990).

10.1121/1.399408

G. Ginolhac and G. Jourdain, “Principal component inverse algorihtm for detection in the presence of reverberation,” IEEE J. Oean. Eng. 27, 310-321 (2002).

10.1109/JOE.2002.1002486

T. Virtanen, “Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria,” IEEE Trans. Audio Speech Lang. Process. 15, 1066-1074 (2007).

10.1109/TASL.2006.885253

A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE. Trans. Audio Speech Lang. Process. 18, 550-563 (2009).

10.1109/TASL.2009.2031510

S. Lee and J.-S. Lim, “Reverberation suppression using non-negative matrix factorization to detect low- doppler target with continuous wave active sonar,” EURASIP J. Adv. Signal Process. 2019, 1-18 (2019).

10.1186/s13634-019-0608-6

G. Kim, K. Lee, and S. Lee, “Linear frequency modulated reverberation suppression using non-negative matrix factorization methods, dechirping trasnformation, and modulo operation,” IEEE Access, 8, 110720-110737 (2020).

10.1109/ACCESS.2020.3001865

G. Kim and S. Lee, “Reverberation suppression method for active sonar systems using non-negative matrix factorization with pre-trained frequency basis matrix,” IEEE Access, 9, 119800-119817 (2021).

10.1109/ACCESS.2021.3124509

D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, 401, 788-791 (1999).

10.1038/44565

D. D. Lee and H. S. Seung, “Algorithms for non- negative matrix factorization,” Proc. NeurIPS, 556- 562 (2001).

R. Jaiswal, D. FitzGerald, D. Barry, E. Coyle, and S. Rickard, “Clustering NMF basis functions using shifted NMF for monaural sound source separation,” Proc. ICASSP, 2011, 245-248 (2011).

10.1109/ICASSP.2011.5946386

C. Févotte, E. Vincent, and A. Ozerov, “Single-channel audio source separation with NMF: divergences, constraints and algorithms,” in Audio Source Separation, edited by S. Makino (Springer, Cham, 2018).

10.1007/978-3-319-73031-8_1

D. A. Abraham, Underwater Acoustic Signal Processing: Modeling, Detection, and Estimation (Springer, Cham, 2019), pp. 562-674.

10.1007/978-3-319-92983-5

S. Lee and G. Kim, “A Study on the active sonar reverberation suppression method based on non-negative matrix factorization with beta-divergence function” (in Korean), J. Acoust. Soc. Kr. 43, 369-382 (2024).

S. Rickard, “The DUET blind source separation algorithm,” in Blind Speech Separation, edited by S. Makino, T. Lee, and H. Sawada (Springer Netherlands, Dordrecht, 2007).

10.1007/978-1-4020-6479-1_8

C. Hummersone, R. Mason, and T. Brookes, “Ideal binary mask ratio: a novel metric for assessing binary-mask-based sound source separation algorithms.” IEEE Trans. Audio Speech Lang. 19, 2039-2045, 2011.

10.1109/TASL.2011.2109380

D. Abaham and A. Lyons, “Simulation of non-rayleigh reverberation and clutter,” IEEE J. Oceanic Eng. 29, 347-362 (2004).

10.1109/JOE.2004.828202

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Postprocessing method using reverberation smoothing and Wiener mask for active sonar reverberation suppression algorithm based on non-negative matrix factorization

ABSTRACT

MAIN

(1)

(2)

(3)

(4)

(5)

(6)

Fig. 1.

Non-negative matrix factorization model for source separation.

(7)

Fig. 2.

Non-negative matrix factorization-based active sonar reverberation suppression method.

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

Fig. 3.

Ilustrative diagrams of SRR calculations for (a) CFAR and (b) proposed method.

(22)

(23)

(24)

Table 1.

Summary of the proposed algorithm.

(25)

Fig. 4.

(Color available online) Comparison results of reverberation suppression performances for PCI,[3] conventional NMF suppression,[14] conventional NMF with Wiener (no smoothing), and the proposed algorithm.

Fig. 5.

(Color available online) Comparison results for the proposed algorithm in various smoothing parameters.

Fig. 6.

(Color available online) Comparison results of detection performance with ROC curve for (a) -9 dB, (b) -12 dB, (c) -15 dB, and (d) -18 dB SRR conditions.

Fig. 7.

Examples of spectrograms of (a) input signal, (b) output of the conventional NMF, and (c) output of the proposed reverberation suppression algorithm for -12 dB SRR condition.

Acknowledgements

References

(Color available online) Comparison results of reverberation suppression performances for PCI,^[3] conventional NMF suppression,^[14] conventional NMF with Wiener (no smoothing), and the proposed algorithm.