Abnormal signal detection based on parallel autoencoders

Kibae Lee; Chong Hyun Lee

doi:10.7776/ASK.2021.40.4.337

Preview

Research Article

The Journal of the Acoustical Society of Korea. 31 July 2021. 337-346
https://doi.org/10.7776/ASK.2021.40.4.337

Abnormal signal detection based on parallel autoencoders

병렬 오토인코더 기반의 비정상 신호 탐지

Kibae Lee¹

Chong Hyun Lee¹^*

이 기배¹

이 종현¹^*

¹제주대학교 해양시스템공학과

^{*Corresponding Author}

ABSTRACT

Detection of abnormal signal generally can be done by using features of normal signals as main information because of data imbalance. This paper propose an efficient method for abnormal signal detection using parallel AutoEncoder (AE) which can use features of abnormal signals as well. The proposed Parallel AE (PAE) is composed of a normal and an abnormal reconstructors having identical AE structure and train features of normal and abnormal signals, respectively. The PAE can effectively solve the imbalanced data problem by sequentially training normal and abnormal data. For further detection performance improvement, additional binary classifier can be added to the PAE. Through experiments using public acoustic data, we obtain that the proposed PAE shows Area Under Curve (AUC) improvement of minimum 22 % at the expenses of training time increased by 1.31 ~ 1.61 times to the single AE. Furthermore, the PAE shows 93 % AUC improvement in detecting abnormal underwater acoustic signal when pre-trained PAE is transferred to train open underwater acoustic data.

Keywords

Abnormal signal detection

Parallel autoencoders

Sequential learning

Imbalanced data

일반적으로 비정상 신호 탐지 연구에서는 데이터 불균형으로 인해 정상 신호 특징을 주된 정보로 사용한다. 본 논문에서는 비정상 신호의 특징을 학습하는 병렬 오토인코더를 이용한 효율적인 비정상 신호 탐지기법을 제안한다. 제안된 동일한 구조로 이루어진 병렬 오토인코더는 정상 신호와 비정상 신호에 대한 특징을 학습하는 정상 복원기와 비정상 복원기로 구성되며, 정상 및 비정상 데이터를 순차적으로 학습함으로써 불균형 데이터 문제를 효율적으로 해결할 수 있다. 뿐만 아니라 보다 높은 탐지성능 향상을 위해서 부가적인 이진 분류기가 추가될 수 있다. 공개된 음향데이터를 이용한 실험결과, 제안된 병렬 탐지모델의 학습시간이 단일 오토인코더 탐지모델과 비교하여 약 1.31 ~ 1.61배 늘어나지만, 최소 22 % 이상의 Area Under Curve(AUC) 향상을 보였다. 또한, 사전에 훈련된 병렬 오토인코더를 이용하여 수중 음향데이터를 전이학습한 결과 수중 비정상 신호 AUC 탐지성능을 93 % 이상 향상시킬 수 있음을 확인하였다.

키워드

비정상 신호 탐지

병렬 오토인코더

순차적 학습

불균형 데이터

MAIN

I. 서 론
II. 비정상 신호 탐지기법
III. 실험 및 결과
3.1 실험구성
3.2 비정상 음향신호 탐지
3.3 전이학습을 이용한 수중 비정상 신호 탐지
IV. 결 론

I. 서 론

자연재해, 군사공격, 기계적 결함 등의 회소 사건에 즉각적으로 대응하기 위해 비정상 신호 탐지의 필요성이 크게 대두되고 있다. 비정상 신호 탐지는 일반적인 통계적 특징 범주를 벗어나는 이상치 검출 문제로 정의될 수 있다. 하지만 데이터의 희소성과 다변 특성으로 인하여 분류모델 학습에 한계를 가진다. 이러한 이유로 불균형 데이터에 대한 효율적인 학습이 가능한 비정상 신호 탐지모델의 연구가 선행되어야 한다.

기존의 비정상 신호 탐지연구는 주로 자동화 산업장비의 결함 감지와 음향 관측을 통한 의료 진단을 위해 진행되고 있다.^[1,2,3,4] 이러한 연구들은 정상 신호에 대한 학습을 기초로 하는 단일 클래스 분류 혹은 오토인코더를 기반으로 수행된다.^[5,6,7] 대표적인 단일 클래스 분류에는 Deep Support Vector Data Description (Deep SVDD)^[5,6] 기법이 있으며, 이는 심층 신경망을 이용하여 특징 공간에서 정상 신호를 포함하는 구 경계를 탐색하는 방법이다. 오토인코더를 이용한 비정상 신호 탐지는 정상 신호에 대한 특징을 학습하여 입력에 따른 복원오차를 기반으로 비정상 여부를 판별하는 방법이다.^[5,7] 이와 같은 비정상 신호 탐지기법은 단일 신호원에 대한 정보만을 주로 학습하여 적용 범위가 제한된다. 또한, 비정상 신호에 대한 정보가 반영되지 않아 변칙적인 환경에서 탐지성능이 저하될 수 있다. 따라서, 효율적인 비정상 신호 탐지에는 정상 신호와 비정상 신호에 대한 학습이 동반되어야 한다.

본 논문에서는 비정상 신호 특징을 학습하는 효율적인 병렬 오토인코더 기반 비정상 신호 탐지기법을 제안한다. 병렬 오토인코더는 정상 신호와 비정상 신호에 대한 특징을 학습하는 동일한 구조의 정상 복원기와 비정상 복원기로 구성된다. 정상 복원기는 특징 공간에서 비정상 신호에 혼재된 정상 신호 성분을 추출하여 비정상 복원기가 온전한 비정상 신호를 학습할 수 있도록 한다. 추가적으로, 탐지성능의 개선을 위해 간단한 구조의 이진분류기를 함께 사용할 수 있다. 제안하는 비정상 신호 탐지모델은 정상 신호와 비정상 신호의 데이터 구성에 따른 순차적 학습을 수행하여 불균형 데이터를 효율적으로 학습한다. 끝으로, 본 논문에서는 공개된 데이터를 이용한 실험을 통해 기계음 데이터에 대한 비정상 신호 탐지성능을 기존의 방식과 비교하여 평가하며, 수중의 희소 데이터에 대하여 전이학습을 이용한 적용 가능성을 확인한다.

II. 비정상 신호 탐지기법

일반적으로 비정상 신호는 정상 신호에 혼재되어 나타나는 희소한 특징으로 정의된다.^[5,8] 따라서, 정상 신호와 비정상 신호는 특징 공간에서 Eqs. (1), (2)와 같이 표현될 수 있다.

(1)

X_{n} = S + N .

(2)

X_{a n} = (S + I) + N,

여기서 $X_{n}$ 과 $X_{a n}$ 은 특징 공간에서 표현된 정상 신호와 비정상 신호이며, $S$ 는 정상 신호에 대한 특징, $I$ 는 비정상 신호에 대한 특징을 나타낸다. 또한, $N$ 은 부가 잡음성분을 의미한다. 제안하는 비정상 신호 탐지기법은 정상 복원기와 비정상 복원기로 구성되는 병렬 오토인코더를 기초로 하여 Fig. 1과 같이 구현된다. 정상 복원기는 $X_{n}$ 에 대해 학습하여 정상 신호의 특징을 재구성한다. 학습이 완료된 정상 복원기는 $X_{a n}$ 에서 혼재된 정상 신호의 특징을 재구성하여 $\hat{S}$ 을 비정상 복원기의 학습에 제공한다. 비정상 복원기는 $X_{a n}$ 에 대해 학습하여 비정상 신호의 특징을 재구성한다. 추가적으로, 탐지성능 개선을 위해 비정상 복원기에 의한 재구성 특징 $\hat{I}$ 을 입력으로 하는 이진 분류기를 함께 사용할 수 있다. 여기서, 이진 분류기의 학습에는 복원기의 학습과 달리 정상과 비정상 신호가 모두 요구된다. 따라서, 앞서 학습이 완료된 비정상 복원기의 $X = [X_{n}, X_{a n}]$ 에 따른 재구성 특징 $\hat{I}$ 을 입력으로 분류결과 $\hat{y}$ 이 정상 신호와 비정상 신호에 대한 레이블 $y$ 와 일치하도록 학습한다. Fig. 1의 $L$ 은 각각의 복원기 및 이진 분류기의 학습을 위한 손실함수를 나타낸다. 본 논문에서는 정상 복원기와 비정상 복원기를 인코더 및 디코더를 포함하는 오토인코더로 구성하며, 이진 분류기는 오토인코더의 인코더와 동일한 구조에 완결 연결 층을 포함하여 간단히 구현한다. 이와 같이 구현된 비정상 신호 탐지모델은 앞서 기술된 바와 같이 3단계의 순차적 학습을 수행하여 불균형 데이터에 대해 효율적으로 학습할 수 있다. Fig. 2는 제안하는 비정상 신호 탐지모델의 순차적 학습 과정을 나타낸다. Fig. 2에서 $g_{n}$ 과 $f_{n}$ 은 정상 복원기의 인코더와 디코더, $g_{a}$ 와 $f_{a}$ 는 비정상 복원기의 인코더와 디코더, $g_{c}$ 는 이진 분류기를 나타낸다. 우선 $X_{n}$ 에 대하여 정상 복원기에 의한 재구성 특징 정보 $\hat{S} = g_{n} (f_{n} (X_{n}))$ 이 $S$ 와 유사하도록 학습한다. 정상 복원기의 학습에 적용되는 손실함수 $L (X_{n}, \hat{S})$ 는 $X_{n}$ 과 $\hat{S}$ 의 평균제곱오차로 Eq. (3)과 같이 계산된다.

(3)

L (X_{n}, \hat{S}) = \frac{1}{m k} \sum_{i = 0}^{m - 1} \sum_{j = 0}^{k - 1} {\{X_{n} (i, j) - \hat{S} (i, j)\}}^{2},

여기서 $X_{n} \in ℝ^{m \times k}, \hat{S} \in ℝ^{m \times k}$ 은 동일한 크기의 행렬로 표현된다. 대량의 정상 데이터로 학습된 정상 복원기는 $X_{a n}$ 에서 혼재된 정상 신호의 특징을 재구성할 수 있으며, 잡음 성분 $N$ 은 데이터 간 비의존적인 특징으로 인코딩 과정에서 제거된다.

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F1.jpg

Fig. 1.

Abnormal signal detection model based on Parallel AutoEncoder (PAE).

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F2.jpg

Fig. 2.

Sequential learning procedure for abnormal signal detection.

비정상 복원기는 $\hat{I} = f_{a} (g_{a} (X_{a n}))$ 이 $X_{a n}$ 과 $\hat{S}$ 의 차 $D$ 와 유사하도록 학습한다. $X_{a n}$ 과 $\hat{S}$ 의 차는 혼재된 정상 신호 성분을 제거함을 의미하여 Eq. (4)와 같이 나타낼 수 있다.

(4)

D = X_{a n} - \hat{S} = (S - \hat{S}) + I + N \approx I + N .

비정상 복원기의 손실함수 $L (X_{a n}, \hat{S}, \hat{I})$ 은 $D$ 와 $\hat{I}$ 의 평균제곱오차로 Eq. (5)와 같이 나타낸다.

(5)

L (X_{a n}, \hat{S}, \hat{I}) = \frac{1}{m k} \sum_{i = 0}^{m - 1} \sum_{j = 0}^{k - 1} {\{D (i, j) - \hat{I} (i, j)\}}^{2},

여기서 $D \in ℝ^{m \times k}, \hat{I} \in ℝ^{m \times k}$ 은 동일한 크기의 행렬로 나타낸다. 이와 같이 학습된 비정상 복원기는 입력 $X$ 에 대하여 비정상 신호 성분을 복원할 수 있다. 정상 복원기와 동일하게 $N$ 은 인코딩 과정에서 제거된다. 따라서, 정상 신호에 대한 비정상 복원기의 출력 $\hat{I} = f_{a} (g_{a} (X_{n}))$ 은 상대적으로 영행렬에 근접하여 비정상 신호와 크게 구별될 수 있다. 이진분류기는 비정상 복원기의 재구성 특징 $\hat{I}$ 을 이용하여 비정상 신호 탐지를 수행한다. 이진분류기 학습에 적용되는 손실함수 $L (y, \hat{y})$ 은 $y$ 와 $\hat{y} = g_{c} (\hat{I})$ 의 교차 엔트로피로 Eq. (6)과 같이 나타낸다.

(6)

L (y, \hat{y}) = - y \log (\hat{y}) - (1 - y) \log (1 - \hat{y}),

여기서 $y$ 는 정상 신호에 대해 ‘0’, 비정상 신호에 대해 ‘1’의 값을 나타낸다. 일반적으로 비정상 신호에 대한 데이터는 상대적으로 적다.^[5] 이러한 이유로 이진분류기 학습 과정에서 데이터 불균형에 따른 편향현상이 유발될 수 있다. 따라서, 본 논문에서는 정상 신호에 대한 데이터를 과소표집하여 편향현상을 방지한다.

앞서 서론에서 언급된 오토인코더를 이용한 일반적인 비정상 신호 탐지기법과 비교하여 제안하는 탐지기법은 병렬 오토인코더를 구성함으로써 학습시간이 증가된다.^[5,7] 제안된 정상 복원기와 비정상 복원기는 동일한 구조의 오토인코더로 학습시간은 데이터양에 비례하며, 이진분류기는 오토인코더의 인코더 구조를 사용하므로 동일한 데이터양에 대해 절반의 학습시간이 요구된다. 따라서, 정상 신호 데이터양과 비정상 신호 데이터양의 비율이 $r$ 인 경우, 제안하는 탐지모델은 단일 오토인코더를 이용한 탐지모델과 비교하여 약 ( $1 + 2 r$ )배 학습시간이 증가된다.

일반적으로 자연재해와 같이 발생 빈도가 매우 낮은 희소 데이터는 학습 데이터 부족에 의하여 불완전한 모델이 구현되는 문제를 유발할 수 있다. 제안된 비정상 신호 탐지 구조를 기반으로 전이학습을 이용하면 이러한 문제를 극복할 수 있다. Fig. 3은 제안된 비정상 신호 탐지 구조를 전이학습에 적용하는 방법을 도식화한 것이다.

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F3.jpg

Fig. 3.

Transfer learning to train abnormal signal detection model with sparse dataset.

III. 실험 및 결과

3.1 실험구성

제안하는 비정상 신호 탐지모델의 성능 평가를 위해 음향신호에 대한 실험을 수행한다. 실험에 사용되는 데이터는 16 kHz의 표본화율로 고정되며, 128개의 멜 대역 통과 필터와 1 s 단위 시간 윈도우 및 90 %의 오버랩이 적용된 멜 스펙트로그램으로 변환된다. 1 s 단위의 멜 스펙트로그램은 표준점수 정규화 과정을 거쳐 탐지모델에 입력된다. 제안하는 탐지모델의 학습을 위해 학습률 0.001의 Adam Optimizer가 사용되며 10 ~ 30의 epoch이 설정된다. Table 1은 실험에 사용되는 데이터 처리 및 탐지모델 학습을 위한 설정을 나타낸다.

Table 1.

Parameters and settings for data processing.

Audio data
Sampling rate	16.0 kHz
Mel spectrogram
Window Window length Overlap Number of band pass filters	Hanning 1 s 90 % 128
Network model
Normalization method Input matrix size (m, k) Optimizer Learning rate Epoch (Machine sound dataset) Epoch (Underwater acoustic dataset)	Standard score 32 × 128 Adam 0.001 10 30

비정상 신호 탐지모델을 구성하는 정상 복원기와 비정상 복원기는 합성곱 신경망 기반의 인코더와 디코더로 구성된 합성곱 오토인코더로 동일한 네트워크 구조를 가진다. 오토인코더의 인코더 네트워크는 32, 64, 128, 256, 512개의 합성곱 필터, 5, 5, 5, 3의 커널 크기, (1, 2), (1, 2), (2, 2), (2, 2), (2, 2)의 보폭으로 구성되는 5층의 은닉층을 보유한다. 여기서, 각각의 합성곱 층은 합성곱 연산 이후에 배치 정규화와 Rectified Linear Unit(ReLU) 활성화 함수에 대한 수행을 포함한다. 오토인코더의 병목은 40개의 합성곱 필터를 보유하는 합성곱 층으로 구성되어 인코딩된 특징이 길이 40의 잠재벡터로 표현된다. 오토인코더의 디코더 네트워크는 잠재벡터를 확장하기 위한 완전 연결 층을 우선적으로 포함하며, 이후 인코더를 미러링하는 5개의 역합성곱 층으로 구성된다. 비정상 신호 탐지모델의 이진분류기는 오토인코더와 동일하게 합성곱 신경망을 기반으로 구성되며, 오토인코더의 인코더 네트워크에 각각 128, 64, 32, 1개의 노드로 구성된 4층의 완전 연결 층이 추가된 구조이다. 이진 분류기의 학습에는 Eq. (6)과 같이 교차 엔트로피의 손실함수가 사용된다. Fig. 4의 (a)와 (b)는 각각 비정상 신호 탐지모델의 오토인코더와 이진분류기 구조를 나타낸다.

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F4.jpg

Fig. 4.

(Color available online) (a) Network architecture of autoencoder, (b) network architecture of binary classifier.

3.2 비정상 음향신호 탐지

본 논문에서는 비정상 신호 탐지모델의 성능 평가를 위해 DCASE2020 Challenge Task 2의 MIMII dataset에서 4종의 slide rail에 대한 정상 장비와 고장 장비의 기계음을 사용한다.^[9,10] 여기서, 정상 동작하는 기계음을 정상 신호, 고장 장비에 의한 기계음을 비정상 신호로 구분한다. 학습 및 평가 데이터는 기종에 따라 10초 단위의 음향 데이터 중 20 %를 무작위로 선택하여 평가 데이터로 할당하고 잔여 80 %의 데이터를 학습 데이터로 사용한다. 따라서, 학습 및 평가에 사용되는 정상 신호 데이터는 각각 25260 s, 8040 s, 비정상 신호 데이터는 각각 2780 s, 860 s로 Table 2와 같이 구성된다. 본 논문에서는 학습된 모델의 객관적인 성능 평가를 위해 기존의 단일 오토인코더 기반의 비정상 신호 탐지모델(Baseline AutoEncoder, Baseline AE)에 대한 성능을 동시에 평가한다. 성능 비교를 위해 사용되는 Baseline AE는 제안하는 알고리즘의 정상 복원기와 동일한 오토인코더 구조를 가지며, $X$ 의 입력에 따른 복원오차를 계산하여 탐지성능을 평가한다.^[5,7] 오토인코더의 복원오차 $ε$ 는 Eq. (7)과 같이 계산된다.

(7)

ε = \sqrt{\sum_{i = 0}^{m - 1} \sum_{j = 0}^{k - 1} {X (i, j) - \hat{S} (i, j)}^{2}} .

Table 2.

MIMII dataset for experiments.

Machine ID^[9]	Train data (s)		Test data (s)
Machine ID^[9]	Normal	Abnormal	Normal	Abnormal
00	8,720	3,210	960	350
02	8,720	2,410	960	260
04	3,910	1,610	430	170
06	3,910	810	430	80
Total	25,260	8,040	2,780	860

또한, 제안된 모델에서 병렬 오토인코더와 이진분류기를 개별적으로 사용하는 경우에 대해 성능을 비교한다. 실험에 사용되는 병렬 오토인코더와 이진분류기는 각각 Parallel AutoEncoder(PAE), Convolutional Neural Network(CNN)으로 명명한다. 병렬 오토인코더에 대한 탐지성능 평가는 Eq. (8)과 같이 출력 행렬 $\hat{I}$ 에 대한 Frobenius norm을 계산하여 수행한다.

(8)

∥ \hat{I} ∥_{F} = \sqrt{\sum_{i = 0}^{m - 1} \sum_{j = 0}^{k - 1} {|\hat{I} (i, j)|}^{2}} .

모델의 음향신호에 대한 비정상 신호 탐지성능은 불균형 데이터에 적합한 평가 방법인 Area Under the Curve(AUC)를 사용하여 수치화한다.^[10] 여기서, AUC는 Receiver Operating Characteristic(ROC) curve의 하위 면적을 의미한다. 또한, 탐지성능과 함께 모델에 따른 학습 소요시간을 동시에 평가한다. Fig. 5는 탐지모델에 따른 ROC curve를 보여주며, Table 3은 AUC 계산 결과와 학습 소요시간을 나타낸다. Table 3에서 학습 소요시간은 ‘NVIDIA GeForce GTX 1070’ GPU에서 구동되어 측정되었다. Fig. 5와 Table 3의 결과에서 정상 신호에 대한 데이터만 학습에 사용하는 Baseline AE의 AUC는 70 %로 계산된다. 이러한 결과는 정상 신호와 비정상 신호의 데이터를 모두 학습에 사용하는 CNN 기반 이진분류기의 AUC 88 %와 비교하여 상대적으로 낮은 탐지성능을 나타낸다. 반면에, 제안된 비정상 신호 탐지모델의 병렬 오토인코더에 대한 탐지성능은 92 %의 높은 AUC 수치를 나타내며, 이진분류기와 함께 사용할 경우 99 %의 우수한 성능을 확보할 수 있다. 이때 제안된 탐지모델의 학습시간은 일반적인 기법과 비교하여 단지 1.31 ~ 1.61배 증가된다.

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F5.jpg

Fig. 5.

(Color available online) ROC curves evaluated with machine sound dataset.

Table 3.

AUC and training time for detection models evaluated with machine sound dataset.

Detection model	Training time (s)	AUC
Baseline AE	3,120	70 %
Binary classifier (CNN)	897	88 %
Parallel AutoEncoder (PAE)	4,088	92 %
PAE + CNN	5,035	99 %

3.3 전이학습을 이용한 수중 비정상 신호 탐지

저주파 소나에 의해 관측되는 수중 음향 환경은 시간과 비용적 한계로 인해 대량의 데이터 확보에 어려움을 갖는다. 이러한 이유로 수중 희소 데이터에 대한 심층 신경망 알고리즘 적용을 위한 연구가 수행되고 있다.^[11,12,13] 본 논문에서는 희소 데이터에 대한 탐지성능 평가를 위해 수중 비정상 신호에 대한 탐지실험을 수행한다. 수중의 음향 환경은 파도와 같은 자연적 현상에 의한 잡음 외에 저주파 대역의 선박 엔진음이 큰 비중을 차지한다.^[14] 따라서, 본 논문에서는 ShipsEar database^[15]의 다양한 선종에 따른 선박 엔진음과 파도, 비 등 자연 현상에 의한 배경잡음을 정상 신호에 대한 데이터로 규정하여 사용한다. 또한, DOSITS audio gallery^[16]에 전시된 어뢰, 능동 소나, 해저 지진, 빙하 균열에 의한 수중 음향 데이터를 비정상 신호로써 사용한다. Fig. 6은 실험에 사용되는 정상 신호와 비정상 신호의 대표적인 멜 스펙트로그램을 나타낸다. 수중 음향신호에 대한 비정상 신호 탐지모델의 학습 및 평가에 사용되는 정상 신호 데이터는 각각 1392 s, 336 s이며 비정상 신호 데이터는 각각 20 s, 48 s로 Table 4와 같다. 3.2절과 유사하게 정상 신호에 대한 수중 음향 데이터는 종류에 따라 4 s 단위의 음향 데이터 중 20 %를 무작위로 선택하여 평가 데이터로 할당하고 잔여 80 %의 데이터를 학습 데이터로 사용한다. 또한, 비정상 신호에 대한 수중 음향 데이터는 평가에 대한 신뢰성 확보를 위해 평가 데이터를 70 %의 높은 비율로 할당하고 잔여 30 %의 데이터를 학습 데이터로 사용한다.

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F6.jpg

Fig. 6.

(a) Mel spectrograms of normal signals, (b) Mel spectrograms of abnormal signals.

Table 4.

Underwater acoustic dataset for experiments.

Normal dataset^[15]
Data type	Train data (s)	Test data (s)
Ambient noise	116	28
Tug boat	116	28
Dredger	116	28
Mussel boat	116	28
Trawler	116	28
Motor boat	116	28
Yacht	116	28
Pilot boat	116	28
Sail boat	116	28
Passenger boat	116	28
Ocean liners	116	28
Ro-Ro ship	116	28
Total	1,392	336
Abnormal dataset^[16]
Data type	Train data (s)	Test data (s)
Torpedo	8	20
Active sonar	4	12
Earthquake	4	8
Ice cracking	4	8
Total	20	48

탐지모델의 성능 평가는 앞서 3.2절과 동일하게 총 4종의 탐지모델에 대하여 수행되며, 병렬 오토인코더와 이진 분류기에 대한 전이학습 유무에 따른 성능을 평가한다. 여기서, 전이학습은 3.2절에서 기계음 데이터에 의해 학습된 모델을 사용하며, 3.1절에 나타낸 구성에 따라 동일하게 학습된다. 또한, 시계열 탐지 결과에 대하여 결정시간에 따른 성능을 함께 평가한다. 기본적인 결정시간은 0.1 s이며 0.5 s와 1 s 내의 다수결정 결과를 출력한다. Fig. 7은 제안하는 탐지모델의 전이학습 유무와 결정시간에 따른 ROC curve를 보여주며, Fig. 8은 일반적인 탐지모델과 병렬 오토인코더를 이용한 결정시간에 따른 ROC curve를 나타낸다. 또한, Table 5는 4종의 비정상 신호 탐지모델에 대한 전이학습 유무와 결정시간에 따른 AUC와 학습시간을 나타낸다. Table 5에서 학습시간은 수중 음향 데이터에 대한 학습시간을 의미한다. Fig. 7과 Table 5에서 전이학습이 사용되지 않는 경우에 학습 데이터의 부족으로 57 % 이하의 AUC 성능을 나타내며, 0.5 s의 결정시간을 적용할 경우 69 %의 AUC를 확보할 수 있다. 단, 이진분류기를 단독으로 사용할 경우 결정시간과 관계없이 AUC 50 %의 최저성능을 나타낸다. 반면에 전이학습을 이용한 경우 제안된 탐지모델에 대한 93 %의 AUC 성능을 나타내며, 0.5 s의 결정시간을 적용하여 100 %의 AUC 성능을 확보할 수 있다. 또한, Fig. 8과 Table 5에서 제안된 모델의 병렬 오토인코더만 사용하여 84 %의 AUC 성능을 보이며, 0.5 s와 1 s의 결정시간을 적용하여 98 %, 100 %의 AUC 성능을 확인할 수 있다. 이는 일반적인 단일 오토인코더 기반의 탐지모델과 비교하여 약 22 %에서 31 %의 향상된 AUC를 나타낸다. 추가적으로, Fig. 9와 같이 선종에 따른 선박 엔진음과 어뢰, 해저 지진에 의한 음향 신호를 이용하여 가상 시나리오에 따른 신호를 생성하고 탐지 결과를 확인하였다. Fig. 9의 (a)는 가상 시나리오에 따라 생성된 시계열 데이터의 멜 스펙트로그램을 나타내며, (b)와 (c)는 제안하는 비정상 신호 탐지모델에서 병렬 오토인코더를 이용한 결과와 이진분류기를 함께 사용한 결과를 나타낸다. Fig. 9의 (b)에서 탐지를 위한 임계값은 16.94로 Fig. 8의 0.1 s 결정시간에 대한 ROC curve에서 true positive rate와 false positive rate의 차가 가장 높게 나타내는 지점으로 설정된다. Fig. 9에서 제안된 탐지모델이 공통적으로 양호한 성능을 보이며, 특히 16에서 20 s 사이에 순간적으로 강한 세기의 선박 엔진음을 정상 신호로 구분하는 것을 확인 할 수 있다. Fig. 9의 (b)에서 결정시간이 0.1 s에서 1 s로 증가함에 따라 혼동횟수가 감소하여 우수한 탐지결과를 확보할 수 있다. 또한, Fig. 9의 (c)에서 이진분류기를 함께 사용할 경우 0.5 s의 결정시간에 대해 (b)에서 1 s의 결정시간에 대한 결과와 유사한 성능을 확보할 수 있다.

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F7.jpg

Fig. 7.

(Color available online) ROC curves with and without transfer learning.

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F8.jpg

Fig. 8.

(Color available online) ROC curves of abnormal reconstructor and baseline model according to decision time.

Table 5.

AUC and training time according to transfer learning and decision time.

Detection model	Training time (s)	Decision time (s)	AUC
Baseline AE	318	0.1	62 %
		0.5	67 %
		1.0	72 %
			Transfer learning
			(used)	(not used)
CNN	8	0.1	76 %	50 %
		0.5	82 %	50 %
PAE	325	0.1	84 %	53 %
		0.5	98 %	67 %
		1.0	100 %	73 %
PAE+CNN	334	0.1	93 %	57 %
		0.5	100 %	69 %

https://static.apub.kr/journalsite/sites/ask/2021-040-04/N0660400410/images/ASK_40_04_10_F9.jpg

Fig. 9.

(Color available online) (a) Mel spectrogram generated with hypothetical scenario, (b) detection results with the abnormal reconstructor, (c) detection results with the abnormal reconstructor and binary classifier.

IV. 결 론

본 논문에서는 병렬 오토인코더를 이용한 비정상 신호 탐지기법을 제안하였다. 기존의 비정상 신호 탐지기법은 데이터 불균형의 이유로 정상 신호에 대한 특징을 주된 정보로써 사용한다. 반면에, 제안하는 비정상 신호 탐지기법은 비정상 신호에 대한 특징을 함께 학습하는 병렬 오토인코더를 사용하여 더욱 효율적인 탐지를 가능하게 한다. 동일한 구조로 구성되는 병렬 오토인코더는 정상 신호와 비정상 신호에 대한 특징을 학습하는 정상 복원기와 비정상 복원기로 구성되며, 정상 및 비정상 데이터를 순차적으로 학습하여 데이터 불균형에 의한 문제를 해결한다. 이러한 순차적 학습과정에서 정상 복원기는 비정상 신호에 혼재된 정상 신호 성분을 추출하여 비정상 복원기의 효율적인 학습을 가능하게 한다. 추가적으로, 간단한 구조의 부가적인 이진분류기를 함께 적용하여 탐지성능을 보다 향상시킬 수 있다. 공개된 음향데이터를 이용한 비교실험에서 제안하는 탐지모델이 기존의 방식과 비교하여 약 1.31 ~ 1.61배의 학습시간을 소요하나, 최소 22 % 이상의 AUC 향상을 나타내었다. 또한, 사전에 학습된 탐지모델에 수중 음향데이터를 전이학습하여 93 % 이상의 AUC 탐지성능을 확인하였다. 추가적으로, 시계열 데이터에 대해 0.5 s에서 1 s의 결정시간을 적용하여 실험 데이터에서 100 %의 성능 확보가 가능함을 확인하였다. 이와 같이 제안된 탐지모델은 비정상 신호에 대한 특징을 기반으로 탐지를 수행하여, 보다 변칙적이고 복잡한 환경에서 적용이 가능할 것이라 기대한다.

Acknowledgements

이 논문은 2020학년도 제주대학교 교원성과지원사업에 의하여 연구되었음.

References

D. Y. Oh and I. D. Yun, "Residual error based on anomaly detection using auto-encoder in SMD machine sound," Sensors. 18, 1308 (2018). 10.3390/s18051308

K. Suefusa, T. Nishida, H. Purohit, R. Tanabe, T. endo, and Y. Kawaguchi, "Anomalous sound detection based on interpolation deep neural network," Proc. IEEE ICASP. 271-275 (2020). 10.1109/ICASSP40776.2020.9054344

R. Lang, R. Lu, C. Zhao, H. Qin, and G. Liu, "Graph- based semi-supervised one class support vector machine for detecting abnormal lung sounds," Applied Mathematics and Computation, 364, 124487 (2020). 10.1016/j.amc.2019.06.001

R. Banerjee and A. Ghose, "A semi-supervised approach for identifying abnromal heart sounds using variational autoencoder," Proc. IEEE ICASP. 1249-1253 (2020). 10.1109/ICASSP40776.2020.9054632

G. Pang, C. Shen, L. Cao, and A. V. D. Hengel, "Deep learning for anomaly detection: A review," ACM Computing Surveys (CSUR), 54, 1-38 (2021). 10.1145/3439950

L. Ruff, R. A. Vandermeulen, L. Deecke, S. A. Siddiqui, A. Binder, E. Muller, and M. Kloft, "Deep one-class classification," Proc. Int. Conf. on machin learning (PMLR), 4393-4402 (2018).

S. Pidhorskyi, R. Almohsen, D. A. Adjeroh, and G. Doretto, "Generative probabilistic novelty detection with adversarial autoencoders," Advances in Neural Information Processing Systems, 31, 6823-6834 (2018).

Y. Koizumi, Y. Kawachi, and N. Harada, "Unsupervised detection of anomalous sound based on deep learning and the Neyman-Pearson lemma," IEEE/ACM Trans. on Audio, Speech, and Lang. Process. 27, 212-224 (2018). 10.1109/TASLP.2018.2877258

H. Purohit, R. Tanabe, K. Ichige, T. Endo, Y. Nikaido, K. Suefusa, and Y. Kawaguchi, "MIMII dataset: sound dataset for malfunctioning industrial machine investigation and inspection," Detection and Classification of Acoustic Scenes and Events, 209-213 (2019). 10.33682/m76f-d618

Y. Koizumi, Y. Kawaguchi, K. Imoto, T. Nakamura, Y. Nikaido, R. Tanabe, H. Purohit, K. Suefusa, T. Endo, M. Yasuda, and N. Harada, "Description and discussion on DCASE2020 challenge task2: unsupervised anomalous sound detection for machine condition monitoring," Detection and Classification of Acoustic Scenes and Events, 81-85 (2020).

H. Yang, S. Byun, K. Lee, Y. Choo, and K. Kim, "Underwater acoustic research trends with machine learning: General background," J. Ocean Eng. Technol. 34, 147-154 (2020). 10.26748/KSOE.2020.015

H. Yang, K. Lee, Y. Choo, and K. Kim, "Underwater acoustic research trends with machine learning: Passive SONAR applications," J. Ocean Eng. Technol. 34, 227-236 (2020). 10.26748/KSOE.2020.017

H. Yang, S. Byun, K. Lee, and K. Kim, "Underwater acoustic research trends with machine learning: Active SONAR applications," J. Ocean Eng. Technol. 34, 277-284 (2020). 10.26748/KSOE.2020.018

R. J. Urick, Principles of Uunderwater Sound (Peninsula, Westport, 1993), pp. 181-200.

D. S. Dominguez, S. T. Guijarro, A. C. Lopez, and A. P. Gimenez, "ShipEar: An underwater vessel noise database," Applied Acoustics, 113, 64-69 (2016). 10.1016/j.apacoust.2016.06.008

K. J. V. Raposa, G. Scowcroft, J. H. Miller, D. R. Ketten, and A. N. Popper, "Discovery of sound in the sea: Resources for educators, students, the public, and policymakers," in Handbook of The Effects of Noise on Aquatic Life 2, edited by A. N. Popper and A. Hawkins (Springer, New York, 2016).

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Abnormal signal detection based on parallel autoencoders

ABSTRACT

MAIN

(1)

(2)

(3)

Fig. 1.

Abnormal signal detection model based on Parallel AutoEncoder (PAE).

Fig. 2.

Sequential learning procedure for abnormal signal detection.

(4)

(5)

(6)

Fig. 3.

Transfer learning to train abnormal signal detection model with sparse dataset.

Table 1.

Parameters and settings for data processing.

Fig. 4.

(Color available online) (a) Network architecture of autoencoder, (b) network architecture of binary classifier.

(7)

Table 2.

MIMII dataset for experiments.

(8)

Fig. 5.

(Color available online) ROC curves evaluated with machine sound dataset.

Table 3.

AUC and training time for detection models evaluated with machine sound dataset.

Fig. 6.

(a) Mel spectrograms of normal signals, (b) Mel spectrograms of abnormal signals.

Table 4.

Underwater acoustic dataset for experiments.

Fig. 7.

(Color available online) ROC curves with and without transfer learning.

Fig. 8.

(Color available online) ROC curves of abnormal reconstructor and baseline model according to decision time.

Table 5.

AUC and training time according to transfer learning and decision time.

Fig. 9.

(Color available online) (a) Mel spectrogram generated with hypothetical scenario, (b) detection results with the abnormal reconstructor, (c) detection results with the abnormal reconstructor and binary classifier.

Acknowledgements

References