Deep learning based target recognition system under limited and imbalanced dataset for monostatic active sonar using range and bearing features

Yena You; Wonnyoung Lee; Seokjin Lee

doi:10.7776/ASK.2025.44.6.568

Preview

Research Article

The Journal of the Acoustical Society of Korea. 30 November 2025. 568-579
https://doi.org/10.7776/ASK.2025.44.6.568

Deep learning based target recognition system under limited and imbalanced dataset for monostatic active sonar using range and bearing features

소량 불균형 데이터셋의 거리 및 방위 특징을 활용한 딥러닝 모델 기반 단상태 능동 소나 표적 식별 시스템 연구

Yena You¹^‡

Wonnyoung Lee¹^‡

Seokjin Lee¹^*

유 예나¹^‡

이 원녕¹^‡

이 석진¹^*

¹경북대학교 전자전기공학부

^{*Corresponding Author}

^{‡These authors are equally contributed.}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0/):

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

This paper proposes a system for a automatic active sonar target classification system that utilizes target detection images in the bearing-range domain as input feature. These images are obtained by applying conventional active sonar signal processing techniquis such as beam-forming and matched filtering to the received signals. Deep Convolutional Neural Networks (DCNN) and Convolutional Recurrent Neural Network (CRNN) were employed as classifiers, and their target classification performance was compared with respect to the proposed input features. Two simulation datasets were generated using a simulator under a monostatic active sonar scenario, each assuming different ocean environments, and were used for model training. The performance of the proposed system was evaluated on validation datasets using accuracy as well as target and non-target F1-score as metrics. The experimental results demonstrate that the proposed features, which incorporate both bearing and long-range detection information, can be effectively exploited by neural network architectures regardless of the transmitted pulse type. Also, the meaningful target classification performance can be achieved even with a limited amount of imbalanced training data without the application of additional data augmentation.

Keywords

Active sonar

Automatic target recognition

Beam-forming

Matched filter

Neural network

본 논문은 능동 소나 시스템에서 원통형 배열 센서에 수신된 신호에 대해 빔 형성과 정합 필터와 같은 고전적인 능동 소나 신호처리 기법을 적용하여 얻은 거리-방위 영역의 표적 탐지 이미지를 특징으로 활용한 능동 소나 자동 표적 식별기 시스템을 제안한다. 이때 심층 합성곱 신경망(Deep Convolutional Neural Network, DCNN)과 합성곱 순환 신경망(Convolutional Recurrent Neural Network, CRNN)을 표적 식별기에 적용하였으며 제안하는 입력 데이터 특징에 대한 두 모델의 표적 식별 성능을 비교했다. 단상태 능동 소나 시스템을 가정하는 시뮬레이터 시나리오를 통해 얻은 두 시뮬레이션 데이터 세트를 사용하여 모델 학습을 수행하였고 각각의 데이터 세트는 서로 다른 해양 환경을 가정한다. 제안하는 시스템의 표적 식별 성능은 독립된 검증용 데이터 세트를 통해 얻은 정확도와 표적 및 비표적 F1 점수를 지표로 평가한다. 본 논문을 통해 송신 펄스의 유형과 무관하게 방위 및 장거리 탐지 정보를 포함하는 표적 탐지 이미지 특징을 신경망 구조에 활용할 수 있음을 확인하였으며 추가적인 데이터 증강 기법이 적용되지 않은 소량의 불균형 데이터만으로 유의미한 표적 식별 성능을 달성할 수 있음을 보였다.

키워드

능동 소나

자동 표적 식별

빔 형성

정합 필터

신경망 구조

MAIN

I. 서 론
II. 관련 연구 및 문제 정의
2.1 거리-방위 데이터에 대한 기계학습 기반의 표적 식별 기법
2.2 단일 센서 스펙트로그램에 대한 딥러닝 기반 표적 식별 기법
2.3 기존 연구의 한계점 극복 방안
III. 제안하는 시스템
3.1 표적 탐지 신호처리 설계
3.2 표적 식별 신경망 모델
IV. 실험 내용
4.1 시뮬레이션 데이터
4.2 학습 과정
V. 성능 지표 및 성능 평가
5.1 성능 지표
5.2 성능 평가
VI. 결 론

I. 서 론

수중 음향신호를 이용한 표적 탐지 방법은 직접 신호를 송신하여 표적에 반사된 반향신호를 분석하는 능동 소나와 별도의 신호 송신 없이 수중에 존재하는 음향신호를 수신하여 분석하는 수동 소나로 구분된다. 수동 소나는 신호를 송신하지 않기 때문에 탐지 플랫폼의 위치가 노출되지 않는 장점이 있다.^[1] 그러나 최근 잠수함과 수상함의 소음 저감 기술이 크게 발전함에 따라, 수동 소나만을 이용한 군사용 표적 탐지는 점점 어려워지고 있다.^[2] 이러한 추세에 대응하기 위해, 군에서는 능동 소나의 운용 비중을 확대하고 있으며 이를 활용한 표적 탐지 기술에 관한 연구도 활발하게 진행되고 있다. 한편, 능동 소나 신호에는 해수면, 해저, 부유물 등 다양한 산란체로부터 발생하는 잔향음과 배경 잡음이 포함된다. 이러한 요인들은 표적 반향 신호와 중첩되거나 유사한 특징을 나타내므로, 전통적으로 음탐사에 의존하는 방식만으로는 표적을 정확하게 식별하기 어렵게 만든다. 이러한 이유로, 음탐사를 보조하여 보다 효율적으로 표적을 탐지할 수 있는 기술의 개발이 요구된다.^[3]

최근 인공지능 기반 음향 신호 식별 기법에 관한 연구가 활발히 진행됨에 따라, 수중 음향 분야에서도 수신 신호를 표적과 비표적으로 구분하고 분류하는 연구가 확대되고 있다. Maryam et al.^[4]은 사전 배치한 금속성 구조물과 바위, 콘크리트 블록 등과 같은 4가지 종류의 반사체의 능동 소나 반향 신호를 선배열 센서를 통해 수집하고 정합 필터를 통해 얻은 거리-방위 데이터를 합성곱 신경망(Convolutional Neural Network, CNN) 을 통해 분류하는 기법을 제안한다. 이때, 신경망 구조의 완전 연결층을 극학습 기계(Extreme Learning Machine, ELM)으로 대체하고 메타 휴리스틱 최적화 기법을 결합하였다. 본 방식은 개선된 분류 정확도의 계산 효율성을 보였으나 사전 지정된 위치에 배치된 특정 반사체 종류에 대한 분류 성능만을 확인할 수 있다는 점에서 한계점이 있다. 거리-방위 데이터를 활용한 표적 분류 연구에서 Seo et al.^[5]은 빔 형성 및 정합 필터의 수행을 통해 얻은 거리-방위 영역 데이터의 사전 문턱값 이상의 신호만 검출 및 분류하던 기존의 탐지 기법에서 문턱값을 사용하지 않고 탐지 지점의 다층 분류를 통한 특징 추출 기법으로 표적을 분류하는 기법을 제안하여 고잡음 환경에서 사전 문턱값으로 인한 표적 성분 미탐 확률을 낮추는데 효과를 보였다. 이는 거리-방위 데이터 내 최대 지점을 기반으로 여러 관점에서 특징을 추출하여 데이터의 정보를 다차원으로 해석하는 특징 벡터를 제안하였다는 점에서 의의가 있다. 하지만 논문에서 활용한 서포트 벡터 머신(Support Vector Machine, SVM) 분류 기법은 데이터의 잠재적인 특징 학습이 어려워 주어진 입력 특징의 품질에 분류기 성능이 크게 의존한다. 또한 특징 추출이 수작업으로 수행되었다는 점에서 데이터의 동적 조건 반영이 어렵고 효율성이 떨어진다는 단점이 있다. You et al.^[6]은 잔향 신호와 군집 산란체의 반향 신호 및 잡음을 포함하는 능동 소나 시스템에서 Linear Frequency Modulation(LFM) 펄스에 대한 시뮬레이션 데이터를 생성하고 이에 단시간 푸리에 변환(Short Time Fourier Transform, STFT)을 적용하여 신경망 구조의 입력으로 활용한다. 해당 연구는 합성곱 순환 신경망(Convolutional Recurrent Neural Network, CRNN) 모델에 음향 신호 처리 기법에서 널리 사용되는 의사 레이블링 기법을 적용한 표적 식별 알고리즘을 제안하여 소량 불균형 특징을 가진 능동 소나 데이터에 대한 의사 레이블링 기법의 표적 식별 성능 개선 효과를 보였다. 그러나 이 방법은 LFM 펄스만을 송신 신호로 가정한다. LFM 펄스는 주파수가 선형적으로 변화하며 표적 반향이 기울어진 시간-주파수 패턴을 가지므로 논문에서 데이터 특징으로 활용한 스펙트로그램 상 표적 반향 신호와 배경 신호를 구분하기에 용이하다. 하지만 능동 소나 탐지에서는 LFM뿐만 아니라 다양한 형태의 펄스가 사용되는데 그중 Continuous Wave(CW) 신호는 주파수가 일정하여 도플러 편이가 작은 경우 스펙트로그램 상에서 반향이 송신 주파수 대역에 고정되어 나타난다. 이러한 특징으로 표적 반향 신호와 배경 잡음 및 잔향이 중첩되는 경우가 많아 스펙트로그램만으로 표적 신호를 식별하기에 어려움이 있다. 또한 위 논문은 빔 형성을 수행하지 않고 단일 센서만을 이용하였으므로 표적 신호의 존재 여부와 거리 추정은 가능하나 방위 추정에 어려움이 있고 배열 이득을 확보할 수 없어 장거리 탐지 성능이 제한되는 단점이 있다.

이에 본 논문에서는 시뮬레이터를 통해 무작위 위치에 생성되는 표적과 비표적 산란체들에 대하여 빔 형성을 통해 표적의 방위각을 추정하고 정합 필터를 통해 잔향과 잡음을 억제하여 이를 신경망 구조의 입력 데이터로 활용하는 시스템을 제안한다. 정합 필터 출력을 기반으로 하여 얻은 거리-방위 데이터는 송신 펄스의 형태에 의존하지 않으므로 다양한 송신 펄스를 단일 모델에 대응할 수 있다. 제안하는 시스템을 통해 여러 표적 탐지 상황의 환경 변화에 따른 일반화 성능을 갖춘 본 표적 식별 시스템을 통해 음탐사의 부담을 경감시키고 보다 효율적인 표적 탐지 및 식별이 가능할 것으로 기대된다.

II. 관련 연구 및 문제 정의

능동 소나 시스템에서의 표적 식별 과정은 크게 처리 대상이 되는 데이터를 확보하고 데이터 특징을 추출하는 단계와 추출된 특징 벡터를 기반으로 식별 과정을 수행하는 단계로 구분할 수 있다. 데이터 특징 추출 단계에서 얻게 되는 특징 벡터는 식별기가 반영할 수 있는 요소에 따라 다른 실질적 효용성을 가진다. 적은 양의 데이터만을 활용해야 하는 경우 제한된 정보량을 충분히 반영하는 특징 추출 기법과 표적과 비표적 간의 특징 차이를 적합하게 해석할 수 있는 식별기의 선택이 식별 성능의 확보에 핵심이 된다.

2.1 거리-방위 데이터에 대한 기계학습 기반의 표적 식별 기법

Seo et al.^[5]은 선배열 센서 데이터에 지연 합 빔 형성을 적용하고 정합 필터를 수행하여 얻은 거리-방위 데이터에 다중 층 처리기법을 적용하여 특징 벡터를 추출한다. 논문에서 제안하는 다중 층 처리 기법이란 표적이 하나만 존재한다고 가정하는 각 핑의 거리-방위 데이터에서 얻은 가장 강한 반향 신호 지점을 내부층 특징 추출과 교차층 특징 추출로 나누어 데이터의 특징 벡터를 확보하는 기법이다. 특징 추출을 위해 사용되는 층은 반향 신호의 최댓값 지점을 기준으로 각 층 간 최소 3 dB의 에너지 차이를 가지도록 한다. 내부층 특징은 각 층에서 중간값 특징, 분산 특징 그리고 왜도 특징으로 구성되고, 교차 층 특징은 근접하는 층 간의 중간값 비율 특징과 로그를 취한 분산의 크기 차이로 구성된다. 이때 내부층 특징의 분산 특징 $f_{v a r}$ 과 왜도 특징 $f_{s k e w}$ 은 중간값 특징 $f_{m e d}$ 을 기준으로 구한 값이다. 교차 층 특징의 중간값 비율 특징 $f_{s l o p e}$ 은 인접하는 모든 층 간의 $f_{m e d}$ 의 크기 비교를 통해 기울기의 상승 및 하강을 구분하는데 사용되며, 로그를 취한 각 층간의 분산 크기 차이 특징 $f_{v a r d i f f}$ 은 에너지 분포의 안정성 및 불규칙성을 드러낸다. 아래에 각 특징에 대한 수식을 나타냈다. 이때 $k$ 는 전체 층의 개수이며 $q = 1, . . ., k - 1$ 이다. $l$ 은 각 층에 포함된 데이터 샘플이며 $j$ 는 해당 층의 데이터 샘플 개수를 의미한다.

(1)

f_{m e d} = m e d i a n (l_{1,} l_{2}, . . ., l_{j}),

(2)

f_{v a r} = \frac{1}{j} \sum_{i = 1}^{j} {(l_{i} - f_{m e d})}^{2}

(3)

f_{skew} = \frac{\frac{1}{j} \sum_{i = 1}^{j} {(l_{i} - f_{m e d})}^{3}}{f_{var}^{3}},

(4)

f_{s l o p e} = f_{m e d_{q}} - f_{m e d_{q + 1}},

(5)

f_{v a r d i f f} = \log (f_{v a r_{q}}) - \log (f_{v a r_{q + 1}}) .

이러한 특징 벡터들을 SVM의 입력으로 사용하여 표적과 비표적 신호를 분류한다.^[5] Fig. 1(a)에 이에 대한 도식을 나타내었다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F1.jpg

Fig. 1.

(Color available online) Flowcharts for preprocessing procedures of (a) the system by Seo et al.,^[5] (b) the system by You et al.,^[6] and (c) the proposed system.

2.2 단일 센서 스펙트로그램에 대한 딥러닝 기반 표적 식별 기법

You et al.^[6]는 단일 센서 데이터에 STFT를 수행함으로써 얻은 스펙트로그램 형태의 데이터에 최소-최대 정규화 기법을 통한 이상 치 값 처리와 잘라내기 증강 기법을 적용하여 제안하는 자동 표적 식별 알고리즘의 입력으로 사용한다. 이때 제안하는 알고리즘은 의사 레이블링 기법을 기반으로 하여 신경망 네트워크인 CRNN 모델을 자동 식별기로 활용한 구조를 가진다. 의사 레이블링 기법이란 표기 데이터로 사전 학습된 교사 모델을 통해 미표기 데이터에 대한 확률적 레이블링 데이터를 얻고 이를 사용하여 다시 모델을 학습하는 준지도 학습 기법이다.^[7] 해당 논문은 제안하는 알고리즘의 활용을 통해 소량 불균형 특징을 가지는 능동 소나 시뮬레이션 데이터에 대한 표적 식별 성능을 개선할 수 있음을 보인다. Fig. 1(b)에 이에 대한 도식을 나타내었다.

2.3 기존 연구의 한계점 극복 방안

기존 연구의 SVM을 활용한 표적 식별기가 입력 데이터의 잠재 특징을 충분히 반영하지 못하는 한계점을 완화하고 다양한 종류의 송신 펄스를 다루는 일반화된 알고리즘의 제안하기 위해 본 논문은 능동 소나 시스템에 적합한 향상된 일반화 성능의 자동 표적 식별 시스템을 제안하고자 한다.

배열 센서를 통하여 수신한 신호에 빔 형성을 수행하고 정합 필터를 적용해 얻은 거리-방위 데이터를 통해 표적 신호의 방위각을 추정하고 높은 SNR이 확보된 표적 탐지 데이터를 식별기의 입력으로 사용하여 송신 펄스 유형을 기존 LFM에서 CW까지 확장하였다. 또한 표적 데이터와 비표적 데이터 각각의 시계열 잠재 특징을 자동으로 학습하고 분류하는 자동 표적 식별 시스템을 제안한다.

능동 소나의 경우 실험 데이터의 기밀성과 보안성으로 인해 실제 해상 데이터를 충분히 확보하기가 어려워 연구에 제약이 따른다. 이에 본 논문에서는 해상 환경을 모사한 시뮬레이션 데이터를 생성하여 표적 식별기의 입력 데이터로 활용하였다. Fig. 1(c)에 본 논문이 제안하는 시스템의 데이터 전처리 흐름도를 나타내었다.

III. 제안하는 시스템

3.1 표적 탐지 신호처리 설계

본 논문에서 능동 소나 환경을 군사용 선체 고정형 소나로 가정하였다. 선체 고정형 소나는 일반적으로 원통형 배열 센서를 사용하므로 시뮬레이션 데이터 또한 원통형 배열 센서를 가정하여 생성하였다. 이후, 원통형 배열로 수신된 신호에 대해 지연합 빔형성을 수행하여 빔 신호를 생성하고, 해당 빔 신호에 정합필터를 적용하여 방위별 표적 탐지 결과를 도시한다.

원통형 소나 배열에서 지연합 빔형성은 원하는 조향 방향에서 입사하는 신호가 위상 정합되도록 각 센서에 적절한 시간 지연을 부여하고, 이를 보정한 후 합산하는 방식으로 수행된다. 원통 배열은 반지름이 $r$ 인 원 위에 균일 간격으로 배치되어 있으며, 조향하고자 하는 방위각을 $θ_{0}$ 라고 할 때, 방위각에 해당하는 기준 센서를 중심으로 배열된 센서를 부채꼴의 현 구조로 근사하여 선형 배열 형태로 처리한다. 이와 같이 선형 배열로 근사하면 각 센서에 대해 중심 센서와의 위치 차이를 기반으로 지연 거리를 계산할 수 있다. 센서별 지연 거리 $Δ d_{q}$ 는 기준 방위각 $θ_{0}$ 와 각 센서 위치 $θ_{q}$ 의 차이에 의해 발생하며, Eq. (6)과 같이 정의된다.

(6)

Δ d_{q} = r [\cos (θ_{q} - θ_{0}) - \cos θ_{0}] .

센서별 시간 지연은 위의 지연 거리를 음속 c로 나누어 얻으며, 샘플 주파수 $f_{s}$ 를 곱하여 지연 샘플 수 $τ_{q}$ 로 변환한다. 이는 Eq. (7)과 같이 표현된다.

(7)

τ_{q} = \frac{Δ d_{q}}{c}, n_{q} = τ_{q} f_{s} .

계산된 지연 샘플을 각 센서 데이터에 적용한 뒤, 부엽 준위를 줄이기 위해 해밍 윈도우를 곱한다. 해밍 윈도우는 배열 길이가 $N$ 일 때 다음 Eq. (8)과 같이 정의된다.

(8)

w (n) = 0.54 - 0.46 \cos (2 π \frac{n}{N - 1}), 0 \leq n \leq N - 1 .

최종적으로, 시간 지연이 보상되고 해밍 윈도우가 적용된 센서 신호들을 합산하여 조향 방향의 빔 출력 신호를 얻는다.

정합 필터는 펄스 신호의 특성에 따라 상이한 기법을 적용하였다. CW 신호는 시간 축 해상도가 낮고 주파수 축 해상도가 우수하므로 시간 영역의 교차 상관 기반 탐지보다 FFT(Fast Fourier Transform)를 이용한 주파수 영역 탐지가 적합하다. 반면 LFM 신호는 시간 축 해상도가 높고 주파수 축 해상도가 제한적이므로, FFT 기반 기법 대신 교차 상관을 이용한 시간 영역 탐지를 적용하였다.^[8]

정합 필터는 일반적으로 수신 신호 $x (t)$ 와 송신 신호 $s (t)$ 의 교차 상관으로 정의되며, 아래의 Eq. (9)과 같이 표현된다.

(9)

y (t) = \int x (τ) s^{*} (τ - t) d τ .

그러나 표적의 기동으로 인해 발생하는 도플러 효과로 인해 수신 신호가 송신 신호에 비해 주파수 편이를 가지게 되면, 송신 신호와의 단순한 교차상관만으로는 최적의 상관 응답을 얻을 수 없다. 따라서 다양한 도플러 주파수 편이를 반영한 도플러 레플리카 뱅크를 구성하고, 각 레플리카와의 정합필터 출력을 비교함으로써 보다 정확한 탐지가 가능하다. 도플러 레플리카는 Eq. (10)과 같이 정의된다.

(10)

s_{f_{d}} (t) = s (t) e^{j 2 π f_{d} t}, f_{d} \in F .

도플러 편이가 반영된 레플리카에 대한 교차상관은 아래 Eq. (11)과 같다.

(11)

y (t; f_{d}) = \int x (τ) s_{f_{d}}^{*} (τ - t) d τ .

이렇게 얻어진 교차상관 결과 중에서 가장 큰 값을 탐지 결과로 선택한다.

CW 펄스는 단일 주파수 정현파로 구성되어 있기 때문에, Eq. (10)의 도플러 레플리카는 푸리에 변환의 커널과 동일한 형태가 된다. 따라서 Eq. (11)의 정합필터 연산은 푸리에 변환으로 간주될 수 있고, 푸리에 변환 연산은 고속 푸리에 변환을 통해 연산량을 줄일 수 있다. 따라서, 실제 시스템에서는 CW 펄스의 정합필터 연산을 고속 푸리에 변환으로 대체하여 사용하는 경우가 많으며, 본 논문에서도 이와 같이 CW 펄스의 정합 필터 연산을 수행하였다. 아래 Eq. (12)에 주파수 영역에서의 정합 필터를 나타내었다. 여기서 $X (f) = FFT {x (t)}$ , $S (f) = FFT {s (t)}$ 이며 정합필터 출력은 두 벡터의 원소별 곱으로 계산된다. 원소별 곱은 Hadamard 곱이라 부르며, 본 논문에서는 아래의 기호 ⊙로 나타내었다.

(12)

Y (f) = X (f) ⊙ S^{*} (f), y (t) = IFFT {Y (f)} .

CW와 LFM 신호에 대해 각각 상이한 방식의 정합필터를 적용한 후, 출력 결과에 중간값 필터를 통한 규준화를 수행하였다. 이는 펄스 종류에 따라 정합 필터의 출력 크기가 달라질 수 있으므로, 규준화를 통해 결과를 일정한 크기로 정규화함으로써 탐지 안정성을 확보한다. CW와 LFM은 모호성 함수 상에서 구조적으로 차이를 보이지만, 모델의 입력으로 사용되는 탐지 화면은 두 펄스 유형 간 유사한 형태를 가지므로, 제안하는 알고리즘은 두 신호 모두에서 유효한 탐지가 가능함을 확인하였다.

3.2 표적 식별 신경망 모델

심층 합성곱 신경망(Deep Convolutional Neural Network, DCNN) 모델은 합성곱 층과 풀링 층 그리고 완전 연결 층을 기본 구조로 하며 2차원의 이미지 형태의 입력 데이터에 대한 공간적 패턴을 일정하게 반영할 수 있는 신경망 구조이다.^[9] 대상의 위치나 크기에 무관하게 입력된 정보의 인접 픽셀 간의 지역적 특성을 반영하여 객체 인식 분야에 대한 높은 성능이 검증된 바 있으나 입력 데이터의 순서 관계를 반영하지 못하는 한계점을 지닌다.^[10]

합성곱 순환 신경망 모델은 합성곱 신경망과 순환 신경망(Recurrent Neural Network, RNN)이 결합된 신경망 구조이다. RNN 구조에서 은닉층의 피드백 구조와 게이트의 정보 선택 과정을 통해 DCNN의 한계점을 보완하여 데이터의 순서 관계적 특징을 효과적으로 반영한다. 이는 본 논문에서 표적 식별기 학습의 입력으로 사용하고자 하는 표적 탐지 결과 데이터가 가진 시간 순차적 특성을 반영하는데 적절한 모델 구조이다.^[11]

본 논문에서는 이미지 특징을 활용한 모델 학습에 일반적으로 활용되는 DCNN 구조와 더불어 학습 데이터의 시간 순차적 특징을 반영하는 CRNN 구조를 표적 식별기 학습에 활용한다. 제안하는 표적 탐지 결과 이미지 입력 데이터에 대한 두 모델 구조의 방위-시간 특징 반영을 비교하여 표적 식별 수행에 적합한 모델 구조를 확인하였다. 논문에서 적용한 구체적인 모델 네트워크 구조와 모델에 따른 표적 식별 시스템의 구성도를 각각 Table 1과 Fig. 2를 통해 확인할 수 있다. 이때 데이터의 시간 길이가 2 s일 때는 차원의 크기가 (30, 1, 256, 50), 1 s일 때는 (30, 1, 256, 25) 이다.

Table 1.

Network configuration summary.

(a) DCNN
Input	Shape : (30, 1, 256, 50), (30, 1. 256, 25)
CNN layer	Channel : 16 Kernel_size : 2 × 2, Stride: 1, Padding 1 Activation function : SiLU Maxpooling : 2 × 2
CNN layer	Channel : 32 Kernel_size : 2 × 2, Stride: 1, Padding 1 Activation function : SiLU Maxpooling : 2 × 2
CNN layer	Channel : 64 Kernel_size : 2 × 2, Stride: 1, Padding 1 Activation function : SiLU Maxpooling : 2 × 2
Dropout	Dropout : 0.5
Pool	AdaptiveAvgPooling
Fully-connected layer	Input feature : 64 Out feature : 2
Output	Shape : (30, 2)

(b) CRNN
Input	Shape : (30, 1, 256, 50), (30, 1. 256, 25)
CNN layer	Channel : 16 Kernel_size : 2 × 2, Stride: 1, Padding 1 Activation function : SiLU Maxpooling : 2 × 2
CNN layer	Channel : 32 Kernel_size : 2 × 2, Stride: 1, Padding 1 Activation function : SiLU Maxpooling : 2 × 2
CNN layer	Channel : 64 Kernel_size : 2 × 2, Stride: 1, Padding 1 Activation function : SiLU Maxpooling : 2 × 2
Dropout	Dropout : 0.5
Pool	AdaptiveAvgPooling
LSTM	Input size : 64 Hidden size : 10
Fully-connected layer	Input feature : 10 Out feature : 2
Output	Shape : (30, 2)

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F2.jpg

Fig. 2.

(Color available online) Schematic diagram of the signal processing and classification pipeline.

IV. 실험 내용

4.1 시뮬레이션 데이터

본 논문은 단상태 소나 시스템을 가정한 시뮬레이션 데이터를 생성하여 실험을 진행한다. 각각의 배열 센서가 표적 반향 신호와 해수면 및 해저와 같은 요인으로 인해 발생하는 잔향 신호, 그리고 배경 잡음을 반영하도록 시나리오의 반사체 요소들을 구성했다. 송신 신호는 LFM 펄스와 CW 펄스 두 종류를 가정하였으며 시뮬레이션의 경우마다 무작위로 송신 펄스의 종류가 지정되었다. Fig. 3에 개발한 시뮬레이터를 통해 생성한 송수신기, 표적, 그리고 잔향 신호 생성을 위한 비표적 산란체들의 위치 예시를 나타냈다.^[12]

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F3.jpg

Fig. 3.

(Color available online) Illustrative geometry of the simulated scenario.

시뮬레이터를 통해 생성한 센서 데이터의 빔 신호에 정합 필터를 수행하여 조향 방위각을 기준으로 하는 탐지 방위 구간에 대한 12.5 s의 표적 탐지 결과 데이터를 얻는다. 송신 직접파와 클러터 및 표적 반향 신호를 포함하는 전체 데이터를 일정 시간 구간으로 잘라내어 비표적 데이터와 표적 데이터를 구분하여 수집하였다. 이때 생성되는 시뮬레이션 데이터의 개수는 1 s 단위 시간 구간 데이터의 경우 표적 및 비표적 데이터가 각각 118개, 1082개이고 2 s 단위 시간 구간 데이터의 경우 100개, 500개이다.

학습용 데이터와 검증용 데이터를 분리하기 위해 두 종류의 서로 다른 실험 조건을 가정하여 데이터를 생성하였으며 각각의 데이터 세트를 Case A과 Case B로 명명한다. 데이터 세트를 구성하는 데이터는 매 학습마다 시뮬레이션 데이터의 일부분이 무작위로 선택된다. 시뮬레이션 데이터를 이들 데이터 세트는 신호 대 잡음 비(Signal to Noise Ratio, SNR) 와 신호 대 잔향음 비(Signal to Reverberation Ratio, SRR) 측면에서 차이가 있다. SNR 값과 SRR 값은 사전에 지정한 최대-최솟값 사이의 균일 분포를 통해 지정했다. 각 데이터 세트에 대한 구체적인 SNR과 SRR 값을 아래 Table 2을 통해 확인할 수 있다.

Table 2.

Difference in the simulation datasets with respect to SNR and SRR.

Case A				Case B
SNR [dB]		SRR [dB]		SNR [dB]		SRR [dB]
min	max	min	max	min	max	min	max
10	20	10	40	10	20	5	20

두 데이터 세트의 SNR 분포는 동일하며 Case B 데이터는 Case A 데이터와 비교하여 상대적으로 열악한 SRR 조건을 가진다. 본 논문은 두 데이터 세트를 학습 및 검증 데이터로 교차 활용하는 실험을 통해 학습 데이터의 수집 환경이 검증 단계의 모델 성능에 미치는 영향을 평가하였다.

Figs. 4와 5에 시뮬레이션 센서 데이터에 STFT를 적용하여 얻은 스펙트로그램 형태의 표적 데이터 예시를 나타냈다. 각 2 s, 1 s 길이의 스펙트로그램을 나타냈으며 (a)는 CW 펄스 신호이고 (b)는 LFM 펄스 신호이다. 스펙트로그램 데이터는 거리-방위 데이터를 식별기 입력 데이터로 사용한 경우와의 비교를 위해 사용된다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F4.jpg

Fig. 4.

(Color available online) Spectrogram over a 2 s interval, (a) CW pulse, (b) LFM pulse.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F5.jpg

Fig. 5.

(Color available online) Spectrogram over a 1 s interval, (a) CW pulse, (b) LFM pulse.

Fig. 6, Fig. 7에 거리-방위 데이터의 예시를 나타내었다. 각 그림에 2 s, 1 s 길이의 거리-방위 데이터를 보였으며 (a)는 CW 펄스 신호, (b)는 LFM 펄스 신호이다. CW 신호와 LFM 신호의 탐지 결과가 완전히 동일하지는 않지만, 기존의 STFT 기반 방법이 두 펄스를 전혀 다른 특징으로 나타내는 것과 달리, 본 연구에서 제안하는 기법은 두 펄스 간 탐지 결과의 유사도가 높게 나타난다. 따라서 제안된 결과를 인공지능 모델의 입력으로 활용할 경우, 펄스 종류와 관계없이 일관된 탐지가 가능하다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F6.jpg

Fig. 6.

(Color available online) Range-bearing data over a 2 s interval, (a) CW pulse, (b) LFM pulse.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F7.jpg

Fig. 7.

(Color available online) Range-bearing data over a 1 s interval, (a) CW pulse, (b) LFM pulse.

Figs. 8과 9에 식별 난이도가 높은 표적 및 비표적 데이터의 예시를 나타냈다. Figs. 8과 9는 각각 2 s, 1 s 단위의 시간 구간을 가진 방위 별 표적 탐지 결과를 나타내며 각 그림의 (a), (b)는 표적 신호가 수신되지 않는 비표적 데이터 (c), (d)는 표적 신호가 수신되는 표적 데이터이다. Fig. 8의 (b)와 Fig. 9의 (a)와 같은 송신 직접파의 경우 정합 필터 수행 후 결과가 표적 반향 신호와 매우 유사한 형태의 탐지 양상을 보인다. 표적 탐지 결과 이미지의 시간 축 일부분을 추출하여 학습 데이터를 구성하였기 때문에 해당 데이터는 표적 식별 과정에서 난이도를 높이는 요인으로 작용한다.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F8.jpg

Fig. 8.

(Color available online) Range-bearing data over a 2 s interval, (a), (b) nontarget (c), (d) target.

https://cdn.apub.kr/journalsite/sites/ask/2025-044-06/N0660440602/images/ASK_44_06_02_F9.jpg

Fig. 9.

(Color available online) Range-bearing data over a 1 s interval, (a), (b) nontarget (c), (d) target.

4.2 학습 과정

능동소나 시스템으로 확보할 수 있는 소량 불균형의 데이터 특징을 고려한 학습 데이터 세트를 구성하였다. 강하게 제한적인 학습 데이터가 주어진 실험 환경을 고려하기 위해 200개 이하의 매우 적은 양의 데이터를 사용한다. 또한 데이터 불균형 비율에 따른 모델의 성능을 비교하기 위해 전체 학습 데이터에서 표적 데이터의 비율을 50 %에서 23 %로 조절하며 실험을 진행했다. Table 3에 학습 및 검증에 사용한 표적과 비표적 데이터의 개수를 나타냈다. 검증용 데이터의 경우 모델 성능 평가의 정확도를 위해 동일한 개수의 표적 및 비표적 데이터를 사용한다. 이때 별도의 데이터 증강 기법은 적용되지 않았다.

Table 3.

Configuration of the simulation dataset.

Train		Test
Target	Nontarget	Target	Nontarget
100, 80, 50, 30	100	100	100

높은 SRR 환경의 데이터를 사용해 학습된 식별기가 상대적으로 식별이 어려운 낮은 SRR의 검증 환경에서 보이는 성능을 확인하고자 학습 및 검증에 대해 Case A와 Case B간 교차 실험을 수행했다. Test A-B는 학습용 데이터로 Case A, 검증용 데이터로 Case B를 사용한 실험을 의미하며 Test B-A는 그 반대이다. 데이터 세트간 SRR 차이를 고려하였을 때 Test A-B 설정은 Test B-A 설정에 비해 표적 식별기에 상대적으로 불리한 실험 환경을 의미한다.

더하여, 특히 표적 데이터의 수집이 어려운 능동소나 시스템 환경을 고려하여 표적 데이터에 대한 학습 데이터의 불균형도에 따른 식별기의 성능을 비교하고자 하였다. 이때 학습에 사용하는 전체 데이터의 규모도 함께 축소된다.

동일한 송신 펄스 길이 조건에서, 단시간 구간의 표적 탐지 결과는 탐지 지점의 전후 맥락 정보를 충분히 반영하지 못해 표적 식별의 난이도를 증가시킨다. 그러나 실시간 표적 식별 시스템을 고려하였을 때 단축된 시간 길이 데이터에 대한 표적 식별기의 성능 검증은 필요하다. 이에 본 논문에서는 전체 표적 탐지 신호처리 과정의 시간 길이를 2 s 및 1 s 단위로 분리하여, 보다 실시간 처리에 근접한 조건에서의 시스템 성능을 분석하고자 하였다.

학습을 위해 설정한 초매개변수는 데이터의 규모와 모델 구조에 따라 초매개변수 값을 달리 설정할 수 있으나 인공지능 학습 분야의 권위있는 음향 신호처리 대회인 DCASE 대회에서 제시되는 베이스라인들과 각 분야별 높은 순위를 기록한 기술 레포트 내에서 사용되는 초개매변수 범위 내 값을 사용해 모델을 학습하였다.^[13,14] 사전 설정한 초매개변수는 DCNN과 CRNN에서 동일하며 10^–4의 학습률과 30의 배치 크기 그리고 10^–5의 가중치 감쇠 값을 가진다. 모든 실험은 에포크를 100으로 고정하고 수행되었으며, 학습 시드는 무작위 할당 방식으로 부여하였다.

V. 성능 지표 및 성능 평가

5.1 성능 지표

DCNN과 CRNN의 표적 데이터 개수 별 표적 식별 성능 평가의 성능 지표로는 정확도(accuracy)와 표적에 대한 정밀도(precision) 와 재현률(recall) 의 조화 평균인 F1 점수를 사용했다. 정확도와 F1 점수는 아래 수식과 같다. 이때 TP, TN. FP, FN은 각각 true positive, true negative, false positive, false negative를 의미하며 표적 기반 F1 점수는 표적을 positive로, 비표적 기반 F1 점수는 비표적을 positive로 여긴다는 점에서 다르다.

(13)

accuracy = \frac{T P + T N}{T P + T N + F P + F N},

(14)

p r e c i s i o n = \frac{T P}{T P + F P},

(15)

r e c a l l = \frac{T P}{T P + F N},

(16)

F 1 = \frac{2 \times p r e c i s i o n \times r e c a l l}{p r e c i s i o n + r e c a l l} .

5.2 성능 평가

5.2.1 제안하는 시스템의 성능 평가

Table 4, Table 5에 거리-방위 데이터 특징을 입력으로 하는 CNN과 CRNN의 실험 환경별 표적 식별 성능을 제시하였다.

Table 4.

Performance comparison of each experiment using DCNN.

		Number of target samples	Target based (F1)	Nontarget based (F1)	Accuracy
Test A-B	1 s	100	51.53	46.98	49.44
		80	51.71	56.49	54.33
		50	48.09	48.28	48.44
		30	48.09	48.28	48.44
	2 s	100	47.60	52.85	50.78
		80	49.15	46.70	48.22
		50	49.20	51.80	50.78
		30	46.46	51.84	50.00
Test B-A	1 s	100	55.38	41.75	50.22
		80	59.48	44.03	53.33
		50	47.58	47.02	47.67
		30	50.51	51.78	51.33
	2 s	100	47.50	46.39	47.22
		80	47.54	45.09	46.78
		50	50.96	50.83	51.11
		30	47.70	50.01	49.00

Table 5.

Performance comparison of each experiment using CRNN.

		Number of target samples	Target based (F1)	Nontarget based (F1)	Accuracy
Test A-B	1 s	100	63.28	78.42	73.33
		80	62.61	76.07	71.11
		50	48.49	74.20	66.00
		30	22.44	70.77	57.89
	2 s	100	72.80	80.31	77.44
		80	70.34	78.97	75.67
		50	65.31	79.58	75.11
		30	33.68	72.07	60.89
Test B-A	1 s	100	94.41	93.77	94.11
		80	94.61	94.48	94.56
		50	90.98	92.58	91.89
		30	47.77	77.57	69.44
	2 s	100	97.85	97.69	97.78
		80	95.73	94.84	95.33
		50	97.93	98.07	98.00
		30	51.96	77.64	70.11

DCNN를 활용한 표적 식별기의 경우, 본 논문에서 설정한 실험 환경과 무관하게 학습이 원활히 이루어지지 않는 모습을 보인다. 이는 데이터 규모가 극히 제한적이고 표적 및 비표적 데이터 간 특징 차이가 뚜렷하지 않은 상황에서 합성곱 기반의 정적 구조가 학습 데이터의 시간 순차적 상관관계를 충분히 포착하지 못하였기 때문으로 판단된다.

반면 순환 신경망을 통해 학습 데이터의 시간 순차적 상관관계를 충분히 반영할 수 있는 CRNN을 활용한 표적 식별기의 경우, DCNN을 활용한 경우와 비교하여 현저히 높은 식별 성능을 보이는 것을 확인할 수 있다. 실험에 활용한 DCNN과 CRNN의 네트워크 구조가 순환 신경망의 유무 외에 동일하다 점을 미루어보아 이는 제한적 규모의 학습 데이터 환경에서 높은 탐지 값 지점의 전후 시간 상관관계를 순환 신경망이 효과적으로 포착하여 표적 식별 난이도를 높일 수 있는 표적 및 비표적 데이터 간 차이를 분석하였기 때문으로 추측된다. 또한 별도의 데이터 증강 기법이 적용되지 않았음에도 유의미한 수치의 표적 식별을 보여 제안하는 표적 탐지 특징이 표적 및 비표적 데이터의 시간 순차적 특징 차이에 대한 충분한 정보를 반영할 수 있음을 보인다.

표적 식별기에 상대적으로 유리한 실험 환경을 제공하는 Test B-A의 경우 전반적으로 높은 표적 식별 성능을 보인다. 이때, 학습 데이터의 개수가 150개 이상, 불균형 정도가 약 50 %에서 약 33 % 사이에 있는 경우에 대해서는 표적 식별의 성능이 데이터 규모와 불균형 정도에 약하게 의존하는 성능을 보인다. 하지만 표적 데이터의 개수가 그보다 적어지는 경우, 표적 식별 성능이 낮아지는 경향을 확인할 수 있다.

표적 식별기에 상대적으로 불리한 실험 환경을 제공하는 Test A-B의 경우 Test B-A 대비 낮은 표적 식별의 성능을 보였다. 그러나 SRR 차이가 큰 데이터를 통한 학습에서도 일정 수준 이상의 유의미한 표적 식별 성능을 가지고 있다는 점에서 이후 추가적인 모델 구조의 적용을 통해 식별기의 일반화 성능을 개선할 수 있을 것으로 보인다.

더하여, 2 s와 1 s 단위 길이의 데이터를 사용한 실험 결과에서 1 s 단위 길이 데이터는 식별기가 학습할 수 있는 시간상 전후 문맥이 부족하여 상대적으로 어려운 실험 환경임에도 불구하고 안정적인 성능을 유지하는 것을 보인다. 이는 실시간 표적 식별 시스템에서의 응용에서도 해당 시스템이 유의미한 성능을 보일 수 있음을 시사한다.

5.2.2 기존 기법과의 성능 비교

본 장에서는 II장에 기술한 기존 기법인 SVM 기반 표적 식별 기법^[5] 및 스펙트로그램 기반의 표적 식별 모델^[6]과 본 논문이 제안하는 기법 간의 표적 식별 성능을 비교한 실험 결과를 제시한다. SVM 기반 표적 식별 기법^[5]의 결정 초평면과 서포트 벡터와의 거리 및 가우시안 방사 기저 함수(Radial Basis Function, RBF)의 초매개변수는 각각 10^–2에서 10² 그리고 10^–3에서 1 범위 내 5-fold 교차 검증으로 평가한다.

Table 6을 통해 거리-방위 특징의 입력 데이터에 대한 SVM 식별기와 스펙트로그램 입력 데이터에 대한 각 신경망 네트워크 구조 식별기의 표적 식별 정확도를 나타냈다. 식별기 학습에 사용한 데이터 개수는 Tables 4와 5에 표시된 순서와 동일하다.

Table 6.

Accuracy comparison between the proposed and conventional methods.

	Proposed (DCNN)	Proposed (CRNN)	SVM	Spec. -DCNN	Spec. -CRNN
Test A-B (1 s)	49.44	73.33	63.02	48.56	49.78
	54.33	71.11	62.00	49.22	51.11
	48.44	66.00	57.54	49.89	49.89
	48.44	57.89	57.08	50.19	50.11
Test A-B (2 s)	50.78	77.44	77.57	47.67	50.22
	48.22	75.67	58.03	50.56	50.33
	50.78	75.11	53.57	50.67	49.78
	50.00	60.89	50.04	49.56	50.67
Test B-A (1 s)	50.22	94.11	74.03	50.56	50.44
	53.33	94.56	70.01	50.33	51.56
	47.67	91.89	53.55	50.22	51.33
	51.33	69.44	56.05	49.33	52.33
Test B-A (2 s)	47.22	97.78	54.01	49.78	47.78
	46.78	95.33	52.54	49.78	52.44
	51.11	98.00	50.00	54.44	56.44
	49.00	70.11	50.00	50.67	58.67

SVM의 경우 데이터 불균형이 상대적으로 완화된 조건에서는 비교적 높은 성능을 보이나 표적 데이터 비율이 감소할 수록 급격하게 성능이 저하되는 것을 확인할 수 있다. 이는 SVM의 결정 경계가 입력 데이터 분포의 편향에 민감하게 반응하며 다수 클래스 데이터의 경계에 의해 쉽게 왜곡되기 때문으로 보인다.

스펙트로그램을 신경망 네트워크 구조의 식별기 입력으로 사용하는 경우 식별기의 표적 식별 성능이 매우 낮게 나타났다. 펄스 종류에 상대적으로 낮게 의존하는 거리-방위 데이터와 달리, 스펙트로그램 데이터의 경우 CW 펄스와 LFM 펄스의 주파수 특징이 두드러지게 구분된다. CW 펄스와 LFM 펄스를 혼합하여 학습 데이터를 구성할 경우, 식별기가 각 펄스별 특징을 충분히 학습하기 어렵기 때문에 이와 같이 낮은 정확도를 가지는 것으로 보인다.

VI. 결 론

본 논문은 단상태 능동 소나 시스템에서 센서로 수신된 신호에 빔 형성과 정합 필터를 통해 얻은 거리-방위 영역의 표적 탐지 이미지 결과를 표적 식별기의 학습 데이터로 활용하였다. 이를 통해 기존의 스펙트로그램 특징을 활용한 표적 식별기의 학습 과정에서 고려하기 어려웠던 방위 추정 결과와 장거리 탐지에 대한 한계를 보완하는 방안을 제시한다.

능동소나 시스템 환경을 반영한 시뮬레이터를 통해 제한적인 규모의 소량 불균형 데이터를 생성하여 데이터 규모와 불균형 정도에 따른 DCNN 및 CRNN 적용 표적 식별기의 성능을 확인하였다.

실험 과정에서 서로 다른 환경의 데이터 세트에 대한 교차 실험과 실시간 표적 식별 시스템에서의 활용을 고려한 단축 구간 실험을 수행함으로써 제안한 표적 식별기의 일반화 성능과 향후 실질적인 시스템의 적용 가능성에 대한 근거를 제시했다. 이때 데이터 증강 기법을 적용하지 않은 학습 데이터를 사용하였음에도 불구하고 제안된 표적 탐지 결과 이미지를 입력으로 한 CRNN 기반의 식별기가 유의미한 수준의 식별 성능을 보이고 표적 식별 정확도를 활용한 기존 기법과의 성능 비교를 통해 제안하는 표적 식별 시스템이 전반적으로 가장 높은 성능을 보이는 것을 확인하였다.

향후 연구에서 추가적인 모델 구조 및 준지도 학습과 같은 최신 학습 기법을 적용하여 시스템의 일반화 성능을 개선하고자 한다. 또한 본 논문에서 사용한 시뮬레이션 데이터 기반의 검증 결과를 보완하기 위해 실제 실험 데이터를 활용한 추가적인 시스템 성능 검증이 필요할 것으로 판단된다.

Acknowledgements

이 논문은 2025년 정부(방위사업청)의 재원으로 국방기술진흥연구소의 지원을 받아 수행된 물리데이터 기반 지능형 소나 신호 탐지 기술 연구임(No. KRIT-CT-22-052, 물리데이터 기반 지능형 소나 신호 탐지 기술 연구).

References

R. J. Ulrich, Principles of Underwater Sound for Engineers (McGraw-Hill Book, New York, 1967), pp. 1-342.

E. Miasnikov, “Can Russian strategic submarines survive at sea? The fundamental limits of passive acoustics,” Sci. Glob. Secur. 4, 213-251 (1994).

10.1080/08929889408426401

B. N. Gross, Input of factor graphs into the detection, classification, and localization chain and continuous active sonar in undersea vehicles, (M.S. thesis, Verginia Tech, 2015).

M. Najibzadeh, A. Mahmoodzadeh, and M. Khishe, “Active sonar image classification using deep convolutional neural network evolved by robust comprehensive grey wolf optimizer,” Neural Process. Lett. 55, 8689-8712 (2023).

10.1007/s11063-023-11173-9

I. Seo, S. Kim, Y. Ryu, J. Park, and S. Han, “Underwater moving target classification using multilayer processing of active sonar system,” Appl. Sci. 9, 4617 (2019).

10.3390/app9214617

Y. You, W. Lee, and S. Lee, “A study on the weakly-supervised deep learning algorithm for active sonar target recognition based on pseudo labeling using convolutional recurrent neural network model” (in Korean), J. Acoust. Soc. Kr. 43, 502-510 (2024).

D.-H. Lee, “Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks,” Proc. ICML, 896 (2013).

A. D. Waite, Sonar for Practisting Engineers (Wiley, Chichester, 2002), pp. 192-197.

I. Goodfellow, Y. Bengio, and A. Courville, DeepLearning (MIT press, Cambridge, 2016), pp. 1-800.

O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “Imagenet large scale visual recognition challenge,” IJCV, 15, 211-252 (2015).

10.1007/s11263-015-0816-y

B. Shi, X. Bai, and C. Yao, “An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition,” IEEE Trans. Pattern Anal. Mach. Intell. 39, 2298-2304 (2016).

10.1109/TPAMI.2016.2646371

D. A. Abraham, Underwater Acoustic Signal Processing: Modeling, Detection, and Estimation (Springer, Berlin, 2019), Chapter.2.

10.1007/978-3-319-92983-5

N. Turpault, R. Serizel, A. Shah, and J. Salamon, “Sound event detection in domestic environments with weakly labeled data and soundscape synthesis,” Proc. DCASE. 1-5 (2019).

10.33682/006b-jx26

L. Delphin-Poulat, and C. Plapous, “Mean teacher with data augmentation for dcase 2019 task 4,” Orange Labs Lannion, Tech. Rep., 2019.

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Deep learning based target recognition system under limited and imbalanced dataset for monostatic active sonar using range and bearing features

ABSTRACT

MAIN

(1)

(2)

(3)

(4)

(5)

Fig. 1.

(Color available online) Flowcharts for preprocessing procedures of (a) the system by Seo et al.,[5] (b) the system by You et al.,[6] and (c) the proposed system.

(6)

(7)

(8)

(9)

(10)

(11)

(12)

Table 1.

Network configuration summary.

Fig. 2.

(Color available online) Schematic diagram of the signal processing and classification pipeline.

Fig. 3.

(Color available online) Illustrative geometry of the simulated scenario.

Table 2.

Difference in the simulation datasets with respect to SNR and SRR.

Fig. 4.

(Color available online) Spectrogram over a 2 s interval, (a) CW pulse, (b) LFM pulse.

Fig. 5.

(Color available online) Spectrogram over a 1 s interval, (a) CW pulse, (b) LFM pulse.

Fig. 6.

(Color available online) Range-bearing data over a 2 s interval, (a) CW pulse, (b) LFM pulse.

Fig. 7.

(Color available online) Range-bearing data over a 1 s interval, (a) CW pulse, (b) LFM pulse.

Fig. 8.

(Color available online) Range-bearing data over a 2 s interval, (a), (b) nontarget (c), (d) target.

Fig. 9.

(Color available online) Range-bearing data over a 1 s interval, (a), (b) nontarget (c), (d) target.

Table 3.

Configuration of the simulation dataset.

(13)

(14)

(15)

(16)

Table 4.

Performance comparison of each experiment using DCNN.

Table 5.

Performance comparison of each experiment using CRNN.

Table 6.

Accuracy comparison between the proposed and conventional methods.

Acknowledgements

References

(Color available online) Flowcharts for preprocessing procedures of (a) the system by Seo et al.,^[5] (b) the system by You et al.,^[6] and (c) the proposed system.