I. 서 론
II. 수중 음향 신호의 선박 분류 기법
2.1 수중 음향 신호 처리 및 분류 개요
2.2 MFCC 기반 음향 특징 추출 기법
2.3 합성곱 신경망을 활용한 분류 모델 구조
III. 연구 방법
3.1 수중 선박 데이터 세트
3.2 세그먼트 길이 설정 및 특징 추출
3.3 학습 모델과 실험 구성
3.4 성능 평가 지표
IV. 실 험
4.1 ShipsEar 데이터셋 분석
4.2 Deepship 데이터셋 분석
4.3 데이터셋에 따른 세그먼트 길이의 영향 분석
V. 결 론
I. 서 론
수중 음향 분류 기술은 선박 탐지·식별, 선박 소음의 수중 환경 영향 평가, 해양 생물종 판별 등 여러 응용 분야에서 활발히 연구되고 있다.[1] 이러한 기술은 해양 환경 모니터링뿐만 아니라, 수중 표적 식별과 같은 국방 감시 체계에서도 핵심적으로 활용되고 있다. 특히 수중 음향 표적 식별은 수중 음향 신호 처리 분야에서 주요 연구 주제로 주목받고 있다.[2]
전통적으로 수중 음향 표적 식별은 숙련된 음탐사에 의해 수행됐으나, 장시간의 청취 작업으로 인한 피로 누적과 주관적 판단에 따른 정확도 저하 문제가 지속적으로 제기되어 왔다.[3] 이러한 문제를 해결하기 위해 선박 방사 소음 식별 과정을 자동화하려는 인공지능 기반 연구가 활발히 진행되고 있으며, 특히 분류 정확도 향상을 위한 특징 추출 기법과 딥러닝 모델 개발에 많은 연구가 이루어지고 있다.[4]
기존 연구들은 주로 분류 정확도 향상을 위해 딥러닝 모델 구조 개선 또는 새로운 특징 추출 기법 적용을 통한 성능 향상에 집중해 왔다.[5] 하지만 수중 음향 선박 분류 연구에서 사용되는 데이터셋[6,7]은 비정형 시계열 형태로 구성되어 있어, 인공지능 모델 학습을 위해서는 고정된 크기의 입력 데이터로 변환하는 전처리 과정이 필요하다. 이를 위해 대부분의 연구에서는 원본 데이터를 연구자 임의의 길이로 나누어 사용하고 있으나,[8,9,10,11] 이러한 세그먼트 길이 설정에 대한 명확한 근거나 실험적 검증 없이 연구가 이뤄지고 있다. 세그먼트 길이는 음향 신호 내 핵심 특징이 포함되는 구간을 결정하기 때문에, 부적절한 길이 설정은 중요한 정보를 누락시키거나 불필요한 잡음을 포함할 수 있다.[12] 그럼에도 이러한 정보 손실 가능성에 관해 기존 연구에서는 충분한 논의가 이루어지지 않았다.
이에 본 연구는 선박 음향 데이터 세그먼트 길이가 선박 분류 모델의 성능에 미치는 영향을 분석한다. 세그먼트 길이에 대한 비교 실험을 통해 데이터 손실을 최소화하면서도 분류 성능을 최적화할 수 있는 세그먼트 길이를 도출하고, 향후 수중 음향 분류 연구에서 딥러닝을 위한 데이터 전처리 과정에 실험적 근거를 제공하는 것을 목표로 한다.
II. 수중 음향 신호의 선박 분류 기법
2.1 수중 음향 신호 처리 및 분류 개요
수중 음향 신호는 해양 환경의 복잡한 배경 잡음, 음파 전달 특성으로 인해 분석이 어렵다.[13,14] 수중 음속, 해저지형 및 해저 저질 환경 요소는 음향 신호가 전파되는 과정에서 비선형적인 왜곡과 감쇠를 유발한다.[15] 이러한 해양 환경 특성은 수중 음향 데이터의 품질을 떨어뜨려 표적 신호와 배경 잡음의 구분을 어렵게 만든다.
수중 음향 신호의 분석을 위해서는 일반적으로 잡음제거, 필터링, 시간-주파수 영역 변환, 데이터 세그먼트 분할의 전처리 과정을 거친 후, 특징 추출 및 분류 단계로 이어진다.[5] 특히 특징 추출 방법에서는 스펙트로그램과 Mel-Frequency Cepstral Coefficient(MFCC), Constant Q transform(CQT), Wavelet Transform이 널리 활용된다. 이러한 특징을 활용한 분류 모델은 수중 음향 표적 탐지 연구에 폭넓게 활용되고 있다.[7]
2.2 MFCC 기반 음향 특징 추출 기법
MFCC는 음향 신호 처리 분야에서 널리 사용되는 특징 추출 기법이다. 이 기법은 인간 청각의 주파수 인지 특성을 모델링 한 멜 주파수 스케일을 기반으로 음향 신호의 핵심 특성을 추출한다.[16]
MFCC 추출 과정은 다음과 같다. 먼저, 원시 음향 신호를 짧은 프레임 단위로 분할하고, 각 프레임에 윈도우 함수를 적용한다. 이후 프레임별로 Fast Fourier Transform(FFT)를 수행하여 스펙트럼을 산출한다. 산출된 스펙트럼에 멜 필터뱅크(Mel-filter Bank)를 적용하여 주파수 축을 mel scale로 변환한 뒤, 각 mel-band의 에너지를 계산하고 로그 변환을 수행한다. 마지막으로, 이 로그 에너지값에 Discrete Cosine Transform(DCT)를 적용하여 MFCC 계산하며, 아래 Eq. (1)로 정의된다.
여기서 은 번째 멜 필터뱅크의 에너지이며, 은 멜 필터뱅크의 개수이다.
MFCC는 환경 잡음에 대한 민감도가 낮아 잡음이 혼재된 환경에서도 안정적인 성능을 보이는 특성이 있어,[17] 수중 음향 신호 처리 분야에서 활용되고 있다.
2.3 합성곱 신경망을 활용한 분류 모델 구조
본 논문에서는 음향 특징을 분류하기 위한 딥러닝 기반 분류기로 합성곱 신경망(Convolution Neural Network, CNN)[18]을 사용한다. CNN은 공간적 구조를 갖는 데이터에서 지역적인 특징을 자동으로 추출하고 학습할 수 있도록 설계된 신경망 구조이다. CNN은 이미지 및 음성 처리 분야에서 효율적인 연산과 안정적인 학습 성능으로 인해 널리 활용한다.[19]
CNN은 합성곱 계층, 풀링 계층, 그리고 완전 연결 계층으로 구성되며, 각 합성곱 계층은 필터를 통해 입력 특징 맵에서 지역적인 패턴을 추출한다. 이 구조는 MFCC, 스펙트로그램 등 2차원 형태의 음향 특징을 처리하는 데 적합하며, 이에 따라 다수의 선행 연구에서 수중 선박 분류, 해양 환경음 분류, 해양 음향 분석과 같은 음향 인식 과제에 CNN 모델이 활발히 활용되고 있다.[9,20] 본 연구에서는 CNN을 사용해 음향 데이터의 세그먼트 길이에 따른 선박 분류 성능 변화를 분석한다.
III. 연구 방법
3.1 수중 선박 데이터 세트
본 연구는 대표적인 수동 소나 수중 선박 데이터셋인 ShipsEar[6]과 DeepShip[7] 사용한다. 이들 데이터셋은 실제 해양 환경에서 수집된 대표적 공개 데이터셋으로, 선박 신호 특성 및 잡음이 반영되어 있어 수중 선박 분류, 신호 식별 연구에 활용되어 왔다.[5,9,11] ShipsEar은 대표적인 수동 소나 선박 데이터로 11종의 선박 신호를 포함하고 있으며, 선박의 크기에 따라 총 4개의 선박 클래스 및 1개의 배경 잡음 클래스로 구성되어 있다. DeepShip은 총 4개의 선박 클래스로 구성되어 있으며, 선박의 용도별 분류 체계를 제공한다. 두 데이터셋 모두 실제 해양 환경에서 수집된 비정형 시계열 데이터로, 각 샘플의 길이가 다르며 실제 환경의 잡음과 조건이 반영되어 있다.
3.2 세그먼트 길이 설정 및 특징 추출
우리는 세그먼트 길이가 분류 성능에 미치는 영향을 분석하기 위해, 각 데이터셋의 가장 짧은 샘플 길이를 기준으로 1 s 단위로 세그먼트 길이를 증가시키는 실험을 설계하였다. 특히, 샘플 길이에 따른 성능 비교의 신뢰성을 확보하고자, 원본 샘플을 세그먼트로 분할하기 전 학습용 데이터셋과 테스트용 데이터셋을 선행적으로 고정하여 분리하였다. 학습 및 테스트 데이터 분할 비율은 약 7:3이며, 해당 분할 기준은 본 논문의 Tables 1과 2에 명시되어 있다. 이와 같은 데이터 분할 고정 접근 방식은 세그먼트 길이 변화에 따른 분류 성능 영향을 보다 정확히 평가하고 동일한 원본 선박 신호가 학습 세트와 검증 세트에 중복 포함될 가능성을 없애기 위함이다.
Table 1.
Summary of ShipsEar dataset.
| Class | Train | Test | Total |
| Class A | 8 | 4 | 12 |
| Class B | 14 | 5 | 19 |
| Class C | 21 | 9 | 30 |
| Class D | 8 | 4 | 12 |
| Class E | 8 | 4 | 12 |
Table 2.
Summary of DeepShip dataset.
| Class | Train | Test | Total |
| Cargo | 78 | 33 | 111 |
| Passengership | 135 | 58 | 193 |
| Tanker | 168 | 72 | 240 |
| Tug | 49 | 21 | 70 |
이후, 고정된 학습용 및 테스트용 데이터셋 각각에서 세그먼트 길이에 따라 원본 샘플을 순차적으로 분할하였으며, 각 세그먼트에 대해 MFCC를 사용하여 특징을 추출한다. Fig. 1에서는 각 세그먼트 길이에 따른 Deepship 데이터셋의 MFCC 변환 결과를 확인할 수 있다. 본 연구에서는 Wang et al.[21]의 설정을 따라, 샘플링 주파수 22,050 Hz, 윈도우 크기 2048, hop length 512, 13개의 MFCC 계수를 사용해 MFCC 추출하였다.
3.3 학습 모델과 실험 구성
본 연구의 목적은 세그먼트 길이에 따른 선박 분류 모델 성능을 분석하는 것이다. 이를 위해 CNN 기반의 단순 모델을 사용했다. 해당 모델 구조는 Table 3에 제시하였다. 모델은 Python 3.9 및 PyTorch 2.5 환경에서 구현되었으며, 학습 환경은 NVIDIA GeForce RTX 3090와 Intel Core i7-10700 CPU이다. 또한 학습은 배치 크기 32, 학습률 0.001, epoch 50으로 진행하였다. 최적화에는 Adam 옵티마이저를 사용하였으며, 손실 함수는 교차 엔트로피 손실 함수를 사용하였다.
Table 3.
Convolution neural network architecture.
3.4 성능 평가 지표
모델의 성능 평가는 다중 클래스 분류 문제에서 널리 사용되는 정밀도(Precision), 재현율(Recall), F1- Score, FAR(False Alarm Rate) 표로 사용한다. 각각 다음 수식 Eqs. (2), (3), (4), (5)으로 정의된다.
정밀도는 양성으로 예측한 결과 중 실제로 맞게 분류된 비율을 나타내며, 모델의 예측 정확도를 평가하는 데 활용된다. 재현율은 실제 양성 표적 중 모델이 올바르게 탐지한 비율로, 탐지 누락(FN)을 얼마나 줄였는지를 반영한다. F1-score는 정밀도와 재현율의 조화 평균으로, 두 지표 간의 균형을 종합적으로 평가하는 데 사용된다. FAR은 실제 음성을 잘못 양성으로 판단한 비율로 오탐의 정도를 나타낸다.
특히 본 연구의 대상인 수중 표적 식별 분야에서는 표적을 탐지하지 못하는 탐지 누락 및 잘못 탐지한 오탐이 중요한 문제로 작용하며, 이는 대응 실패로 이어질 수 있다. 따라서 재현율 및 FAR은 모델의 실제 운용 가능성과 신뢰성을 평가하는 데 핵심적인 성능 지표로 활용된다.[22]
IV. 실 험
본 연구는 입력 데이터의 세그먼트 길이가 수중 선박 분류 모델의 성능에 미치는 영향을 정량적으로 분석하기 위해, 실제 해양 환경에서 수집된 ShipsEar, DeepShip 두 종류의 수중 음향 데이터셋을 활용하였다. 두 데이터셋 모두 동일한 CNN 기반 분류 모델을 적용하였으며, 세그먼트 길이를 1 s 단위로 증가시키며 성능 변화를 관찰하였다.
세그먼트 길이의 최대 범위는 각 데이터셋의 원본 샘플 길이에 따라 달리 설정되었으며, ShipsEar는 최대 11 s, DeepShip은 최대 6 s까지 확장하였다. 세세그먼트 길이의 차이는 분류 성능에 직접적인 영향을 미칠 수 있다. 일반적으로 긴 세그먼트는 더 많은 시간적 정보를 포함하여 신호의 특징을 풍부하게 포착할 수 있지만, 데이터 샘플 수의 감소로 인한 학습 다양성 저하, 계산 비용 증가, 과적합 위험이 수반될 수 있다. 반면, 짧은 세그먼트는 더 많은 학습 샘플을 제공하여 모델의 일반화 성능 향상에 기여할 수 있으나, 신호 내 핵심 패턴이나 주기적 특성을 충분히 반영하지 못할 가능성이 있다. 따라서 본 연구의 결과 해석 시에는 세그먼트 길이 차이에 따른 데이터 구조적 특성과 분류 성능 간 상호작용을 함께 고려할 필요가 있다.
모델 성능 평가는 정밀도, 재현율, F1-score, FAR을 성능 평가 지표로 수행한다.
4.1 ShipsEar 데이터셋 분석
ShipsEar 데이터셋에 대하여, 최소 음향 샘플 길이인 11 s를 기준으로 1 s 단위로 세그먼트를 생성하였으며, 각 길이에 대해 동일한 구조의 분류 모델을 학습시켰다. Table 4는 세그먼트 길이에 따른 정밀도, 재현율, F1-score, FAR의 변화를 나타낸다.
Table 4.
ShipsEar dataset performance by segment length.
정밀도는 세그먼트 길이 6 s일 때 0.6387로 가장 높게 나타났으며, 이는 해당 구간에서 모델이 양성으로 예측한 결과 중 실제 정답 비율이 가장 높았음을 의미한다. 반면, 재현율은 세그먼트 길이 4 s에서 0.5719로 가장 높았으며, 이는 실제 양성 표적을 놓치지 않고 탐지하는 데 가장 효과적인 길이임을 보여준다. F1-Score 역시 세그먼트 길이 4 s에서 0.5464로 가장 높게 나타난다.
세그먼트 길이가 1 s에서 4 s까지 증가하는 구간에서는 재현율과 F1-Score가 점진적으로 상승하는 경향을 보였다. 반면 세그먼트 길이가 5 s를 초과하면서부터는 재현율과 F1-score가 전반적으로 감소하는 양상이 나타났다.
이러한 결과는 수중 음향 데이터 분할 시 세그먼트 길이가 모델 성능에 유의미한 영향을 미친다는 것을 보여준다. 특히 탐지 누락을 줄이는 것이 중요한 수중 표적 식별 분야에서는 재현율이 가장 높고 FAR이 가장 낮은 세그먼트 길이 4 s가 최적의 입력 단위임을 알 수 있다.
4.2 Deepship 데이터셋 분석
DeepShip 데이터셋에 대한 실험 결과, 세그먼트 길이 변화에 따른 분류 성능은 전반적으로 안정적인 경향을 보였다. Table 5에 따르면, F1-score는 세그먼트 길이 1 s에서 6 s까지의 전 구간에서 0.55에서 0.57 사이로 유지되었으며, 큰 성능 저하 없이 일정한 수준의 분류 정확도를 보였다. 특히 세그먼트 길이 3 s 구간에서 최고 F1-score인 0.5755를 기록하였으며, 이때 정밀도와 재현율 간의 균형도 양호하게 나타나 모델의 전반적인 예측 안정성이 확보되었음을 확인할 수 있다.
Table 5.
DeepShip dataset performance by segment length.
이러한 결과는 DeepShip은 세그먼트 길이에 민감하지 않으면서도 일정 수준 이상의 성능을 보장할 수 있는 특성을 지니고 있음을 시사한다.
4.3 데이터셋에 따른 세그먼트 길이의 영향 분석
ShipsEar과 DeepShip에 대한 실험 결과, 세그먼트 길이는 수중 선박 분류 모델의 성능에 유의미한 영향을 미치며, 그 효과는 데이터셋의 구성과 특성에 따라 달라짐을 확인하였다. ShipsEar 데이터셋에서는 4초에서 최적의 성능을 보였으며, 그보다 긴 세그먼트의 경우 오히려 분류 성능이 저하되는 현상이 나타났다. 반면 DeepShip데이터셋은 세그먼트 길이 증가에 따른 성능 변화가 비교적 작고, 짧은 구간에서도 안정적인 성능을 유지하는 특성을 보인다.
비록 두 데이터셋 모두 세그먼트 영향만을 평가하기 위해 데이터 오버랩을 사용하지 않아, 절대적 분류 성능 수치는 상대적으로 낮은 편이나(Tables 4, 5 참고), 세그먼트 길이별 성능 추세 분석에서 의미 있는 경향을 확인할 수 있다. 실제로, 재현율과 F1- score가 상승하는 구간은 세그먼트 길이가 짧아 음향 정보가 충분치 않았던 영역에서 벗어나는 시점이며, 이후 성능 감소는 지나치게 길어진 세그먼트로 인한 잡음 및 정보 희석 효과를 반영한다.
즉, 세그먼트 길이가 모델이 학습 및 예측에 사용하는 음향 신호에 직접적인 영향을 미치며, 이는 모델 성능에 유의미한 변수임을 실험적으로 뒷받침한다. 이는 최적의 세그먼트 길이가 존재한다는 점을 시사한다. 따라서 비록 절대 성능 수준은 낮더라도, 세그먼트 길이 조정에 따른 분류 성능 변화를 주목하는 것은 실질적인 의의가 있다.
이러한 결과는 수중 음향 데이터 기반 모델을 설계할 때, 데이터셋 고유의 특성과 목적에 맞는 적합한 세그먼트 길이 설정이 중요함을 시사한다. 특히 ShipsEar처럼 다양한 위치, 거리, 깊이에서 수집된 복잡한 음향 환경이 포함된 데이터셋[6]의 경우, 적절한 세그먼트 길이 설정이 모델 성능에 영향을 미칠 수 있음을 보여준다. 반면, DeepShip처럼 수집 조건이 균일하고 일관된 데이터셋[7]에서는 세그먼트 길이에 대한 모델의 민감도가 낮아, 보다 유연한 길이 설정이 가능하다.
V. 결 론
본 연구를 통해 수중 음향 기반 선박 분류 모델에서 세그먼트 길이가 성능에 미치는 영향을 분석하였다. 분석 결과, 세그먼트 길이는 분류 성능에 유의미한 영향을 주는 요소임을 확인하였다. 그러나 본 연구에는 몇 가지 한계가 존재한다. 첫째, 실험은 두 가지 대표적인 데이터셋에 국한되어 있어, 다양한 해양 환경과 선박 유형을 포함한 데이터에 대한 일반화 가능성은 제한적이다. 둘째, 세그먼트 길이 외에도 모델 구조, 특징 추출 방식, 신호 전처리 방법 등 다양한 요인이 분류 성능에 영향을 줄 수 있으나, 본 연구에서는 이를 통제한 상태에서 세그먼트 길이 영향만을 집중 분석한다.
향후 연구에서는 보다 다양한 데이터셋과 조건에서 세그먼트 길이와 모델 성능의 상호작용을 분석하고, 최적 세그먼트 길이를 자동으로 조정할 수 있는 적응형 접근법을 개발하는 것이 필요하다. 또한, 실제 운용 환경에서의 잡음, 신호 간섭, 장시간 기록 등 현실적 요소를 반영한 평가를 통해 수중 음향 분류 모델의 실용성을 높일 수 있을 것이다. 이러한 연구는 수중 감시 및 선박 모니터링 시스템에서 데이터 처리 효율성과 분류 신뢰도를 동시에 향상시키는 데 기여할 수 있다.




