Neural network based office noise classification via sub frame division and majority voting

Sanghyeok Park; Minhan Kim; Seunghyeon Shin; Naheun Song; Seokjin Lee

doi:10.7776/ASK.2026.45.3.313

Preview

Research Article

The Journal of the Acoustical Society of Korea. 31 May 2026. 313-322
https://doi.org/10.7776/ASK.2026.45.3.313

Neural network based office noise classification via sub frame division and majority voting

서브 프레임 분할과 다수결 투표를 활용한 신경망 기반 사무실 소음 분류

Sanghyeok Park¹

Minhan Kim¹

Seunghyeon Shin¹

Naheun Song¹

Seokjin Lee¹^*

박 상혁¹

김 민한¹

신 승현¹

송 나흔¹

이 석진¹^*

¹경북대학교 전자전기공학부

^{*Corresponding Author}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0/):

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

Accurate noise classification is essential for the effective operation of sound masking systems. However, noise signals recorded in real office environments are easily distorted by reverberation, background noise, and overlapping acoustic events, which can degrade the performance of conventional whole clip classification methods. In addition, office noise often contains temporally correlated or repetitive patterns rather than isolated events, indicating that both local acoustic cues and global temporal context should be considered. To address these issues, this study proposes an office noise classification framework that combines a Conformer based classifier for modeling temporal dependency with sub frame segmentation and majority voting based post processing to alleviate the influence of distortions in real world recordings. Experimental results show that the proposed method provides more accurate and stable classification performance than both a Convolutional Neural Network (CNN) based baseline model and a single clip Conformer model. These results indicate that the Conformer effectively captures temporal relations in office noise signals, while the sub frame based inference strategy mitigates the influence of distortion in real world data.

Keywords

Environment classification system

Conformer

Deep learning

Real world data

Sub-frame division

Majority voting

사운드 마스킹 시스템의 효과적인 운용을 위해서는 환경 소음을 정확하게 분류하는 기술이 요구된다. 그러나 실제 사무실 환경에서 획득한 소음 신호는 잔향, 배경 소음, 중첩된 음향 이벤트 등의 영향으로 왜곡되기 쉬우며, 이러한 특성은 기존의 전체 클립 단위 분류 방식에서 성능 저하를 유발할 수 있다. 또한 실제 사무실 소음은 단발적인 사건만으로 구성되기보다 시간상으로 연관되거나 반복되는 패턴을 포함하므로, 국소적 특징뿐 아니라 시간 축 전반의 문맥 정보도 함께 반영할 필요가 있다. 본 연구에서는 이러한 점을 고려하여, 시간적 연관성을 반영할 수 있는 Conformer 기반 분류기와 실 환경 데이터의 왜곡 영향을 완화하기 위한 서브 프레임 분할 및 다수결 후처리 전략을 결합한 사무실 소음 분류 프레임워크를 제안하였다. 실험 결과, 제안한 방법은 기존 합성곱 신경망(Convolutional Neural Network, CNN) 기반 모델 및 단일 클립 기반 Conformer 모델보다 더 높은 정확도와 안정적인 분류 성능을 나타냈다. 이는 Conformer가 소음 신호의 시간적 연관성을 효과적으로 반영하고, 서브 프레임 기반 추론이 실 환경 데이터의 왜곡 영향을 완화하는 데 유효함을 보여준다.

키워드

환경 소음 분류

Conformer

심층 신경망

실제 환경 데이터

서브 프레임 분할

다수결 투표

MAIN

I. 서 론
II. 소음 분류 시스템 및 선행 연구
III. 제안하는 실내 소음 분류 시스템
3.1 Conformer 기반 소음 분류
3.2 서브 프레임 분할 및 다수결 방식
IV. 실험 결과 및 분석
4.1 데이터셋 구성 및 전처리
4.2 실험 설정 및 비교 모델
4.3 실험 결과 및 분석
V. 결 론

I. 서 론

사운드 마스킹 시스템은 적절한 마스커 신호를 발생시켜 사용자가 주변 소음에 대해 덜 지각하도록 유도하는 기술로, 업무 집중도와 쾌적성이 중요한 사무실 환경에서 널리 활용된다.^[1] 이러한 시스템의 성능은 환경 소음의 주파수 특성 및 음압 수준에 맞는 마스킹 신호를 얼마나 적절하게 선택하느냐에 크게 좌우된다.^[2] 따라서 최적의 마스킹 효과를 얻기 위해서는 현재 환경에서 지배적인 소음 유형을 정확하게 식별하는 과정이 선행되어야 한다.

소음 분류 문제는 오래전부터 연구되어 왔으며, 초기에는 Zero crossing rate, Spectral flux와 같은 고전적 신호처리 특징을 이용한 규칙 기반 분류 방식이 주로 활용되었다. 이러한 방식은 구조가 단순하고 해석이 용이하다는 장점이 있으나, 환경 변화에 따라 임계값을 재설정해야 하며 클래스 수가 증가할수록 규칙 설계가 복잡해지는 한계를 가진다.^[3]

최근 머신러닝 및 딥러닝 기술의 발전에 따라 다양한 인공신경망 기반 접근법이 소음 분류 문제에 도입되고 있으며, 특히 합성곱 신경망(Convolutional Neural Network, CNN) 기반 모델은 시간–주파수 표현으로부터 유의미한 국소 특징을 효과적으로 추출함으로써 기존 방식에 비해 우수한 분류 성능을 보여주었다. 이와 같은 합성곱 신경망 기반 접근은 환경 소음 분류 및 음향 장면 분류 분야에서 널리 활용되어 왔으며, 초기에는 스펙트로그램 기반 입력으로 합성곱 신경망을 사용해 분류 성능 향상을 보였고,^[4] 이후에는 파형 기반 End to end 학습,^[5] Dilated convolution을 통한 Receptive field 확장,^[6] 데이터 증강 및 Mixup 기반^[7]으로 성능 향상을 유도하였다. 또한 시간 축과 주파수 축에 대해 각각 합성곱 층을 적용하는 방식도 연구되었다. 대표적인 방식으로 축 별 개별적 연산 후 Attention mechanism을 활용한 방식^[8]과 Separate kernel을 활용한 방식^[9]이 있다. 이러한 방식으로 특징을 효과적으로 추출하여 분류 정확도를 개선하였다. 이외에도 사전 학습된 모델과 Attention mechanism을 결합하여 정확도와 F1 score등의 평가지표를 향상시키는 방식^[10]도 제안되었으며, 모델의 크기는 줄이면서 정확도를 개선하는 연구 역시 활발히 진행되고 있다.^[11]

그러나 합성곱 신경망 기반 모델은 주로 인접한 시간–주파수 영역의 지역적 패턴을 포착하는 데 강점을 가지므로, 입력 신호 전반에 걸친 전역적인 특성이나 시간적 연관성을 충분히 반영하는 데에는 한계가 있다.^[12]Fig. 1은 실제 사무실 환경에서 녹음한 환경 소음의 멜 스펙트로그램이다. 해당 예시는 하나의 클립 내에 대화 소리, 프린터 소리, 그리고 배경 잡음이 복합적으로 포함될 수 있음을 보여준다. 이처럼 실제 사무실 환경의 소음은 단발적인 사건만으로 구성되기보다, 시간축에서 연관이 있거나 반복되는 패턴이 나타나는 경우가 많다. 이에 본 연구에서는 지역적 특성뿐 아니라 소음의 전역적인 특성도 함께 반영하고자 Conformer 기반 분류 모델을 도입하였다. Conformer는 Self attention module과 Convolution module을 결합한 구조로, 입력 신호의 장기적인 시간 의존성과 전역 문맥 정보를 반영하는 동시에 국소적인 시간–주파수 패턴도 효과적으로 추출할 수 있는 것으로 보고되었다.^[13] 따라서 실제 사무실 소음과 같이 시간적으로 연관되거나 반복되는 패턴과 국소적인 음향 이벤트가 함께 존재하는 환경에서, Conformer는 기존 합성곱 신경망 기반 모델보다 더 적합한 분류 구조가 될 수 있다.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F1.jpg

Fig. 1.

Mel spectrogram of audio recording real world office noise.

한편 실제 녹음 데이터에는 분류하고자 하는 목표 클래스 외에 다른 클래스의 소리가 짧게 포함되는 경우가 있으며, 잔향과 배경 잡음의 영향으로 인해 일부 구간의 신호가 왜곡되기도 한다. 이러한 조건에서는 고정 길이의 오디오 클립 전체를 하나의 단위로 직접 분류할 경우, 일시적인 혼입 이벤트나 왜곡된 구간이 전체 분류 결과에 영향을 미칠 수 있다. 이에 본 연구에서는 이러한 영향을 완화하고 보다 안정적인 분류를 수행하기 위해 서브 프레임 분할 및 다수결 후처리 방식을 사용하고자 한다. 이는 하나의 입력 클립을 여러 부분 구간으로 나누어 각각의 예측 결과를 반영함으로써 분류 정확도를 향상시키기 위한 것이다. 입력 오디오의 짧은 시간 단위 예측 결과를 통합하여 다수결로 최종 클래스를 결정하는 방식은 음향 장면 인식 분야에서 이미 사용된 바 있다. 예를 들어, Reference [14]에서는 프레임 단위로 예측 결과를 내어 다수결 투표 방식으로 결합하여 10 s 길이의 오디오 클립의 클래스를 결정하였다.

본 연구에서는 실제 업무 공간에서 직접 수집한 녹음 데이터를 사용하여 제안한 방법의 유효성을 검증하고, 합성곱 신경망 기반 기준 모델 및 단일 클립 기반 Conformer 모델과 비교하여 그 성능을 평가하였다.

II. 소음 분류 시스템 및 선행 연구

본 연구에서 다루는 소음 분류 시스템은 일정 시간 길이를 갖는 오디오 신호를 대상으로 한다. 입력 신호는 일정 길이의 오디오 클립으로 구성되며, 이는 로그 멜 스펙트로그램과 같은 시간 주파수 표현으로 변환된 후 모델의 입력으로 사용된다. 출력은 해당 클립을 대표하는 하나의 소음 클래스로 정의되며, 이는 현재 환경에서 지배적인 음향 이벤트를 의미한다. 본 연구는 이러한 문제 설정을 기반으로 수행되었다.^[15]

특히 본 연구에서 고려하는 환경은 사무실과 같은 실내 공간으로, 입력 신호에는 직접음뿐만 아니라 벽, 천장, 바닥 등에 의한 반사음이 포함되어 잔향이 존재한다. 또한 실제 환경에서는 하나의 클래스에 해당하는 소리만 존재하는 것이 아니라, 다양한 배경 잡음과 다른 클래스의 소리가 함께 혼입되는 경우가 일반적이다. 이러한 특성은 입력 신호의 왜곡을 유발하며, 소음 분류 성능을 저하시킬 수 있는 주요 요인으로 작용한다.

이와 같은 문제를 해결하기 위해 다양한 신경망 기반 소음 분류 기법이 제안되어 왔으며, 그 중 합성곱 신경망은 시간 주파수 표현에서 지역적인 패턴을 효과적으로 추출할 수 있어서 널리 사용되고 있다. 오디오 신호는 일반적으로 스펙트로그램이나 멜 스펙트로그램과 같은 2차원 시간 주파수 표현으로 변환되며, 합성곱 신경망은 합성곱 연산을 통해 이러한 표현의 국소 상관관계를 학습한다.^[4] 이를 수식으로 나타내면, 2차원 입력 $X \in R^{T \times F}$ 에 대해, 합성곱 연산은 다음과 같이 표현할 수 있다.

(1)

Y (i, j) = \sum_{m, n} X (i + m, j + n) W (m, n),

여기서 𝑊는 합성곱 커널을 나타내며, T와 F는 각각 시간 차원과 주파수 차원을 의미한다. 이러한 특성으로 인해 합성곱 신경망은 단기 스펙트럼 패턴과 지역적인 음향 구조를 효과적으로 포착할 수 있다.

대표적으로 DCASE 2018 Task 5에서 합성곱 신경망 기반 모델이 약 89.95 %의 Macro f1 score 를 기록하며 우수한 성능을 보였다.^[16] 해당 모델은 주파수 축과 시간 축에 대해 각각 합성곱 연산을 수행함으로써 주파수 대역 간의 특징과 시간적으로 인접한 음향 이벤트 패턴을 효과적으로 학습하도록 설계되었다. 또한 이 모델은 데이터 불균형 문제를 완화하기 위해 Shuffling 및 Mixing 기반의 데이터 증강 기법을 적용하였다. 이는 동일 클래스 내에서 음향 이벤트의 순서를 변경하거나 서로 다른 샘플을 혼합하더라도 동일한 클래스로 유지된다는 가정을 기반으로 하며, 학습 데이터의 분산을 증가시키는 역할을 한다. 이러한 접근은 제한된 데이터 환경에서도 분류 성능을 효과적으로 향상시킬 수 있음을 보여준다.

그러나 이러한 접근 방식은 몇 가지 한계를 가진다. 먼저, 데이터 증강 과정에서 음향 이벤트 간의 시간적 순서가 클래스에 영향을 미치지 않는다는 가정을 전제로 하고 있으며, 이는 실제 환경에서 나타날 수 있는 시간적 구조나 문맥 정보를 충분히 반영하지 못할 가능성이 있다. 또한 합성곱 연산의 특성상 입력 신호 전반에 걸친 장기적인 시간 의존성이나 전역적인 구조를 모델링하는 데에는 한계가 존재한다.^[13] 이와 더불어 실내 소음은 단발적인 이벤트만으로 구성되지 않고, 경우에 따라 일정 시간 동안 지속되거나 반복적인 양상을 나타낼 수 있다. 이러한 특성을 고려하면, 국소적인 특징뿐 아니라 시간 축 전반의 문맥 정보 역시 분류 과정에서 함께 고려해야 하는 상황이 존재한다. 따라서 보다 정확한 실내 소음 분류를 위해서는 국소적인 특징뿐만 아니라 장기적인 시간적 연관성과 전역적인 구조를 함께 반영할 수 있는 모델이 요구된다.

이에 본 연구에서는 이러한 한계를 극복하고자, 시간적 문맥 정보를 보다 효과적으로 반영할 수 있는 구조를 도입하여 실환경 기반 소음 분류 성능을 향상시키고자 한다.

III. 제안하는 실내 소음 분류 시스템

3.1 Conformer 기반 소음 분류

본 연구에서는 Reference [13]의 Conformer encoder 구조를 분류 모델의 핵심 인코더로 사용했다. Fig. 2(a)는 해당 인코더의 구조를 보여준다. Conformer는 Self attention module과 Convolution module을 결합하여 입력 시퀀스의 전역적 의존성과 국소적 의존성을 동시에 반영할 수 있도록 설계된 구조이다. Conformer의 Encoder block에서 Multi head self attention module은 입력 전 구간의 관계를 고려함으로써 장기적인 시간 의존성과 전역 문맥 정보를 반영하며, Convolution module은 인접 구간에서 나타나는 국소적인 음향 패턴을 효과적으로 추출한다. 따라서 Conformer는 전역적 특성과 지역적 특성을 동시에 반영할 수 있는 구조로 해석할 수 있다.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F2.jpg

Fig. 2.

(Color available online) (a) Conformer encoder’s^[13] architecture (b) block diagram of proposed classification system.

본 연구에서는 Fig. 2(b)에서 볼 수 있듯이, 해당 Conformer encoder를 특징 추출기로 사용하고, 그 뒤에 선형 분류기를 결합하여 최종 소음 분류기를 구성하였다. 이를 통해 기존 합성곱 신경망 기반 모델의 국소 특징 추출 능력을 유지하면서도, 실제 사무실 소음에서 중요한 시간적 연관성과 반복적 구조를 함께 반영하고자 하였다.

3.2 서브 프레임 분할 및 다수결 방식

실제 사무실 환경에서 획득한 소음 신호는 하나의 고정된 사건만을 포함하기보다, 서로 다른 음향 이벤트가 시간적으로 연속하여 나타나거나 동시에 중첩되는 경우가 많다. 또한 동일한 오디오 클립 내에서도 구간에 따라 지배적인 소음 특성이 달라질 수 있으므로, 전체 클립을 하나의 단일 사건으로 간주하여 분류하는 방식은 복합적인 음향 장면을 충분히 반영하지 못할 가능성이 있다. 특히 특정 구간에서는 목표 소음의 특성이 뚜렷하게 나타나더라도, 다른 구간에서는 배경성 소음이나 일시적인 간섭성 사건이 함께 포함될 수 있어, 클립 전체에 대한 단일 판단만으로는 분류 결과가 불안정해질 수 있다.

이러한 한계를 완화하기 위해 본 연구에서는 입력 오디오 클립을 5개의 서브 프레임으로 분할하여 처리하는 방식을 도입하였다. 이 방법은 하나의 긴 입력 신호를 여러 개의 부분 구간으로 나누고, 각 구간을 독립적인 관측 단위로 다룸으로써, 클립 내부의 시간적 변화와 지역적인 음향 특성을 보다 세밀하게 반영하는 데 목적이 있다. 즉, 단일 클립 분류 방식이 하나의 통합된 표현에 의존하는 것과 달리, 서브 프레임 기반 접근은 동일한 클립으로부터 다수의 부분적 판단을 생성함으로써 보다 풍부한 분류 근거를 확보하는 데 목적이 있다.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F3.jpg

Fig. 3.

(Color available online) Sub frame division and majority voting system without tie breaking.

Fig. 3과 같이, 분할된 각 서브 프레임 $x_{i}$ 는 분류 모델에 입력되어 클래스별 확률로 구성된 확률 벡터를 출력한다. 여기서 ${\hat{y}}_{i}$ 는 i번째 서브 프레임의 클래스별 추정 확률값을 의미하며, 이 벡터에서의 최댓값을 가지는 클래스인 ${\hat{C}}_{i}$ 가 예측 결과가 된다. 이를 모든 서브 프레임에 대해 적용하면 모든 클래스의 집합을 표본 공간으로 갖는 확률 분포 $P_{x}$ 를 얻을 수 있다. 그 후 이 확률 분포에서 가장 큰 값을 갖는 클래스로 최종 결과를 도출한다.

(2)

{\hat{y}}_{i} = [p_{i, 1}, p_{i, 2}, \dots, p_{i, C}],

(3)

{\hat{C}}_{i} = \arg \max_{C} p_{i, c}, c \in {1, 2, \dots, C},

(4)

\hat{C} = \arg \max_{x} P_{x} (X = {\hat{C}}_{i}) .

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F4.jpg

Fig. 4.

(Color available online) Sub frame division and majority voting system with tie breaking.

한편 서브 프레임별 클래스 예측 결과에서 추정한 결과가 동점이 되는 상황이 발생할 수 있다. 이러한 상황에서는 Fig. 4와 같이 각 서브 프레임의 확률 벡터를 모두 더한 후, 서브 프레임의 개수인 $N$ 으로 나누어 평균 확률 벡터 $\hat{y}$ 를 계산한다. 그리고 가장 큰 값을 갖는 클래스를 최종 클래스로 선택한다.

(5)

\hat{y} = \frac{1}{N} \sum_{i = 1}^{N} {\hat{y}}_{i} = [\bar{p_{1}}, \bar{p_{2}}, \dots, \bar{p_{C}}],

(6)

\hat{C} = \arg \max_{C} p_{i, c}, c \in {1, 2, \dots, C} .

결과적으로 본 연구에서 제안한 서브 프레임 분할 및 후처리 전략은 단순한 입력 세분화 기법이 아니라, 실제 음향 장면의 복합성과 시간적 비정상성을 분류 과정에 구조적으로 반영하기 위한 방법으로 볼 수 있다. 이는 하나의 오디오 클립에 포함된 다양한 음향 단서를 보다 효과적으로 활용할 수 있게 하며, 실제 사무실 소음 환경에서 보다 안정적이고 신뢰성 있는 분류 성능을 확보하는 데 기여한다.

IV. 실험 결과 및 분석

4.1 데이터셋 구성 및 전처리

본 연구에서는 실제 사무실 환경을 반영하기 위해 업무 공간에서 직접 수집한 실환경 녹음 데이터를 사용하였다. 실측 데이터는 2023년 10월 16일부터 17일까지 경기 성남시 분당구 소재 사무실에서 수집되었으며, 근무시간 동안 모니터링한 데이터와 사무실 내 주요 소음원을 재현한 통제 녹음 데이터로 구성하였다. 측정 공간의 크기는 약 가로 12.5 m, 세로 7.6 m이다. 측정 공간의 평면도와 마이크 배치 위치는 Fig. 5에 제시하였다. 측정에는 MEMS 마이크와 KU100 더미헤드, 스마트폰, 소음계가 활용되었다. 측정 대상은 라운지 대화, 회의, 통화와 같은 음성 계열 소음과 복사기, 전화벨, 키보드, 냉난방기 등의 대표적인 사무실 소음원을 포함하였으며, Other 클래스는 상기 범주로 명확히 구분되지 않는 기타 소음으로 정의하였다. 한편 데이터의 다양성과 일반화 성능 확보를 위해, 실제 환경에서 수집된 오디오 클립 기반의 공개 데이터셋인 ARCA23K^[17]와 FSD50K^[18]도 함께 활용하였다. 전체 데이터는 약 11 h 분량이며, Ambience, Speech, Machine, Working, Other의 5개 클래스로 구성하였다. Table 1은 데이터셋의 클래스별 분포를 나타낸다. 클래스별 데이터 분포는 균일하지 않으며, 특히 Ambience 클래스의 데이터 길이는 다른 클래스에 비해 상대적으로 적다. 이러한 데이터를 학습에 활용하기 위해 전체 데이터셋은 학습용 90 %, 테스트용 10 %로 분할하였으며, 각 오디오 샘플은 단일 채널로 변환한 뒤 24 kHz 샘플링 주파수로 재표본화하고, 이후 분류 모델의 입력으로 사용하기 위해 로그 멜 스펙트로그램으로 변환하였다.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F5.jpg

Fig. 5.

(Color available online) Floor plan of measured office.

Table 1.

Total dataset distribution.

Class	Duration
Ambience	51 m
Speech	3 h 16 m
Machine	2 h 59 m
Working	1 h 57 m
Other	1 h 59 m
Total	11 h

4.2 실험 설정 및 비교 모델

제안한 분류 모델은 Conformer encoder와 선형 분류기로 구성하였으며, 입력 특징의 차원은 80, Encoder의 차원은 512로 설정하였다. 또한 Encoder는 동일한 Encoder block을 3회 반복하는 구조로 구성하였고, 이 값은 Conformer encoder의 복잡도를 너무 크게 가져가지 않으면서도 성능을 보장할 수 있는 횟수로 예상하여 결정하였다. 학습 단계에서는 10 s 길이의 오디오 클립을 5개의 4 s 서브 프레임으로 분할한 후, 각 서브 프레임을 독립적인 학습 샘플로 사용하였다. 반면 시험 단계에서는 자르지 않은 10 s 원본 클립을 입력으로 사용하고, 이를 동일한 방식으로 분할하여 각 서브 프레임의 예측 결과를 종합함으로써 최종 클래스를 결정하였다. Figs. 6과 7은 각각 학습 과정과 시험 과정을 보여준다.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F6.jpg

Fig. 6.

(Color available online) Training process of proposed model.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F7.jpg

Fig. 7.

(Color available online) Test process of proposed model.

학습은 배치 크기 64, 학습률 5 × 10^-5의 조건에서 Adam optimizer를 사용하여 수행하였다. 손실 함수는 각 서브 프레임에 대해 계산된 Cross entropy loss의 평균값을 사용하였다. 그리고 과적합을 완화하기 위해 L1 정규화항을 더한 형태로 정의하였으며,^[19] 식은 다음과 같다.

(7)

L = \frac{1}{B K} \sum_{b = 1}^{B} \sum_{k = 1}^{K} Cross Entropy ({\hat{y}}_{b, k}, y) + λ \sum_{i} |w_{i}|,

여기서는 각각 배치 크기와 입력당 서브 프레임 수를 나타낸다. 또한 $B$ 와 $K$ 는 각각 배치 크기와 입력당 서브 프레임 수를 나타낸다. 또한 ${\hat{y}}_{b, k}$ 는 $b$ 번째 샘플의 $k$ 번째 서브 프레임에 대해 모델이 출력한 확률 벡터이며 $y_{b, k}$ 는 이에 대응하는 정답 확률 벡터이다. 𝜆는 L1 정규화 계수이고 𝜆 = 5 × 10^-5로 설정하였다. $ω_{i}$ 는 학습 가능한 모델 파라미터를 의미한다. 학습은 최대 2000 epoch까지 수행하되 검증 손실 기준의 조기 종료를 적용하였다. 비교를 위해 합성곱 신경망 기반 모델과 제안하는 모델에서 서브 프레임 분할 및 다수결 투표를 적용하지 않은 모델을 사용하였다. 두 모델 모두 10 s 길이 오디오 클립의 멜 스펙트로그램을 입력으로 사용하였다. 합성곱 신경망 기반 모델의 구조는 Reference [15]을 기반으로 하되, 본 연구의 문제 상황에 맞게 일부 수정하여 사용하였다. 입력 크기는 입력의 주파수 빈에 맞추어 (80, 501, 40)을 사용하였고, ResNorm layer^[20]을 추가하였다. 또한 L1 정규화를 적용하였으며, 정규화 계수는 𝜆 = 1 × 10^-5로 설정하였다. 서브 프레임 분할과 다수결 투표를 적용하지 않은 Conformer model은 Conformer encoder에 선형 분류기를 결합한 구조로 설계하였으며, 모델 파라미터 및 학습 파라미터는 제안하는 모델과 동일하다. 두 비교 모델에 대한 구조는 각각 Figs. 8과 9와 같다. 성능 평가는 F1 score를 기준으로 수행하였으며, 학습 초기화에 따른 편차를 줄이고 결과의 신뢰성을 확보하기 위해 10회 반복 실험을 수행한 뒤, 각 실험에서 얻어진 F1 score의 평균값을 최종 성능으로 사용하였다.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F8.jpg

Fig. 8.

(Color available online) CNN base classifier model.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F9.jpg

Fig. 9.

(Color available online) Conformer model without sub frame division and majority voting.

4.3 실험 결과 및 분석

Table 2는 모델별 평균 F1 score를 나타낸다. 제안한 모델은 모든 비교 모델 중 가장 높은 평균 Macro F1 score를 보였다. 평균 Macro F1 score는 합성곱 신경망 기반 모델이 0.7603, Conformer에 후처리를 적용하지 않은 모델이 0.8080, 제안한 모델이 0.9005로 나타났다. 이는 제안한 방식이 실제 사무실 녹음 환경에서 가장 우수한 분류 성능을 제공함을 보여준다. 특히 단순히 합성곱 신경망을 Conformer로 대체한 경우에도 일정 수준의 성능 향상이 관찰되었으나, 그 향상 폭은 제한적이었다. 반면 제안한 모델은 기존 두 모델에 비해 더 큰 성능 향상을 보였으며, 이는 실제 환경 소음의 복합적 특성을 보다 효과적으로 반영할 수 있었기 때문으로 해석된다.

Table 2.

Mean F1 score of models.

Class	CNN base	Conformer without sub-frame	Proposed model
Ambience	0.5551	0.6219	0.7897
Speech	0.9044	0.9009	0.9520
Machine	0.8230	0.8768	0.9250
Working	0.6233	0.6779	0.8445
Other	0.6791	0.7481	0.8921
Average	0.7603	0.8080	0.9005

클래스별 결과를 살펴보면, 제안한 모델은 Ambience, Speech, Machine, Working, Other의 모든 클래스에서 가장 높은 F1 score를 기록하였다. 특히 Ambience 클래스는 합성곱 신경망 기반 모델에서 0.5551, Conformer에 후처리를 적용하지 않은 모델에서 0.6219, 제안한 모델에서 0.7897로 향상되었고, Working 클래스는 각각 0.6233, 0.6779, 0.8445를 나타냈다. 또한 Other 클래스 역시 0.6791, 0.7481, 0.8921로 크게 개선되었다. 전반적으로 제안한 모델은 특정 클래스에 한정되지 않고 전체 클래스에 걸쳐 일관된 성능 향상을 보였으며, 특히 Ambience, Working, Other 클래스에서 상대적으로 더 큰 개선 폭이 관찰되었다. 한편 Speech와 Machine 클래스는 세 모델 모두에서 비교적 높은 성능을 보였다. 이는 해당 클래스들이 다른 클래스에 비해 상대적으로 뚜렷한 음향적 특징을 가지기 때문으로 해석할 수 있다. 또한 제안한 모델은 이들 클래스에서도 가장 높은 F1 score를 기록하여, 이미 높은 성능을 보이던 클래스의 분류 성능을 유지하는 동시에 기존 방식에서 상대적으로 구분이 어려웠던 클래스의 성능을 개선하였음을 보여준다.

Figs. 10, 11, 12는 각 모델의 평균 Normalized confusion matrix를 나타낸다. 제안한 모델은 비교 모델들에 비해 전반적으로 더 큰 대각 성분을 보였으며, 이는 각 클래스를 보다 정확하게 분류하고 있음을 의미한다. 합성곱 신경망 기반 모델에서는 Ambience, Working, Other 클래스의 대각 성분이 각각 0.597, 0.636, 0.664로 상대적으로 낮게 나타났고, 이들 클래스는 다른 클래스에 비해 오분류 비율도 높았다. 특히 Ambience 클래스는 Other, Speech, Working으로의 오분류가 비교적 크게 나타났으며, Working 및 Other 클래스 역시 여러 클래스에 걸쳐 분산된 오분류 양상을 보였다. 이는 실제 사무실 소음에서 배경 소음, 작업 소음, 기타 혼합 소음 간 경계가 명확하지 않기 때문으로 볼 수 있다.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F10.jpg

Fig. 10.

(Color available online) Averaged normalized confusion matrix of CNN base model.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F11.jpg

Fig. 11.

(Color available online) Averaged normalized confusion matrix of conformer without sub frame model.

https://cdn.apub.kr/journalsite/sites/ask/2026-045-03/N0660450309/images/ASK_45_03_09_F12.jpg

Fig. 12.

(Color available online) Averaged normalized confusion matrix of proposed model.

서브 프레임 분할을 적용하지 않은 Conformer 모델은 합성곱 신경망 기반 모델에 비해 Machine, Working, Other 클래스에서 더 높은 대각 성분을 나타냈다. 그러나 Ambience 클래스의 경우 대각 성분이 0.617로 소폭 증가하는 데 그쳤으며, Working 및 Other 클래스와의 혼동도 여전히 남아 있었다.

반면 제안한 모델은 모든 클래스에서 가장 높은 대각 성분을 보였다. 특히 Ambience, Working, Other 클래스의 대각 성분은 각각 0.789, 0.895, 0.862로 크게 향상되었으며, 이는 Table 2의 클래스별 F1 score 향상과도 일치한다. 또한 기존 모델들에서 비교적 크게 나타났던 Ambience와 Other, Machine과 Working, Other와 Machine 간의 오분류도 전반적으로 감소하였다. 이러한 결과는 서브 프레임 분할과 다수결 방식이 실제 사무실 소음의 시간적 변화와 국소적 왜곡 영향을 완화하는 데 효과적임을 보여준다.

한편 Table 1에서 볼 수 있듯이 클래스별 데이터 분포는 균일하지 않으며, 특히 Ambience 클래스의 데이터 길이는 다른 클래스에 비해 상대적으로 적다. 실제로 제안한 모델은 Ambience 클래스에서도 성능 향상을 보였으나, 그 수치는 다른 주요 클래스에 비해 여전히 낮은 수준에 머물렀다. 이는 데이터 불균형과 더불어 Ambience 클래스의 경계가 다른 소음과 비교적 모호하기 때문으로 해석할 수 있다. 따라서 향후에는 데이터 불균형 완화와 추가 데이터 확보를 통해 해당 클래스의 분류 성능을 더욱 개선할 필요가 있다. 또한 학습 가능한 파라미터 수는 합성곱 신경망 기반 모델이 약 0.35 M인 반면, 후처리를 적용하지 않은 Conformer 모델과 제안한 모델은 약 26 M이다. 따라서 실제 기기에 탑재하기 위해서는 경량화 작업이 추가로 요구된다.

V. 결 론

본 연구에서는 실제 사무실 환경의 소음 특성을 고려하여, Conformer 기반 분류기와 서브 프레임 분할 및 다수결 후처리 전략을 결합한 소음 분류 프레임워크를 제안하였다. 이를 통해 단일 클립 기반 분류 방식의 한계를 보완하고, 실제 환경 녹음 데이터에 대해 보다 안정적이고 강건한 분류가 가능함을 확인하였다.

또한 데이터가 제한된 현실적인 조건에서도, 적절한 모델 구조와 후처리 전략을 통해 실용적인 수준의 소음 분류가 가능함을 보여주었다.

향후 연구에서는 상대적으로 낮은 성능을 보인 클래스의 분류 성능 향상을 위해 하이브리드 특징 추출, 데이터 불균형 완화 기법, 그리고 서브 프레임 기반 분류 전략의 확장 가능성에 대해 추가로 검토할 필요가 있다.

Acknowledgements

이 연구는 2025년도 산업통상자원부 및 산업기술평가관리원(KEIT) 연구비 지원에 의한 연구임(‘2002 3556, 개인공간 소음 문제 해결을 위한 소음 시뮬레이션기반 개인 맞춤형 소음 완화 기술 및 서비스 개발’).

References

V. Hongisto, “Effects of sound masking on workers - a case study in a landscaped office,” Proc. 9th ICBEN, 442-449 (2008).

H. Kuttruff, Acoustics: An Introduction (CRC Press, Boca Raton, 2007), pp. 248-251.

L. Lu, H.-J. Zhang, and H. Jiang, “Content analysis for audio classification and segmentation,” IEEE Trans. Speech Audio Process. 10, 504-516 (2002).

10.1109/TSA.2002.804546

K. J. Piczak, “Environmental sound classification with convolutional neural networks,” Proc. MLSP 2015, 1-6 (2015).

10.1109/MLSP.2015.7324337

Y. Tokozume and T. Harada, “Learning environmental sounds with end-to-end convolutional neural network,” Proc. ICASSP, 2721-2725 (2017).

10.1109/ICASSP.2017.7952651

X. Zhang, Y. Zou, and W. Shi, “Dilated convolution neural network with LeakyReLU for environmental sound classification,” Proc. DSP 2017, 1-5 (2017).

10.1109/ICDSP.2017.8096153

Z. Zhang, S. Xu, S. Cao, and S. Zhang, “Deep convolutional neural network with mixup for environmental sound classification,” Proc. PRCV, 356-367 (2018).

10.1007/978-3-030-03335-4_31

H. Wang, Y. Zou, D. Chong, and W. Wang, “Environmental sound classification with parallel temporal-spectral attention,” arXiv:1912.06808 (2019).

10.21437/Interspeech.2020-1219

Y. Cai, P. Zhang, and S. Li, “TF-SepNet: An efficient 1D kernel design in CNNs for low-complexity acoustic scene classification,” Proc. ICASSP, 821-825 (2024).

10.1109/ICASSP48485.2024.10447999

A. Ashurov, Z. Yi, H. Liu, Z. Yu, and M. Li, “Concatenation-based pre-trained convolutional neural networks using attention mechanism for environmental sound classification,” Appl. Acoust. 216, 109759 (2024).

10.1016/j.apacoust.2023.109759

F. Schmid, P. Primus, T. Heittola, A. Mesaros, I. Martín-Morató, K. Koutini, and G. Widmer, “Data-efficient low-complexity acoustic scene classification in the DCASE 2024 Challenge,” arXiv:2405.10018 (2024).

K. Miyazaki, T. Komatsu, T. Hayashi, S. Watanabe, T. Toda, and K. Takeda, “Conformer-based sound event detection with semi-supervised learning and data augmentation,” Proc. DCASE2020, 100-104 (2020).

A. Gulati, J. Qin, C.-C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, and R. Pang, “Conformer: Convolution-augmented Transformer for speech recognition,” Proc. Interspeech 2020, 5036-5040 (2020).

10.21437/Interspeech.2020-3015

A. Mesaros, T. Heittola, and T. Virtanen, “Acoustic scene classification: An overview of DCASE 2017 challenge entries,” Proc. IWAENC 2018, 411-415 (2018).

10.1109/IWAENC.2018.8521242

G. Dekkers, S. Lauwereins, B. Thoen, M. W. Adhana, H. Brouckxon, T. V. Waterschoot, B. Vanrumste, M. Verhelst, and P. Karsmakers, “The SINS database for detection of daily activities in a home environment using an acoustic sensor network,” Proc. DCASE 2017, 32-36 (2017).

T. Inoue, P. Vinayavekhin, S. Wang, D. Wood, N. Greco, and R. Tachibana, “Domestic activities classification based on CNN using shuffling and mixing data augmentation,” DCASE 2018 Challenge., Tech. Rep., 2018.

T. Iqbal, Y. Cao, A. Bailey, M. D. Plumbley, and W. Wang, “ARCA23K: An audio dataset for investigating open-set label noise,” arXiv:2109.09227 (2021).

E. Fonseca, X. Favory, J. Pons, F. Font, and X. Serra, “FSD50K: An open dataset of human-labeled sound events,” IEEE/ACM Trans. Audio Speech Lang. Process. 30, 829-852 (2021).

10.1109/TASLP.2021.3133208

I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning (MIT Press, Cambridge, MA, 2017), pp. 234-236.

B. Kim, S. Yang, J. Kim, and S. Chang, “QTI submission to DCASE 2021: Residual normalization for device-imbalanced acoustic scene classification with efficient design,” DCASE2021 Challenge., Tech. Rep., 2021.

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Neural network based office noise classification via sub frame division and majority voting

ABSTRACT

MAIN

Fig. 1.

Mel spectrogram of audio recording real world office noise.

(1)

Fig. 2.

(Color available online) (a) Conformer encoder’s[13] architecture (b) block diagram of proposed classification system.

Fig. 3.

(Color available online) Sub frame division and majority voting system without tie breaking.

(2)

(3)

(4)

Fig. 4.

(Color available online) Sub frame division and majority voting system with tie breaking.

(5)

(6)

Fig. 5.

(Color available online) Floor plan of measured office.

Table 1.

Total dataset distribution.

Fig. 6.

(Color available online) Training process of proposed model.

Fig. 7.

(Color available online) Test process of proposed model.

(7)

Fig. 8.

(Color available online) CNN base classifier model.

Fig. 9.

(Color available online) Conformer model without sub frame division and majority voting.

Table 2.

Mean F1 score of models.

Fig. 10.

(Color available online) Averaged normalized confusion matrix of CNN base model.

Fig. 11.

(Color available online) Averaged normalized confusion matrix of conformer without sub frame model.

Fig. 12.

(Color available online) Averaged normalized confusion matrix of proposed model.

Acknowledgements

References

(Color available online) (a) Conformer encoder’s^[13] architecture (b) block diagram of proposed classification system.