-
Research Article
-
Acoustic backscattering strength from sea ice in the summer measured in the Arctic Ocean during KAMAS-24
북극해 음향실험(KAMAS-24)에서 관측한 여름철 해빙의 음파 후방산란강도
-
Joung-Soo Park, Su-Uk Son, Jungyong Park, Dae Hyeok Lee, Woo Shik Kim, Ho-Seuk Bae, Hansoo Kim, Young Geul Yoon, Sungho Cho, Donhyug Kang, and Wuju Son
박정수, 손수욱, 박중용, 이대혁, 김우식, 배호석, 김한수, 윤영글, 조성호, 강돈혁, 손우주
- Korea Acoustic Measurement in the Arctic Sea in 2024 (KAMAS-24) was conducted in the Chukchi Sea and the East Siberian Sea of …
Korea Acoustic Measurement in the Arctic Sea in 2024(KAMAS-24)는 2024년 8월에 북극해의 축치해와 동시베리아해 해역에서 수행되었고, 이 실험에서 해빙에 의한 음파의 후방산란강도 …
- Korea Acoustic Measurement in the Arctic Sea in 2024 (KAMAS-24) was conducted in the Chukchi Sea and the East Siberian Sea of the Arctic Ocean in August 2024, and the acoustic backscattering strength due to sea ice was measured in this experiment. The acoustic backscattering strength at each scattering angle was estimated from the beam output measured using a mid-frequency transmitter and a vertical line array, and compared with the previously known observations. The backscattering strength of KAMAS-24 showed a similar trend to the case of ice-free sea surface below 60 deg. And, it showed a fluctuation of more than 15 dB at lower angles, which was thought to be caused by the influence of the ridge keel that may exist under the sea ice. At 90 deg, where the possibility of additional loss and destructive interference could be considered by penetrating sea ice, the backscattering strength also tends to bo lower than the trend. Comparison with previously published observations shows that the backscattering strength from KAMAS-24 was lower than previously observed, which may be because the measurements were taken in summer, when climate change is progressing and temperatures are rising, causing sea ice to soften and melt at an increasing rate and amount.
- COLLAPSE
Korea Acoustic Measurement in the Arctic Sea in 2024(KAMAS-24)는 2024년 8월에 북극해의 축치해와 동시베리아해 해역에서 수행되었고, 이 실험에서 해빙에 의한 음파의 후방산란강도 를 측정하였다. 중주파수 음원과 수직선배열센서를 이용하여 측정한 빔출력으로부터 산란각별 후방산란강도를 추정하고 기존의 알려진 관측과 비교하였다. KAMAS-24의 후방산란강도는 60 deg 이하에서는 산란각에 따른 변화 경향이 해빙이 없는 해수면의 경우와 유사하였다. 또한 저각에서 15 dB 이상의 변동이 나타났으며 해빙의 하부에 존재할 수 있는 용골에 의한 영향으로 생각된다. 음파가 해빙을 투과하여 추가 손실과 상쇄 간섭이 발생할 가능성이 있는 고각인 90 deg에서는 후방산란강도가 낮아지는 현상도 나타났다. 공개된 기존의 관측과 비교한 결과 KAMAS-24의 후방산란강도가 기존의 관측보다 낮았으며, 기후변화가 진행되며 여름철에 기온이 상승하여 해빙이 무르고 녹는 속도와 양이 증가하는 시기에 측정되었기 때문으로 생각된다.
-
Acoustic backscattering strength from sea ice in the summer measured in the Arctic Ocean during KAMAS-24
-
Research Article
-
Acoustic characteristic analysis of small yellow croaker(Larimichthys polyactis) sounds
참조기 소리의 음향학적 특성 분석
-
Beomsik Kim, Jongwook Choi, Young Geul Yoon, Sunhyo Kim, Hansoo Kim, Sungho Cho, Donhyug Kang, and Jee Woong Choi
김범식, 최종욱, 윤영글, 김선효, 김한수, 조성호, 강돈혁, 최지웅
- Marine organisms use sounds for various purposes, such as communication, prey detection, obstacle and predator avoidance and navigation. These sounds are also …
해양 생물들은 의사소통, 먹이 탐색, 장애물 및 포식자 회피, 항해 등 여러 가지 목적을 위해 소리를 사용한다. 이러한 해양생물음은 개체군 평가, 행동 …
- Marine organisms use sounds for various purposes, such as communication, prey detection, obstacle and predator avoidance and navigation. These sounds are also utilized in research areas such as population assessment, behavioral analysis, and covert underwater acoustic communication, for which an analysis of their acoustic characteristics is essential. In this study, we analyzed the acoustic characteristics of small yellow croaker (Larimichthys polyactis) sounds which one of the fish that produce sounds. The sounds were recorded using self-recording hydrophone in an aquaculture fish farm of Tongyeong Maritime Test & Evaluation Station in April 2024. The small yellow croaker sounds consisted of repeated pulses each shorter than 10 ms, with highly similar waveforms. To analyze their sounds, we measured the number of pulses, Inter-Pulse Intervals (IPI), variability of IPI and pulse-to-pulse similarity within a signal, . We also analyzed the pulse duration, number of semiperiods, Sound Pressure Level (SPL), peak frequency, and 3 dB bandwidth of a representative pulse from each signal. This study offers foundational data for future applications in marine bioacoustics research.
- COLLAPSE
해양 생물들은 의사소통, 먹이 탐색, 장애물 및 포식자 회피, 항해 등 여러 가지 목적을 위해 소리를 사용한다. 이러한 해양생물음은 개체군 평가, 행동 분석, 수중 은밀 통신 등 여러 연구 분야에 활용되고 있으며, 이를 위해서는 해양생물음의 음향학적 특성 분석이 선행되어야 한다. 본 연구에서는 소리를 발생시키는 어류 중 하나인 참조기(Larimichthys polyactis)가 내는 소리의 음향학적 특성을 분석하였다. 참조기 소리는 2024년 4월, 통영해상실증기지의 가두리 양식장에서 자동기록식 수중청음기를 활용하여 녹음되었다. 참조기 소리는 펄스 길이가 10 ms 이하의 펄스가 반복되는 형태를 보이고 파형이 매우 유사하게 나타났다. 이에 본 연구에서는 참조기 소리의 음향학적 특성으로, 하나의 신호 안에 존재하는 펄스 수, 펄스 간 간격, 펄스 간 간격의 변동성, 펄스 간 유사도를 분석하였으며, 신호별 대표 펄스 길이, 반파장 개수, 음압 준위, 피크 주파수, 3 dB 대역폭을 분석하였다. 본 연구 내용은 향후 해양생물음 기반 응용 연구에 기초 자료로 활용될 수 있다.
-
Acoustic characteristic analysis of small yellow croaker(Larimichthys polyactis) sounds
-
Research Article
-
Design of wideband class IV flextensional hydrophone structure
광대역 class IV 플렉스텐셔널 하이드로폰 구조 설계
-
Gihyeon Kim and Yongrae Roh
김기현, 노용래
- Class IV flextensional transducers, which have been primarily employed for transmission, exhibit high sensitivity characteristics when utilised as hydrophones, attributable to the …
주로 송신용으로 사용되어 온 class IV 플렉스텐셔널 트랜스듀서는 높은 기계적 증폭 효과와 압전 효과의 가역성으로 인해 하이드로폰으로 사용 시 고감도 특성을 가질 …
- Class IV flextensional transducers, which have been primarily employed for transmission, exhibit high sensitivity characteristics when utilised as hydrophones, attributable to the substantial mechanical amplification effect and the reciprocity of the piezoelectric effect. The present study has been conducted with the objective of developing a class IV flextensional hydrophone that possesses both high sensitivity and a wide bandwidth in the low frequency range. The influence of structural variables on the acoustic performance was evaluated through finite element analysis, with the receiving voltage sensitivity and fractional bandwidth established as the primary performance indicators. Subsequently, regression analysis and optimization algorithms were employed to derive the optimal structure. The final model exhibited a 21 %p increase in bandwidth while maintaining the same receive voltage sensitivity in the low frequency range compared to the basic model.
- COLLAPSE
주로 송신용으로 사용되어 온 class IV 플렉스텐셔널 트랜스듀서는 높은 기계적 증폭 효과와 압전 효과의 가역성으로 인해 하이드로폰으로 사용 시 고감도 특성을 가질 수 있다. 이러한 특성을 응용하여 본 연구는 저주파 구간에서 고감도와 넓은 대역폭을 가지는 class IV 플렉스텐셔널 하이드로폰을 개발하고자 하였다. 수신 전압 감도와 비대역폭을 주요 성능 지표로 설정하여 유한요소해석을 통해 구조 변수가 음향 성능에 미치는 영향을 평가하였다. 그리고 회귀 분석, 최적화 알고리즘을 사용하여 최적 구조를 도출하였으며, 최종 모델은 기본모델에 비해 저주파 구간의 수신 감도는 대등하면서 비대역폭은 21 %p 증가하였다.
-
Design of wideband class IV flextensional hydrophone structure
-
Research Article
-
Japanoise listening methods : Why an avant-garde perspective is needed beyond traditional notions of dissonance and noise
재패노이즈 청취법 : 악음과 소음의 개념에서 벗어난 청취를 위한 아방가르드적 관점의 필요성
-
Seunggyu Yi and Taegyu Lim
이승규, 임태규
- This study reexamines Japanoise, a Japanese form of noise art, from an acoustic-aesthetic perspective, and analyzes its listening practices and genre …
본 연구는 일본의 노이즈 예술 형식인 재패노이즈(Japanoise)를 음향 미학적 관점에서 재조명하고, 그것의 감상 방식과 장르적 정체성을 기존 노이즈뮤직과 사운드아트의 틀 속에서 비교·분석하였다. …
- This study reexamines Japanoise, a Japanese form of noise art, from an acoustic-aesthetic perspective, and analyzes its listening practices and genre identity in comparison with conventional noise music and sound art. While traditional noise music, rooted in the philosophy of the avant-garde movement, adopted noise as a musical material, its modes of listening often remained confined within the framework of conventional music appreciation. In contrast, Japanoise places emphasis not on the structural completeness of sound but on the act of creation and the stimulation of physical senses, attributing artistic value to the process of sound generation rather than its final product. Through literature review and qualitative comparative analysis, this paper identifies two core elements that Japanoises hares with sound art: active engagement of the listener and an action-based aesthetic. Based on these findings, the study redefines Japanoise not as a subgenre of noise music, but as an expanded practice of sound art. This redefinition offers listeners a new framework for auditory experience and clarifies the artistic significance and acoustic-aesthetic potential of Japanoise.
- COLLAPSE
본 연구는 일본의 노이즈 예술 형식인 재패노이즈(Japanoise)를 음향 미학적 관점에서 재조명하고, 그것의 감상 방식과 장르적 정체성을 기존 노이즈뮤직과 사운드아트의 틀 속에서 비교·분석하였다. 기존 노이즈뮤직은 아방가르드 운동의 철학을 바탕으로 소음을 음악적 재료로 도입하였으나, 감상 방식은 여전히 전통적인 음악 청취의 틀에 머무는 경우가 많았다. 반면 재패노이즈는 소리의 구조적 완성도보다는 생성 행위와 신체적 감각 자극에 중점을 두며, 결과물이 아닌 소리 생성 과정 그 자체에 예술적 의미를 부여한다. 본 논문은 문헌 연구와 질적 비교 분석을 통해 재패노이즈가 사운드아트와 공유하는 두 가지 핵심 요소—청취자의 능동적 개입, 행위 중심의 미학—를 도출하였으며, 이를 통해 재패노이즈를 단순한 노이즈뮤직의 하위 장르가 아닌 사운드아트의 확장된 실천으로 재정의하였다. 이러한 재정의는 감상자에게 새로운 청취의 틀을 제공하며, 재패노이즈가 지닌 예술적 의미와 음향 미학적 가능성을 보다 명확히 드러낸다.
-
Japanoise listening methods : Why an avant-garde perspective is needed beyond traditional notions of dissonance and noise
-
Research Article
-
A dual sliding window Iterative Wiener Filter to improve the time-varying system estimation performance
시변 시스템 추정 성능 향상을 위한 이중 슬라이딩 윈도우 Iterative Wiener Filter
-
Jun-Seok Lim
임준석
- This paper proposes a dual sliding window method to enhance the performance of the Iterative Wiener Filter (IWF) algorithm in time-varying environments. …
본 논문은 시변 환경에서 Iterative Wiener Filter(IWF) 알고리즘의 성능 향상을 위한 이중 슬라이딩 윈도우 방법을 제안한다. 기존 IWF 알고리즘은 재귀 최소 제곱(Recursive …
- This paper proposes a dual sliding window method to enhance the performance of the Iterative Wiener Filter (IWF) algorithm in time-varying environments. While the conventional IWF algorithm demonstrates excellent convergence performance while addressing the numerical instability issues of Recursive Least Squares (RLS), its tracking performance in time-varying environments is limited. The proposed dual sliding window IWF dynamically selects between long and short windows based on channel change detection, providing fast tracking with a short data window during channel transitions and maintaining high estimation accuracy with a long data window in steady-state conditions. Simulation results confirm that the proposed method achieves improved tracking performance compared to IWF using a single window length in time-varying channel environments.
- COLLAPSE
본 논문은 시변 환경에서 Iterative Wiener Filter(IWF) 알고리즘의 성능 향상을 위한 이중 슬라이딩 윈도우 방법을 제안한다. 기존 IWF 알고리즘은 재귀 최소 제곱(Recursive Least Squares, RLS)의 수치적 불안정성 문제를 해결하면서도 우수한 수렴 성능을 보이지만, 시변 환경에서의 추적 성능이 제한적이다. 제안하는 이중 슬라이딩 윈도우 IWF는 시스템 변화 감지에 따라 동적으로 길고 짧은 윈도우를 선택하여, 시스템이 변화하는 동안에는 짧은 길이 데이터 윈도우로 빠른 추적을 제공하고, 정상 상태에서는 긴 길이 데이터 윈도우를 사용하여 높은 추정 정확성을 유지한다. 시뮬레이션 결과, 제안한 방법이 단일 윈도우 길이를 사용하는 IWF보다 시변 시스템 환경에서 향상된 추적 성능을 보임을 확인하였다.
-
A dual sliding window Iterative Wiener Filter to improve the time-varying system estimation performance
-
Research Article
-
An optimal adaptive coding and modulation mode selection method based on machine learning for underwater acoustic communication
수중 음향 통신을 위한 머신러닝 기반의 최적의 적응형 부호 및 변조 모드 선택 방식
-
Hyun-Woo Jeong, Ji-Won Jung, Jun-ho Kim, and Byoung-sun Ahn
정현우, 정지원, 김준호, 안병선
- This paper proposes a Machine Learning (ML) based Adaptive Coding and Modulation (ACM) scheme that dynamically selects the optimal transmission mode in …
본 논문에서는 시변성이 큰 수중 음향 통신 환경에서 채널 부호화율과 변조 방식을 적응적으로 변경하여 최적의 전송 모드를 선택하는 기계 학습 기반의 Adaptive …
- This paper proposes a Machine Learning (ML) based Adaptive Coding and Modulation (ACM) scheme that dynamically selects the optimal transmission mode in Underwater Acoustic Communication (UAC) environments with highly time-varying characteristics and high propagation loss. The proposed method uses four types of Channel Quality Indicators (CQI) as input features, including Input Signal-to-Noise Ratio (ISNR), Received Signal-to-Noise Ratio (RSNR), Pilot Bit Error Rate (P-BER), and Channel Impulse Response (CIR), to predict the optimal ACM mode while maintaining both communication success probability and transmission efficiency. To improve the reliability of the classifier, only received data set that meet a specific estimated coded bit error rate (EC-BER) threshold are used for training. A random forest classifier is employed to implement the ACM system, achieving an accuracy of approximately 98.7 % in simulations. Compared to conventional fixed transmission schemes, the proposed method which adaptivel y selects the optimal mode achieves up to twice the transmission rate under various channel conditions.
- COLLAPSE
본 논문에서는 시변성이 큰 수중 음향 통신 환경에서 채널 부호화율과 변조 방식을 적응적으로 변경하여 최적의 전송 모드를 선택하는 기계 학습 기반의 Adaptive Coding and Modulation(ACM )방식을 제안한다. 제안한 방식은 Input Signal to Noise Ratio(ISNR), Received Signal to Noise Ratio(RSNR), Pilot-Bit Error Rate(P-BER), Channel Impulse Response(CIR) 등 4가지 Channel Quality Indicator(CQI)를 입력으로 사용하여, 통신 성공 가능성과 전송률을 동시에 고려한 최적의 ACM 모드를 분류기로 예측한다. 특히, Estimated Coded Bit Error Rate (EC-BER)를 기준으로 복호 가능성이 확보된 데이터만을 선별하여 학습 데이터로 활용함으로써, 분류기의 성능과 신뢰성을 높였다. 제안한 방식은 랜덤 포레스트 분류기를 기반으로 구현되었으며, 실험 결과 약 98.7%의 높은 정확도를 보였다. 또한 기존의 고정 전송 방식과 비교하여 제안한 방식은 다양한 채널 조건에서 항상 최적의 모드를 선택하며, 최대 2배 이상의 전송률 향상을 달성하였다.
-
An optimal adaptive coding and modulation mode selection method based on machine learning for underwater acoustic communication
-
Research Article
-
Period estimation in broadband propeller noise using auto-correlation and adaptive line enhancement
자기 상관과 적응형 회선 잡음 개선기를 이용한 광대역 프로펠러 소음의 주기 추정
-
Jun-Seok Lim and Keunhwa Lee
임준석, 이근화
- Detection of Envelope Modulation On Noise (DEMON) processing technique for the underwater target detection analyzes envelope modulation induced by propeller cavitation to …
수중 표적 탐지를 위한 데몬(Detection of Envelope Modulation On Noise, DEMON) 처리 기법은 프로펠러 캐비테이션으로 인한 포락선 변조를 분석하여 프로펠러 관련 정보를 …
- Detection of Envelope Modulation On Noise (DEMON) processing technique for the underwater target detection analyzes envelope modulation induced by propeller cavitation to extract propeller-related information. Existing DEMON processing that applies the autocorrelation technique is effective in highlighting the periodicity of the envelope, but its performance improvement is limited in low signal-to-noise ratio environments. This paper proposes a novel approach that integrates autocorrelation with Adaptive Line Enhancement (ALE) in a single-channel DEMON processing architecture. ALE employs adaptive filtering to enhance the SNR of weak periodic signals buried in strong broadband noise. The proposed method achieves 2 dB ~ 5 dB reduction in ambient noise compared to conventional autocorrelation-based DEMON processing.
- COLLAPSE
수중 표적 탐지를 위한 데몬(Detection of Envelope Modulation On Noise, DEMON) 처리 기법은 프로펠러 캐비테이션으로 인한 포락선 변조를 분석하여 프로펠러 관련 정보를 추정한다. 기존 자기 상관 기법을 적용한 데몬 처리는 포락선의 주기성 부각에 효과적이나, 낮은 신호 대 잡음 비율 환경에서는 성능 개선 효과가 제한된다. 본 연구는 단일 채널 데몬 구조에 자기 상관과 적응형 회선 잡음 개선기(Adaptive Line Enhancement, ALE)를 결합한 새로운 기법을 제안한다. ALE는 적응 필터를 통해 광대역 잡음 환경에서 약한 주기성 신호의 신호 대 잡음 비율을 개선한다. 제안된 방법은 기존 자기 상관 데몬 처리 대비 2 dB ~ 5 dB의 주변 잡음 감소 효과 개선을 달성하였다.
-
Period estimation in broadband propeller noise using auto-correlation and adaptive line enhancement
-
Research Article
-
Accumulative feature extracting network for sound event detection
음향 이벤트 검출을 위한 누적 특징 추출 네트워크
-
Sangwon Park and Sangwook Park
박상원, 박상욱
- Sound event detection is a technology that detects the type, onset, and offset of sound events in audio signals and it is …
음향 이벤트 검출은 오디오 신호에서 음향의 종류와 발생 지점과 끝점을 검출하는 기술로 모니터링 시스템, 자율주행 자동차 등 다양한 분야에 쓰이고 있다. 음향 …
- Sound event detection is a technology that detects the type, onset, and offset of sound events in audio signals and it is used in various fields such as monitoring systems and autonomous vehicles. Through the international competition (Detection and Classification of Acoustic Scenes and Events, DCASE) on acoustic signal analysis , various methods have been introduced to improve the performance of sound event detection. In this paper, we propose AccNet to solve the loss of spectro-temporal information in low layers of conventional acoustic model. In experiments performed on the DCASE 2023 Task 4 testbed, while the proposed model is comparable to the DCASE 2023 baseline in model complexity, it achieved 44.76 ± 0.51 % in event based f1 score, the best performance compared to the other models such as CRNN, multi-resolutional convolution based model, and residual path based model. Also the proposed model demonstrates improved f1 scores for target sound event except Blender and Electric shaver, compared to the residual path based model.
- COLLAPSE
음향 이벤트 검출은 오디오 신호에서 음향의 종류와 발생 지점과 끝점을 검출하는 기술로 모니터링 시스템, 자율주행 자동차 등 다양한 분야에 쓰이고 있다. 음향 이벤트 검출은 음향 신호 분석에 관한 국제 경연대회(Detection and Classification of Acoustic Scenes and Events, DCASE)를 통해 음향 이벤트 검출 성능을 향상시키기 위한 다양한 방법들이 소개되고 있다. 본 논문은 기존 음향 분석 모델의 하위 계층에서 시간-주파수 정보가 손실되는 문제를 완화하기 위해 누적 특성 추출 신경망(AccNet)을 제안한다. 제안하는 모델은 DCASE 2023 task4 테스트 베드를 활용한 실험에서, DCASE 2023 Baseline과 동일한 파라미터 수를 유지하면서 F1 점수에서 44.76 ± 0.51[%]를 기록하였고, 비교대상으로 고려된 CRNN, 다중해상도 합성곱 모델, 잔차 경로 기반 모델들에 비해 가장 우수한 성능을 보여준다. 또한, 제안하는 모델은 잔차 경로 기반 모델에 비해 Blender와 Electric shaver를 제외한 관심 음향에서 향상된 F1 점수를 보여준다.
-
Accumulative feature extracting network for sound event detection
-
Research Article
-
Emotion-intensity controllable speech synthesis using bidirectional state space models with emotion-guided cross attention
양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성
-
Insung Ham, Kyungseok Oh, Rakbeen Song, Bonhwa Ku, and Hanseok Ko
함인성, 오경석, 송락빈, 구본화, 고한석
- Recent advances have led to the development of emotion-intensity controllable speech synthesis models. However, these systems often suffer from degraded speech quality …
최근 감정 강도를 제어할 수 있는 음성 합성 모델이 개발되었다. 하지만 감정 강도 제어 시스템들은 종종 음성 품질 저하와 부자연스러운 감정 표현으로 …
- Recent advances have led to the development of emotion-intensity controllable speech synthesis models. However, these systems often suffer from degraded speech quality and unnatural emotional expressions, creating a critical gap between human-like expressiveness and synthetic speech. To address these challenges, we propose a novel framework that replaces traditional Transformer architectures with Bidirectional State Space Models for emotion-intensity controllable speech synthesis. Our approach incorporates an Emotion-Guided Cross Attention mechanism to effectively model interactions between emotional and acoustic characteristics, enhancing fine-grained intensity control, speech quality, and naturalness. Experimental results demonstrate that this approach achieves comparable or better performance than existing systems in terms of speech naturalness.
- COLLAPSE
최근 감정 강도를 제어할 수 있는 음성 합성 모델이 개발되었다. 하지만 감정 강도 제어 시스템들은 종종 음성 품질 저하와 부자연스러운 감정 표현으로 인해 인간과 같은 자연스러움과 합성 음성 사이에 중요한 격차가 존재한다. 이러한 문제를 해결하기 위해 우리는 기존의 트랜스포머 아키텍처를 활용한 감정 강도 제어 모델에 양방향 상태 공간 모델로 대체하는 새로운 프레임워크를 제안한다. 우리의 접근 방식은 양방향 상태 공간 모델과 감정 유도 교차 주의 메커니즘을 함께 적용하여 감정적 특성과 음향적 특성 간의 상호작용을 효과적으로 모델링하여 세밀한 감정 강도 제어와 음성의 품질, 자연스러움을 향상시킨다. 실험 결과는 우리의 접근법이 음성의 자연스러움 측면에서 기존 시스템과 비교하여 동등하거나 더 나은 성능을 달성함을 보여준다.
-
Emotion-intensity controllable speech synthesis using bidirectional state space models with emotion-guided cross attention
-
Research Article
-
Ultrasonic Doppler-based speech synthesis reflecting the movement of the lower muscles of the face
얼굴 하단 근육의 움직임을 반영한 초음파 도플러 기반 음성합성
-
Ki-Seung Lee
이기승
- The ultrasonic Doppler-based silent speech interface technology, characterized by non-contact sensing, low-cost sensors, and long-range acquisition capabilities, has shown relatively high speech …
비접촉, 저렴한 센서 사용, 원거리 취득 가능성 등을 특징으로 하는 초음파 도플러 기반 무 음성 인터페이스 기술은 고립어를 대상으로 한 연구에서 비교적 …
- The ultrasonic Doppler-based silent speech interface technology, characterized by non-contact sensing, low-cost sensors, and long-range acquisition capabilities, has shown relatively high speech recognition accuracy in previous studies focused on isolated words. In conventional ultrasonic Doppler-based silent speech interfaces, ultrasound was emitted toward the front of the lips to detect variations caused by lip shapes. However, this approach has limitations in detecting tongue movements, which are closely related to articulating phonemes. To partially overcome this limitation, this paper proposed a method that the emitted ultrasound toward the muscle area involved in tongue movement to acquire ultrasonic displacement signals, which were then used for speech synthesis. Compared to the conventional front radiation-reflection method, the proposed approach showed superior performance in objective evaluation metrics, and the synthesized speech using Whisper and gText- To-Speech (gTTS) also demonstrated excellent subjective quality.
- COLLAPSE
비접촉, 저렴한 센서 사용, 원거리 취득 가능성 등을 특징으로 하는 초음파 도플러 기반 무 음성 인터페이스 기술은 고립어를 대상으로 한 연구에서 비교적 높은 음성 인식율을 보였다. 기존의 초음파 도플러 기반 무 음성 인터페이스 기술에서는 입술의 전면 부위에 초음파를 방사하여 입 모양에 따른 초음파 변이를 검출하였는데 발성 음소와 큰 연관성을 갖는 혀의 움직임을 검출하는데는 한계가 있다. 본 논문에서는 이와 같은 단점을 부분적으로 극복하기 위해 혀의 움직임에 관여된 근육 부위에 초음파를 방사하여 초음파 변위를 취득, 이를 음성 합성에 사용하는 방법을 제안하였다. 기존 전면 방사 –반사 방식과 비교하여 제안된 방법은 객관적 평가 척도에서 우수한 성능을 나타내었으며, Whisper와 gText-To-Speech(gTTS) 이용하여 합성된 음성의 주관적 품질도 우수하게 나타났다.
-
Ultrasonic Doppler-based speech synthesis reflecting the movement of the lower muscles of the face
-
Research Article
-
MRNet: A multi-route convolutional neural network for robust music representation learning
음악 표현 학습을 위한 다중 경로 합성곱 신경망
-
Jungwoo Heo, Hyun-seo Shin, Chan-yeong Lim, Kyo-won Koo, Seung-bin Kim, Jisoo Son, and Ha-Jin Yu
허정우, 신현서, 임찬영, 구교원, 김승빈, 손지수, 유하진
- Music Information Retrieval (MIR) focuses on extracting semantic information embedded in audio signals, such as genre, artist identity, and tempo. These musical …
음악 정보 검색(Music Information Retrieval, MIR)은 오디오 신호에 내재된 장르, 아티스트 정체성, 템포와 같은 의미적 정보를 추출하는 데 중점을 둔 연구 분야이다. …
- Music Information Retrieval (MIR) focuses on extracting semantic information embedded in audio signals, such as genre, artist identity, and tempo. These musical cues cover a wide range of temporal characteristics, from short-term features like pitch and timbre to long-term patterns such as melody and mood, and they require processing at multiple levels of abstraction. In this paper, we propose a Multi-Route Neural Network (MRNet) designed to capture musical representations that reflect both short-term and long-term characteristics, as well as different levels of abstraction. To achieve this, MRNet stacks several convolutional layers with different dilation rates, allowing the model to analyze audio patterns over multiple time scales. Additionally, it introduces a specialized module called the multi-route Res2Block, which separates the processing path into multiple branches. Each branch processes the input to a different depth, enabling the network to extract low-level, mid-level, and high-level features simultaneously. MRNet achieves classification accuracies of 94.5 %, 56.6 %, 63.2 %, and 71.3 % on the GTZAN, FMA Small, FMA Large, and Melon datasets, respectively, outperforming previous Convolution Neural Network(CNN)-based approaches. These results demonstrate the effectiveness of MRNet in learning robust and hierarchical music representations for MIR tasks.
- COLLAPSE
음악 정보 검색(Music Information Retrieval, MIR)은 오디오 신호에 내재된 장르, 아티스트 정체성, 템포와 같은 의미적 정보를 추출하는 데 중점을 둔 연구 분야이다. 이러한 음악적 단서들은 피치나 음색과 같은 단기적 특성부터 멜로디나 분위기와 같은 장기적 패턴에 이르기까지 다양한 시간적 특성을 포함하며, 여러 수준의 추상화된 처리를 요구한다. 본 논문에서는 음악의 단기적 특성과 장기적 특성은 물론, 다양한 추상화 수준을 모두 반영할 수 있는 음악 표현을 학습하기 위해 설계된 다중 경로 신경망(Multi-Route Neural Network, MRNet)을 제안한다. 이를 위해 MRNet은 수용 영역의 크기가 서로 다른 여러 개의 확장 합성곱 계층을 적층하여, 다양한 시간 범위에 걸친 오디오 패턴을 효과적으로 분석할 수 있도록 한다. 또한, 입력 신호를 여러 경로로 나누어 처리하는 특수 구조인 multi-route Res2Block을 도입하여, 각 경로에서 서로 다른 깊이로 특징을 추출할 수 있게 설계하였다. 이 구조를 통해 네트워크는 저차, 중차, 고차 수준의 특성을 동시에 학습할 수 있다. MRNet은 GTZAN, FMA Small, FMA Large, Melon 데이터셋에서 각각 94.5 %, 56.6 %, 63.2 %, 71.3 %의 분류 정확도를 기록하며 기존 합성곱 신경망(Convolution Neural Network, CNN) 기반 접근법들을 능가하는 성능을 보였다. 이러한 결과는 MIR 과제에서 강건하고 계층적인 음악 표현 학습을 위한 MRNet의 효과성을 입증한다.
-
MRNet: A multi-route convolutional neural network for robust music representation learning
-
Research Article
-
Improving end-to-end speaker diarization with a contrastive center loss for discriminative embedding space
임베딩 변별력 향상을 위한 대조 중심 손실 함수 기반 종단 간 화자 분할 개선 연구
-
Donghee Kim and Wooil Kim
김동희, 김우일
- Speaker Diarization, a technology for precessing multi-speaker speech environments in speech-based systems, plays a crucial role in various applications such as call …
화자 분할은 음성 기반 시스템에서 다중 발화 환경을 처리하는 기술로, 콜센터 상담 분석, 회의록 자동 생성, 방송 콘텐츠 처리 등 다양한 응용 …
- Speaker Diarization, a technology for precessing multi-speaker speech environments in speech-based systems, plays a crucial role in various applications such as call center conversation analysis, automatic meeting transcription, and broadcast content processing. The performance of speaker diarization significantly impacts the overall quality of such systems, making performance enhancement a key research topic in this filed. We propose an approach to improve speaker diarization performance by applying a Contrastive center loss function to Single-Label Self-Attentive End-to-End Neural Diarization (SL-SA-EEND). The proposed method strengthens the discriminative power of each class by maintaining close distances between intra-class embeddings and maximizing distances between inter-class embeddings in the embedding space. This enables each class to learn discriminative features, thereby promoting performance improvement in classification tasks. Experimental results show that the proposed method achieved a 25.53 % improvement in Diarization Error Rate (DER) on a Simulated dataset compared to the baseline SL-SA-EEND system, and an 11.88 % improvement on the CALLHOME dataset. Finally, we visualize the results of applying the Contrastive center loss function versus not applying it in the embedding speace, demonstrating its effectiveness in speaker diarization systems defined as classification task.
- COLLAPSE
화자 분할은 음성 기반 시스템에서 다중 발화 환경을 처리하는 기술로, 콜센터 상담 분석, 회의록 자동 생성, 방송 콘텐츠 처리 등 다양한 응용 분야에서 중요한 역할을 수행한다. 화자 분할 성능은 앞선 예시와 같은 시스템의 전반적인 품질에 큰 영향을 미치며, 성능을 향상시키는 것은 이 분야의 주요 연구 주제 중 하나로 자리 잡고 있다. 본 논문에서는 화자 분할 성능 향상을 위한 방법으로 종단 간 구조의 단일 라벨 분류로 정의된 화자 분할 모델인 Single-Label Self-Attentive End-to-End Neural Diarization(SL-SA-EEND)에 대조 중심 손실 함수를 적용한 기법을 제안한다. 제안된 방법은 임베딩 공간에서 동일 클래스 간 거리는 가깝게, 서로 다른 클래스 간 거리는 멀게 유지하도록 하여, 각 클래스의 변별력을 강화한다. 이를 통해 각 클래스가 변별력 있는 특징을 학습할 수 있도록 하며 분류 작업에서 성능 향상을 도모한다. 실험 결과, 제안된 방법은 베이스라인 시스템인 SL-SA-EEND의 Diarization Error Rate(DER) 대비 Simulated 데이터베이스에서 25.53 % 향상된 성과를 보였으며, CallHome 데이터베이스에서는 11.88 % 향상된 결과를 나타낸다. 마지막으로, 임베딩 공간에서 대조 중심 손실 함수를 적용한 경우와 그렇지 않은 경우의 결과를 시각화하여, 분류 작업으로 정의된 화자 분할 시스템에서 대조 중심 손실 함수의 효과를 나타낸다.
-
Improving end-to-end speaker diarization with a contrastive center loss for discriminative embedding space
-
Research Article
-
Speech distortion tracing : A noise classification approach for robust speech processing
음성 변형 추적 : 강건한 음성 처리를 위한 노이즈 분류 접근법
-
Woongjae Lee and Souhwan Jung
이웅재, 정수환
- Understanding and classifying various types of noise is crucial for improving the robustness of speech processing models. While previous studies have primarily …
다양한 노이즈 유형을 이해하고 분류하는 것은 음성 처리 모델의 강건성을 향상시키는 데 있어 매우 중요하다. 기존 연구들은 주로 백색 잡음이나 배경 소음과 …
- Understanding and classifying various types of noise is crucial for improving the robustness of speech processing models. While previous studies have primarily focused on environmental noise such as white noise and background noise, the effects of speech manipulation including pitch shift and time stretch have been relatively less explored. This study proposes a noise classification model that can effectively distinguish various types of noise including speech manipulation to overcome these limitations. We constructed a noise dataset of 538,000 samples using LibriSpeech, Voice Cloning ToolKit (VCTK), DSD-Corpus, and TIMIT datasets, and designed a Multi-Feature Fusion model that integrates spectrogram, MFCC, and F0 features. The proposed model achieved 95 % accuracy with 7.2 M parameters, demonstrating suitable lightweight characteristics for real-time preprocessing. This suggests that noise classification-based adaptive preprocessing can effectively contribute to enhancing the robustness of speech processing models in various noise environments.
- COLLAPSE
다양한 노이즈 유형을 이해하고 분류하는 것은 음성 처리 모델의 강건성을 향상시키는 데 있어 매우 중요하다. 기존 연구들은 주로 백색 잡음이나 배경 소음과 같은 환경 노이즈에 초점을 맞추었으나, 피치 시프트, 타임 스트레치와 같은 음성 변조의 영향은 상대적으로 덜 탐구되어 왔다. 본 연구는 이러한 한계를 극복하기 위해 음성 변형을 포함한 다양한 노이즈 유형을 효과적으로 구분할 수 있는 노이즈 분류 모델을 제안한다. LibriSpeech, Voice Cloning ToolKit (VCTK), DSD-Corpus, TIMIT 데이터셋을 활용하여 538,000개의 노이즈 데이터셋을 구축하였으며, Spectrogram, MFCC, F0를 융합한 Multi-Feature Fusion 모델을 설계하였다. 제안된 모델은 95 %의 정확도를 달성하였으며, 7.2 M 파라미터로 실시간 전처리에 적합한 경량성을 확보하였다. 이는 노이즈 분류 기반 적응형 전처리가 다양한 노이즈 환경에서의 음성 처리 모델 강건성 향상에 기여할 수 있음을 시사한다.
-
Speech distortion tracing : A noise classification approach for robust speech processing
-
Research Article
-
Analysis of trends in speech denoising using deep learning and a feasibility study for a Korean real time model
딥러닝 기반 음성 디노이징 기술 동향 및 한국어 실시간 모델 구현 검토
-
Seon Man Kim
김선만
- This paper systematically reviews the evolution of deep learning-based speech denoising technology and examines the feasibility of applying a state-of-the-art real-time model …
본 논문은 딥러닝 기반 음성 디노이징 기술의 발전 과정을 체계적으로 고찰하고, 이를 바탕으로 SOTA 실시간 모델을 한국어 환경에 적용하여 그 성능과 구현 …
- This paper systematically reviews the evolution of deep learning-based speech denoising technology and examines the feasibility of applying a state-of-the-art real-time model to the Korean language. We analyze the paradigm shift from statistical methods to deep learning, and from magnitude-only spectral processing to complex-domain approaches. Based on this analysis, we validate the effectiveness of the DeepFilterNet2 architecture, a proven lightweight real-time model, using Korean data. The experimental results showed that, compared to a baseline model trained only on English data, the model trained with additional 16 kHz-based Korean data exhibited minimal or even degraded performance. This study analyzes that the primary cause of this phenomenon is the sampling rate mismatch between the training DB. It concludes that this data quality mismatch is a critical challenge that must be addressed for the future development of successful Korean real-time models.
- COLLAPSE
본 논문은 딥러닝 기반 음성 디노이징 기술의 발전 과정을 체계적으로 고찰하고, 이를 바탕으로 SOTA 실시간 모델을 한국어 환경에 적용하여 그 성능과 구현 가능성을 검토한다. 통계적 기법에서 딥러닝으로, 다시 스펙트럼의 크기에서 위상까지 고려하는 복소수 도메인으로의 기술 패러다임 전환을 살펴본다. 이러한 분석을 바탕으로, 검증된 경량 실시간 모델인 DeepFilterNet2 아키텍처에 한국어 데이터를 적용하여 그 유효성을 검증했다. 실험 결과, 영어 데이터로만 학습된 베이스라인 모델 대비, 16 kHz 기반의 한국어 데이터를 추가 학습한 모델의 성능 개선이 미미하거나 오히려 일부 저하되는 현상을 확인했다. 본 연구는 이 현상의 주된 원인이 학습 데이터셋 간의 샘플링 레이트 불일치에 있음을 분석하고, 이 데이터 품질 불일치 문제가 향후 성공적인 한국어 실시간 모델 개발을 위해 반드시 선결되어야 할 중요한 과제임을 제시한다.
-
Analysis of trends in speech denoising using deep learning and a feasibility study for a Korean real time model
-
Research Article
-
A teacher student model based integrated feature speaker verification system robust to noisy environments
잡음 환경에 강인한 다중 특징 교사 학생 학습 기반 화자 인증 시스템
-
Kyo-won Koo, Jungwoo Heo, Hyun-seo Shin, Chan-yeong Lim, Seung-bin Kim, Jisoo Son, Kyung-Wha Kim, and Ha-Jin Yu
구교원, 허정우, 신현서, 임찬영, 김승빈, 손지수, 김경화, 유하진
- While existing speaker verification systems exhibit excellent performance in clean environments, they suffer from performance degradation when contaminated with noise. Although recent …
기존의 화자 인증 시스템은 깨끗한 발화 환경에서는 우수한 성능을 보이지만, 잡음이 혼입된 경우에는 성능이 저하되는 현상을 보인다. 이를 개선하기 위해 교사 학생 …
- While existing speaker verification systems exhibit excellent performance in clean environments, they suffer from performance degradation when contaminated with noise. Although recent research has employed teacher-student learning to enhance the noise robustness of speaker verification systems, these approaches are limited by their reliance on single input modalities. In real-world acoustic environments, various types of noise exist such as stationary and impulsive, and their characteristics manifest differently across different modalities. We propose an integrated feature system that leverages various features that each can represent different noise types differently. This system incorperates a CNN Extractor that processes spectrograms in parallel with the teacher-student learning-based Pre-trained Large Model(PLM) branch that processes raw waveforms. Features extracted from both branches are adaptively integrated through a feature fusion module, designed to exploit the complementary advantages of each input representation. The experimental results showed that the Equal Error Rate (EER) was improved by approximately 18 % in the domain noise environment and approximately 49 % in the out-of-domain noise environment compared to the existing PLM-based single input system. Furthermore, consistent performance improvements were observed across various real-world datasets validating the competitive performance of the proposed system in noisy environments.
- COLLAPSE
기존의 화자 인증 시스템은 깨끗한 발화 환경에서는 우수한 성능을 보이지만, 잡음이 혼입된 경우에는 성능이 저하되는 현상을 보인다. 이를 개선하기 위해 교사 학생 학습을 활용하여 화자 인증 시스템의 잡음 강인성을 향상시키는 연구가 진행되었지만, 단일 입력에 의존한다는 구조적 한계를 갖는다. 실제 음성 환경에서는 정상(stationary) 잡음이나 돌발성 잡음 등 다양한 잡음 유형이 존재할 수 있으며, 이러한 잡음은 표현 방식에 따라 상이하게 나타날 수 있다. 본 연구에서는 이러한 여러 가지 유형의 잡음을 각각 잘 표현해 주는 특징들을 통합하여 활용하는 통합 특징 시스템을 제안한다. 제안한 시스템은 원시 파형을 입력받는 교사 학생 학습 기반 Pre-trained Large Model(PLM) 분기에 병렬적으로 컨볼루션 기반 추출기를 통해 스펙트로그램을 가공하는 분기를 도입하였다. 그 후 특징 융합 모듈을 통해 두 분기 특징을 적응적으로 통합하여, 각 입력 특징의 장점을 상호보완적으로 활용하도록 설계하였다. 실험 결과, 기존 PLM 기반 단일 입력 시스템 대비 동일 오류율(Equal Error Rate, EER)이 도메인 내 잡음 환경에서 약 18 %, 도메인 외 잡음 환경에서 약 49 % 상대적으로 개선되었다. 또한 다양한 실제 환경 데이터셋에서도 경쟁력 있는 성능을 보여, 제안한 시스템이 잡음 환경에서 우수함을 입증하였다.
-
A teacher student model based integrated feature speaker verification system robust to noisy environments