• A method for setting coherent processing interval of continuous active sonar based on correlation of GSFM pulse

    GSFM 펄스의 상관도에 기반한 연속 송수신 소나의 신호처리 구간 설정 방법

    Hyeon-su Kim, Hyun-woo Kim, Won-oh Lee, Song-hwa Park, Jung-hoon Lee and Gyu-tae Park

    김현수, 김현우, 이원오, 박송화, 이정훈, 박규태

    The continuous active sonar technology is effective for detecting and tracking targets because of short target revisiting rate. Generalized Sinusoidal Frequency Modulation ...

    연속 송수신 소나 기술은 표적 탐지 시간간격이 짧아 표적을 탐지하고 추적하는 데 효과적인 기술이다. 연속 송수신 소나 시스템에 적합한 Generalized Sinusoidal Frequency ...

    + READ MORE
    The continuous active sonar technology is effective for detecting and tracking targets because of short target revisiting rate. Generalized Sinusoidal Frequency Modulation (GSFM) pulses suitable for continuous active sonar systems are known to be capable of obtaining high time-bandwidth product while maintaining the orthogonality between pulses. However, it is unknown how to calculate an appropriate length of time to correlate received GSFM pulses in the presence of a target with acceleration. In this paper, we propose a method to calculate the appropriate time length based on the correlation when matching the received signal in the continuous active sonar system using GSFM pulse. The proposed method calculates the correlation according to the acceleration of the target and calculates the signal processing length according to the correlation. It is shown that stable detection performance can be obtained when the signal processing length calculated by the proposed method through the level of the sidelobe is applied.


    연속 송수신 소나 기술은 표적 탐지 시간간격이 짧아 표적을 탐지하고 추적하는 데 효과적인 기술이다. 연속 송수신 소나 시스템에 적합한 Generalized Sinusoidal Frequency Modulation(GSFM)펄스는 펄스 간 직교성을 유지하면서 높은 시간-주파수 곱을 얻을 수 있는 것으로 알려져 있다. 그러나 가속도를 갖는 표적이 존재할 경우 수신된 GSFM 펄스를 상관처리하는 적정한 시간 길이를 산출하는 방법에 대해서는 알려진 바가 없다. 본 논문에서는 GSFM 펄스를 사용하는 연속 송수신 소나 시스템에서 수신신호를 정합처리할 때 적합한 시간 길이를 상관도에 근거하여 산출하는 방법을 제안한다. 제안된 방법은 표적의 가속도에 따른 상관도를 계산하고 상관도에 따른 신호처리 길이를 산출한다. 부엽의 준위를 통해 제안된 방법으로 산출된 신호처리 길이를 적용할 경우 안정적인 탐지 성능을 얻을 수 있음을 보인다.

    - COLLAPSE
    September 2021
  • Evaluation of high power ultrasonic energy transmission characteristics of a liquid matching layer by using sonoluminescence

    소노루미네센스를 이용한 액체정합층의 고출력 초음파에너지 전달특성 평가

    Jungsoon Kim, Haeun Kim, Jinyoung Son and Moojoon Kim

    김정순, 김해운, 손진영, 김무준

    In the ultrasonic dispersion, in order to avoid direct contact of the radiation surface of ultrasonic transducers with a liquid sample, the ...

    초음파 분산에 있어서 초음파의 방사면이 시료에 직접 닿는 것을 피하기 위해 액체시료는 유리용기에 의해 분리되어 음향매질에 의해 초음파 에너지를 받는다. 이와 같이 ...

    + READ MORE
    In the ultrasonic dispersion, in order to avoid direct contact of the radiation surface of ultrasonic transducers with a liquid sample, the liquid sample is separated by a glass container and it receives ultrasonic energy through an acoustic medium. The transmission efficiency of the ultrasonic energy in the multi-layered ultrasonic system is an important factor. In this study, we suggested a method that can improve the ultrasonic energy transfer efficiency by using a propylene glycol solution as a liquid matching layer in the multi-layered acoustic system. In this method, a propylene glycol solution was filled between the Langevin-type ultrasonic transducer and the luminol solution and the sonoluminescence phenomena in the luminol solution, which is caused by nonlinear effect of high power ultrasound radiated from the transducer, was examined by using a Photo Multiplier Tube (PMT). The transmission efficiency depending on the concentration of propylene glycol solution was observed, and we can see that as the concentration of the propylene glycol solution increased, the matching effect increased while the acoustic attenuation increased. It was confirmed that there is an optimal concentration compromised these two conflicting conditions, and the optimum concentration of the propylene glycol solution was determined experimentally.


    초음파 분산에 있어서 초음파의 방사면이 시료에 직접 닿는 것을 피하기 위해 액체시료는 유리용기에 의해 분리되어 음향매질에 의해 초음파 에너지를 받는다. 이와 같이 다층구조로 이루어진 음향시스템에서 초음파에너지의 전달효율은 중요한 요소이다. 본 연구에서는 다층구조로 이루어진 음향시스템에 있어서 프로필렌글리콜 용액을 액체정합층으로 사용하여 초음파에너지 전달효율을 개선하는 방법을 제안하였다. 제안된 방법에서는 란주반형 초음파 트랜스듀서와 루미놀용액과의 사이에 프로필렌글리콜 용액을 액체정합층 매질로 채우고, 초음파트랜스듀서로부터 방사되는 강력초음파의 비선형현상에 의해 발광되는 루미놀용액의 발광정도를 광전증폭관을 이용하여 관측하여 루미놀용액으로의 초음파에너지 전달 효율을 조사하였다. 프로필렌글리콜 농도변화에 따른 초음파에너지 전달정도를 측정하였고, 그 결과 프로필렌글리콜 용액의 농도가 증가함에 따라 정합효과는 증가하는 반면 음향감쇠가 증가함을 알 수 있었다. 이들 두 상충되는 조건이 절충되는 최적의 농도가 존재함을 확인할 수 있었으며, 프로필렌글리콜 용액의 최적 농도를 실험적으로 결정할 수 있었다.

    - COLLAPSE
    September 2021
  • Long-range multiple-input-multiple-output underwater communication in deep water

    심해에서의 장거리 다중입출력 수중통신

    Donghyeon Kim, Daehwan Kim, J. S. Kim and Joo Young Hahn

    김동현, 김대환, 김재수, 한주영

    Long-range communication in deep waters must overcome the low data rate due to limited bandwidth. This paper presents the performance of Multiple-Input-Multiple-Output ...

    심해 장거리 통신의 경우, 제한된 대역폭으로 인해 데이터 전송률이 낮아지는 한계가 있다. 본 논문에서는 데이터 전송률을 향상시킬 수 있는 방법인 다중입출력 수중통신 ...

    + READ MORE
    Long-range communication in deep waters must overcome the low data rate due to limited bandwidth. This paper presents the performance of Multiple-Input-Multiple-Output (MIMO) system to increase the data rate. In MIMO system, communication performance is degraded by crosstalk between users and an adaptive passive Time Reversal Processing (TRP) is widely used to eliminate this. In October 2018, long-range underwater acoustic communication experiment was conducted in deep water (1,000 m ~) off the east of Pohang, South Korea. During the experiment, a vertical line array was utilized and communication signals modulated by binary phase shift keying and quadrature phase shift keying with a symbol rate of 512 sps were transmitted. To generate MIMO communication signals, received signals from ranges of 26 km and 30 km is synthesized. Compared to the conventional passive TRP, the adaptive passive TRP eliminates the crosstalk between users and achieves error-free performance with an increase of output signal-to-noise ratio. Therefore, two users separated by 4 km in range achieves an aggregate data rate of 1,024 symbols/s.


    심해 장거리 통신의 경우, 제한된 대역폭으로 인해 데이터 전송률이 낮아지는 한계가 있다. 본 논문에서는 데이터 전송률을 향상시킬 수 있는 방법인 다중입출력 수중통신 연구 결과를 제시한다. 단일 음원 환경과 달리 다중 음원 환경의 경우 다른 음원에 의한 간섭으로 통신 성능이 저하되며, 이를 제거하기 위해 적응형 수동 시역전 처리가 주로 사용되고 있다. 2018년 10월 포항 동방 수심 1,000 m 이상의 심해 해역에서 장거리 수중음향통신 해상실험이 수행되었다. 해상실험 동안 수직 선 배열이 활용되었으며, 512 sps의 binary phase shift keying와 quadrature phase shift keying 변조 신호가 송신되었다. 다중입출력 환경을 모사하기 위해 26 km와 30 km 거리의 데이터를 합성한다. 재래식과 적응형 수동 시역전 처리를 이용한 데이터 분석 및 비교를 통해, 적응형 신호 처리를 적용했을 때 다른 음원에 의한 간섭이 제거되어 0 %의 비트 오류율과 출력 신호 대 잡음비 증가의 효과를 확인하였다. 따라서 두 개의 음원을 가진 다중입출력 통신 성능 분석을 통해 두 배의 데이터 전송률 (1,024 sps)을 획득하였다.

    - COLLAPSE
    September 2021
  • Verification of the feasibility of higher-order modulation for long-range communication in deep water

    심해 장거리 통신에서의 고차 변조 기법의 활용 가능성 검증

    Donghyeon Kim, J. S. Kim, and Joo Young Hahn

    김동현, 김재수, 한주영

    For long-range communication in deep water, low carrier frequency is efficient due to a decrease in transmission loss. However, there is a ...

    심해 장거리 통신에서는 전달 손실이 적은 낮은 반송 주파수가 효율적이지만, 좁은 대역폭을 가지는 제약이 따른다. 대역폭의 감소는 전송률의 감소를 의미하며, 제한된 대역폭을 ...

    + READ MORE
    For long-range communication in deep water, low carrier frequency is efficient due to a decrease in transmission loss. However, there is a limitation in that the data rate decreases due to a narrow bandwith. In order to increase the data rate in an environment with a limited bandwidth, it is necessary to design a higher-order modulation scheme. This paper analyzes the long-range communication data modulated by higher-order modulation schemes. The long-range communication experiment (23 km ~) was conducted in East Sea in October 2020. During the experiment, a vertical line array was utilized and communication sequences were modulated by Phase Shift Keying (PSK) and Quadrature Amplitude Modulation (QAM) schemes and transmitted by a towed source. In more detail, PSK modulation consists of quadrature PSK and 8PSK, QAM modulation consists of 8QAM and 16QAM. Time reversal processing is applied to mitigate inter-symbol interference by utilizing the correlation between received signals and channel impulse responses. All modulation schemes show successful results at 23 km range, demonstrating the feasibility of higher-order modulation in long-range communication.


    심해 장거리 통신에서는 전달 손실이 적은 낮은 반송 주파수가 효율적이지만, 좁은 대역폭을 가지는 제약이 따른다. 대역폭의 감소는 전송률의 감소를 의미하며, 제한된 대역폭을 가진 환경에서 전송률을 증가시키기 위해서는 고차 변조 기법으로 설계될 필요가 있다. 본 논문은 고차 변조 기법으로 설계된 장거리 수중음향통신 데이터 분석 결과를 제시한다. 2020년 10월 동해에서 예인 음원을 이용한 장거리 해상실험 (23 km ~)이 수행되었고, 수직 선 배열을 통해 데이터를 획득하였다. 본 연구팀은 위상 변조 방식이 적용된 Phase Shift Keying (PSK) 계열 신호와 위상 및 진폭 변조 방식이 적용된 Quadrature Amplitude Modulation (QAM) 계열의 신호를 송신하였으며, 구체적으로 각 계열별 두 종류의 신호를 설계하였다; 1) PSK : quadrature PSK and 8PSK, 2) QAM : 8QAM and 16QAM. 데이터 분석을 위해 수신 신호와 채널 임펄스 응답 사이의 상관성을 활용하여 심볼 간 간섭을 완화시키는 시역전 처리가 적용되었다. 23 km 거리 데이터에 대해 모든 변조 방식이 성공적으로 복조됨으로써 장거리 환경에서 고차 변조 기법의 활용 가능성을 실험적으로 확인하였다.

    - COLLAPSE
    September 2021
  • Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments

    잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합

    Sung-Wook Yoon and Oh-Wook Kwon

    윤성욱, 권오욱

    We propose a deep learning-based beamformer combined with spectral subtraction for continuous speech recognition operating in noisy environments. Conventional beamforming systems were ...

    본 논문에서는 실제 환경에서의 연속 음성 강화를 위한 딥러닝 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합한 빔포머를 제안한다. 기존 빔포밍 시스템은 컴퓨터에서 ...

    + READ MORE
    We propose a deep learning-based beamformer combined with spectral subtraction for continuous speech recognition operating in noisy environments. Conventional beamforming systems were mostly evaluated by using pre-segmented audio signals which were typically generated by mixing speech and noise continuously on a computer. However, since speech utterances are sparsely uttered along the time axis in real environments, conventional beamforming systems degrade in case when noise-only signals without speech are input. To alleviate this drawback, we combine online beamforming algorithm and spectral subtraction. We construct a Continuous Speech Enhancement (CSE) evaluation set to evaluate the online beamforming algorithm in noisy environments. The evaluation set is built by mixing sparsely-occurring speech utterances of the CHiME3 evaluation set and continuously-played CHiME3 background noise and background music of MUSDB . Using a Kaldi-based toolkit and Google web speech recognizer as a speech recognition back-end, we confirm that the proposed online beamforming algorithm with spectral subtraction shows better performance than the baseline online algorithm.


    본 논문에서는 실제 환경에서의 연속 음성 강화를 위한 딥러닝 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합한 빔포머를 제안한다. 기존 빔포밍 시스템은 컴퓨터에서 음성과 잡음을 완전히 겹친 방식으로 혼합하여 생성된 사전 분할 오디오 신호를 사용하여 대부분 평가되었다. 하지만 실제 환경에서는 시간 축으로 음성 발화가 띄엄띄엄 발성되기 때문에, 음성이 없는 잡음 신호가 시스템에 입력되면 기존 빔포밍 알고리듬의 성능이 저하된다. 이러한 효과를 경감하기 위하여, 심층 학습 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합하였다. 잡음 환경에서 온라인 빔포밍 알고리듬을 평가하기 위해 연속 음성 강화 세트를 구성하였다. 평가 세트는 CHiME3 평가 세트에서 추출한 음성 발화와 CHiME3 배경 잡음 및 MUSDB에서 추출한 연속 재생되는 배경음악을 혼합하여 구성되었다. 음성인식기로는 Kaldi 기반 툴킷 및 구글 웹 음성인식기를 사용하였다. 제안한 온라인 빔포밍 알고리듬 과 스펙트럼 감산이 베이스라인 빔포밍 알고리듬에 비해 성능 향상을 보임을 확인하였다.

    - COLLAPSE
    September 2021
  • Time delay estimation by iterative Wiener filter based recursive total least squares algorithm

    반복형 위너 필터 방법에 기반한 재귀적 완전 최소 제곱 방법을 사용한 시간 지연 추정 알고리즘

    Jun-Seok Lim

    임준석

    Estimating the mutual time delay between two acoustic sensors is used in various fields such as tracking and estimating the location of ...

    서로 떨어져 설치된 두 개의 음향 수신기에 도달하는 신호의 상호 지연 시간을 추정하는 것은 실내 음향과 소나 등에서 목표물 위치 추정 문제나 ...

    + READ MORE
    Estimating the mutual time delay between two acoustic sensors is used in various fields such as tracking and estimating the location of a target in room acoustics and sonar. In the time delay estimation methods, there are a non-parametric method, such as Generalized Cross Correlation (GCC), and a parametric method based on system identification. In this paper, we propose a time delay estimation method based on the parametric method. In particular, we propose a method that considers the noise in each receiving acoustic sensor. Simulation confirms that the proposed algorithm is superior to the existing generalized cross-correlation and adaptive eigenvalue analysis methods in white noise and reverberation environments.


    서로 떨어져 설치된 두 개의 음향 수신기에 도달하는 신호의 상호 지연 시간을 추정하는 것은 실내 음향과 소나 등에서 목표물 위치 추정 문제나 추적 등 여러 방면에서 쓰이고 있다. 시간 지연을 구하는 방법에서는 두 수신 신호 사이의 상호 상관을 이용한 방법으로 대표되는 비 파라메트릭 방법과 시스템 인식을 기반으로 하는 파라메트릭 방법이 있다. 본 논문에서는 파라메트릭 방법에 기반을 둔 시간 지연 추정 방법을 제안한다. 특히 음향 수신기에 잡음이 부과되는 것을 고려한 방법을 제안한다. 그리고 백색 잡음 및 잔향 환경에서 기존의 일반 상호 상관법과 적응 고유치 분석법과 비교를 통해서 새로 제안한 알고리즘이 더 우수함을 확인한다.

    - COLLAPSE
    September 2021
  • Time delay estimation between two receivers using weighted dictionary method for active sonar

    능동소나를 위한 가중 딕션너리를 사용한 두 수신기 간 신호 지연 추정 방법

    Jun-Seok Lim1 and Seongil Kim

    임준석, 김성일

    In active sonar, time delay estimation is used to find the distance between the target and the sonar. Among the time delay ...

    능동 소나에서 시간 지연 추정은 목표와 소나 사이의 거리를 알아내기 위해서 사용하고 있다. 능동 소나에서 시간 지연을 추정할 때 주파수 영역에서 계산하면 ...

    + READ MORE
    In active sonar, time delay estimation is used to find the distance between the target and the sonar. Among the time delay estimation methods for active sonar, estimation in the frequency domain is widely used. When estimating in the frequency domain, the time delay can be thought of as a frequency estimator, so it can be used relatively easily. However, this method is prone to rapid increase in error due to noise. In this paper, we propose a new method which applies weighted dictionary and sparsity in order to reduce this error increase and we extend it to two receivers to propose an algorithm for estimating the time delay between two receivers. And the case of applying the proposed method and the case of not applying the proposed method including the conventional frequency domain algorithm and Generalized Cross Correlation-Phase transform (GCC-PHAT) in a white noise environment were compared with one another. And we show that the newly proposed method has a performance gain of about 15 dB to about 60 dB compared to other algorithms.


    능동 소나에서 시간 지연 추정은 목표와 소나 사이의 거리를 알아내기 위해서 사용하고 있다. 능동 소나에서 시간 지연을 추정할 때 주파수 영역에서 계산하면 시간 지연 추정이 주파수 추정으로 바꾸어 생각할 수 있어서 비교적 쉽게 사용할 수 있다. 그러나 이 방법은 잡음에 의해 오류가 급증할 요소가 포함되어 있다. 본 논문에서는 이런 오류 급증 현상을 줄일 수 있는 가중 딕션너리를 사용하는 희소성 기반 추정 방법을 새롭게 제안한다. 또 이 방법을 두 개의 수신기로 확대 적용하여 두 수신기 간 시간 지연을 추정하는 알고리즘을 제안한다. 그리고 백색 잡음 환경에서 제안한 방법을 적용한 것과 일반 상호 상관 알고리즘(Generalized Cross Correlation-Phase transform, GCC-PHAT) 및 일반 주파수 영역 방법을 포함한 제안한 방법을 적용하지 않은 방법들을 서로 비교한다. 그리고 새로 제안한 방법이 다른 비교 대상 알고리즘들보다 약 15 dB에서 약 60 dB의 성능 이득이 있음을 보인다.

    - COLLAPSE
    September 2021
  • Proposal of speaker change detection system considering speaker overlap

    화자 겹침을 고려한 화자 전환 검출 시스템 제안

    Jisu Park, Young-Sun Yun, Shin Cha and Jeon Gue Park

    박지수, 윤영선, 차신, 박전규

    Speaker Change Detection (SCD) refers to finding the moment when the main speaker changes from one person to the next in a ...

    화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성 ...

    + READ MORE
    Speaker Change Detection (SCD) refers to finding the moment when the main speaker changes from one person to the next in a speech conversation. In speaker change detection, difficulties arise due to overlapping speakers, inaccuracy in the information labeling, and data imbalance. To solve these problems, TIMIT corpus widely used in speech recognition have been concatenated artificially to obtain a sufficient amount of training data, and the detection of changing speaker has performed after identifying overlapping speakers. In this paper, we propose an speaker change detection system that considers the speaker overlapping. We evaluated and verified the performance using various approaches. As a result, a detection system similar to the X-Vector structure was proposed to remove the speaker overlapping region, while the Bi-LSTM method was selected to model the speaker change system. The experimental results show a relative performance improvement of 4.6 % and 13.8 % respectively, compared to the baseline system. Additionally, we determined that a robust speaker change detection system can be built by conducting related studies based on the experimental results, taking into consideration text and speaker information.


    화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.

    - COLLAPSE
    September 2021
  • A study on the characteristic analysis of non-sinusoidal frequency trajectories of vibrato tones

    비브라토음의 비정현파적인 주파수 궤적의 특성 분석에 관한 연구

    Hee-Suk Pang

    방희석

    Vibrato corresponds to a modulation of frequency and is one of the most frequently used techniques to enrich vocal and musical instrument ...

    비브라토는 보컬음과 악기음에 대한 주파수의 변조를 의미하며, 음악의 음색을 풍부하게 만들기 위해서 사용되는 대표적인 기법들 중의 하나이다. 비브라토음의 기본주파수 궤적은 정현파 신호로 ...

    + READ MORE
    Vibrato corresponds to a modulation of frequency and is one of the most frequently used techniques to enrich vocal and musical instrument sounds. Whereas the fundamental frequency trajectories of vibrato tones are generally modeled as a sinusoid, they are sometimes observed to be non-sinusoidal. In this paper, we propose a method to analyze the characteristics of non-sinusoidal fundamental frequency trajectories of vibrato sounds. The proposed method performs Fast Fourier Transform (FFT)-based harmonic analysis on the frequency trajectory, analyzes vibrato parameters, and calculates a sinusoid purity factor. We applied the proposed method to flute, viola, and saxophone vibrato tones, whose results showed the effectiveness of the proposed method.


    비브라토는 보컬음과 악기음에 대한 주파수의 변조를 의미하며, 음악의 음색을 풍부하게 만들기 위해서 사용되는 대표적인 기법들 중의 하나이다. 비브라토음의 기본주파수 궤적은 정현파 신호로 모델링이 되는 것이 일반적이지만, 궤적의 모양이 비정현파적인 경우들도 존재한다. 본 논문에서는 비브라토음의 기본주파수 궤적 중 비정현파적인 형태를 가지는 경우에 대해 그 특성을 분석하는 방법을 제안한다. 제안되는 방법은 주파수 궤적에 대해 Fast Fourier Transform(FFT) 분석을 통해 배음 분석을 실행하고, 비브라토 파라미터들을 분석하고, 또한 궤적의 정현파 순도 인자를 계산하는 과정들로 이루어진다. 플루트, 비올라, 색소폰 악기음들에 대해 제안된 방법을 적용하였고 실험 결과를 통해 제안된 방법이 유용함을 보였다.

    - COLLAPSE
    September 2021
  • Sound event detection model using self-training based on noisy student model

    잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지

    Nam Kyun Kim, Chang-Soo Park, Hong Kook Kim, Jin Ook Hur and Jeong Eun Lim

    김남균, 박창수, 김홍국, 허진욱, 임정은

    In this paper, we propose an Sound Event Detection (SED) model using self-training based on a noisy student model. The proposed SED ...

    본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다 ...

    + READ MORE
    In this paper, we propose an Sound Event Detection (SED) model using self-training based on a noisy student model. The proposed SED model consists of two stages. In the first stage, a mean-teacher model based on an Residual Convolutional Recurrent Neural Network (RCRNN) is constructed to provide target labels regarding weakly labeled or unlabeled data. In the second stage, a self-training-based noisy student model is constructed by applying different noise types. That is, feature noises, such as time-frequency shift, mixup, SpecAugment, and dropout-based model noise are used here. In addition, a semi-supervised loss function is applied to train the noisy student model, which acts as label noise injection. The performance of the proposed SED model is evaluated on the validation set of the Detection and Classification of Acoustic Scenes and Events (DCASE) 2020 Challenge Task 4. The experiments show that the single model and ensemble model of the proposed SED based on the noisy student model improve F1-score by 4.6 % and 3.4 % compared to the top-ranked model in DCASE 2020 challenge Task 4, respectively.


    본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다. 첫 번째 단계에서는 잔차 합성곱 순환 신경망(Residual Convolutional Recurrent Neural Network, RCRNN)을 훈련하여 레이블이 지정되지 않은 비표기 데이터셋의 레이블 예측에 활용한다. 두 번째 단계에서는 세 가지 잡음 종류를 적용한 잡음 학생 모델을 자가학습 기법으로 반복하여 학습한다. 여기서 잡음 학생 모델은 SpecAugment, Mixup, 시간-주파수 이동을 활용한 특징 잡음, 드롭아웃을 활용한 모델 잡음, 그리고 semi- supervised loss function을 적용한 레이블 잡음을 활용하여 학습된다. 제안된 음향 사건 검지 모델의 성능은 Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge Task 4의 validation set으로 평가하였다. DCASE 2020 챌린지 데이터셋의 baseline 및 최상위 랭크된 모델과 이벤트 단위 F1 점수 성능을 비교한 결과, 제안된 음향 사건 검지 모델이 단일 모델과 앙상블 모델에서 최상위 모델 대비 F1 점수를 각각 4.6 %와 3.4 % 향상시켰다.

    - COLLAPSE
    September 2021
  • A Korean speech recognition based on conformer

    콘포머 기반 한국어 음성인식

    Myoung-Wan Koo

    구명완

    We propose a speech recognition system based on conformer. Conformer is known to be convolution-augmented transformer, which combines transfer model for capturing ...

    본 논문에서는 콘포머 기반 한국어 음성인식 시스템을 제안한다. 콘포머는 트랜스포머 모델에 콘볼루션신경망(Convolution Neural Network, CNN) 기능을 보강한 구조이며 광역 정보를 잘 ...

    + READ MORE
    We propose a speech recognition system based on conformer. Conformer is known to be convolution-augmented transformer, which combines transfer model for capturing global information with Convolution Neural Network (CNN) for exploiting local feature effectively. The baseline system is developed to be a transfer-based speech recognition using Long Short-Term Memory (LSTM)-based language model. The proposed system is a system which uses conformer instead of transformer with transformer-based language model. When Electronics and Telecommunications Research Institute (ETRI) speech corpus in AI-Hub is used for our evaluation, the proposed system yields 5.7 % of Character Error Rate (CER) while the baseline system results in 11.8 % of CER. Even though speech corpus is extended into other domain of AI-hub such as NHNdiguest speech corpus, the proposed system makes a robust performance for two domains. Throughout those experiments, we can prove a validation of the proposed system.


    본 논문에서는 콘포머 기반 한국어 음성인식 시스템을 제안한다. 콘포머는 트랜스포머 모델에 콘볼루션신경망(Convolution Neural Network, CNN) 기능을 보강한 구조이며 광역 정보를 잘 표현할 수 있는 트랜스포머와 지역 정보를 잘 표현할 수 있는 CNN을 결합한 신경망이다. 음성인식 기본 시스템으로 트랜스포모에 기반한 음성인식시스템을 개발하였으며 언어모델로는 Long Short-Term Memory(LSTM)을 사용하였다. 콘포머 기반 음성인식시스템은 트랜스포머 대신에 콘포머를 사용하였고 언어모델로는 트랜스포머를 이용하였다. 성능 평가를 위해 AI-hub에 있는 Electronics and Telecommunications Research Institute(ETRI) 음성코퍼스를 활용하였으며 트랜스포머 기반 음성인식 시스템은 오인식률이 11.8 %이 되었으며 콘포머 기반 음성인식시스템은 오인식률이 5.7 %가 되었다. AI-hub에 있는 다른 영역의 NHN다이퀘스트 음성 코퍼스를 추가해도 유사한 성능이 유지가 되어 제안된 콘포머 음성인식시스템의 유효성을 입증하였다.

    - COLLAPSE
    September 2021
  • Group-based speaker embeddings for text-independent speaker verification

    문장 독립 화자 검증을 위한 그룹기반 화자 임베딩

    Youngmoon Jung, Youngsik Eom, Yeonghyeon Lee and Hoirin Kim

    정영문, 엄영식, 이영현, 김회린

    Recently, deep speaker embedding approach has been widely used in text-independent speaker verification, which shows better performance than the traditional i-vector approach ...

    딥러닝 기반의 심층 화자 임베딩 방식은 최근 문장 독립 화자 검증 연구에 널리 사용되고 있으며, 기존의 i-vector 방식에 비해 더 좋은 성능을 ...

    + READ MORE
    Recently, deep speaker embedding approach has been widely used in text-independent speaker verification, which shows better performance than the traditional i-vector approach. In this work, to improve the deep speaker embedding approach, we propose a novel method called group-based speaker embedding which incorporates group information. We cluster all speakers of the training data into a predefined number of groups in an unsupervised manner, so that a fixed-length group embedding represents the corresponding group. A Group Decision Network (GDN) produces a group weight, and an aggregated group embedding is generated from the weighted sum of the group embeddings and the group weights. Finally, we generate a group-based embedding by adding the aggregated group embedding to the deep speaker embedding. In this way, a speaker embedding can reduce the search space of the speaker identity by incorporating group information, and thereby can flexibly represent a significant number of speakers. We conducted experiments using the VoxCeleb1 database to show that our proposed approach can improve the previous approaches.


    딥러닝 기반의 심층 화자 임베딩 방식은 최근 문장 독립 화자 검증 연구에 널리 사용되고 있으며, 기존의 i-vector 방식에 비해 더 좋은 성능을 보이고 있다. 본 연구에서는 심층 화자 임베딩 방식을 발전시키기 위하여, 화자의 그룹 정보를 도입한 그룹기반 화자 임베딩을 제안한다. 훈련 데이터 내에 존재하는 전체 화자들을 정해진 개수의 그룹으로 비지도 클러스터링 하며, 고정된 길이의 그룹 임베딩 벡터가 각각의 그룹을 대표한다. 그룹 결정 네트워크가 각 그룹에 대응되는 그룹 가중치를 출력하며, 이를 이용한 그룹 임베딩 벡터들의 가중 합을 통해 집합 그룹 임베딩을 추출한다. 최종적으로 집합 그룹 임베딩을 심층 화자 임베딩에 더해주어 그룹기반 화자 임베딩을 생성한다. 이러한 방식을 통해 그룹 정보를 심층 화자 임베딩에 도입함으로써, 화자 임베딩이 나타낼 수 있는 전체 화자의 검색 공간을 줄일 수 있고, 이를 통해 화자 임베딩은 많은 수의 화자를 유연하게 표현할 수 있다. VoxCeleb1 데이터베이스를 이용하여 본 연구에서 제안하는 방식이 기존의 방식을 개선시킨다는 것을 확인하였다.

    - COLLAPSE
    September 2021
  • Online blind source separation and dereverberation of speech based on a joint diagonalizability constraint

    공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거

    Ho-Gun Yu, Do-Hui Kim, Min-Hwan Song and Hyung-Min Park

    유호건, 김도희, 송민환, 박형민

    Reverberation in speech signals tends to significantly degrade the performance of the Blind Source Separation (BSS) system. Especially in online systems, the ...

    신호에서의 잔향은 암묵음원분리 시스템의 성능을 크게 저하시키는 경향이 있다. 특히 온라인으로 진행되는 시스템일 때, 그 영향이 더욱 두드러진다. 최근 공동 행렬대각화를 활용하여 ...

    + READ MORE
    Reverberation in speech signals tends to significantly degrade the performance of the Blind Source Separation (BSS) system. Especially in online systems, the performance degradation becomes severe. Methods based on joint diagonalizability constraints have been recently developed to tackle the problem. To improve the quality of separated speech, in this paper, we add the proposed de-reverberation method to the online BSS algorithm based on the constraints in reverberant environments. Through experiments on the WSJCAM0 corpus, the proposed method was compared with the existing online BSS algorithm. The performance evaluation by the Signal-to-Distortion Ratio and the Perceptual Evaluation of Speech Quality demonstrated that SDR improved from 1.23 dB to 3.76 dB and PESQ improved from 1.15 to 2.12 on average.


    신호에서의 잔향은 암묵음원분리 시스템의 성능을 크게 저하시키는 경향이 있다. 특히 온라인으로 진행되는 시스템일 때, 그 영향이 더욱 두드러진다. 최근 공동 행렬대각화를 활용하여 해당 문제를 해결하고자 하는 연구들이 이루어지고 있다. 본 논문에서는 이를 활용, 발전하여 잔향이 존재하는 환경에서의 미결정 다중 화자의 음원 분리 온라인 알고리즘에 잔향 제거 기능을 추가함으로써 분리한 음원의 품질을 개선하였다. WSJCAM0 데이터베이스에서 실험을 통해 기존에 사용되고 있는 온라인 알고리즘 성능과 비교하였다. 성능 평가는 신호 대 왜곡 비(Signal-to-Distortion Ratio, SDR)와 Perceptual Evaluation of Speech Quality(PESQ)를 통해 이루어졌고, 기존 알고리즘 대비 SDR은 평균 1.23 dB에서 3.76 dB로 향상되었고, PESQ는 1.15에서 2.12로 성능이 향상되었음을 검증하였다.

    - COLLAPSE
    September 2021
  • Transformer-based transfer learning and multi-task learning for improving the performance of speech emotion recognition

    음성감정인식 성능 향상을 위한 트랜스포머 기반 전이학습 및 다중작업학습

    Sunchan Park and Hyung Soon Kim

    박순찬, 김형순

    It is hard to prepare sufficient training data for speech emotion recognition due to the difficulty of emotion labeling. In this paper ...

    음성감정인식을 위한 훈련 데이터는 감정 레이블링의 어려움으로 인해 충분히 확보하기 어렵다. 본 논문에서는 음성감정인식의 성능 개선을 위해 트랜스포머 기반 모델에 대규모 음성인식용 ...

    + READ MORE
    It is hard to prepare sufficient training data for speech emotion recognition due to the difficulty of emotion labeling. In this paper, we apply transfer learning with large-scale training data for speech recognition on a transformer-based model to improve the performance of speech emotion recognition. In addition, we propose a method to utilize context information without decoding by multi-task learning with speech recognition. According to the speech emotion recognition experiments using the IEMOCAP dataset, our model achieves a weighted accuracy of 70.6 % and an unweighted accuracy of 71.6 %, which shows that the proposed method is effective in improving the performance of speech emotion recognition.


    음성감정인식을 위한 훈련 데이터는 감정 레이블링의 어려움으로 인해 충분히 확보하기 어렵다. 본 논문에서는 음성감정인식의 성능 개선을 위해 트랜스포머 기반 모델에 대규모 음성인식용 훈련 데이터를 통한 전이학습을 적용한다. 또한 음성인식과의 다중작업학습을 통해 별도의 디코딩 없이 문맥 정보를 활용하는 방법을 제안한다. IEMOCAP 데이터 셋을 이용한 음성감정인식 실험을 통해, 가중정확도 70.6 % 및 비가중정확도 71.6 %를 달성하여, 제안된 방법이 음성감정인식 성능 향상에 효과가 있음을 보여준다.

    - COLLAPSE
    September 2021
  • An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications

    다음색 감정 음성합성 응용을 위한 감정 SSML 처리기

    Se-Hui Ryu, Hee Cho, Ju-Hyun Lee and Ki-Hyung Hong

    유세희, 조희, 이주현, 홍기형

    In this paper, we designed and developed an Emotional Speech Synthesis Markup Language (SSML) processor. Multi-speaker emotional speech synthesis technology that can ...

    본 논문에서는 감정 마크업을 포함하는 Speech Synthesis Markup Language(SSML) 처리기를 설계하고 개발하였다. 다양한 음색과 감정 표현이 가능한 음성합성 기술이 개발되고 있으며 ...

    + READ MORE
    In this paper, we designed and developed an Emotional Speech Synthesis Markup Language (SSML) processor. Multi-speaker emotional speech synthesis technology that can express multiple voice colors and emotional expressions have been developed, and we designed Emotional SSML by extending SSML for multiple voice colors and emotional expressions. The Emotional SSML processor has a graphic user interface and consists of following four components. First, a multi-speaker emotional text editor that can easily mark specific voice colors and emotions on desired positions. Second, an Emotional SSML document generator that creates an Emotional SSML document automatically from the result of the multi-speaker emotional text editor. Third, an Emotional SSML parser that parses the Emotional SSML document. Last, a sequencer to control a multi-speaker and emotional Text-to-Speech (TTS) engine based on the result of the Emotional SSML parser. Based on SSML which is a programming language and platform independent open standard, the Emotional SSML processor can easily integrate with various speech synthesis engines and facilitates the development of multi-speaker emotional text-to-speech applications.


    본 논문에서는 감정 마크업을 포함하는 Speech Synthesis Markup Language(SSML) 처리기를 설계하고 개발하였다. 다양한 음색과 감정 표현이 가능한 음성합성 기술이 개발되고 있으며 다양한 음색 및 감정 음성합성의 응용 확대를 위하여 표준화된 음성 인터페이스 마크업 언어인 SSML을 감정 표현이 가능하도록 확장한 감정 SSML (Emotional SSML)을 설계하였다. 감정 SSML 처리기는 그래픽 사용자 인터페이스로 손쉽게 음색 및 감정을 원하는 텍스트 부분에 표시할 수 있는 다음색 감정 텍스트 편집기, 편집 결과를 감정 SSML 문서로 생성하는 감정 SSML 문서 생성기, 생성된 감정 SSML 문서를 파싱하는 감정 SSML 파서, 감정 SSML 파서의 결과인 다음색 감정 합성 시퀀스를 기반으로 합성기와 연동하여 음성 스트림의 합성 을 제어하는 시퀀서로 구성된다. 본 논문에서 개발한 다음색 감정합성을 위한 감정 SSML 처리기는 프로그래밍 언어 및 플랫폼 독립적인 개방형 표준인 SSML을 기반으로 하여 다양한 음성합성 엔진에 쉽게 연동할 수 있는 구조를 가지며 다양한 음색과 감정 음성합성이 필요한 다양한 응용 개발에 활용될 것으로 기대한다.

    - COLLAPSE
    September 2021
  • Conformer with lexicon transducer for Korean end-to-end speech recognition

    Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식

    Hyunsoo Son, Hosung Park, Gyujin Kim, Eunsoo Cho and Ji-Hwan Kim

    손현수, 박호성, 김규진, 조은수, 김지환

    Recently, due to the development of deep learning, end-to-end speech recognition, which directly maps graphemes to speech signals, shows good performance. Especially ...

    최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 ...

    + READ MORE
    Recently, due to the development of deep learning, end-to-end speech recognition, which directly maps graphemes to speech signals, shows good performance. Especially, among the end-to-end models, conformer shows the best performance. However end-to-end models only focuses on the probability of which grapheme will appear at the time. The decoding process uses a greedy search or beam search. This decoding method is easily affected by the final probability output by the model. In addition, the end-to-end models cannot use external pronunciation and language information due to structual problem. Therefore, in this paper conformer with lexicon transducer is proposed. We compare phoneme-based model with lexicon transducer and grapheme-based model with beam search. Test set is consist of words that do not appear in training data. The grapheme-based conformer with beam search shows 3.8 % of CER. The phoneme-based conformer with lexicon transducer shows 3.4 % of CER.


    최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식 방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.

    - COLLAPSE
    September 2021