• Research Article

    Optimal design of impeller in fan motor unit of cordless vacuum cleaner for improving flow performance and reducing aerodynamic noise

    무선진공청소기 팬 모터 단품의 유량성능 향상과 공력소음 저감을 위한 임펠라 최적설계

    KunWoo Kim, Seo-Yoon Ryu, Cheolung Cheong, Seongjin Seo, and Cheolmin Jang

    김건우, 유서윤, 정철웅, 서성진, 장철민

    In this study, the flow and noise performances of high-speed fan motor unit for cordless vacuum cleaner is improved by optimizing the ...

    본 논문에서는 무선진공청소기용 팬 모터 단품의 유량 및 소음성능을 향상시키기 위하여 무선청소기 유로를 통하여 공기를 흡입하는 임펠라에 대한 최적설계를 수행하였다. 우선, 팬 ...

    + READ MORE
    In this study, the flow and noise performances of high-speed fan motor unit for cordless vacuum cleaner is improved by optimizing the impeller which drives the suction air through flow passage of the cordless vacuum cleaner. Firstly, the unsteady incompressible Reynolds averaged Navier-Stokes (RANS) equations are solved to investigate the flow through the fan motor unit using the computational fluid dynamics techniques. Based on flow field results, the Ffowcs-Williams and Hawkings (FW-H) integral equation is used to predict flow noise radiated from the impeller. Predicted results are compared to the measured ones, which confirms the validity of the numerical method used. It is found that the strong vortex is formed around the mid-chord region of the main blades where the blade curvature change rapidly. Given that vortex acts as a loss for flow and a noise source for noise, impeller blade is redesigned to suppress the identified vortex. The response surface method using two factors is employed to determine the optimum inlet and outlet sweep angles for maximum flow rate and minimum noise. Further analysis of finally selected design confirms the improved flow and noise performance.


    본 논문에서는 무선진공청소기용 팬 모터 단품의 유량 및 소음성능을 향상시키기 위하여 무선청소기 유로를 통하여 공기를 흡입하는 임펠라에 대한 최적설계를 수행하였다. 우선, 팬 모터 단품, 특히 임펠라의 유동장을 분석하기 위하여 비정상, 비압축성 Reynolds averaged Navier-Stokes(RANS) 방정식을 전산유체역학(Computational Fluid Dynamics, CFD)에 기초하여 해석하였다. 예측한 유동장 정보를 입력값으로 Ffowcs-Williams and Hawkings(FW-H) 방정식을 사용하여 임펠라로부터 방사되는 소음을 수치적으로 예측하였다. 유량과 소음에 대한 수치해석 결과를 실험을 통해 측정한 팬 모터 단품의 P-Q 곡선과 음압 스펙트럼과 비교하여 사용한 수치방법의 유효성을 확인하였다. 수치해석결과로부터 임펠라 날개의 코드방향 중간부분의 급격한 곡률 변화로 인하여 강한 와류가 형성되는 것을 확인하였다. 와류는 유동에는 손실로 소음에는 소음원으로 작용하기 때문에 기존의 임펠라를 재설계하여 와류를 개선하고자 하였다. 2인자 반응표면방법을 사용하여 최대유량과 최소소음을 나타내는 입·출구 뒷젖힘각(sweep angle)을 결정하였다. 최종 선정된 설계안에 대한 추가 해석을 통하여 유량성능과 소음성능이 개선됨을 확인하였다.

    - COLLAPSE
    September 2020
  • Research Article

    Moored measurement of the ambient noise and analysis with environmental factors in the coastal sea of Jeju Island

    제주 연해 수중 주변소음 계류 측정과 환경 변화에 따른 분석

    Inyong Jeong, Soohong Min, and Dong-Guk Paeng

    정인용, 민수홍, 팽동국

    Underwater ambient noise was measured at the eastern and western costal sites of Jeju Island where the water depth was 20 m ...

    본 연구는 풍력, 파력발전기가 설치되는 제주 동부와 서부 수심 20 m 연해에서 4개월동안 수중 청음기를 중층(10 m)에 계류하여 주변소음을 측정하였다 ...

    + READ MORE
    Underwater ambient noise was measured at the eastern and western costal sites of Jeju Island where the water depth was 20 m by a hydrophone moored at mid-depth (10 m) for 4 months. These eastern and western sites were selected as potential sites for offshore wind power generator and the current wave energy generator, respectively. Ambient noise was affected by environmental data such as wind and wave, which were collected from nearby weather stations and an observation station. Below 100 Hz, ambient noise was changed about 5 dB ~ 20 dB due to low and high tide. Below 1 kHz, wave and wind effects were the main source for ambient noise, varying up to 25 dB. Ambient noise was strongly influenced by wave at lower frequency and by wind at higher frequency up to over 1 kHz. The higher frequency range over 10 kHz was influenced by rainfall and biological sources, and the spectrum was measured about 10 dB higher than the peak spectrum level from Wenz curve at this frequency range.


    본 연구는 풍력, 파력발전기가 설치되는 제주 동부와 서부 수심 20 m 연해에서 4개월동안 수중 청음기를 중층(10 m)에 계류하여 주변소음을 측정하였다. 측정 소음레벨에 영향을 미치는 기상정보는 측정 지점 근처 기상대와 관측소를 이용하여 자료를 수집하였다. 100 Hz 이하의 주파수 대역에서 조석의 영향으로 간조와 만조, 조금과 사리일 때 약 5 dB ~ 20 dB가량 변화를 보였다. 파랑과 바람의 영향은 1 kHz 이하의 주파수 대역에서 25 dB이내로 큰 변화를 보였으며 파랑은 저주파 대역에 영향을 주었고 바람은 1 kHz 이상의 고주파 대역까지도 영향을 주었다. 10 kHz 이상의 고주파 대역에 영향을 주는 요인으로 강우와 생물 소음이 있고 웬즈 곡선 최대값에 비해 약 10 dB 높게 측정되었다.

    - COLLAPSE
    September 2020
  • Research Article

    Analysis of flow speed distribution in the acoustic streaming generated by two piston sources

    두 개의 피스톤음원으로부터 발생된 음향유동의 유속분포 해석

    Jungsoon Kim, Jihee Jung, and Moojoon Kim

    김정순, 정지희, 김무준

    To analyze the flow distribution formed by multiple acoustic sources, the distribution of acoustic streaming speed caused by an ultrasonic transducer composed ...

    복수의 음향유동에 의해 형성되는 유속의 분포를 해석하기 위하여 동일한 두 개의 압전진동자로 구성된 초음파 트랜스듀서에 의해 형성되는 음향유동에 대해 음원 사이의 각도에 ...

    + READ MORE
    To analyze the flow distribution formed by multiple acoustic sources, the distribution of acoustic streaming speed caused by an ultrasonic transducer composed of two identical piezoelectric vibrators was examined for various angles between the sound sources. In order to measure the distribution of the speed along the acoustic axis of the transducer, a simple measurement method using a droplet indicator having density similar to that of water is suggested. The simulation results calculated by a numerical method and experimental results showed a similar tendency, and the change of flow speed distribution with the intersection angle between acoustic beams radiated from two acoustic sources was analyzed.


    복수의 음향유동에 의해 형성되는 유속의 분포를 해석하기 위하여 동일한 두 개의 압전진동자로 구성된 초음파 트랜스듀서에 의해 형성되는 음향유동에 대해 음원 사이의 각도에 따른 음향유동속도의 분포를 조사하였다. 거리에 따른 유체입자속도의 분포를 측정하기 위하여 물과 동일한 밀도를 갖는 표시액을 사용한 간단한 측정방법을 제안하였다. 수치해석적인 방법으로 시뮬레이션한 결과와 실험결과는 유사한 경향을 나타내었으며, 두 음원으로부터 방사된 평면파의 방사빔이 교차하는 각도에 따른 음향유동의 속도 분포의 변화를 해석할 수 있었다.

    - COLLAPSE
    September 2020
  • Research Article

    Temporal attention based animal sound classification

    시간 축 주의집중 기반 동물 울음소리 분류

    Jungmin Kim, Younglo Lee, Donghyeon Kim, and Hanseok Ko

    김정민, 이영로, 김동현, 고한석

    In this paper, to improve the classification accuracy of bird and amphibian acoustic sound, we utilize GLU (Gated Linear Unit) and Self-attention ...

    본 논문에서는 조류와 양서류 울음소리의 구별 정확도를 높이기 위해 게이트 선형유닛과 자가주의 집중 모듈을 활용해서 데이터의 중요한 부분을 중심으로 특징 추출 및 ...

    + READ MORE
    In this paper, to improve the classification accuracy of bird and amphibian acoustic sound, we utilize GLU (Gated Linear Unit) and Self-attention that encourages the network to extract important features from data and discriminate relevant important frames from all the input sequences for further performance improvement. To utilize acoustic data, we convert 1-D acoustic data to a log-Mel spectrogram. Subsequently, undesirable component such as background noise in the log-Mel spectrogram is reduced by GLU. Then, we employ the proposed temporal self-attention to improve classification accuracy. The data consist of 6-species of birds, 8-species of amphibians including endangered species in the natural environment. As a result, our proposed method is shown to achieve an accuracy of 91 % with bird data and 93 % with amphibian data. Overall, an improvement of about 6 % ~ 7 % accuracy in performance is achieved compared to the existing algorithms.


    본 논문에서는 조류와 양서류 울음소리의 구별 정확도를 높이기 위해 게이트 선형유닛과 자가주의 집중 모듈을 활용해서 데이터의 중요한 부분을 중심으로 특징 추출 및 데이터 프레임의 중요도를 판별해 구별 정확도를 높인다. 이를 위해 먼저 1차원의 음향 데이터를 로그 멜 스펙트럼으로 변환한다. 로그 멜 스펙트럼에서 배경잡음같이 중요하지 않은 정보는 게이트 선형유닛을 거쳐 제거한다. 그러고 난 뒤 시간 축에 자가주의집중기법을 적용해 구별 정확도를 높인다. 사용한 데이터는 자연환경에서 멸종위기종을 포함한 조류 6종의 울음소리와 양서류 8종의 울음소리로 구성했다. 그 결과, 게이트 선형유닛 알고리즘과 시간 축에서 자가주의집중을 적용한 구조의 평균 정확도는 조류를 구분했을 때 91 %, 양서류를 구분했을 때 93 %의 분류율을 보였다. 또한, 기존 알고리즘보다 약 6 % ~ 7 % 향상된 정확도를 보이는 것을 확인했다.

    - COLLAPSE
    September 2020
  • Research Article

    Dilated convolution and gated linear unit based sound event detection and tagging algorithm using weak label

    약한 레이블을 이용한 확장 합성곱 신경망과 게이트 선형 유닛 기반 음향 이벤트 검출 및 태깅 알고리즘

    Chungho Park, Donghyun Kim, and Hanseok Ko

    박충호, 김동현, 고한석

    In this paper, we propose a Dilated Convolution Gate Linear Unit (DCGLU) to mitigate the lack of sparsity and small receptive field ...

    본 논문은 약한 레이블 기반 음향 이벤트 검출을 위한 시간-주파수 영역분할 맵 추출 모델에서 발생하는 희소성 및 수용영역 부족에 관한 문제를 완화 ...

    + READ MORE
    In this paper, we propose a Dilated Convolution Gate Linear Unit (DCGLU) to mitigate the lack of sparsity and small receptive field problems caused by the segmentation map extraction process in sound event detection with weak labels. In the advent of deep learning framework, segmentation map extraction approaches have shown improved performance in noisy environments. However, these methods are forced to maintain the size of the feature map to extract the segmentation map as the model would be constructed without a pooling operation. As a result, the performance of these methods is deteriorated with a lack of sparsity and a small receptive field. To mitigate these problems, we utilize GLU to control the flow of information and Dilated Convolutional Neural Networks (DCNNs) to increase the receptive field without additional learning parameters. For the performance evaluation, we employ a URBAN-SED and self-organized bird sound dataset. The relevant experiments show that our proposed DCGLU model outperforms over other baselines. In particular, our method is shown to exhibit robustness against nature sound noises with three Signal to Noise Ratio (SNR) levels (20 dB, 10 dB and 0 dB).


    본 논문은 약한 레이블 기반 음향 이벤트 검출을 위한 시간-주파수 영역분할 맵 추출 모델에서 발생하는 희소성 및 수용영역 부족에 관한 문제를 완화 시키기 위해, 확장 게이트 선형 유닛(Dilated Convolution Gated Linear Unit, DCGLU)을 제안한다. 딥러닝 분야에서 음향 이벤트 검출을 위한 영역분할 맵 추출 기반 방법은 잡음 환경에서 좋은 성능을 보여준다. 하지만, 이 방법은 영역분할 맵을 추출하기 위해 특징 맵의 크기를 유지해야 하므로 풀링 연산 없이 모델을 구성하게 된다. 이로 인해 이 방법은 희소성과 수용영역의 부족으로 성능 저하를 보이게 된다. 이런 문제를 완화하기 위해, 본 논문에서는 정보의 흐름을 제어할 수 있는 게이트 선형 유닛과 추가의 파라미터 없이 수용영역을 넓혀 줄 수 있는 확장 합성곱 신경망을 적용하였다. 실험을 위해 사용된 데이터는 URBAN-SED와 자체 제작한 조류 울음소리 데이터이며, 제안하는 DCGLU 모델이 기존 베이스라인 논문들보다 더 좋을 성능을 보였다. 특히, DCGLU 모델이 자연 소리가 섞인 환경인 세 개의 Signal to Noise Ratio(SNR)(20 dB, 10 dB, 0 dB)에서 강인하다는 것을 확인하였다.

    - COLLAPSE
    September 2020
  • Research Article

    Absolute sound level algorithm for contents platform

    콘텐츠 플랫폼 적용을 위한 절대음량 알고리즘

    Du-Heon Gyeon

    견두헌

    This paper describes an algorithm that calculates Absolute Sound Level (ASL) for contents platform. ASL is a single volume representing individual sound ...

    본 논문은 콘텐츠 플랫폼에서 절대음량을 산출하는 알고리즘을 서술한다. 절대음량은 개별 음원을 대표하는 하나의 음량이며, 실용적인 범위 내에서, 음원파일 자체의 디지털 영역과 스피커로 ...

    + READ MORE
    This paper describes an algorithm that calculates Absolute Sound Level (ASL) for contents platform. ASL is a single volume representing individual sound sources and is a concept designed to integrate and utilize the sound level units in digital sound source and physical domain from a speaker in practical areas. For this concept to be used in content platforms and others, it is necessary to automatically derive the ASL without having to go through a hearing of mastering engineers. The key parameters of which a person recognizes the representative sound level of an individual single sound source are the areas of “frequency, maximum energy, energy variation coefficient, and perceived energy distribution,” and the ASL was calculated through the normalizing of the weights.


    본 논문은 콘텐츠 플랫폼에서 절대음량을 산출하는 알고리즘을 서술한다. 절대음량은 개별 음원을 대표하는 하나의 음량이며, 실용적인 범위 내에서, 음원파일 자체의 디지털 영역과 스피커로 출력되는 물리 영역의 음량단위를 통합하여 활용할 수 있도록 설계한 개념이다. 이 개념이 콘텐츠 플랫폼 등에서 실제로 활용되기 위해서는 마스터링 엔지니어의 청음을 거치지 않아도, 자동으로 절대음량 수치를 도출할 수 있어야 한다. 사람이 개별 단일 음원의 대표 음량을 인지하는 핵심 파라미터는 “주파수, 최대에너지, 에너지 변동 계수, 인지가중 에너지 분포도” 영역이며, 가중치 정규화를 통하여 절대음량 수치를 산출하였다.

    - COLLAPSE
    September 2020
  • Research Article

    Development of portable single-beam acoustic tweezers for biomedical applications

    생체응용을 위한 휴대용 단일빔 음향집게시스템 개발

    Junsu Lee, Yeon-Seong Park, Mi-Ji Kim, and Changhan Yoon

    이준수, 박연성, 김미지, 윤창한

    Single-beam acoustic tweezers that are capable of manipulating micron-size particles in a non-contact manner have been used in many biological and biomedical ...

    음향집게는 마이크론 단위의 미세입자를 비접촉 방식으로 조작할 수 있어 다양한 생체공학 응용에 사용되고 있다. 현재까지 음향집게는 in vitro 실험을 목적으로 개발되어 임의파형 ...

    + READ MORE
    Single-beam acoustic tweezers that are capable of manipulating micron-size particles in a non-contact manner have been used in many biological and biomedical applications. Current single-beam acoustic tweezer systems developed for in vitro experiments consist of a function generator and a power amplifier, thus the system is bulky and expensive. This configuration would not be suitable for in vivo and clinical applications. Thus, in this paper, we present a portable single-beam acoustic tweezer system and its performances of trapping and manipulating micron-size objects. The developed system consists of an Field Programmable Gate Array (FPGA) chip and two pulsers, and parameters such as center frequency and pulse duration were controlled by a Personal Computer (PC) via a USB (Universal Serial Bus) interface in real-time. It was shown that the system was capable of generating the transmitting pulse up to 20 MHz, and producing sufficient intensity to trap microparticles and cells. The performance of the system was evaluated by trapping and manipulating 40 μm and 90 μm in diameter polystyrene particles.


    음향집게는 마이크론 단위의 미세입자를 비접촉 방식으로 조작할 수 있어 다양한 생체공학 응용에 사용되고 있다. 현재까지 음향집게는 in vitro 실험을 목적으로 개발되어 임의파형 발생기와 전력 증폭기와 같은 부피가 큰 고가의 장비를 사용하여 구현하였다. 따라서 이러한 시스템은 이동이 불편하여 한정된 공간에서만 사용이 가능하기 때문에 향후 in vivo 및 임상 실험에 적합하지 않은 구조를 가진다. 따라서 본 논문에서는 이동이 가능한 휴대용 음향집게를 개발하고 그 성능을 평가하였다. 개발한 휴대용 음향집게 시스템은 하나의 Field Programmable Gate Array(FPGA)와 2 개의 펄서로 구현되었으며, Universal Serial Bus(USB) 통신을 이용하여 Personal Computer(PC)에서 송신 주파수 및 펄스 길이 등을 실시간으로 조절이 가능하도록 설계하였다. 개발한 시스템은 최대 20 MHz의 중심 주파수 까지 송신이 가능하며, 미세입자 및 세포를 포획할 수 있는 충분한 힘을 생성할 수 있었다. 개발한 시스템의 성능을 평가하기 위하여 40 μm와 90 μm 크기의 폴리스티렌 입자를 포획 및 조정하였다.

    - COLLAPSE
    September 2020
  • Research Article

    α-feature map scaling for raw waveform speaker verification

    α-특징 지도 스케일링을 이용한 원시파형 화자 인증

    Jee-weon Jung, Hye-jin Shim, Ju-ho Kim, and Ha-Jin Yu

    정지원, 심혜진, 김주호, 유하진

    In this paper, we propose the α-Feature Map Scaling (α-FMS) method which extends the FMS method that was designed to enhance the ...

    본 논문은 심층 신경망을 이용한 화자 인증(Speaker Verification, SV) 시스템에서, 심층 신경망 내부에 존재하는 각 특징 지도(Feature Map)들의 분별력을 ...

    + READ MORE
    In this paper, we propose the α-Feature Map Scaling (α-FMS) method which extends the FMS method that was designed to enhance the discriminative power of feature maps of deep neural networks in Speaker Verification (SV) systems. The FMS derives a scale vector from a feature map and then adds or multiplies them to the features, or sequentially apply both operations. However, the FMS method not only uses an identical scale vector for both addition and multiplication, but also has a limitation that it can only add a value between zero and one in case of addition. In this study, to overcome these limitations, we propose α-FMS to add a trainable parameter α to the feature map element-wise, and then multiply a scale vector. We compare the performance of the two methods: the one where α is a scalar, and the other where it is a vector. Both α-FMS methods are applied after each residual block of the deep neural network. The proposed system using the α-FMS methods are trained using the RawNet2 and tested using the VoxCeleb1 evaluation set. The result demonstrates an equal error rate of 2.47 % and 2.31 % for the two α-FMS methods respectively.


    본 논문은 심층 신경망을 이용한 화자 인증(Speaker Verification, SV) 시스템에서, 심층 신경망 내부에 존재하는 각 특징 지도(Feature Map)들의 분별력을 강화하기 위해 기존 특징 지도 스케일링(Feature Map Scaling, FMS) 기법을 확장한 α-FMS 기법을 제안한다. 기존의 FMS 기법은 특징 지도로부터 스케일 벡터를 구한 뒤, 이를 특징 지도에 더하거나 곱하거나 혹은 두 방식을 차례로 적용한다. 하지만 FMS 기법은 동일한 스케일 벡터를 덧셈과 곱셈 연산에 중복으로 사용할 뿐만 아니라, 스케일 벡터 자체도 sigmoid 비선형 활성 함수를 이용하여 계산되기 때문에 덧셈을 수행할 경우 그 값의 범위가 제한된다는 한계가 존재한다. 본 연구에서는 이러한 한계점을 극복하기 위해 별도의 α라는 학습 파라미터를 특징 지도에 원소 단위로 더한 뒤, 스케일 벡터를 곱하는 방식으로 α-FMS 기법을 설계하였다. 이 때, 제안한 α-FMS 기법은 스칼라 α를 학습하여 특징 지도의 모든 필터에 동일 값을 적용하는 방식과 벡터 α를 학습하여 특징 지도의 각 필터에 서로 다른 값을 적용하는 방식을 각각 적용 후 그 성능을 비교하였다. 두 방식의 α-FMS 모두 심층 심경망 내부의 잔차 연결이 적용된 각 블록 뒤에 적용하였다. 제안한 기법들의 유효성을 검증하기 위해 RawNet2 학습세트를 이용하여 학습시킨 뒤, VoxCeleb1 평가세트를 이용하여 성능을 평가한 결과, 각각 동일 오류율 2.47 %, 2.31 %를 확인하였다.

    - COLLAPSE
    September 2020
  • Research Article

    A study on speech disentanglement framework based on adversarial learning for speaker recognition

    화자 인식을 위한 적대학습 기반 음성 분리 프레임워크에 대한 연구

    Yoohwan Kwon, Soo-Whan Chung, and Hong-Goo Kang

    권유환, 정수환, 강홍구

    In this paper, we propose a system to extract effective speaker representations from a speech signal using a deep learning method. Based ...

    본 논문은 딥러닝 기법을 활용하여 음성신호로부터 효율적인 화자 벡터를 추출하는 시스템을 제안한다. 음성 신호에는 발화내용, 감정, 배경잡음 등과 같이 화자의 특징과는 관련이 ...

    + READ MORE
    In this paper, we propose a system to extract effective speaker representations from a speech signal using a deep learning method. Based on the fact that speech signal contains identity unrelated information such as text content, emotion, background noise, and so on, we perform a training such that the extracted features only represent speaker-related information but do not represent speaker-unrelated information. Specifically, we propose an auto-encoder based disentanglement method that outputs both speaker-related and speaker-unrelated embeddings using effective loss functions. To further improve the reconstruction performance in the decoding process, we also introduce a discriminator popularly used in Generative Adversarial Network (GAN) structure. Since improving the decoding capability is helpful for preserving speaker information and disentanglement, it results in the improvement of speaker verification performance. Experimental results demonstrate the effectiveness of our proposed method by improving Equal Error Rate (EER) on benchmark dataset, Voxceleb1.


    본 논문은 딥러닝 기법을 활용하여 음성신호로부터 효율적인 화자 벡터를 추출하는 시스템을 제안한다. 음성 신호에는 발화내용, 감정, 배경잡음 등과 같이 화자의 특징과는 관련이 없는 정보들이 포함되어 있다는 점에 착안하여 제안 방법에서는 추출된 화자 벡터에 화자의 특징과 관련된 정보는 가능한 많이 포함되고, 그렇지 않은 비화자 정보는 최소화될 수 있도록 학습을 진행한다. 특히, 오토-인코더 구조의 부호화 기가 두 개의 임베딩 벡터를 추정하도록 하고, 효과적인 손실 함수 조건을 두어 각 임베딩이 화자 및 비화자 특징만 각각 포함할 수 있도록 하는 효과적인 화자 정보 분리(disentanglement)방법을 제안한다. 또한, 화자 정보를 유지하는데 도움이 되는 생성적 적대 신경망(Generative Adversarial Network, GAN)에서 활용되는 판별기 구조를 도입함으로써, 디코더의 성능을 향상시킴으로써 화자 인식 성능을 보다 향상시킨다. 제안된 방법에 대한 적절성과 효율성은 벤치마크 데이터로 사용되고 있는 Voxceleb1에 대한 동일오류율(Equal Error Rate, EER) 개선 실험을 통하여 규명하였다.

    - COLLAPSE
    September 2020
  • Research Article

    Performance comparison of wake-up-word detection on mobile devices using various convolutional neural networks

    다양한 합성곱 신경망 방식을 이용한 모바일 기기를 위한 시작 단어 검출의 성능 비교

    Sanghong Kim and Bowon Lee

    김상홍, 이보원

    Artificial intelligence assistants that provide speech recognition operate through cloud-based voice recognition with high accuracy. In cloud-based speech recognition, Wake-Up-Word (WUW) detection ...

    음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 ...

    + READ MORE
    Artificial intelligence assistants that provide speech recognition operate through cloud-based voice recognition with high accuracy. In cloud-based speech recognition, Wake-Up-Word (WUW) detection plays an important role in activating devices on standby. In this paper, we compare the performance of Convolutional Neural Network (CNN)-based WUW detection models for mobile devices by using Google's speech commands dataset, using the spectrogram and mel-frequency cepstral coefficient features as inputs. The CNN models used in this paper are multi-layer perceptron, general convolutional neural network, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet. We also propose network that reduces the model size to 1/25 while maintaining the performance of MobileNet is also proposed.


    음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 데 중요한 역할을 한다. 본 논문에서는 공개 데이터셋인 구글의 Speech Commands 데이터셋을 사용하여 스펙트로그램 및 멜-주파수 캡스트럼 계수 특징을 입력으로 하여 모바일 기기에 대응한 저 연산 시작 단어 검출을 위한 합성곱 신경망의 성능을 비교한다. 본 논문에서 사용한 합성곱 신경망은 다층 퍼셉트론, 일반적인 합성곱 신경망, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet이며, MobileNet의 성능을 유지하면서 모델 크기를 1/25로 줄인 네트워크도 제안한다.

    - COLLAPSE
    September 2020
  • Research Article

    I-vector similarity based speech segmentation for interested speaker to speaker diarization system

    화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법

    Ara Bae, Ki-mu Yoon, Jaehee Jung, Bokyung Chung, and Wooil Kim

    배아라, 윤기무, 정재희, 정보경, 김우일

    In noisy and multi-speaker environments, the performance of speech recognition is unavoidably lower than in a clean environment. To improve speech recognition ...

    잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 ...

    + READ MORE
    In noisy and multi-speaker environments, the performance of speech recognition is unavoidably lower than in a clean environment. To improve speech recognition, in this paper, the signal of the speaker of interest is extracted from the mixed speech signals with multiple speakers. The VoiceFilter model is used to effectively separate overlapped speech signals. In this work, clustering by Probabilistic Linear Discriminant Analysis (PLDA) similarity score was employed to detect the speech signal of the interested speaker, which is used as the reference speaker to VoiceFilter-based separation. Therefore, by utilizing the speaker feature extracted from the detected speech by the proposed clustering method, this paper propose a speaker diarization system using only the mixed speech without an explicit reference speaker signal. We use phone-dataset consisting of two speakers to evaluate the performance of the speaker diarization system. Source to Distortion Ratio (SDR) of the operator (Rx) speech and customer speech (Tx) are 5.22 dB and –5.22 dB respectively before separation, and the results of the proposed separation system show 11.26 dB and 8.53 dB respectively.


    잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 혼합 음성에서 관심 있는 화자의 음성만 추출한다. 중첩된 구간에서도 효과적으로 분리해내기 위해 VoiceFilter 모델을 사용하였으며, VoiceFilter 모델은 여러 화자의 발화로 이루어진 음성과 관심 있는 화자의 발화로만 이루어진 참조 음성이 입력으로 필요하다. 따라서 본 논문에서는 Probabilistic Linear Discriminant Analysis(PLDA) 유사도 점수로 군집화하여 혼합 음성만으로도 참조 음성을 대체해 사용하였다. 군집화로 생성한 음성에서 추출한 화자 특징과 혼합 음성을 VoiceFilter 모델에 넣어 관심 있는 화자의 음성만 분리함으로써 혼합 음성만으로 화자 구분 시스템을 구축하였다. 2명의 화자로 이루어진 전화 상담 데이터로 화자 구분 시스템의 성능을 평가하였으며, 분리 전 상담사(Rx)와 고객(Tx)의 음성 Source to Distortion Ratio(SDR)은 각각 5.22 dB와 –5.22 dB에서 분리 후 각각 11.26 dB와 8.53 dB로 향상된 성능을 보였다.

    - COLLAPSE
    September 2020
  • Research Article

    Triplet loss based domain adversarial training for robust wake-up word detection in noisy environments

    잡음 환경에 강인한 기동어 검출을 위한 삼중항 손실 기반 도메인 적대적 훈련

    Hyungjun Lim, Myunghun Jung, and Hoirin Kim

    임형준, 정명훈, 김회린

    A good acoustic word embedding that can well express the characteristics of word plays an important role in wake-up word detection (WWD ...

    단어의 특성을 잘 표현하는 음성 단어 임베딩은 기동어 인식에서 중요한 역할을 한다. 하지만 기동어 인식이 수행되는 환경에서 필연적으로 발생하는 다양한 종류의 잡음으로 ...

    + READ MORE
    A good acoustic word embedding that can well express the characteristics of word plays an important role in wake-up word detection (WWD). However, the representation ability of acoustic word embedding may be weakened due to various types of environmental noise occurred in the place where WWD works, causing performance degradation. In this paper, we proposed triplet loss based Domain Adversarial Training (tDAT) mitigating environmental factors that can affect acoustic word embedding. Through experiments in noisy environments, we verified that the proposed method effectively improves the conventional DAT approach, and checked its scalability by combining with other method proposed for robust WWD.


    단어의 특성을 잘 표현하는 음성 단어 임베딩은 기동어 인식에서 중요한 역할을 한다. 하지만 기동어 인식이 수행되는 환경에서 필연적으로 발생하는 다양한 종류의 잡음으로 인해 음성 단어 임베딩의 표현 능력이 손상될 수 있으며, 인식 성능의 저하를 초래할 수 있다. 본 논문에서는 음성 단어 임베딩에 영향을 줄 수 있는 환경적인 요인을 완화시키는 삼중항 손실 기반의 도메인 적대적 훈련 방식을 제안한다. 잡음 환경에서의 기동어 검출 실험을 통해 제안하는 방식이 기존의 도메인 적대적 훈련 방식을 효과적으로 개선하는 모습을 확인할 수 있었고, 잡음 환경에서의 기동어 검출을 위해 기존에 제안된 다른 방법과의 결합을 통해 제안하는 방식의 확장성을 확인할 수 있었다.

    - COLLAPSE
    September 2020
  • Research Article

    Double-attention mechanism of sequence-to-sequence deep neural networks for automatic speech recognition

    음성 인식을 위한 sequence-to-sequence 심층 신경망의 이중 attention 기법

    Dongsuk Yook, Dan Lim, and In-Chul Yoo

    육동석, 임단, 유인철

    Sequence-to-sequence deep neural networks with attention mechanisms have shown superior performance across various domains, where the sizes of the input and the ...

    입력열과 출력열의 길이가 다른 경우 attention 기법을 이용한 sequence-to-sequence 심층 신경망이 우수한 성능을 보인다. 그러나, 출력열의 길이에 비해서 입력열의 길이가 너무 긴 ...

    + READ MORE
    Sequence-to-sequence deep neural networks with attention mechanisms have shown superior performance across various domains, where the sizes of the input and the output sequences may differ. However, if the input sequences are much longer than the output sequences, and the characteristic of the input sequence changes within a single output token, the conventional attention mechanisms are inappropriate, because only a single context vector is used for each output token. In this paper, we propose a double-attention mechanism to handle this problem by using two context vectors that cover the left and the right parts of the input focus separately. The effectiveness of the proposed method is evaluated using speech recognition experiments on the TIMIT corpus.


    입력열과 출력열의 길이가 다른 경우 attention 기법을 이용한 sequence-to-sequence 심층 신경망이 우수한 성능을 보인다. 그러나, 출력열의 길이에 비해서 입력열의 길이가 너무 긴 경우, 그리고 하나의 출력값에 해당하는 입력열의 특성이 변화하는 경우, 하나의 문맥 벡터(context vector)를 사용하는 기존의 attention 방법은 적당하지 않을 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해서 입력열의 왼쪽 부분과 오른쪽 부분을 각각 개별적으로 처리할 수 있는 두 개의 문맥 벡터를 사용하는 이중 attention 기법을 제안한다. 제안한 방법의 효율성은 TIMIT 데이터를 사용한 음성 인식 실험을 통하여 검증하였다.

    - COLLAPSE
    September 2020
  • Research Article

    Acoustic model training using self-attention for low-resource speech recognition

    저자원 환경의 음성인식을 위한 자기 주의를 활용한 음향 모델 학습

    Hosung Park and Ji-Hwan Kim

    박호성, 김지환

    This paper proposes acoustic model training using self-attention for low-resource speech recognition. In low-resource speech recognition, it is difficult for acoustic model ...

    본 논문에서는 저자원 환경의 음성인식에서 음향 모델의 성능을 높이기 위한 음향 모델 학습 방법을 제안한다. 저자원 환경이란, 음향 모델에서 100시간 미만의 학습 ...

    + READ MORE
    This paper proposes acoustic model training using self-attention for low-resource speech recognition. In low-resource speech recognition, it is difficult for acoustic model to distinguish certain phones. For example, plosive /d/ and /t/, plosive /g/ and /k/ and affricate /z/ and /ch/. In acoustic model training, the self-attention generates attention weights from the deep neural network model. In this study, these weights handle the similar pronunciation error for low-resource speech recognition. When the proposed method was applied to Time Delay Neural Network-Output gate Projected Gated Recurrent Unit (TNDD-OPGRU)-based acoustic model, the proposed model showed a 5.98 % word error rate. It shows absolute improvement of 0.74 % compared with TDNN-OPGRU model.


    본 논문에서는 저자원 환경의 음성인식에서 음향 모델의 성능을 높이기 위한 음향 모델 학습 방법을 제안한다. 저자원 환경이란, 음향 모델에서 100시간 미만의 학습 자료를 사용한 환경을 말한다. 저자원 환경의 음성인식에서는 음향 모델이 유사한 발음들을 잘 구분하지 못하는 문제가 발생한다. 예를 들면, 파열음 /d/와 /t/, 파열음 /g/와 /k/, 파찰음 /z/와 /ch/ 등의 발음은 저자원 환경에서 잘 구분하지 못한다. 자기 주의 메커니즘은 깊은 신경망 모델로부터 출력된 벡터에 대해 가중치를 부여하며, 이를 통해 저자원 환경에서 발생할 수 있는 유사한 발음 오류 문제를 해결한다. 음향 모델에서 좋은 성능을 보이는 Time Delay Neural Network(TDNN)과 Output gate Projected Gated Recurrent Unit (OPGRU)의 혼합 모델에 자기 주의 기반 학습 방법을 적용했을 때, 51.6 h 분량의 학습 자료를 사용한 한국어 음향 모델에 대하여 단어 오류율 기준 5.98 %의 성능을 보여 기존 기술 대비 0.74 %의 절대적 성능 개선을 보였다.

    - COLLAPSE
    September 2020
  • Research Article

    Improved speech enhancement of multi-channel Wiener filter using adjustment of principal subspace vector

    다채널 위너 필터의 주성분 부공간 벡터 보정을 통한 잡음 제거 성능 개선

    Gibak Kim

    김기백

    We present a method to improve the performance of the multi-channel Wiener filter in noisy environment. To build subspace-based multi-channel Wiener filter ...

    본 논문에서는 잡음 환경에서 다채널 위너 필터의 성능을 향상시키기 위한 방법을 제안한다. 부공간(subspace) 기반의 다채널 위너 필터를 설계하는 경우, 목적 신호가 ...

    + READ MORE
    We present a method to improve the performance of the multi-channel Wiener filter in noisy environment. To build subspace-based multi-channel Wiener filter, in the case of single target source, the target speech component can be effectively estimated in the principal subspace of speech correlation matrix. The speech correlation matrix can be estimated by subtracting noise correlation matrix from signal correlation matrix based on the assumption that the cross-correlation between speech and interfering noise is negligible compared with speech correlation. However, this assumption is not valid in the presence of strong interfering noise and significant error can be induced in the principal subspace accordingly. In this paper, we propose to adjust the principal subspace vector using speech presence probability and the steering vector for the desired speech source. The multi-channel speech presence probability is derived in the principal subspace and applied to adjust the principal subspace vector. Simulation results show that the proposed method improves the performance of multi-channel Wiener filter in noisy environment.


    본 논문에서는 잡음 환경에서 다채널 위너 필터의 성능을 향상시키기 위한 방법을 제안한다. 부공간(subspace) 기반의 다채널 위너 필터를 설계하는 경우, 목적 신호가 단일 음원인 경우는 음성 상관 행렬의 주성분 부공간에서 음성 성분을 추정할 수 있다. 이 때, 음성 상관 행렬은 음성과 간섭 잡음의 교차 상관도가 음성 상관 행렬에 비해 무시할만한 수준이라는 가정하에 신호 상관 행렬에서 간섭 잡음의 상관 행렬을 차감하여 추정하게 된다. 그러나 간섭 잡음 수준이 높아지게 되면 이러한 가정이 더 이상 유효하지 않게 되며 이에 따라 주성분 부공간 추정 오차도 증가하게 된다. 본 연구에서는 음성 존재 확률과 목적 신호의 방향 벡터를 이용하여 주성분 부공간을 보정하는 방법을 제안한다. 주성분 부공간에서 다채널 음성 존재 확률을 유도하고 주성분 부공간 벡터를 보정하는데 적용하였다. 실험을 통해 제안하는 방법이 잡음 환경에서 다채널 위너 필터의 성능을 향상시키는 것을 확인할 수 있다.

    - COLLAPSE
    September 2020
  • Research Article

    Masked cross self-attentive encoding based speaker embedding for speaker verification

    화자 검증을 위한 마스킹된 교차 자기주의 인코딩 기반 화자 임베딩

    Soonsh in Seo and J i-Hwan Kim

    서순신, 김지환

    Constructing speaker embeddings in speaker verification is an important issue. In general, a self-attention mechanism has been applied for speaker embedding encoding ...

    화자 검증에서 화자 임베딩 구축은 중요한 이슈이다. 일반적으로, 화자 임베딩 인코딩을 위해 자기주의 메커니즘이 적용되어졌다. 이전의 연구는 마지막 풀링 계층과 같은 높은 ...

    + READ MORE
    Constructing speaker embeddings in speaker verification is an important issue. In general, a self-attention mechanism has been applied for speaker embedding encoding. Previous studies focused on training the self-attention in a high-level layer, such as the last pooling layer. In this case, the effect of low-level layers is not well represented in the speaker embedding encoding. In this study, we propose Masked Cross Self-Attentive Encoding (MCSAE) using ResNet. It focuses on training the features of both high-level and low-level layers. Based on multi-layer aggregation, the output features of each residual layer are used for the MCSAE. In the MCSAE, the interdependence of each input features is trained by cross self-attention module. A random masking regularization module is also applied to prevent overfitting problem. The MCSAE enhances the weight of frames representing the speaker information. Then, the output features are concatenated and encoded in the speaker embedding. Therefore, a more informative speaker embedding is encoded by using the MCSAE. The experimental results showed an equal error rate of 2.63 % using the VoxCeleb1 evaluation dataset. It improved performance compared with the previous self-attentive encoding and state-of-the-art methods.


    화자 검증에서 화자 임베딩 구축은 중요한 이슈이다. 일반적으로, 화자 임베딩 인코딩을 위해 자기주의 메커니즘이 적용되어졌다. 이전의 연구는 마지막 풀링 계층과 같은 높은 수준의 계층에서 자기 주의를 학습시키는 데 중점을 두었다. 이 경우, 화자 임베딩 인코딩 시 낮은 수준의 계층의 영향이 감소한다는 단점이 있다. 본 연구에서는 잔차 네트워크를 사용하여 Masked Cross Self-Attentive Encoding(MCSAE)를 제안한다. 이는 높은 수준 및 낮은 수준 계층의 특징 학습에 중점을 둔다. 다중 계층 집합을 기반으로 각 잔차 계층의 출력 특징들이 MCSAE에 사용된다. MCSAE에서 교차 자기 주의 모듈에 의해 각 입력 특징의 상호 의존성이 학습된다. 또한 랜덤 마스킹 정규화 모듈은 오버 피팅 문제를 방지하기 위해 적용된다. MCSAE는 화자 정보를 나타내는 프레임의 가중치를 향상시킨다. 그런 다음 출력 특징들이 합쳐져 화자 임베딩으로 인코딩된다. 따라서 MCSAE를 사용하여 보다 유용한 화자 임베딩이 인코딩된다. 실험 결과, VoxCeleb1 평가 데이터 세트를 사용하여 2.63 %의 동일 오류율를 보였다. 이는 이전의 자기 주의 인코딩 및 다른 최신 방법들과 비교하여 성능이 향상되었다.

    - COLLAPSE
    September 2020