• Research Article

    Improvement of the accuracy of XBT based underwater sound speed using the unmanned maritime system and satellite remote sensing data in the Yellow Sea

    해양무인체계와 위성 원격탐사 자료를 이용한 XBT 기반의 황해 수중음속 정확도 향상 방안

    Bum-Jun Kil

    길범준

    A logical measure is suggested to estimate an accurate Sound Speed Profile (SSP) for the unusual variation of salinity in the Yellow ...

    염분의 변화가 심한 황해의 해양환경 조건에서 정확한 해수음속을 산출하기 위한 논리적 방안을 제시하였다. 본 방안은 미항공우주국에서 개발한 Aqua 및 Soil Moisture Active ...

    + READ MORE
    A logical measure is suggested to estimate an accurate Sound Speed Profile (SSP) for the unusual variation of salinity in the Yellow Sea. Based on National Aeronautics and Space Administration (NASA)’s Aqua and Soil Moisture Active Passive (SMAP) satellite data, this measure identifies the area of temperature inversion effect and expansion of low salinity (<30.5 psu) water. Subsequently, on the area, the Conductivity, Temperature, and Depth (CTD) mounted unmanned maritime system estimates accurate SSP. In order to carry out this measure conveniently, a flow chart is demonstrated in this research. By using this measure which finds the high variational salinity area, the inaccuracy issue for calculating SSP from Expandable Bathy Thermograph (XBT) is expected to be solved.


    염분의 변화가 심한 황해의 해양환경 조건에서 정확한 해수음속을 산출하기 위한 논리적 방안을 제시하였다. 본 방안은 미항공우주국에서 개발한 Aqua 및 Soil Moisture Active Passive(SMAP)위성자료를 기반으로 하계절 30.5 psu 미만의 저염분수의 확장과 수온역전 현상 발생 위치를 식별하고 그 위치에 수심별 수온염분 측정센서인 Conductivity, Temperature, and Depth(CTD)가 탑재된 해양관측용 무인체계를 투입하여 음속이 적재적소에 정확히 측정하는 방안을 제시하였고 이의 원활한 수행을 위한 흐름도(flow chart)로 정리하였다. 본 방안을 통하여 염분의 변화폭이 증대되는 특이 해양환경을 조기에 식별하여 소모성 연직 수온 측정기인 Expandable Bathy Thermograph (XBT)로 음속을 계산할 때 정확도의 저하가 발생 되지 않도록 하였다.

    - COLLAPSE
    November 2019
  • Research Article

    Position error estimation of sub-array in passive ranging sonar based on a genetic algorithm

    유전자 알고리즘 기반의 수동측거소나 부배열 위치오차 추정

    Min-Jeong Eom, Do-Young Kim, Gyu-Tae Park, Kee-Cheol Shin, Se-Hyun Oh

    엄민정, 김도영, 박규태, 신기철, 오세현

    Passive Ranging Sonar (PRS) is a type of passive sonar consisting of three sub-array on the port and starboard, and has a ...

    수동측거소나는 잠수함 플랫폼의 좌/우현에 각각 3개의 부배열로 구성된 수동소나의 한 종류로서 표적을 탐지하고 방위와 거리를 산출하는 특성을 갖는다. 방위와 거리 산출에는 ...

    + READ MORE
    Passive Ranging Sonar (PRS) is a type of passive sonar consisting of three sub-array on the port and starboard, and has a characteristic of detecting a target and calculating a bearing and a distance. The bearing and distance calculation requires physical sub-array position information, and the bearing and distance accuracy performance are deteriorated when the position information of the sub-array is inaccurate. In particular, it has a greater impact on distance accuracy performance using plus value of two time-delay than a bearing using average value of two time-delay. In order to improve this, a study on sub-array position error estimation and error compensation is needed. In this paper, We estimate the sub-array position error based on genetic algorithm, an optimization search technique, and propose a method to improve the performance of distance accuracy by compensating the time delay error caused by the position error. In addition, we will verify the proposed algorithm and its performance using the sea-going data.


    수동측거소나는 잠수함 플랫폼의 좌/우현에 각각 3개의 부배열로 구성된 수동소나의 한 종류로서 표적을 탐지하고 방위와 거리를 산출하는 특성을 갖는다. 방위와 거리 산출에는 물리적인 부배열 위치로 인하여 발생되는 시간지연과 삼각측량 기법이 활용된다. 이러한 기법에는 부배열의 정확한 위치정보가 요구되며 부배열의 위치정보가 부정확할 경우 방위와 거리정확도 성능이 저하되는 한계가 있다. 특히 하나의 시간지연을 사용하는 방위보다 두 개의 시간지연 값을 사용하는 거리 정확도 성능에 미치는 영향이 더 크다. 이를 개선하기 위하여 부배열의 위치 오차 추정 및 오차보상에 대한 연구가 필요하다. 본 논문에서는 최적화 탐색 기법인 유전자 알고리즘을 바탕으로 부배열 위치오차를 추정하며, 위치오차로 인한 시간지연 오차 값을 보상하여 거리정확도 성능 개선 방법을 제시하고자 한다. 또한 해상시험 데이터를 이용하여 제시한 알고리즘과 성능을 검증하고자 한다.

    - COLLAPSE
    November 2019
  • Research Article

    Analyses on limitations of binaural sound based on the first order Ambisonics for virtual reality audio

    1차 Ambisonics에 의해 생성되는 가상현실 오디오용 양이 사운드의 한계에 대한 분석

    Ji-Ho Chang, Wan-Ho Cho

    장지호, 조완호

    This paper analyzes the limitations of binaural sound that is reproduced with headphones based on Ambisonics for Virtual Reality (VR) audio. VR ...

    이 논문은 가상현실 오디오에서 널리 사용되는 Ambisonics에 기반하여 헤드폰을 통해 재생하는 binaural sound의 한계를 분석한 것이다. 가상현실 오디오는 청자의 머리 움직임을 보상하는 ...

    + READ MORE
    This paper analyzes the limitations of binaural sound that is reproduced with headphones based on Ambisonics for Virtual Reality (VR) audio. VR audio can be provided with binaural sound that compensates head rotation of a listener. Ambisonics is widely used for recording and reproducing ambient sound fields around a listener in VR audio, and the First order Ambisonics (FOA) is still being used for VR audio because of its simplicity. However, the maximum frequencies with this order is too low to perfectly reproduce ear signals, and thus the binaural reproduction has inherent limitations in terms of spectrum and sound localization. This paper investigates these limitations by comparing the signals arrived at ear positions in the reference field and the reproduced field. An incidence wave is defined as a reference field, and reproduced over virtual loudspeakers. Frequency responses, inter-aural level differences, and inter-aural phase differences are compared. The results show, above the maximum cut off frequency in general, that the reproduced levels decrease, and the horizontal localization can be provided only around the forward direction.


    이 논문은 가상현실 오디오에서 널리 사용되는 Ambisonics에 기반하여 헤드폰을 통해 재생하는 binaural sound의 한계를 분석한 것이다. 가상현실 오디오는 청자의 머리 움직임을 보상하는 binaural sound를 통해 제공된다. Ambisonics는 가상현실 오디오에서 청자를 둘러싼 배경음장을 레코딩하고 재생하는데에 널리 사용되는데, 1차 Ambisonics가 간단하다는 장점 때문에 여전히 가상현실 오디오에서 사용되고 있다. 그러나, 물리적인 관점에서 1차의 상한 주파수는 너무 낮아서 귀 위치의 신호를 완벽히 재현하지 못한다. 따라서 이렇게 재생된 binaural sound는 스펙트럼과 음원 위치 형성에서 근본적인 한계를 갖는다. 이 논문은 이러한 한계를 기준 음장과 재생 음장에서의 귀 위치의 신호 비교를 통해 알아 본다. 하나의 입사파를 기준 음장으로 정의하고, 이 것을 가상 스피커를 이용해서 Ambisonics를 통해 재생한다. 주파수 응답, 양이 레벨차, 양이 위상차가 비교된다. 비교 결과, 상한 주파수 이상에서 재생음장의 음압 레벨은 감소하고 수평면 상에서의 음원 위치는 청자의 정면 방향 근처에서만 잘 형성됨을 알 수 있었다.

    - COLLAPSE
    November 2019
  • Research Article

    Influence of SNR difference on the Korean speech intelligibility in classrooms

    교실에서 신호대잡음비 변이가 한국어 음성명료도에 미치는 영향

    Chan-Jae Park, Sung-Min Jo, Chan-Hoon Haan

    박찬재, 조성민, 한찬훈

    The present study aims to find out the necessary speech sound level which can satisfy with the speech intelligibility in a noisy ...

    본 연구는 소음 환경에서 화자의 음성 레벨이 어느 정도일 때 한국어에 대한 청자의 음성명료도 변화를 파악하고자 시행되었다. 이를 위해 잔향시간이 다른 교실 ...

    + READ MORE
    The present study aims to find out the necessary speech sound level which can satisfy with the speech intelligibility in a noisy classroom environments. For this, auralized materials were made to undertake listening tests with 27 people. Speech intelligibility tests were carried out using both Consonant-Vowel- Consonant (CVC) and Phonetically Balanced Words (PBW) methods. Signal to noise ratio was changed by 5 dB for each test. As a result, it was found that speech intelligibilities are increasing with larger Signal to Noise Ratio (SNR). It was also found that there is a lot of difference of speech intelligibilities by SNR for syllables (CVC) with the Reverberation Time (RT) of 1.5 s. However, any significant difference was not found for words (PBW) in the case with RTs of below 0.8 s. Also, it was revealed through the 2-way analysis of variance (ANOVA) test that SNR is the only attentive factor which can affect the Korean speech intelligibilities for both PBW and CVC methods. Therefore, RTs below 0.8 s could be the acoustic criteria for classroom which can minimize the effects of noise. In the case with RTs larger than 0.8 s, much larger SNR is needed to give sufficient speech intelligibility.


    본 연구는 소음 환경에서 화자의 음성 레벨이 어느 정도일 때 한국어에 대한 청자의 음성명료도 변화를 파악하고자 시행되었다. 이를 위해 잔향시간이 다른 교실 환경을 모형화하여 가청화시재를 제작한 후 피실험자 27명을 대상으로 청감실험을 실시해 음성명료도를 평가하였다. 음성명료도에 대한 평가는 한국어 음성명료도 평가법 중 음절법과 단어법을 이용하였으며 잔향시간과 신호대잡음비를 5dB씩 변화시키면서 정답률의 변화를 관찰하였다. 실험결과 음절법의 경우 신호대잡음비가 커질수록 이에 비례해 음성명료도 평가점수 또한 높아짐을 알 수 있었다. 단어법의 경우 잔향시간이 1.5 s인 경우에는 음성명료도 평가점수가 신호대잡음비와 비례적인 관계를 보이지만, 잔향시간이 0.8 s로 짧은 상황에서는 비례관계를 찾을 수 없었다. 이원변량분석 결과 한국어 음성명료도 평가법 중 음절법과 단어법에 공통적으로 유의한 영향 인자는 신호대잡음비라는 것으로 확인되었다. 따라서, 한국어 교실의 적정 잔향시간 기준인 0.8 s 이하를 만족하는 경우 소음에 따른 영향을 제어할 수 있으나, 잔향시간이 기준보다 긴 경우에는 신호대잡음비가 커야만 높은 음성명료도를 확보할 수 있을 것으로 판단된다.

    - COLLAPSE
    November 2019
  • Research Article

    A robust detection algorithm against clutters in active sonar in shallow coastal environment

    연안 환경에서 클러터에 강인한 능동소나 탐지 알고리듬

    Eun Jeong Jang, Sungchur Kwon, Won Tcheon Oh, Jung Woo Lee, Keecheol Shin, Juho Kim

    장은정, 권성철, 오원천, 이정우, 신기철, 김주호

    High frequency active sonar is appropriate for detecting small targets such as a diver in coast environment. In case of using high ...

    연안 환경에서 소형 표적의 탐지에는 고주파 능동소나가 적합하다. 연안 환경에서 고주파 능동소나를 사용할 경우 해양 생물 소음, 선박 소음, 항적 등에 의한 ...

    + READ MORE
    High frequency active sonar is appropriate for detecting small targets such as a diver in coast environment. In case of using high frequency active sonar in shallow coastal environment, a false alarm rate is high due to clutters caused by marine biological noise, ship noise, wake, etc. In this paper, we propose an algorithm for target detection which is robust against clutter in active sonar system in shallow coastal environment. The proposed algorithm increases the rate of reduction clutter using calculation of statistical characteristics of signal and a clustering method. The algorithm is evaluated and analysed with sea trial data, as a result, that shows the rate of reducing rate of clutter of 96 % and over.


    연안 환경에서 소형 표적의 탐지에는 고주파 능동소나가 적합하다. 연안 환경에서 고주파 능동소나를 사용할 경우 해양 생물 소음, 선박 소음, 항적 등에 의한 클러터로 인하여 오경보율이 매우 높다. 본 논문에서는 연안 환경에서 능동 소나에서 클러터에 강인한 탐지 알고리듬을 제안한다. 제안된 알고리듬은 측정치 추출 시 신호의 통계적인 특징을 이용하는 Constant False Alarm Rate(CFAR)와 클러스터링 알고리듬을 이용하여 클러터 제거율을 높인다. 제안된 탐지 알고리듬은 해상 시험을 통하여 검증하였으며, 약 96 % 이상의 클러터를 제거하였다.

    - COLLAPSE
    November 2019
  • Research Article

    Combining multi-task autoencoder with Wasserstein generative adversarial networks for improving speech recognition performance

    음성인식 성능 개선을 위한 다중작업 오토인코더와 와설스타인식 생성적 적대 신경망의 결합

    Chao Yuan Kao, Hanseok Ko

    고조원, 고한석

    As the presence of background noise in acoustic signal degrades the performance of speech or acoustic event recognition, it is still challenging ...

    음성 또는 음향 이벤트 신호에서 발생하는 배경 잡음은 인식기의 성능을 저하시키는 원인이 되며, 잡음에 강인한 특징을 찾는데 많은 노력을 필요로 한다. 본 ...

    + READ MORE
    As the presence of background noise in acoustic signal degrades the performance of speech or acoustic event recognition, it is still challenging to extract noise-robust acoustic features from noisy signal. In this paper, we propose a combined structure of Wasserstein Generative Adversarial Network (WGAN) and Multi- Task AutoEncoder (MTAE) as deep learning architecture that integrates the strength of MTAE and WGAN respectively such that it estimates not only noise but also speech features from noisy acoustic source. The proposed MTAE-WGAN structure is used to estimate speech signal and the residual noise by employing a gradient penalty and a weight initialization method for Leaky Rectified Linear Unit (LReLU) and Parametric ReLU (PReLU). The proposed MTAE-WGAN structure with the adopted gradient penalty loss function enhances the speech features and subsequently achieve substantial Phoneme Error Rate (PER) improvements over the stand-alone Deep Denoising Autoencoder (DDAE), MTAE, Redundant Convolutional Encoder-Decoder (R-CED) and Recurrent MTAE (RMTAE) models for robust speech recognition.


    음성 또는 음향 이벤트 신호에서 발생하는 배경 잡음은 인식기의 성능을 저하시키는 원인이 되며, 잡음에 강인한 특징을 찾는데 많은 노력을 필요로 한다. 본 논문에서는 딥러닝을 기반으로 다중작업 오토인코더(Multi-Task AutoEncoder, MTAE) 와 와설스타인식 생성적 적대 신경망(Wasserstein GAN, WGAN)의 장점을 결합하여, 잡음이 섞인 음향신호에서 잡음과 음성신호를 추정하는 네트워크를 제안한다. 본 논문에서 제안하는 MTAE-WGAN는 구조는 구배 페널티(Gradient Penalty) 및 누설 Leaky Rectified Linear Unit (LReLU) 모수 Parametric ReLU (PReLU)를 활용한 변수 초기화 작업을 통해 음성과 잡음 성분을 추정한다. 직교 구배 페널티와 파라미터 초기화 방법이 적용된 MTAE-WGAN 구조를 통해 잡음에 강인한 음성특징 생성 및 기존 방법 대비 음소 오인식률(Phoneme Error Rate, PER)이 크게 감소하는 성능을 보여준다.

    - COLLAPSE
    November 2019
  • Research Article

    Performance analysis of underwater acoustic communication based on beam diversity in deep water

    심해에서의 빔 다이버시티를 이용한 수중음향통신 성능 분석

    Donghyeon Kim, Heejin Park, J. S. Kim, Joung-Soo Park, Joo Young Hahn

    김동현, 박희진, 김재수, 박정수, 한주영

    Underwater communication performance is degraded by the influence of Inter-Symbol Interference (ISI) due to multipath. Passive time reversal processing is the most ...

    수중에서는 다중 경로로 인한 인접 심볼 간 간섭의 영향으로 통신 성능이 저하되며, 수동형 시역전 처리는 다중 경로를 완화하기 위한 가장 효율적인 기법이다 ...

    + READ MORE
    Underwater communication performance is degraded by the influence of Inter-Symbol Interference (ISI) due to multipath. Passive time reversal processing is the most effective technique for mitigating multipath, and the diversity combining method can be used to improve its performance. This paper analyzed communication performance using the beam diversity combining method, which combines signals obtained through the beam steering to various angles. Directions of arrival were estimated through the beam-time migration, which, in turn, was estimated from probe signals received by a vertical line array. The performance was analyzed based on the number and type of combinations among the estimated angles. In this paper, the data obtained from the Biomimetic Long range Acoustic Communications 2018 (BLAC18) experiment, which was conducted in the East sea, ~50 km east of Pohang, in October 2018, were used for the analysis. The output Signal to Noise Ratio (SNR) was used as communication indicators.


    수중에서는 다중 경로로 인한 인접 심볼 간 간섭의 영향으로 통신 성능이 저하되며, 수동형 시역전 처리는 다중 경로를 완화하기 위한 가장 효율적인 기법이다. 수동형 시역전 처리의 성능을 향상시키기 위해 다이버시티 결합 기법이 이용되고 있으며, 본 논문에서는 여러 각도로의 빔 조향을 통해 획득한 신호들을 결합하는 빔 다이버시티 결합 기법을 이용하여 통신 성능을 분석하였다. 수직 선 배열 센서에 수신된 탐침 신호로부터 추정한 빔-시간 그래프를 통해 음파의 전달 각도들을 추정하였으며, 추정된 각도 중 결합 개수 및 방식에 따른 통신 성능을 분석하였다. 분석을 위해 2018년 10월 포항 동방 해역에서 수행된 Biomimetic Long range Acoustic Communications 2018(BLAC18) 실험 데이터를 활용하였으며, 통신 성능 지표로써 출력 신호 대 잡음비를 이용하였다.

    - COLLAPSE
    November 2019
  • Research Article

    Principal component analysis based frequency-time feature extraction for seismic wave classification

    지진파 분류를 위한 주성분 기반 주파수-시간 특징 추출

    Jeongki Min, Gwantea Kim, Bonhwa Ku, Jimin Lee, Jaekwang Ahn, Hanseok Ko

    민정기, 김관태, 구본화, 이지민, 안재광, 고한석

    Conventional feature of seismic classification focuses on strong seismic classification, while it is not suitable for classifying micro-seismic waves. We propose a ...

    기존의 지진파 분류 특징은 강진에 초점이 맞추어져 있어서 미소지진과 같은 지진파는 다소 적합하지 않다. 본 연구에서는 강진과 더불어 미소지진, 인공지진, 잡음 분류에 ...

    + READ MORE
    Conventional feature of seismic classification focuses on strong seismic classification, while it is not suitable for classifying micro-seismic waves. We propose a feature extraction method based on histogram and Principal Component Analysis (PCA) in frequency-time space suitable for classifying seismic waves including strong, micro, and artificial seismic waves, as well as noise classification. The proposed method essentially employs histogram and PCA based features by concatenating the frequency and time information for binary classification which consist strong-micro-artificial/noise and micro/noise and micro/artificial seismic waves. Based on the recent earthquake data from 2017 to 2018, effectiveness of the proposed feature extraction method is demonstrated by comparing it with existing methods.


    기존의 지진파 분류 특징은 강진에 초점이 맞추어져 있어서 미소지진과 같은 지진파는 다소 적합하지 않다. 본 연구에서는 강진과 더불어 미소지진, 인공지진, 잡음 분류에 적합한 특징 추출을 위해 주파수-시간 공간 내에서 히스토그램과 주성분 기반 특징 추출방법을 제안한다. 제안된 방법은 지진파의 주파수 관련 정보와 시간 관련 정보를 결합하는 방법을 적용한 히스토그램 기반 특징 추출방법과 주성분 기반 특징 추출방법을 이용하여 지진(강진, 미소지진, 인공지진)과 잡음, 미소지진과 잡음, 미소지진과 인공지진을 이진 분류한다. 2017년~2018년 최근 국내지진 자료와 분류 성능을 토대로 제안한 특징 추출방식의 효용성을 비교 평가한다.

    - COLLAPSE
    November 2019
  • Research Article

    Multi-band multi-scale DenseNet with dilated convolution for background music separation

    배경음악 분리를 위한 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet

    Woon-Haeng Heo, Hyemi Kim, Oh-Wook Kwon

    허운행, 김혜미, 권오욱

    We propose a multi-band multi-scale DenseNet with dilated convolution that separates background music signals from broadcast content. Dilated convolution can learn the ...

    방송 콘텐츠의 혼합 신호에서 배경음악 신호를 분리하는 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet을 제안한다. 확장된 합성곱은 스펙트로그램의 다양한 스케일 문맥 ...

    + READ MORE
    We propose a multi-band multi-scale DenseNet with dilated convolution that separates background music signals from broadcast content. Dilated convolution can learn the multi-scale context information represented by spectrogram. In computer simulation experiments, the proposed architecture is shown to improve Signal to Distortion Ratio (SDR) by 0.15 dB and 0.27 dB in 0dB and –10 dB Signal to Noise Ratio (SNR) environments, respectively.


    방송 콘텐츠의 혼합 신호에서 배경음악 신호를 분리하는 확장된 합성곱을 이용한 멀티 밴드 멀티 스케일 DenseNet을 제안한다. 확장된 합성곱은 스펙트로그램의 다양한 스케일 문맥 정보를 학습하기 용이하도록 한다. 컴퓨터 모의실험 결과, 제안한 구조는 신호대잡음비(Signal to Noise Ratio, SNR) 0 dB, -10 dB의 환경에서 각각 0.15 dB, 0.27 dB의 신호대왜곡비(Signal to Distortion Ratio, SDR)를 개선하였다.

    - COLLAPSE
    November 2019
  • Research Article

    A study on recognition improvement of velopharyngeal insufficiency patient’s speech using various types of deep neural network

    심층신경망 구조에 따른 구개인두부전증 환자 음성 인식 향상 연구

    Min-seok Kim, Jae-hee Jung, Bo-kyung Jung, Ki-mu Yoon, Ara Bae, Wooil Kim

    김민석, 정재희, 정보경, 윤기무, 배아라, 김우일

    This paper proposes speech recognition systems employing Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) structures combined with Hidden Markov ...

    본 논문에서는 구개인두부전증(VeloPharyngeal Insufficiency, VPI) 환자의 음성을 효과적으로 인식하기 위해 컨볼루션 신경망 (Convolutional Neural Network, CNN), 장단기 모델(Long Short Term ...

    + READ MORE
    This paper proposes speech recognition systems employing Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) structures combined with Hidden Markov Moldel (HMM) to effectively recognize the speech of VeloPharyngeal Insufficiency (VPI) patients, and compares the recognition performance of the systems to the Gaussian Mixture Model (GMM-HMM) and fully-connected Deep Neural Network (DNN- HMM) based speech recognition systems. In this paper, the initial model is trained using normal speakers’ speech and simulated VPI speech is used for generating a prior model for speaker adaptation. For VPI speaker adaptation, selected layers are trained in the CNN-HMM based model, and dropout regulatory technique is applied in the LSTM-HMM based model, showing 3.68 % improvement in recognition accuracy. The experimental results demonstrate that the proposed LSTM-HMM-based speech recognition system is effective for VPI speech with small-sized speech data, compared to conventional GMM-HMM and fully-connected DNN-HMM system.


    본 논문에서는 구개인두부전증(VeloPharyngeal Insufficiency, VPI) 환자의 음성을 효과적으로 인식하기 위해 컨볼루션 신경망 (Convolutional Neural Network, CNN), 장단기 모델(Long Short Term Memory, LSTM) 구조 신경망을 은닉 마르코프 모델(Hidden Markov Model, HMM)과 결합한 하이브리드 구조의 음성 인식 시스템을 구축하고 모델 적응 기법을 적용하여, 기존 Gaussian Mixture Model(GMM-HMM), 완전 연결형 Deep Neural Network(DNN-HMM) 기반의 음성 인식 시스템과 성능을 비교한다. 정상인 화자가 PBW452단어를 발화한 데이터를 이용하여 초기 모델을 학습하고 정상인 화자의 VPI 모의 음성을 이용하여 화자 적응의 사전 모델을 생성한 후에 VPI 환자들의 음성으로 추가 적응 학습을 진행한다. VPI환자의 화자 적응 시에 CNN-HMM 기반 모델에서는 일부층만 적응 학습하고, LSTM-HMM 기반 모델의 경우에는 드롭 아웃 규제기법을 적용하여 성능을 관찰한 결과 기존 완전 연결형 DNN-HMM 인식기보다 3.68 % 향상된 음성 인식 성능을 나타낸다. 이러한 결과는 본 논문에서 제안하는 LSTM-HMM 기반의 하이브리드 음성 인식 기법이 많은 데이터를 확보하기 어려운 VPI 환자 음성에 대해 보다 향상된 인식률의 음성 인식 시스템을 구축하는데 효과적임을 입증한다.

    - COLLAPSE
    November 2019
  • Research Article

    Transmission line based bowed string model

    전송선로 기반 찰현 모델

    Jingeol Lee

    이진걸

    A transmission line based bowed string model is built by analogizing a vibrating string to an electrical transmission line and implementing the ...

    진동하는 현을 전기적 전송선로에 비유하고 디지털 활에 의해 주어지는 활과 현간 마찰력에 대한 계산을 회로로 구현하여 전송선로 기반 찰현 모델을 구축하였다. 제안된 ...

    + READ MORE
    A transmission line based bowed string model is built by analogizing a vibrating string to an electrical transmission line and implementing the calculation for the frictional bow-string force given by a digital bow into a circuit. The performance of the proposed model is demonstrated by showing that the velocity of the string at the bowing point from the proposed model is consistent with that from the finite difference form of the wave equation for a bowed string by the digital bow.


    진동하는 현을 전기적 전송선로에 비유하고 디지털 활에 의해 주어지는 활과 현간 마찰력에 대한 계산을 회로로 구현하여 전송선로 기반 찰현 모델을 구축하였다. 제안된 모델의 성능은 활이 현에 접촉하는 위치에서 현의 속도가 찰현에 대한 파동방정식의 차분형식(finite difference form)으로 구한 속도와 일치함을 보임으로서 증명하였다.

    - COLLAPSE
    November 2019
  • Research Article

    Audio fingerprint matching based on a power weight

    파워 가중치를 이용한 오디오 핑거프린트 정합

    Jin Soo Seo, Junghyun Kim, Hyemi Kim

    서진수, 김정현, 김혜미

    Fingerprint matching accuracy is essential in deploying a music search service. This paper deals with a method to improve fingerprint matching accuracy ...

    음악 검색을 서비스하기 위해서는 핑거프린트 정합 정확도가 중요하다. 본 논문에서는 파워 가중치를 이용하여 오디오 핑거프린트 정합 성능을 제고하고자 한다. 파워 가중치는 핑거프린트 ...

    + READ MORE
    Fingerprint matching accuracy is essential in deploying a music search service. This paper deals with a method to improve fingerprint matching accuracy by utilizing an auxiliary information which is called power weight. Power weight is an expected robustness of each hash bit. While the previous power mask binarizes the expected robustness into strong and weak bits, the proposed method utilizes a real-valued function of the expected robustness as weights for fingerprint matching. As a countermeasure to the increased storage cost, we propose a compression method for the power weight which has strong temporal correlation. Experiments on the publicly-available music datasets confirmed that the proposed power weight is effective in improving fingerprint matching performance.


    음악 검색을 서비스하기 위해서는 핑거프린트 정합 정확도가 중요하다. 본 논문에서는 파워 가중치를 이용하여 오디오 핑거프린트 정합 성능을 제고하고자 한다. 파워 가중치는 핑거프린트 비트 추출 과정에서 유실되는 정보를 이용하여 구한 핑거프린트 비트의 예측 강인도이다. 기존 파워 마스크 방법은 저장 공간을 줄이기 위해서 이진화를 통해서 강인한 비트와 연약한 비트로 나눈다. 본 논문에서는 정합 성능을 향상시키기 위해서 실수 값 형태의 파워 가중치를 사용하는 방법을 제안한다. 또한 시간축 방향으로 연관성이 강한 파워 가중치의 특성을 이용하여 압축하여 저장공간을 줄일 수 있도록 한다. 공개된 음악 데이터셋에서 실험을 수행하여, 제안된 파워 웨이트가 오디오 핑거프린트 정합 성능을 제고함을 확인하였다.

    - COLLAPSE
    November 2019