Research Article

The Journal of the Acoustical Society of Korea. 31 May 2022. 367-374
https://doi.org/10.7776/ASK.2022.41.3.367

ABSTRACT


MAIN

  • I. 서 론

  • II. 추체외로 증상 음성 코퍼스

  •   2.1 음성 수집 대상 선정

  •   2.2 발화 문장 개발

  •   2.3 녹음 과정

  •   2.4 추체외로 증상 및 항정신병 약물 복용량 계산

  • III. 연구 방법

  •   3.1 음성 특징 추출

  •   3.2 항정신병 약물 복용량에 따른 음성 벡터 분석

  • IV. 결과 및 논의

  •   4.1 추체외로 여부에 따른 상관관계

  •   4.2 음성 특징 분석

  •   4.3 다중 선형 회귀 분석

  • V. 결 론

I. 서 론

항정신병 약물은 환각, 망상, 사고장애와 같은 다양한 정신병적 증상에 효과가 있어 조현병 등 정신병의 주된 치료제로 사용되어왔다. 항정신병 약물은 뇌의 여러 도파민 경로의 도파민 D2 수용체를 비 선택적으로 차단하는데, 이는 장기적으로 도파민 신경전달의 감소로 이어져 치료 효과를 나타내는 것으로 알려져 있다.

이러한 항정신병 약물의 대표적인 부작용인 추체외로 증상(ExtraPyramidal Symptoms, EPS)은 도파민 경로 중 흑질 선조체의 도파민 D2 수용체의 차단으로 인해 나타나며, 근육의 운동 기능 이상을 초래한다.

특히 양전자 단층 촬영(Positron Emission Tomography, PET) 등으로 측정한 도파민 D2 수용체 점유율이 80 % 이상일 때 현저해지는 것으로 알려져 있으며, 항정신병 약물의 복용 용량이 높을수록 잘 발생한다. 또한, 항정신병 약물의 종류에 따라 도파민-2 수용체 결합 정도가 다르며, 추체외로 부작용을 줄이는 항콜린성 작용의 정도도 다양하여 약물마다 추체외로 증상은 조금씩 다르게 나타나며 발생 전에 예측하기 어렵다. 대표적인 추체외로 증상으로는 파킨슨 증후군과 급성 근육 긴장 이상증, 좌불 안석증, 지연성 이상 운동 등이 발생할 수 있다.

추체외로 증상은 종종 쉰 목소리, 떨림, 발음 장애 등 다양한 목소리의 변화를 동반하며, 이는 말을 할 때 움직이는 후두, 성대 등의 근육의 이상 운동으로 발생한다. 이러한 목소리의 미세한 변화는 임상적으로 관찰되는 수준의 추체외로 증상을 선행할 수 있으며, 그 발생 기전 상 파킨슨병에서의 변화와 유사할 것으로 가정할 수 있다.[1] 위의 가정을 기반으로 과거 연구에서는 이러한 음성 특징의 변화와 항정신병 약물의 상관관계를 분석한 연구가 진행되었으며, 목소리의 미세한 변화가 파킨슨병의 전조로 나타날 수 있음이 보고 된 바 있다.[2] 또한, 음성 특징 분석을 통해 파킨슨병을 진단하는 시스템에 대한 연구는 오랜 기간 동안 진행되고 있다.[3,4,5] 그러나 추체외로 증상이 이미 발현되고 난 이후의 음성 특징 변화 또는 추체외로 증상이 발전해 파킨슨병으로 나타냈을때의 진단 시스템 개발은 추체외로 증상의 조기 진단의 기능을 수행할 수 없다는 치명적인 단점을 가지고 있다. 현재까지 항정신병 약물 투약에 따른 음성 특성 변화는 전혀 연구된 바 없으며, 특히 투약 용량에 따른 상관관계 규명은 추체외로 증상의 조기 발견을 가능하게 하여 항정신병 약물 용량 조절과 부작용 방지에 기여할 수 있다.

항정신병 약물로 유발된 추체외로 증상은 환자의 주관적 보고 및 의사의 신체적 진찰을 기반으로 하여 진단하며 이상 불수의 운동 척도(Abnormal Involuntary Movement Scale, AIMS),[6] 심슨-앵거스 척도(Simpson- Angus Scale, SAS),[7] 약물 유도 좌불안석증 평가 척도(Barnes Akathisia Rating Scale, BARS)[8] 등의 표준화된 척도를 활용하여 그 양상이나 중증도를 평가할 수 있다. 목소리 변화는 추체외로 증상 발생 시 흔히 동반되는 것을 관찰할 수 있으나 추체외로 증상의 평가 시에는 현재 거의 고려되지 않으며, 진단적 활용 또한 제한적이다.

위의 한계점을 기반으로 본 연구에서는 항정신병 약물의 복용량에 따른 추체외로 증상을 기록하고, 그에 따라 연구에서 설계된 방식으로 추체외로 음성 코퍼스를 구축하는 것을 첫 번째 목표로 하며, . 구축된 음성 코퍼스를 기반으로 항정신병 약물의 복용량에 따른 음성 특징의 상관관계를 조사해보고자 한다. 항정신병 약물의 복용량과 음성 특징과의 관련성을 연구하는 첫 번째 시도인 만큼, 본 연구에서는 추출된 음성 특징 관찰을 주로 다룰 것이며, 음성 특징을 기반한 복용량의 예측 및 추체외로 증상의 예측 모델링과 같은 분류 문제는 다루지 않을 예정이다. 이를 위해 설정된 본 연구의 연구 문제는 다음과 같다.

1. 항정신병 약물의 복용량과 음성 특징과의 직접적인 상관관계를 관찰할 수 있는가?

2. 음성 특징 기반 파킨슨병 진단 분석 방법이 추체외로 증상과 항정신병 약물의 복용량의 상관관계 분석에 대입될 수 있는가?

3. 추체외로 증상을 겪은 대상과 아닌 대상과의 차이는 존재하는가?

4. 어떠한 종류의 음성 특징이 항정신병 약물 복용량과 큰 상관관계를 보이며, 이는 대상자의 발화 방법에 따라서도 차이를 보이는가?

II. 추체외로 증상 음성 코퍼스

2.1 음성 수집 대상 선정

본 연구의 음성 코퍼스 구축을 위해 음성 수집 대상자 선정을 우선 진행하였으며, 2018년 3월부터 2019년 3월까지 분당서울대학교병원 정신건강의학과 외래에서 치료를 받는 환자 중에 항정신병 약물을 투약 중이거나 혹은 투약 예정이며, 만 18세 이상 65세 미만의 성인이 수집 대상자로 선정되었다. 또한, 항정신병 치료를 받고 있는 대상자들 중 항정신병 복용량이 음성특징 변화에 미치는 영향 관찰에 집중하기 때문에 정상군의 음성데이터는 수집하지 않았다. 그러나 항정신병 약물의 투여 여부와 상관없이 음성 발화에 영향을 줄 수 있는 대상을 제외하기 위해서 조절되지 않는 신체질환이 있는 자, 국문 해독이 불가능한 자, 연구 참여에 영향을 줄 정도의 인격장애, 약물 사용 장애가 있는 자는 제외하였으며, 모집 인원 수와 인구학적 특성은 Table 1과 같다.

Table 1.

Description of EPS speech corpus.

Participants 42
Recording sessions 111
Speech chunks 1,887
Gender Male Female
17 25
Diagnoses Schizophrenia, Psychotic disorder, Bipolar disorder, Paranoid shizophrenia
Antipsychotic drugs Aripiprazole, Clozapine, Amisulpride, Paliperidone, Risperidone, Olanzapine, Haloperidol, Quetiapine
EPS Positive Negative
50 61
M (SD)
Age 32.43 (11.38)
Equivalent dose 12.83 (8.88)
SAS 0.45 (0.87)
BARS 0.44 (1.37)
AIMS 0.21 (0.59)

2.2 발화 문장 개발

본 연구에서는 음성 코퍼스를 구축하기 위한 발화 방식으로 자유 발화의 형식이 아닌 단문 위주의 낭독 발화의 형식으로 음성 코퍼스를 구축하였다. 대화형 연속 음성은 매우 자연스러운 발화로 낭독형 문장 발화 음성에 비해 잡음, 간투어와 같은 비문법적인 요소가 많고, 발음의 변이가 매우 심하다고 할 수 있다.[9] 위와 같은 변수를 통제하기 위해 모든 녹음 대상자가 동일 문장 셋을 발화해 대상 문장 별로 직접 비교가 가능하게 문장 셋을 구성하였다.

발화자가 발음하게 될 문장에는 발화자의 감정에 영향을 미칠 수 있는 단어들이 포함되지 않도록 문장을 구성하였다. 낭독 문장들을 구성할 단어들은 그것이 담고 있는 정서적 의미에 따라 발화자의 감정에 큰 영향을 미칠 수 있으며, 아울러 음성 특징 벡터 추출에도 큰 영향을 미칠 수 있다.[10] Multiple Affect Adjective Checklist-Revised(MAACL-R)[11]를 기반해 한국어 단어들이 미치는 정서적 영향을 수치화한 Positive Affect and Negative Affect Schedule(PANAS)[12]와 한국어 정서 단어[13]를 참고하여 정서적으로 영향이 없고, 중립적인 단어들을 구성하여 최종적으로 16문장의 중립 낭독 문장 셋을 구성하였으며, 이는 Table 2에 기재되어 있다.

Table 2.

Sentences of EPS speech corpus.

Sentence Contents
SA Ah
S1 The spring and autumn equinoxes have equal lengths of day and night.
S2 Seoul is the capital of South Korea.
S3 A full moon is the day when the moon is the largest.
S4 Add 14 to 8 to get 22.
S5 Dogs have a better sense of smell than humans.
S6 Sitting for long periods of time makes your back stiff.
S7 I go to church every Sunday.
S8 Seniors 65 and older can use the subway for free.
S9 Dinosaurs went extinct hundreds of thousands of years ago.
S10 The wine color of this bottle is red.
S11 If you go out on the main road, you can take a taxi.
S12 Items are placed in a basket in the locker.
S13 what to have for lunch
S14 Do you know where the car keys are?
S15 Don't forget to brush your teeth before going to bed
S16 Choose the one that best suits the text above.

또한, 간투어에 해당하는 “아” 발화를 수집해 단어 발음으로 생기는 음성적 특징과 다른 패턴의 음성 정보를 수집하고자 하였다. 최종적으로 본 연구에서 수집된 추체외로 증상 음성 코퍼스는 한 녹음 세션당 1회의 간투어 (“아”) 발화와 16개의 중립 낭독 문장 발화로 총 17개의 음성 녹음 파일로 구성되었다.

2.3 녹음 과정

음성 데이터는 분당서울대학교병원 내 밀폐된 진료실에서 지정된 녹음 장비를 이용하여 수집하였으며, 음성자료는 대상자가 복용 중인 항정신병 약물의 용량이 변경될 때마다 반복 수집하였다. 간투어에 해당하는 A 문장을 발음할 때는 최대한 일정한 음을 유지하며 감정을 담지 않은 상태로 2초 ~ 3초간 발음하도록 유도되었으며, S1 ~ 16의 발화 또한 최대한 자연스러운 상태로 발음되도록 유도되었다. 최종적으로 42명의 대상자로부터 111회의 녹음 세션을 통해 총 1,887개의 음성 청크를 수집하였다.

2.4 추체외로 증상 및 항정신병 약물 복용량 계산

본 연구의 분석 기준이 될 추체외로 증상은 녹음 세션의 시작 전 1명의 정신건강의학과 전문의가 이상 불수의 운동 척도, 심슨-앵거스 척도, 약물 유도 좌불 안석증 평가 척도를 시행하여 평가하였다. 본 연구의 주요 비교 척도가 되는 항정신병 약물용량의 경우, 여러 항정신병 약물의 용량을 모두 올란자핀등가 용량[14,15,16]으로 치환한 후, 각 녹음 세션별로 투약중인 항정신병 약물 총량을 구하였다.

III. 연구 방법

3.1 음성 특징 추출

Table 3은 본 연구의 투입된 음성 특징의 추출 방법에 대한 설명이다. 오디오 특성 추출을 기반한 음성분석은 오래전부터 감정 분석,[17,18] 우울증과 같은 기분 장애 분석,[19] 성별/나이 분석,[20] 그 외 다양한 의학적 상태 분석에 사용되어왔으며, 그중에 본 연구와 가장 큰 연관이 있는 운동 장애로 인한 질병 중 가장 대표적인 파킨슨병 분석 분야의 경우, 다양한 음성 특징 추출 벡터 방법들이 제안되어왔다.

Table 3.

List of extracted speech features and statistical methods.

Dynamics Parameters
F0 contour hop_length_seconds = 0.01,
method = ‘swipe’
F0 statistics Mean, standard deviation of F0 contour
Log-energy -
Sliding window log-energy frame_length_seconds = 0.04, hop_length_seconds = 0.01
Formants F1, F2, F3, F4
Loudness -
Energy (RMS) frame_length_seconds = 0.04, hop_length_seconds = 0.01
Mel-frequency cepstral coefficients (MFCCs) n_mfcc = 13, n_fft_seconds = 0.04, hop_length_seconds = 0.01
Jitters p_floor = 0.0001, p_ceil = 0.02, max_p_factor = 1.3
Shimmers max_a_factor = 1.6, p_floor = 0.0001, p_ceil = 0.02, max_p_factor = 1.3
Harmonics-to-noise ratio -
Pitch period entropy -
Detrended fluctuation analysis window_lengths =
[64, 128, 256, 512, 1024, 2048, 4096]
Statsitcal Methods
-Mean, Standard deviation, Skewness, Kurtosis
-First derivative mean, First derivative standard deviation, First derivative skewness, First derivative kurtosis
-Second derivative mean, Second derivative standard deviation, Second derivative skewness, Second derivative kurtosis
-First quartile, Second quartile, Third quartile
-Q2-Q1 range, Q3-Q2 range, Q3-Q1 range
-1st percentile, 99th percentile, 99th-1st percentile range
-Linear regression offset, Linear regression slope, Linear regression MSE

본 연구에는 Python 기반의 오디오 특성 추출 패키지인 Surfboard[21]가 사용되었으며, 이는 기존의 널리 사용되어왔던 Opensmile,[22] Praat[23] 기반의 방법에 비해 파킨슨병 분류 모델 형성에 더 유의미하다고 제안되었다.[21] 13가지 종류의 음성 특징인 F0, Formant, MFCCs, Jitter, Shimmer, Harmonics to Noise Ratio(HNR), Pitch Period Entropy(PPE), Detrended Fluctuation Analysis (DFA)와 에너지(RMS, Log-energy, Sliding window log- energy, Loudness) 관련한 벡터 세트들로 구성되었으며, 이에 대한 자세한 도출 방식은 Lenain et al.[21]을 통해 살펴볼 수 있다. 각 오디오 특성마다 특정 window와 hop size에 기반해 프레임별로 특징 벡터들을 추출하고, 그것을 24가지 종류의 통계 방법으로 합치는 방식으로 최종적으로 405차원의 특징 벡터가 추출되었다.

3.2 항정신병 약물 복용량에 따른 음성 벡터 분석

본 연구에서는 치환된 항정신병 약물 복용량의 증가에 따른 음성 특징 벡터의 변화량을 살펴보기 위해, 각 음성 특징 벡터들과 약물 복용량의 피어슨 상관관계 분석을 기본 분석 방법으로 하였다.

추체외로 증상 여부(EPS = 1 or 0)와 발화 문장의 종류(A, S1 ~ S16) 그리고 약물 치료와 연관된 경직과 경련을 측정하는데 유용한 검사인 심슨-앵거스 척도(SAS)의 정도에 따라 음성 특징과 약물 복용량 간의 상관관계가 얼마인지에 대해 분석을 진행하였다. 또한, 각 음성 특징 벡터들의 상관관계를 확인한 후에 다중 선형 회귀 분석을 통해 전체 음성 특징 벡터의 유의미성을 분석하였다.

IV. 결과 및 논의

4.1 추체외로 여부에 따른 상관관계

Table 4는 문장 종류(A, S1 ~ 16, A + S1 ~ S16), 추체외로 증상, SAS 척도에 따라 측정된 피어슨 상관 계수 중 가장 높은 절댓값을 기록한 20개의 음성 특징 차원 벡터를 구하고, 그것의 평균과 표준 편차를 나타내었다. 추체외로 증상을 보이는 그룹(EPS = 1)에서 문장 종류와 상관없이 0.5를 상회하는 높은 피어슨 상관 계수를 보여 뚜렷한 선형관계를 띄는 것을 확인할 수 있었다. 또한, 낭독 문장(S1 ~ S16)에서 보다 높은 상관 계수를 나타내는 것을 살펴볼 수 있었다. 추체외로 증상을 보이지 않는 그룹(EPS = 0)의 경우, 0.2 ~ 0.3 사이의 상관 계수를 보여 약한 선형관계를 나타내었고, 낭독 문장보다 간투어 발화(A)에서 더 높은 선형관계를 나타내었다. 이는 추체외로 증상이 발현되기 이전의 상태에서는 낭독 문장 발화보다는 간투어 발화가 음성 특징 차이를 만들어내는데 더 적합한 문장 형태라고 볼 수 있다.

심슨-앵거스 척도의 경우, 앞서 추체외로 증상 여부에 따라 발견할 수 있었던 비슷한 경향의 결과를 살펴볼 수 있었다. SAS가 0 이상인 그룹은 추체외로가 발현된 그룹과 매우 비슷한 상관 계수 결과를 보였으며, SAS가 0인 그룹은 추체외로 증상이 발현되지 않은 그룹과 매우 비슷한 결과를 보였다. SAS의 경우 현재 추체외로를 최종적으로 진단하는 많은 척도 중 하나로 사용되고 있으며, 환자의 신체적 불능도를 평가하는 척도이다. Table 4에 따르면, SAS에 따른 상관관계 계수가 EPS 유/무 집단과 매우 비슷한 경향을 보이는 것을 확인할 수 있었으며, 이러한 정성적 신체적 평가지표가 음성 특징 변화와 크게 상관있다고 직접적으로 관찰할 수 있었다.

Table 4.

The statistical results of pearson correlation coefficient r (Top 20 speech features).

A S1~S16 A + S1~S16
M (SD) M (SD) M (SD)
Total 0.322 (0.051) 0.353 (0.048) 0.325 (0.049)
EPS = 0 0.291 (0.024) 0.280 (0.019) 0.244 (0.014)
EPS = 1 0.473 (0.061) 0.531 (0.053) 0.502 (0.049)
SAS > 0 0.501 (0.042) 0.520 (0.055) 0.498 (0.051)
SAS = 0 0.283 (0.023) 0.301 (0.033) 0.263 (0.025)

4.2 음성 특징 분석

Table 5는 모든 문장 그룹(A + S1 ~ S16)의 피어슨 상관관계 분석을 통해서 선별된 20개의 대표 음성 특징들을 나타내었다. 추체외로가 발현되지 않은 그룹(EPS = 0)에서는 MFCCs가 판단에 매우 중요한 지표로 선별되었다. 그러나 추체외로가 발현된 그룹(EPS = 1)에서는 에너지와 관련한 음성 특징들이 높은 상관 계수를 보였다. 이는 추체외로의 발현이 움직이는 후두, 성대 등의 근육의 이상으로 발현되는 만큼 발화의 운동적 기능과 밀접하게 연관된 에너지 관련 음성 특징의 변화로 이어진다는 것을 확인할 수 있었다. 이를 통해 추체외로 발현 전에는 MFCCs와 같은 주파수 관련 음성 특징들이 복용량 변화에 민감하게 반응하다가 추체외로 발현 후 음성 발화 기관들에 영향을 미치기 시작하면서 에너지 관련 음성 특징들과 높은 상관관계를 가진다고 해석할 수 있다. Fig. 1을 통해 각 추체외로 발현 그룹에서 가장 높은 상관 계수를 가진 음성 특징들을 확인할 수 있으며, Energy의 Q3와 Q1의 차이를 나타내는 음성 특징의 경우, r = 0.586의 피어슨 상관 계수를 나타내었다.

Table 5.

Selected speech features.

Selected features
EPS = 0 - Second quartile of energy
- Q3-Q2 range of sliding window log-energy
- (Second derivative standard deviation 2, First quartile 2/3/6/11, Second quartile 2/3/6, Third quartile 2/3/6,
Mean 2/3/6, 99th percentile 2/3/6, Linear regression offset 6) of MFCCs
EPS = 1 - Log-energy
- (Standard deviation, 99th percentile, Second quartile, Third quartile)of Sliding window log-energy
- Detrended Fluctuation Analysis (DFA)
- Loudness
(Mean, Standard deviation, First derivative standard deviation,Second derivative standard deviation,
Second quartile, Third quartile, Q2-Q1 range, Q3-Q2 range, Q3-Q1 range, 99th percentile, 99th-1st percentile range,
Linear regression offset, Linear regression MSE) of Energy

https://static.apub.kr/journalsite/sites/ask/2022-041-03/N0660410313/images/ASK_41_03_13_F1.jpg
Fig. 1.

(Color available online) The strongest correlated speech features of each EPS group.

4.3 다중 선형 회귀 분석

Fig. 2를 통해 모든 문장 그룹을 대상으로 한 다중 선형 회귀 분석을 통해 선형 회귀 모델의 상관 계수를 나타내었다. 20 %의 테스트 그룹을 통해 각 음성 특징별 상관 계수를 구하고, 이를 기반으로 높은 상관 계수를 가진 음성 특징 순서로 하나씩 더해나가 최종적인 다중 선형 회귀 모델의 상관 계수 추이를 관찰해보았다. 모든 문장 그룹을 대상으로 모든 음성 특징을 기반으로 추체외로 증상을 보이는 그룹(EPS = 1)의 상관 계수는 0.938로 매우 높은 상관 계수를 보여주었고, 추체외로 증상을 보이지 않는 그룹(EPS = 0) 또한 0.848의 높은 상관 계수를 보여주었다. 앞선 Table 4와 같이 Top 20개의 높은 상관 계수를 가지는 음성 특징 벡터를 뽑아 다중 선형 회귀 분석을 진행했을 경우, EPS = 1인 그룹은 0.528의 상관 계수를 보여주었고, EPS = 0인 그룹은 0.245의 상관 계수를 보여주었다. 이를 Top 100개로 늘렸을 경우에는 EPS = 1인 그룹에서는 0.798, EPS = 0인 그룹에서는 0.614로 가파르게 상승하는 것을 관찰할 수 있었다.

https://static.apub.kr/journalsite/sites/ask/2022-041-03/N0660410313/images/ASK_41_03_13_F2.jpg
Fig. 2.

(Color available online) Multivariate linear regression coefficients of each EPS group.

V. 결 론

본 연구에서는 항정신병 약물의 복용량에 따른 추체외로 증상 집단과 비 증상 집단의 음성 코퍼스를 구축하고, 항정신병 약물의 복용량에 따른 음성 특징과의 상관관계를 분석하였다.

추체외로 증상을 보이는 그룹의 항정신병 약물의 복용량에 따른 음성 특징 상관 계수가 그렇지 않은 그룹보다 높은 상관관계를 보였으며, 특히 추체외로 증상 발현 후에는 에너지 관련 음성 특징들이 높은 상관관계를 가지는 것으로 분석되었으며, 발화 문장의 종류에 따라서도 음성 특징 상관관계의 차이를 보였다. 다중 선형 회귀 분석을 통해, 모델의 높은 상관 계수를 두 그룹 모두에게서 발견할 수 있었으며, 특히 추체외로가 발현되지 않은 그룹(EPS = 0)의 음성 특징과의 상관관계 발견은 신체적인 불능이 발현되어 직접적으로 음성 특징에 변화를 가져온다고 강하게 여겨지는 추체외로 증상이 발현되기 전에 항정신병 약물의 점진적인 증가가 음성 특징에 영향을 미친다는 것을 확인할 수 있는 흥미로운 결과라고 볼 수 있으며, 이를 통해 추체외로 증상의 조기 발견의 가능성을 기대해볼 수 있었다.

Acknowledgements

본 논문은 서울대학교의 교내 융복합 연구과제인 “화자의 음성분석과 기계학습을 이용한 항정신성 약물의 효과성, 적정 복용량 및 부작용 예측 알고리즘 개발”의 연구 결과 중 일부이다.

References

1
S. J. Cho, <italic>Korean Neuropsychiatric Association, Textbook of Neuropsychiatry (in Korean), 3<sup>rd</italic></sup><italic> ed </italic> (iMiS Company, Seoul, 2017), pp. 795-806.
2
P. Sinha, V. P. Vandana, N. V Lewis, M. Jayaram, and P. Enderby, "Predictors of effect of atypical antipsychotics on speech," Indian J Psychol Med. 37, 429-433 (2015). 10.4103/0253-7176.16858626702176PMC4676210
3
L. Jeancolas, D. Petrovska-Delacrétaz, G. Mangone, B. -E. Benkelfat, J.-C. Corvol, M. Vidailhet, S. Lehéricy, and H. Benali, "X-vectors: New quantitative biomarkers for early Parkinson's disease detection from speech," Front. Neuroinform, 15, 4 (2021). 10.3389/fninf.2021.57836933679361PMC7935511
4
B. K. Varghese, G. B. D. Amali, and U. KS. Devi, "Prediction of Parkinson's disease using machine learning techniques on speech dataset," Research J. Pharm. and Tech. 12, 644-648 (2019). 10.5958/0974-360X.2019.00114.8
5
M. Wodzinski, A. Skalski, D. Hemmerling, J. R. Orozco- Arroyave, and E. Nöth, "Deep learning approach to Parkinson's disease detection using voice recordings and convolutional neural network dedicated to image classification," Proc. IEEE EMBC, 717-720 (2019). 10.1109/EMBC.2019.885697231945997
6
G. M. Gharabawi, C. A. Bossie, R. A. Lasser, I. Turkoz, S. Rodriguez, and G. Chouinard, "Abnormal Involuntary Movement Scale (AIMS) and Extrapyramidal Symptom Rating Scale (ESRS): cross-scale comparison in assessing tardive dyskinesia," Schizophrenia Res. 77, 119-128 (2005). 10.1016/j.schres.2005.03.00815913963
7
S. Janno, M. M. Holi, K. Tuisku, and K. Wahlbeck, "Validity of Simpson-Angus Scale (SAS) in a naturalistic schizophrenia population," BMC Neurol. 5, 1-6 (2005). 10.1186/1471-2377-5-515774006PMC555761
8
S. Janno, M. M. Holi, K. Tuisku, and K. Wahlbeck, "Actometry and barnes akathisia rating scale in neuroleptic-induced akathisia," Eur Neuropsychopharmacol. 15, 39-41 (2005). 10.1016/j.euroneuro.2004.05.00315572272
9
Y.-H. Park and M. Chung, "Analysis of Korean spontaneous speech characteristics for spoken dialogue recognition" (in Korean), J. Acoust. Soc. Kr. 21, 330- 338 (2002).
10
S. Lee, S. W Suh, T. Kim ,K. Kim, K. H. Lee. J. R. Lee, G.. Han, J. W. Hong, J. W. Han, K. Lee, and K. W. Kim, "Screening major depressive disorder using vocal acoustic features in the elderly by sex," J. Affective Disorders, 291, 15-23 (2021). 10.1016/j.jad.2021.04.09834022551
11
B. Lubin, R. V. Whitlock, D. Reddy, and S. Petren, "A comparison of the short and long forms of the Multiple Affect Adjective Check List-Revised (MAACL‐R)," J. Clinical Psychology, 57, 411-416 (2001). 10.1002/jclp.102311241371
12
H.-h. Lee, E.-J. Kim, and M.-k. Lee, "A validation study of Korea positive and negative affect schedule: The PANAS scales" (in Korean), Kor J Clin Psychol. 22, 935-946 (2003).
13
B. R, Kim, <italic>Compilation of the Korean affective word list</italic>, (Unpublished master's thesis, University of Yonsei, 2010).
14
T. Inada and A. Inagaki, "Psychotropic dose equivalence in Japan," Psychiatry Clin Neurosci. 69, 440-447 (2015). 10.1111/pcn.1227525601291
15
S. Leucht, M. Samara, S. Heres, and J. M. Davis, "Dose equivalents for antipsychotic drugs: the DDD method," Schizophrenia Bulletin, 42(suppl.1), S90-S94 (2016). 10.1093/schbul/sbv16727460622PMC4960429
16
P. H. Rothe, S. Heres, and S. Leucht, "Dose equivalents for second generation long-acting injectable antipsychotics: The minimum effective dose method," Schizophr Res. 193, 23-28 (2018). 10.1016/j.schres.2017.07.03328735640
17
S. G. Koolagudi and K. S. Rao, "Emotion recognition from speech: a review," Int. J. Speech Technology, 15, 99-117 (2012). 10.1007/s10772-011-9125-1
18
H. Meng, T. Yan, F. Yuan, and H. Wei, "Speech emotion recognition from 3D log-mel spectrograms with deep learning network," IEEE Access, 7, 125868- 125881 (2019). 10.1109/ACCESS.2019.2938007
19
L. He and C. Cao, "Automated depression analysis using convolutional neural networks from speech," J. Biomedical Informatics, 83, 103-111 (2018). 10.1016/j.jbi.2018.05.00729852317
20
H. A. Sánchez-Hevia, R. Gil-Pita, M. Utrilla-Manso, and M. Rosa-Zurera, "Convolutional-recurrent neural network for age and gender prediction from speech," Proc. IEEE SPSympo, 242-245 (2019). 10.1109/SPS.2019.8881961
21
L. Raphael, J.Weston, A. Shivkumar, and E. Fristed, "Surfboard: Audio feature extraction for modern machine learning," arXiv preprint arXiv:2005.08848 (2020).
22
F. Eyben, M. Wöllmer, and B. Schuller, "Opensmile: the munich versatile and fast open-source audio feature extractor," Proc. the 18th ACM int. conf. on Multimedia, 1459-1462 (2010). 10.1145/1873951.1874246
23
P. Boersma and V. V. Heuven, "Speak and unSpeak with PRAAT," Glot International, 5, 341-347 (2001).
페이지 상단으로 이동하기