Research Article

The Journal of the Acoustical Society of Korea. 31 July 2023. 298-303
https://doi.org/10.7776/ASK.2023.42.4.298

ABSTRACT


MAIN

  • I. 서 론

  • II. 연구방법

  •   2.1 연구대상

  •   2.2 음성 측정

  •   2.3 통계분석

  • III. 연구결과

  •   3.1 대상자 전체의 모음연장발성과 유성음문장의 음향지표 평균

  •   3.2 대상자 전체의 모음연장발성과 유성음 문장의 음향학적 측정치 상관분석

  •   3.3 질환 특성(편측, 양측)에 따른 모음연장발성과 유성음 문장의 음향학적 측정치 상관분석

  • IV. 결 론

I. 서 론

언어재활분야에서 음향학적 분석은 침습적이지 않고 저비용으로 쉽게 수량화된 결과를 제시한다는 측면에서 장애음성의 특성을 파악하고, 음성언어치료 전후의 치료결과를 평가하는데 유용하게 사용되고 있다.[1,2,3,4,5] 주로 사용되는 음향학적 분석법은 5 s 내외의 모음연장과제를 이용한 변동률 기반 분석으로 검사의 편의성이 좋다는 장점이 있으나, 성대진동의 주기성인 저하된 심도의 장애음성 분석이 불가능하다는 제한점을 가진다.[6] 또한, 모음만을 이용하기 때문에 일상에서 환자가 경험하는 음성장애가 충분히 반영되지 못하며 장애음성을 분석하는 것에 있어 문장검사보다는 민감도가 떨어진다.[7] 이같은 모음연장발성의 제한을 보완하고 음성평가의 신뢰도를 높이기 위해, 최근에는 연속발화과제를 이용한 캡스트럼 분석이 장애음성의 음향학적 분석에 적용되고 있다. 캡스트럼 분석은 음성 신호의 파형을 푸리에 변환한 스펙트럼 측정치를 로그 변환한 후, 이를 다시 푸리에 역변환한 것이다.[8] 캡스트럼 분석은 음성신호 내에서 변동률을 측정하기 위한 기본 주파수 추적에 의존하지 않아, 음성파형의 주기성이 전제되지 않는 무성음이 포함 되어 있는 경우와 심한 음성장애의 경우에도 분석이 가능하다.[9,10,11,12]

변동률 기반의 음향학적 분석은 KayPENTAX의 Multi-Dimensional Voice Program(MDVP)를, 캡스트럼 분석에는 KayPENTAX의 Analysis of Dysphonia in Speech and Voice(ADSV)가 주로 사용된다. MDVP를 통해 측정할 수 있는 변동률 기반의 주된 음향학적 지표는 주파수 관련 변수인 jitter percent(jitter, %), 음성강도 관련 변수인 shimmer percent(shimmer, %), 잡음 관련 변수인 Noise to Harmonic Ratio(NHR)이다.[13] 캡스트럼 분석의 대표적 측정치에는 ‘캡스트럼 피크 현저성(Cepstral Peak Prominence, CPP)과 저주파수대고주파수 스펙트럼비(Low/High spectral ratio, L/H ratio)가 있다. CPP는 전체 캡스트럼의 회귀선과 캡스트럼정점(cepstral peak) 간 강도의 차이를 의미하는 것으로, 배음의 구조가 명확한 정상음성에서 높은 값이 나타는 반면 음성장애로 음질 문제가 있는 경우에는 낮은 값을 보인다.[7,10] L/H ratio는 4 kHz 주파수 영역을 기준으로 위아래의 평균 에너지의 비율을 의미하는데, 정상 음성의 경우 고주파수에 비해 저주파수 영역 에너지가 많기 때문에 기식성(breathiness)이 높은 병리적 음성의 경우에서는 낮은 값을 보인다.[14] 한편, praat과 같은 프리웨어를 통해 다양한 음향학적 분석이 가능하지만 영리목적의 경우 프리웨어를 개발자의 허락 없이 사용하는 것은 윤리적 문제뿐만 아니라 저작권을 침해하는 행위가 될 수 있다. 장애음성에 대한 언어재활이 주로 영리목적으로 운영되는 병원에서 이루어진다는 점과 이러한 이유로 임상현장에서 praat이 사용되지 않는다는 점을 고려할 때, praat를 이용한 연구는 임상적 유용성을 가지기 어렵다.

현재 캡스트럼 분석을 위한 연속발화과제에는 7문장으로 구성된 ‘가을’문단과 9문장으로 구성된 ‘산책’문단이 주로 사용된다. 두 표준 문단은, 한국어의 음소균형을 고려하여 제작되었으나 환자에 따라 읽기가 불가능하거나 모든 문장을 읽는 경우 소요되는 시간이 많다는 제한점이 있다. 또한, 각각의 문장이 평균발화 길이가 다르며 무성자음이 섞여 있다는 특성이 있다. 이에 두 표준문단 내 일부만을 사용하는 경우가 있으나 임상가마다 사용하는 문장이 다르며, 위치에 따라 서로 다른 결과를 나타내 일관적인 결과를 도출하는데 어렵다는 점에서 임상적 효율성이 떨어진다.[15,16,17] 또한, 두 문단은 신경언어장애 환자의 구어를 평가하기 위한 것으로, 개발 시 성대의 진동이나 음향학적 분석이 고려되지 않았다.

최근 ‘세종’구어 말뭉치와 한국 성인 자발화를 기초로 한 표준문장이 개발되었다. 표준문장은 모든 한국어 단모음이 포함된 문장, ‘ㅎ’으로 시작되는 문장, 강한 성대접촉을 유도하는 문장, 비음이 포함된 문장, 무성파열음이 포함된 문장, 유성음으로만 이루어진 문장으로 구성되어 있다. 이 중 유성음으로만 이루어진 문장은 유성자음과 모음으로 구성되어 다른 문장과 달리 음성의 음질을 결정 짓는 성대의 주기성이 반영된다. 또한, 두 표준문단과 달리 문장의 길이가 짧아 분석이 용이하고 구간에 따른 결과 차이가 없어 기존의 연속발화과제의 대안이 될수 있다.[18] 그러나, 장애 음성을 대상으로 한 연구가 없어 실제 임상에 이를 적용하기 위한 학문적 임상적 근거가 부족한 실정이다. 따라서, 본 연구는 음성장애 환자를 대상으로 선행연구와 동일한 방법으로 모음연장발성에는 MDVP를, 연속발화 과제에는 ADSV를 이용하여 모음연장발성과제의 음향학적 측정치인 jitter, shimmer, NHR과 연속발화과제인 CPP, L/H ratio의 상관을 알아보고자 한다.[12,19,20] 본 연구에서 연속발화과제는 자발화나 산책문단, 가을문단을 사용한 선행연구와 달리 유성음으로만 이루어진 ‘5월 5일은 어린이 날이예요’를 이용하고자 한다. 이를 통해, 새로운 연속발화과제로서 유성음 문장이 일상생활에서의 음성특징을 반영하지 못하는 모음연장과제의 한계와 무성음이 섞여 성대진동의 주기성이 충분히 반영되지 못하는 기존의 연속발화과제의 제한을 보완하는 임상적으로 유용한 연속발화과제가 될 수 있는지 알아보고자 한다.

II. 연구방법

2.1 연구대상

본 연구는 음성문제를 호소로 대학병원을 내원하여 이비인후과 전문의로부터 성대결절, 성대폴립, 성대낭종 등과 같은 양성성대점막 질환으로 진단 받은 환자 65명을 대상으로 하였다. 모든 대상자는 음성과 관련이 있는 호흡기 질환이나 역류성 질환, 신경학적 질환이나 감각장애가 있는 경우, 또한 갑상선을 포함한 후두에 영향을 줄 수 있는 외과적 수술이나 두경부 수술력이 있는 경우, 또한, 방사선 치료력이 있는 경우나 갑상선에 문제가 있는 경우는 연구대상에서 제외하였다. 본 연구 대상자 중 성대결절로 진단 받은 환자는 15명(남2, 여13)으로 평균연령은 45.67(13.18)세, 성대폴립은 17명(남6, 여11)으로 평균연령은 47.23(12.84)세였다. 성대결절이 동반된 성대폴립은 19명(남 9, 여 10)으로 평균연령은 47.48(12.16)세였고, 성대낭종은 14명(남8, 여6)으로 평균연령은 49.25(14.01)세였다(Table 1).

Table 1.

Participants’ demographic information.

Diagnosis N Age Gender (male : female)
Bilateral group 34 46.68 (12.45) 11:23
Vocal nodules 15 45.67 (13.18) 2:13
Vocal polyp with nodule 19 47.48 (12.16) 9:10
Unilateral group 31 48.14 (13.18) 14:17
Vocal polyp 17 47.23 (12.84) 6:11
Vocal cyst 14 49.25 (14.01) 8:6
Total 65 47.38 (12.73) 25:40

2.2 음성 측정

연구 대상자의 음성측정은 소음이 50 dB이하로 통제되는 음성언어치료실 내에서 실시되었다. 먼저, 입과 마이크의 거리를 15 cm 정도의 띄우고, 편안한 음도와 강도에서 모음 /a/연장발성발성과 유성음 문장을 산출하였다. 연구자는 선행연구와 동일한 방법으로, 모음연장발성의 경우 PENTAX Medical의 Computerized Speech Lab(CSL, Model 4500B)의 MDVP를 이용하여 수집된 환자의 발성 중 안정구간이라고 판단되는 1.5 s를 선택하여 jitter, shimmer, NHR을 분석하였다. 유성음 문장의 분석은 PENTAX Medical의 Computerized Speech Lab(CSL, Model 4500B)의 ADSV를 이용하였다. 캡스트럼 피크 현저성을 나타내는 CPP, 저주파와 고주파의 비율 차이를 나타내는 L/H ratio 분석을 위해 유성음 발화의 모든 구간은 분석하되, 묵음구간이 200 ms 이상인 쉼 구간은 제외하였다. 실험을 위한 유성음 문장은 선행연구[18]에서 음성의 음질을 결정 짓는 성대의 주기성이 잘 반영된다고 제시하고 있는 유성음 문장인 ‘오월오일은 어린이날이예요’를 사용하였다.

2.3 통계분석

Statistics Package for the Social Science(SPSS, version 21.0; IBM Corp., Armonk, NY, USA)를 이용하여 모음연장발성의 음향학적 측정치 jitter, shimmer, NHR과 유성음 문장의 음향학적 측정치 CPP, L/H rtion의 상관분석을 실시하였다. 이를 위해 95 %의 통계적 유의수준에서 Pearson Correlation Coefficient(Pearson)적률상관계수를 실시하였다. 또한, 성대 종물 특성(편측, 양측)에 따라 분석을 실시하였다.

III. 연구결과

3.1 대상자 전체의 모음연장발성과 유성음문장의 음향지표 평균

대상자들의 모음연장발성과 유성음 문장의 음향학적 측정치의 평균을 성대 종물 특성(편측, 양측)에 따라 나타내었다. 편측 집단의 경우 모음연장발성 과제의 음향지표인 jitter의 평균값이 2.64(3.01) %, shimmer는 6.36(6.67) %, NHR은 0.16(0.09)로 나타났으며, 유성음 문장의 음향지표인 CPP의 평균값이 6.86(1.83) dB, L/H ratio 33.28(3.91) dB로 나타났다. 양측 집단의 경우는 모음연장발성 과제의 음향지표인 jitter의 평균값이 2.83(3.10) %, shimmer는 6.12(5.74) %, NHR은 0.18(0.15)로 나타났으며, 유성음 문장의 음향지표인 CPP의 평균값이 6.41(2.21) dB, L/H ratio 34.35 (3.78) dB로 나타났다(Table 2).

Table 2.

Voice parameter value of vowel sustained and voiced sentence in bilateral and unilateral group.

Unilateral group
(n = 31)
Bilateral group
(n = 34)
Mean (SD) Mean (SD)
Vowel sustained
phonation
jitter 2.64 (3.01) % 2.83 (3.10) %
shimmer 6.36 (6.67) % 6.12 (5.74) %
NHR 0.16 (0.09) 0.18 (0.15) %
All voiced
sentence
CPP 6.86 (1.83) dB 6.41 (2.21) dB
L/H ratio 33.28 (3.91) dB 34.35 (3.78) dB

3.2 대상자 전체의 모음연장발성과 유성음 문장의 음향학적 측정치 상관분석

전체 대상자의 모음연장발성과 유성음 문장의 음향학적 측정치에 대한 상관분석을 실시한 결과, 유성음 문장의 음향학적 측정치인 CPP와 모음연장발성의 측정치인 jitter(r = -.624, p = .000), shimmer(r = -.530, p = .000), NHR(r = -.469, p = .000)간에 유의한 부적 상관이 나타났다. 또한, L/H ratio와 jitter(r = -.301, p = .015), shimmer(r = -.342, p = .005)간에도 유의한 부적 상관이 나타났으며, NHR(r = -.166 p = .188)과는 유의한 상관이 나타나지 않았다(Table 3).

Table 3.

The correlation coefficient between the voice parameter value of vowel sustained and voiced sentence in total group.

jitter shimmer NHR
CPP -.624*** -.530*** -.469***
L/H ratio -.301* -.342** -.166

*p < .05, **p < .01, ***p < .000

3.3 질환 특성(편측, 양측)에 따른 모음연장발성과 유성음 문장의 음향학적 측정치 상관분석

편측 그룹의 모음연장발성과 유성음 문장의 음향학적 측정치에 대한 상관분석을 실시한 결과, 유성음 문장의 음향학적 측정치인 CPP와 모음연장발성의 측정치인 jitter(r = -.675, p = .000), shimmer(r = -.508, p = .004), NHR(r = -.681, p = .000)간에 유의한 부적 상관이 나타났다. 반면, L/H ratio와 jitter(r = -.303, p = .249), shimmer(r = -.329, p = .074), NHR(r = -.283 p = .403)간에는 유의한 상관이 나타나지 않았다(Table 4).

Table 4.

The correlation coefficient between the voice parameter value of vowel sustained and voiced sentence in unilateral group.

jitter shimmer NHR
CPP -.675** -.508** -.681**
L/H ratio -.214 -.326 -.156

**p < .01, ***p < .000

양측 그룹의 모음연장발성과 유성음 문장의 음향학적 측정치에 대한 상관분석을 실시한 결과, 유성음 문장의 음향학적 측정치인 CPP와 모음연장발성의 측정치인 jitter(r = -.591, p = .000), shimmer(r = -.574 p = .000), NHR(r = -.367, p = .003)간에 유의한 부적 상관이 나타났다. 또한, L/H ratio와 jitter(r = -.395, p = .021), shimmer(r = -.362, p = .035)간에도 유의한 상관이 나타났으며, NHR(r = -.201, p = .256)과는 유의한 상관이 나타나지 않았다(Table 5).

Table 5.

The correlation coefficient between the voice parameter value of vowel sustained and voiced sentence in bilateral group.

jitter shimmer NHR
CPP -.591*** -.574*** -.367*
L/H ratio -.395* -.362* -.201

*p < .05, **p < .01

IV. 결 론

본 연구는 음성장애 평가 중 음향학적 분석의 제한점이라고 할 수 있는 ‘연속발화 과제의 변동률 기반 분석 불가능’, ‘분석구간과 길이에 따른 결과차이’, ‘검사 소요시간’과 같은 기존의 연속발화 과제의 제한점에 대한 대안으로 유성음 문장의 캡스트럼 측정치의 임상적 유용성을 알아보고자 하였다. 그 결과, 대상자 전체의 유성음 문장의 음향학적 측정치인 CPP와 모음연장발성의 음향학적 측정치인 jitter, shimmer, NHR 사이에 부적 상관이 나타났으며, L/H ratio도 CPP와 마찬가지로 jitter, shimmer 간에 부적 상관을 보였다. 상관의 크기는 CPP와 jitter는 다소 높은 상관을 shimmer, NHR는 중간 상관을, L/H ratio와 jitter, shimmer는 낮은 상관크기를 보였다. 또한, 종물의 특성에 따라 살펴보았을 때 편측 그룹의 경우 CPP와 jitter, shimmer, NHR 사이에 부적 상관이 나타났으며 상관크기는 jitter, NHR은 다소 높은 상관을, shimmer는 중간 상관크기를 보였다. 양측 그룹의 경우 CPP와 jitter, shimmer, NHR 사이에 부적상관이 나타났다. 상관크기는 CPP와 jitter와 shimmer는 중간 상관을, NHR과는 다소 낮은 상관을 나타내었다. L/H ratio에서 jitter, shimmer와 부적 상관을 보였으며, 낮은 상관크기를 나타내었다. 이는 음성문제가 심할수록 jitter, shimmer, NHR이 높아지는 반면 CPP와 L/H ratio는 낮아짐을 의미하는 것으로, 문단읽기와 같은 연속발화과제에서 CPP와 jitter, shimmer 사이에 부적 상관성이 있다고 보고한 선행연구의 결과와 동일한 것이다.[12,20,21] 또한, 종물 특성에 따라 살펴보았을 때, 양측 집단은 편측 집단에 비해 CPP 값이 더 낮았는데, 이러한 차이는 양측 집단이 편측 집단에 비해 발성 시 성문폐쇄가 더 불완전한 특성이 반영된 결과로 CPP가 불완전한 성문폐쇄로 인한 장애음성의 기식성을 반영하는 신뢰할 수 있는 측정치임을 시사한다. 본 연구에서 사용한 유성음 문장의 정상 음성 CPP 평균값은 성별에 따라 차이가 있으나, 7.65 dB이상이다.[18] 본 연구 대상자의 CPP 측정치는 6.63으로 본 연구가 장애음성을 대상으로 한 만큼 CPP 측정치가 낮게 나타났으며 이는 타당한 결과라 볼 수 있다.

본 연구의 결과를 종합해 볼 때, 유성음 문장의 음향학적 측정치인 CPP와 모음연장발성의 음향학적 측정치인 jitter, shimmer, NHR 사이에 유의한 부적상관이 나타났다. 이와 같은 결과는 유성음 문장이 모음연장발성의 음향학적 측정치처럼 성대의 진동에 관한 음향학적 정보를 충분히 반영함을 의미하는 것이다. 또한 유성음 문장은 기존의 가을문단이나 산책문단에 비해 발화의 길이가 짧아 임상적 효율성이 크므로, 유성음 문장의 캡스트럼 분석인 CPP는 연속발화로 장애음성의 음향학적 특성을 분석하는 효율적인 방법이라고 할 수 있겠다. L/H ratio는 여성의 기식적인 음질특성으로 인해 성별에 따른 측정치에 차이가 있을 수 있다.[11,20] 본 연구에서는 이에 대한 통제를 하지 못하였다. 추후 연구에서는 성별을 통제한 연구가 필요할 것이다. 또한, CPP와 L/H ratio 뿐만 아니라 smoothed Cepstral Peak Prominence(CPPs), σCPP, SR, σSR(L/H 비율)등 다양한 캡스트럼 측정치를 사용한 연구가 필요하겠다.

Acknowledgements

본 논문은 2022년 건양대학교 학술연구비 지원에 의하여 이루어진 것임.

References

1
V. Parsa and D. G. Jamieson, "Acoustic discrimination of pathological voice: Sustained vowels versus continuous speech," J. Speech, Lang. Hear. Res. 44, 327-339 (2001). 10.1044/1092-4388(2001/027)11324655
2
S. N. Awan, N. Roy, M. E. Jette, G. S. Meltzner, and R. E. Hillman, "Quantifying dysphonia severity using a spectral/cepstral-based acoustic index: Comparisons with auditory-perceptual judgements from the CAPE-V," Clin. Linguist. Phon. 24, 742-758 (2010). 10.3109/02699206.2010.49244620687828
3
Y. Maryn, P. Corthals, P. Van Cauwenberge, N. Roy, and M. De Bodt, "Toward improved ecological validity in the acoustic measurement of overall voice quality: combining continuous speech and sustained vowels," J. Voice, 24, 540-555 (2010). 10.1016/j.jvoice.2008.12.01419883993
4
S. S. Shin, G. Y. Kim, B. M. Koo, and H. G. Kim, "Parkinson's disease diagnosis using speech signal and deep residual gated recurrent neural network" (in Korean), J. Acoust. Soc. Kr. 38, 308-313 (2019).
5
S. Lee, S. Kim, H. Y. Kim, E. Kim, K. S. Yu, H. Y. Lee, and K. Lee, "Correlation analysis of antipsychotic dose and speech characteristics according to extrapyramidal symptoms" (in Korean), J. Acoust. Soc. Kr. 41, 367-374 (2022).
6
S. N. Awan, N. Roy, D. Zhang, and S. M. Cohen, "Validation of the Cepstral Spectral Index of Dysphonia (CSID) as a screening tool for voice disorders: development of clinical cutoff scores," J. Voice, 30, 130-144 (2016). 10.1016/j.jvoice.2015.04.00926361215
7
C. Moers, B. Mobius, F. Rosanowski, E. Noth, U. Eysholdt, and T. Haderlein, "Vowel and text-based cepstral analysis of chronic hoarseness," J. Voice, 26, 416-424 (2012). 10.1016/j.jvoice.2011.05.00121940144
8
A. V. Oppenheim and R. W. Schafer, "From frequency to quefrency: A history of the cepstrum," IEEE Signal Process. Mag. 21, 95-106 (2004). 10.1109/MSP.2004.1328092
9
S. N. Awan, N. Roy, and C. Dromey, "Estimating dysphonia severity in continuous speech: application of a multi-parameter spectral/cepstral model," Clin. Linguist. Phon. 23, 825-841 (2009). 10.3109/0269920090324298819891523
10
S. H. Choi and C. H. Choi, "The utility of perturbation, non-linear dynamic, and cepstrum measures of dysphonia according to signal typing" (in Korean), Phonetics, Speech, Sci. 6, 63-72 (2014). 10.13064/KSSS.2014.6.3.063
11
S. H. Choi and C. H. Choi, "The effect of gender and speech task on cepstral-and spectral-measures of Korean normal speakers" (in Korean), Audiol. Speech Res. 12, 157-163 (2016). 10.21848/asr.2016.12.3.157
12
M. Yu, S. H. Choi, C. H. Choi, and K. Lee, "Usefulness of cepstral acoustic index for estimating objective dysphonia severity" (in Korean), Commun. Sci. Disord. 22, 587-596 (2017). 10.12963/csd.17411
13
I. H. Seo, D. Jung, H. J. Han, J. H. Moon, P. S. Chung, and S. J. Lee, "Analysis of acoustic parameters to objectively reflect the change of voice quality before and after surgery in benign vocal fold mucosal disorders" (in Korean), Korean J. Otorhinolaryngo-Head, Neck, Surg. 59, 775-779 (2016). 10.3342/kjorl-hns.2016.59.11.775
14
C. R. Watts and S. N. Awan,"Use of spectral/cepstral analyses for differentiating normal from hypofunctional voices in sustained vowel and continuous speech contexts," J. Speech, Lang. Hear. Res. 54, 1525-1537 (2011). 10.1044/1092-4388(2011/10-0209)22180020
15
Y. Kang and B. S. Koo, "Acoustic analysis of voice change according to extent of thyroidectomy" (in Korean), Phonetics, Speech, Sci. 7, 77-83 (2015). 10.13064/KSSS.2015.7.4.077
16
S. J. Lee, S. E. Lim, and H. S. Choi, " A comparison of cepstral and spectral measures according to measurement position in a reading passage," Commun. Sci. Disord. 22, 818-826 (2017). 10.12963/csd.17433
17
S. Y. Lowell, R. T. Kelley, S. N. Awan, R. H. Colton, and N. H. Chan, "Spectral- and cepstral-based acoustic features of dysphonic, strained voice quality," Ann. Otol. Rhinol. Laryngol. 121, 539-548 (2012). 10.1177/00034894121210080822953661
18
S. H. Choi, "Development of Korean standardized sentences on voice quality evaluation for dysphonia" (in Korean), Audiolo. Speech, Res. 14, 128-142 (2018). 10.21848/asr.2018.14.2.128
19
S. J. Lee, H. Y. Pyo, and H. S. Choi, "Normative data of cepstral and spectral measures in Korean adults using vowel phonation and passage reading tasks" (in Korean), Commun. Sci. Disord. 23, 208-216 (2018). 10.12963/csd.18474
20
D. B. Han, S. R. Ju, and J. Y. Yoo, "A study of correlation between ADSV and MDVP voice paramete" (in Korean), J. Speech, Lang. Hear. Disord. 28, 65-72 (2019). 10.15724/jslhd.2019.28.4.065
21
M. Yu, S. H. Choi, C. H. Choi, and B. Choi, "Predicting normal and pathological voice using a cepstral based acoustic index in sustained vowels versus connected speech," Commun. Sci. Disord. 23, 1055-1064 (2018). 10.12963/csd.18550
페이지 상단으로 이동하기