I. 서 론
II. 연구방법
2.1 실험대상
2.2 인지 수행력 비교 실험과정
III. 실험결과
3.1 심리음향적 주파수 특성(피치)이 주로 보전되는 PPT 방식의 단음절 숫자 인지도
3.2 시간적 특성이 주로 보전되는 PTT 방식의 단음절 숫자 인지도 결과
3.3 PPT, PTT, PNT 압축 방식에 대한 인지 반응 비교
IV. 검토 및 결론
I. 서 론
현재 다양한 음성 압축방식이 임상 청각재활을 포함한 광범위한 분야에서 사용되고 있다. 이러한 압축방식을 말소리에 적용하여 그 시간적, 주파수적 특징을 변형하면, 말소리 인지에 영향을 미치게 된다.[1-6] 일반적으로 음향적 특성이 압축된 단어와 문장을 인지할 때 노인 층 집단은 젊은 층 집단과 비교하여 낮은 인지 수행력을 보인다.[7,8] 그리고 청각기능이 손상된 피검자 그룹은 정상 청각기능을 가진 비슷한 조건의 집단과 비교했을 때 압축 변형된 말소리를 이해하는데 더 어려움을 보인다.[1,9] 이러한 압축된 말소리에 대한 청각 반응과 관련하여 대뇌청각영역이 압축 정보를 처리하는데 기여하는 것이 알려져 있다.[10]
임상청각이나 관련 분야에서는 말소리를 체계적으로 압축 변형한 후에 그대로 재생하여 정상인과 난청인에서 나타나는 상이한 인지의 정도를 측정한다.[1,4,7,9] 그리고 그 지표를 분석하여 청각평가와 청각 훈련을 수행하고 있다. 이러한 압축 방식은 시간, 주파수 특성이 상이한 개별 언어들에서 그 영향의 정도가 다르다. 따라서, 이러한 압축이 인지에 미치는 영향은 대상 언어와 압축 방식에 따라서 다를 수가 있어 개별 대상 언어별로 확인되어야 한다. 국내의 경우에 한국어 압축 관련 자료들이 일부 있지만 자료 상호간 정량적인 비교가 어렵다. 그 주된 이유는 압축방식, 언어 자극, 피검자 집단이 상호간에 다르고, 자주 사용되고 기본이 되는 대표적 압축방식 들이 대상 언어에 대한 반응 패턴에서 어떠한 영향을 보이는지 알려주는 체계적인 기초 자료가 부족하기 때문이다.[6,11] 이에 더하여, 어떤 말소리 특징을 선별적으로 압축하는 것이 시간이나 주파수 관점에서 비례하는 효과를 나타내지 않는 경우가 있고, 피검자의 성별과 같은 요소들이 수행작업의 난이도에 따라서 인지에 영향을 미칠 가능성도 있다.
현재 임상적인 목적에서 가장 높은 빈도로 사용되고 있는 대표적인 기본 압축방식의 하나는 특별한 음향적 특성에 대한 제한이 없이 시간과 주파수가 동시에 변환되는 압축처리 과정으로 PNT(Preserving No Trait) 방식으로 분류된다.[6,12,13] 이 PNT 방식은 resampling 방식에 의해서 압축을 변형하며, 테이프 레코더의 재생속도를 조절하는 방식과 특성이 유사하다.[12] 이 방식은 시간은 물론 주파수 특성에도 변형을 수반한다. 시간을 나타내는 변수를 t, 상수를 k라고 할 때, kt로 시간을 표시하게 되면, 시간적 압축률이 늘어날수록 k는 점점 작아지게 된다. 즉, 압축이 커지면서 재생속도는 빨라지게 되고, 재생음의 주파수는 높아지게 된다. 최근 연구에서 PNT 압축방식에 대한 정량화된 한국어 단음절 숫자 인지 자료가 조사되었다.[6] 이 자료는 압축률이 높아지면서 수행력이 급격히 떨어지는 반응형태를 정량적으로 보여주고 있다. 이 대표적인 PNT 방식의 인지 반응 패턴을 기준으로 다른 압축 방식의 특성을 비교할 수 있다. 임상적으로 자주 사용하는 다른 대표적 압축 방식으로는 피치라는 심리음향적 특성을 주로 보전하면서 압축을 하는 PPT(Preserving Pitch Trait) 방식과 지속시간과 같은 시간적 특성을 주로 보전하면서 압축을 하는 PTT(Preserving Time Trait) 방식이 있다.[4,9,12,13] PPT방식은 주로 autocorrelation을 응용하여 압축 변형되고, PTT방식은 frequency scaling에 의해서 압축변형이 된다.[12,13] 이러한 각 압축방식에 대한 인지 반응 패턴의 비교가 청각평가와 재활훈련 연구에서 필요하지만, 한국어를 대상으로 하여 비교 분석한 자료가 현재 마련되어 있지 않다. 예를 들어, 한국어 단음절 숫자와 같은 간결한 자극음에 대하여 각 압축 방식에서의 반응패턴이 비교 분석되어 있지 않다.
본 연구에서는 임상에서 자주 사용되면서 기본적인 압축 특성이 상이한 대표적인 압축 방식인, PPT, PTT, PNT에서의 한국어 단음절 숫자 인지 기능을 비교 연구하고자 하였다. 이를 위하여 기존 PNT 방식에서 얻은 자료를 비교 기준으로 하여 동일한 조건과 대상자 그룹에 대하여 PPT, PTT방식의 반응 패턴을 분석하였다. 대상 말소리 자극은 난이도, 문맥 정보, 간결성 등을 통제한 0부터 9까지 한국어 단음절 숫자 자극을 대상으로 하였고,[14] 여러 압축 비율 변화에 따른 정상 남녀 성인 피검자의 반응 특성을 분석하였다.
II. 연구방법
2.1 실험대상
국내 대학교에 재학 중이고 정상 청력을 가진 남녀 대학생(평균연령 22.6세) 각 10명으로 구성된 총 20명이 피검자가 사전에 등록된 그룹에서 선정되었고, 비교를 위하여 동일 대상이 여러 번 반복된 세션으로 실험에 참가하였다. 대상자의 기본 청력상태를 확인하기 위하여 순음 검사와 어음 인지도 검사를 실시하였다. 이들 검사는 방음검사실에서 Grason- Stadler의 GSI 61과 TDH 50 기도 헤드폰을 사용하여 수행하였다. 중이 상태의 검사에는 middle ear analyzer (Zodiac 901) 검사기를 사용하였다. 실험 대상자는 모두 양측 귀의 고막운동성 검사(tympanometry)에서 A type의 정상 반응을 보였고, 순음 청력검사(Pure-Tone Audiometry, PTA)에서는 20 dB HL 이하의 정상 역치를 나타냈다(250 ~ 8000 Hz). 대상자 모두에게서 어음인지도(Word Recognition Score, WRS) 결과는 95% 이상으로 기록되었다.
2.2 인지 수행력 비교 실험과정
실험 자료를 압축하는 방식은 주파수, 시간, 주파수-시간의 관점에 따라서 자주 쓰이는 세 가지 방식을 선택하였다. 대표적으로 주로 주파수의 피치 특성이 보전되며 압축되는 PPT방식, 주로 시간적 특성이 보전되며 압축되는 PTT방식, 시간과 주파수 특성이 모두 일정하게 변화하며 압축되는 PNT방식이 비교에 사용되었다(Arics Group). [12][13]
사전에 시행된 단음절 숫자 확장실험에서 정상 청력인 경우에 5 자리 숫자까지가 청각 기억의 영향을 받지 않으면서 피검자의 피로도를 최소화 할 수 있어서, 각 5개의 실시간 무작위 샘플을 한 조로 하여 이루어진 다섯 쌍 조합(quintet set)으로 기본 음향자극을 구성하였다.[13] 이 숫자들은 조합 내에서 연속 중복이 일어나지 않게 조정되었다. 본 실험은 기존의 PNT 연구와 동일한 실험 방법을 사용하여[6] 합성음에 PPT, PTT 압축을 압축률 별로 적용하였다. 이 압축은 원래 신호의 경우를 1(100%, 압축 처리 전의 본래 신호 레벨)로 하여 순차적으로 압축하였다(실험에 사용된 최대 압축은 0.25). 기존의 PNT 연구에서처럼 여러 압축비율에 대하여 실용적으로 적용 가능한 비율 구간을 결정하였고, 압축비율(k)은 1, 0.71, 0.50, 0.33, 0.25로 결정하였다.[6] 예를 들면, 시간축 변수를 t, 상수를 k라고 하면 kt 형태로 압축되는 경우에 k가 1에서 0.25 순으로 변화함에 따라서 재생속도가 순차적으로 빨라지게 된다. 피검자에게 제시한 0에서 9까지의 한국어 단음절 숫자 음들은(quintet set) 여성 화자로 전산 합성하여 제작하였다(16 bit, sampling rate = 44.1 kHz). 전산 프로그램에서 PPT, PTT 방식으로 처리된 한국어 합성 단음절 숫자 자극(quintet set)은 음향 보정된 삽입형 이어폰(AUDEO, Phonak)을 통해서 무작위로 한 set당 5번씩 남녀 피검자에게 60 dB HL로 제시하고, 그 실험 결과를 기록하였다(Fig. 1). 한 set 내에서 단음절 숫자음 간의 간격은 500 msec로 조절되었고, 자극의 크기를 일정하게 하기 위하여 개별 자극음은 음압측정기(2236 SLM, B&K)로 측정하여 최종 60 dB HL이 되도록 dB 단위로 scaling하여 보정하였다. 실험과정 구현에 필요한 관련 소프트웨어는 NI DAQPad-6251에서 C# 전산 프로그램으로 작성하여 처리하였다(Visual Studio 8.0).
|
Fig. 1. Experimental procedures for comparing performances for the three speech compression schemes. |
본 실험에서 얻어진 인지도 자료를 비교하기 위한 통계적 분석은 PASW 18.0 프로그램을 사용하였다. 각 방식에 대한 평균 수행력의 차이를 분산의 비율로 통계적으로 비교하기 위하여 ANOVA(독립변수=압축방식, 종속변수=숫자단음절 인지수행력)을, 그 사후검정으로 Scheffe의 그룹간 검정을 선택하였다. 기존 PNT 자료와 동일한 조건에서 비교하기 위해서, 세 방식간의 통계적으로 유의미한 평균 인지 수행력 차이를 유의수준 0.05에서 판정하였다. 그리고 PPT와 PTT 압축처리 방식에 대한 심리음향적 인지 수행력과 압축률을 나타내는 패턴에서 대표적 수행력 역치 값으로 단음절 숫자 인지 수행력이 50%되는 지점이 사용되었다. 이 해당 값을 보다 객관적으로 결정하기 위하여 이산적 자료들을 개별 회귀분석으로 curve fitting한 후에 50% 인지 수행 지점에 해당하는 역치를 추정하였다.
III. 실험결과
정상 청력을 가진 남녀 20명(남 10, 여 10)에게 0에서 9까지 무작위로 제시되는 한국어 단음절 숫자 다섯 쌍으로 이루어진 quintet set을 PPT, PTT 압축처리 방식으로 압축비율 별로 처리하여 실시간으로 제시하고 그 반응을 기록하고, 기존의 PNT방식으로 얻은 자료와 비교 분석하였다.
3.1 심리음향적 주파수 특성(피치)이 주로 보전되는 PPT 방식의 단음절 숫자 인지도
단음절 quintet set의 주파수 특성 중에서 피치가 주로 보전되는 PPT 방식의 경우에서 가장 높은 인지 수행 특성이 기록되었고, 이 압축률에 따른 수행 능력 변화는 Fig. 2와 같이 나타났다.
|
Fig. 2. Change of monosyllabic digit perception in PPT compression (N=20, * compression ratio at 50% performance, PPT=Preserving Pitch Trait). |
이 표시에서 압축률 1.0은 본래 신호를 의미하며, 0.25는 본 실험에서 가장 압축률이 높은 경우이다. 결과에서 PPT방식은 비교적 높은 압축률(0.50, 0.33, 0.25)에서 PNT 방식보다 우수한 인지 수행력을 보이고 수행력 50% 지점에 해당하는 압축률은 약 0.20으로 나타났다. 이는 기존의 PNT자료(0.44)와 비교하면 인지도 역치 특성이 매우 좋음을 나타냈다.
3.2 시간적 특성이 주로 보전되는 PTT 방식의 단음절 숫자 인지도 결과
시간적 특성을 보전하는 PTT 처리방식의 경우는 여러 압축 비율에서 Fig. 3과 같은 단음절 숫자 수행력 변화를 보여 주었다.
|
Fig. 3. Change of monosyllabic digit perception in PTT compression (N=20, * compression ratio at 50% performance, PTT=Preserving Time Trait). |
PPT 처리방식에서와 동일한 표시 형식으로 압축률 1.0은 본래 신호를 의미하며, 0.25는 본 실험에서 가장 압축률이 높은 경우이다. 이 PTT 방식의 경우는 앞서 제시된 PPT 에 비하여 높은 압축률에서(0.50, 0.33, 0.25) 단음절 숫자 인지도가 상당히 떨어지는 결과를 보여 주었다. 인지율 50%인 지점의 압축률도 PTT가 0.42를 나타내고 있다(PPT=0.20). 그러나 기존의 PNT 자료(0.44)와 비교하여 보면 높은 압축률에서 다소 나은 결과를 보여 주었다.
3.3 PPT, PTT, PNT 압축 방식에 대한 인지 반응 비교
본 연구에서 PPT, PTT, PNT으로 처리한 단음절 숫자 수행 능력을 압축률 별로 비교하면 Fig. 4와 같이 나타났다.
이 결과에서 통계적으로 유의미한 차이는 압축률이 상대적으로 높은 0.5, 0.33, 0.25에서 주로 나타났으며(*로 표시된 부분, * p< 0.05), 관련 자료를 표로 정리하면 Table 1과 같다.
이 결과를 종합해보면, 단음절 숫자 자극에 대한 세 가지 압축 방식의 압축률에 따른 수행 능력은 PPT, PTT, PNT 순서로 우수하게 나타났다(PPT> PTT>PNT).
IV. 검토 및 결론
정상 청력을 가진 성인 남녀 피검자 20명(남 10, 여 10)을 대상으로 하여 진행된 한국어 단음절 숫자인지 비교 연구에서 PPT, PTT 방식 모두 기존의 PNT 방식의 경우와 유사하게[6] 압축 비율이 증가함에 따라서 인지 수행력이 낮아졌다. 그러나 그 인지 반응 패턴은 정량적으로 다른 형태의 특성을 보였다. 압축 비율이 상대적으로 낮은 경우(k=1, 0.71)에는 PPT, PTT, PNT 세 가지 음성압축 방식은 인지 수행력에서 큰 차이가 없었지만, 압축률이 높아지면서 압축 처리방식에 따른 수행력 차이가 통계적으로 유의미하게 나타났다(k=0.5, 0.33, 0.25; p<0.05). 실험에 사용된 압축방식들은 전반적으로 높은 압축률에서는 PPT> PTT>PNT 순으로 인지 수행력이 높았고, 특히 PPT의 경우가 매우 우수하였다. 또한, 가장 높은 빈도로 사용되는 PNT 압축의 경우가 가장 인지 수행력이 낮은 것으로 확인되었다. 개별 압축 방식에 대한 남녀 피검자의 차이는 기존의 PNT 방식에서 확인된 것과 유사하게[6] PPT, PTT 방식에서도 자료의 통계 검정에서 관찰되지 않았다(p>0.05).
수행력 50% 지점에 해당되는 역치 압축률도 유사한 수행력을 나타냈는데(PPT>PTT>PNT), PPT 방식의 경우가 압축률 0.20을 보이고, PTT와 PNT가 각각 0.42, 0.44를 보여서 말소리의 피치 정보의 보존이 압축과정에서 중요한 요인의 하나임을 확인할 수가 있었다. 즉, PPT 방식이 보이는 우수한 수행력은 높은 압축 조건에서도 피치와 같은 특정 심리음향적 패턴이 상대적으로 잘 보전되어 인지에 중요한 역할을 하기 때문인 것으로 추정된다.
실험에 채택된 세가지 대표적 압축 방식에서 PNT 방식은 테이프 레코더나 멀티미디어에서 광범위하게 사용되는 가속 재생기에 대응되는 압축 방식이고, PTT 방식은 광고방송이나 특수 음향 효과에서 자주 사용하는 압축이다. 그리고 PPT 방식은 특정 언어 인지 특성을(피치) 심리음향학적으로 고려한 압축방식으로 볼 수 있다. 이들 방식간 인지 수행력 비교 분석 결과를 검토해보면, 멀티미디어 학습에서 사용하는 가속 재생기에서처럼 빠른 재생 속도에서도 높은 인지도를 유지하려면 PNT방식보다는 PPT 방식이 인지도 측면에서는 상당히 유리할 것으로 판단된다.
이러한 개별 압축방식은 언급된 멀티미디어 용도 외에도 임상 청각분야에서 대단히 유용한 정보를 제공해주고 있다. 이 개별 압축 방식들은 정상적인 말소리에 여러 가지 형태의 체계적인 압축 변환을 추가하며 그 시간과 주파수 특성에서 조직적 왜곡 변형을 발생시킨다. 이러한 외적인 말소리 자극에서 가중된 어려움은 보다 상위 기능의 중추청각 처리 과정을 요구한다.[10] 이러한 여러 압축방식 들에 대한 반응양상을 정상인과 난청인에서 비교하는 것은 청각평가나 재활훈련의 효과와 관련된 유용한 임상 자료를 제공할 수 있다.[4,9,11] 임상청각 분야에서 난청의 종류에 따라서 압축된 말소리에 대한 인지 정도가 다르고 대상 언어와 압축 방식에 따라서도 반응패턴이 다르기 때문에 정량적인 비교를 위해서는 일정한 압축 표준 기준을 선정하여 분석하는 것이 상호비교에 필요해 보인다. 또한, 이러한 인위적으로 압축된 빠른 말소리는 자연적으로 발화하는 빠른 말소리와는 특성이 다르다.[15] 일반인 화자가 평상시보다 발화속도를 빠르게 하는 경우는 정확하게는 기존의 여러 압축 방식에 해당되지 않아서 관련 연구가 필요하다고 판단된다.
현재 난청인을 위한 인공와우의 언어처리기나 주파수전이 보청기에서 음성신호를 효과적으로 처리하기 위하여 다양한 압축 방식이 적용되고 있다.[16] 주파수전이 보청기에서 난청인이 듣지 못하는 말소리 주파수 대역을 압축하여 이동하면 소리를 우선 탐지할 수가 있는데, 그 변별의 효과도 높이기 위해서는 어떤 압축 방식이 효과가 좋은지 그 임상적 평가가 필요하다. 통제된 언어적 특성을 갖는 한국어 단음절 숫자로 조합되는 quintet set을 이용한 압축 평가 과정이나 지표들은 다양한 압축 방식의 인지도 측면을 상호 비교 가능하게 하여 이러한 임상적 평가에 도움이 될 것이다. 이러한 배경에서, 후속 연구로 난청의 종류나 정도에 따라서 체계적으로 변화된 압축에 대한 반응패턴 자료를 축적하는 것이 필요하다. 이러한 지표를 이용하여 청각기능평가나 청능재활 훈련을 진행하면 해당 프로그램을 보다 효율적이고 정량적으로 관리할 수 있을 것으로 사료된다.







