Interactive sound experience interface based on virtual concert hall

Hye-Seung   Cho; Hyoung-Gook   Kim

doi:10.7776/ASK.2017.36.2.130

Preview

The Journal of the Acoustical Society of Korea. 31 March 2017. 130-135
https://doi.org/10.7776/ASK.2017.36.2.130

Interactive sound experience interface based on virtual concert hall

가상 콘서트홀 기반의 인터랙티브 음향 체험 인터페이스

Hye-Seung Cho¹

Hyoung-Gook Kim¹^*

조 혜승¹

김 형국¹^*

¹광운대학교 전파공학과

^{*교신저자.}^{*Corresponding Author.}

License:

ABSTRACT

In this paper, we propose an interface for interactive sound experience in the virtual concert hall. The proposed interface consists of two systems, called ‘virtual acoustic position’ and ‘virtual active listening’. To provide these systems, we applied an artificial reverberation algorithm, multi-channel source separation and head-related transfer function. The proposed interface was implemented by using Unity. The interface provides the virtual concert hall to user through Oculus Rift, one of the virtual reality headsets. Moreover, we used Leap Motion as a control device to allow a user experience the system with free-hand. And user can experience the sound of the system through headphones.

Keywords

Interface

Virtual reality

Source separation

Artificial reverberation

Head-related transfer function

본 논문에서는 가상 콘서트홀에서 사용자가 인터랙티브한 음향 체험을 할 수 있는 인터페이스에 대해 제안한다. 제안하는 인터페이스는 가상 콘서트홀을 기반으로 좌석 위치별 음향 체험 시스템과 악기 제어 및 음향 체험 시스템으로 구성된다. 제안하는 인터페이스의 각 시스템을 구현하기 위해 인공 잔향 알고리즘과 멀티채널 음원 분리, 머리전달함수를 적용하였다. 제안하는 인터페이스는 유니티(Unity)를 사용하여 구현되었으며 사용자는 가상현실기기인 오큘러스 리프트(Oculus Rift)를 통해 가상 콘서트홀을 체험할 수 있고 립 모션(Leap Motion)을 통해 별도의 입력 도구 없이 손동작만으로 시스템을 제어할 수 있으며 헤드폰을 통해 시스템이 제공하는 음향을 체험할 수 있다.

키워드

인터페이스

가상현실

음원 분리

인공 잔향

머리전달함수

MAIN

I. 서 론
II. 인터랙티브 음향 체험 인터페이스
2.1 좌석 위치 별 음향 체험 시스템
2.1.1 잔향음 생성부
2.2악기 제어 및 음향 체험 시스템
2.2.1 멀티채널 간섭 제거부
III. 실험결과 및 구현결과
3.1 좌석 별 음향 청취 실험
3.2 멀티채널 음원분리 기반 간섭제거 실험
3.3 제안한 인터페이스의 구현 결과
IV. 결 론

I. 서 론

멀티미디어 기술과 디바이스의 발달에 따라 사용자가 즐길 수 있는 콘텐츠의 범위가 점차 다양해지고 있으며 최근에는 가상현실 기반의 콘텐츠에 대한 관심이 급속도로 증가하고 있다. 이와 같은 가상현실 콘텐츠는 현실 세계의 시간적, 물리적 제한을 뛰어넘어 실제 환경에서는 불가능했던 다양한 일들을 가상으로 가능케 할 수 있다는 장점이 있다. 이에 본 논문에서는 가상 콘서트홀을 생성하여 현실의 콘서트홀에서는 불가능한 인터랙티브한 음향 체험을 할 수 있는 인터페이스를 제안한다.

본 논문에서 제안하는 인터페이스는 가상 콘서트홀을 기반으로 좌석 위치별 음향 체험 시스템과 악기 제어 및 음향 체험 시스템으로 구성된다. 이때 실제의 콘서트홀을 가상으로 재현하여 사용하기에는 기술적 한계가 있으며, 제안하는 인터페이스의 주된 목적은 실제 콘서트홀의 가상으로의 재현이 아닌 사용자에게 실제로는 불가능한 인터랙티브한 음향 체험을 제공하는데 있으므로 제안하는 인터페이스에서는 실제의 콘서트홀이 아닌 임의의 콘서트홀을 가상으로 생성하여 사용하였다.

실내 공간의 음향은 잔향음을 포함하고 있으며 이러한 잔향음은 실내 공간의 크기, 음악곡이 연주되는 음원의 위치, 청자의 위치에 따라 다르게 형성되어 청자에게 전달된다.^[1] 제안하는 좌석 위치별 음향 체험 시스템에서는 인공 잔향 알고리즘을 기반으로 제안하는 가상 콘서트홀의 좌석 위치에 따른 잔향음을 각각 생성하여 사용자에게 제공한다. 사용자는 인터페이스를 통하여 위치에 따른 음향의 차이를 체험할 수 있다.

가상 콘서트홀의 음악 콘텐츠로는 연주의 녹음 본이 탑재된다. 같은 공간에서 다양한 종류의 악기가 동시에 연주되는 것을 녹음할 때, 녹음 본에는 해당하는 악기의 소리뿐 만 아니라 다른 악기의 간섭 음 또한 포함된다. 제안하는 악기 제어 및 음향 체험 시스템에서는 NMF(Non-negative Matrix Factorization)기반의 멀티채널 음원 분리^[2]를 적용하여 이러한 악기의 간섭을 분리하고, 각 악기의 독립적인 소리를 얻을 수 있도록 하였다. 또한, 선택한 악기의 위치와 사용자의 위치 정보를 기반으로 악기 위치에 따른 음향의 방향감을 생성하기 위해 머리전달함수(Head-Related Transfer Function, HRTF)를 적용하였다. 사용자는 제안한 시스템을 통해 악기를 임의로 선택하여 다른 악기의 간섭 없이 해당하는 악기에 대한 소리만 집중하여 청취할 수 있으며, 선택한 악기의 위치를 임의로 변화시키며 위치에 따른 음향의 방향감을 느낄 수 있다.

제안하는 인터페이스는 대표적인 3D 렌더링 엔진인 유니티(Unity)를 사용하여 구현하였으며 사용자는 가상현실기기인 오큘러스 리프트와 립 모션을 통해 제안한 인터페이스에 접속할 수 있고 헤드폰을 통해 시스템이 제공하는 음향을 체험할 수 있다.

II. 인터랙티브 음향 체험 인터페이스

Fig. 1은 본 논문에서 제안하는 인터랙티브 음향 체험 인터페이스의 전체 구성도이다. 제안하는 인터페이스는 오큘러스 리프트와 립 모션으로 구성되는 접속 디바이스와 헤드폰으로 구성되는 출력 디바이스, 가상 콘서트홀, 잔향음 생성부, 멀티채널 간섭 제거부, 머리전달함수 적용부로 구성된다.

Fig. 1. Whole block diagram of proposed interface.

2.1 좌석 위치 별 음향 체험 시스템

사용자가 립 모션을 통해 가상 콘서트홀의 특정 좌석의 위치를 선택하면, 사용자는 선택한 좌석으로 이동하는 동시에 해당하는 좌석의 위치 정보와 위치에 따른 잔향 생성 정보가 잔향음 생성부에 전달된다. 잔향음 생성부에서는 위치에 따른 잔향음이 생성되며 입력 음원과 믹싱된다. 사용자는 믹싱된 음향을 통해 좌석에 따른 음향을 체험할 수 있다.

2.1.1 잔향음 생성부

실내공간의 음향은 음원에서 출력되어 사용자에게 직접 전달되는 직접음과 다양한 반사 경로에 따라 반사되어 전달되는 잔향음으로 구성된다. 잔향음은 초기 잔향음과 후기 잔향음으로 구분된다. 초기 잔향음은 직접음이 도착한 이후 100 ms 이내에 사용자에게 입력되는 초기에 벽면에 의해 반사되는 음들을 나타낸다. 후기 잔향음은 100 ms 이후에 다양한 반사 경로를 통해 벽면에 거듭 반사되어 사용자에게 입력되는 음들을 나타낸다.^[1]

잔향음을 생성하는 방식으로는 실제 실내 공간에서 물리적으로 측정한 임펄스 응답을 기반으로 잔향음을 재현하는 접근 방식과 인공 잔향 알고리즘을 통해 실제 잔향음의 핵심적인 부분만을 생성하는 접근 방식이 있다. 본 논문에서 제안하는 시스템에서는 실제 콘서트홀의 음향을 재현하기보다는 본 논문에서 제안하는 가상의 콘서트홀에 따른 음향을 구현 하는데 그 목적이 있으므로 인공 잔향 알고리즘 기반의 접근 방식을 사용하여 음향을 생성하였다.

Fig. 2는 제안하는 시스템에서 사용한 인공 잔향 알고리즘을 나타낸다. 제안하는 시스템에서 초기 잔향음과 후기 잔향음을 생성하기 위해 Schroeder가 제안한 TDL(Tapped Delay Line) 구조^[3]와 Dattorro가 제안한 잔향 알고리즘^[4]을 결합하여 사용하였다.

Fig. 2. Block diagram of artificial reverberator.

2.2 악기 제어 및 음향 체험 시스템

제안한 인터페이스의 가상 콘서트홀의 무대 위에서는 관현악 악기가 위치하고 있으며 각 악기에서는 다른 악기의 간섭이 포함된 음악이 출력되고 있다. 이때, 사용자가 립 모션을 이용해 악기를 선택하면, 멀티채널 음원 분리 기반의 간섭 제거가 적용되어 해당 악기음에 대해 간섭이 제거된 악기음이 헤드폰을 통해 사용자에게 전달된다.

사용자가 악기를 선택한 상태에서 악기의 위치를 변경하면 오큘러스 리프트로부터 전달되는 사용자의 양 귀의 각도 정보와 악기 위치정보를 이용해 악기와 사용자 간의 각도가 계산되고, 머리전달함수 데이터베이스에서 해당 각도에 대한 HRIR(Head-Related Impulse Response) 데이터가 검색되어 컨벌루션 연산이 적용된다. 이를 통해 방향감이 포함된 음향이 사용자에게 전달된다.

2.2.1 멀티채널 간섭 제거부

Fig. 3은 본 논문에서 사용한 멀티채널 음원 분리 기반의 간섭제거 알고리즘^[2]의 전체 블록도이다.

같은 공간에서 개의 악기가 연주되고 있으며 이를 개의 채널을 통해 녹음하고 있다는 가정에 따라 번째 채널에 입력되는 오디오 신호 는 다음과 같이 표현할 수 있다.

Fig. 3. Overall flow chart of multi channel interference reduction.

, (1)

, (2)

Eq. (2)는 Eq. (1)에 STFT(Short-Time Fourier Transform)를 적용한 결과를 나타낸다. 여기서 는 연주되는 악기의 인덱스, 는 채널 인덱스, 는 번째 악기에서 출력되어 번째 채널에 입력되는 오디오 신호를 의미하며 는 시간 축 인덱스, 는 주파수 축 인덱스를 나타낸다.

본 방식에서는 하나의 악기에 최소한 하나 이상의 마이크 채널을 배정하여 동일한 시간대에서 각 악기의 연주음을 녹음한 멀티채널 녹음 본을 사용하며 악기-채널 간의 관계는 사전 정보로서 알고 있다는 가정에 따라 프로세스가 진행된다. 악기-채널 간의 관계를 채널 선택 함수 로 정의할 수 있다. 채널 선택 함수는 번째 악기음에 영향을 받는 채널 을 나타낸다.

STFT 적용 후 번째 악기에서 출력되어 번째 채널로 입력된 신호의 파워스펙트럼 은 다음과 같이 악기 고유의 파워스펙트럼과 입력 오디오 신호에 포함된 각 악기의 간섭량을 나타내는 행렬의 곱으로 다음과 같이 표현할 수 있다.

, (3)

여기서 는 번째 악기의 고유 파워스펙트럼을 나타내며 는 번째 악기에서 출력되어 번째 채널로 입력되는 신호의 간섭량을 나타내는 행렬이다.

초기화 부에서는 채널 선택 함수를 기반으로 를 다음과 같이 초기화하여 번째 채널의 입력신호의 목표 음원 에 대해 가중치를 부여한다.

, (4)

여기서 값이다.

이와 함께, 다음과 같이 악기 고유의 파워스펙트럼 를 초기화 한다.

, (5)

여기서 는 번째 악기가 가장 많이 포함된 채널의 개수를 의미한다.

분리 이득 값을 이용한 간섭 제거부에서는 입력 오디오 신호의 스펙트럼에서 간섭이 제거된 목표 음원의 스펙트럼을 추정하기 위해 generalized Wiener filter 기반의 분리 이득 값을 계산한다. Eq. (3)에 나타난 관계를 기반으로 하여 다음과 같이 분리 이득 값 을 계산한다.

, (6)

여기서

, (7)

(8)

이다.

를 적용하여 다음과 같이 간섭이 제거된 목표 악기의 스펙트럼을 추정할 수 있다.

. (9)

반복 결정부에서, 에 대해 충분한 간섭제거가 이루어졌다면 ISTFT(Inverse Short-Time Fourier Transform)를 적용하여 시간 축 신호로 변환하여 출력하고, 그렇지 않다면 충분히 간섭이 제거될 때까지 간섭 재추정을 실시한다. 재추정의 반복 횟수는 실험적 결과를 토대로 결정되며, 본 논문에서는 3 ~ 5회의 반복을 실시하였다.

간섭 재추정부에서는 먼저, 다음과 같은 과정을 통해 악기 고유의 파워스펙트럼을 갱신한다.

, (10)

갱신한 악기 고유의 파워스펙트럼 는 앞서 추정한 간섭이 제거된 목표 악기의 스펙트럼 에 다시 만큼의 가중치를 부여한 것으로, 초기의 보다 음원 고유의 스펙트럼에 더욱 가까운 상태로 추정된다.

다음으로, -Divergence 기반의 NMF알고리즘을 적용해 다음과 같이 을 재추정한다.

, (11)

, (12)

. (13)

즉, 갱신한 악기 고유의 파워스펙트럼을 기반으로 를 갱신함으로써 에 포함되어 있는 각 악기의 간섭량을 보다 정확하게 추정할 수 있고 갱신된 , 를 기반으로 다시 분리 이득 값을 계산하여 적용함으로써 이전 단계보다 더욱 간섭이 제거된 악기의 스펙트럼을 얻을 수 있다.

III. 실험결과 및 구현결과

3.1 좌석 별 음향 청취 실험

본 논문에서 제안한 인터페이스의 좌석별 음향 체험 시스템의 성능을 검증하기 위해 시스템에서 구현한 1층 맨 앞좌석, 1층 뒷좌석, 2층 좌석, 3층 좌석의 4개 좌석에 대한 청취 평가를 진행하였다. 사용한 음원은 모차르트 현악 4중주 중 한 부분이며, 실험을 위한 피험자는 12명(남성 7명, 여성 5명)을 대상으로 하였다. 실험은 잡음이 없는 실험실 환경에서 피험자가 스스로 인터페이스를 체험하면서 자유롭게 좌석을 변경하며 진행하였다. 청취 평가 방식은 MOS(Mean Opinion Score) 평가 방식을 사용하였으며 피험자 스스로 좌석별 설문에 대해 1점(전혀 그렇지 않음)부터 5점(매우 그러함)까지 점수를 매기는 방식으로 진행하였다. 설문 문항은 음향 구현 시 고려했던 좌석에 따른 특징을 내포하며, 이는 다음과 같다: 1) 1층 맨 앞좌석: 악기의 직접적인 음량이 크며 잔향감이 거의 없어 악기의 소리가 뚜렷함; 2) 1층 뒷좌석: 악기의 직접적인 음량이 크며 잔향감이 들고 둘러싸인 느낌이 듦; 3) 2층 좌석: 악기의 직접적 음량보다 잔향감이 더 크고 풍부하며 무대로부터 떨어진 느낌이 듦; 4) 3층 좌석: 악기의 소리가 명료하지 않으며 잔향감이 매우 크고 무대로부터 멀리 떨어진 느낌이 듦.

실험결과 평균 점수는 1층 맨 앞좌석에서 4.5점, 1층 뒷좌석에서 4점, 2층 좌석에서 4.1점, 3층 좌석에서 4.3점으로 좌석별 음향이 의도에 맞게 구현되었음을 확인할 수 있었다.

3.2 멀티채널 음원분리 기반 간섭제거 실험

본 논문에서 제안한 인터페이스의 멀티채널 음원 분리 기반의 간섭제거의 성능을 평가하기 위해 BSS Eval^[5] (Blined Source Separation Evaluation)의 SDR (Source-to-Distortion Ratio) 과 SIR(Source-to-Interference Ratio) 측정 실험을 하였다. SIR은 분리된 음원에 남아있는 다른 음원의 간섭 성분의 비율을 나타내는 지표이며, SDR은 분리된 음원의 원본 음원 성분과 왜곡 성분의 에너지의 비율을 나타내는 지표로 전체적인 분리 성능을 나타낸다. SDR과 SIR 모두 값이 클수록 분리 성능이 높음을 의미한다.

실험을 위해 모차르트 현악 4중주 1곡과 드럼, 베이스, 보컬, 피아노로 구성된 팝송 1곡에 대한 개별 녹음 데이터를 얻은 후 각 악기가 일렬로 정렬되어 있다는 가정에 따라 발생하는 간섭에 대해 실험을 진행하였다. 실험에 사용된 음악 신호는 44.1 kHz의 샘플링레이트, 16 bit의 깊이, PCM 포맷의 모노 신호를 사용하였다.

또한, 본 논문에서 사용한 간섭 제거 방식에서 분리 이득 값의 종류에 따른 간섭 제거 성능의 차이를 비교하기 위해 LSA(Log-Spectral Amplitude) 기반의 MMSE(Minimum Mean Square Error) 추정 방식의 분리 이득 값(LSA 이득 값)^[6]을 적용하여 결과를 측정 및 비교하였다. 다음은 LSA 이득 값의 계산 방식에 대해 나타낸다.

(14)

여기서

(15)

이다.

Tables 1과 2는 SDR, SIR 실험결과를 나타낸다. 실험 결과를 통해 본 논문에서 제안하는 인터페이스의 간섭 제거 방식이 간섭을 효과적으로 제거함을 확인할 수 있다. 또한 LSA 이득 값의 결과가 Wiener 이득 값의 결과 보다 SIR은 낮지만, SDR은 높은 결과를 보이는데, 이를 통해 LSA 이득 값을 적용했을 경우 간섭 제거 과정에서 발생하는 왜곡이 줄어든다는 사실을 확인할 수 있었다.

Table 1. Comparative performance for interference reduction: SDR.

Table 2. Comparative performance for interference reduction: SIR.

3.3 제안한 인터페이스의 구현 결과

제안한 인터페이스의 가상 콘서트홀은 대표적인 3D 렌더링 엔진인 유니티를 사용해 구현하였다. 사용자는 오큘러스 리프트를 착용한 상태에서 음악체험을 할 수 있으며 립모션을 통해 시스템을 제어할 수 있다. Fig. 4는 실제 구현한 인터페이스를 체험하는 사용자의 모습을 나타낸다.

Fig. 4. Demonstration of user.

IV. 결 론

본 논문에서는 최신의 기술 트랜드인 가상현실과 음향 처리 기술을 융합하여 가상현실을 기반으로 가상 콘서트홀 기반의 인터랙티브 음향 체험 인터페이스에 대해 제안하였다. 본 논문에서 제안하는 인터페이스의 시스템을 구현하기 위해 인공 잔향 알고리즘과 멀티채널 음원분리 기반의 간섭 제거방식을 적용하였다. 실험 결과를 통해 제안한 시스템이 의도하는 바대로 사용자에게 인터랙티브한 가상의 음향 체험을 충분히 제공하는 것을 확인할 수 있었다. 향후 본 논문을 기반으로 실제의 콘서트홀을 3D로 렌더링한 후 그에 따른 음향을 구현하여 더욱 실감나면서 실제로 사용가능한 인터페이스를 제작하는 연구를 수행할 예정이다. 또한 더욱 다양한 악기로 구성된 연주곡의 음원에 음원분리를 적용한 후 이를 통해 입체음향을 보다 액티브하게 사용자에게 제공할 수 있는 시스템에 대한 연구를 수행할 예정이다.

References

P. Rainer, S. Tjoa, and P. Tavolato, “Advanced file carving approaches for multimedia files,” JoWUA 2, 42-58, (2011).

G. Alex, A. Mohamed, and G. E. Hinton, “Speech recognition with deep recurrent neural networks,” ICASSP, 6645-6649, (2013).

H. Sepp and J. Schmidhuber, “Long short-term memory,” Neural computation. 9, 1735-1780, (1997).

Theano: new features and speed improvements, https://arxiv.org/abs/1211.5590, 2012.

J. Bergstra, O. Breuleux, F. Bastien, P. Lamblin, R. Pascanu, G. Desjardins, J. Turian, D. Warde-Farley, and Y. Bengio, “Theano: a cpu and gpu math expression compiler,” in Proc. Python for Scientific Computing Conference, 3-10, (2010).

V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” ICML, 807-814, (2010).

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Interactive sound experience interface based on virtual concert hall

ABSTRACT

MAIN

References