Electroencephalogram-based emotional stress recognition according to audiovisual stimulation using spatial frequency convolutional gated transformer

Hyoung-Gook Kim; Dong-Ki Jeong; Jin Young Kim

doi:10.7776/ASK.2022.41.5.518

Preview

Research Article

The Journal of the Acoustical Society of Korea. 30 September 2022. 518-524
https://doi.org/10.7776/ASK.2022.41.5.518

Electroencephalogram-based emotional stress recognition according to audiovisual stimulation using spatial frequency convolutional gated transformer

공간 주파수 합성곱 게이트 트랜스포머를 이용한 시청각 자극에 따른 뇌전도 기반 감정적 스트레스 인식

Hyoung-Gook Kim¹^*

Dong-Ki Jeong¹

Jin Young Kim²

김 형국¹^*

정 동기¹

김 진영²

¹광운대학교 전자융합공학과

²전남대학교 ICT융합시스템공학과

^{*Corresponding Author}

ABSTRACT

In this paper, we propose a method for combining convolutional neural networks and attention mechanism to improve the recognition performance of emotional stress from Electroencephalogram (EGG) signals. In the proposed method, EEG signals are decomposed into five frequency domains, and spatial information of EEG features is obtained by applying a convolutional neural network layer to each frequency domain. As a next step, salient frequency information is learned in each frequency band using a gate transformer-based attention mechanism, and complementary frequency information is further learned through inter-frequency mapping to reflect it in the final attention representation. Through an EEG stress recognition experiment involving a DEAP dataset and six subjects, we show that the proposed method is effective in improving EEG-based stress recognition performance compared to the existing methods.

Keywords

Electroencephalogram

Stress recognition

Attention mechanism

Convolutional gated transformer

본 논문에서는 합성곱 신경망과 주의집중 메커니즘을 결합하여 뇌파 신호로부터 감정적 스트레스 인식 성능을 향상시키는 방식을 제안한다. 제안하는 방식에서는 뇌파 신호를 5개의 주파수 영역으로 분해하고, 각 주파수 영역에 합성곱 신경망 계층을 사용하여 뇌파 특징의 공간정보를 획득한 후에 게이트 트랜스포머를 이용한 주의집중 메커니즘을 사용하여 각 주파수 대역에서 두드러진 주파수 정보를 학습하고, 주파수 간 대역 매핑을 통해 보완 주파수 정보를 학습하여 최종 주의집중 표현에 반영한다. DEAP 데이터세트와 6명의 피 실험자가 참여한 뇌파 스트레스 인식 실험을 통해, 제안된 방식이 기존 방식과 비교하여 뇌파 기반 스트레스 인식 성능 향상에 효과가 있음을 보여준다.

키워드

뇌파

스트레스 인식

주의집중 메커니즘

합성곱 게이트 트랜스포머

MAIN

I. 서 론
II. 제안된 뇌파 기반 스트레스 인식 시스템
2.1 전처리 및 주파수 대역 분해
2.2 공간 인코딩을 위한 합성곱 신경망 계층
2.3 게이트 트랜스포머 기반 주의집중 메커니즘
2.4 주파수간 대역 매핑
III. 실험 및 결과
IV. 결 론

I. 서 론

사람들은 일상생활 속에서 많은 스트레스를 경험하며 살고 있다. 해소되지 않은 누적된 스트레스는 불면증, 뇌졸중, 심혈관 질환, 인지 문제 및 우울증과 같은 정신질환을 포함한 여러 질병으로 이어지는 심각한 건강 문제의 주요 원인 중 하나로 간주된다. 따라서 부정적인 영향을 피하기 위해 과학자와 심리학자들은 정신적 스트레스가 만성화되기 전 초기 단계에 감지할 것을 제안해 오고 있다. 정신적 스트레스를 평가하는 가장 일반적인 방법은 인지 스트레스 척도와 같은 자기보고식 설문지를 이용한 주관적인 방법으로 알려져 있다. 그러나 설문지 조사방식은 사용자의 설문지 이해정도에 따라 측정 정확도의 오차가 발생하며 평가를 위해 많은 시간이 필요하다는 단점을 갖고 있다. 그리고 혈액 또는 소변으로부터 추출한 호르몬을 이용하여 스트레스를 추정하는 방식^[1]은 실시간으로 스트레스 상태를 파악하기 어렵고 비용이 많이 발생되는 단점이 있다. 최근에는 인공지능분야에서 주목을 받는 딥러닝 기법을 활용하여 생체센서를 통해 자율신경계에서 발생하는 근전도, 심전도, 혈압, 동공 크기, 호흡, 뇌전도와 같은 생체 신호의 특징들을 인식^[2]하여 스트레스 상태를 즉각적으로 추정하는 방법들이 주목받고 있는 추세이다.

그중에서도, 다채널 뇌전도 연구에 있어서 뇌파 측정에 적용되는 채널/전극의 숫자가 늘어나면서 두피 위의 전위차의 공간적 분포를 파악하는 뇌전도 몽타주의 정확도가 향상되고, 이를 통해 뇌 신호 활동에 대한 높은 공간적 및 시간적 해상도가 제공되어 옴에 따라 뇌전도 신호가 신체적, 정신적 건강에 유해한 영향으로 인한 고통인식 분야에서 광범위하게 사용되고 있다. 특히, Li et al.^[3]은 다채널 뇌전도(Electroencephalogram, EEG) 신호의 공간 주파수(spatial frequency) 대역에 합성곱 자기 주의집중 신경망을 적용하여 괄목할만한 감정별 분류성능을 제시하였다. 이 방식에서는 입력된 뇌전도 신호를 4가지의 주파수 영역으로 분해하였으며, 각 주파수 영역에 합성곱 연산을 사용한 후에 자기 주의 방식을 적용하였다. 이 방식을 개선하여 본 연구에서는 다양한 스트레스 유발인자 중 시청각 자극에 따라 야기되는 정서적 스트레스에 제한하여 다채널 뇌파 신호의 공간 주파수에 합성곱 게이트 트랜스포머(Convolutional Gated Transformer, CGT) 방식을 적용함으로써 스트레스 예측 성능을 향상시켰다.

II. 제안된 뇌파 기반 스트레스 인식 시스템

Fig. 1은 제안된 뇌전도 기반 스트레스 인식시스템의 프로세스 흐름을 보여 준다.

제안하는 방식에서 입력된 다채널 뇌전도 신호는 전처리 과정을 거쳐 5개의 주파수 영역으로 분해된 후에 뇌전도 이미지 몽타주로 변환된다. 각 주파수 영역에 합성곱 신경망 계층을 사용하여 뇌전도 특징의 공간정보를 획득한 후에 각 주파수 대역에서 두드러진 주파수 정보를 학습하기 위해 게이트 트랜스포머를 이용한 주의집중 메커니즘을 적용하고, 주파수 간 대역 매핑을 통해 각 주파수 대역 내의 두드러진 주파수 정보를 최종 주의집중 표현에 추가로 매핑한다. 주파수간 대역 매핑을 통해 획득된 공간 및 주파수 대역정보를 통합한 특징 정보는 선형 레이어에 입력된 후 Softmax 함수를 통해 ‘진정’ 및 ‘스트레스’의 두 개 상태 클래스에 대한 확률을 출력하여 스트레스를 인식한다.

https://cdn.apub.kr/journalsite/sites/ask/2022-041-05/N0660410505/images/ASK_41_05_05_F1.jpg

Fig. 1.

(Color available online) Framework of the proposed EEG-based stress state recognition system.

2.1 전처리 및 주파수 대역 분해

시청각 자극에 의해 발생된 뇌전도 신호는 비침습적 다채널 전극 캡을 이용하여 1 kHz의 샘플링 속도로 기록되어 전처리 및 스펙트럼 분석이 수행된다. 전처리 과정으로서, 4 Hz ~ 47 Hz의 대역통과 주파수 필터를 뇌전도 데이터에 적용하여 고주파 및 저주파 잡음을 먼저 제거하고, 200 Hz로 다운 샘플링한 후에 스택형 희소 자동 인코더를 이용하여 눈의 움직임과 깜박임 아티팩트를 제거한다.^[4] 이후에 고유값 분해를 적용한 공간적 필터^[5]를 통해 원래 신호의 공간적 차이를 개선하고 시간정보를 유지시킨다.

이렇게 전처리된 뇌전도 신호는 단시간 푸리에 변환을 통해 획득된 파워스펙트럼을 사용하여 특정 주파수와 진폭에 따라 델타(δ, 1 Hz – 3 Hz); 세타(θ, 4 Hz – 7 Hz); 알파(α, 8 Hz – 12 Hz); 베타(β, 13 Hz – 30 Hz); 및 감마(γ, 31 Hz – 50 Hz) 등의 5가지 유형으로 분해된다. 그리고 각 주파수 대역에 대해 주파수 범위 내의 전력을 평균화하여 동적인 전력 스펙트럼 밀도(Power Spectrum Density, PSD)가 계산되어 뇌전도 몽타주로 변환된다. 뇌전도 이미지 몽타주에는 각 주파수 영역에서 32채널의 전극위치에 해당되는 상호상관계수를 색으로 표현하여 전극 간의 지형학적 분포가 나타난다. 머리는 삼차원 구조를 가지고 있기 때문에 뇌파의 몽타주는 전극 간의 공간적 분포를 포함하며 삼차원 자료를 이차원으로 표현할 수 있으며, 이러한 몽타주를 논리적으로 배열하면 다채널 뇌전도 신호의 공간적 분포 파악에 대한 정확도가 높아지는 장점을 이용할 수가 있다.^[6]

획득된 각 주파수 대역의 뇌전도 몽타주는 더 명확한 판별특징을 학습하기 위해 합성곱 신경망 계층과 주의집중 메커니즘으로 구성된 CGT 구조에 입력된다.

2.2 공간 인코딩을 위한 합성곱 신경망 계층

각 특정 주파수 대역의 PSD $X^{b}$ (여기서 $b \in \{δ, θ, α, β, γ\}$ 는 5개의 주파수 대역 중의 하나를 표시)에 적용되는 합성곱 신경망 계층(Convolution layer, CNN layer)은 다채널 뇌전도 특징 시퀀스 간의 공간 관계를 획득하기 위해 사용된다. 즉, 5개의 합성곱 계층은 각 주파수 대역 b에서 모든 다채널 전극에 대한 공간정보를 $U^{b} = C o n v A c t (X^{b})$ 로 인코딩함으로써 다른 뇌전도 전극 사이의 강한 상관관계에 따른 다른 뇌 영역의 전극 변동을 반영할 수 있다. 여기서 $U^{b} \in R^{c \times d_{}^{b}}$ 이고, c는 합성곱 채널의 수이며 $d^{b}$ 는 주파수 대역 b의 뇌전도 특징 벡터의 차원, 즉 전극의 수를 나타낸다.

모든 합성곱 계층 ConvAct는 3개의 합성곱 연산과 스케일된 지수선형 단위(Scaled Exponential Linear Unit, SELU) 활성화 함수로 구성된다. 각 합성곱 계층에는 3 × 3 필터가 있으며, 첫 번째 계층에는 64개의 커널이 있고 다음 계층의 커널 수는 차례로 두 배가 된다. 합성곱 연산에 이어서 적용되는 SELU 함수는 기울기 소실 및 기울기 폭발을 방지하는 데 사용되며, 이는 정류선형 단위함수보다 더 나은 성능을 제공한다.^[7]

2.3 게이트 트랜스포머 기반 주의집중 메커니즘

최근에 다양한 분야에 적용되어 뚜렷한 성과를 보여주고 있는 트랜스포머^[8] 모델은 순차적인 데이터 내의 관계를 전체적으로 추적해 맥락과 의미를 학습하는 주의집중 메커니즘을 적용한 신경망으로서 병렬 연산을 사용하기 때문에 모델의 실행 속도가 빨라진다는 장점을 갖고 있다. 특히, 트랜스포머에서 사용되는 자기 주의 메커니즘은 입력되는 시계열 뇌전도 시퀀스에서 스트레스를 감지하는 중요한 신호 간의 맥락을 찾기 위해 적용될 수 있다. 그러나, 이러한 중요 신호들은 입력된 시퀀스에서 서로 가깝거나 더 멀리 떨어져 있을 수 있는데 이 신호들 사이의 장거리 관계, 즉 맥락을 보다 안정적으로 학습하기 위해 우리는 트랜스포머 구조 내의 잔류 연결 대신에 게이트 순환신경망(Gated Recurrent Unit, GRU)^[9]이 적용된 게이트 트랜스포머(Gated Transformer, GTR)^[10]를 사용한다. Fig. 2에는 기존의 트랜스포머 인코더와 게이트 트랜스포머 인코더의 구조가 비교되어 있다. 여기서, GRU는 장단기 메모리(Long Short-Term Memory, LSTM) 신경망 보다 개선된 구조로 사라지는 그레이디언트 문제를 해결하기 위해 재설정( $r$ ) 및 업데이트( $z$ ) 게이트를 사용하여 정보흐름을 동적으로 기억하고 잊도록 설계되었다.

https://cdn.apub.kr/journalsite/sites/ask/2022-041-05/N0660410505/images/ASK_41_05_05_F2.jpg

Fig. 2.

(Color available online) Encoder architecture comparison of transformer (TF) and gated Transformer (GTR).

입력 시퀀스 $U^{b}$ 에 대해 Fig. 2(b)의 positional encoding이 적용되어 획득된 출력을 ${\tilde{U}}^{b}$ , 멀티헤드 자기 주의 모듈의 출력을 $A^{b}$ 라 가정하면, 모델에서 l번째 게이팅 레이어 $G^{l} (\tilde{U^{b}}, A^{b})$ 는 GRU를 통해 다음과 같이 계산된다:

(1)

r = σ (W_{r}^{l} A^{b} + L_{r}^{l} {\tilde{U}}^{b}),

(2)

z = σ (W_{z}^{l} A^{b} + L_{z}^{l} \tilde{U^{b}} + p_{z}^{l}),

(3)

\hat{h} = \tanh (W_{h}^{l} A^{b} + L_{h}^{l} (r_{t} ⊙ {\tilde{U}}^{b})),

(4)

G^{l} ({\tilde{U}}^{b}, A^{b}) = z ⊙ \hat{h} + (1 - z) ⊙ {\tilde{U}}^{b},

여기서 σ (.)는 요소별 시그모이드 함수이고 W, L, p는 학습 가능한 가중치 및 편향이며, $r, z, h, \hat{h} \in R^{d}$ 로 정의되고, d는 숨겨진 차원의 크기를 나타낸다.

2.4 주파수간 대역 매핑

주파수간 대역 매핑은 여러 주파수 대역에서 뇌전도 특징 시퀀스 계산을 수행함으로써, 주파수 내 대역 자기 주의 메커니즘과 비교하여 다른 뇌전도 특징 표현 부분 공간에서 더 효과적인 주의 표현을 생성한다. 본 논문에서는 5개의 주파수 대역을 사용하여 주파수간 대역 매핑을 적용하였다. 이 구성을 통해 모델은 뇌전도 신호의 주파수 대역 정보를 활용할 수 있으며, 이는 특징 학습 과정에서 감정 및 스트레스 관련 정보의 입력을 점진적으로 향상시키는 데 도움이 된다.

주파수 간 대역 매핑은 flatten 및 concat 연산 후 완전 연결 레이어를 사용하여 모든 특징 벡터를 1차원 벡터로 매핑하여 다음과 같이 계산된다.

(5)

O (f) = c o n c a t (b a n d^{θ}, b a n d^{α}, b a n d^{β}, b a n d^{γ}, b a n d^{δ}) W,

여기서 $b a n d^{b} = f a l t t e n (G_{b}^{l}), G_{b}^{l}$ 는 현재 주파수 대역 b의 최종 주파수 내 대역 GT 출력, 그리고 f는 $δ, θ, α, β, γ$ 의 각 주파수 영역을 모두 합한 1 Hz에서 50 Hz에 이르는 주파수 영역을 나타낸다. flatten 연산은 다차원 입력을 1차원 벡터로 변환하고, concat 연산은 다른 주파수 대역의 벡터를 연결한다. 그리고 W는 주파수 간 대역 매핑의 가중치 행렬을 나타낸다.

III. 실험 및 결과

시청각 자극에 의해 야기되는 뇌전도 신호로부터 제안된 방식을 이용하여 스트레스 인식 성능을 평가하기 위해, 우리는 잘 알려진 DEAP^[11] 데이터세트와 가상현실 체험에 참여한 6명의 피 실험자의 뇌파를 수집하여 구성된 Virtual Reality Experience(VRE) 데이트세트를 적용하여 스트레스 인식 실험을 수행하였다. DEAP는 감정 분류를 위해 공개적으로 사용 가능한 데이터세트로서, 참여한 32명의 피험자가 1분짜리 뮤직비디오 40개를 시청하는 동안 32채널/전극으로 뇌전도 신호가 획득되었으며, 피험자들이 현재 감정 상태를 평가하기 위해 각 뮤직비디오에 대해 각각 1에서 9까지의 4가지 차원인 원자가(valence), 각성(arousal), 우세(dominance) 및 호감(preference)을 채점한 자체 평가 모형(SAM)이 포함되어 있다. 감정 상태는 각성과 원자가를 수평 및 수직축으로 하는 이차원 평면에 배치된다. 각성은 비활성(예: 무관심, 지루함)에서 활성(예: 경계, 흥분)에 이르기까지 다양한 반면, 원자가는 불쾌한(예: 슬픔, 스트레스)에서 즐거운(예: 행복, 의기양양)에 이르기까지 다양하다. 우세는 통제할 수 없는 무력하고 약한 느낌에서 통제할 수 있는 강화된 느낌까지 다양하며, 호감 척도는 ‘싫다’/‘좋다’ 기호를 사용하여 측정되었다.

이 데이터세트에서 우리는 20명의 참가자를 선별하고, 이들이 반영한 원자가 및 각성 값을 통해 진정 및 스트레스 두 개의 상태 클래스 레이블링을 수행했다:^[12,13]

(6)

C a l m = (a r o u s a l < 4) \cap (4 < v a l e n c e < 6),

(7)

S t r e s s = (a r o u s a l > 5) \cap (v a l e n c e < 3) .

본 연구에서는 적은 양의 DEAP 학습 데이터에 대하여 신뢰성 높은 실험결과를 구하기 위해, 무작위로 참가자 8명의 epoch을 테스트 데이터로, 그리고 나머지 참가자 12명의 epoch을 훈련데이터로 선택하여 10겹 교차 검증을 수행하였다. 10겹 교차 검증은 전체 데이터를 10등분하고 분류기의 학습을 위해 10등분 중 9등분을 사용하고, 나머지 한 등분을 이용하여 학습된 분류기를 테스트한다.

VRE 데이터세트는 험난한 산을 오르는 스트레스 구간과 산행 사이의 휴식 구간으로 구성된 산행 가상현실 환경을 6명의 참가자들이 디스플레이와 렌즈가 내장된 오큘러스 리프트를 착용하여 체험하는 동안 32채널/전극으로 뇌전도 신호를 획득하여 구성되었다. 오큘러스 리프트를 통해 피험자는 시청각적 피드백을 제공받고 반응할 수 있도록 제작되었다. 뇌전도 데이터는 가상현실의 산행 구간과 휴식 구간에서 각각 5 분 동안 참가자들로부터 뇌전도 데이터를 수집했으며, 성능측정을 위해서는 각 참가자로부터 수집된 데이터 중 75 %를 학습데이터로, 그리고 25 %를 테스트 데이터로 사용하였다.

본 논문에서 제안된 방식의 스트레스 인식 성능을 검증하고 비교하기 위해, 우리는 다음과 같은 다양한 방식들을 적용하여 실험을 수행하였다:

⦁Gaussian Mixture Model(GMM): K-평균 군집화 알고리즘으로 초기치를 입력하고 expectation- maximization 훈련의 반복횟수를 13번으로 하여 최적 모델파라미터를 추정하여 실험에 적용하였다.

⦁Support Vetor Machines(SVM): 본 연구에서 사용된 SVM 커널은 Radial Basis Function(RBF) 커널이며, 커널은 반경은 1, SVM의 margin은 1로 설정하여 스트레스 인식에 적용하였다.

⦁2차원 Alexnet-CNN(2D-AlexNet)^[14]: 다채널 뇌전도 신호를 이차원 스펙트럼 이미지로 변환하여 5개의 합성곱 층, 3개의 맥스 풀링 층, 3개의 완전연결 층, 그리고 2개의 드롭아웃 층으로 구성된 Alexnet을 적용하여 스트레스 상태를 인식한다.

⦁합성곱 순환신경망(Convolutional Recurrent Neural Network, CRNN)^[15]: 뇌전도 신호의 고수준 표현을 인코딩하는 CNN과 뇌전도 신호의 시간적 역학을 탐구하는 RNN을 결합한 하이브리드 신경망으로서, CRNN은 2개의 합성곱 층, 1개의 서브 샘플링 층, 2개의 완전연결 층, 그리고 1개의 출력 층으로 구성되어 있다.

⦁Pre Layer-Norm Transformer(PLNTF)^[10]: 다채널 뇌전도 신호의 장기적인 시간적 종속성을 학습하기 위해 멀티헤드 주의집중 메커니즘을 적용하기 전에 layer-norm을 사용하고, 이어서 잔류연결을 적용한 후에 다시 layer-norm, feed forward, 잔류연결을 순차적으로 수행한다.

⦁게이트 트랜스포머(Gated Transformer, GTR)^[10]: PLNTF 구조의 잔류연결 대신에 훈련 과정을 안정화하기 위해 게이팅 메커니즘을 사용한다.

⦁주의집중 메커니즘을 갖는 계층적 양방향 게이트 순환 유닛 신경망(hierarchical bidirectional GRU model with attention, HBGRUA)^[16]: 두 개의 계층으로 구성되어 있으며, 첫 번쩨 계층은 뇌전도 신호의 한 에포크의 신호 샘플 간의 국부적 상관관계를 인코딩하고, 두 번째 계층은 시퀀스의 뇌전도 에포크 간의 시간적 상관성을 인코딩하여 스트레스를 인식한다. 샘플 및 에포크 수준 모두에서 양방향 GRU와 주의집중 메커니즘을 사용한다.

⦁공간 주파수 합성곱 자기 주의집중 네트워크(Spatial Frequency Convolutional Self-Attention Network, SFCSAN)^[3]: 뇌전도 신호를 4개의 주파수 대역으로 분해하고 각 주파수 대역으로부터 획득한 시간-주파수 엔트로피 값에 합성곱 자기 주의집중 네트워크를 적용한 후, 주파수 간 대역 매핑을 수행하고, softmax 계층을 통해 스트레스 상태를 인식한다.

⦁공간 주파수 합성곱 게이트 트랜스포머(Spatial Freqeuncy Convolutional Gated Transformer, SFCGT): 본 논문에서 제안하는 방식이다.

Table 1은 제안된 방식과 다른 신경망 구조를 포함한 기존 방식들의 결과를 비교한다. 실험결과, 제안된 방식인 SFCGT 방식이 두 개의 데이터세트 모두에 대해서 최상의 결과(DEAP: 94.31 %, VRE: 93.41 %)를 나타내었다. SFCSAN 방식의 인식 정확도는 SFCGT 방식보다는 다소 낮지만, 다른 다섯 가지의 방식들보다 우수함을 보여준다. 주의집중 메커니즘이 반영된 GTR 방식의 인식률은 PLNTF 보다는 약간 높고, HBGRUA 방식 보다는 더 높은 인식 정확도 성능을 보여준다. 반면에, 주의집중 메커니즘이 없는 2D- AlexNet은 낮은 인식 정확도를 나타내었다. 이는 뇌전도 활동과 중점적으로 관련된 주파수 대역에 주의집중 메커니즘을 적용한 방식이 원시적인 뇌전도 신호에 주의집중 메커니즘을 적용한 방식보다 더 효과적이고, 주의집중 메커니즘이 반영되지 않은 방식보다는 월등하게 높은 인식 성능을 제공함을 보여준다. 가장 낮은 인식 정확도는 GMM 방식을 적용한 경우였다.

Table 1.

Stress recognition results using regression based on DEAP and VRS (%).

Methods	Recognition accuracy (%)
Methods	DEAP	VRE
GMM	78.23	73.59
SVM	80.19	75.72
2D-AlexNet	82.73	78.36
HBGRUA	84.25	81.62
CRNN	85.53	83.56
PLNTF	87.15	85.24
GTR	88.48	86.76
SFCSAN	91.57	90.52
SFCGT (Proposed method)	94.31	93.41

IV. 결 론

본 논문에서는 다채널 뇌전도 신호를 5개의 주파수 대역으로 분해한 후에 각 주파수 대역에 공간 주파수 합성곱 게이트 트랜스포머를 적용하고 주파수 간 대역 매핑을 통해 스트레스 상태 인식 성능을 개선하는 방식을 제안했다. DEAP 및 VRE 데이터세트에 대한 실험은 제안된 방식이 기존 방식보다 스트레스를 효과적으로 잘 인식할 수 있음을 보여주었다. 향후 연구에서는 인식 정확도는 유지하면서 연산량을 줄일 수 있도록 제안된 방식을 개선하고, 개발된 방식을 뇌전도 패턴 분석을 통한 졸음 검출과 뇌파를 이용한 구매 의사 결정 과정에서의 인간의 뇌 활동 연구에 적용할 예정이다.

Acknowledgements

본 논문은 2018년도 정부(교육부)의 재원으로 한국연구재단의 지원과 2022년도 광운대학교 교내 학술연구비 지원에 의해 연구되었음(NRF-2018R1D1A 1B07041783).

References

H. M. Burke, M. C. Davis, C. Otte, and D. C. Mohr, "Depression and cortisol responses to psychological stress: a meta-analysis," Psychoneuroendocrinology, 30, 846-856 (2005). 10.1016/j.psyneuen.2005.02.01015961250

N. Sharma and T. Gedeon, "Objective measures, sensors and computational techniques for stress recognition: A survey," Comput. Methods Programs Bio. 108, 1287-1301 (2012). 10.1016/j.cmpb.2012.07.00322921417

D. Li, L. Xie, B. Chai, Z. Wang, and H. Yang, "Spatial- frequency convolutional self-attention network for EEG emotion recognition," Appl. Soft Comput. 122, 108740 (2022). 10.1016/j.asoc.2022.108740

S. Issa, Q. Peng, X. You, and W. Ali, "Emotion assessment using EEG brain signals and stacked sparse autoencoder," J. Inf. Assur. Secur. 14, 20-29 (2019).

Y. Song, X. Jia, L. Yang, and L. Xie, "Transformer- based spatial-temporal feature learning for EEG decoding," arXiv preprint arXiv:2106. 11170 (2021).

H. J. Eun, "Basics of electroencephalography for neuropsychiatrist" (in Korean), J. Korean Neuropsychiatr Assoc. 58, 76-104 (2019). 10.4306/jknpa.2019.58.2.76

A. Nguyen, K. Pham, D. Ngo, T. Ngo, and L. Pham, "An analysis of state-of-the-art activation functions for supervised deep neural network," Proc. ICSSE, 215-220 (2021). 10.31219/osf.io/2zk6a

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, and A. N. Gomez, "Attention is all you need," Adv. Neural Inf. Process. Syst. 30, 5998-6008 (2017).

K. Cho, B. Van Merriénboer, D. Bahdanau, and Y. Bengio, "On the properties of neural machine translation: Encoder-decoder approaches," arXiv preprint arXiv:1409.1259 (2014). 10.3115/v1/W14-4012

Y. Tao, T. Sun, A. Muhamed, S. Genc, D. Jackson, A. Arsanjani, S. Yaddanapudi, L. Li, and P. Kumar, "Gated transformer for decoding human brain EEG signals," Proc. IEEE EMBC, 125-130 (2021). 10.1109/EMBC46164.2021.9630210

S. Koelstra, C. Muhl, M. Soleymani, J. S. Lee, A. Yazdani, T. Ebrahimi, T. Pun, A. Nijholt, and I. Patras, "DEAP: A database for emotion analysis; Using physiological signals," IEEE Trans. Affective Comput. 3, 18-31 (2012). 10.1109/T-AFFC.2011.15

M. J. Hasan and J. M. Kim, "A hybrid feature pool- based emotional stress state detection algorithm using EEG signals," Brain Sci. 9, 376 (2019). 10.3390/brainsci912037631847238PMC6956373

D. Shon, K. Im, J.H. Park, D. S. Lim, B. Jang, and J. M. Kim, "Emotional stress state detection using genetic algorithm-based feature selection on EEG signals," Int. J. Environ. Res. Public Health, 15, 2461 (2018). 10.3390/ijerph1511246130400575PMC6265975

A. Martínez-Rodrigo, B. García-Martínez, A. Huerta, and R. Alcaraz, "Detection of negative stress through spectral features of electroencephalographic recordings and a convolutional neural network," Sensors, 21, 3050 (2021). 10.3390/s2109305033925583PMC8123772

X. Li, D. Song, P. Zhang, G. Yu, Y. Hou, and B. Hu, "Emotion recognition from multi-channel EEG data through convolutional recurrent neural network," Proc. IEEE BIBM, 352-359 (2016). 10.1109/BIBM.2016.7822545

J. X. Chen, D. M. Jiang, and Y. N. Zhang, "A hierarchical bidirectional GRU model with attention for EEG-based emotion classification," Access, 7, 118530-18540 (2019). 10.1109/ACCESS.2019.2936817

The Journal of the Acoustical Society of KoreaISSN:1225-4428(Print) 2287-3775(Online)한국음향학회

Preview

Electroencephalogram-based emotional stress recognition according to audiovisual stimulation using spatial frequency convolutional gated transformer

ABSTRACT

MAIN

Fig. 1.

(Color available online) Framework of the proposed EEG-based stress state recognition system.

Fig. 2.

(Color available online) Encoder architecture comparison of transformer (TF) and gated Transformer (GTR).

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Table 1.

Stress recognition results using regression based on DEAP and VRS (%).

Acknowledgements

References