基于位置信息重建與時(shí)頻域信息融合的腦電信號情感識別

2021-12-20 12:35:04柳素紅李春彬

計(jì)算機(jī)工程 2021年12期

柳素紅，孫曉，李春彬

（合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院，合肥 230601）

0 概述

情感是人們進(jìn)行認(rèn)知、決策處理和人際互動(dòng)的重要組成部分，在人們的日常交流和社會活動(dòng)中起著重要的作用，醫(yī)學(xué)、神經(jīng)學(xué)、心理學(xué)和情感計(jì)算等領(lǐng)域的研究人員希望通過計(jì)算機(jī)系統(tǒng)識別和理解人類情感。隨著科技的發(fā)展和社會的進(jìn)步，人機(jī)交互（Human-Computer Interaction，HCI）技術(shù)引起了人們越來越多的關(guān)注。HCI 有著廣闊的應(yīng)用前景，比如在人機(jī)對話領(lǐng)域中［1］，情感識別可以使機(jī)器感知人的情感心理狀態(tài)，從而使機(jī)器更加了解對話對象，提供更加人性化的回答，提高人機(jī)對話體驗(yàn)；在醫(yī)療領(lǐng)域，情感識別可以輔助醫(yī)生進(jìn)行自閉癥、焦慮癥和一些腦功能障礙疾病的治療；在航空航天領(lǐng)域，通過監(jiān)控航天員的情感狀態(tài)可以實(shí)時(shí)掌握航天員的生理狀態(tài)，幫助航天員順利完成航天任務(wù)。因此，對情感識別進(jìn)行研究有著重大的意義。

當(dāng)前對于情感識別的研究內(nèi)容主要分為兩類：第一類是基于非生理信號的情感識別，這些非生理信號包括語音［2］、身體姿態(tài)［3］和面部表情［4］等；第二類是基于生理信號的情感識別，如肌電［5］、心電［6］和腦電［7］等。由于語音、身體姿態(tài)和面部表情等非生理信號容易受到人的主觀控制，一些真實(shí)情感容易被掩蓋，因此對這些非生理信號進(jìn)行情感分類不易獲得準(zhǔn)確的結(jié)果。腦電信號是從大腦皮層直接獲得的，不易被掩蓋，并且它是由人的中樞神經(jīng)系統(tǒng)產(chǎn)生，而中樞神經(jīng)系統(tǒng)控制著人的情感表達(dá)，腦電信號可以實(shí)時(shí)并真實(shí)地反映出人的情感狀態(tài)，因此越來越多的研究人員使用腦電信號進(jìn)行情感識別研究。

特征提取和分類算法是腦電信號情感識別研究的主要內(nèi)容，由于腦電信號存在數(shù)據(jù)量少、數(shù)據(jù)復(fù)雜的特點(diǎn)，因此有效地提取腦電信號中有利于情感識別的特征對結(jié)果起著至關(guān)重要的作用。研究者從不同角度出發(fā)，得到了許多對腦電信號情感識別有效的特征，如時(shí)域和頻域上的統(tǒng)計(jì)特性（STA）和分形維數(shù)（Fractial Dimension，F(xiàn)D）［8］，它們被證明能有效地對腦電信號進(jìn)行情感分類。此外，還有頻域特征中的功率譜密度（Power Spectral Density，PSD），GANESH 等［9］在DEAP 數(shù)據(jù)集上，通過提取每位受試者的對稱通道的互相關(guān)系數(shù)、離散小波變換（DWT）系數(shù)、Hjorth 參數(shù)、PSD、波段能量等特征，使用支持向量機(jī)（SVM）和K 最近鄰（KNN）在特征融合的基礎(chǔ)上進(jìn)行情感分類，得到了較好的結(jié)果。根據(jù)DALTROZZO 等［10］對熟悉度作用的研究結(jié)果，THAMMASAN 等［11］將DEAP 數(shù)據(jù)集分為低熟悉度和高熟悉度的數(shù)據(jù)，通過提取PSD 和FD，使用多層感知器（MLP）、SVM 和C4.5 算法對高、低熟悉度的腦電信號分別進(jìn)行分類實(shí)驗(yàn)，其中使用SVM 對低熟悉度的PSD 特征進(jìn)行分類達(dá)到了最好的效果。ZHANG 等［12］提取了theta、alpha、beta 和gamma 4 個(gè)頻段的PSD 特征，首先使用Relief 算法進(jìn)行通道選擇，然后運(yùn)用SVM 和概率神經(jīng)網(wǎng)絡(luò)（PNN）進(jìn)行分類，均得到了較好的結(jié)果。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，許多新的特征提取方法和分類方法被引入腦電信號研究領(lǐng)域，如TRIPATHI 等［13］將DEAP數(shù)據(jù)集中的腦電數(shù)據(jù)按時(shí)序劃分為10 小段，分別提取均值、中位數(shù)、最大值、最小值、標(biāo)準(zhǔn)差、方差、偏度、峰度等統(tǒng)計(jì)特征，使用深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）作為分類器進(jìn)行分類，在二分類和三分類的結(jié)果上都優(yōu)于傳統(tǒng)的SVM 和KNN。此外，LI 等［14］對腦電信號進(jìn)行連續(xù)小波變換（CWT）后將其轉(zhuǎn)換為圖像并使用結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)（CNN）和遞歸神經(jīng)網(wǎng)絡(luò)（Recursive Neural Network，RNN）的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行腦電信號情感識別，KAWDE 等［15］直接使用深度信念網(wǎng)絡(luò)（DBN）在經(jīng)過帶通濾波器的腦電信號上進(jìn)行情感分類，ZHAN 等［16］設(shè)計(jì)一個(gè)淺的深度平行的卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行腦電的情感分類，均取得了很好的效果。

盡管深度神經(jīng)網(wǎng)絡(luò)的性能超過了傳統(tǒng)特征提取加分類器的方法，但現(xiàn)有的預(yù)測結(jié)果仍然有提升空間。由于腦電信號數(shù)據(jù)的復(fù)雜性，很少有研究將原始信號直接作為模型輸入，特征提取會損失部分?jǐn)?shù)據(jù)，包括信號之間的空間信息以及連續(xù)信號間的細(xì)微變化。但腦電信號的數(shù)據(jù)量限制又導(dǎo)致端到端的深度神經(jīng)網(wǎng)絡(luò)模型很難直接從深度學(xué)習(xí)模型中學(xué)習(xí)到與腦電信號情感識別相關(guān)的特征。因此，本文從近年來流行的特征抽取和深度學(xué)習(xí)的研究中得到啟發(fā)，構(gòu)建一個(gè)新的腦電信號情感識別模型框架，以在情感二分類和三分類問題上獲得較好的分類效果。

1 數(shù)據(jù)集及標(biāo)簽處理

1.1 數(shù)據(jù)集

為驗(yàn)證及充分比較本文方法的有效性，本文選擇DEAP 作為實(shí)驗(yàn)數(shù)據(jù)集，DEAP 是由KOELSTAR等［17］建立的多模態(tài)數(shù)據(jù)集，該數(shù)據(jù)集是專用于生理信號情感識別分析的開源數(shù)據(jù)集。DEAP 包括來自中樞神經(jīng)系統(tǒng)（Central Nervous System，CNS）和周圍神經(jīng)系統(tǒng)（Peripheral Nervous System，PNS）的信號，探索了通過向不同用戶播放各類音樂視頻并采集相應(yīng)生理信號，分析采集的生理信號對聽音樂時(shí)情感進(jìn)行分類的可能性。

KOELSTAR 等［17］招募32 名健康的受試者（50%為女性），年齡在19～37 歲之間，每位受試者在實(shí)驗(yàn)預(yù)設(shè)條件下，觀看40 段時(shí)長均為1 min 的音樂視頻，每段視頻結(jié)束后，受試者需要根據(jù)自身感受對喚醒度（Arousal）、效價(jià)度（Valence）、喜歡度（Liking）和優(yōu)勢度（Dominance）進(jìn)行評分，評分范圍為1～9。本文根據(jù)RUSSELL 等［18］提出的二維情感模型選擇Valence和Arousal表示情感，不同情感均可映射到模型中的一點(diǎn)，Valence 表示人的情感狀態(tài)從負(fù)性情感（消極、悲傷等）到正性情感（積極、高興等），Arousal表示人感受到的情感強(qiáng)度從弱（冷靜）到強(qiáng)（激動(dòng)）。該情感模型將Valence 和Arousal 映射到一個(gè)二維平面，并將二維平面分為4 個(gè)象限，第一象限為高效價(jià)度高喚醒度（HVHA），第二象限為低效價(jià)度高喚醒度（LVHA），第三象限為低效價(jià)度低喚醒度（LVLA），第四象限為高效價(jià)度低喚醒度（HVLA），如圖1 所示。

圖1 Valence-Arousal 二維情感模型Fig.1 Valence-Arousal two dimensional emotional model

每段音樂視頻會讓受試者產(chǎn)生不同的情感，DEAP 記錄了實(shí)驗(yàn)過程中每位受試者的腦電信號（EEG）和外周生理信號。腦電信號由32 通道的腦電采集設(shè)備采集，采樣頻率為512 Hz，電極位置參照國際10-20 電極法［19］。在腦電信號采集實(shí)驗(yàn)中，10-20 電極法是一種國際公認(rèn)的在頭皮放置電極位置的方法，該系統(tǒng)是基于電極的位置和大腦皮層的潛在區(qū)域之間的關(guān)系設(shè)計(jì)的，如圖2 所示，DEAP 數(shù)據(jù)集采集實(shí)驗(yàn)所用的32 個(gè)電極放置在頭皮上的位置為白色電極所在位置，黑色電極是未使用的電極。

圖2 10-20 系統(tǒng)中電極的位置分布Fig.2 Positions distribution of electrode in the 10-20 system

DEAP 數(shù)據(jù)集提供了兩種數(shù)據(jù)格式：第一種為原始數(shù)據(jù)采樣率為512 Hz，包括32 通道EEG 數(shù)據(jù)，由于采集設(shè)備的不同，1-22 通道數(shù)據(jù)以Twente 格式記錄，23-32 通道數(shù)據(jù)以Geneva 格式記錄，兩者的數(shù)據(jù)存儲形式也不相同；第二種為降采樣并統(tǒng)一數(shù)據(jù)格式后的數(shù)據(jù)，同樣有32 通道數(shù)據(jù)，但采樣率降至128 Hz。由于多數(shù)研究在后者上進(jìn)行實(shí)驗(yàn)，為了增加對比結(jié)果的有效性，本文選擇降采樣后的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。

1.2 標(biāo)簽處理

DEAP 數(shù)據(jù)集在采集過程中，需要每位受試者觀看40 個(gè)時(shí)長1 min 的音樂視頻片段，因此數(shù)據(jù)集包含32 位受試者的各40 段腦電信號數(shù)據(jù)?？紤]到情感的產(chǎn)生本身是一個(gè)復(fù)雜的過程，并且在情感誘發(fā)實(shí)驗(yàn)中，一般存在從平靜到情感激發(fā)再到平靜的過程，本文實(shí)驗(yàn)并不對數(shù)據(jù)進(jìn)行分片來擴(kuò)大數(shù)據(jù)集，而直接使用整段數(shù)據(jù)來預(yù)測腦電信號的情感。因此，本文使用的數(shù)據(jù)包含32×40=1280 段腦電信號，每一段信號有32 通道數(shù)據(jù)，每一通道代表一個(gè)電極采集的信號。每一通道數(shù)據(jù)持續(xù)63 s，其中前3 s 沒有意義，腦電信號采樣率為128 Hz，共8 064 次采樣，由于去除了前3 s 無效數(shù)據(jù)，因此本文所使用的原始數(shù)據(jù)大小為1280×32×7 680。按照8∶2 的比例，將數(shù)據(jù)隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集，其中訓(xùn)練集包含1 024 個(gè)數(shù)據(jù)，驗(yàn)證集包含256 個(gè)數(shù)據(jù)，進(jìn)行模型訓(xùn)練時(shí)，采用10 折-交叉驗(yàn)證對模型進(jìn)行驗(yàn)證。

由于標(biāo)簽是對于喚醒度（Arousal）和效價(jià)度（Valence）的連續(xù)值，因此在在二分類實(shí)驗(yàn)中，以5 為分界點(diǎn)將Arousal 和Valence 分為低等級和高等級，數(shù)值小于5 的為低等級，數(shù)值大于等于5 的為高等級；在三分類實(shí)驗(yàn)中，根據(jù)數(shù)據(jù)分布，以4 和6 為分界點(diǎn)將Arousal 和Valence 分為低、中、高三等級，每一等級的數(shù)據(jù)量相對均衡，即數(shù)值小于4 的為低等級，數(shù)值大于等于4、小于等于6 的為中等級，大于6 的為高等級。在將標(biāo)簽由連續(xù)值轉(zhuǎn)換成二分類標(biāo)簽和三分類標(biāo)簽的基礎(chǔ)上，本文在DEAP 數(shù)據(jù)上使用腦電信號分別進(jìn)行情感二分類和三分類。

本文的主要貢獻(xiàn)包括：

1）通過插值算法重建腦電信號間的位置關(guān)系，并作為深度學(xué)習(xí)模型的輸入，有效地提高了腦電信號情感分類的準(zhǔn)確率。

2）將時(shí)序卷積模型引入腦電信號情感識別。

3）時(shí)頻域信息融合模型結(jié)合時(shí)域信息、頻域信息和電極位置信息，在DEAP 數(shù)據(jù)集上得到了更好的分類準(zhǔn)確率。對于Valence 和Arousal，二分類準(zhǔn)確率分別為86.31%和85.57%，三分類準(zhǔn)確率分別為79.45%和78.96%。

2 模型與數(shù)據(jù)處理

2.1 時(shí)頻域融合模型

圖3 所示為本文腦電情感識別的流程框架。本文模型主要由3 個(gè)部分組成，分別利用從采集的原始腦電數(shù)據(jù)中抽取的時(shí)域特征、頻域特征中的功率譜密度序列以及從功率譜密度和電極相對位置還原的位置信息，在經(jīng)過特征融合后對Arousal 和Valence進(jìn)行分類。在不使用信息融合模型時(shí)，3 個(gè)部分?jǐn)?shù)據(jù)均可分別進(jìn)行情感分類。在此融合模型框架下，分別使用功率譜密度序列和功率譜密度分布圖進(jìn)行情感分類，將訓(xùn)練好的模型參數(shù)作為預(yù)訓(xùn)練模型參數(shù)，用于抽取對應(yīng)特征向量，最后將3 個(gè)部分的特征向量進(jìn)行特征層拼接后，使用全連接層預(yù)測最后的情感分類結(jié)果。

圖3 本文腦電信號情感識別融合模型框架Fig.3 The fusion model framework of EEG emotion recognition in this paper

2.2 功率譜密度序列模型

2.2.1 特征提取

頻域分析在腦電信號情感分類問題上已被證明具有很好的效果，因此充分利用腦電信號在頻域上的特性有利于提高模型分類準(zhǔn)確率。腦電信號根據(jù)其頻率范圍主要分為5 個(gè)頻段，分別為delta 波（1～3 Hz）、theta 波（4～7 Hz）、alpha 波（8～13 Hz）、beta 波（14～30 Hz）和gamma 波（31～45 Hz）。由于delta 波多在嬰兒智力發(fā)育不成熟和成人熟睡狀態(tài)時(shí)出現(xiàn)，因此本文使用4～45 Hz 的帶通濾波器對腦電信號進(jìn)行濾波，獲得去除delta 頻段的腦電數(shù)據(jù)。

對于單個(gè)電極而言，采集的腦電數(shù)據(jù)為一維離散變化數(shù)值，因此可以從時(shí)域和頻域兩方面對數(shù)據(jù)進(jìn)行分析。本文使用濾波器去除delta頻段后，在時(shí)域上，抽取包括均值、中位數(shù)、最大值、最小值、標(biāo)準(zhǔn)差、方差、偏度和峰度在內(nèi)的8 個(gè)統(tǒng)計(jì)特征。在頻域上，使用快速傅里葉變換后計(jì)算出theta、alpha、beta 和gamma 頻段的功率譜密度，設(shè)長度為N的腦電信號x（t），t的取值為0～N-1，經(jīng)過傅里葉變換的結(jié)果如下：

其中：k=0，1，…，N-1；ωk=2πk/N。腦電信號的功率譜密度是其自相關(guān)函數(shù)γ（i）的傅里葉變換，自相關(guān)函數(shù)如下：

其中：i=0，1，…，N-1。自相關(guān)函數(shù)為偶函數(shù)，因此有：

功率譜密度函數(shù)如下：

其中：k=-(N-1)，-(N-2)，…，0，1，…，N-1。

最終對于單個(gè)數(shù)據(jù)，可以得到了一個(gè)維度為4×32×M的序列，其中，4 代表4 個(gè)頻段，32 代表32 個(gè)通道，M表示有效窗口數(shù)。

2.2.2 序列模型

特征序列的長度M與窗口大小N的選取有關(guān)，在本文實(shí)驗(yàn)環(huán)境下，當(dāng)M=12 時(shí)，在功率譜密度序列模型上獲得最佳分類結(jié)果。此時(shí)對于任意頻段功率譜密度，得到的是一個(gè)32×12 的二維矩陣，由于CNN模型通過多個(gè)卷積層的疊加能獲得更大的感受野，可以捕獲通道間的位置關(guān)系以及單個(gè)通道間時(shí)序上的關(guān)系，在腦電信號情感識別任務(wù)上取得很好的效果，該模型使用2 個(gè)卷積層加2 個(gè)全連接層的結(jié)構(gòu)，其中卷積層的參數(shù)見表1，使用same padding，卷積層后的激活函數(shù)分別使用ELU 和ReLU，并使用BN，2 個(gè)全連接層前均加上系數(shù)為0.5 的Dropout 層，最后得到預(yù)測結(jié)果。

表1 卷積核參數(shù)Table 1 Convolution kernel parameters

2.3 功率譜密度分布圖模型

2.3.1 位置信息重建

盡管2.2.1 節(jié)通過時(shí)頻域分析在腦電信號上抽取了一些有用的特征，但由圖2 所示的DEAP 數(shù)據(jù)集采集時(shí)所參照的10-20 系統(tǒng)電極的位置分布可知，在數(shù)據(jù)采集過程中電極之間存在相對位置關(guān)系。而在2.2.1 節(jié)中，所有腦電信號處理都是以單個(gè)電極為單位進(jìn)行的，因此在以SVM 或KNN 等作為分類器，并使用從腦電信號上抽取的時(shí)域、頻域特征進(jìn)行情感識別時(shí)，無法引入電極間的相對間的相對位置關(guān)系。在使用深度學(xué)習(xí)模型時(shí)，直接使用原始腦電信號序列或統(tǒng)計(jì)特征，盡管通過DBN 或CNN 進(jìn)行學(xué)習(xí)時(shí)，模型有能力學(xué)習(xí)位置關(guān)系，但由于數(shù)據(jù)量較小，很難學(xué)習(xí)到準(zhǔn)確的位置關(guān)系。因此，本文通過對數(shù)據(jù)進(jìn)行位置信息重建，引入位置信息使得模型可以直接使用腦電信號中的位置關(guān)系，提高腦電信號情感識別的準(zhǔn)確率。

本節(jié)將從位置計(jì)算和插值計(jì)算2 個(gè)方面詳細(xì)介紹位置信息重建的具體過程。為了能準(zhǔn)確地計(jì)算電極位置，需要詳細(xì)介紹10-20 電極法中電極位置分布規(guī)則，10 和20 均代表圓周上電極間的距離，其中，10代表間隔距離為半圓周的10%，20 代表間隔距離為半圓周的20%。20%間隔的電極包括Fp1、Fp2、F8、T8、P8、O2、O1、P7、T7、F7，將上述10 個(gè)電極順時(shí)針相連相鄰兩點(diǎn)間的距離均為半圓周的20%，同時(shí)Fp1、Fp2、O2、O1與鼻子為軸的中軸線間的距離均為半圓周的10%。同樣地，在上述10 個(gè)電極中間等間隔放置10 個(gè) 電極Fpz、AF8、FT8、TP8、PO8、OZ、PO7、TP7、FT7、AF7后，20 個(gè)電極間的間隔距離均為半圓周的10%。在得到圓周上20 個(gè)電極的位置后，分別作過AF7和AF8、F7和F8、FT7和FT8、TP7和TP8、PO7和PO8，并垂直于中軸線的連接線，對連線上的電極作等距離劃分，得到剩下全部電極的位置。

在確定了電極的位置后，以Cz 電極的位置為中心，建立實(shí)際數(shù)據(jù)采集過程中的電極所處的大腦平面至二維平面的映射規(guī)則。由于不同電極間的距離相差較大，而當(dāng)目標(biāo)二維平面較小時(shí)，不同的距離被壓縮成同樣的大小，為了保留位置間的細(xì)微區(qū)別，二維平面的大小被設(shè)置成64×64，此時(shí)20 個(gè)電極所處圓的半徑為24。根據(jù)上述建立的平面映射規(guī)則，每一個(gè)電極對應(yīng)二維平面上的一個(gè)坐標(biāo)點(diǎn)，將某一時(shí)刻電極采集的信號強(qiáng)度作為該點(diǎn)的數(shù)值，就獲得了一個(gè)二維稀疏矩陣，稀疏數(shù)據(jù)不利于深度學(xué)習(xí)的模型，因此本文使用插值算法對稀疏矩陣進(jìn)行填充。

插值算法被廣泛應(yīng)用于圖像處理領(lǐng)域，如對圖像進(jìn)行縮放時(shí)會使用雙線性內(nèi)插值法［20］、線性插值三角網(wǎng)法［21］等插值算法，使得放大后的圖像盡可能平滑，在進(jìn)行地理圖像重構(gòu)時(shí)會使用反距離加權(quán)插值法［22］、規(guī)則樣條插值算法等還原地理表面。不同于為了讓圖像看起來自然的圖像插值算法，腦電信號有本身的特點(diǎn)。腦電信號由不同腦部區(qū)域產(chǎn)生，同區(qū)域內(nèi)不同電極數(shù)值相關(guān)性大而不同區(qū)域內(nèi)數(shù)值相關(guān)性小，同時(shí)腦電信號存在非平穩(wěn)和非線性的特點(diǎn)，本文使用非線性加權(quán)插值的方法對稀疏矩陣進(jìn)行填充。由于電極間位置越近，電極采集數(shù)據(jù)之間的影響越大，考慮到腦電信號非線性的特點(diǎn)，使用反比例函數(shù)對腦電信號進(jìn)行加權(quán)。式（5）中包含的反比例函數(shù)權(quán)重隨著距離的增加迅速衰減，既反映了腦電信號的非線性變化，同時(shí)也使得距離遠(yuǎn)的位于不同區(qū)域的腦電信號間的影響很小，有效反映了不同電極間的信號的相互作用。位于位置(x，y)的腦電信號強(qiáng)度valx，y等于不同電極采集數(shù)據(jù)的加權(quán)的和，單個(gè)電極對位置(x，y)的影響vali，(x，y)可表示為：

其中：λ是反比例函數(shù)的參數(shù)，其控制了信號衰減的速率，λ越小信號衰減速率越快，本文選擇的λ=0.1；vali表示電極i的采集值；dx，y表示位置(x，y)距離電極i的距離，由歐拉距離表示：

其中：xi和yi表示電極i的位置。因此，位置(x，y)的腦電信號強(qiáng)度valx，y可表示如下：

本文在對位置信息進(jìn)行重建時(shí)，并沒有直接使用原始腦電信號，而是使用功率譜密度。因?yàn)楫?dāng)直接使用腦電信號進(jìn)行位置信息重建時(shí)，每次采集的信號會轉(zhuǎn)換得到一個(gè)信號強(qiáng)度矩陣，而每一個(gè)數(shù)據(jù)樣本包含7 680 次采樣數(shù)據(jù)。由圖4（a）可知，在使用原始信號進(jìn)行位置信息重建時(shí)，相鄰幀的變化很大，無法通過如處理視頻文件時(shí)，等間隔抽取數(shù)據(jù)而不影響數(shù)據(jù)的相對完整性，同時(shí)可以看到，圖4（b）所代表功率譜密度隨時(shí)間變化并不明顯。而時(shí)間長度為7 680 的序列，現(xiàn)階段很難使用時(shí)序CNN 和RNN 進(jìn)行學(xué)習(xí)。因此，本文使用2.2.1 節(jié)中通過計(jì)算原始腦電信號的自相關(guān)函數(shù)γ（i），并進(jìn)行傅里葉變換后獲得的功率譜密度進(jìn)行位置信息重建，該數(shù)值反映了腦電信號在頻域上的分布。信息重建的時(shí)間單位為時(shí)間窗口大小N，在該窗口時(shí)間內(nèi)的腦電信號分別計(jì)算theta、alpha、beta 和gamma 頻段的功率譜密度。同一個(gè)時(shí)間窗口內(nèi)的數(shù)據(jù)，在每一個(gè)頻段上的32 個(gè)電極的功率譜密度會被重建為一個(gè)包含位置信息的二維矩陣。因此，對于一個(gè)數(shù)據(jù)樣本，最后可以獲得大小為4×M×64×64 的時(shí)序數(shù)據(jù)，其中，4 代表4 個(gè)頻段，M為有效窗口數(shù)，重建數(shù)據(jù)大小為64×64 的二維矩陣，如圖4（b）所示。

圖4 位置信息重建Fig.4 Reconstruct of position information

2.3.2 分布圖模型

在本文實(shí)驗(yàn)環(huán)境下，當(dāng)有效窗口數(shù)M=23 時(shí)，在功率譜密度分布圖模型上獲得最佳分類結(jié)果。此時(shí)對于任意頻段功率譜密度，有23 個(gè)有效窗口，每一個(gè)時(shí)間窗口內(nèi)的32 通道的頻段功率譜密度被轉(zhuǎn)換成一個(gè)二維矩陣，因此輸入為4 通道，每一通道為64×64×32 的三維矩陣，該模型使用same padding 和4 個(gè)3D 卷積核以及一個(gè)全連接層和1 個(gè)softmax 層去預(yù)測Arousal 和Valence 類別，每個(gè)3D 卷積核間均存在一個(gè)3D 最大池化層和批標(biāo)準(zhǔn)化（Batch Normalization，BN）層，3D 卷積核的參數(shù)如表2所示，最后全連接（Fully Connected，F(xiàn)C）層輸入維度為1 024，當(dāng)進(jìn)行二分類時(shí)輸出維度為2，當(dāng)進(jìn)行三分類時(shí)輸出維度為3。

表2 3D 卷積核參數(shù)Table 2 3D convolution kernel parameter

2.4 多模數(shù)據(jù)融合及情感分類

由2.2 節(jié)和2.3 節(jié)可知，單一的功率譜密度序列模型和功率譜密度分布圖模型均可直接被用來進(jìn)行情感分類，除了對結(jié)果直接進(jìn)行加權(quán)求和獲得最后結(jié)果外，本文也采取了特征融合，由于數(shù)據(jù)量較少，直接使用端到端模型難度很大，因此本文采取分步預(yù)訓(xùn)練的方法，即將2.2 節(jié)和2.3 節(jié)中訓(xùn)練好的模型作為特征抽取器，將功率譜密度分布圖轉(zhuǎn)換為1 024 維序列，將功率譜密度序列圖轉(zhuǎn)換為386 維序列，再使用直接拼接的方法將兩者以及時(shí)域特征拼接成1 418 維向量，最后使用一個(gè)全連接層和softmax 層進(jìn)行情感分類。

3 實(shí)驗(yàn)結(jié)果與分析

由于本文所使用的模型由三部分組成，均可直接用于情感分類，本節(jié)對不同部分的分類效果進(jìn)行說明，同時(shí)與已存在研究所使用方法的結(jié)果進(jìn)行對比，以證明本文模型的有效性。

3.1 二分類結(jié)果

3.1.1 窗口大小對模型結(jié)果的影響

通過改變窗口大小和步長可以得到不同的有效窗口數(shù)，窗口數(shù)會影響功率譜密度分布圖模型和功率譜密度序列模型的預(yù)測結(jié)果，進(jìn)而影響整個(gè)融合模型的結(jié)果，表3 和表4 均給出不同窗口大小對應(yīng)的有效窗口數(shù)，以及分別使用功率譜分布圖模型和功率譜密度序列模型在二分類上的準(zhǔn)確率。由表3 和表4 的結(jié)果可知，窗口大小設(shè)置為640 時(shí)可以取得最好的分類準(zhǔn)確率，窗口設(shè)置的過大或者過小時(shí)分類準(zhǔn)確率都會降低（粗體表示最優(yōu)值）。結(jié)果表明，當(dāng)時(shí)間窗口設(shè)置的較小時(shí)，不能有效地提取到腦波信號中與情感有關(guān)的信息，或造成一定的信息丟失；當(dāng)窗口設(shè)置的較大時(shí)，又可能會造成一些與情感相關(guān)的特征與其他無關(guān)特征混淆，混入冗余信息。在不同頻段的二分類結(jié)果如圖5 所示。

表3 窗口大小對PSD 分布模型的影響Table 3 Influences of window size for PSD distribution model

表4 窗口大小對PSD 序列模型的影響Table 4 Influences of window size for PSD sequence model

圖5 不同頻段的二分類結(jié)果Fig.5 Binary classification results of different bands

3.1.2 模型各部分效果分析

本文中模型的不同部分對于模型最后預(yù)測結(jié)果的作用是不相同的，本文分別運(yùn)用分布圖、序列、時(shí)域、分布圖模型+序列模型進(jìn)行特征融合，運(yùn)用分布圖模型+時(shí)域模型進(jìn)行加權(quán)求和，運(yùn)用分布圖模型+序列模型+時(shí)域加權(quán)求和、分布圖+序列+時(shí)域進(jìn)行特征融合。通過7 種方法對Valence 和Arousal分別進(jìn)行二分類，其中加權(quán)求和均為求均值，表5 所示為消融分析下各方法的分類結(jié)果。由表5 數(shù)據(jù)可以看出，分布圖+序列+時(shí)域特征融合的方法對Valence 和Arousal 分類能得到最好的結(jié)果，準(zhǔn)確率分別為86.31%和85.57%（粗體表示最優(yōu)值）。

表5 不同模型各部分對最后結(jié)果的影響Table 5 Influence of each part of the different model on the final result

3.1.3 不同模型對比

除本文所使用到的模型外，研究人員還提出了一系列的方法。文獻(xiàn)［11］通過提取功率譜密度特征，使用SVM 對其分類，在Valence 和Arousal 上的準(zhǔn)確率分別為72.5%和73.30%。文獻(xiàn)［12］同樣是提取功率譜密度特征，使用概率神經(jīng)網(wǎng)絡(luò)得到的分類準(zhǔn)確率分別為81.21%和81.26%。文獻(xiàn)［13］通過提取不同的統(tǒng)計(jì)特征，使用卷積神經(jīng)網(wǎng)絡(luò)對其分類得到的準(zhǔn)確率為81.41%和73.36%。文獻(xiàn)［14］對腦電進(jìn)行連續(xù)小波變換后將其轉(zhuǎn)換為圖像，使用CNN+RNN 得到的準(zhǔn)確率為72.06%和74.12%。文獻(xiàn)［15］使用深度信念網(wǎng)絡(luò)對腦電信號分類的準(zhǔn)確率為78.28%和70.23%。將文獻(xiàn)［11-15］中的方法作為對比方法，與本文中的分布圖+序列+時(shí)域特征融合分類方法進(jìn)行結(jié)果對比，如表6 所示。由表6 數(shù)據(jù)可知，本文所提出的分布圖+序列+時(shí)域特征融合模型，由于融合了多模態(tài)數(shù)據(jù)，并引入了位置信息，可以得到很好的分類準(zhǔn)確率，效果優(yōu)于其他方法。

表6 不同腦電信號情感分類方法比較Table 6 Comparison of different EEG emotion classification methods %

3.2 三分類結(jié)果

本文同樣使用了二分類結(jié)果中的7種方法對Valence和Arousal分別進(jìn)行了三分類，不同方法的三分類結(jié)果如表7 所示。由表7 可以看出，三分類與二分類的結(jié)果類似，同樣是使用分布圖+序列+時(shí)域特征融合方法能得到最好的分類結(jié)果，準(zhǔn)確率達(dá)到79.45%和78.96%。

表7 不同模型的三分類結(jié)果Table 7 Three classification results of different models

3.3 二分類和三分類結(jié)果對比

由于腦電本身就是一種非線性和非平穩(wěn)的隨機(jī)信號，分類算法在訓(xùn)練和測試的過程中隨著識別情感類別的增加，損失也會增加，所以每種方法下的三分類準(zhǔn)確率會低于二分類準(zhǔn)確率。圖6 展示了本文中的7 種分類方法對Valence 的二分類和三分類結(jié)果對比，從圖中可以明顯看出，7 種方法對Valence 的三分類準(zhǔn)確率均低于二分類準(zhǔn)確率。此外，不同方法對Arousal 的三分類準(zhǔn)確率同樣低于二分類準(zhǔn)確率，此處僅以Valence 為例進(jìn)行直觀表示。

圖6 二分類和三分類結(jié)果對比Fig.6 Comparison of results in binary classification and three classification

4 結(jié)束語

深度學(xué)習(xí)方法在眾多研究領(lǐng)域中效果較好，尤其在數(shù)據(jù)量較大的情況下，端到端的模型可避免不正確的手工特征影響分類結(jié)果，但在腦電信號情感識別領(lǐng)域，由于數(shù)據(jù)量不大，很難直接訓(xùn)練得到有效的端到端模型。本文在現(xiàn)有研究的基礎(chǔ)上，提出一種基于功率譜密度的腦電信號位置信息重建方法。該方法構(gòu)建的深度學(xué)習(xí)模型能直接利用電極間的位置信息，并與傳統(tǒng)特征結(jié)合分類器的模型進(jìn)行有效融合。實(shí)驗(yàn)結(jié)果表明，在對Valence 和Arousal 進(jìn)行二分類和三分類的任務(wù)上，該方法分別取得了86.31%和85.57%、79.45%和78.96%的準(zhǔn)確率。本文方法直接在時(shí)域上使用原始腦電信號效果并不顯著，下一步將結(jié)合神經(jīng)科學(xué)相關(guān)知識在短時(shí)片段上進(jìn)行位置信息重建，通過特定模式識別在整體上實(shí)現(xiàn)腦電信號情感分類。