顏勇君,龍柏睿,張肖霞,童煉
1.湖南工業大學計算機學院,湖南 株洲 412007;2.廣東工業大學計算機學院,廣東 廣州 510006;3.長沙學院計算機科學與工程學院,湖南 長沙 410022
情緒在我們日常生活中扮演著重要的角色,因此在建立人機情感互動方面,情緒識別變得越來越重要[1]。近年來,腦電波受到了廣泛的研究,因為其可以提供一種簡單、便攜和易于使用的情緒識別解決方案[2]。在腦機接口(BCI)中,情緒識別是計算機了解人類狀態的一項重要任務[3]。深度學習作為一種自動學習特征的方法,可以自動在數據中提取特征,并對網絡學習到的特征進行進一步分類或回歸[4]。在情緒識別任務中,深度學習方法包括卷積神經網絡(CNN)、長短時記憶網絡(LSTM)、門控循環單元(GRU)等,這些方法不需要人工進行特征提取,可以適應復雜的任務和大量的數據[5]。目前,深度學習在基于腦電信號的情緒識別領域中展現出了很好的效果[6]。
本研究的貢獻在于驗證了一種緊湊的卷積神經網絡EEGNet 在用于處理腦電信號時具有更好的性能和更少的參數量。實驗通過情緒識別相關腦電數據集的選取、腦電信號原始數據的預處理、超參數的優化訓練、模型的訓練等步驟實現了對常用的腦電情緒識別數據集SEED 和SEED-IV 的情緒分類,在三分類和四分類的任務上分別達到了85.3%和73.3%的準確率,表明了EEGNet 在處理情緒相關腦電信號方面的可行性及有效性。
實驗數據集均由上海交通大學的BCMI 實驗室提供。實驗共計15 名受試者,其中有7 名男性和8 名女性,平均年齡為23 歲。對每個參與者在不同的時間里進行了3 次實驗。數據集中包含對EEG原始信號降采樣到200Hz,采用0—75Hz 帶通濾波器的預處理原始腦電數據,以及通過人工特征提取所得到的如差分不對稱(DASM)和有理不對稱(RASM)等特征數據。上述特征適用于情緒分類的任務,其中DASM 是指不同腦電信號間的差異,而RASM 是指不同腦電信號間的比率[7]。SEED 數據集提供的情緒類別為3 種,分別為積極、中性和消極;SEED-IV 數據集提供的情緒類別為4 種,分別為恐懼、悲傷、中性和喜悅。數據集相關概要信息如下表1 所示。

表1 數據集概要
1.1.1 SEED 數據集
實驗人員在6 部中文電影中選取了15 個電影片段的剪輯作為實驗中的刺激,這些電影片段數量均等地對應上述3 種情緒,每段影片剪輯無特定說明且持續時間在4 min 左右,經過精心編輯,以保持每段剪輯能產生連貫的情感,并最大化情感含義[8]。
每次實驗的過程中,受試者需要將15 個實驗片段全部看完,因此每次實驗均有15 個實驗樣本,受試者在觀看每段影片剪輯前有5 s 的提示時間,觀看完畢后有45 s 的自我評估時間和15 s 的休息時間。通過精心的實驗順序安排,確保了同一情感對應的影片不會連續顯示。
1.1.2 SEED-IV 數據集
實驗人員精心選取了72 個電影片段的剪輯作為刺激,將其劃分為3 組,以每組24 個電影片段的方式進行了實驗,這些電影片段數量均等地分別對應上述4 種情緒,每段影片無特殊說明且持續時間為2 min 左右[9]。
每次實驗的過程中,受試者需要將24 個實驗片段全部看完,因此每次實驗均有24 個實驗樣本,受試者在觀看每段影片剪輯前有5 s 的提示時間,觀看完畢后有45 s 的自我評估時間和15 s 的休息時間。通過精心的實驗順序安排,確保了同一情感對應的影片不會在實驗中連續顯示。
1.2.1 在SEED 數據集上的預處理
在SEED 數據集中,經預處理的腦電信號數據的采樣率為200Hz,即每秒的采樣點數為200,受試者所觀看的電影片段長度為3—4 min,故每段影片片段所對應采集的腦電信號數據樣本的采樣點數不盡相同。為確保盡可能地保留腦電信號原始數據中的時序特征,預處理時在15 個電影片段對應的實驗樣本中,以采樣點數最少的樣本為基準,使用數據裁剪的方法,對所有樣本的采樣點數進行歸一化處理,最終所得的樣本形狀為(62,37 001)。其中,62 代表的是數據采集的刺激實驗中的62 個腦電極,37 001代表的是歸一化處理對象樣本中采樣點數的最小值。
1.2.2 在SEED-IV 數據集上的預處理
在SEED-IV 數據集中,經預處理的腦電信號數據的采樣率同樣為200Hz,受試者所觀看的電影片段長度為2—4 min,相比于SEED數據集,各影片片段所對應采集的腦電信號數據樣本的采樣點數差異更大。為盡可能地保留腦電信號原始數據中的時序特征的同時避免破壞數據本身的特征,本次實驗沒有使用插值法對腦電信號數據進行處理,而是在丟棄了部分采樣點數過少的樣本后對剩余的樣本進行了裁剪處理,裁剪方法與處理SEED 數據集所使用的方法相一致。經歸一化后所得的樣本形狀為(62,30 601)。其中,62 為實驗所使用的腦電極數,30 601 為歸一化處理對象樣本中采樣點數的最小值。
EEGNet 是一種緊湊的卷積神經網絡架構,可用于基于EEG 的多種腦機接口范式[10]。EEGNet可在數據量非常有限的情況下進行訓練,并且可以產生神經心理學可解釋的特征。
所謂卷積操作,本質是對輸入數據進行加權求和,其中的權重由卷積運算中的卷積核控制,并且在訓練過程中,卷積核中的數值也會通過計算梯度進一步進行調整。整個卷積神經網絡可以抽象為如下所示的公式,其中f所代表的是特征圖,M和K分別代表卷積核的深度和大小,w和b代表權重和偏執,σ代表的是激活函數。其中,上下標中的l代表卷積神經網絡的層數,i和j分別代表行數和列數,k和m為數量序號。
EEGNet 的總體網絡結構如表2 所示,網絡中的卷積層均為一維卷積,網絡結構圖中使用二維卷積僅為便于軟件實現。EEGNet 接受形狀為(C,T)的數據輸入,其中C為腦電信號的通道數,T為腦電信號的采樣點數,數據經過升維操作后以(1,C,T)的格式輸入網絡。

表2 EEGNet 網絡結構
EEGNet 網絡中先后使用了深度卷積和可分離卷積對輸入數據進行卷積操作,如圖1 所示[1],相比于常規的卷積操作,由于深度卷積僅在數據的各通道內進行卷積操作,而非對數據的每個位置都進行卷積,在腦電信號的處理中,這樣的卷積有利于對各通道內腦電數據時序信息的提取,因此在EEGNet 中深度卷積核又被稱為時序濾波器,其長度在EEGNet 中被定義為F1,是可針對數據集中數據的采樣率進行自定義的超參數之一。而后續的可分離卷積則是深度卷積和逐點卷積的結合,以同樣的方式進一步降低模型的參數量,使EEGNet 成為一個緊湊而輕量化的卷積神經網絡。

圖1 EEGNet 網絡中的卷積操作
深度卷積(Depth-wise Convolution)是一種逐通道卷積的卷積方式,每個通道僅被一個卷積核進行卷積,其卷積核形狀為(S,1,C),其中S為卷積核的長度,1 代表輸入數據維度為一維,C表示輸出數據被拆分的通道數,因此經過卷積操作后所得到的特征圖(Feature Map)的數量即為變量C所定義的通道數,而傳統卷積操作后往往會對特征圖進行擴展,訓練的參數量也更大。但由于深度卷積僅在每個通道內進行卷積操作,而忽略了不同通道在空間上的特征信息,因此需要在逐通道卷積操作后進行逐點卷積,將所得到的特征圖重新組合生成新的特征圖。
可分離卷積(Separable Convolution)本質上是一種逐通道卷積和逐點卷積(Point-wise Convolution)相結合的卷積方式。其中的逐點卷積的方式與傳統卷積十分相似,其卷積核形狀為(1,1),此時網絡上一層輸出的每一個特征圖的格式為(1,T//4),其中T為最初輸入數據的采樣點數。因此,逐點卷積對每一個特征圖都進行了單獨的卷積操作,經過卷積操作后所得到的特征圖的數量即為卷積核的數量,該數值在EEGNet 中被定義為F2,可作為網絡中的超參數進行修改,本層卷積在深度方向上對其進行了加權組合,進而對不同通道間在空間維度上的特征進行提取。普通卷積和可分離卷積的區別如圖2 所示。

圖2 普通卷積和可分離卷積的區別
在每個卷積層后,EEGNet 使用了批量標準化(Batch Normalization)實現對輸入數據的正則化操作,使輸入的數據在深度學習優化過程中的分布相對穩定,即網絡中每一層輸入數據的均值和方差都保持在一定范圍內,因此下一層網絡不必不斷去適應底層網絡輸入的變化,從而實現網絡內的層間解耦,允許每一層進行獨立學習,提高了整個網絡的學習速度,減少權重較大的特征淹沒權重較小的特征這一情況的出現,弱化了網絡模型對內部參數的敏感性,有效提升網絡模型在特征分布不規律的數據上的收斂效果。
輸入數據在經過批量標準化過后,將通過ELU(Exponential Linear Unit)激活函數,為網絡模型添加更多的非線性元素,使網絡能在非線性的關系中也能有更好的擬合效果。相比于其他的線性非飽和函數,如ReLU 函數及其變體函數,ELU 函數對于所有負值輸入經過激活后都能得到非零的輸出,因此使用ELU 函數時不存在“神經元死亡”的問題,其在提升網絡擬合能力的同時也有效地避免了梯度爆炸和梯度消失問題的出現。ELU 激活函數的公式如下:
激活層之后的是池化層(Pooling),池化的目的是對數據進行降維操作,去除了數據中的冗余信息,降低了網絡中計算的參數量,能在一定程度上防止過擬合現象的發生。EEGNet 網絡中使用了平均池化(Average Pooling)來對數據進行處理,即對池化核對應的數據進行加權平均,保留了卷積后數據的整體特征。隨后數據將通過Dropout 操作訓練期間對網絡中的輸入進行隨機變換,依據一定的概率將部分神經元的輸出值設置為0,這部分被拋棄的神經元將不會參與參數前向傳播和反向傳播的過程,防止神經元之間產生共適應,減輕網絡在訓練過程中的過擬合問題,增加了網絡模型的多樣性和健壯性。
輸入數據分別經過兩層特殊卷積以及上述處理后將通過全連接層進行特征空間變換,數據最終被壓縮成模長為輸出維度數的一維向量,而后該向量將經過Softmax 層進行激活,將神經網絡的輸出進行歸一化處理。其中Softmax 激活函數的公式如下所示:
在該函數中,分子通過自然指數函數將輸入數據中實數映射到0 到正無窮的范圍上,分母則將輸入數據中經過映射的實數求和,進而使得輸入數據被轉換為不同情緒類別中的概率分布。
EEGNet 作為一種緊湊的卷積神經網絡,目前已成功地應用于涉及不同類型EEG 信號的多個任務中,例如P300 視覺誘發電位、錯誤相關負性反應(ERN)和運動節律(SMR)等,在多個腦電相關的數據集上展現出了良好的泛化能力。
得益于深度卷積層的應用,EEGNet 在處理數據的時序特征上有著更優秀的能力,因此,EEGNet對無特征工程的原始腦電數據有著出色的分類效果。傳統的卷積神經網絡在處理原始腦電特征時,往往忽略了腦電信號中的時序信息,而對不同通道在空間維度上的特征更加敏感,因此在包含時序特征的原始腦電數據上的分類效果相對較差。
針對SEED 數據集中經人工提取的特征數據,如腦電數據的微分熵特征,同時嘗試使用支持向量機(SVM)這一傳統的分類方法對數據直接進行分類。
支持向量機(Support Vector Machine,SVM)是一類按監督學習方式對數據進行二元分類的廣義線性分類器,該算法的決策邊界是對學習樣本進行求解所得的最大邊距超平面,進而通過該決策邊界進行分類。該算法的基本思想是在樣本數據的特征空間上找到一個最優超平面,使該超平面能夠將不同類別的樣本分開,并且使不同類別之間的間隔最大。SVM 通常用于二元分類問題,也可以推廣至多元分類的問題,在多元分類的情況下,通常將問題分解為多個二元分類的子問題,再利用SVM 進行分類。
但支持向量機作為傳統的分類方法仍然存在著一些局限性,例如當數據噪聲較大或實驗數據分布為非線性的情況時,其分類效果往往不夠理想。傳統機器學習方法需要手動進行特征提取和選擇,并對數據進行歸一化、縮放等處理,這需要領域專業知識和經驗。而EEGNet 使用卷積神經網絡,可以自動提取特征,并且對于不同尺度、頻率的信號具有較好的適應性。
使用EEGNet 進行分類任務時,理解網絡所學到的特征對于保證模型的可靠性至關重要。模型所產生的分類結果需要確保不是由于數據中的噪聲或異常值引起的,而是由相關特征所驅動的。
EEGNet 通過在深度卷積網絡中使用專門的濾波器和一維卷積,可以提取到更有意義和區分性的特征,因此可以更好地進行情緒分類任務。另外,EEGNet采用的卷積方式較傳統的CNN更加局部化,可以更好地保留信號的空間特征,這樣在處理EEG信號時可以更好地保留空間信息,從而可以更好地識別不同的腦電波形式,有助于提高情緒分類的準確性。另外,由于EEGNet 采用的是一維卷積,在網絡的輸入輸出上易于解釋。在輸入方面,EEGNet 中的每個特征通道都可以被視為對應于不同電極對應采集的腦電信號。在輸出方面,EEGNet 的每個類別都可以被視為對應于腦電信號的不同情感狀態。
事件相關電位(ERP)是一種腦電生理學的測量方法,用于研究特定的感知、認知或運動事件對大腦電活動的影響。事件相關電位是通過將大量的腦電信號進行平均來獲得的,以消除隨機噪聲和增強事件相關的電位。事件相關電位可以提供有關大腦對特定事件的反應時間和神經機制的信息。常見的事件相關電位包括P300、N400 和MMN 等。目前,EEGNet 已經在基于事件相關電位(ERP)的腦電信號數據集上得到了較為廣泛的應用。
EEGNet 在使用P300 信號的數據集上進行了被試者間分類(Cross-Subject Classification)的實驗,即利用數據集中的一組被試的數據來訓練EEGNet模型,并在另一個不同的被試組的數據集上進行分類預測。該數據集是通過對受試者進行重復的“非目標性”視覺刺激所收集的基于事件相關電位的腦電數據集,反映了大腦對特定刺激的認知和注意的過程。在最終的測試中,EEGNet 的預訓練模型在該數據集上的二分類準確率達到了90%左右。
上述實驗充分體現了EEGNet 在基于事件相關電位的腦電信號上出色的泛化能力。事件相關電位的腦電數據是通過刺激和響應測量而產生的,而非通過受試者的自由思考和行為表現而獲取,在數據收集的過程中,實驗條件和刺激都能得到有效的控制,以獲得可重復的結果。同時,事件相關電位是在刺激后幾毫秒至幾百毫秒內形成的,因此具有非常高的時間分辨率,有效地捕捉了腦電活動的快速變化及其時域特征。
在情緒識別領域,事件相關電位同樣是一種常用的腦電信號測量方法,SEED 和SEED-IV 數據集即使用影片片段作為視覺刺激所收集的事件相關電位的腦電數據集,適合用于EEGNet 的訓練與測試。
3.1.1 在SEED 數據集上的實驗
針對SEED 數據集中經特征工程處理后的數據,進行了支持向量機(SVM)這一傳統的機器學習分類方法的分類實驗。這部分數據由15 位受試者經3 次實驗得來,共計45 組實驗數據,每組實驗數據中包含15 個腦電數據的特征樣本,其數據格式為(62,T),其中T為該數據對應影片刺激的時長,單位為s。
在支持向量聚類(SVC)中進行了基于RBF核函數的數據分類實驗,其基本思想是將輸入空間映射到一個高維的特征空間中,使得在該特征空間中可以更容易地進行線性分類。具體來說,RBF 核函數可以使低維空間中的數據映射到無窮維的空間中,從而可以捕捉到更多的數據信息。在RBF 核函數中,每個樣本點都被看作一個基函數,而它們之間的距離則用高斯函數進行計算。因此樣本點之間的相似性就可以通過它們在高斯函數下的距離來度量,距離越近的點相似度越高。
同時選取了基于線性動態系統(LDS)方法得到的微分熵(DE)數據。微分熵數據是對腦電信號進行微分處理后,通過計算微分信號的熵值來描述腦電信號復雜性和隨機性的一類數據,其計算方式是將微分處理后的信號離散化為若干個狀態,結合每個狀態出現的概率,再通過熵的定義所計算得來。由于微分熵是基于時間序列的熵的概念,其計算充分考慮了信號的變化率和時間間隔,保留了原始數據中的時序信息,因此常用于研究腦電信號的時域特征,亦可直接用于腦電信號的分類。
在腦電信號的delta 波段、theta 波段、alpha波段、beta 波段和gamma 波段中,theta 波段(4—8Hz)多出現在輕度睡眠、沉思和冥想狀態,alpha波段(8—13Hz)多出現在放松、專注和集中狀態,因此,上述波段對應的腦電數據與人的情緒相關度更高。實驗中也將theta 波段和alpha 波段對應的特征數據作為研究對象開展分類實驗,雖然相較于傳統的機器學習方法,深度學習在處理復雜數據的分類問題上有著更強的表達能力,但這一分類結果能為基于深度學習方法的情緒分類實驗提供一個可供參考的標準。實驗依據3∶2 的比例將每組實驗中的15 個數據樣本劃分為訓練集與測試集,在三分類情況下,theta 腦電波段最終所得的平均分類準確率為61.7%,如圖3 所示;alpha 腦電波段最終所得的平均分類準確率為63.4%,如圖4 所示。

圖3 theta 波段特征數據在SVM 分類器上的分類準確率及其平均分類準確率

圖4 alpha 波段特征數據在SVM 分類器上的分類準確率及其平均分類準確率
SEED 數據集中的原始腦電數據同樣對應45組實驗數據,每組實驗數據中包含15 個二維腦電原始數據樣本,分別對應唯一的標簽序列,在時間維度對數據進行歸一化處理后輸入EEGNet 網絡進行訓練。
訓練中使用的損失函數為交叉熵函數,作為凸函數,在訓練過程中不存在局部最優解的問題,故在梯度下降等優化算法中可以有效地找到全局最優解,交叉熵可用于判斷兩個概率分布之間的差異性大小,在衡量模型分類能力的任務中有很高的適用性。訓練中使用的優化器函數為Adam 優化器,相比于傳統的梯度下降法,Adam 優化器不需要手動地調節學習率,而是根據梯度的一階矩估計(梯度的均值)和二階矩估計(梯度的無中心矩)自適應地調節每個參數的學習率。訓練過程中的學習率使用了StepLR 學習率調整機制進行自衰減,每經過5 輪學習,學習率將降低為原來的90%。其中Adam 優化器的公式如下所示,θ為EEGNet 中全體參數構成的向量;m為沖量,當對模型優化參數時可輔助進行方向修正,使參數優化不僅僅依靠梯度,避免了優化時陷入鞍點;v-hat為指數移動均值,根據梯度計算得來;下標t表示當前時刻,t-1為上一時刻。
關于EEGNet 網絡,其深度卷積層(Depthwise Convolution)中的卷積核,即時序濾波器的長度被設置為了100。這是因為當時序卷積核的長度被設置為采樣率的一半時,網絡能有效地提取2Hz及以上的頻率信息[11],即對低頻信息能更加敏感。在深度可分離卷積層,在參考了EEGNet 原始論文中的建議后,將該層卷積核長度設置為了16,以達到更好的分類效果。
實驗根據7∶2∶1 的比例,以受試者編號為依據將數據集劃分為訓練集、驗證集和測試集,其中訓練集和驗證集用于EEGNet 模型的訓練,測試集則用于測試預訓練EEGNet 模型的泛化能力及分類表現。經訓練,最終模型在訓練集上的損失降到了0.554,驗證集上的分類準確率達到了66.2%。
對此預訓練模型以8 為批量大小在測試集上進行了三分類測試,以0、1、2 作為情緒標簽分別對應了消極、中性和積極的情緒,測試同時也計算了預訓練模型在各批數據中的均方誤差、平均絕對誤差、召回率和Macro-F1分數。其中,召回率是指對于某個類別,模型正確識別出該類別的樣本數量與該類別實際樣本數量之間的比例,用于衡量模型對各個類別的識別能力。多分類時的Macro-F1分數則是各類別F1分數的平均值,每一類的F1分數是綜合考慮模型在該類別上進行預測的精確率和召回率的調和平均數,這一指標避免了只關注精確率和召回率的其中一個而造成的誤差。最終,該預訓練模型在測試集上的平均準確率達到了90.0%。
3.1.2 在SEED-IV 數據集上的實驗
實驗針對SEED-IV 數據集中的原始腦電數據對EEGNet 進行了訓練,該數據集同樣是由15 名受試者通過3 次實驗得來,但由于3 次實驗中所使用的刺激不同,因此,其數據樣本對應的標簽序列也有所不同。數據在時間維度上進行了歸一化處理,以確保數據樣本格式的唯一性,而后輸入到EEGNet 中進行訓練。
實驗中所使用的損失函數和優化器函數仍然為交叉熵函數和Adam 優化器,學習率仍使用StepLR學習率調整機制進行衰減,每經過5 輪學習,學習率將降為原來的90%。同時由于數據采樣率為200Hz,EEGNet 中深度卷積層的時序卷積核長度被設置為100。
由于SEED-IV 數據集中的原始腦電數據在時間維度上的差異較大,即采樣點數在數量分布上的均方差較大,部分數據樣本的采樣點數過少,導致在實驗之初對數據格式進行歸一化處理時,選取的采樣點數的基準值較小,使最終輸入網絡進行訓練的數據量及其在時間維度上的特征相對有所減少。經多輪訓練,EEGNet 模型始終難以收斂到理想的范圍,得到的預訓練模型的泛化能力較差,其在測試集上的準確率為48.5%,測試集中包含受試者編號為2 和15 的數據樣本。
因此,考慮到時間維度上的數據特征對EEGNet 模型擬合能力的影響,在實驗過程中通過不斷提高采樣點數的基準值進行數據歸一化處理,并手動過濾了部分采樣點數過少的數據樣本,在5輪訓練和測試后,所得預訓練模型的準確率在相同測試集上的變化趨勢如圖5 所示。

圖5 不同采樣點數對應的EEGNet 預訓練模型在測試集上的準確率
為兼顧較好的模型擬合效果和充足的訓練數據量,最終選定了以30 601 作為SEED-IV 數據集上采樣點數歸一化的基準值。對整體數據進行歸一化處理后,將數據集以7∶2∶1 的比例劃分為訓練集、驗證集和測試集。同樣對數據集進行了多次重新劃分,確保每次劃分所得的測試集中數據歸編號不同的受試者所有。經訓練,模型最終在訓練集上的損失降到了0.746,在驗證集上的分類準確率達到了58.6%。
與在SEED 數據集上的測試實驗類似,以0、1、2、3 作為標簽分別對應了中性、悲傷、恐懼和喜悅4 種情緒,對此預訓練模型在測試集上以8 為批量大小進行四分類測試,同樣地,在測試過程中計算了每一批量數據的均方誤差、平均絕對誤差、召回率和Macro-F1分數,用于對模型的泛化能力進行更加直觀的考察,通常情況下Macro-F1的值能與模型的泛化能力成正相關關系。最終,該預訓練模型在測試集上的準確率達到了86.4%。
經過在SEED 數據集和SEED-IV 數據集上的多輪實驗,且每輪實驗都重新打亂并劃分數據集,得到了如圖6 所示的EEGNet 預訓練模型在不同的測試集上的準確率。其中,在5 輪實驗中,EEGNet 在SEED 測試集上的三分類平均準確率達到了85.3%,在SEED-IV 測試集上的四分類平均準確率達到了73.3%。圖中橫軸方向的標記即為當次訓練時所劃分測試集數據對應的受試者編號。

圖6 EEGNet 預訓練模型在SEED 和SEED-IV 測試集上的準確率
由以上的實驗結果可得知,與傳統的機器學習分類方法相比,經深度學習訓練的EEGNet 模型在SEED 數據集上有著更好的分類能力。在三分類的SEED 數據集上,EEGNet 模型在測試數據上也表現出了良好的泛化能力。在四分類的SEED-IV 數據集上,限定數據樣本的采樣點數在30 000 以上時,仍有較為可觀的數據量參與模型的訓練,在此情況下,EEGNet 也能保持較高的分類準確率,筆者認為主要原因還是EEGNet 對輸入數據中的時序特征有著較高的敏感度,因此腦電數據采樣點的數量將直接對EEGNet 模型的分類準確率產生較大的影響。
在保持模型訓練的超參數不變的情況下,隨著數據集劃分的不同,實驗所得預訓練模型的在對應測試集上的準確率有所不同,甚至產生了較大的差異,這一現象在四分類的SEED-IV 數據集上尤為明顯。針對這一現象,初步認為其原因可能為如下三點。
第一,數據集中數據分布不均,使EEGNet 網絡在學習的過程中難以收斂,模型欠擬合。
第二,部分受試者之間存在著較大的個體差異性,使得模型在其對應測試集上的泛化能力較差,預測準確率低。
第三,對SEED-IV 數據集進行預處理時,由于對大量數據進行過濾和裁剪,對數據集中部分數據的特征在一定程度上造成了破壞,導致對模型的訓練造成影響。
綜上所述,EEGNet 作為適合處理時序信號的緊湊型卷積神經網絡在SEED 和SEED-IV 數據集上表現出了良好的分類能力,在數據量有限的情況下也表現出了良好的識別能力和健壯性。
本次實驗設計的方法仍存在一定的局限性,在實驗中所遇到的部分現象仍有待進一步設計實驗進行驗證。例如,考慮到受試者之間的差異,僅對實驗數據集進行受試者間分類(Cross-Subject Classification),而忽略同一受試者自身在不同情緒上的差異性。這需要更改數據集的劃分方式,進行受試者內分類(Within-Subject Classification),開展進一步的研究。另外,由于參與本次實驗的SEED 數據集和SEED-IV 數據集間在數據格式上存在一定程度上的差異,因此在訓練前對數據進行預處理時對實驗變量的控制存在一定的不合理之處。
針對腦電情緒識別任務,對一種緊湊型的、適用于基于腦電信號的腦機接口范式的卷積神經網絡EEGNet 模型進行了研究。該模型在傳統卷積神經網絡的基礎上引入了深度卷積和可分離卷積機制,因此得以更加有效地處理時序信息中的相關特征。實驗圍繞SEED 數據集和SEED-IV 數據集中的單模態腦電數據對EEGNet 進行了訓練和測試,對EEGNet 網絡模型在基于腦電信號的情緒識別效果方面進行了評估。EEGNet 模型在測試過程中體現出了良好的泛化能力,在情緒分類上取得了較高的準確率。
預處理后的數據均為腦電信號經下采樣和去噪后的原始數據,未經特征工程處理和數據增強處理,表明EEGNet 模型在網絡設計層面的合理性,通過逐通道卷積和逐點卷積的結合,能十分有效地從原始數據中提取到分類相關的特征,尤其是EEGNet 對輸入數據中的時序特征有著較高的依賴性,實驗結果充分地體現了這一點,這說明了EEGNet 在實踐過程中有著良好的實用性。另外,對于數據量相對較小的數據集,EEGNet 網絡模型同樣能保持較高的分類準確率,說明其在數據量不夠充足時,依然能對實驗數據進行較好的擬合,在小樣本的腦電信號的分類問題上仍保持較高的健壯性。
作為卷積神經網絡,EEGNet 只能接受定長格式的數據輸入,而SEED 數據集和SEED-IV 數據集中所提供的腦電數據在時間維度上的格式并不是固定的,這與數據集的采集方式以及所使用的刺激密切相關。因此,在預處理數據的歸一化過程中,難免對原始數據進行裁剪,對數據的完整性以及數據集中不同數據間的整體性造成破壞,對模型的訓練也將產生一定程度的影響,甚至使得模型在特定的數據集上難以收斂。因此,EEGNet 在處理變長序列信息方面仍然有較大的優化空間,可適當地引入類似于RNN、LSTM 網絡等結構的適合處理變長序列的網絡層對輸入數據預處理后,再進一步進行卷積操作提取特征,但其實用性還有待設計實驗進行進一步的驗證。另外,實驗中所使用的數據集均基于事件相關電位,僅記錄了受試者經刺激后的腦電反應,但情緒是一個動態的過程,因此仍存在著一定的局限性。
最后,由于EEGNet 網絡有著較為出色的穩健性,其深度可分離卷積層的設計減少了它在訓練過程中所需的參數量,使其在計算能力較弱的嵌入式設備中的應用成為可能,而邊緣學習是當前人工智能領域的熱點之一,EEGNet 網絡與邊緣設備的結合將為基于腦電信號的情緒識別任務提供更加高效、準確和便捷的解決方案。