

















摘要:針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)在感受野有限、缺乏對(duì)全局信息的有效感知,以及在處理短時(shí)穩(wěn)態(tài)運(yùn)動(dòng)視覺誘發(fā)電位(SSMVEP)信號(hào)時(shí)分類效果欠佳的問題,提出了一種緊湊EEGNet-Transformer(即EEGNetformer)網(wǎng)絡(luò)。EEGNetformer網(wǎng)絡(luò)融合了為腦電(EEG)信號(hào)識(shí)別任務(wù)而設(shè)計(jì)的通用的卷積神經(jīng)網(wǎng)絡(luò)EEGNet網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)的優(yōu)勢(shì),有效地捕捉與處理腦電信號(hào)中的局部和全局信息,增強(qiáng)網(wǎng)絡(luò)對(duì)SSMVEP特征的學(xué)習(xí),進(jìn)而實(shí)現(xiàn)良好的解碼性能。EEGNet網(wǎng)絡(luò)用于提取SSMVEP的局部時(shí)間和空間特征,而Transformer網(wǎng)絡(luò)用于捕捉腦電時(shí)間序列的全局信息。在基于SSMVEP-BCI范式采集的數(shù)據(jù)基礎(chǔ)上,開展了實(shí)驗(yàn)以評(píng)估EEGNetformer網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果顯示,當(dāng)在2 s SSMVEP數(shù)據(jù)條件下,EEGNetformer網(wǎng)絡(luò)在基于被試者內(nèi)情況的平均準(zhǔn)確率為88.9%±6.6%,在基于跨被試者情況的平均準(zhǔn)確率為69.1%±4.3%。與傳統(tǒng)的CNN算法相比,EEGNetformer網(wǎng)絡(luò)的分類性能提升了4.2%~17.4%。研究?jī)?nèi)容說(shuō)明,EEGNetformer網(wǎng)絡(luò)在有效提高SSMVEP-BCI識(shí)別準(zhǔn)確率方面具有顯著優(yōu)勢(shì),為進(jìn)一步提升SSMVEP-BCI解碼性能提供了新的研究思路。
關(guān)鍵詞:穩(wěn)態(tài)運(yùn)動(dòng)視覺誘發(fā)電位;EEGNet網(wǎng)絡(luò);Transformer網(wǎng)絡(luò);EEGNetformer網(wǎng)絡(luò)
中圖分類號(hào):R318 文獻(xiàn)標(biāo)志碼:A
DOI:10.7652/xjtuxb202505005 文章編號(hào):0253-987X(2025)05-0044-10
Steady-State Motion Visual Evoked Potential Decoding Method Based on Integration of Transformer Network and Convolutional Neural Network
ZHANG Huanqing, XIE Jun, YANG Hanlin, DU Fangzhao, JIN Zhiwei, CHEN Yujie
(School of Mechanical Engineering, Xi’an Jiaotong University, Xi’an 710049, China)
Abstract:Addressing the issues of limited receptive fields and ineffective perception of global information in convolutional neural networks (CNNs), as well as their suboptimal classification performance when processing short-duration steady-state motion visual evoked potentials (SSMVEP) signals, a compact EEGNet-Transformer (i.e, EEGNetformer) network is proposed. EEGNetformer network integrates the strengths of the EEGNet network (a general-purpose CNN designed for EEG recognition tasks) and the Transformer network. It efficiently captures and processes both local and global information in the electroencephalogram (EEG) signals, enhancing the network’s learning of the SSMVEP features, thereby achieving an excellent decoding performance. The EEGNet network is utilized to extracts local temporal and spatial features of SSMVEP, while the Transformer network is utilized to capture global information in EEG time series. Based on data collected using the SSMVEP-BCI paradigm, experiments were conducted to evaluate the performance of the EEGNetformer network. The results showed that under the condition of 2 s SSMVEP data, EEGNetformer achieved an average accuracy of 88.9%±6.6% for within-subject conditions and 69.1%±4.3% for cross-subject conditions. Compared with traditional CNN algorithms, the classification performance of the EEGNetformer network was improved by 4.2%—17.4%. These findings demonstrate the significant advantage of EEGNetformer network in enhancing the recognition accuracy of SSMVEP-BCI systems, providing a new research direction for further enhancing SSMVEP-BCI decoding performance.
Keywords:steady-state motion visual evoked potential (SSMVEP); EEGNet network; Transformer network; EEGNetformer network
腦機(jī)接口(BCI)是一種通過采集和解碼大腦信號(hào)來(lái)實(shí)現(xiàn)大腦與外部設(shè)備進(jìn)行直接交互的技術(shù)[1-2]。近年來(lái),隨著神經(jīng)科學(xué)和計(jì)算機(jī)技術(shù)的快速發(fā)展,BCI在醫(yī)療康復(fù)、神經(jīng)科學(xué)和軍事等領(lǐng)域展現(xiàn)出廣泛的應(yīng)用前景[3]。其中,穩(wěn)態(tài)視覺誘發(fā)電位(SSVEP)作為一種常見的BCI誘發(fā)電位信號(hào),因其高信噪比、易于獲取和穩(wěn)定性好等特點(diǎn),受到了廣泛關(guān)注[4-5]。
SSVEP是一種由外部周期性視覺刺激(如閃爍的光源)引起的大腦響應(yīng),其頻率和外部刺激頻率一致或成整數(shù)倍關(guān)系[6-7]。通過解碼SSVEP信號(hào)對(duì)用戶視覺注意目標(biāo)的識(shí)別,從而實(shí)現(xiàn)與外部設(shè)備交互。然而,使用傳統(tǒng)SSVEP刺激容易導(dǎo)致用戶視覺不適,降低了BCI系統(tǒng)的使用舒適度和性能[8]。穩(wěn)態(tài)運(yùn)動(dòng)視覺誘發(fā)電位(SSMVEP)在緩解用戶視覺不適方面展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)和潛力[9]。SSMVEP是由視覺運(yùn)動(dòng)刺激誘發(fā),相比于靜態(tài)的閃爍光源刺激,視覺運(yùn)動(dòng)刺激通過動(dòng)態(tài)變化的視覺元素來(lái)誘發(fā)腦電響應(yīng)[10]。
腦電信號(hào)解碼算法影響著SSVEP-BCI系統(tǒng)的性能。早期Lin等提出了典型相關(guān)分析(CCA)[11]方法。Chen等利用穩(wěn)態(tài)視覺刺激能夠同時(shí)誘發(fā)諧波頻率的特性,提出了濾波器組典型相關(guān)性分析(FBCCA)[12]方法。這些方法處理簡(jiǎn)單,不需要預(yù)訓(xùn)練數(shù)據(jù),被廣泛的運(yùn)用于SSVEP的分類中。然而,由于腦電的復(fù)雜性,數(shù)據(jù)往往含有噪聲,如自發(fā)腦電、眼電和電磁干擾等,嚴(yán)重污染了腦電數(shù)據(jù)。CCA方法只有在數(shù)據(jù)長(zhǎng)度足夠長(zhǎng)的情況下才有滿意的結(jié)果。此外這些特征提取方法是任務(wù)相關(guān)的,是在特定的先驗(yàn)知識(shí)下獲得的,并且泛化能力有限[13]。
深度學(xué)習(xí)模型具有強(qiáng)大的特征提取能力,可以直接應(yīng)用于原始數(shù)據(jù)[14]。目前,各種深度學(xué)習(xí)模型已被用于不同的腦電分類任務(wù),其中卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用的最為廣泛[15]。EEGNet是一種緊湊的CNN模型,能夠通過時(shí)空濾波實(shí)現(xiàn)有效的特征提取,具有明顯優(yōu)于傳統(tǒng)方法的性能[16]。復(fù)雜卷積神經(jīng)網(wǎng)絡(luò)(cCNN)利用SSVEP信號(hào)的復(fù)雜頻譜特征作為CNN的輸入,在被試者間和跨被試者訓(xùn)練情況下均實(shí)現(xiàn)優(yōu)異的SSVEP分類性能[17]。此外,基于時(shí)域的卷積神經(jīng)網(wǎng)絡(luò)(tCNN)用于解決較短時(shí)間刺激誘發(fā)的SSVEP在頻域上的頻率峰值不明顯、頻域信息作為輸入會(huì)導(dǎo)致任務(wù)相關(guān)信息的丟失等問題,并獲得了優(yōu)異的識(shí)別性能[18]。這些基于卷積神經(jīng)網(wǎng)絡(luò)的SSVEP解碼算法,在處理短時(shí)SSVEP數(shù)據(jù)分類任務(wù)上相較于傳統(tǒng)CCA和FBCCA算法取得了不錯(cuò)的分類性能。然而,由于CNN通過局部感受野學(xué)習(xí)特征,缺乏對(duì)全局信息的感知能力[19],導(dǎo)致其對(duì)時(shí)間序列的處理效果不佳,尚未能充分提取SSVEP的有效特征。
近年來(lái),Transformer網(wǎng)絡(luò)成為最流行的模型網(wǎng)絡(luò)之一,在自然語(yǔ)言和圖像處理中廣泛應(yīng)用[20-21]。Transformer網(wǎng)絡(luò)可以捕獲時(shí)間序列的全局特征,但會(huì)忽略含有細(xì)節(jié)的局部特征[22]。由于Transformer網(wǎng)絡(luò)對(duì)時(shí)間序列具有出色的特征提取能力,Transformer網(wǎng)絡(luò)已經(jīng)開始逐漸應(yīng)用于腦電解碼領(lǐng)域中[23-24]。Guo等將Transformer網(wǎng)絡(luò)應(yīng)用于情緒腦電分類任務(wù)中[25],Xie等將Transformer網(wǎng)絡(luò)應(yīng)用于運(yùn)動(dòng)想象腦電分類任務(wù)中[23],均獲得了優(yōu)異的解碼性能。這些研究說(shuō)明Transformer網(wǎng)絡(luò)在腦電信號(hào)分類算法中具有很好的研究前景。然而,Transformer網(wǎng)絡(luò)忽略了對(duì)局部特征的學(xué)習(xí),而學(xué)習(xí)局部特征對(duì)于腦電解碼也是必要的。在這種情況下,需添加額外的提取局部特征的處理,以進(jìn)行補(bǔ)償[26]。
由于真實(shí)環(huán)境中的噪聲復(fù)雜,SSMVEP解碼難度大,傳統(tǒng)CNN分類算法的解碼性能仍有較大的提升空間。CNN具有局部感知性強(qiáng)的優(yōu)點(diǎn),然而由于有限的感知域,CNN僅提取腦電信號(hào)的局部時(shí)間和空間特征,缺乏對(duì)全局信息的感知力,對(duì)處理時(shí)間序列數(shù)據(jù)表現(xiàn)欠佳[19], 解碼性能仍有較大提升空間。Transformer網(wǎng)絡(luò)在處理全局信息方面具有優(yōu)勢(shì),但是對(duì)于局部信息處理能力相對(duì)較弱[22]。因此針對(duì)上述問題,本研究將EEGNet網(wǎng)絡(luò)與Transformer網(wǎng)絡(luò)進(jìn)行結(jié)合,旨在融合兩者的優(yōu)勢(shì), 解決CNN算法在處理短時(shí)SSMVEP信號(hào)時(shí)分類效果欠佳,感受野有限,缺乏對(duì)全局信息的感知等問題。通過EEGNet網(wǎng)絡(luò)對(duì)SSMVEP信號(hào)進(jìn)行初步的特征提取處理,學(xué)習(xí)腦電信號(hào)局部時(shí)間和空間特征,通過Transformer網(wǎng)絡(luò)充分學(xué)習(xí)SSMVEP全局時(shí)間序列關(guān)系,利用卷積操作和自注意力機(jī)制來(lái)有效地捕捉與處理腦電信號(hào)中的局部和全局信息,增強(qiáng)算法對(duì)SSMVEP特征的學(xué)習(xí),進(jìn)而實(shí)現(xiàn)良好的解碼性能。
本文旨在著重探討融合EEGNet網(wǎng)絡(luò)和圖像處理領(lǐng)域的視覺Transformer網(wǎng)絡(luò)在解碼短時(shí)SSMVEP信號(hào)的優(yōu)勢(shì)與潛力。為充分利用EEGNet網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)的優(yōu)勢(shì),提出了一個(gè)EEGNet-Transformer網(wǎng)絡(luò),即EEGNetformer網(wǎng)絡(luò)。該網(wǎng)絡(luò)是在經(jīng)典的EEGNet網(wǎng)絡(luò)基礎(chǔ)上引入Transformer網(wǎng)絡(luò)模塊進(jìn)行改進(jìn)的一種緊湊型網(wǎng)絡(luò)結(jié)構(gòu)。具體而言,EEGNetformer網(wǎng)絡(luò)結(jié)合了EEGNet網(wǎng)絡(luò)的輕量化特性與Transformer網(wǎng)絡(luò)的全局信息處理能力,以提升穩(wěn)態(tài)運(yùn)動(dòng)視覺誘發(fā)電位解碼的性能。通過消融實(shí)驗(yàn)表明,加入的Transformer網(wǎng)絡(luò)對(duì)EEGNetformer網(wǎng)絡(luò)分類準(zhǔn)確率有顯著的提升。通過與現(xiàn)有CNN解碼算法對(duì)比實(shí)驗(yàn),驗(yàn)證了EEGNetformer在被試者內(nèi)和被試者外的分類性能均優(yōu)于目前表現(xiàn)較好的cCNN、tCNN和EEGNet網(wǎng)絡(luò)分類算法。
1 實(shí)驗(yàn)方法及研究方案
1.1 被試者
10名視力或矯正視力正常的被試者參與了本次實(shí)驗(yàn),編號(hào)為S1~S10。在向所有被試者充分解釋實(shí)驗(yàn)程序后,每個(gè)被試者都簽署了書面知情同意書。
1.2 刺激范式
本研究使用了圓環(huán)收縮擴(kuò)張形式的SSMVEP范式。如圖1所示,該刺激范式由高對(duì)比亮度的背景與低對(duì)比亮度的圓環(huán)組成,低對(duì)比亮度圓環(huán)的主要參數(shù)有圓環(huán)內(nèi)徑和外徑,高對(duì)比度的背景確定了范式的最大直徑,圓環(huán)與背景的面積比值K存在以下關(guān)系
K=S1S-S1(1)
式中:S1表示圓環(huán)總面積;S表示背景的總面積。
范式初始時(shí),設(shè)定每個(gè)圓環(huán)外徑成等差數(shù)列分布,已知范式的最大直徑dmax,則每個(gè)圓環(huán)的外徑di1和內(nèi)徑di2與面積有如下的關(guān)系
di1=(2i-1)dmax/2n(2)
Si=π(di1)2-π(di-11)2(3)
Si1=π(di1)2-π(di2)2(4)
式中:i表示從內(nèi)向外數(shù)第i個(gè)圓環(huán);n表示圓環(huán)的總數(shù);Si 表示第i個(gè)圓環(huán)外徑與i-1個(gè)圓環(huán)外徑所圍成的面積;Si1 表示第i個(gè)圓環(huán)的面積。
為了保證范式在運(yùn)動(dòng)時(shí)總體的亮度不發(fā)生改變,圓環(huán)與背景的面積比值K應(yīng)該時(shí)刻保持固定,因此圓環(huán)的內(nèi)徑需要通過計(jì)算獲得,結(jié)合式(1)~式(4),可以計(jì)算出第i個(gè)圓環(huán)的內(nèi)徑di2
di2=(1-K)(di1)2+K(di-11)2(5)
設(shè)圓環(huán)外徑的變化區(qū)間在[(i+1)dmax/n,idmax/n],圓環(huán)的外徑運(yùn)動(dòng)曲線為正弦曲線,可以得到每個(gè)圓環(huán)的外徑di1隨時(shí)間的變化如下
di1=i+1-cos(2πft)dmax/n(6)
式中:f表示刺激頻率;t表示刺激時(shí)間。
刺激范式的排布如圖2所示,一共有8種不同刺激頻率(3.00、3.25、3.50、3.75、4.00、4.25和4.75 Hz)的圓環(huán)范式。此外,為了驗(yàn)證本研究所提出的算法對(duì)空閑態(tài)和控制態(tài)的識(shí)別性能,設(shè)計(jì)了7個(gè)空閑位置用于采集空閑態(tài)腦電數(shù)據(jù),保證被試者在注視虛線框內(nèi)的時(shí)候處于系統(tǒng)空閑態(tài)并且不會(huì)輸出控制指令。因此,實(shí)驗(yàn)共采集9類目標(biāo)樣本,包括8類刺激樣本和1類空閑態(tài)樣本。
1.3 數(shù)據(jù)采集
本文通過g.USBamp系統(tǒng)采集腦電(EEG)。SSMVEP在大腦枕葉區(qū)域最為顯著[9],因此選取位于枕葉區(qū)域的O1、Oz、O2、PO3、POz和PO4電極來(lái)采集EEG。腦電采集電極按照國(guó)際10-20系統(tǒng)標(biāo)準(zhǔn)進(jìn)行布置,參考電極A1布置于被試者單側(cè)耳垂,地電極安放在前額葉處Fpz位置。EEG以1200 Hz采樣率進(jìn)行采集。使用4階48~52 Hz巴特沃斯陷波濾波器用于消除工頻干擾, 8階2~100 Hz巴特沃
斯帶通濾波器去除低頻和高頻干擾。
1.4 實(shí)驗(yàn)流程
實(shí)驗(yàn)中要求被試者依次注視8類不同刺激頻率(3.00、3.25、3.5、3.75、4.00、4.25、4.5和4.75 Hz)的目標(biāo),每類刺激目標(biāo)進(jìn)行了20次實(shí)驗(yàn),在8類刺激目標(biāo)中還會(huì)穿插7種空閑位置的注視實(shí)驗(yàn)。每次實(shí)驗(yàn)前均有注視位置提示,持續(xù)5 s,包括了提示時(shí)間1 s,范式刺激時(shí)間3 s,以及休息時(shí)間1 s,總共進(jìn)行了10輪實(shí)驗(yàn)。每輪實(shí)驗(yàn)進(jìn)行16次,實(shí)驗(yàn)結(jié)束后,被試者有2 min的休息時(shí)間。
1.5 EEGNetformer結(jié)構(gòu)設(shè)計(jì)
EEGNet通過時(shí)空濾波器能夠有效提取腦電信號(hào)的局部時(shí)空特征。Transformer網(wǎng)絡(luò)利用自注意力機(jī)制,能夠更好地捕捉長(zhǎng)距離依賴關(guān)系,提升模型的泛化能力和對(duì)輸入數(shù)據(jù)的理解能力。因此,基于Transformer網(wǎng)絡(luò)和EEGNet網(wǎng)絡(luò),構(gòu)建了EEGNetformer網(wǎng)絡(luò)。正如圖3所示,EEGNetformer網(wǎng)絡(luò)由4個(gè)模塊組成:EEGNet網(wǎng)絡(luò)中的特征濾波模塊、特征混合模塊、基于自注意力的特征泛化模塊,以及基于多層感知器(MLP)的特征分類模塊。圖3中,C是腦電信號(hào)通道數(shù),T是腦電信號(hào)數(shù)據(jù)點(diǎn)數(shù),F(xiàn)1是時(shí)間濾波器數(shù),D是深度乘數(shù),N是分類目標(biāo)數(shù)目,∥表示取整數(shù)。
特征濾波模塊:特征濾波模塊與EEGNet網(wǎng)絡(luò)的第1個(gè)模塊參數(shù)一致,通過時(shí)間濾波器和空間濾波器初步提取腦電信號(hào)的時(shí)空特征。該模塊依次執(zhí)行兩個(gè)卷積步驟,首先擬合8個(gè)尺寸為(1, 64)二維卷積核,步長(zhǎng)為(1, 1),并且卷積操作后保持維度不變。對(duì)輸出結(jié)果批標(biāo)準(zhǔn)化后,使用16個(gè)尺寸為(6, 1)的深度方向卷積核學(xué)習(xí)空間濾波器以提取空間特征,并再次進(jìn)行批標(biāo)準(zhǔn)化,以促進(jìn)訓(xùn)練過程并減少過擬合風(fēng)險(xiǎn)。使用高斯誤差線性單元(GELU)作為非線性激活函數(shù)。隨后,應(yīng)用尺寸為(1, 4)且步長(zhǎng)為(1, 4)的平均池化層平滑時(shí)間特征,從而進(jìn)一步減少過擬合風(fēng)險(xiǎn)并降低計(jì)算復(fù)雜度。最后,添加一個(gè)隨機(jī)失活(Dropout)層,以50%的概率舍棄訓(xùn)練參數(shù)。具體細(xì)節(jié)可參照文獻(xiàn)[16]。
特征混合模塊:本模塊通過一維卷積層對(duì)空間濾波后的數(shù)據(jù)進(jìn)行特征混合,以進(jìn)一步提取有效特征,同時(shí)減少特征維度和冗余信息。首先,移除維度為1的通道,以獲得適用于一維卷積的輸入。接著,使用16個(gè)尺寸為16的一維卷積核進(jìn)行卷積操作,步長(zhǎng)為1,并保持卷積后的維度不變。隨后,依照特征濾波模塊中的方法,對(duì)數(shù)據(jù)進(jìn)行批標(biāo)準(zhǔn)化,并使用GELU作為非線性激活函數(shù)。之后,應(yīng)用尺寸為(1, 4)且步長(zhǎng)為(1, 4)的平均池化層。最后,添加一個(gè)隨機(jī)失活層,以50%的概率舍棄部分訓(xùn)練參數(shù)。
特征泛化模塊:Transformer網(wǎng)絡(luò)能夠有效提升模型的泛化能力。在此模塊中,利用自注意力機(jī)制學(xué)習(xí)SSMVEP特征的全局時(shí)間依賴性,以補(bǔ)償卷積模塊在全局特征捕捉能力上的局限性。首先,在輸入特征序列的最前端添加一個(gè)專門用于分類的向量,稱為類別令牌(Class Token)。接著,通過位置嵌入層對(duì)包含類標(biāo)記的特征進(jìn)行位置信息編碼。隨后,將編碼后的特征輸入歸一化層進(jìn)行歸一化處理,并通過自注意力機(jī)制層進(jìn)行特征編碼。
注意力機(jī)制首先將輸入向量通過3個(gè)可訓(xùn)練的變換矩陣WQ、WK、WV進(jìn)行相應(yīng)的矩陣變換,得到查詢向量Q、鍵值向量K和值向量V。隨后在Q和K上使用點(diǎn)積來(lái)評(píng)估不同類別令牌之間的相關(guān)性,并通過歸一化指數(shù)(Softmax)函數(shù)對(duì)結(jié)果進(jìn)行歸一化,得到加權(quán)矩陣,即注意力得分。然后,將注意力得分與V進(jìn)行點(diǎn)積運(yùn)算,從而實(shí)現(xiàn)加權(quán)特征的組合。這一過程可以表述為
A(Q,K,V)=SoftmaxQKTdkV(7)
式中:dk 表示 K 向量的維度;A是經(jīng)過自注意力機(jī)制計(jì)算后所得的矩陣。
在自注意力機(jī)制層之后,加入了一個(gè)多層感知器層,用于進(jìn)一步對(duì)自注意力層輸出的特征進(jìn)行變換和融合。該層首先將自注意力層的輸出通過全連接方式輸入到隱藏層,然后通過線性整流激活函數(shù)生成新的特征表示,最后將結(jié)果傳遞至輸出層。
特征分類模塊:在本模塊中,首先對(duì)數(shù)據(jù)進(jìn)行批標(biāo)準(zhǔn)化,然后通過多層感知器頭層提取類標(biāo)記。多層感知器頭層將輸出的特征向量映射到特定的表示空間,從而對(duì)特征進(jìn)行更高級(jí)的抽象和表示,以更好地適應(yīng)具體任務(wù)的需求。這種處理方式能夠提取出更具表達(dá)力的特征表示,從而有助于提高模型的性能。最后,通過全連接層輸出分類結(jié)果。
具體的EEGNetformer網(wǎng)絡(luò)參數(shù)如表1所示,其中DF1是空間濾波器數(shù)。
1.6 數(shù)據(jù)擴(kuò)充與訓(xùn)練
為了對(duì)采集到的數(shù)據(jù)進(jìn)行訓(xùn)練,首先將原始數(shù)據(jù)的采樣頻率降低到240 Hz,以減少網(wǎng)絡(luò)的輸入數(shù)據(jù)量,從而提高網(wǎng)絡(luò)的推理速度。接下來(lái),通過滑動(dòng)窗口的方式對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,具體來(lái)說(shuō),先將9個(gè)目標(biāo)樣本按照7∶3的比例均勻地劃分為訓(xùn)練樣本和測(cè)試樣本,然后設(shè)定窗口長(zhǎng)度,對(duì)數(shù)據(jù)進(jìn)行滑動(dòng)窗口處理,重疊率設(shè)為0.8。這種方法確保了訓(xùn)練集和測(cè)試集之間沒有數(shù)據(jù)泄露,從而避免因數(shù)據(jù)泄露而導(dǎo)致模型的測(cè)試準(zhǔn)確率虛高。最后,通過滑動(dòng)窗口擴(kuò)充得到的數(shù)據(jù)集合進(jìn)行拼接,得到最終的訓(xùn)練樣本和測(cè)試樣本,使用TensorFlow和Keras工具搭建、調(diào)試并驗(yàn)證上述算法結(jié)構(gòu)。模型訓(xùn)練采用自適應(yīng)矩估計(jì)(Adam)優(yōu)化器,學(xué)習(xí)率設(shè)為0.001,使用交叉熵作為損失函數(shù),最大訓(xùn)練輪數(shù)為100。
1.7 模型評(píng)價(jià)指標(biāo)
在深度學(xué)習(xí)中,真陽(yáng)性、真陰性、假陽(yáng)性和假陰性是評(píng)估分類模型性能的重要術(shù)語(yǔ)。真陽(yáng)性表示模型將正樣本正確預(yù)測(cè)為正樣本的數(shù)量,真陰性表示模型將負(fù)樣本正確預(yù)測(cè)為負(fù)樣本的數(shù)量,假陽(yáng)性表示模型將負(fù)樣本錯(cuò)誤預(yù)測(cè)為正樣本的數(shù)量,假陰性表示模型將正樣本錯(cuò)誤預(yù)測(cè)為負(fù)樣本的數(shù)量。
基于這些指標(biāo),深度學(xué)習(xí)模型的常見評(píng)價(jià)指標(biāo)包括準(zhǔn)確率A、精確率P、召回率R和F1分?jǐn)?shù)F。準(zhǔn)確率是最直觀的性能指標(biāo),表示在所有預(yù)測(cè)中,正確預(yù)測(cè)的比例。精確率表示在所有預(yù)測(cè)為正類別的情況下,實(shí)際為正類別的比例。召回率表示在所有實(shí)際為正類別的情況下,正確預(yù)測(cè)為正類別的比例。F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù),用于在精確率和召回率之間達(dá)到平衡。F1分?jǐn)?shù)值越高,模型的性能通常被認(rèn)為越好。各指標(biāo)具體計(jì)算式如下
A=TP+TNTP+TN+FP+FN(8)
P=TPTP+FP(9)
R=TPTP+FN(10)
F=2PRP+R(11)
式中:TP是真陽(yáng)性值;TN是真陰性值;FP是假陽(yáng)性值;FN是假陰性值。
2 結(jié)果與討論
2.1 模型訓(xùn)練收斂性驗(yàn)證
圖4顯示了EEGNetformer模型訓(xùn)練過程中訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率和損失變化情況。隨著訓(xùn)練次數(shù)的增加,模型的分類準(zhǔn)確率逐漸上升,而損失函數(shù)逐步下降。在訓(xùn)練50次后,驗(yàn)證集的準(zhǔn)確率和損失值基本趨于穩(wěn)定。這表明本研究提出的EEGNetformer模型在解碼SSMVEP時(shí)表現(xiàn)出良好的收斂性,驗(yàn)證了算法結(jié)構(gòu)的合理性。
2.2 模塊消融實(shí)驗(yàn)驗(yàn)證
為了探究EEGNetformer中各模塊對(duì)模型性能的貢獻(xiàn),進(jìn)一步進(jìn)行了消融實(shí)驗(yàn)。具體地,分別依次去除特征濾波模塊、特征混合模塊和特征泛化模塊,并將剩余模塊拼接成新的網(wǎng)絡(luò)架構(gòu),在2 s的數(shù)據(jù)上進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果通過配對(duì)樣本t檢驗(yàn)進(jìn)行顯著性分析。
圖5 EEGNetformer網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果
Fig.5 Results of the EEGNetformer network ablation experiment如圖5所示,移除特征濾波模塊后,除被試者S3外,其他所有被試者的識(shí)別準(zhǔn)確率均有所下降。其中,被試者S8的下降幅度最大,為6.3%,而被試者S3的準(zhǔn)確率則上升了0.7%。總體來(lái)看,所有被試者的平均準(zhǔn)確率相比完整的EEGNetformer模型下降了2.2%。在移除特征混合模塊后,所有被試者的識(shí)別準(zhǔn)確率均出現(xiàn)下降。其中,被試者S10的準(zhǔn)確率下降最為顯著,為7.6%,被試者S3的下降幅度最小,為0.7%。總體上,所有被試者的平均準(zhǔn)確率顯著下降了2.8%(plt;0.001)。移除特征泛化模塊后,所有被試者的識(shí)別準(zhǔn)確率均出現(xiàn)下降,其中被試者S6下降最多,為13.1%,被試者S4的下降幅度最小,為2.7%。所有被試者的平均準(zhǔn)確率顯著下降了8.5%(plt;0.001)。
在消融實(shí)驗(yàn)中,消融后的網(wǎng)絡(luò)準(zhǔn)確率相較于完整的EEGNetformer網(wǎng)絡(luò)均有所下降,其中移除特征泛化模塊后的準(zhǔn)確率下降幅度最大。為進(jìn)一步探究特征泛化模塊在EEGNetformer網(wǎng)絡(luò)中的具體作用,采用t-分布隨機(jī)近鄰嵌入(t-SNE)方法,對(duì)典型被試者S6的數(shù)據(jù)進(jìn)行了分析。t-SNE是一種基于概率的技術(shù),可以將數(shù)據(jù)的高維結(jié)構(gòu)映射到低維空間中,保留數(shù)據(jù)之間的歐氏相似性關(guān)系。t-SNE根據(jù)高維數(shù)據(jù)點(diǎn)之間的相似度計(jì)算它們之間的歐氏距離并生成一組新的坐標(biāo),使得每個(gè)數(shù)據(jù)點(diǎn)在新的低維空間中都能夠更清晰地顯示其在原始高維空間中的關(guān)系。圖6對(duì)比了不同刺激頻率下EEGNetformer網(wǎng)絡(luò)和EEGNetformer移除特征泛化模塊后的網(wǎng)絡(luò)在訓(xùn)練集和測(cè)試集上提取的特征聚類差異。
從圖6(a)和圖6(c)可以看出,移除特征泛化模塊后,提取的特征邊界較為模糊,部分類別之間出現(xiàn)了混淆現(xiàn)象。加入特征泛化模塊后,類間距離顯著增大,類內(nèi)距離減小,各類別之間的區(qū)分度明顯提高。從圖6(b)和圖6(d)可以看出,使用EEGNetformer網(wǎng)絡(luò)提取的特征雖然類內(nèi)距較小,但部分類別的類間邊界仍存在模糊現(xiàn)象,且少量樣本存在混淆。相比之下,移除特征泛化模塊后的特征提取結(jié)果在某些類別上出現(xiàn)了較大程度的混淆,并且類間距減小,類間區(qū)分度明顯下降。
綜上所述,加入特征泛化模塊后,經(jīng)t-SNE降維處理的特征表現(xiàn)出更小的類內(nèi)距和更大的類間距,具備更明顯的特征邊界。此外,分類準(zhǔn)確率上與未添加特征泛化模塊的模型相比差異顯著。這表明特征泛化模塊能夠有效提升模型對(duì)數(shù)據(jù)的理解和區(qū)分能力。
2.3 EEGNetformer網(wǎng)絡(luò)被試者內(nèi)性能分析
通過評(píng)估和對(duì)比不同時(shí)長(zhǎng)下EEGNetformer網(wǎng)絡(luò)算法與其他4種性能優(yōu)異的對(duì)比算法(即cCNN、tCNN、EEGNet-SSVEP(EEGNetS)和EEGNet),進(jìn)一步探討了EEGNetformer網(wǎng)絡(luò)算法在解碼SSMVEP中的性能表現(xiàn)。圖7展示了5種算法在不同時(shí)長(zhǎng)的數(shù)據(jù)上的識(shí)別準(zhǔn)確率。
如圖7所示,EEGNetformer網(wǎng)絡(luò)在各個(gè)時(shí)長(zhǎng)的識(shí)別準(zhǔn)確率均優(yōu)于其他算法。在所有時(shí)長(zhǎng)上,EEGNetformer網(wǎng)絡(luò)與tCNN、EEGNetS和EEGNet的識(shí)別準(zhǔn)確率均存在顯著性差異(plt;0.05)。特別是在2 s時(shí),EEGNetformer網(wǎng)絡(luò)與其他算法的準(zhǔn)確率差異最大,其準(zhǔn)確率達(dá)到88.9%±6.6%,相比最優(yōu)的對(duì)比算法cCNN提高了4.2%(plt;0.001),相比表現(xiàn)最差的EEGNet提高了17.4%(plt;0.001)。這些結(jié)果進(jìn)一步證明了EEGNetformer網(wǎng)絡(luò)在解碼SSMVEP中的顯著優(yōu)勢(shì)。
2.4 EEGNetformer網(wǎng)絡(luò)跨被試者性能分析
進(jìn)一步分析了EEGNetformer網(wǎng)絡(luò)在跨被試者情況下的解碼性能。在跨被試者實(shí)驗(yàn)中,以一名被試者的數(shù)據(jù)作為訓(xùn)練集,其余9名被試者的數(shù)據(jù)作為測(cè)試集,依次進(jìn)行10次測(cè)試,并將這10次測(cè)試結(jié)果的平均值作為最終結(jié)果。在2 s數(shù)據(jù)條件下,使用5種算法進(jìn)行訓(xùn)練,并通過準(zhǔn)確率和F1分?jǐn)?shù)衡量實(shí)驗(yàn)結(jié)果,具體結(jié)果如表2所示。使用配對(duì)樣本t檢驗(yàn)對(duì)結(jié)果進(jìn)行顯著性檢驗(yàn),*代表plt;0.05,**代表plt;0.001,加粗的數(shù)據(jù)表示同一指標(biāo)下不同算法中的最高值。
在跨被試者條件下,EEGNetformer網(wǎng)絡(luò)的準(zhǔn)確率和F1分?jǐn)?shù)均顯著優(yōu)于4種對(duì)比算法(plt;0.001)。與cCNN、tCNN、EEGNetS和EEGNet算法相比,EEGNetformer網(wǎng)絡(luò)的跨被試者識(shí)別準(zhǔn)確率分別提升了6%、24.7%、9.7%和14.8%,F(xiàn)1分?jǐn)?shù)則分別提升了9.9%、25.7%、17.1%和19.6%。這表明,EEGNetformer網(wǎng)絡(luò)在提取單一被試者的特征時(shí)具有較高的穩(wěn)定性,能夠較好地適應(yīng)不同被試者的差異。同時(shí),也說(shuō)明了EEGNetformer網(wǎng)絡(luò)在提取和學(xué)習(xí)目標(biāo)特征方面的能力較強(qiáng),優(yōu)于其他4種算法。
3 結(jié) 論
本文針對(duì)現(xiàn)有SSMVEP-BCI范式中CNN分類算法在解碼微弱特征信號(hào)能力上的不足,提出了一種結(jié)合Transformer網(wǎng)絡(luò)和EEGNet網(wǎng)絡(luò)的EEGNetformer網(wǎng)絡(luò)。EEGNetformer網(wǎng)絡(luò)通過時(shí)空濾波實(shí)現(xiàn)局部特征的提取,然后基于Transformer網(wǎng)絡(luò)進(jìn)一步捕捉全局信息,從而增強(qiáng)模型的泛化能力和特征表達(dá)能力。實(shí)驗(yàn)結(jié)果表明,EEGNetformer網(wǎng)絡(luò)在解碼SSMVEP時(shí)表現(xiàn)出顯著的有效性。通過消融實(shí)驗(yàn),以準(zhǔn)確率作為評(píng)價(jià)指標(biāo),結(jié)果顯示引入Transformer網(wǎng)絡(luò)顯著提高了模型的分類準(zhǔn)確率。此外,對(duì)輸出特征的聚類分析表明,添加Transformer網(wǎng)絡(luò)能夠有效減小類內(nèi)距,并增大類間距。進(jìn)一步在被試者內(nèi)和跨被試者的實(shí)驗(yàn)中對(duì)EEGNetformer網(wǎng)絡(luò)的性能進(jìn)行了評(píng)估,結(jié)果表明EEGNetformer網(wǎng)絡(luò)在性能上優(yōu)于cCNN、tCNN、EEGNetS和EEGNet等傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)算法。總之,EEGNetformer網(wǎng)絡(luò)在SSMVEP解碼方面展現(xiàn)了良好的性能,證明了其在腦電信號(hào)解碼與腦機(jī)接口領(lǐng)域的應(yīng)用潛力。EEGNetformer網(wǎng)絡(luò)的設(shè)計(jì)將有助于推動(dòng)CNN在SSVEP-BCI解碼方面的研究。通過結(jié)合EEGNet網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)的優(yōu)勢(shì),該方法克服CNN缺乏對(duì)全局信息的感知力的局限性。促進(jìn)了對(duì)腦電信號(hào)局部與全局特征的全面理解,提高了對(duì)短時(shí)SSMVEP信號(hào)的解碼性能。這種創(chuàng)新方法有助于推動(dòng)CNN在SSMVEP-BCI解碼領(lǐng)域的發(fā)展,為未來(lái)開發(fā)更高效、更精確的腦電信號(hào)解碼算法提供了新思路和技術(shù)支撐。
參考文獻(xiàn):
[1]WOLPAW J R. Brain-computer interfaces [M]. Amsterdam,Holland: Elsevier, 2013: 67-74.
[2]姜耿, 趙春臨. 基于EEG的腦機(jī)接口發(fā)展綜述 [J]. 計(jì)算機(jī)測(cè)量與控制, 2022, 30(7): 1-8.
JIANG Geng, ZHAO Chunlin. A review of the development of brain-computer interface based on EEG [J]. Computer Measurement amp; Control, 2022, 30(7): 1-8.
[3]VRBU K, MUHAMMAD N, MUHAMMAD Y. Past, present, and future of EEG-based BCI applications [J]. Sensors, 2022, 22(9): 3331.
[4]BONDRE C, KAPGATE D. Brain computer interfaces using SSVEP: an overview [J]. International Journal of Engineering amp; Technology, 2014, 1: 9-17.
[5]邱爽, 楊幫華, 陳小剛, 等. 非侵入式腦-機(jī)接口編解碼技術(shù)研究進(jìn)展 [J]. 中國(guó)圖象圖形學(xué)報(bào), 2023, 28(6): 1543-1566.
QIU Shuang, YANG Banghua, CHEN Xiaogang, et al. A survey on encoding and decoding technology of non-invasive brain-computer interface [J]. Journal of Image and Graphics, 2023, 28(6): 1543-1566.
[6]KAPGATE D, KALBANDE D. A review on visual brain computer interface [C]//Advancements of Medical Electronics. New Delhi: Springer India, 2015: 193-206.
[7]梁栗炎, 孔姝懿, 張倩, 等. 腦機(jī)接口的范式、算法與編解碼概念探討與研究 [J]. 信息通信技術(shù)與政策, 2024, 50(5): 61-70.
LIANG Liyan, KONG Shuyi, ZHANG Qian, et al. Exploration and research on paradigm, algorithm, as well as encoding and decoding concepts of brain-computer interface [J]. Information and Communications Technology and Policy, 2024, 50(5): 61-70.
[8]李麗, 陳梟宇, 隨力. 穩(wěn)態(tài)運(yùn)動(dòng)視覺誘發(fā)電位的誘發(fā)及在腦機(jī)接口中的應(yīng)用進(jìn)展 [J]. 上海理工大學(xué)學(xué)報(bào), 2022, 44(1): 27-33.
LI Li, CHEN Xiaoyu, SUI Li. Induction of steady-state motion visual evoked potential and its application in brain-computer interface [J]. Journal of University of Shanghai for Science and Technology, 2022, 44(1): 27-33.
[9]XIE Jun, XU Guanghua, WANG Jing, et al. Steady-state motion visual evoked potentials produced by oscillating Newton’s rings: implications for brain-computer interfaces [J]. PLoS One, 2012, 7(6): e39707.
[10]劉貴彤, 張志敏, 柴曉珂, 等. 基于SSMVEP的腦-機(jī)接口視覺刺激探究 [J]. 中國(guó)醫(yī)療器械雜志, 2018, 42(5): 313-316.
LIU Guitong, ZHANG Zhimin, CHAI Xiaoke, et al. Study of steady state motion visual evoked potential-based visual stimulation of BCI system [J]. Chinese Journal of Medical Instrumentation, 2018, 42(5): 313-316.
[11]LIN Zhonglin, ZHANG Changshui, WU Wei, et al. Frequency recognition based on canonical correlation analysis for SSVEP-based BCIs [J]. IEEE Transactions on Biomedical Engineering, 2006, 53(12): 2610-2614.
[12]CHEN Xiaogang, WANG Yijun, GAO Shangkai, et al. Filter bank canonical correlation analysis for implementing a high-speed SSVEP-based brain-computer interface [J]. Journal of Neural Engineering, 2015, 12(4): 046008.
[13]ZHANG Yue, XIE S Q, WANG He, et al. Data analytics in steady-state visual evoked potential-based brain-computer interface: a review [J]. IEEE Sensors Journal, 2021, 21(2): 1124-1138.
[14]CRAIK A, HE Yongtian, CONTRERAS-VIDAL J L. Deep learning for electroencephalogram (EEG) classification tasks: a review [J]. Journal of Neural Engineering, 2019, 16(3): 031001.
[15]XU Dongcen, TANG Fengzhen, LI Yiping, et al. An analysis of deep learning models in SSVEP-based BCI: a survey [J]. Brain Sciences, 2023, 13(3): 483.
[16]LAWHERN V J, SOLON A J, WAYTOWICH N R, et al. EEGNet: a compact convolutional neural network for EEG-based brain-computer interfaces [J]. Journal of Neural Engineering, 2018, 15(5): 056013.
[17]RAVI A, BENI N H, MANUEL J, et al. Comparing user-dependent and user-independent training of CNN for SSVEP BCI [J]. Journal of Neural Engineering, 2020, 17(2): 026028.
[18]DING Wenlong, SHAN Jianhua, FANG Bin, et al. Filter bank convolutional neural network for short time-window steady-state visual evoked potential classification [J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2021, 29: 2615-2624.
[19]PENG Zhiliang, HUANG Wei, GU Shanzhi, et al. Conformer: local features coupling global representations for visual recognition [C]//2021 IEEE/CVF
International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2021: 357-366.
[20]HAN Kai, WANG Yunhe, CHEN Hanting, et al. A survey on vision transformer [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 87-110.
[21]HAN Kai, XIAO An, WU Enhua, et al. Transformer in transformer [C]//Advances in Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates, Inc, 2021: 15908-15919.
[22]MAURíCIO J, DOMINGUES I, BERNARDINO J. Comparing vision transformers and convolutional neural networks for image classification: a literature review [J]. Applied Sciences, 2023, 13(9): 5521.
[23]XIE Jin, ZHANG Jie, SUN Jiayao, et al. A transformer-based approach combining deep learning network and spatial-temporal information for raw EEG classification [J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2022, 30: 2126-2136.
[24]SONG Yonghao, JIA Xueyu, YANG Lie, et al. Transformer-based spatial-temporal feature learning for EEG decoding [EB/OL]. (2021-06-11) [2024-08-02]. https: //arxiv. org/abs/2106. 11170.
[25]GUO Jiayi, CAI Qing, AN Jianpeng, et al. A Transformer based neural network for emotion recognition and visualizations of crucial EEG channels [J]. Physica: A Statistical Mechanics and its Applications, 2022, 603: 127700.
[26]戴洋毅, 何康, 瑚琦, 等. CNN-Transformer混合模型在計(jì)算機(jī)視覺領(lǐng)域的研究綜述 [J]. 建模與仿真, 2023, 12(4): 3657-3672.
DAI Yangyi, HE Kang, HU Qi, et al. Review of CNN-Transformer hybrid model in computer vision [J]. Modeling and Simulation, 2023, 12(4): 3657-3672.
(編輯 杜秀杰)
西安交通大學(xué)學(xué)報(bào)2025年5期