張小內 翟文鵬 侯惠讓 孟慶浩
(天津大學電氣自動化與信息工程學院 天津 300072)
嗅覺是生物進化史上最古老的感官功能,具有辨別氣味、識別環境和調控情緒等作用。大腦是神經系統的最高級中樞,能夠評估來自各器官的刺激。近年來,借助腦電(Electro Encephalo Gram,EEG)技術研究大腦對不同氣味的識別能力這一問題因其具有重要的應用價值而備受關注,如可用氣味刺激輔助診斷嗅覺功能障礙疾病,調控抑郁癥和精神病患者情緒等[1–3]。
在EEG信號的分類研究中[2–6],為了獲取豐富的信息,通常使用多通道(如32導、64導、128導或256導)電極采集EEG信號。然而,使用過多的電極一方面會增加設備的成本和試驗操作的復雜度;另一方面會增加EEG信號數據處理的難度,不利于EEG信號的實時識別和非實驗室環境的應用。為了實現EEG信號采集的便攜性和識別的實時性,滿足眾多實際場景應用的需要,研究如何選擇EEG通道顯得尤為重要。
針對EEG信號分類中的通道選擇問題,國內外學者提出了不同的研究方法。例如,在基于EEG信號的運動想象研究中,單海軍等人[7]將Relief算法與順序后向選擇方法相結合,提出了Relief-SBS通道選擇算法。結果表明使用Relief-SBS算法篩選出的通道的分類準確率遠高于使用所有通道和固定通道(Cz, C3, C4)的分類準確率。然而使用Relief-SBS算法獲得最優通道的過程需要不斷計算不同通道組合的分類準確率,過程繁瑣耗時。Lan等人[8]提出了一種基于互信息最大化的EEG通道選擇方法。該方法雖然有較好的識別效果,但僅考慮了特征與類別之間的關聯,忽略了特征與特征之間的關聯。Lal等人[9]提出將基于支持向量機(Support Vector Machine, SVM)的遞歸特征消除和Fisher準則相結合進行通道選擇。這種方法依賴于特定分類器,計算復雜并且可移植性較差。在基于EEG信號的情緒識別研究中,Zhang等人[10]提出了一種基于ReliefF特征權值均值的通道選擇(Mean-ReliefF Channel Selection, MRCS)算法,并將其用于情緒的分類研究中。結果表明,MRCS通道選擇算法在使用一定數量通道的情況下可以提高分類準確率。Peng等人[11]研究了MRCS算法的穩定性,指出MRCS算法在跨被試者的情緒識別時,穩定性較差。
ReliefF算法是一種原理簡單、計算快速的過濾式特征選擇方法,在許多場景中有著廣泛的應用[12]。目前基于ReliefF的通道選擇算法主要有以下兩種研究思路:(1)首先使用ReliefF算法計算每個通道的權值,然后設定權值閾值[13],去除權值小于閾值的通道,保留的通道即為所選通道(簡稱經驗選擇法);(2)首先使用ReliefF算法計算每個通道的權值,并按照權值從大到小的順序對通道排序,然后從排序后的第1個通道開始不斷增加通道數目,同時使用特定分類器計算每種通道數目下的分類準確率,最后根據分類準確率確定通道數目和所用通道[14](簡稱準確率選擇法)。以上基于ReliefF的通道選擇算法均沒有考慮通道間的關聯性,所篩選出的通道往往存在大量的冗余通道。此外,在經驗選擇法中,閾值的選擇沒有統一的標準,需要依靠研究者的經驗確定,當閾值變化時所選用的通道也將發生變化;在準確率選擇法中,研究者需要計算每種通道下的分類準確率,通道數目越多,需要計算的次數就越多(如30通道需要計算30次),計算耗時,并且通道選擇的結果依賴于所用的分類器。
針對傳統基于ReliefF的通道選擇算法的不足,本文將ReliefF算法和Pearson相關系數[15]相結合,提出了一種新型的基于ReliefF-Pearson的通道選擇算法,并將其應用于嗅覺EEG信號的通道選擇。本文所提算法考慮了通道之間的相關性,在進行通道選擇時能夠剔除大量冗余通道保留主要通道,并且通道選擇的結果不依賴人為經驗和分類器,具有較好的可操作性和推廣性。
本文共招募10名右利手健康受試者參加試驗,其中女性3名,男性7名,年齡在24~30歲,所有受試者均為在讀研究生。試驗前,告知受試者試驗目的、過程以及設備的無害性。該文試驗經天津醫科大學總醫院醫學倫理委員會批準,所有受試者試驗前閱讀了試驗說明及注意事項,并簽署了試驗知情同意書。試驗使用13種氣味作為嗅覺刺激劑:5種T&T嗅液(玫瑰味、焦糖味、腋臭味、桃子味、糞便味,濃度最高的嗅液稀釋10–2倍)和8種精油(薄荷、茶、咖啡、迷迭香、茉莉、檸檬、香草、薰衣草)。試驗在安靜無干擾的環境下進行,試驗過程中要求受試者睜眼、放松、自然呼吸,并盡可能不要出現眨眼和肢體動作。將32導(包含兩個參考電極)電極帽按照國際10-20標準配戴在受試者頭部,用塞雷布斯(Cerebus)多通道神經信號采集系統(Cerebus,Blackrock Microsystems, 美國)記錄EEG信號,采樣頻率設置為1000 Hz。每位受試者分別經歷13種氣味刺激,每種氣味重復測試35次。所以,對于每位受試者,試驗共得到13×35=455個樣本,其中每個樣本包含30個通道的EEG信號(除去2個參考電極)。本試驗的詳細過程可參見文獻[16]。
試驗采集的EEG信號通常包含大量的冗余信息和噪聲,因此在特征提取前需要對EEG信號預處理。本文對10名受試者的EEG數據依次處理,針對每位受試者,首先將采樣頻率為1000 Hz的EEG信號降頻至128 Hz;然后利用4階巴特沃思濾波器對降頻后的EEG信號進行4~64 Hz帶通濾波,并將其劃分為θ頻帶(4~8 Hz)、α頻帶(8~12 Hz)、β頻帶(12~30 Hz)和γ頻帶(30~64 Hz) 4個頻帶;最后,分別計算每個頻帶下30通道EEG信號的功率譜密度(Power Spectral Density, PSD),并將PSD的算術平均值作為EEG信號特征用于后續的氣味分類。
3.2.1 ReliefF算法
Relief算法由Kira于1992年提出,主要用于解決二分類中的特征選擇問題,針對Relief算法無法處理多分類的問題,Kononenko對Relief算法進行改進,提出了ReliefF算法[12]。ReliefF算法的核心是權值思想,即根據特征與類別標簽之間的相關性計算該特征的權值。該算法中特征和類別標簽的相關性是基于特征對近距離樣本的區分能力度量的。具體計算過程如下:對任意特征,首先從訓練集中隨機選擇一個樣本Ri;然后從和Ri同類(類別標簽相同)的樣本中選擇k個最近鄰樣本(與Ri距離最近),從與Ri不同類(類別標簽不同)的樣本中選擇出k個最近鄰樣本;最后根據權值單次迭代式(1)不斷更新該特征對應的權值,循環計算m次直至所有樣本依次計算完畢,得到單個特征的最終權值。權值單次迭代式為
k

其中,Wi(fl)為第i個樣本中第l個特征f的權值;Hj(j=1, 2, ···, k)為與Ri同類的k個最近鄰樣本中的第j個樣本; P(C)為在訓練樣本中屬于類別C的樣本所占比值; P(label(Ri))為與Ri同類的樣本占總樣本的比值,其中label(Ri)為Ri的標簽; Mj(C) (j=1,2, ···,k) 為與Ri不同類的k個最近鄰樣本中的第j個樣本(類別標簽為C)。函數diff(f, R1, R2)的計算方法如式(2)所示

其中,diff(f, R1, R2)為樣本R1和R2在第f個特征上的歸一化距離,R1f和R2f分別為樣本R1和R2的第f個特征,max(f)和min(f)分別為所有樣本中對應特征f的最大值和最小值。在本文研究中,令m為訓練樣本的特征維數30, k取10。研究表明,當k=10時[10],對大多數分類任務最為可靠有效。
3.2.2 基于ReliefF-Pearson的通道選擇算法
本文所提基于ReliefF-Pearson的通道選擇算法主要分為以下3個步驟:
步驟 1 對每位受試者利用ReliefF算法計算每個通道的權值(本文每個通道對應提取一個特征,即該通道信號PSD的算術平均值,因此用ReliefFPearson算法進行特征選擇也就是通道選擇)。
步驟 2 將每位受試者所有通道的權值歸一化在[–1, 1],然后將所有受試者同一通道的權值相加,如式(3)所示,得到與受試者無關的每個通道的權值

其中,N為受試者人數,W(ti)為受試者i的第t個通道歸一化后的通道權值。得到與受試者無關的通道權值后,對所有通道的權值由大到小進行排序,并求取所有通道權值的平均值,將權值大于平均值的EEG通道作為初選通道。
步驟 3 依次計算初選通道中任意兩個通道之間的Pearson相關系數,并根據相關強度(正相關值大于0.9)保留排序靠前的通道,去除排序靠后的通道。Pearson相關系數公式為

其中,ρX,Y為任意兩個通道X,Y 間的Pearson相關系數,范圍為[–1, 1], E為數學期望,Xˉ是所有X的平均值,是所有Y的平均值。
本文研究的焦點是嗅覺EEG通道選擇方法,因此我們使用常用的k近鄰(K-Nearest Neighbor,KNN), SVM和隨機森林(Random Forest, RF)作為分類器。該文KNN算法中的距離采用相關距離,最優K值通過交叉驗證法確定;SVM算法采用徑向基核函數,懲罰參數c和核參數g使用網格搜索法獲取最優值;RF算法采用分類回歸樹(Classification And Regression Tree, CART)作為基分類器,CART樹任意生長不剪枝,森林大小設為100。
針對每位受試者,依次從每種(共13種)氣味35次試驗數據中隨機選取20次試驗數據作為訓練樣本,剩余15次試驗數據作為測試樣本,分別利用KNN, SVM和RF分類器對13種氣味分類。以上過程重復計算10次,將10次分類結果的平均值作為該受試者的最終分類準確率。
表1提供了10名受試者氣味分類準確率的平均值和標準差。其中,全特征為θ, α, β和γ頻帶特征的融合。對比表1中不同頻帶的分類結果,可以發現在3種分類器中,γ頻帶的分類準確率均顯著高于其他頻帶。特別地,SVM分類器中的γ頻帶分類準確率最高(92.61%)。該結果表明EEG信號的γ頻帶與氣味信息處理的大腦活動密切相關,這與已有研究結果[17]相一致。對于全特征,雖然它包含了θ, α,β和γ頻帶的所有特征,但與單獨使用γ頻帶特征相比,分類準確率并沒有得到提高。這可能是因為全特征中存在θ, α和β頻帶具有弱分類能力的特征,這些弱分類特征降低了分類精度。此外,對比不同分類器的分類結果,可以發現,每種分類器的分類性能與所用腦電信號的頻帶有關:對于全特征,RF的分類性能最好;對于θ和α頻帶特征,KNN分類能力最好;而對于β和γ頻帶特征,SVM的分類性能優于KNN 和RF。其他研究者的實驗結果也出現了類似于上述分類器的分類性能在不同頻帶表現不一致的現象[18]。一種可能的解釋是不同頻帶特征的分布不同造成分類器分類性能的差異。

表1 基于全通道不同頻帶的PSD特征分類準確率(標準差)(%)
本文4.1節的研究發現,γ頻帶的氣味分類準確率最高,因此本節使用γ頻帶的特征進行嗅覺EEG通道選擇。為了驗證本文所提算法的有效性,將本文算法得到通道的分類準確率和通道數目與基于ReliefF算法的兩種傳統通道選擇方法(經驗選擇法和準確率選擇法)進行對比,結果如表2所示。其中,經驗選擇法選取權值大于平均值的通道作為所選通道;準確率選擇法將分類準確率達到最大值時所用的通道作為所選通道。
由表2可知,利用本文所提算法篩選出的6個通道最高可達到88.51%的分類準確率,而傳統的經驗選擇法和準確率選擇法分別需要13個通道和8個通道方能達到最高91.15%和89.31%的分類準確率(分別僅比本文所提算法高2.64%和0.80%)。此外,準確率選擇法雖然也用了較少的通道數量,但在進行通道選擇時對分類器依賴比較大。如圖1所示,使用不同分類器,分類準確率達到最高時通道數量不同。此外,準確率選擇法需要計算每種通道數目下的分類準確率,計算量較大。以上結果表明,本文所提的基于ReliefF-Pearson的通道選擇算法不僅能夠減少使用的通道數量,而且能夠保證較高的分類準確率。此外,本文所提算法在進行通道選擇時不依賴研究者的經驗和分類器,可操作性和實時性相對較好。

表2 基于γ頻帶的不同通道選擇算法的分類準確率(通道數目)(%)

圖1 PSD特征在不同分類器中隨通道數增加分類準確率變化
圖2 是3種通道選擇法篩選出的通道示意圖。其中,圖2(a)是利用本文所提算法得到的6個通道;圖2(b)是利用經驗選擇法得到的13個通道;圖2(c)是KNN作為分類器,利用準確率選擇法得到的9個通道;圖2(d)是用SVM或RF作為分類器,利用準確率選擇法得到的8個通道。對比圖2中3種通道選擇法篩選出的通道,可以發現,本文所提算法保留了經驗選擇法和準確率選擇法選擇出的重要通道(FP1, FCZ, CZ, C4, TP8),并剔除了其中的大量冗余通道(FP2, FZ, T4, CP3, CPZ, CP4, P3)。此外,本文所選通道主要位于額葉、頂葉和顳葉位置,這與神經生理學研究中的嗅覺相關腦區相一致。此結果進一步證明了本文通道選擇算法的科學性和有效性。

圖2 通道選擇結果
本文提出了一種新型的基于ReliefF-Pearson的通道選擇算法,并將其應用于嗅覺EEG通道的選擇。首先,通過試驗采集由13種氣味誘發的多通道EEG數據;隨后,計算每通道信號的PSD,并將其算術平均值作為特征;接著,基于每通道提取的特征,利用本文所提算法對嗅覺EEG通道進行選擇;最后,基于所篩選出的通道對13種氣味進行識別。實驗結果表明,本文所提算法能夠在保證較高分類準確率(88.51%)的同時使用較少的通道(6通道)。與傳統基于ReliefF的通道選擇方法相比,本文算法考慮了通道之間的相關性,在通道選擇時可剔除大量冗余通道,并且通道選擇的結果獨立于研究者的經驗和分類器。
目前,本文所提算法僅針對傳統基于ReliefF的通道選擇算法的不足而提出的。雖然與傳統基于ReliefF的通道選擇算法相比,本文所提算法可以剔除大量冗余通道,實現較為快速的通道選擇,但篩選出的通道仍可能存在冗余。在未來的工作中,將對本文所提算法進行改進,研究如何在保證分類精度和算法實時性的情況下選擇出最少通道,為基于EEG信號的氣味識別走向實際應用提供參考。