李瑞, 柳長安*, 王彥平, 曲洪斌, 王玲
(1.北方工業大學信息學院, 北京 100144; 2.中國石油管道局工程有限公司, 廊坊 065000)
在重工作業、自動駕駛等現代工業系統的一些高復雜性和需要高安全性保障的工作中,操作人員更多參與的是高級決策和監管監控角色,長時間處在高壓狀態,精神集中,容易造成腦力疲勞,警覺性下降,而過低的腦力負荷會引發操作人員消極倦怠情緒,一定程度上浪費了人力資源[1-3]。實時評估操作人員的腦力負荷情況,一方面能合理利用資源,提升工作效率;另一方面保障了操作人員和系統的安全。文獻研究表明,當前公認的腦力負荷的評估方法主要包括以被試主觀感受、作業績效進行測評和根據與腦力負荷相關的生理指標進行測評的方法[4]。這三類主流方法各有利弊,目前科研工作者們仍未對如何進行腦力負荷測評形成統一的評價體系。以被試主觀感受、作業績效進行測評的方法具有遲滯性的特點,不能實時獲取被試當前腦力負荷狀態,且受個體影響較大,存在系統誤差,往往作為輔助參考。基于生理指標進行測評的方法避免了主觀偏好的影響,且能實時評估負荷狀態,一定程度上可以對另外兩種方法的缺陷加以彌補,日益成為研究熱點。采用的生理指標以腦電(electroencephalogram, EEG)和心電(electrocardiograph, ECG)為代表[5-7]。郭孜政等[8]以駕駛員腦力負荷識別為背景,結合腦電熵值和BP(back propagation)模型實現了腦電信號的腦力負荷識別。李鵬杰等[9]通過研究心率變異性的指標進行腦力負荷評價的可行性驗證,結果表明在不同的操作難度,程度和階段下,部分心率變異性指標呈現出較強的敏感性。傳統腦力負荷識別方法依靠單一生理信息,識別率有待提高;且腦電信號采集過程中容易受到干擾,被試的生理活動也會對腦電信號產生不同程度的影響;心電信號分類準確率不高,但易采集,對監測環境的抗擾能力強,采用多生物電信號綜合評估腦力負荷逐漸成為研究的熱點。
此外,現階段的腦力負荷分類研究大多都是基于傳統的機器學習方法來進行的,機器學習解決了如何讓機器獨立自主地通過現有數據中來獲取知識,通常是針對特定領域的訓練,難以應用到一個新的領域,或需要從頭開始訓練模型。傳統的機器學習是基于指定的訓練數據和測試數據是獨立的前提下展開的。但是在實踐中,腦力負荷的數據分布會隨著時間推移而改變,在不同的被試中分布也有所不同,這就使得數據并不會嚴格地遵循相同分布的完美假設,那么在測試樣本數據分布偏移的情況下出現研究誤差也就不足為奇了,這使得很多傳統機器學習的識別率不是很高。為了更好地解決傳統機器學習的不足,研究人員提出了遷移學習的方法,這種方法的核心在于搜尋找到問題之間的相似性,首先學習原問題中的知識結構體系和判別方式,然后將這類模型遷移應用到新問題中去,這就一定程度上解決了以往要求訓練數據和測試數據需要服從同分布的嚴苛條件,實現了同類知識在不同領域之間的遷移[10-12]。Lan等[13]基于遷移學習進行腦電信號的情緒識別,在一個數據集上訓練一個獨立的分類器,在另一個數據集上進行測試,探討了在不同環境下使用不同設備和實驗協議采集數據時遷移學習的有效性。遷移學習在跨領域識別表現良好,大大提高了分類器的性能,在生物圖像分析、人機交互、自然語言處理等領域都取得了良好的效果。
綜上所述,現提出一種多生理信息特征遷移學習的腦力負荷分類方法。首先,對采集的腦電和心電信號進行預處理,提取時頻域特征,進行特征融合,然后基于遷移成分分析方法,將源域和目標域的特征數據映射到公共的低維子空間,在該空間實現二者的邊緣分布適配,并進行腦力負荷分類。
本實驗以模擬飛行任務的MATB-II 平臺為載體,設計了低高兩種負荷狀態,根據實驗任務出現的頻率來界定,被試在不同負荷狀態下分別完成對系統儀表刻度、飛行器追蹤、空中交通管制通信任務、油量資源的信息監控,當監控到新的任務或出現異常情況,被試通過操作鼠標,萊仕達飛行搖桿作出響應操作。MATB-II 平臺及其包含的4個子任務的界面如圖1所示。
根據不同負荷水平,任務出現頻率有所改變,如表1所示。

表1 任務出現頻率Table 1 Frequency of task occurrence
實驗同步采集12名健康受試者的腦電信號和心電信號,所有被試經過培訓,了解實驗整體流程,對生理設備進行佩戴,完成實驗操作。腦電測量系統采用Neuroscan Neuamps系統(Synamps2, Scan4.3, EI Paso, USA),采集被試額葉、中央區、頂葉、枕葉共計10個通道(F7、 Fz、 F8、 C3、 C4、 P3、 Pz、 P4、 O1、 O2)的腦電信號,采樣率為1 000 Hz,腦電采集通道布局如圖2所示。信號放大器采用Grael便攜式腦電放大器。心電測量系統采用BioHarness配合AcqKnowledge軟件組成的一套輕便無線便攜式生理信號采集遙測系統,可以監控、分析和記錄多種生理參數。

圖1 MATB II平臺界面Fig.1 Platform interface of MATB II

圖2 腦電信號采集通道Fig.2 The channels of brain signal acquisition
研究表明頻域特征能更好地表征腦力負荷的變化[14-16]。對腦電信號做傅里葉變換,得到F(n),計算公式為

(1)
式(1)中:f(t)為腦電時域信號;t為時間;F(n)為經過變換的頻域信號;n為頻率;e-int為復指數。
功率譜密度計算公式為
(2)
式(2)中:F*為共軛;N為信號長度。
研究表明腦電信號具有強烈的節律特性,按照頻率來看,腦電節律可分為4個基本頻段:δ(0.5~3 Hz),θ(4~7 Hz),α(8~13 Hz) 和β(14~30 Hz)[17],計算4種頻段下的能量特征為
(3)
式(3)中:Eδ、Eθ、Eα和Eβ為腦電信號提取的4種能量特征;Pfreq為特定頻率值freq下的功率譜密度值。
通常來說,P波、QRS 波群和T波等組成了一個正常的心電波,如圖3所示。

圖3 心電信號波形Fig.3 ECG signal waveform
一般來講,心率指的是心臟跳動的快慢,在國際上,一個健康正常個體在保持安靜的狀態下,心臟在一分鐘內搏動的次數被定義為心率,心率通過檢測R波進行計算[18]。當前R波峰到下一個被檢測到的R波峰之間的時間間隔即為R-R間期。對R波峰進行檢測采用差分閾值法[19],這種方法的核心就是對濾波完成后剩余的高信噪比的心電信號進行差分計算處理,隨后再利用提前設定好的門限值來進行判別操作。為了識別心跳,使用每個數據點兩側0.75 s的窗口計算移動平均值。信號的第一秒和最后0.75 s用信號的平均值填充,這些區段不生成移動平均值,插值切片后,使用numpy的argmax函數得到峰值索引,即R波的位置。
R-R間期計算公式為
RRi=Ri+1-Ri
(4)
一般情況下,成人的R-R間期為0.6~1.2 s。心率變異性 的時域指標是基于心電信號的R-R間期進行分析得到的。
基于頻域的心電分析方法是對心電信號進行傅里葉變換,計算功率譜密度,將信號分解為不同的頻率成分。TP波頻率范圍為0~11 Hz,QRS波為12~209 Hz[20],計算兩種頻段下的能量特征如下:
(5)
式(5)中:Etp、Eqrs為TP波和QRS波能量特征;Pfreq為特定頻率值下的功率譜密度值。

圖4 源域和目標域原始腦電數據分布Fig.4 Distribution of original EEG data as source domain and target domain
實驗采用的方法為遷移成分分析(transfer component analysis,TCA)[21],主要用來解決邊緣分布,即數據整體不相似的問題,具有較高的應用價值。傳統機器學習中,不少問題要求樣本數據采樣自同一個分布,希望將訓練數據集訓練得到的模型合理應用于測試。但是在實踐中,對于同一個被試,隨著檢測時間的轉變,腦力負荷的數據分布也會隨之改變,以其中一名被試第一天和第二天的腦電數據為例,對其降維可視化,如圖4所示,可以看到這兩天的數據在分布上有較大差異,訓練數據和測試數據并沒有嚴格遵循相同的分布,用第一天數據訓練出的分類器應用于第二天的數據進行測試會在產生較大的檢測誤差,導致識別率較低。
而遷移學習就能夠很好地解決這個問題,它利用數據以及模型之間相似性,將原問題中學習到的知識結構或判別模型遷移到新問題上,針對源域和目標域數據之間概率分布的差異,最簡單的解決辦法就是利用某種變換,實現不同數據分布距離的最小化。
給定源域Ds和目標域Dt,用Xi表示領域上的第i個樣本或特征,從形式上來說,P(Xs)和P(Xt)分別表示源域和目標域的邊緣分布概率,用二者之間的距離(Distance)表示兩個領域之間的差異[22]。即
Distance(Ds,Dt)=‖P(Xs)-P(Xt)‖
(6)
遷移成分分析假設存在一個特征映射φ,源域和目標域經過映射邊緣分布相近,即P[φ(Xs)]≈P[φ(Xt)][23]。進而兩個領域的條件分布也會接近,即P[Ys|φ(Xs)]≈P[Yt|φ(Xt)]。
遷移成分分析采用最大均值差異(maximum mean discrepancy,MMD)的方法,n1為源域樣本個數,n2為目標域樣本個數,計算源域和目標域距離,公式為
(7)
通過引入核矩陣K和MMD矩陣L:
(8)
(9)
將式(7)轉換為
tr(KL)-λtr(K)
(10)
式(10)中:tr()為矩陣的跡;λ為折中系數。
為了簡化計算,采用降維方法,用一個更低維度的m(n1+n2)維的矩陣W將特征矩陣映射到m維:
(11)
TCA優化目標轉化為
(12)

通過推導,計算得出(KLK+μI)-1KHK的前m個特征值,就可以成功得到變換后的源域和目標域數據信息,如圖5所示,此時源域和目標域數據之間的距離達到最小,再利用源域訓練出的分類器對目標域進行測試就能夠得到較好預期的分類結果。

圖5 源域和目標域遷移腦電數據分布Fig.5 Distribution of transfer EEG data as source domain and target domain
對采集到的腦電、心電信號進行預處理,提取時頻域特征,并進行融合,從而得到源域和目標域數據,進一步進行遷移成分分析,對于源域和目標域,各利用一個變換矩陣將其分別投影至一個公共的特征空間,即對數據進行降維,在這個空間中,投影后的源域和目標域不僅特征空間相似,數據分布也是相似的,所以就可以在這個公共空間進行知識的遷移。實驗采用支持向量機作為分類研究方法,用網格搜索進行調參,交叉驗證評估得到最優模型,其中模型參數根據不同測試樣本進行選擇,采用5折交叉驗證。
對采集到的腦電信號進行1~30 Hz的濾波,圖6是濾波前后的對比圖,Help欄記錄了0~1 400 s的腦電數據,圖6中顯示為600 s左右的信號。選擇中間10 min的較為穩定EEG數據進行分析。對于10通道腦電信號進行獨立分量分析,最終得到10個獨立的分量,對獨立分量以2 s為單位切片,每種負荷有300個片段,對每個片段進行特征提取。
對采集到的心電信號進行標準化,利用頻域自相關去噪及小波閾值去噪方法剔除心電數據中的無用數據,再對其進行濾波及R波檢測(圖7和圖8),最后采用差分閾值法進行R波的檢測分析。對心電信號以2 s為單位分段,每個數據段以檢測到的R波為中心。

圖7 心電信號濾波Fig.7 ECG filtering signal

圖8 R波檢測Fig.8 R peak detection
實驗對采集到的腦電、心電信號進行預處理,特征提取,得到腦電特征40維,心電特征3維,選取12名被試5 d的數據,將第一天得到的數據作為訓練集,其他4 d數據分別測試,進行跨時間遷移學習,計算測試集的平均準確率如表2所示,可以看出,基于多生理信息融合的腦力負荷精度優于單一生理信息。

表2 單一生理信息與融合分類精度對比Table 2 Comparison of classification accuracy between single and fusion physiological information
將表2可視化,結果如圖9所示。圖10是遷移學習與傳統SVM方法對腦力負荷分類精度的結果對比,單一生物電信號和多特征融合下,遷移學習均優于SVM方法。SVM方法融合平均精度為0.74,TCA方法融合平均精度為0.85,精度有明顯提高。

圖9 腦力負荷分類精度對比Fig.9 Comparison of mental workload classification accuracy

圖10 SVM與TCA分類精度對比Fig.10 Comparison of classification accuracy between SVM and TCA
基于模擬飛行任務,提出了多生理信息遷移學習的腦力負荷識別方法,實驗得到如下結論。
(1)將遷移學習應用于跨時間腦力負荷分類,解決了實驗中測試樣本數據偏移而導致識別率低的問題,將源域學習到的分類模型遷移到目標域,實現了源域和目標域的邊緣分布適配,與傳統機器學習方法相比,遷移學習在跨時間腦力負荷分類上準確率平均提高11.6%,具有實際應用價值。
(2)將多種生理信號的時頻域特征進行融合,一定程度上彌補了單一生物電信號的缺陷,同時豐富了信息量,在腦力負荷檢測中增強了抗干擾能力,提升了分類結果的魯棒性,基于多生理信息特征融合識別率高于單一生物電信號識別率,為多生理信息腦力負荷分類研究提供了新方法。