連召洋,段立娟*,陳軍成,喬元華
(1.北京工業大學信息學部,北京 100124;2.可信計算北京市重點實驗室,北京 100124;3.信息安全等級保護關鍵技術國家工程實驗室,北京 100124;4.北京工業大學應用數理學院,北京 100124)
腦電波(EEG,electroencephalogram)是采集到的局部神經元電活動的總和的腦電信號。近年來,隨著腦科學及人工智能的發展,腦電信號分析方法已經成為人們研究的熱點問題。其中,因為對腦電信號進行分析可以了解病人病因和病理,更為癲癇、抑郁癥、老年癡呆等腦部疾病的診斷和治療提供詳細有效的參考,所以基于腦電信號的腦疾病輔助診斷方法引起研究人員的廣泛關注。
癲癇作為一種慢性神經系統疾病,嚴重損害患者的身心健康。將癲癇腦電信號不同時期的檢測出來,能夠給醫生診斷病情帶來幫助。此外,如果能夠及時預測癲癇發作,則可以顯著改善癲癇患者的生活質量,為癲癇疾病的防治開辟新的治療思路[1]。有效的特征提取方法成為不同時期的癲癇檢測及癲癇預測的關鍵[2]。
在特征提取方面,Gotman等人首次對腦電信號進行"半波"(Half-wave)分解,然后從中提取腦電特征,包括相對于背景的平均幅度、持續時間和變異系數等特征,并根據專家經驗設定閾值,將這些特征參數與該閾值進行比較,以此來判斷是否為癲癇信號[3-5]。Nhan Duy Truong等人提出了一種自動電極選擇方法對顱內癲癇數據做預處理,并在時域和頻域中提取特征,計算通道功率和通道對之間的相關性,以此來完成發作期和發作前期的區分[6]。但是這些特征提取方法需要專家經驗和頻帶等方面的先驗知識。
盡管PCA(Principal Component Analysis)、LDA (Linear Discriminant Analysis)和NMF(Non-negative Matrix Factorization)等在特征提取應用中的效果比較好,但是它們都是線性的模型,只能發現數據的全局的特征,并且LDA是有監督的,并且訓練時需要給定標簽信息[7],但是在醫學領域有標簽的數據很少,標注的成本很高。近來,大量研究開始聚焦于腦電無監督領域。不同領域的研究者發現:高維空間中的數據點近似位于嵌入的低維空間中—個子流形上[7,8]。為了發現高維數據空間的非線性結構,有的研究者提出了核方法,但是,核方法的計算量大,也沒有考慮原始高維數據的內在流形結構。而基于流形的方法可以有效的解決以上問題。在[9]中發現應用t-SNE (t-distributed Stochastic Neighbor Embedding)算法對fMRI數據降維后的可視化效果明顯。
本文把不同的流形及降維方法應用在醫療中癲癇的EEG公開數據上,對13主流的流行降算法(包括經典的LLE(Locally Linear Embedding)[10]t-SNE[11,12]、LLSTA(Line Local Tangent Space Alignment)[13]以及較新的Manifold K-ELMC (K-Extreme Learning Machine Clustering)[23]等)無監督情況下的降維聚類效果分別在2維和3維空間上可視化,并做對比分析。實驗結果表明L-ISOMAP(Landmark ISOMAP)的可視化效果明顯,有很好的聚類表現。當樣本大小不同時,還能保持類似的數據流形結構,有一定的普適性。四組中L-ISOMAP都呈類似長條彗星狀的數據流形結構,保持癲癇間期的藍色樣本點在頭部集中,而癲癇發作期的紅色數據集在尾部,并且兩類樣本點的分類界限明顯。
ISOMAP[14]是一種可以保持全局特性的無監督流形方法,是MDS(Multi-Dimensional Scaling)算法[15]在非線性特征提取上的推廣,ISOMAP算法用非線性的測地距離代替歐式距離作為樣本點之間的相似性度[16]。L-ISOMAP(Landmark ISOMAP)[17,18]算法是基于ISOMAP的改進算法,只計算每個樣本點到Landmark點的測地距離生成維矩陣,然后用LMDS (Landmark MDS)得到觀測數據的歐式嵌入。在本公開癲癇數據集中,經過L-ISOMAP降維后癲癇數據集的分界比較明顯。
基于L-ISOMAP算法的癲癇降維可視化流程如圖1所示。

圖1 癲癇降維可視化流程
基于該思想的癲癇數據的降維算法可視化的具體步驟如下:
1)將數據集中癲癇病人的發作間期樣本和發作期樣本隨機打亂合并,組成N*4097維數據,設定各種參數如k近鄰值、低維空間目標維數等。
求N個全部樣本點與選取的n個點之間的歐式距離,得到矩陣d,其中dij代表樣本點xi和Landmark點xj之間的歐式距離。
3)構建鄰域圖
k-NN方法:找出與每個樣本點最近的k個點;
其中,鄰接圖G中每條邊權重為dE(i,j)。
如果樣本點xi和xj在圖G中相連,則它們之間最短路徑的初始值為dG(i,j)=dE(i,j),否則dG(i,j)=∞。令q=1,2,…,N,N是樣本點的總數量,計算下面公式
dG(i,j)=min{dG(i,j),dG(i,q)+dG(q,j)}
(1)
由此可得所有樣本點對之間的測地距離組成測地距離矩陣DG={dG(i,j)}并計算最短路徑。
4)計算低維嵌入坐標
將MDS算法應用到測地距離矩陣DG,最小化下面的目標函數得到樣本的紙維嵌入坐標Y

(2)

本文對不同的流形及降維算法在癲癇數據上的降維效果進行可視化,并和本文提出的算法做對比分析。
數據集采用的是德國波恩大學對外公開的數據[20]。數據集一共由5個集合組成,每個集合里面有5個人,每個集合里面100個EEG數據段,每段數據的采樣點個數為4097,時長為23.6s。集合A和集合B里面分別是健康人的顱外EEG數據;集合D里面是癲癇病人發作間期的數據;集合E里面是癲癇病人發作時的數據。集合D來自癲癇區域,集合C遠離病灶。所有EEG信號的采樣頻率都是173.61Hz,頻段為0.5~85Hz。本文選擇了集合D和集合E,將這兩個數據集的200個EEG數據段隨機打亂,生成200個4096維的輸入數據。圖2是對打亂的200個癲癇間期和發作期的樣本中隨機抽出5個樣本的可視化。

圖2 隨機可視化5個樣本的癲癇腦電信號
為了對比降維后聚類的可視化效果,分別用MDS(Multi-Dimensional Scaling)、LLE(Locally Linear Embedding)、PCA(Principal Component Analysis)、KPCA(Kernel Principal Component Analysis)、Laplacian、SNE(Stochastic Neighbor Embedding)、t-SNE(t-distributed Stochastic Neighbor Embedding)、ISOMAP、L-ISOMAP、DM (Diffusion Maps)[21]、LLC(Locally Linear Coordination)、LLTSA(Line Local Tangent Space Alignment)多種主流的流形及降維工具[22]對生成的4096維輸入數據進行降維,分別得到對應的2維和3維低維嵌入坐標。并對降維后的數據進行了可視化。各算法在降維過程中均不提供標簽,標簽只在得到嵌入坐標后可視化時用于標記顏色。這幾種流形及降維方法對本數據集中原始EEG數據的降維后的可視化效果如圖3、圖4所示。隨后與較新的Manifold K-ELMC算法[23]在癲癇數據集上降維后的2維可視化效果做對比,如圖3所示。

圖3 不同經典數據降維算法在癲癇數據中2維內的可視化結果
圖中紅色代表癲癇病人發作期的樣本,藍色是代表癲癇病人發作間期的樣本。在平面或空間中的位置坐標是4097維原始數據經過不同算法降成2維或3維中的嵌入坐標。從圖3、圖4中可以看出在12種經典的流形及降維算法中,SNE、KPCA、LLE、LLTSA等方法的200個數據點分布散亂,并且嚴重重疊,沒有明顯特征和聚類,發作間期和發作期的數據點交叉混亂。Laplacian、DM等方法的200個數據點的分布成彗星狀,Laplacian方法的數據點交叉嚴重并且還有散點,DM方法的數據點分布比Laplacian方法的可視化效果好一些,但是也有交疊,LLC的數據點分布都集中在幾個零散的點,藍色的癲癇間期樣本點丟失嚴重。采用MDS和PCA方法降維后的可視化形狀比較相似,數據點呈星狀散射。采用ISOMAP方法的數據點可視化效果也一般。從圖5中可以看出采用較新的Manifold K-ELMC算法降維后呈長條狀,紅藍兩類樣本點重疊嚴重,并且在左上部有紅色散點出現,而經過L-ISOMAP方法降到低維空間后,在2維和3維空間的可視化效果都很明顯,其形狀像一顆彗星。頭部是癲癇病人發作間期的藍色樣本,數據點比較集中,尾部是癲癇病人發作期的紅色樣本,相對零散一些。發作間期藍色樣本點和發作期紅色樣本點分界明顯。

圖4 不同經典數據降維算法在癲癇數據中3維內的可視化結果

圖5 L-ISOMAP與Manifold K-ELMC在2維中可視化對比
為了進一步驗證L-ISOMAP方法在本癲癇數據集上的有效性,我們把隨機混合后的200個樣本中抽取分別隨機抽取50個、100個、150個、200個樣本,用L-ISOMAP分別對其降維生成每個樣本嵌入坐標,并在2維和3維空間上進行可視化分別如圖6、圖7所示,用L-ISOMAP算法對該數據集中不同樣本量的數據降維后可視化效果都很好,四組中都呈類似長條彗星狀的數據流形結構,保持癲癇間期的藍色樣本點在頭部集中,而癲癇發作期的紅色數據集在尾部,并且兩類樣本點的分類界限明顯。

圖6 樣本數不同時L-ISOMAP算法的2維中可視化結果

圖7 樣本數不同時L-ISOMAP算法的3維中可視化結果
本文將不同的流形及降維方法應用在醫療中癲癇的EEG數據上,在此公開數據集上,基于L-ISOMAP的癲癇數據降維可視化方法在13種流形降維方法中的效果最好,癲癇間期和發作期的樣本點分界面明顯。通過調節不同的樣本大小,經過L-ISOMAP降維后數據樣本點在2維和3維中的數據分布保持相似的呈長條彗星狀的數據流形結構,有一定的規律性。