基于Relief系列算法的腦網絡特征選擇與分類

2022-11-29 13:24:00李國豪張俊然

計算機仿真 2022年10期

李國豪，楊豪，劉彥，張俊然*

(1. 四川大學電氣工程學院，四川成都 610065；2. 四川大學華西醫院，四川成都 610065)

1 引言

功能磁共振成像(Functional Magnetic Resonance Imaging，fMRI)技術由于具有無創性，可以研究大腦神經元的自發活動[1]，能同時在宏觀層面對腦結構和功能進行研究等優點成為目前腦科學主流研究手段之一。傳統的針對功能像MRI圖像分析的指標提取和分析常采用ALFF(Amplitude of Low-Frequency Fluctuations)、ReHo(Regional Homogeneity)、FC(Functional Connectivity)等指標分析方法進行，通過統計學在局部、腦區連接和全腦的多種角度解釋其臨床意義[2]。最近的大量研究發現并指出了一些腦相關疾病患者在腦網絡拓撲結構存在差異[3]，因此，可以使用復雜網絡理論對腦相關疾病患者和正常人腦功能網絡的拓撲結構進行研究。如文獻[4]利用慢性偏頭痛患者的靜息態功能磁共振(resting state-functional Magnetic Resonance Imaging，rs-fMRI)數據構建腦功能拓撲結構網絡，發現了患者與健康者的網絡屬性差異。文獻[5]利用糖尿病患者的rs-fMRI數據，定義90個腦區為網絡節點，Pearson相關系數為邊對健康者和患者進行了復雜網絡屬性分析，發現患者與健康者的網絡拓撲屬性有差異。以上這些研究針對腦網絡指標進行統計學分析進而解釋了統計差異指標的臨床意義。

目前，基于腦相關疾病的網絡屬性指標在機器學習和疾病模式分類中發揮著越來越重要的作用[6-7]，如文獻[8]利用90個腦區的Pearson相關系數矩陣，把相關系數作為特征值，利用F分數對4005維特征進行選擇，采用支持向量機(Support Vector Machine，SVM)對癲癇病患者與健康者進行分類。文獻[9]利用“小世界”網絡拓撲屬性對顳葉癲癇病患者的MRI數據進行分析，通過選擇不同節點數來篩選特征并進行分類。文獻[10]通過計算出網絡拓撲屬性對抑郁癥患者進行分析，采用雙樣本T檢驗對特征進行篩選并進行分類。上述研究在特征獲得與選擇上，要么構建了大量的針對節點的局部屬性；要么選擇某些網絡拓撲屬性作為特征輸入進行分類學習而沒有進行有效的特征篩選。如何從不同維度選取特征指標來表征腦相關疾病網絡特點的分類特征，進而篩選出對疾病分類有用的特定特征指標從而達到去除冗余特征的目的，在這方面的研究還較少。

本研究以糖尿病為例，擬通過圖論分析技術對糖尿病患者腦功能異常進行檢測并構建其靜息態腦功能網絡。針對上述研究的不足，在特征的提取上，本研究在多個尺度上利用腦相關矩陣和網絡拓撲屬性結果作對比；在特征的選擇上，本研究不僅利用經典的Relief算法，還應用近幾年提出的兩種衍生Relief算法對特征進行有效的篩選后進行模式分類。在構建特征選擇模型時，不但考慮局部的節點特征，也考慮全腦的網絡屬性指標。最后將雙樣本T檢驗與Relief系列方法在多尺度上進行了特征選擇后分類效果的對比，并對結果進行了簡單的分析。

2 腦功能網絡的構建與相關參數獲取

一般來說傳統腦網絡分析方法的步驟分為：1)以一個特定模板定義腦網絡的節點；2)計算Pearson相關系數作為邊，建立腦相關系數矩陣獲得特征；3)利用腦相關矩陣計算網絡拓撲指標獲得特征；4)利用傳統統計學分析方法對實例進行分析。

由于本研究重點不在網絡指標的構建和臨床指標的分析，故對上述步驟進行簡短的描述。

2.1 相關系數矩陣構建

本文基于90個腦區的AAL(Anatomical Automatic Labeling)模板，腦區內所有體素的時間序列進行加權平均得到平均時間序列。腦區作為節點，腦區之間的時間序列相關系數作為邊。然后計算所有節點兩兩之間Pearson相關系數，得到一個90×90相關矩陣，即為該個體的相關系數矩陣。

2.2 拓撲指標計算

對于所有的相關矩陣要選定一個閾值才能將相關矩陣換成二值矩陣，以相關系數是否超過某一閾值來判定節點之間是否存在邊，本文選取一個連續閾值范圍0.1～0.4，選這個閾值范圍是為了驗證本研究的特征選擇算法在較寬泛的閾值是否有效(選擇0.1下限是因為很多研究以此閾值開始取，選擇0.4上限是避免最短路徑長度存在無限大的可能)。設定步長為0.01，總共31個閾值點。

分別構建1型糖尿病患者和健康者的腦網絡，計算出來的拓撲指標包括平均聚類系數(Clustering Coefficient，Cc)[11]、標準化平均路徑長度(Lambda)、標準化聚類系數(Gamma)、平均路徑長度(Shortest Path Length，Lp)、局部效率(Local Efficiency，Le)[12]、全局效率(Global Efficiency，Ge)[13]、平均度中心性(Degree Centrality，Dc)[14]以及小世界性(σ)[15]。

3 Relief系列算法的復雜網絡拓撲指標選擇框架

3.1 基本思想

Relief(Relevant Features)算法是一種過濾式特征選擇方法，最早是由Kira提出[16]，可以解決多分類問題以及回歸問題，是公認的效果較好的特征評估算法[17]。

近幾年Relief的衍生算法在經典的Relief算法上做出一些改進。文獻[18]在Relief算法基礎上提出一種多階段Relief算法MS-Relief(Multi-Stages Relief)從橫縱兩個維度對特征集進行降維處理。解決了Relief算法一是未考慮到多個特征聯合對分類的影響。文獻[19]針對Relief算法在數學定義形式比較抽象，性質難以解釋，且對噪聲和野點魯棒性較差的缺陷，提出了基于兩類數據的Relief特征加權算法LIE-Relief(Local consistency Information Entropy-Relief algorithm)。

3.2 框架描述

Relief算法的每個特征向量對不同樣本有不同區分能力，該算法借助這種區分能力來估計特征權值和該特征的重要程度。具體算法如下：

1)從訓練集S中隨機抽取一個樣本xn(1≤n≤N)并記錄該樣本的類目。

2)選取距樣本xn距離最近的同類樣本NH(xn)和距離最近的異類樣本NM(xn)。如果在某一特征上，同類樣本到樣本xn的距離小于異類樣本到xn的距離，則說明該特征對區分同類和不同類的最近鄰是有益的，反之則說明該特征對區分同類和不同類的最近鄰是起負面作用的。

3)按照如下規則更新每個特征的權重w，如式(1)、式(2)所示

(1)

(2)

文獻[18]的算法如下：

1)從所有特征中隨機挑選兩個特征組成聯合特征對，重復2/n次操作得到不重復的特征對。按照式(3)得到所有特征對的差異度

|max(x(i))-min(x(i))|·|max(x(j))-min(x(j))|

(3)

2)計算聯合特征對的協方差，式(4)所示消除特征對中一個特征。

Cov(i，j)=E[(i-μi)(j-μj)]

(4)

式中，μ表示特征的數學期望。

文獻[19]引入間距最大化的特征加權信息熵，方法如下：

1)給定二類數據集一個初始權值w(0)=1/K，其中K代表特征個數。

2)根據式(5)～(7)重新計算差異性度量。根據式(8)引入信息熵理論使得熵和樣本在屬性域上的分布呈正比

(5)

(6)

式中，η表示j維特征的模糊隸屬功度公式，δ表示模糊隸屬度參數。

(7)

其次引入信息熵理論公式如式(8)所示

(8)

3)定義LIE-Relief算法的目標函數如式(9)

(9)

式中，ρn(w)函數表示間距最大化，λJ(wj)函數表示特征加權的信息熵。

本文算法框架迭代5次即N=5，每次會隨機抽取30個樣本xn即m=30，每個樣本計算同類別樣本和不同類別樣本數分別是10即k=10，取模糊隸屬度參數δ=2。

3.3 特征選擇及分類

本研究每個閾值下的網絡有其網絡屬性，為了簡化計算，選取了具有代表性的閾值點作為特征選擇的實驗條件。采用SPSS22.0軟件對兩類樣本不同閾值下的網絡屬性進行雙樣本T檢驗，以期得到每個指標存在顯著差異的閾值范圍。依據具有顯著差異的指標數量多少得到具有代表性閾值點，在得到具體閾值點之后，使用Relief及其最新系列算法在該閾值點下對特征進行權重計算，采用10折交叉訓練得到訓練集不同特征權重占比(表1～3給出了其中5組實驗權重占比)，其中訓練集與測試集的數據比為9：1，依據得出來的特征權重，設定權重占比閾值為10%對特征進行篩選作為分類器輸入考察分類效果；作為對比，本文利用雙樣本T檢驗的傳統特征選擇方法在不同維度(4005維、8維)也進行了特征篩選并進行分類學習。

圖1 本文模型流程

4 實驗與結果分析

4.1 實驗數據與預處理

本實驗共收集四川大學華西醫院數據庫的41名1型糖尿病患者和41名健康者，被試信息如下：采用西門子公司的3.0T特斯拉超導型MRI成像系統(Siemens Magnctom Trio Tim 3.0TMR)進行掃描。掃描參數如下所示：重復時間(Repetition Time，TR)為2，000ms；回波時間(Echo Time，TE)為30 ms；掃描層數為33；翻轉角(Flip Angle，FA)為 90度；層厚(Slice Thickness，ST)為4mm；掃描視野(Field of View，FOV)為240mm×240mm；掃描矩陣(Data Matrix)大小為64×64；體素大小(Voxel Size)為 3.75×3.75×4.00 mm3，采集的時間點數為210。

采用DPARSF(http：//rfmri.org/DPARSF)軟件對數據進行預處理(包括：時間層矯正、頭動校正、空間標準化、平滑處理、低頻濾波)和功能網絡構建、分析。

4.2 指標的特征選擇

經過多次Relief算法和另外兩種衍生算法進行特征權重計算，得到8個拓撲指標權重占比或被算法篩選出的特征組合。三種算法計算的各個拓撲指標權重占比如表1、表2、表3所示。

表1 Relief權重占比

表2 LIE-Relief權重占比

表3 MS-Lelief特征篩選

4.3 Relief系列方法篩選特征分類結果

本研究驗證屬性特征對分類的有效性和特征選擇算法性能，在8種拓撲屬性指標在有代表性的3種相關性閾值(閾值0.27、0.34、0.40分別代表在所選腦區相關系數閾值范圍經雙樣本T檢驗后健康者與患者的Lambda；Lambda、Lp；Lambda、Ge指標存在顯著差異)下使用SVM對算法篩選的特征進行分類效果考察，采用十折交叉驗證最后得到測試集分類準確率如表4所示。

表4 分類準確率

4.4 不同類特征選擇分類結果

本次實驗針對節點特征進行比較，也在宏觀層面(拓撲指標)進行比較，利用不同尺度的特征、不同特征選擇的方法，采用SVM在節點相關性為0.40閾值條件下進行對比分析。

表5 多尺度分類結果

4.5 實驗結果分析

從表4分類結果分析，在達到同樣精度時，Relief算法篩選出了6個特征作為分類輸入，而LIE-Relief篩選出最少的4個特征，并輸入分類得到最高的準確率89.02%?？梢钥闯?，經過Relief算法和Relief衍生算法篩選的特征達到了好的分類效果并去除了冗余特征，分析顯示：加入最大間距的信息熵加權Relief算法有更好的特征選擇效果。

從構建網絡的閾值層面分析，分類精度隨著閾值的升高都有一定的提升。其次，在不同閾值條件下，特征選擇方法依然發揮作用，不同的特征選擇方法都會隨著閾值增高其分類效果有增高的趨勢，原因可能是由于不同閾值造成了拓撲結構由弱至強的性質帶來的，而與特征選擇關系不大。

其次，當利用Relief系列算法和雙樣本T檢驗篩選的指標進行分類比較時，Relief算法篩選出的特征分類效果更好。最后實驗結果表明，無論是以腦相關網絡的4005維特征還是拓撲屬性特征作為分類輸入，Relief系列算法相比于雙樣本T檢驗從最后分類精度、計算量和計算時間上都效果更好。

利用之前的一些在特征選擇和分類研究上，本文對比文獻[8]、文獻[9]，具體效果如表6所示。

表6 不同模型分類準確度比較

5 結語

為了高效去除腦網絡計算過程中產生的冗余指標，本研究以糖尿病腦影像數據作為研究對象，比較了多個尺度層面下腦網絡指標在運用不同特征選擇方法后篩選出的特征及其分類效果。結果表明：

1)針對4005維腦相關系數特征，Relief算法與雙樣本T檢驗均表現不錯的分類效果，但計算量和消耗時常比較大；針對具備全腦信息的拓撲指標，雙樣本T檢驗的分類精度不高，而Relief算法及其衍生算法可以有效地對特征進行篩選。

2)在分類結果上，本研究應用的3種Relief系列算法篩選出來的特征得到的分類效果均優于雙樣本T檢驗選擇后的分類效果。其次LIE-Relief算法使用最少特征得到最高的89.02%分類準確率。

3)由于本次研究樣本數量偏少，可能導致研究演過存在選擇性偏倚，如果進一步的擴大樣本量，建立更完善的指標數據庫，可以獲得更加可靠更加穩定的結果。