李 鵬,李 俊
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230026)
人類的各種行為由腦部神經(jīng)決定,探索神經(jīng)激活模式和行為之間的關(guān)系是神經(jīng)科學(xué)領(lǐng)域的一個重要課題。隨著功能性磁共振成像(functional Magnetic Resonance Imaging,fMRI)技術(shù)[1]的成熟,腦內(nèi)神經(jīng)活動數(shù)據(jù)的獲取精度和速度都在提升。現(xiàn)代神經(jīng)認(rèn)知研究多通過分析fMRI數(shù)據(jù)和行為數(shù)據(jù)的聯(lián)系,確認(rèn)行為背后的神經(jīng)機制。
傳統(tǒng)的研究中,廣義線性模型(Generalized Linear Model,GLM)[2]被廣為應(yīng)用。廣義線性模型是單變量分析的統(tǒng)計分析方法,其特點為將目標(biāo)區(qū)域內(nèi)多個體素的信號數(shù)據(jù)取平均,再利用模型進行解碼。此方法的優(yōu)點在于模型解釋性好,數(shù)據(jù)處理簡單,但是,模型獲取的體素數(shù)據(jù)信號波動互相抵消,對于模型解碼能力有約束。隨著計算機的發(fā)展和機器學(xué)習(xí)理論的完善,基于機器學(xué)習(xí)分類算法的多特征分類方法被應(yīng)用到神經(jīng)機制的解碼工作中[3-4]。多變量模型考慮到多個體素數(shù)據(jù),對多體素共同控制行為解碼效果好[5],且多變量模型考慮到每個體素,不會忽略對行為有控制作用但激活不明顯的體素,激活數(shù)據(jù)完整性高[6]。
本文主要研究適用于在愛荷華博弈任務(wù)的解碼方法。通過分析仿真數(shù)據(jù),對比單變量分析和多體素模式分析(Multi-Voxel Pattern Analysis,MVPA)[7]效果,對比不同分類算法下多體素分類模型效果,最后,確認(rèn)最適用于優(yōu)勢決策任務(wù)的解碼方法。
體素水平上的研究表明,腦神經(jīng)的波動主要來源有三個層次[2,8]:被試水平,不同被試對相同刺激的神經(jīng)激活不同;體素水平,不同體素對相同刺激的神經(jīng)激活不同;試驗水平,不同試驗變量導(dǎo)致的神經(jīng)激活不同。故仿真實驗中,當(dāng)給定被試s,給定試驗t,給定體素v,激活是試驗變量在三個水平上產(chǎn)生固定和隨機偏移的結(jié)合。這些固定和隨機的影響可以被一個三水平混合模型模擬出來[9],亦為本文仿真實驗數(shù)據(jù)生成的理論基礎(chǔ)。
仿真實驗設(shè)計中,數(shù)據(jù)生成的試驗變量為二類:優(yōu)勢和劣勢,體現(xiàn)在試驗水平,令其為Xpts,取值為0或1;令A(yù)tvs為生成數(shù)據(jù)的值,其模擬產(chǎn)生來源于三個水平的波動。
(1)被試水平的波動:
(1)
其中,0、P分別代表未施加刺激和施加刺激的狀態(tài);γ0、γp分別代表受到刺激和未受到刺激被試的響應(yīng),γ0、γp取常量值;e0s、eps分別代表被試在刺激下的隨機波動,其中每個被試的方差固定,且不同被試間方差不同,代表著被試水平的波動。
(2)體素水平的波動:
(2)
其中,β0s、βps由式(1)定義可得;e0vs、epvs分別代表刺激狀態(tài)下和非刺激狀態(tài)下產(chǎn)生的隨機波動,滿足均值為0、方差為固定值τ0、τp的高斯分布,其中每個體素的方差固定且不同,代表著體素水平的波動。
(3)試驗水平的波動:
(3)
其中,α0vs、αpvs由式(2)可得;Xpts代表著試驗變量,取值為1或0,對應(yīng)刺激的有無;etvs為滿足均值為0、方差為固定值σ2的高斯分布,方差隨著試驗不同而不同,代表著試驗水平的波動。
結(jié)合式(1)~式(3),可推出Atvs的表達式如式(4)所示:
Atvs=γ0+e0s+e0vs+Xptsγp+Xptseps+Xptsepvs+etvs
(4)
其中,γ0、γp分別代表無刺激和有刺激的試驗變量對被試產(chǎn)生的影響,為固定值;e0s、eps、e0vs、epvs、etvs分別代表不同試驗變量在被試、體素和試驗三個水平上帶來的隨機波動,均為0均值的高斯分布產(chǎn)生的隨機數(shù)。仿真實驗中,按照設(shè)定的被試數(shù)目、體素數(shù)目和試驗數(shù)目產(chǎn)生仿真數(shù)據(jù)。
MVPA本質(zhì)上為利用多變量模型解碼分析神經(jīng)機制的過程,利用MVPA解碼相關(guān)行為的神經(jīng)機制一般分為以下幾步,如圖1所示。

圖1 MVPA判斷腦區(qū)激活流程示意圖
(1)導(dǎo)入數(shù)據(jù),為避免模型過擬合,一般建模檢驗時,只導(dǎo)入感興趣區(qū)(Region of Interest,ROI)的數(shù)據(jù),本實驗數(shù)據(jù)為模擬數(shù)據(jù),本身即為按照腦區(qū)生成,故可直接導(dǎo)入模型;
(2)個體分析,基于ROI內(nèi)的fMRI數(shù)據(jù)和行為學(xué)數(shù)據(jù)建模分析,以體素為特征,以行為為標(biāo)簽,以機器學(xué)習(xí)算法為分類器,訓(xùn)練并檢驗多變量模型的性能,訓(xùn)練模型的算法選擇為本文研究的重點;
(3)組間檢驗,個體分析得到每個被試不同腦區(qū)的解碼準(zhǔn)確率,為檢驗準(zhǔn)確率的穩(wěn)定性,本文采用獨立樣本t檢驗,檢驗樣本腦區(qū)的敏感度指數(shù)均值與隨機選擇的敏感度指數(shù)均值之間差異;
(4)激活腦區(qū)輸出,根據(jù)檢驗結(jié)果的顯著性和均值大小關(guān)系,判斷腦區(qū)是否是激活腦區(qū)。
本文采用的評價指標(biāo)為敏感度指數(shù)(Sensitivity Index,SI),其為信號探測領(lǐng)域常用的評價指標(biāo)。敏感度指數(shù)的數(shù)學(xué)表示形式可由混淆矩陣(Confusion Matrix)計算得出,混淆矩陣定義如表1所示。

表1 混淆矩陣
表1中,TP為真正例(True Positive);FP為假正例(False Positive);FN為假反例(False Negative);TN為真反例(True Negative)。
敏感度指數(shù)的定義如式(5)所示:
(5)

(6)
(7)
敏感度指數(shù)借助TPR和FPR,計算方式如下:
SI=Z(TPR)-Z(FPR)
(8)
式中,Z(p)為高斯分布函數(shù)的反函數(shù),p∈[0,1]。
實驗中,共生成20個被試數(shù)據(jù),每個被試模擬生成200次試驗數(shù)據(jù),即每個被試的樣本數(shù)目為200,令施加刺激的試驗為正樣本,未施加刺激的試驗為負(fù)樣本。
單變量模式分析中,常采用的分析模型為廣義線性回歸,本實驗單變量模型采用邏輯斯蒂回歸,實驗中,先將腦區(qū)數(shù)據(jù)取平均[8],再將處理后的均值樣本傳入模型;多體素模式分析中,機器學(xué)習(xí)分類算法采用線性判別分析(Linear Discriminant Analysis,LDA)、K近鄰(K-Nearest Neighbor,KNN)、樸素貝葉斯(Na?ve Bayes,NB)和支持向量機(Support Vector Machine,SVM),其中,支持向量機采用線性核函數(shù)(linear)和徑向基核函數(shù)(radial basis function,rbf)。
實驗中,各模型的分類敏感度指數(shù)均值和方差如表2所示,由表知,線性支持向量機的解碼敏感度均值最高,單變量模型的解碼敏感度均值最低。為便于各模型的均值比較,并觀察均值差的顯著性,做各模型的解碼均值的誤差棒狀圖,如圖2所示,圖中誤差棒代表標(biāo)準(zhǔn)誤差。

表2 各模型分類敏感度指數(shù)均值和標(biāo)準(zhǔn)差

圖2 各模型分類的敏感度指數(shù)誤差棒狀圖
由圖2和表2可得,多變量模型的敏感度均值高于單變量模型。為了確保結(jié)論的可靠性,本文分別比較每個多變量模型和單變量模型的均值差異,并利用統(tǒng)計檢驗確認(rèn)均值間的差異的顯著性。各多變量模型均值與單變量均值間的獨立樣本t檢驗結(jié)果如表3所示,表中,p值是多變量模型和單變量模型均值相同的置信度。由表中p值均遠小于0.05可知,多變量解碼能力優(yōu)于單變量模型。

表3 多變量模型與單變量模型敏感度的統(tǒng)計檢驗
另由表2和圖2,比較各多變量模型的解碼敏感度均值,KNN和LDA的敏感度均值較小,但方差小,模型表現(xiàn)較穩(wěn)定;線性SVM的表現(xiàn)效果好,缺點是結(jié)果方差大,個體因素對模型影響大,這與模型復(fù)雜度高有關(guān);NB的模型解碼表現(xiàn)僅次于線性SVM,且模型的方差較小,在解碼表現(xiàn)上較好。另一方面,由于非線性模型會對解碼體素做變換,對于確定起解碼作用體素的解釋性弱于線性模型。綜上,確認(rèn)fMRI數(shù)據(jù)解碼神經(jīng)機制任務(wù)中,線性支持向量機的解碼效果最好。
本文針對基于fMRI解碼神經(jīng)機制的方法進行探討,基于fMRI模擬數(shù)據(jù),對比多變量和單變量解碼模型,證實多變量模型的解碼能力優(yōu)于單變量模型,對比多種多變量模型,從解碼能力和解碼腦區(qū)的解釋性兩個角度,可以確認(rèn)線性支持向量機最優(yōu),其解碼能力優(yōu)于其他模型,且能夠解釋解碼腦區(qū)的合理性。