駱軼姝, 邵圓圓, 陳德華
(東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 201620)
近年來,人工智能在疾病診斷中的應(yīng)用不斷延伸,缺血性腦卒中疾病的臨床輔助診斷也得到越來越多關(guān)注。缺血性腦卒中作為一種急性腦血管疾病,占中國腦卒中約70%左右[1];且隨著人們工作壓力及生活方式的改變,呈現(xiàn)發(fā)病率高,發(fā)病原因復(fù)雜的發(fā)展趨勢,為臨床醫(yī)生帶來診斷壓力[2]。因此,基于人工智能的缺血性腦卒中輔助診斷問題的研究,對醫(yī)生和患者來說,均具有重要意義。
本文以上海市某醫(yī)院的真實(shí)患者電子病歷為基礎(chǔ),考慮缺血性腦卒中疾病的發(fā)病原因,選取當(dāng)前病歷數(shù)據(jù)中的超聲、生化以及個(gè)人基本信息作為源數(shù)據(jù),在LSTM模型基礎(chǔ)上搭建雙向LSTM多特征提取子模型,實(shí)現(xiàn)了多特征聯(lián)合的缺血性腦卒中的輔助診斷。相對傳統(tǒng)診療模式強(qiáng)化了客觀因素,為醫(yī)生對該疾病診斷提供有效輔助。
國內(nèi)外學(xué)者關(guān)于疾病智慧醫(yī)療輔助診斷開展了大量研究。有些學(xué)者在支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)模型下,實(shí)現(xiàn)對疾病數(shù)據(jù)的線性學(xué)習(xí),但該類方法難以捕獲復(fù)雜特征學(xué)習(xí)問題。近年來,以LSTM模型為基礎(chǔ)的疾病診斷方法受到廣泛關(guān)注,可以建立增加了特征序列輸入的學(xué)習(xí)模型,例如實(shí)現(xiàn)基于LSTM模型的心臟病診斷[3]、腦血管疾病診斷對疾病時(shí)序檢查特征的學(xué)習(xí)等[4]。也有學(xué)者在此基礎(chǔ)上綜合后向特征計(jì)算,提出雙向LSTM模型[5],該方法在文本分類問題中表現(xiàn)較好,例如融合前向和后向特征的雙向LSTM模型實(shí)現(xiàn)對心血管疾病病歷數(shù)據(jù)挖掘的輔助診斷[6]。
基于上述研究,本文提出LSTM多特征聯(lián)合的缺血性腦卒中輔助診斷模型,運(yùn)用數(shù)據(jù)預(yù)處理方法,設(shè)計(jì)從不同特征提取子模型中提取信息并進(jìn)行向量融合,降低不同類型檢查數(shù)據(jù)間差異所帶來的模型學(xué)習(xí)能力;另外,模型中多特征層次上自注意力機(jī)制的特征加權(quán),彌補(bǔ)不同特征間存在的信息關(guān)聯(lián)性,提升模型分類性能。
基于LSTM多特征聯(lián)合的缺血性腦卒中診斷模型包括輸入層、特征提取層、分類層和輸出層。模型總體結(jié)構(gòu)如圖1所示。
其中輸入層由預(yù)處理的超聲指標(biāo)、生化檢查指標(biāo)和基本信息組成;特征提取層經(jīng)3個(gè)雙向LSTM搭建的子模型學(xué)習(xí)特征信息;分類層的各特征向量,是在模型特征融合的基礎(chǔ)上,增加自注意力機(jī)制分配獲得;輸出層用于輸出疾病診斷結(jié)果。

圖1 模型總體結(jié)構(gòu)
雙向LSTM建立的3個(gè)特征提取子模塊分別為超聲特征提取、生化檢查特征提取及基本信息特征提取。
(1)超聲特征提取。將患者結(jié)構(gòu)化后的頸動脈超聲指標(biāo)作為該超聲特征提取模塊的輸入,提取超聲中有關(guān)影響疾病的重要信息。超聲特征提取子模塊的設(shè)計(jì)如圖2所示。

圖2 超聲特征提取子模塊
由圖2可知,針對超聲中的文本指標(biāo),采用神經(jīng)網(wǎng)絡(luò)中Embedding層加載Word2vec模型實(shí)現(xiàn)向量化;并將超聲中的數(shù)值指標(biāo)填充為相同形狀的1維特征;融合后輸入雙向LSTM模型中進(jìn)行信息提取,其中t時(shí)刻前向隱藏層特征信息的計(jì)算如式(1)~(6)所示。
ft=σ(Wf[ht-1,xt]+bf),
(1)
it=σ(Wi[ht-1,xt]+bi),
(2)
(3)
(4)
ot=σ(Wo[ht-1,xt]+bo),
(5)
ht=ot×tanh(Ct).
(6)
式中:Wf、Wi、Wc、Wo為共享權(quán)值參數(shù)矩陣,bf、bi、bc、bo為偏置值,通常隨機(jī)初始化。由t-1時(shí)刻輸出的特征向量與當(dāng)前時(shí)刻輸入特征的計(jì)算,得到t時(shí)刻隱藏層的ht的特征信息。最后由該時(shí)刻的兩個(gè)隱藏單元的輸出向量連接構(gòu)成該時(shí)刻輸出。計(jì)算如式(7)~式(9)所示。
(7)
(8)
(9)
由Dropout以一定概率丟棄神經(jīng)元個(gè)數(shù),減少模型復(fù)雜帶來的過擬合問題。最后經(jīng)一個(gè)Dense全連接層將該模塊提取的特征向量做非線性映射轉(zhuǎn)化為(None,4)形狀的特征向量。
(2)生化檢查特征提取。生化檢查特征提取子模塊的設(shè)計(jì)如圖3所示。首先,直接利用預(yù)處理的生化指標(biāo)轉(zhuǎn)化為三維特征,由雙向LSTM模型中神經(jīng)元計(jì)算生化檢查中特征的前向和后向特征,充分提取特征中具有的信息;其次,連接Dropout網(wǎng)絡(luò)丟棄層,由一個(gè)Dense全連接層將高維的特征壓縮為(None,4)形狀的特征向量。

圖3 生化檢查特征提取子模塊
(3)基本信息特征。提取基本信息特征子模塊的設(shè)計(jì)原理同生化指標(biāo)模型設(shè)計(jì),僅輸入特征形狀為(None,12,1),故此處分析省略。
疾病分類模塊將各子模塊提取的形狀相同的特征向量連接自注意力機(jī)制[7],分配特征權(quán)重,實(shí)現(xiàn)多特征聯(lián)合的診斷模型訓(xùn)練學(xué)習(xí)。其中自注意力計(jì)算如式(10)所示。
(10)
式中:α(xt,xt')表示特征向量中的每個(gè)特征與該特征向量之間加權(quán)值,突出各類型特征的重要程度。最后經(jīng)兩層Dense全連接層由Sigmoid激活函數(shù)作為分類器,輸出結(jié)果。其中Sigmoid計(jì)算如式(11)所示。
(11)
患者病歷中3種多特征數(shù)據(jù)通過醫(yī)療卡號和住院號實(shí)現(xiàn)關(guān)聯(lián)。
(1)超聲數(shù)據(jù)。作為缺血性腦卒中發(fā)生常見的原因之一,頸動脈超聲一定程度上可以反映缺血性腦卒中發(fā)生與否及嚴(yán)重程度。結(jié)構(gòu)化后的指標(biāo)數(shù)據(jù)組成的超聲數(shù)據(jù),見表1。

表1 超聲數(shù)據(jù)
其中斑塊狹窄率根據(jù)美國超聲會議中標(biāo)準(zhǔn)轉(zhuǎn)化可輸入數(shù)據(jù)預(yù)處理形式[8]。
(2)生化檢查數(shù)據(jù)。生化檢查對臨床中疾病的篩查驗(yàn)證具有重要意義。本文選取的生化指標(biāo)共計(jì)8個(gè),包括CHOL(總膽固醇)、CRP_1(C反應(yīng)蛋白)、GLU1(空腹血糖)、APOA(載脂蛋白A)、APOE(載脂蛋白E)、MO#(單核細(xì)胞計(jì)數(shù))、TG-B(甘油三酯)以及UHDL(高密度脂蛋白)。生化檢查數(shù)據(jù)見表2。

表2 生化檢查數(shù)據(jù)
(3)基本信息數(shù)據(jù)。病歷數(shù)據(jù)中患者基本信息包含性別、出生年月、身高、體重、sbp收縮壓、dbp舒張壓等。出生年月轉(zhuǎn)化為年齡,身高體重轉(zhuǎn)化為BMI(身體質(zhì)量指數(shù),衡量人體是否健康及胖瘦的一個(gè)指標(biāo))。同時(shí)高血壓、糖尿病及高血脂常伴隨缺血性腦卒中患者,因此也作為缺血性腦卒中研究的指標(biāo)之一加入患者的基本信息中。基本信息數(shù)據(jù)見表3。

表3 基本信息數(shù)據(jù)
(1)Word2vec。Word2vec,一種詞向量化技術(shù),能夠?qū)崿F(xiàn)語義空間信息到向量空間上的映射。本文使用Skip-Gram思想計(jì)算詞的上下文概率分布,由建立Word2vec模型對語料庫編碼,神經(jīng)網(wǎng)絡(luò)中加載實(shí)現(xiàn)詞向量化。Word2vec詞向量化示意如圖4所示。

圖4 Word2vec詞向量化示意
(2)one-hot。one-hot是一種通過N位狀態(tài)寄存器對N個(gè)狀態(tài)編碼,實(shí)現(xiàn)離散特征映射到歐式空間的獨(dú)熱編碼方式,將模型特征中非連續(xù)性數(shù)值,即離散型數(shù)據(jù)通過編碼的方式進(jìn)行轉(zhuǎn)換。一方面提高模型的計(jì)算特征之間距離的效率,另一方面對數(shù)據(jù)特征維度上起擴(kuò)充作用。以性別、高血壓為例,經(jīng)one-hot獨(dú)熱編碼后,由0,1二進(jìn)制形式表示。性別與高血壓向量化見表4。

表4 性別與高血壓向量化
(3)歸一化。當(dāng)實(shí)驗(yàn)數(shù)據(jù)作為同一水平的輸入變量輸入模型中時(shí),存在綱量不一致問題,不僅影響數(shù)據(jù)之間的可比性,還會導(dǎo)致分析結(jié)果存在偏差。采用離差標(biāo)準(zhǔn)化歸一化方法,通過線性變化,將所有指標(biāo)數(shù)值進(jìn)行壓縮,計(jì)算如式(12)所示。
(12)
式中,X.Min為指標(biāo)X數(shù)據(jù)中的最小值;X.Max為指標(biāo)X數(shù)據(jù)中的最大值。以APOE數(shù)據(jù)為例,線性歸一化處理如圖5所示。由圖5可知,橫坐標(biāo)為APOE原數(shù)據(jù)形式,范圍為[2,15.3],由歸一化將其映射到[0,1]之間;其中數(shù)據(jù)仍保持原特征,提升模型訓(xùn)練收斂速度和精度。

圖5 APOE線性歸一化處理
實(shí)驗(yàn)數(shù)據(jù)來自上海某醫(yī)院真實(shí)病歷數(shù)據(jù)。數(shù)據(jù)集中篩選處理797條缺血性腦卒中患者正樣本數(shù)據(jù)。為進(jìn)行實(shí)驗(yàn)對比,選取962條非缺血性腦卒中患者的數(shù)據(jù)作為實(shí)驗(yàn)負(fù)樣本。模型訓(xùn)練過程中分為訓(xùn)練集和測試集,其中訓(xùn)練集占80%,測試集占20%。
實(shí)驗(yàn)中采用交叉熵?fù)p失函數(shù)計(jì)算模型預(yù)測值與真實(shí)值間誤差,并設(shè)置Adam優(yōu)化器反向優(yōu)化學(xué)習(xí),使得損失最小時(shí),模型訓(xùn)練達(dá)最優(yōu)。多特征聯(lián)合的缺血性腦卒中輔助診斷模型訓(xùn)練實(shí)現(xiàn)如算法1所示。
算法1缺血性腦卒中輔助診斷模型訓(xùn)練實(shí)現(xiàn)
E: 迭代次數(shù)
B: 批大小數(shù)據(jù)集
Llearning_rate: 學(xué)習(xí)率
Dtrain、Dtest: 訓(xùn)練集、測試集
N: 神經(jīng)元個(gè)數(shù)
n: 特征子模型個(gè)數(shù)
Vn: 第n個(gè)子模型輸出的特征向量
V: 特征聯(lián)合向量

TLn/CLloss: 第n個(gè)特征子模型網(wǎng)絡(luò)誤差/分類模型網(wǎng)絡(luò)誤差
ForiinE:
BDtrain←GetMiniBatch(Dtrain,B)
Forjinn:
End For
V←concatenate(Vn)
A←Self-attention(V)
Lloss←ModelClassify(A,Cθi)

12. End for
13. Evaluate(Dtest,Tθ1,Tθ2,......Tθn,Cθ)
14. End
模型在訓(xùn)練中,確定了learning_rate=0.001,dropout=0.5,epoch=100時(shí),性能達(dá)最優(yōu)。
實(shí)驗(yàn)中采用準(zhǔn)確度(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)、陽性預(yù)測率(PPV)、陰性預(yù)測率(NPV)以及F1_Score的作為評估標(biāo)準(zhǔn)。計(jì)算如式(13)、(14)、(15)、(16)、(17)和(18)所示。
(13)
(14)
(15)
(16)
(17)
(18)
其中涉及基本概念的混淆矩陣表示,見表5。

表5 混淆矩陣表示
本文實(shí)驗(yàn)首先對比了基于LSTM多特征模型(MLSTM)、基于雙向LSTM和LSTM組合的多特征模型(MBLSTM-LSTM)以及基于雙向LSTM多特征模型(MBLSTM)。不同模型下實(shí)驗(yàn)結(jié)果對比見表6。由表6可知,MBLSTM模型優(yōu)于其他兩種模型。從網(wǎng)絡(luò)模型結(jié)構(gòu)上看,LSTM實(shí)現(xiàn)對輸入特征的單向計(jì)算,雙向LSTM綜合輸入前向和后向的信息,提升了模型分類性能。

表6 不同模型下實(shí)驗(yàn)結(jié)果對比
為進(jìn)一步驗(yàn)證文中提出多特征模型的有效性,實(shí)驗(yàn)對比了單個(gè)超聲LSTM(LSTMc)/雙向LSTM(BLSTMc)、生化LSTM(LSTMs)/雙向LSTM(BLSTMs)、基本信息LSTM(LSTMj)/雙向LSTM(BLSTMj)診斷模型。各單獨(dú)特征模型與多特征模型結(jié)果見表7。

表7 單獨(dú)特征模型與多特征模型結(jié)果對比
由表7可知,較單獨(dú)特征LSTM診斷模型、雙向LSTM診斷模型,多特征診斷模型有效地聯(lián)合多特征間的信息,提升模型診斷預(yù)測結(jié)果,模型整體準(zhǔn)確度為80%左右,發(fā)揮了不同類型特征信息對疾病診斷的作用。
考慮到注意力機(jī)制對關(guān)鍵特征加權(quán)的影響,在多特征模型基礎(chǔ)上增加自注意力機(jī)制。各模型對比增加注意力機(jī)制模型的準(zhǔn)確度結(jié)果對比如圖6所示。

圖6 模型對比增加自注意力機(jī)制模型的準(zhǔn)確度結(jié)果對比
由圖6可知,各多特征模型對比有無自注意力機(jī)制上,準(zhǔn)確度均保持穩(wěn)定或者有所增加,說明自注意力機(jī)制增加了對各特征子模型輸出的特征向量權(quán)重的計(jì)算,并分配了相應(yīng)的權(quán)重值。
本文提出基于LSTM多特征聯(lián)合診斷模型,利用Word2vec、one-hot及歸一化等數(shù)據(jù)預(yù)處理方法,獲取高質(zhì)量輸入數(shù)據(jù),加速模型訓(xùn)練的收斂速度;聯(lián)合患者當(dāng)前多種檢查數(shù)據(jù),在建立的雙向LSTM子模型下提取特征信息;自注意力機(jī)制學(xué)習(xí)特征間的關(guān)聯(lián)并分配權(quán)重,增強(qiáng)模型學(xué)習(xí)性能,提升分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,該模型診斷效果良好,在準(zhǔn)確度、靈敏度、特異性、陽性預(yù)測率、陰性預(yù)測率以及F1_score中性能總體達(dá)84%,且自動輔助診斷降低了主觀因素影響,在缺血性腦卒中輔助診斷研究中具有一定的價(jià)值,為臨床醫(yī)生缺血性腦卒中疾病診斷提供決策參考。