王天罡
(1西安工程大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 西安 710048)2西安交通大學(xué)第一附屬醫(yī)院網(wǎng)絡(luò)信息部 西安 710061)
馬紅葉
(西安交通大學(xué)第一附屬醫(yī)院 重癥醫(yī)學(xué)科 西安 710061)
蔡宏偉
(西安交通大學(xué)第一附屬醫(yī)院 網(wǎng)絡(luò)信息部 西安 710061)
在醫(yī)療人工智能領(lǐng)域,通過(guò)數(shù)據(jù)挖掘輔助臨床治療決策是近年來(lái)重要的研究方向。目前危重癥疾病預(yù)警主要方法是通過(guò)機(jī)器學(xué)習(xí)對(duì)臨床數(shù)據(jù)集進(jìn)行特征分析,通常將臨床病例作為樣本,通過(guò)表征學(xué)習(xí)等方式將真實(shí)世界的復(fù)雜數(shù)據(jù)從高維空間表示轉(zhuǎn)換成低維向量,再采用統(tǒng)計(jì)分析、建立神經(jīng)網(wǎng)絡(luò)等方法建模。吳燕華等[1]將檢驗(yàn)信息系統(tǒng)實(shí)時(shí)結(jié)果和歷史血清肌酐值比對(duì),判斷是否發(fā)生e-AKI并分級(jí);查芳芳等[2]將患者入院時(shí)多項(xiàng)危險(xiǎn)因素指標(biāo)通過(guò)多因素Logistic回歸分析建立評(píng)分機(jī)制,判斷急性腎損傷(Acute Kidney Injury,AKI)發(fā)生的可能性;楊星[3]提出基于深度置信網(wǎng)絡(luò)的腦血管病風(fēng)險(xiǎn)預(yù)警研究模型,提取患者入院24小時(shí)內(nèi)各項(xiàng)離散化的生命體征作為模型輸入。
上述臨床疾病預(yù)警研究大多基于橫斷面調(diào)查數(shù)據(jù),通過(guò)實(shí)時(shí)生命體征評(píng)分、統(tǒng)計(jì)分析進(jìn)行預(yù)警。然而此類方法無(wú)法解決數(shù)據(jù)過(guò)擬合、梯度消失等問(wèn)題,同時(shí)未能充分利用住院期間患者診療數(shù)據(jù)的時(shí)序特征,難以進(jìn)行臨床危重癥的突變預(yù)警。劉晶等[4]通過(guò)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory, LSTM)將與血壓關(guān)聯(lián)的時(shí)序測(cè)量數(shù)據(jù)和患者人口統(tǒng)計(jì)信息一起作為未來(lái)線索數(shù)據(jù)與血壓預(yù)測(cè)相結(jié)合,預(yù)測(cè)精準(zhǔn)度較高。但該模型對(duì)時(shí)序數(shù)據(jù)的精確度和完整度要求較為嚴(yán)格,適用于高血壓等慢性病的長(zhǎng)期預(yù)測(cè)分析。實(shí)際臨床數(shù)據(jù)的業(yè)務(wù)性而導(dǎo)致的患者住院時(shí)間不一致、檢驗(yàn)結(jié)果時(shí)間分布不規(guī)律且次數(shù)較少等情況,都對(duì)其適用性產(chǎn)生較大影響,而且經(jīng)過(guò)患者基本信息(性別、年齡等)和基于時(shí)間序列的檢驗(yàn)數(shù)據(jù)分離后,在個(gè)人身體情況對(duì)檢查結(jié)果影響的特征捕捉能力較差。本文提出一種基于混合時(shí)序的多尺度卷積神經(jīng)網(wǎng)絡(luò)預(yù)警模型,將與疾病關(guān)聯(lián)各項(xiàng)危險(xiǎn)因素的不規(guī)則臨床數(shù)據(jù)和不同患者的時(shí)序信息作為索引數(shù)據(jù)與疾病預(yù)測(cè)相結(jié)合,從而提高疾病預(yù)測(cè)準(zhǔn)確度,充分地將雜亂的臨床時(shí)序數(shù)據(jù)整合,發(fā)掘數(shù)據(jù)與病情變化隱藏的關(guān)聯(lián)性。
2.1.1 多尺度卷積神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)因其能夠從復(fù)雜的數(shù)據(jù)集中提取信息的能力而在許多深度學(xué)習(xí)領(lǐng)域得到應(yīng)用。本文參考2014年Christian Szegedy 提出的GoogleLeNet中多尺度卷積方法,主要思路是如何讓已有的稠密組件接近與覆蓋卷積視覺(jué)網(wǎng)絡(luò)中的最佳局部稀疏結(jié)構(gòu)[5]。考慮到實(shí)際情況,采用單一尺度的卷積核只能在同一次卷積過(guò)程中覆蓋到部分患者基本信息和臨床歷史數(shù)據(jù)的縱列。谷歌深度神經(jīng)網(wǎng)絡(luò)模型,見(jiàn)圖1。該模型設(shè)置不同大小卷積核(1*1,3*3,5*5)的多尺度卷積能夠“感受”各種維度的數(shù)據(jù)特征,通過(guò)拼接融合不同尺度特征,能夠在一次卷積過(guò)程中挖掘更多維度患者生命體征,檢查數(shù)據(jù)之間的隱藏關(guān)系。

圖1 谷歌深度神經(jīng)網(wǎng)絡(luò)模型[6]
2.1.2 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò) 在醫(yī)療人工智能領(lǐng)域,IBM Watson在近幾年投入幾百億美元進(jìn)行研發(fā)后前景反而暗淡,2018年起已有多家醫(yī)院終止與Watson腫瘤相關(guān)項(xiàng)目,究其原因在于許多人工智能算法往往在公開(kāi)標(biāo)準(zhǔn)化數(shù)據(jù)集上表現(xiàn)良好,然而在實(shí)際本地臨床數(shù)據(jù)分析過(guò)程中存在大量數(shù)據(jù)缺失、不準(zhǔn)確、非結(jié)構(gòu)化等問(wèn)題,導(dǎo)致訓(xùn)練好的模型與環(huán)境不匹配進(jìn)而準(zhǔn)確率低。CNN是以數(shù)據(jù)矩陣的形式作為輸入層,要求矩陣中的元素不能為空。然而在實(shí)際治療過(guò)程中并不能保證每個(gè)患者檢驗(yàn)次數(shù)完全一致,對(duì)于次數(shù)多的個(gè)體可通過(guò)提取前后幾次平均值或中位數(shù)的方法作為矩陣元素,但對(duì)于缺少臨床數(shù)據(jù)的患者,如何正確處理缺失值關(guān)系到實(shí)驗(yàn)?zāi)P唾|(zhì)量。傳統(tǒng)缺失值處理方法主要分為:均值替換法、回歸替換法、多值填充法以及基于決策樹(shù)、聚類等機(jī)器學(xué)習(xí)的數(shù)據(jù)填充法等[7]。這些算法往往忽略歷史序列對(duì)于缺失值的影響,或多或少地改變?cè)紨?shù)據(jù)特征,對(duì)分析存在潛在影響。LSTM是一種基于時(shí)間序列的循環(huán)神經(jīng)網(wǎng)絡(luò),適合處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件,在深度學(xué)習(xí)領(lǐng)域得到廣泛應(yīng)用[8]。通過(guò)分析數(shù)據(jù),缺失值往往是輸入檢查列向量中最后1~2個(gè)元素,因此構(gòu)造LSTM神經(jīng)網(wǎng)絡(luò)處理輸入預(yù)警模型的臨床缺失數(shù)據(jù),形成模型架構(gòu),見(jiàn)圖2。

圖2 基于多尺度卷積和LSTM的疾病預(yù)警網(wǎng)絡(luò)模型
2.2.1 急性腎損傷相關(guān)研究 急性腎損傷是臨床常見(jiàn)危重癥之一,臨床上表現(xiàn)為氮質(zhì)血癥、水電解質(zhì)和酸堿平衡以及全身各系統(tǒng)癥狀,伴有少尿或無(wú)尿等癥狀。其發(fā)病率一直居高不下,由急性腎損傷造成的急性腎衰竭(Acute Renal Failure,ARF)病死率較高,給患者身體、心理和經(jīng)濟(jì)帶來(lái)沉重負(fù)擔(dān)[9]。既往相關(guān)研究指出機(jī)械通氣、器官衰竭、低蛋白血癥是急性腎損傷患者死亡的獨(dú)立危險(xiǎn)因素,早期預(yù)防、診斷能降低急性腎損傷病死率,對(duì)改善預(yù)后有重要意義[10]。本文擬應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型,基于住院患者在住院期間的各項(xiàng)高危影響因素,對(duì)經(jīng)過(guò)機(jī)械通氣的住院患者及其可能發(fā)生急性腎損傷的概率進(jìn)行分析,找到規(guī)律性特點(diǎn)指導(dǎo)臨床實(shí)踐工作。
2.2.2 數(shù)據(jù)收集 在西安交通大學(xué)第一附屬醫(yī)院臨床數(shù)據(jù)倉(cāng)庫(kù)中收集2013年1月-2019年3月住院治療的2 198例通過(guò)機(jī)械通氣治療的患者作為研究對(duì)象,預(yù)警高危患者使用機(jī)械通氣后可能產(chǎn)生的急性腎損傷并發(fā)癥。其中訓(xùn)練樣本病例為1 650例(占75%),測(cè)試樣本為548例(占25%);男性1 443例(占65.6%),女性755例(占34.4%);年齡18~99歲,平均年齡(60.6± 14)歲。根據(jù)患者是否存在急性腎損傷將其分為對(duì)照組(非急性腎損傷)1 081例(占49.2%)與觀察組(急性腎損傷)1 117例(占50.8%),急性腎損傷診斷標(biāo)準(zhǔn):患者住院期間血清肌酐升高超過(guò)26.4 umol/L 或升高超過(guò)50% 且大于正常值上限。收集入院患者的臨床信息包括: 血清肌酐值、血小板計(jì)數(shù)、血紅蛋白含量、白細(xì)胞計(jì)數(shù)、通氣類型(有創(chuàng)/無(wú)創(chuàng))、白蛋白含量、患者戴機(jī)時(shí)間、是否進(jìn)行連續(xù)性血液凈化,以及患者性別、年齡和基礎(chǔ)診斷疾病等信息,所有資料進(jìn)行統(tǒng)一處理并編碼。
在卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的處理中,卷積核通常是對(duì)圖像的一小塊區(qū)域進(jìn)行計(jì)算和特征提取,將圖像不同區(qū)域采用局部鏈接、權(quán)重共享等方法來(lái)識(shí)別目標(biāo)。針對(duì)臨床數(shù)據(jù),將同一時(shí)間點(diǎn)采樣的檢驗(yàn)相關(guān)數(shù)據(jù)所構(gòu)成的向量作為輸入,每一行代表一個(gè)時(shí)間點(diǎn)的采樣向量,在處理患者數(shù)據(jù)矩陣時(shí)卷積核通常覆蓋上下幾行的采樣點(diǎn)。通過(guò)該方式能夠捕捉到患者基本信息(年齡、性別、基礎(chǔ)疾病等)與實(shí)時(shí)檢查數(shù)據(jù)之間的特征。卷積核尺寸可根據(jù)檢查項(xiàng)列數(shù)調(diào)整,如當(dāng)取核數(shù)為4時(shí)會(huì)將4個(gè)連續(xù)相關(guān)檢查項(xiàng)的特征表示出來(lái),能夠在同一類特征計(jì)算時(shí)共享權(quán)值。數(shù)據(jù)重構(gòu)過(guò)程,見(jiàn)圖3。模型根據(jù)患者住院期間醫(yī)囑執(zhí)行情況、檢查結(jié)果組成的大量數(shù)據(jù)設(shè)定統(tǒng)一的滑動(dòng)時(shí)間窗,對(duì)該時(shí)間窗內(nèi)的一維患者數(shù)據(jù)進(jìn)行二維重構(gòu),構(gòu)成基于時(shí)間點(diǎn)采樣的多因素線索數(shù)據(jù)圖像。同理,對(duì)指定的其他時(shí)間采樣點(diǎn)進(jìn)行相同的二維重構(gòu),將不同時(shí)間采樣點(diǎn)的線索數(shù)據(jù)圖像所構(gòu)成的三維數(shù)組作為訓(xùn)練數(shù)據(jù)矩陣,輸入網(wǎng)絡(luò)完成急性腎損傷是否發(fā)病的二輸出自動(dòng)分類。

圖3 數(shù)據(jù)重構(gòu)過(guò)程
通過(guò)對(duì)院內(nèi)臨床數(shù)據(jù)倉(cāng)庫(kù)的清洗檢索,排除住院天數(shù)、檢查次數(shù)較少的患者,計(jì)算住院期間各檢查結(jié)果的系統(tǒng)平均記錄次數(shù)n并設(shè)置相應(yīng)數(shù)量的時(shí)間采樣點(diǎn),其中對(duì)于采樣數(shù)據(jù)的滑動(dòng)時(shí)間窗為8~24小時(shí)。綜上形成[17 584,13]患者總體數(shù)據(jù)像素一級(jí)矩陣,然后對(duì)總體圖像矩陣根據(jù)采樣窗口切割,分別組成[2 198,96]以單個(gè)患者為中心的二級(jí)矩陣和(2 198,2)的標(biāo)簽矩陣,對(duì)于少數(shù)缺失數(shù)據(jù)采用LSTM神經(jīng)網(wǎng)絡(luò)補(bǔ)齊。最后將上述矩陣根據(jù)3:1的比例橫向分割為訓(xùn)練集和測(cè)試集,輸入深度卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。
樣本輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練前,通過(guò)深度學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)(Data Augmentaion)技術(shù)增加訓(xùn)練集規(guī)模,從而減少過(guò)擬合并提高模型泛化能力及魯棒性。數(shù)據(jù)增強(qiáng)方法主要包括離線和在線增強(qiáng)[6]。本研究由于數(shù)據(jù)量較少,借助直接對(duì)原始數(shù)據(jù)集翻轉(zhuǎn)、旋轉(zhuǎn)截取等方法擴(kuò)展數(shù)據(jù)集規(guī)模。在實(shí)驗(yàn)中對(duì)[17 584, 13]的一級(jí)矩陣采用左右陣列隨機(jī)交換的橫向翻轉(zhuǎn),對(duì)[2 198, 96]的患者二級(jí)矩陣采用上下隨機(jī)交換的縱向翻轉(zhuǎn)等方法。
3.4.1 步驟 模型基于谷歌人工智能團(tuán)隊(duì)Google Brain開(kāi)發(fā)的TensorFlow+python 3.6開(kāi)源框架,TensorFlow是目前最流行的深度學(xué)習(xí)項(xiàng)目之一,在圖形分類、音頻處理、推薦系統(tǒng)和自然語(yǔ)言處理等場(chǎng)景下都有豐富的應(yīng)用。實(shí)驗(yàn)?zāi)P桶匆韵路绞綐?gòu)建:(1)對(duì)于任意經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的患者二級(jí)輸入矩陣Mi = [v1, v2,…,vj…,vn],vj為具有缺失值的檢查列向量,將vi輸入基于LSTM的目標(biāo)函數(shù)L = f(vi)中得到預(yù)測(cè)缺失值vjL。(2)采用sklearn庫(kù)中MinMaxScaler函數(shù)將完整的矩陣各元素歸一化至[0,1],減少因各維度數(shù)據(jù)取值范圍差異帶來(lái)的干擾。(3)設(shè)置不同尺度的卷積核(如1*1,3*3,5*5等),為保證卷積后不同尺度下特征圖的拼接融合,對(duì)原始輸入層分別設(shè)定padding=0、1、2即可得到相同維度的特征。(4)設(shè)置卷積神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)的池化層和全連接層,全連接層神經(jīng)元數(shù)量為1 024,令dropout=0.5減少神經(jīng)網(wǎng)絡(luò)過(guò)擬合的問(wèn)題。(5)使用Softmax函數(shù)進(jìn)行結(jié)果分類。
3.4.2 訓(xùn)練 模型采用GPU運(yùn)行環(huán)境進(jìn)行訓(xùn)練加速,訓(xùn)練次數(shù)設(shè)置為500,學(xué)習(xí)率初始化為0.1,根據(jù)迭代次數(shù)n采用rate = 0.1 * 0.95n的遞減方式,直到完成訓(xùn)練。采用二次代價(jià)函數(shù)作為損失函數(shù),訓(xùn)練優(yōu)化器采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)、RMSprop、Adagrad、Adadelta、Momentum等,根據(jù)實(shí)驗(yàn)結(jié)果使用SGD優(yōu)化算法。最后采用TensorFlow可視化工具TensorBoard表示模型預(yù)測(cè)準(zhǔn)確率和損失函數(shù)。

圖4 訓(xùn)練準(zhǔn)確率變化曲線
通過(guò)預(yù)先分類完成的患者測(cè)試集對(duì)模型進(jìn)行驗(yàn)證,主要有以下評(píng)價(jià)指標(biāo):正確率、誤檢率、精確率、召回率、F1-measure,其中正確率為73.7%,精確率為71.8%,召回率為92.3%,F(xiàn)1分?jǐn)?shù)為78.7%,相比于利用Logistic回歸分析患者入院數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率提升8.2%,與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)相比準(zhǔn)確率提高6.1%。從實(shí)驗(yàn)結(jié)果看,該模型在召回率(表示AKI患者被正確分類的比例)預(yù)測(cè)中表現(xiàn)良好,因此基于患者數(shù)據(jù)圖像重構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)能夠在患者住院過(guò)程中一定程度上預(yù)測(cè)可能伴隨的急性腎損傷,提醒醫(yī)生調(diào)整治療方案,從而起到輔助醫(yī)療決策的作用。
本文提出采用基于面板數(shù)據(jù)三維重構(gòu)的多尺度和LSTM卷積神經(jīng)網(wǎng)絡(luò)模型,深入開(kāi)展疾病預(yù)警的實(shí)證研究,其優(yōu)點(diǎn)在于:一是基于患者信息圖像轉(zhuǎn)換的卷積神經(jīng)網(wǎng)絡(luò)模型具有更好的預(yù)測(cè)能力,對(duì)綜合疾病預(yù)警研究分析中優(yōu)于缺乏實(shí)時(shí)性的經(jīng)典回歸分析模型;二是采用多期患者指標(biāo)面板數(shù)據(jù)而構(gòu)建的動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)模型能深入體現(xiàn)患者住院期間健康狀況的漸變特性,相較于基于時(shí)間序列的模型,能更好地挖掘患者基本信息和生命體征之間的關(guān)系;三是通過(guò)LSTM神經(jīng)網(wǎng)絡(luò)處理本地?cái)?shù)據(jù)缺失問(wèn)題,為模型在非標(biāo)準(zhǔn)化數(shù)據(jù)集的使用上提供解決方案,進(jìn)而提升模型預(yù)測(cè)準(zhǔn)確率。某些臨床疾病的產(chǎn)生是漸變過(guò)程,而非發(fā)生在某個(gè)特定時(shí)點(diǎn)的突變過(guò)程。本文所提出的疾病預(yù)警機(jī)制能在一定程度上對(duì)患者潛在疾病突發(fā)做出更為合理、有效的判斷,從而輔助臨床工作者進(jìn)行更為合理的治療決策。