999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險預(yù)測模型

2024-03-26 02:39:42王亞強(qiáng)郝學(xué)超舒紅平
中文信息學(xué)報 2024年1期
關(guān)鍵詞:語義文本信息

王亞強(qiáng),楊 瀟,朱 濤,郝學(xué)超,舒紅平,陳 果

(1.成都信息工程大學(xué) 軟件工程學(xué)院,四川 成都 610225;2. 成都信息工程大學(xué) 數(shù)據(jù)科學(xué)與工程研究所,四川 成都 610225;3. 成都信息工程大學(xué) 軟件自動生成與智能服務(wù)四川省重點(diǎn)實(shí)驗室,四川 成都 610225;4. 四川大學(xué) 華西醫(yī)院 麻醉手術(shù)中心,四川 成都 621005)

0 引言

術(shù)后并發(fā)癥(如肺部并發(fā)癥[1]、心血管不良[2]、ICU入室[3]等)風(fēng)險(后文簡稱“術(shù)后風(fēng)險”)所導(dǎo)致的術(shù)后30天內(nèi)死亡,已成為全球排名第三位的人群死亡原因[4]。準(zhǔn)確的術(shù)后風(fēng)險預(yù)測對醫(yī)生進(jìn)行合理的臨床資源規(guī)劃、應(yīng)急方案準(zhǔn)備具有重要的輔助作用,對患者的術(shù)后風(fēng)險發(fā)生和死亡率降低具有積極的意義[5-6]。

目前,術(shù)后風(fēng)險預(yù)測主要基于患者的基本信息(如體溫、血壓、體重等)、術(shù)前的實(shí)驗室檢查(如氧分壓、氧飽和、蛋白等)、術(shù)中的生命體征(如出血量等)等結(jié)構(gòu)化數(shù)據(jù),利用極限梯度提升(eXtreme Gradient Boosting,XGBoost)、邏輯回歸(Logistic Regression,LR)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)等模型實(shí)現(xiàn)[2,5]。

近年來,深度神經(jīng)網(wǎng)絡(luò)在各領(lǐng)域的預(yù)測任務(wù)中表現(xiàn)優(yōu)秀,受到研究者的廣泛關(guān)注,也被引入術(shù)后風(fēng)險預(yù)測任務(wù)[6]。Fritz[7]等人構(gòu)建了一種多路徑卷積神經(jīng)網(wǎng)絡(luò),提取和融合患者基本信息、共病情況、術(shù)前實(shí)驗室檢查和術(shù)中生命體征等結(jié)構(gòu)化數(shù)據(jù)中的特征,用于患者術(shù)后死亡風(fēng)險預(yù)測。Barbieri[8]等人利用雙向門控循環(huán)單元,將結(jié)構(gòu)化數(shù)據(jù)之間的時間信息以拼接的方式融入數(shù)據(jù)表征,采用注意力機(jī)制提取重要特征,用于患者術(shù)后ICU入室風(fēng)險預(yù)測。現(xiàn)有方法的核心是如何將結(jié)構(gòu)化數(shù)據(jù)中的離散型和連續(xù)型特征向量化,形成基于深度神經(jīng)網(wǎng)絡(luò)的術(shù)后風(fēng)險預(yù)測模型的數(shù)據(jù)表征。

在術(shù)前數(shù)據(jù)中,除結(jié)構(gòu)化數(shù)據(jù)外,還包含語義豐富的非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)。術(shù)前診斷中不僅包含醫(yī)生基于的醫(yī)學(xué)知識,還包含根據(jù)局部的結(jié)構(gòu)化數(shù)據(jù),對患者病情的總結(jié)信息,以及醫(yī)生以整體的結(jié)構(gòu)化數(shù)據(jù)為依據(jù),利用經(jīng)驗知識,對患者病況的推斷信息。如圖1中患者1的術(shù)前數(shù)據(jù)所示,根據(jù)結(jié)構(gòu)化數(shù)據(jù)收縮壓156 mmHg(毫米汞柱)與舒張壓76 mmHg,基于醫(yī)學(xué)知識“成人的收縮壓和舒張壓正常范圍應(yīng)在90 mmHg至120 mmHg之間”,因此,醫(yī)生在術(shù)前診斷中總結(jié)該患者有“高血壓病”,且屬于“3級很高危”。此外,依據(jù)目前患者整體的結(jié)構(gòu)化數(shù)據(jù),醫(yī)生根據(jù)經(jīng)驗知識,推斷患者是“肺部感染”。更進(jìn)一步地,術(shù)前診斷的整體描述,反映了當(dāng)前患者的全局狀態(tài)。這些語義信息能夠豐富術(shù)后風(fēng)險預(yù)測的特征,有助于增強(qiáng)預(yù)測模型的性能。

圖1 結(jié)構(gòu)化的患者基本信息和術(shù)前實(shí)驗室檢查數(shù)據(jù)

然而,術(shù)前診斷數(shù)據(jù)尚未在術(shù)后風(fēng)險預(yù)測任務(wù)中被有效利用。如何充分地利用非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù),形成有效的術(shù)后風(fēng)險預(yù)測數(shù)據(jù)表征,尚有待進(jìn)一步探索。

綜上,本文圍繞非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù)如何增強(qiáng)術(shù)后風(fēng)險預(yù)測任務(wù)這一問題展開研究,主要的貢獻(xiàn)包括以下三個方面:

(1) 與圍術(shù)期醫(yī)學(xué)專家合作,經(jīng)過清洗、處理、轉(zhuǎn)換和去隱私過程,構(gòu)建了一份包含12 240個實(shí)例、面向術(shù)后風(fēng)險預(yù)測任務(wù)的數(shù)據(jù)集。該數(shù)據(jù)集的結(jié)構(gòu)化數(shù)據(jù)部分包含了95列離散型變量、61列連續(xù)型變量、一列非結(jié)構(gòu)化的術(shù)前診斷變量以及三列二元的術(shù)后風(fēng)險標(biāo)簽變量,分別表示肺部并發(fā)癥、心血管不良和ICU入室風(fēng)險的發(fā)生情況。

(2) 為充分地利用非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù),本文提出一種非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險預(yù)測模型,利用自注意力機(jī)制,將結(jié)構(gòu)化數(shù)據(jù)與局部的細(xì)粒度實(shí)體信息及全局的粗粒度文本語義加權(quán)融合,有效地將非結(jié)構(gòu)化數(shù)據(jù)用于增強(qiáng)術(shù)后風(fēng)險預(yù)測性能。

(3) 本文提出的基于自注意力機(jī)制融合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的模型結(jié)構(gòu),為術(shù)后風(fēng)險預(yù)測帶來了良好的可解釋性。細(xì)節(jié)實(shí)驗結(jié)果分析發(fā)現(xiàn),利用自注意力機(jī)制獲得的關(guān)系權(quán)重矩陣,可以解釋和展示出非結(jié)構(gòu)化數(shù)據(jù),不僅增強(qiáng)了重要的結(jié)構(gòu)化數(shù)據(jù)的貢獻(xiàn)度,而且還補(bǔ)充了風(fēng)險預(yù)測信息。

實(shí)驗結(jié)果表明,本文提出的非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險預(yù)測模型明顯優(yōu)于所對比的常用統(tǒng)計機(jī)器學(xué)習(xí)模型和最新的深度神經(jīng)網(wǎng)絡(luò),在三種重要的術(shù)后風(fēng)險預(yù)測(包括肺部并發(fā)癥風(fēng)險預(yù)測、ICU入室風(fēng)險預(yù)測和心血管不良風(fēng)險預(yù)測)任務(wù)上,本文提出的模型均取得了最優(yōu)的結(jié)果,F1值分別達(dá)到了66.909%、60.833%和55.888%。此外,通過消融實(shí)驗,進(jìn)一步驗證了本文提出的模型有效地加權(quán)融合了局部的細(xì)粒度實(shí)體信息和全局的粗粒度文本語義信息。利用非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)表征增強(qiáng)術(shù)后風(fēng)險預(yù)測模型后,肺部并發(fā)癥風(fēng)險預(yù)測的F1值提升了6.878%,ICU入室風(fēng)險預(yù)測提升了7.641%,心血管不良風(fēng)險預(yù)測提升了9.541%。

1 相關(guān)工作

術(shù)后風(fēng)險預(yù)測是醫(yī)學(xué)信息學(xué)領(lǐng)域的研究熱點(diǎn)問題。當(dāng)前的研究主要集中在驗證統(tǒng)計機(jī)器學(xué)習(xí)模型在術(shù)后風(fēng)險預(yù)測任務(wù)上的有效性,以及面向特定類型的術(shù)后并發(fā)癥風(fēng)險的特征分析兩個層面。Canet[9]等人利用邏輯回歸模型,確定了7個獨(dú)立且具有良好鑒別能力的危險因素后,構(gòu)建了術(shù)后肺部并發(fā)癥風(fēng)險預(yù)測指標(biāo),用于評估和預(yù)測術(shù)后肺部并發(fā)癥的個體風(fēng)險。Hill[10]等人采用隨機(jī)森林模型,自動地發(fā)現(xiàn)重要的術(shù)前特征,將結(jié)構(gòu)化的美國麻醉醫(yī)師協(xié)會身體狀況特征與術(shù)前特征相結(jié)合,提升術(shù)后死亡風(fēng)險的預(yù)測性能。與先前工作不同,本文提出了一種非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險預(yù)測模型,該模型基于自注意力機(jī)制,在預(yù)測中有效地融合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化語義信息,并提供良好的可解釋性。

術(shù)后風(fēng)險預(yù)測目前的主要研究對象是術(shù)前和術(shù)中的結(jié)構(gòu)化數(shù)據(jù),其中包含兩種類型的變量,一種是離散型變量,另一種是連續(xù)型變量。其中連續(xù)型變量通常會被離散化后,與離散型變量一同構(gòu)建特征向量,作為術(shù)后風(fēng)險預(yù)測模型的輸入[11]。本文的實(shí)驗主要基于結(jié)構(gòu)化的患者基本信息和術(shù)前的實(shí)驗室檢查數(shù)據(jù)。本文采用與先前工作相同的連續(xù)型變量的基本處理方法。差異在于本文借鑒Fritz[7]等人的思想,將離散型變量和離散化的連續(xù)型變量構(gòu)建離散特征詞典,并基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)離散特征的嵌入表征。

術(shù)后風(fēng)險預(yù)測除可利用術(shù)前和術(shù)中的結(jié)構(gòu)化數(shù)據(jù)作為特征之外,通過觀察發(fā)現(xiàn),包含醫(yī)學(xué)語義信息的非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)也可用于增強(qiáng)術(shù)后風(fēng)險預(yù)測。Zhang[12]等人提出將英文臨床文本利用Doc2Vec模型[13]直接形成數(shù)據(jù)表征,然后與結(jié)構(gòu)化數(shù)據(jù)合并的方式,將非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)融合,應(yīng)用于住院死亡率、住院時間長短和術(shù)后30天再入院的預(yù)測任務(wù),該方法在英文臨床數(shù)據(jù)MIMIC-III[14]上進(jìn)行了實(shí)驗驗證。與該工作不同,本文首次探索了將中文非結(jié)構(gòu)化臨床文本引入術(shù)后風(fēng)險預(yù)測的方法。

此外,本文通過觀察還發(fā)現(xiàn),在非結(jié)構(gòu)化的術(shù)前診斷中,既包含全局的粗粒度文本語義信息,還包含局部的細(xì)粒度醫(yī)學(xué)實(shí)體信息,它們均可為術(shù)后風(fēng)險預(yù)測提供醫(yī)學(xué)語義特征(圖1)。為將這些信息與離散特征的嵌入表征相融合,本文首先基于常用的中文MedBERT(1)URL: https://code.ihub.org.cn/projects/1775獲得實(shí)體的嵌入表征,并將術(shù)前診斷視為句子后,采用詞嵌入平均池化的方法將其向量化。然后利用自注意力機(jī)制[15],將離散特征的嵌入表征與實(shí)體的嵌入表征以及向量化的術(shù)前診斷進(jìn)行加權(quán)融合,在綜合地利用全局和局部的文本語義信息的基礎(chǔ)上,還為模型帶來了良好的可解釋性[16]。

2 術(shù)后風(fēng)險預(yù)測

2.1 任務(wù)定義

本文將術(shù)后風(fēng)險預(yù)測定義為一項二分類任務(wù),采用有監(jiān)督學(xué)習(xí)方法解決。定義(x,y)為一個訓(xùn)練實(shí)例,x中包含xnum、xcat和xPD三種類型的特征。其中,xnum表示表格數(shù)據(jù)中的連續(xù)型特征,共m列,xcat表示表格數(shù)據(jù)中的離散型特征,共n列,xPD表示非結(jié)構(gòu)化的術(shù)前診斷文本數(shù)據(jù),y表示術(shù)后風(fēng)險發(fā)生的情況,用1或0分別表示風(fēng)險的發(fā)生或未發(fā)生。

2.2 表格數(shù)據(jù)的向量表征

本文提出的術(shù)后風(fēng)險預(yù)測模型主要利用結(jié)構(gòu)化表格數(shù)據(jù)和非結(jié)構(gòu)化術(shù)前診斷文本數(shù)據(jù)對術(shù)后風(fēng)險進(jìn)行預(yù)測(模型的結(jié)構(gòu)如圖2所示)。結(jié)構(gòu)化表格數(shù)據(jù)由xnum和xcat組成。本文采用分類與回歸樹算法[17],先將連續(xù)型特征轉(zhuǎn)換為離散型特征,在引入醫(yī)學(xué)語義信息的同時,降低數(shù)據(jù)的復(fù)雜度。轉(zhuǎn)換后的連續(xù)型特征不僅能夠表達(dá)醫(yī)學(xué)語義,還被統(tǒng)一成離散型特征。轉(zhuǎn)換后的連續(xù)型變量表征被定義為xn2cat,如式(1)所示。

圖2 模型結(jié)構(gòu)圖

xn2cat=discretize(xnum)

(1)

處理離散型變量表征的常用方式是采用實(shí)體嵌入[18]的方法,即為每一個離散型變量構(gòu)建一個特征詞表,詞表大小為當(dāng)前離散型變量的不同取值的數(shù)量。然而該方法在建模的過程中僅考慮了單一變量下的不同取值之間的語義關(guān)聯(lián),而不同的變量之間的相關(guān)性未被考慮其中。為引入全局不同變量之間的語義關(guān)聯(lián),本文改進(jìn)了原始的實(shí)體嵌入方法,讓所有的離散型變量共用特征詞表。每一個離散型變量(包括xcat和xn2cat)的不同取值,都會被賦予唯一的索引值xi,其中,i∈[0,|V|],|V|是所有的離散型變量的不同取值的數(shù)量總和,即共用的特征詞表的詞表大小。每個xi都將通過學(xué)習(xí)過程被映射為一個維度為d的向量,定義為etabular,其中d為超參數(shù)。通過構(gòu)建全局共用的特征詞表,原始的離散型變量轉(zhuǎn)換為語義向量之后,不僅擴(kuò)充了醫(yī)學(xué)語義信息,并且不同的離散型變量之間也產(chǎn)生了語義關(guān)聯(lián)。相比原始的實(shí)體嵌入方法,該方法解決了不同離散型變量之間語義關(guān)聯(lián)缺失的問題。最后,將所有的etabular拼接形成表格數(shù)據(jù)的向量表征Etabular。

2.3 文本數(shù)據(jù)的向量表征

術(shù)前診斷文本xPD主要包含醫(yī)生總結(jié)的病人身體癥狀和初步推斷的病情描述,兩者可統(tǒng)一定義為病癥實(shí)體。因此,術(shù)前診斷文本可以歸納為由多個病癥實(shí)體、連接詞以及標(biāo)點(diǎn)符號構(gòu)成的集合,每個實(shí)例xPD包含lmax項的病癥實(shí)體,lmax表示數(shù)據(jù)集中,xPD中最多可飽含的病癥實(shí)體數(shù)量。

術(shù)前診斷文本可以有兩種向量表征方法,一種是形如利用Doc2Vec模型[13]得到的全局語義向量,獲取該類向量表征的方法我們稱之為粗粒度文本的向量表征方法;另一種是直接將病癥實(shí)體對應(yīng)的語義向量拼接,形成細(xì)粒度文本的向量表征。后文將具體介紹它們獲取術(shù)前診斷文本粗粒度語義信息和細(xì)粒度語義信息的方法。

2.3.1 粗粒度語義向量表征方法

(2)

2.3.2 細(xì)粒度語義向量表征方法

將術(shù)前診斷文本分詞后,通過MedBERT生成的詞向量被壓縮為單一向量,會導(dǎo)致局部語義信息的丟失,且無法明確術(shù)前診斷文本中哪些信息在術(shù)后風(fēng)險預(yù)測過程中起到了關(guān)鍵作用。為保留術(shù)前診斷文本中的局部細(xì)粒度實(shí)體語義信息,本文首先利用醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集,基于BERT+BiLSTM+CRF模型訓(xùn)練得到實(shí)體抽取模型[19],然后利用該模型抽取xPD中的病癥實(shí)體,形成病癥實(shí)體集合{w0,…,wk,…,wK},其中,K表示當(dāng)前xPD中抽取得到的病癥實(shí)體數(shù)量。

圖3 細(xì)粒度語義向量的補(bǔ)全與降維轉(zhuǎn)換方法

(3)

2.4 特征融合方法

在特征融合層,本文選擇采用Self-Attention機(jī)制[15]將表格數(shù)據(jù)表征Etabular與文本數(shù)據(jù)的向量表征Etext進(jìn)行特征融合(如圖4所示)。首先,將表示表格數(shù)據(jù)信息的數(shù)據(jù)表征Etabular與表示文本語義信息的數(shù)據(jù)表征Etext拼接,形成新的特征向量集合EX,并將EX通過三個參數(shù)矩陣WQ、WK和WV映射為三個不同的矩陣Q、K和V。然后對Q和KT執(zhí)行點(diǎn)積并利用dk放縮結(jié)果,以保證訓(xùn)練過程中梯度的穩(wěn)定性。其中,dk是指矩陣K的維度,計算方法如式(4)的Softmax函數(shù)的輸入所示。隨后執(zhí)行Softmax函數(shù)進(jìn)行歸一化,得到不同的數(shù)據(jù)表征之間(包含表格數(shù)據(jù)表征和文本數(shù)據(jù)表征)的注意力權(quán)重Wweight,其計算方法如式(4)所示。

圖4 特征融合方法

(4)

最后將Wweight與V相乘得到增強(qiáng)后的特征表示A。具體計算過程如式(5)~式(7)所示。

EX=Etabular⊕Etext

(5)

Q=EXWQ,K=EXWK,V=EXWV

(6)

(7)

通過注意力機(jī)制,模型可以自動地學(xué)習(xí)到特征在推理過程中的重要性或貢獻(xiàn)度。因此,在模型推理過程中,可以通過提取并分析注意力權(quán)重矩陣,來探究在模型預(yù)測過程中,各特征發(fā)揮作用的重要程度,從而為模型帶來良好的可解釋性。

為了解決梯度消失問題,受文獻(xiàn)[20-21]的啟發(fā),表征矩陣A在輸入前饋神經(jīng)網(wǎng)絡(luò)之前,還經(jīng)過了殘差網(wǎng)絡(luò)和層標(biāo)準(zhǔn)化操作。接著將向量輸入到帶有Sigmoid激活函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)中,計算預(yù)測術(shù)后風(fēng)險的發(fā)生概率P如式(8)所示。

P=Sigmoid(WTA+b)

(8)

在式(8)中,W和b是前饋神經(jīng)網(wǎng)絡(luò)將學(xué)習(xí)的參數(shù)。最后,模型的損失定義為如式(9)所示。

其中,M指批量包含的實(shí)例數(shù)量。

3 實(shí)驗

3.1 實(shí)驗數(shù)據(jù)

本文實(shí)驗采用了從醫(yī)院的臨床管理系統(tǒng)中獲取的數(shù)據(jù),其中包含患者的基本信息、術(shù)前實(shí)驗室檢查數(shù)據(jù)和術(shù)前診斷,以及病人術(shù)后發(fā)生的肺部并發(fā)癥風(fēng)險、ICU入室風(fēng)險和心血管不良風(fēng)險結(jié)局。該數(shù)據(jù)經(jīng)過了如下基本的預(yù)處理過程:

(1) 刪除了有關(guān)患者身份的個人信息;

(2) 刪除了缺失率高于50%的變量。

最終得到包含12240個實(shí)例的術(shù)后風(fēng)險預(yù)測數(shù)據(jù)集,該數(shù)據(jù)集中包含95項離散型變量和61項連續(xù)型變量以及1項術(shù)前診斷變量。數(shù)據(jù)集中包含的三種術(shù)后風(fēng)險的標(biāo)簽分布如圖5所示,肺部并發(fā)癥風(fēng)險的陽性率為15.93%,ICU入室風(fēng)險的陽性率為6.25%,心血管不良風(fēng)險的陽性率為3.02%。實(shí)驗中,本文將數(shù)據(jù)集按照7∶1∶2的比例劃分得到訓(xùn)練集、驗證集和測試集。

圖5 實(shí)驗數(shù)據(jù)中的標(biāo)簽分布

3.2 評估指標(biāo)

為了評估模型的效果,本文采用精確率(Precision)、召回率(Recall)和F1值作為主要的評估指標(biāo),具體的計算如式(10)~式(12)所示。

其中,TP表示在陽性實(shí)例中,模型預(yù)測為陽性的實(shí)例數(shù)量;FP表示在陰性實(shí)例中,模型預(yù)測為陽性的實(shí)例數(shù)量;FN表示在陽性實(shí)例中,模型預(yù)測為陰性的實(shí)例數(shù)量。

3.3 參數(shù)設(shè)置

模型訓(xùn)練采用了Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為3e-4,β1=0.9,β2=0.999,批量大小設(shè)置為128,訓(xùn)練輪次設(shè)置為100,超參數(shù)d設(shè)置為32,Dropout比例參數(shù)設(shè)置為0.5。在以上超參數(shù)設(shè)置條件下,本文提出的術(shù)后風(fēng)險預(yù)測模型達(dá)到了收斂。

本文為驗證所提出模型在術(shù)后風(fēng)險預(yù)測任務(wù)上的有效性,在實(shí)驗中選擇了兩種常用的統(tǒng)計機(jī)器學(xué)習(xí)模型LR和XGBoost以及兩種最新的基于表格數(shù)據(jù)分類的深度神經(jīng)網(wǎng)絡(luò)Wide&Deep[22]和Tabtransformer[23]作為對比模型。LR和XGBoost采用scikit-learn框架[24]實(shí)現(xiàn),Wide&Deep和Tabtransformer采用開源的代碼庫(3)https://github.com/jrzaurin/pytorch-widedeep/tree/pytorch_widedeep實(shí)現(xiàn)。

3.4 實(shí)驗分析

首先,在三項術(shù)后風(fēng)險預(yù)測任務(wù)上對比了模型的預(yù)測性能,實(shí)驗結(jié)果如表1所示。

表1 實(shí)驗整體結(jié)果 (單位: %)

從表1所列結(jié)果可以觀察到,Wide&Deep和Tabtransformer在三項術(shù)后風(fēng)險的預(yù)測任務(wù)上均優(yōu)于LR和XGBoost,特別是在陽性率較低的心血管不良風(fēng)險預(yù)測任務(wù)上,Wide&Deep和Tabtra-nsformer的表現(xiàn)遠(yuǎn)優(yōu)于LR和XGBoost。該結(jié)果說明,深度神經(jīng)網(wǎng)絡(luò)在術(shù)后風(fēng)險預(yù)測任務(wù)上的性能優(yōu)于統(tǒng)計機(jī)器學(xué)習(xí)模型,這與文獻(xiàn)[6-7]報告的結(jié)果保持一致。

此外,從表1中所列結(jié)果還可以看出,通過引入術(shù)前診斷文本數(shù)據(jù)表征,本文提出的模型在肺部并發(fā)癥、心血管不良和ICU入室三個術(shù)后風(fēng)險預(yù)測任務(wù)上均取得了最優(yōu)的性能,F1分別達(dá)到了66.909%、55.888%和60.833%。該結(jié)果證明,本文提出的文本數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險預(yù)測模型是有效的。

進(jìn)一步觀察表1中的結(jié)果發(fā)現(xiàn),相比于其他模型,本文提出的模型是在保持了良好的精確率的條件下,大幅地提升了召回率,從而提升了F1。該結(jié)果說明,當(dāng)模型引入非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù)表征后,進(jìn)一步豐富了特征的醫(yī)學(xué)語義信息,對陽性實(shí)例的預(yù)測帶來了額外的醫(yī)學(xué)語義信息補(bǔ)充,從而幫助模型將之前無法判斷的陽性實(shí)例準(zhǔn)確地預(yù)測為陽性,進(jìn)而提高了模型的召回率。

3.5 消融實(shí)驗

為進(jìn)一步驗證文本數(shù)據(jù)表征對模型預(yù)測效果增強(qiáng)的作用,并探究文本中粗粒度語義信息和細(xì)粒度語義信息對預(yù)測任務(wù)的影響,本文還設(shè)計了不加入文本以及分別加入粗粒度和細(xì)粒度語義信息的對比消融實(shí)驗,結(jié)果如表2所示,其中,“-E”表示模型中去除細(xì)粒度語義向量表征,“-S”表示模型中去除粗粒度語義向量表征,“-E-S”表示模型中去除所有的文本數(shù)據(jù)。

表2 消融實(shí)驗結(jié)果 (單位: %)

表2中在加入文本數(shù)據(jù)后,本文提出的模型在肺部并發(fā)癥風(fēng)險預(yù)測任務(wù)上的性能提高了6.878%,在ICU入室風(fēng)險預(yù)測中提高了7.641%,在心血管不良風(fēng)險預(yù)測中提高了9.541%,并且無論是單獨(dú)加入粗粒度文本的語義向量還是細(xì)粒度文本的語義向量,模型的預(yù)測性能均得到明顯改善。該結(jié)果說明,非結(jié)構(gòu)化術(shù)前診斷中的信息對術(shù)后風(fēng)險預(yù)測具有積極的作用,為術(shù)后風(fēng)險預(yù)測提供了額外的決策信息,有效地增強(qiáng)了模型的預(yù)測能力。

此外,觀察表2還可以發(fā)現(xiàn),陽性率越低的術(shù)后風(fēng)險,通過引入非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)表征后,模型的預(yù)測性能提升越高。該結(jié)果說明,對于陽性實(shí)例更少的術(shù)后風(fēng)險,模型需要更多的特征才能更準(zhǔn)確地預(yù)測陽性病例,引入非結(jié)構(gòu)化的術(shù)前診斷能夠為模型帶來更豐富的醫(yī)學(xué)語義信息,從而使本文提出的模型在陽性率越低的術(shù)后風(fēng)險預(yù)測中表現(xiàn)得越出色。

從表2結(jié)果還能夠看出,相比于全局的粗粒度語義向量表征的缺失,模型對于局部的細(xì)粒度語義向量表征的缺失更加敏感。該結(jié)果說明,在術(shù)后風(fēng)險預(yù)測的過程中引入圍術(shù)期醫(yī)學(xué)領(lǐng)域知識,對模型的預(yù)測性能提升具有重要的作用,這也進(jìn)一步說明了本文提出的非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險預(yù)測模型的有效性和應(yīng)用價值。

更進(jìn)一步地,從表2中還可以看出,當(dāng)模型同時引入粗粒度語義向量表征和細(xì)粒度語義向量表征時,模型的預(yù)測性能達(dá)到最優(yōu)。該結(jié)果說明,當(dāng)用非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)術(shù)后風(fēng)險預(yù)測模型時,既需要引入粗粒度語義向量表征攜帶的全局語義信息,又需要引入細(xì)粒度語義向量表征攜帶的局部語義信息。

3.6 細(xì)節(jié)分析

本文提出的模型通過自注意力機(jī)制為術(shù)后風(fēng)險預(yù)測模型帶來了可解釋性。為驗證和說明該效果,本文選取了一個發(fā)生了術(shù)后心血管不良的病人的案例,觀察模型的注意力權(quán)重矩陣。該實(shí)例的術(shù)前診斷是“右肺上葉結(jié)節(jié),高血壓3級”。本文提出的模型準(zhǔn)確地預(yù)測該實(shí)例的術(shù)后心血管不良風(fēng)險結(jié)局。提取模型的注意力權(quán)重矩陣Wweight,并畫出其熱力圖(圖6)。在圖6中,橫軸上的“右肺上葉結(jié)節(jié)”和“高血壓3級”是術(shù)前診斷中的實(shí)體病癥,[PAD]是補(bǔ)全的字符,其余行的描述以及列的描述均是表格數(shù)據(jù)包含的變量。

圖6 心血管不良實(shí)例的注意力權(quán)重?zé)崃D

從圖6可以看出,在術(shù)前診斷描述中,“高血壓3級”顯著地與表格數(shù)據(jù)中的收縮壓和舒張壓變量具有強(qiáng)關(guān)聯(lián)。該強(qiáng)關(guān)聯(lián)預(yù)示著模型通過訓(xùn)練,學(xué)習(xí)到了數(shù)據(jù)集中包含的醫(yī)學(xué)領(lǐng)域知識關(guān)聯(lián)信息,該關(guān)聯(lián)信息保存在了Wweight中,在術(shù)后風(fēng)險預(yù)測中起到了重要的預(yù)示作用。另一個方面,該結(jié)果還說明,利用自注意力機(jī)制為術(shù)后風(fēng)險預(yù)測模型帶來了可解釋性。總體地,實(shí)驗結(jié)果驗證了本文提出的模型在增強(qiáng)術(shù)后風(fēng)險預(yù)測性能方面的魯棒性和可解釋性。

通過對比引入非結(jié)構(gòu)化數(shù)據(jù)表征前后,Wweight中包含的權(quán)重值按列求和后得到的每個變量在術(shù)后風(fēng)險預(yù)測中的權(quán)重比率排序,進(jìn)一步觀察在術(shù)后風(fēng)險預(yù)測中起重要作用的變量與術(shù)后風(fēng)險結(jié)局是否存在醫(yī)學(xué)語義的相關(guān)性,對比結(jié)果如圖7所示。

圖7 變量在模型術(shù)后風(fēng)險預(yù)測中的重要性排序

從圖7可以看出,權(quán)重比率越高,說明變量在預(yù)測中具有更高的重要性。從結(jié)果可以看出,在引入非結(jié)構(gòu)化數(shù)據(jù)表征后,與術(shù)后心血管不良風(fēng)險強(qiáng)相關(guān)的醫(yī)學(xué)變量收縮壓與舒張壓的權(quán)重比率排序更加靠前。該結(jié)果進(jìn)一步證實(shí)了本文提出的模型在提升術(shù)后風(fēng)險預(yù)測性能的同時,還學(xué)習(xí)到了醫(yī)學(xué)領(lǐng)域知識,具有更好的可解釋性。

從圖7中還可以看到,在引入非結(jié)構(gòu)化數(shù)據(jù)表征后,臨床醫(yī)生根據(jù)經(jīng)驗總結(jié)或推斷得到的額外的重要醫(yī)學(xué)語義信息,也在風(fēng)險預(yù)測中起到了重要的作用,例如臨床醫(yī)生基于收縮壓和舒張壓總結(jié)并記錄下的“高血壓3級”疾病。一方面,該結(jié)果證明了本文提出的模型學(xué)習(xí)到了醫(yī)學(xué)領(lǐng)域知識,并對術(shù)后風(fēng)險預(yù)測起到了積極的作用。另一方面,該結(jié)果還說明,本文通過直覺觀察提出的模型是正確的,術(shù)前診斷中包含了大量的醫(yī)學(xué)語義信息,這些信息既包含表格數(shù)據(jù)中已有的醫(yī)學(xué)語義信息,還包含大量可用于豐富原始表格數(shù)據(jù)的額外的醫(yī)學(xué)領(lǐng)域知識,這些信息會對模型的預(yù)測性能提升起到積極的作用。更進(jìn)一步地,該結(jié)果也說明,本文提出的模型在提升了術(shù)后風(fēng)險預(yù)測性能的同時,還具有良好的魯棒性和結(jié)果可解釋性。

4 結(jié)束語

術(shù)后風(fēng)險預(yù)測在臨床醫(yī)學(xué)中具有重要意義,基于表格數(shù)據(jù)構(gòu)建統(tǒng)計機(jī)器學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)術(shù)后風(fēng)險預(yù)測是常見的方式。非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)中蘊(yùn)含了大量額外的醫(yī)學(xué)領(lǐng)域知識,可為術(shù)后風(fēng)險預(yù)測提供豐富的醫(yī)學(xué)語義信息,然而它們尚未被有效利用。針對該問題,本文提出了一種新的模型,用非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)術(shù)后風(fēng)險預(yù)測,并在模型中引入自注意力機(jī)制,在有效融合表格數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的同時,為模型帶來良好的可解釋性。實(shí)驗結(jié)果表明,本文提出的非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險預(yù)測模型的性能顯著高于其他比較的基線模型和先進(jìn)模型。通過消融實(shí)驗,驗證了在術(shù)后風(fēng)險預(yù)測中引入非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)的重要性,證明了本文提出的模型的有效性。此外,通過對模型的注意力權(quán)重的細(xì)節(jié)分析發(fā)現(xiàn),利用自注意力機(jī)制將表格數(shù)據(jù)與非結(jié)構(gòu)化的術(shù)前診斷融合用于術(shù)后風(fēng)險預(yù)測,為模型帶來了良好的可解釋性。

猜你喜歡
語義文本信息
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
語義分析與漢俄副名組合
主站蜘蛛池模板: 无码内射中文字幕岛国片| 久久黄色视频影| 久久久久亚洲精品成人网| 试看120秒男女啪啪免费| 成人自拍视频在线观看| 久久精品只有这里有| 久久免费观看视频| 国产精品吹潮在线观看中文| 国产成人综合网| 日韩免费视频播播| 波多野结衣一区二区三视频| 2021国产精品自产拍在线观看| 欧美日韩高清在线| 国产成人无码综合亚洲日韩不卡| 国产精品免费入口视频| 国产婬乱a一级毛片多女| 亚洲天堂网在线观看视频| 毛片手机在线看| 色婷婷亚洲十月十月色天| 青青国产在线| 亚洲成综合人影院在院播放| 91精品啪在线观看国产60岁| 国产成人综合日韩精品无码首页| 东京热一区二区三区无码视频| 国产人成午夜免费看| 国产性生大片免费观看性欧美| 精久久久久无码区中文字幕| 欧美日韩国产综合视频在线观看| 18黑白丝水手服自慰喷水网站| 无码粉嫩虎白一线天在线观看| 久久国语对白| 国产主播一区二区三区| 国产日韩欧美在线视频免费观看| 国产特级毛片| 黄色网在线免费观看| 久久免费视频6| 国产真实自在自线免费精品| 超碰免费91| 日韩国产亚洲一区二区在线观看| 国产九九精品视频| 国产精品精品视频| 日韩人妻精品一区| 无码综合天天久久综合网| 麻豆精品在线播放| 一本久道久久综合多人| 伊人精品视频免费在线| 亚洲热线99精品视频| 午夜毛片免费观看视频 | 亚洲成人在线免费观看| 中文字幕在线免费看| 亚洲AV无码乱码在线观看代蜜桃| 国产素人在线| 国产女同自拍视频| 综合色亚洲| 色综合中文| 四虎成人在线视频| 免费国产不卡午夜福在线观看| 欧美精品成人| 成人精品在线观看| 一级看片免费视频| 亚洲精品无码不卡在线播放| 另类综合视频| 亚洲男人的天堂久久香蕉网| 在线观看亚洲国产| 国产鲁鲁视频在线观看| 人妻丰满熟妇啪啪| 欧美亚洲第一页| 日韩在线播放中文字幕| a欧美在线| 热99re99首页精品亚洲五月天| 欧美三级自拍| 国产网站一区二区三区| 国产理论最新国产精品视频| 波多野结衣中文字幕一区二区| 丁香六月综合网| 国产成年无码AⅤ片在线| 日韩精品一区二区三区中文无码| 国产在线98福利播放视频免费| 欧美亚洲激情| 国产99久久亚洲综合精品西瓜tv| 视频一区视频二区日韩专区| 日韩精品专区免费无码aⅴ|