999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的多模態(tài)糖尿病預(yù)測模型

2023-08-03 09:18:16高豪俊蔣思清
當(dāng)代醫(yī)藥論叢 2023年14期
關(guān)鍵詞:文本糖尿病模型

高豪俊,蔣思清,吳 健*

(1.浙江大學(xué)醫(yī)學(xué)院,浙江 杭州 310058 ;2.浙江大學(xué)睿醫(yī)人工智能研究中心,浙江 杭州 310000)

糖尿病已成為當(dāng)今時(shí)代最嚴(yán)重和最常見的慢性病之一。2021 年全球糖尿病患者數(shù)量超過5 億人,估計(jì)患病率超過10%,預(yù)計(jì)到2045 年患者數(shù)將超過7億[1]。隨著病情的發(fā)展,糖尿病將引起諸多并發(fā)癥,影響患者的生存質(zhì)量,縮短其預(yù)期壽命,給其家庭和社會(huì)帶來巨大的經(jīng)濟(jì)負(fù)擔(dān)[2-3]。由于此病早期通常沒有癥狀,患者往往不能及時(shí)發(fā)現(xiàn)自身的疾病[4]。而通過相關(guān)早期篩查、及時(shí)干預(yù)可有效預(yù)防或延緩其并發(fā)癥的出現(xiàn)[5-6]。因此,需要開發(fā)一種簡單有效的篩查方法。目前已經(jīng)有許多研究采用機(jī)器學(xué)習(xí)算法來預(yù)測糖尿病,如隨機(jī)森林、支持向量機(jī)、決策樹等,并且展現(xiàn)出了優(yōu)秀的區(qū)分能力[7-10]。但這些研究對(duì)于飲酒、運(yùn)動(dòng)量、家族史等危險(xiǎn)因素均是以分類變量的形式作為模型進(jìn)行輸入。而此類信息在現(xiàn)實(shí)電子病歷系統(tǒng)中通常是以自由文本的形式保存,且由于內(nèi)容復(fù)雜,難以直接轉(zhuǎn)換為分類變量。通過模型直接利用這些文本信息更符合現(xiàn)實(shí)場景的需求。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,近年來飛速發(fā)展,在文本、圖像、語音等非結(jié)構(gòu)化數(shù)據(jù)的處理上有著出色的表現(xiàn)[11-12]。Transformer 是目前自然語言處理領(lǐng)域的主流架構(gòu)[13]。本文利用體檢數(shù)據(jù)中的結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù)在Transformer 架構(gòu)的基礎(chǔ)上構(gòu)建多模態(tài)糖尿病預(yù)測模型,并與其他僅能使用結(jié)構(gòu)化數(shù)據(jù)的模型進(jìn)行對(duì)比。現(xiàn)報(bào)道如下。

1 數(shù)據(jù)來源

數(shù)據(jù)來源為杭州市每天健康體檢與健康管理服務(wù)平臺(tái)的多家醫(yī)院健康體檢數(shù)據(jù)。這項(xiàng)研究獲得了浙江大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)倫理委員會(huì)的倫理審批(倫理審查編號(hào)ZGL202107-4)。所有患者信息均已完成去標(biāo)識(shí)化處理。我們納入2011 年至2020 年有進(jìn)行過葡萄糖耐量試驗(yàn)的體檢記錄,排除了病史中帶糖尿病描述的記錄,最終納入6 家醫(yī)院的共17 976 份體檢記錄。我們選擇其中一家醫(yī)院構(gòu)成數(shù)據(jù)集Ⅱ,作為外部驗(yàn)證集,剩余5 家醫(yī)院共同構(gòu)成數(shù)據(jù)集Ⅰ,用作模型的訓(xùn)練和內(nèi)部驗(yàn)證。

我們依據(jù)糖尿病診斷標(biāo)準(zhǔn)將數(shù)據(jù)分為兩類(0 為未患病,1 為患病),診斷依據(jù)包括:空腹血糖≥7.0 mmol/L、葡萄糖耐量試驗(yàn)中餐后2 小時(shí)血糖≥11.1 mmol/L 或糖化血紅蛋白≥6.5%。

我們采用空腹血糖和既往糖尿病預(yù)測模型常用的危險(xiǎn)因素來搭建模型,包括性別、年齡、體重指數(shù)、甘油三酯、收縮壓、舒張壓、腰圍、體重、家族史、病史、煙酒史。其中家族史、病史和煙酒史為文本數(shù)據(jù)。

2 方法

我們參照FT-Transformer 的方法對(duì)數(shù)值型和分類型變量進(jìn)行嵌入處理[14],轉(zhuǎn)換為d 維向量表示。對(duì)于文本變量,我們采用中文預(yù)訓(xùn)練的BERT 模型進(jìn)行語義提取[15],再通過一層全連接層轉(zhuǎn)變?yōu)閐 維向量,同嵌入處理后的其他變量拼接后輸入Transformer 模型進(jìn)行分類預(yù)測。Transformer 模型采用2 層編碼器結(jié)構(gòu)。得益于Transformer 在多個(gè)領(lǐng)域的通用性,該模型可擴(kuò)展其他類型的數(shù)據(jù),我們將其命名為可拓展的糖尿病預(yù)測模型(extensible diabetes prediction model, EDPM)。

本文采用既往研究中表現(xiàn)較好的MLP、邏輯回歸、隨機(jī)森林、支持向量機(jī)和XGBoost 進(jìn)行對(duì)比[16-17]。所有模型均在數(shù)據(jù)集Ⅰ上進(jìn)行10 折交叉驗(yàn)證,并在數(shù)據(jù)集Ⅱ上進(jìn)行外部驗(yàn)證。由于類別存在明顯的不平衡,我們采用準(zhǔn)確率、F1 分?jǐn)?shù)、受試者工作特征曲線下面積(AUC)來評(píng)估模型性能。

3 結(jié)果

各模型在內(nèi)外部驗(yàn)證集上的表現(xiàn)如表1 所示。只采用結(jié)構(gòu)化數(shù)據(jù)的情況下,傳統(tǒng)機(jī)器學(xué)習(xí)模型的表現(xiàn)最優(yōu),多數(shù)AUC 均達(dá)到0.94。引入本文數(shù)據(jù)后,EDPM 的表現(xiàn)相較無文本有了明顯提升,在外部驗(yàn)證集上的AUC(0.93)超過了其他所有模型,但在內(nèi)部驗(yàn)證集上的表現(xiàn)僅與最佳的機(jī)器學(xué)習(xí)模型相當(dāng)(AUC=0.94)。

表1 各模型在驗(yàn)證集上的表現(xiàn)

4 討論

實(shí)驗(yàn)結(jié)果表明,在只采用結(jié)構(gòu)化數(shù)據(jù)的情況下,傳統(tǒng)機(jī)器學(xué)習(xí)算法依舊是當(dāng)下最優(yōu)的選擇。深度學(xué)習(xí)算法在結(jié)構(gòu)化數(shù)據(jù)上的表現(xiàn)要略差于傳統(tǒng)機(jī)器學(xué)習(xí)模型。可能是由于表格數(shù)據(jù)的內(nèi)容已經(jīng)是經(jīng)過人為篩選得出的,等同于已經(jīng)經(jīng)過了一次特征工程,所以不像圖像和文本數(shù)據(jù)那樣擁有豐富的特征供模型學(xué)習(xí),而且實(shí)驗(yàn)特征數(shù)量較少,使得深度學(xué)習(xí)無法發(fā)揮其在高維復(fù)雜數(shù)據(jù)上的強(qiáng)大學(xué)習(xí)能力。

加入文本后,EDPM 的AUC 有了明顯的提升。可見EDPM 是能夠從文本數(shù)據(jù)中學(xué)習(xí)到與糖尿病相關(guān)的信息的。飲酒、體力活動(dòng)少、紅肉攝入量高等作為糖尿病的重要風(fēng)險(xiǎn)因素[18],由于種類復(fù)雜,難以形成較為簡單統(tǒng)一的記錄方式。自由文本可攜帶的信息更豐富,對(duì)于醫(yī)護(hù)人員臨床工作的開展也更友好,是當(dāng)下對(duì)此類信息最好的記錄方式。EDPM 可以在不改變臨床醫(yī)護(hù)人員工作習(xí)慣的條件下,提高對(duì)糖尿病患者預(yù)測的準(zhǔn)確性。EDPM 還具有傳統(tǒng)機(jī)器學(xué)習(xí)所不具備的拓展能力,只要在模型輸入端加上特征提取模塊,就可以實(shí)現(xiàn)不同類型數(shù)據(jù)的多模態(tài)融合。此外,臨床上還有許多文本類型的數(shù)據(jù),如主訴、檢查報(bào)告等。這些都有望成為輔助決策的參考因素,進(jìn)一步提高預(yù)測的準(zhǔn)確性。

當(dāng)然,我們的研究也有一定的局限性。由于進(jìn)行葡萄糖耐量試驗(yàn)的人群大部分是糖尿病高風(fēng)險(xiǎn)人群,導(dǎo)致我們的數(shù)據(jù)中糖尿病患者比例要遠(yuǎn)高于正常人群,分布情況和實(shí)際篩查情況相差較大,可能對(duì)模型的表現(xiàn)造成一定的影響。盡管深度學(xué)習(xí)模型可以產(chǎn)生準(zhǔn)確的預(yù)測,但其可解釋性差,常被視為黑盒模型。臨床醫(yī)生通常會(huì)因?yàn)橥评磉^程不明確而不愿意接受機(jī)器建議[19]。這是未來深度學(xué)習(xí)需要改善的一個(gè)痛點(diǎn)。

猜你喜歡
文本糖尿病模型
一半模型
糖尿病知識(shí)問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識(shí)問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識(shí)問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識(shí)問答
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
主站蜘蛛池模板: 真人免费一级毛片一区二区| 国产靠逼视频| 伊人蕉久影院| 国产微拍一区二区三区四区| 久久毛片免费基地| 精品视频在线观看你懂的一区| 亚洲天堂网2014| 伊人五月丁香综合AⅤ| 四虎精品国产AV二区| 毛片手机在线看| 园内精品自拍视频在线播放| 国产经典三级在线| 狠狠色香婷婷久久亚洲精品| 欧美成a人片在线观看| 99人体免费视频| 免费aa毛片| 91久久精品国产| 日韩毛片视频| 久久人与动人物A级毛片| 亚洲高清中文字幕| 亚洲国产综合自在线另类| 噜噜噜综合亚洲| 中文字幕波多野不卡一区| 91区国产福利在线观看午夜 | 国产毛片高清一级国语| 91久久国产成人免费观看| 国产尤物jk自慰制服喷水| 国产91小视频在线观看| 欧美一级爱操视频| 久久国产精品影院| 色综合久久88| 曰AV在线无码| 日韩欧美高清视频| 好久久免费视频高清| 91国内外精品自在线播放| 国产啪在线91| 91久久大香线蕉| 亚洲日韩精品伊甸| 欧美激情视频在线观看一区| 色偷偷男人的天堂亚洲av| 亚洲中文字幕日产无码2021| 亚洲成a人片7777| 在线观看无码a∨| 99精品热视频这里只有精品7| 日韩无码视频播放| 在线毛片网站| 亚洲综合色吧| 伊人久久久久久久| 久草网视频在线| 久草中文网| 黄色一级视频欧美| 亚洲欧洲日韩综合色天使| 最新无码专区超级碰碰碰| 午夜欧美理论2019理论| 国产视频 第一页| 国产成人精品男人的天堂下载| www.91在线播放| 91视频区| 福利国产在线| 99视频国产精品| 日韩毛片免费| 日韩精品毛片| 国产成人综合亚洲欧美在| 中日韩一区二区三区中文免费视频 | 高清国产va日韩亚洲免费午夜电影| 国产免费人成视频网| 午夜国产在线观看| 亚洲色大成网站www国产| 欧美在线精品怡红院| 毛片免费在线| jizz亚洲高清在线观看| 日韩黄色在线| 91九色国产porny| 99青青青精品视频在线| 亚洲日本中文字幕天堂网| 在线观看视频99| 亚洲人成色77777在线观看| 日本午夜视频在线观看| 2018日日摸夜夜添狠狠躁| 在线欧美a| 亚洲第一综合天堂另类专| 亚洲第一区在线|