999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電子病歷的胃癌治療方案輔助選擇

2018-03-21 00:26:48,,
中華醫(yī)學圖書情報雜志 2018年2期
關(guān)鍵詞:文本手術(shù)模型

,,

臨床決策支持系統(tǒng)的構(gòu)建離不開知識庫,而病歷的電子化為臨床知識庫的構(gòu)建帶來了便利,研究人員可以通過計算機程序處理大量病歷中的文本,以實現(xiàn)重要知識的挖掘。病歷是醫(yī)療業(yè)務(wù)活動的詳細記錄,其中隱含著價值巨大的知識。將從病歷中提取的信息用于臨床決策支持,是近年醫(yī)療大數(shù)據(jù)的研究熱點之一。

在臨床決策支持方面,國外已有較為成熟的研究。關(guān)于決策支持系統(tǒng)對臨床治療作用的研究,Porat, Talya等人[1]研究了全科醫(yī)生和患者對診斷決策支持系統(tǒng)和咨詢影響的看法;Arts,Derk L.等人[2]研究了決策支持系統(tǒng)在實踐中預(yù)防改善卒中的有效性;針對從病歷中提取知識的研究,Nilashi M等人[3]提出了一種基于知識的乳腺癌分類系統(tǒng);Kung,Robert等人[4]提出了一種從電子病歷中識別肝硬化患者身份的自然語言處理算法。在國內(nèi),醫(yī)護人員在撰寫病歷時存在用語不規(guī)范的現(xiàn)象,這就為從病歷中提取有用信息帶來了一定困難;加之國內(nèi)醫(yī)療信息化起步較晚,即使電子病歷系統(tǒng)已實現(xiàn)部分內(nèi)容結(jié)構(gòu)化,但獲取病歷中有用知識的難點仍然存在。基于此,國內(nèi)學者也開展了一些探索性的研究,在病歷文本的自然語言處理領(lǐng)域提出了不同的解決方案,推動著國內(nèi)醫(yī)療信息化的不斷前進。如栗偉[5]研究了電子病歷文本挖掘關(guān)鍵算法,徐益輝[6]研究了中文醫(yī)療文本匿名化方法,李國壘等人[7]針對病歷信息通過潛在語義分析構(gòu)建了決策模型,林楓[8]研究了云計算技術(shù)在醫(yī)療大數(shù)據(jù)挖掘平臺設(shè)計中的應(yīng)用。

本文擬在借鑒中文病歷文本處理研究成果的基礎(chǔ)上,針對胃癌通過病歷文本中的詞進行聚類,探索詞或詞組與治療方案之間潛在的關(guān)系,建立1種決策支持模型。即首先對病歷文本進行分詞,再根據(jù)切分詞與病歷中抽取的治療方案的共現(xiàn)頻次,對切分詞進行聚類,并統(tǒng)計每份病歷文本在各聚類中匹配到的詞數(shù);基于各類的匹配詞數(shù)與治療方案共現(xiàn)情況,探索性地采用Bayes判別思路建立起判別函數(shù)用以輔助決策。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)來源

本文選取了2500份中南大學附屬三甲醫(yī)院2010-2014年已被確診為胃癌的電子病歷(入院病情摘要、診治過程),將其隨機分為兩組:1 500份為訓練組,用于構(gòu)建決策支持模型;1 000份為測試組,用于評價決策支持模型。

1.2 病歷文本分詞

已有研究結(jié)果顯示,詞典結(jié)合統(tǒng)計的分詞方法是進行領(lǐng)域分詞的有效方法[9]。據(jù)此,本文采用如下分詞策略(圖1)。

年齡是影響治療方案選擇的重要因素,但作為連續(xù)指標切分后無意義。依據(jù)世界衛(wèi)生組織對年齡分段的劃分標準[10],本文將入院病情摘要中的患者年齡進行對應(yīng)轉(zhuǎn)換,得到原始文本(圖2)。

筆者于2015年4月在中國生物醫(yī)學文獻數(shù)據(jù)庫中以分類號=R735.2(即胃腫瘤)進行檢索,時間限定為2001-2003年,導出關(guān)鍵詞和主題詞,歸并作為詞典1,共包含5 429個詞語。

圖1 分詞策略

圖2 病歷原始文本示例

利用詞典1進行分詞并基于分詞結(jié)果(圖3),使用互信息值(MI)計算方法,計算分詞碎片中相鄰字詞的MI值。根據(jù)MI≥0,即兩個字詞具有正相關(guān)關(guān)系,篩選出11 845個詞語。將11 845個詞對與詞典1中的5 429個詞合并去重,構(gòu)成17 113個詞的新詞典—詞典2,并利用詞典2對原始文本再次進行分詞。

圖3 分詞結(jié)果

從分詞結(jié)果發(fā)現(xiàn),經(jīng)詞典2分詞后的結(jié)果能切分出更多術(shù)語,如“蠕動波”“靜脈曲張”“無反跳痛”等都被有效切分,但由于不同病歷中的檢測指標單位描述不同,因此在檢測指標上切分效果不好,如血壓值基本被切分成“高壓值”“/”“低壓值mmHg”3個詞。該實驗也說明,在帶數(shù)字的檢測指標上,本方法不能實現(xiàn)有效切分。此外,受詞典中詞語的限制,也有錯誤切分。如“退指指套無血染”應(yīng)被切分為“退指”“指套”“無血染”3個詞,而實驗切分則是“退指指”“套”“無血染”3個詞。

1.3 輔助決策模型構(gòu)建

本文建模方法選擇Bayes判別分析。Bayes判別的準則是使本應(yīng)屬于某一類的樣品,經(jīng)過規(guī)則的判別后在應(yīng)屬類中取得最大的值或后驗概率,從而使得該樣品被判別為所屬類的原則。

1.3.1 切分詞處理

分詞結(jié)果中包含許多不具有實際意義的碎片。在建模前對分詞碎片進行處理,具體步驟如下:刪除超高頻詞部分的數(shù)字、標點及特殊符號;刪除不具備實際含義的單字詞,如“鳴”“查”等;低頻詞使用少且占據(jù)了分詞結(jié)果一半以上,結(jié)合分詞結(jié)果,刪除了詞頻小于11的詞。

切分詞經(jīng)處理后,共保留1 207個詞。其中大多為兩字詞,也有3字及3字以上的詞。

1.3.2 抽取治療方案

病歷中的診治過程詳細記錄了患者住院期間的診療經(jīng)過,包含患者的臨床癥狀的描述、檢查檢驗結(jié)果及治療過程。參考《2013胃癌規(guī)范化治療指南》[11],本文將治療方案確定為手術(shù)治療、手術(shù)治療+放化療、放化療及對癥治療4種。根據(jù)出院記錄,確定如下治療方案抽取判定原則[12]。

若文本中出現(xiàn)“手術(shù)”相關(guān)字樣(全麻、根治術(shù)、切除、切除術(shù)等)且不出現(xiàn)“放療”“化療”字樣,判定該治療方案為手術(shù)治療;若既出現(xiàn)“手術(shù)”相關(guān)字樣,也出現(xiàn)“放療”“化療”相關(guān)字樣,判定該治療方案為手術(shù)治療+放化療;若僅出現(xiàn)“放療”“化療”相關(guān)字樣,不出現(xiàn)“手術(shù)”相關(guān)字樣,判定治療方案為放化療;若既不出現(xiàn)“手術(shù)”相關(guān)字樣,也不出現(xiàn)“放療”“化療”相關(guān)字樣,判定治療方案為對癥治療。

根據(jù)如上判定原則,從訓練組病歷中抽取治療方案,其中手術(shù)治療有794例,手術(shù)治療+放化療的有227例,放化療的有225例,對癥治療的有254例。隨機抽取100份進行人工比對,治療方案抽取準確率為97%。

1.3.3 構(gòu)建共現(xiàn)矩陣

統(tǒng)計訓練組所有病歷中1207個切分詞在與每種治療方案共現(xiàn)的頻次,生成切分詞與治療方案共現(xiàn)頻次表(表1)。

1.3.4 切分詞聚類

采用SPSS 19.0軟件,選擇類平均法,并采用平方歐式距離進行聚類。本文結(jié)合后續(xù)模型構(gòu)建的需要,分別選取3、4、5類建立模型。表2展示了聚類為4類時,各詞的所屬類別。

表1 切分詞與治療方案共現(xiàn)頻次統(tǒng)計(部分)

表2 聚類結(jié)果

1.3.5 建立Bayes判別模型

確定自變量。將判別指標按聚類結(jié)果別進行設(shè)定,即類1聚類結(jié)果為X1,類2、類3、類4分別設(shè)為X2、X3、X4。

確定因變量。以Y表示抽取的治療方案,將手術(shù)治療、手術(shù)治療+放化療、放化療、對癥治療4種治療方案對應(yīng)賦值1,2,3,4。

統(tǒng)計病歷中的匹配詞數(shù)。將1500份訓練組病歷文本與4個類中的切分詞進行匹配并統(tǒng)計。若某條病歷文本能與X1類中的10個詞匹配,則計數(shù)10次;文本中多次出現(xiàn)同一個詞,則只統(tǒng)記1次。表3展示了以聚類為4類為例,1500份訓練組病歷文本在4個類中切分詞匹配數(shù)及所屬治療方案分類。

表3 訓練組病歷文本中匹配詞數(shù)與治療方案共現(xiàn)

依據(jù)表3中的數(shù)據(jù),采用SPSS 19.0計算得出判別方程中的各項系數(shù),所得Bayes判別模型如下:

Y1=-7.868-0.062*X1-0.257*X2+0.394*X3+0.001*X4

Y2=-6.338-0.059*X1-0.312*X2+0.347*X3+0.001*X4

Y3=5.026+0.198*X1-0.347*X2+0.193*X3+0.013*X4

Y4=-6.050+0.251*X1-0.324*X2+0.213*X3+0.013*X4

同時,本文也分別得出了以聚類為3類和5類分別建立的判別模型。

Y1=-7.027-0.12*X1+0.383*X2+0.001*X3

Y2=-6.763-0.135*X1-0.333*X2+0.003*X3

Y3=-5.180+0.035*X1+0.162*X2+0.16*X3

Y4=-6.042+0.079*X1+0.18*X2+0.017*X3

Y1=-7.893-0.030*X1-0.556*X2+0.334*X3+0.132*X4-0.035*X5

Y2=-7.842-0.025*X1-0.634*X2+0.283*X3+0.143*X4-0.036*X5

Y3=-6.063+0.223*X1-0.581*X2+0.146*X3+0.115*X4-0.014*X5

Y4=-6.728+0.269*X1-0.497*X2+0.178*X3+0.089*X4-0.007*X5

2 結(jié)果與分析

2.1 分詞結(jié)果

本文采用了詞典分詞與統(tǒng)計分詞相結(jié)合的方法對病歷文本進行分詞,分詞結(jié)果主要通過分詞準確性及速度2個指標進行評價。本文主要關(guān)注分詞方法的準確性,未考慮分詞速度這一測評指標。因此,在評價過程中,采用召回率、準確率以及綜合指標F-1值對分詞效果測評[12]。

隨機抽取50條記錄,刪除標點等特殊字符。對抽取的記錄進行人工分詞,統(tǒng)計每份出院記錄切分好的詞語總數(shù)。利用本文中采用的分詞方法進行分詞,統(tǒng)計分詞結(jié)果,并計算切分出的總詞數(shù)和切分出的正確詞數(shù)(即人工分詞后的詞匯在機器分詞結(jié)果中出現(xiàn)的詞匯總數(shù)),計算每份記錄切分后的準確率、召回率和綜合指標F-1值,并以50條記錄計算的平均值作為測評結(jié)果。

經(jīng)驗證,將詞典結(jié)合統(tǒng)計分詞方法用于病歷文本分詞的召回率為74.24%,準確率為82.30%,F(xiàn)-1值為78.06%。

2.2 決策模型驗證結(jié)果

采用測試組的1000份病歷數(shù)據(jù)對建立的3個模型進行驗證,其中聚為3類時建立的決策模型判別準確率為48.4%,聚為4類時建立的決策模型判別準確率為51.3%,聚為5類時建立的決策模型判別準確率為60.2%。

結(jié)合病歷文本對所構(gòu)建的模型進行分析,發(fā)現(xiàn)只要病歷中出現(xiàn)“高齡患者”的病歷,構(gòu)建的判別模型手術(shù)治療一類的函數(shù)值均不是最高,這也與病歷中手術(shù)風險過高的描述吻合。若病歷中出現(xiàn)了“癌轉(zhuǎn)移”“廣泛轉(zhuǎn)移”“淋巴結(jié)轉(zhuǎn)移”等詞,判別模型對應(yīng)的放化療函數(shù)值大多為最高值,但這種情況僅限多數(shù)病歷。該判別模型所判別的治療方案為“放化療”與“對癥治療”兩種方案的判別值相近,這與原病歷中治療方案為“放化療”的患者同時也進行“補液”等對癥治療方案有關(guān),即“放化療”通常都與“對癥治療”同時出現(xiàn),故本文所建模型也與病歷中的情況相符。

此外,通過研究發(fā)現(xiàn)“高齡患者”“癌轉(zhuǎn)移”“廣泛轉(zhuǎn)移”等詞均屬于聚類結(jié)果中個性化用詞的一類,而這類詞對個性化治療方案的選擇是有影響的,且對于病歷中同時出現(xiàn)“放化療”和“對癥治療”兩種治療方案,判別模型也能反映出該特征,表明本文構(gòu)建的判別模型針對年齡及是否存在癌轉(zhuǎn)移兩種因素是有一定區(qū)分度的,且經(jīng)模型選擇的治療方案與病歷中治療方案的情況基本相符。

3 討論與結(jié)論

本文基于電子病歷中切分詞與治療方案的共現(xiàn)頻率,通過文本分詞、聚類分析及Bayes判別分析建立起了針對胃癌的輔助決策模型。在研究過程中,發(fā)現(xiàn)詞典結(jié)合統(tǒng)計的分詞方法用于電子病歷文本有較好效果,這也驗證了張梅山[9]提出的領(lǐng)域文本分詞方法。通過對切分詞的聚類,也發(fā)現(xiàn)部分詞或詞組與治療方案之間也存在一定關(guān)聯(lián),如高頻詞“患者”“正常”“未見”都被聚類為一類,說明無論治療方案如何,這3個詞通常會同時出現(xiàn);而“觸及、明顯”2個詞被聚為一類,發(fā)現(xiàn)多數(shù)病歷中均表述了“觸及明顯腫塊(腫物、包塊)”的表述,表明聚類分析用于挖掘病歷中的潛在知識是有價值的。

對于輔助決策模型的準確率不高(60.2%),后續(xù)研究可以在兩方面進行改進。首先是檢查數(shù)據(jù)的利用,切分詞后的檢查數(shù)據(jù)為純數(shù)字,已經(jīng)失去了意義,但它對于治療方案的選擇是有參考價值的;其次是切分詞的處理,對于切分詞碎片的取舍也值得進一步研究。綜上所述,電子病歷的決策支持價值得以體現(xiàn),所建模型對于胃癌治療方案的選擇有一定的參考價值,但模型是否適用于其他疾病還需進一步實驗,以期提高模型的判別精度,從而更好地實現(xiàn)輔助決策的效果。

猜你喜歡
文本手術(shù)模型
一半模型
重要模型『一線三等角』
手術(shù)之后
河北畫報(2020年10期)2020-11-26 07:20:50
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
顱腦損傷手術(shù)治療圍手術(shù)處理
中西醫(yī)干預(yù)治療腹膜透析置管手術(shù)圍手術(shù)期106例
主站蜘蛛池模板: 她的性爱视频| 欧美自慰一级看片免费| 亚洲精品制服丝袜二区| 色综合久久综合网| 亚洲欧美一区二区三区图片| 亚洲综合婷婷激情| 91精品伊人久久大香线蕉| 国产精品刺激对白在线| 女人18毛片一级毛片在线 | 亚洲男人天堂2020| 在线视频亚洲色图| a毛片在线播放| 国产在线精品网址你懂的| 久久精品丝袜| 在线色国产| 亚洲精品综合一二三区在线| 亚洲欧美综合另类图片小说区| 五月婷婷导航| 日韩欧美中文| 国产成人一区二区| 亚洲,国产,日韩,综合一区| 美女被操黄色视频网站| 国产高颜值露脸在线观看| 一级毛片免费的| 亚洲国产综合第一精品小说| 亚洲综合中文字幕国产精品欧美| 欧美中文字幕第一页线路一| 99re热精品视频国产免费| 爆乳熟妇一区二区三区| 国产精品网址你懂的| 色综合久久88| 97色婷婷成人综合在线观看| 久久青草精品一区二区三区| 久久综合丝袜日本网| 国产微拍一区二区三区四区| 国产乱人乱偷精品视频a人人澡| 99精品免费欧美成人小视频| 欧美日韩一区二区三区四区在线观看| 国产乱子伦一区二区=| 一级爱做片免费观看久久| 天天操天天噜| 中文字幕欧美日韩高清| 又爽又大又黄a级毛片在线视频| 97人妻精品专区久久久久| 国产欧美在线观看一区| 亚洲最黄视频| 热99精品视频| 亚洲午夜国产片在线观看| 尤物在线观看乱码| 99热这里只有精品免费| 国产在线观看91精品| 国产香蕉97碰碰视频VA碰碰看| 成人韩免费网站| 天天干天天色综合网| 日本一本在线视频| 国产综合精品日本亚洲777| 欧美日本视频在线观看| 久草热视频在线| 在线观看欧美国产| 97久久免费视频| 日本成人在线不卡视频| 国产福利免费在线观看| 欧美激情福利| 波多野结衣无码AV在线| 亚洲欧美自拍视频| 久久亚洲天堂| 伊人丁香五月天久久综合| 91麻豆精品国产高清在线| 在线日本国产成人免费的| 国产高清免费午夜在线视频| 久热精品免费| 永久免费av网站可以直接看的| 中文字幕色在线| 国产亚洲精品97在线观看| 国产在线欧美| 久久毛片网| 亚洲国产精品美女| 99在线视频精品| 青青草原国产| 国产高潮流白浆视频| 亚洲国产中文欧美在线人成大黄瓜| 国产在线一二三区|