999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能提取胃癌分期相關信息研究

2021-01-26 07:03:52黃文鵬李莉明程銘李愛云梁盼雍劉亮高劍波
中國醫療設備 2021年1期

黃文鵬,李莉明,程銘,李愛云,梁盼,雍劉亮,高劍波

鄭州大學第一附屬醫院 a. 放射科;b. 信息處,河南 鄭州 450052

引言

胃癌是全世界發病率第五的癌癥,其死亡率在癌癥相關死亡率中位列第三[1]。每年約70%的新發胃癌病歷發生在亞洲,中國約占46.8%[2]。約30%的患者術前或術中發生轉移,其中腹膜是主要的轉移部位之一,與多種因素相關[3-4]。影像學檢查對腹膜轉移的檢出有限[5],術中所見是確定腹膜轉移的金標準[6]。手術記錄是術者對術中所見的直接描述,真實又直觀,是評估胃癌分期,尤其是M分期的重要參考,對科研、臨床治療和預后有重要的意義。目前手術記錄的文本主要采用非結構化的自然語言記錄,不利于臨床分析或科研數據搜集。如果可以智能地從非結構化的手術記錄文本中提取有用信息,對科研和臨床將有很大助益。因此,越來越多的研究者開始關注自然語言處理技術在醫療信息研究中的應用[7]。

自然語言處理在英文電子病歷中得到廣泛應用[8],但并不能將其直接應用到中文醫學文本中,這主要是中英之間表達方式不同[9]。從非結構化的中文文本中智能提取有用信息是一項非常困難的任務。Liang等[10]首次提出條件隨機場(Conditional Random Field Layer,CRF)和支持向量機的混合模型,在中文入院記錄中提取中西藥相關的信息。最近,Chen等[11]采用基于規則的方法從電子病歷中抽取肝細胞癌分期的相關信息,獲得肝癌的CLIP評分,并取得較高的精確度(Precision,P)、召回率(Recall,R)和F值。但是,從手術記錄中智能提取胃癌相關信息的研究尚十分少見,本研究的目的是采用自然語言處理技術從非結構化手術記錄中智能提取胃癌分期的相關信息,并評估其效能。

1 材料與方法

1.1 患者與標注

從電子病歷系統(Electronic Medical Records,EMRs)中搜集2016年1月至2018年1月胃腸外科診斷為胃癌并行手術的病例共632人,分析他們的手術記錄,確定與胃癌TNM分期相關的共7個關鍵問題,分別是:① 手術名稱;② 腫瘤位置;③ 腫瘤大小;④ 腫瘤是否侵及漿膜層;⑤ 是否可見腫大淋巴結,有則記錄位置;⑥ 是否可見腹水,有則記錄腹水量;⑦ 是否有轉移結節,有則記錄位置。根據這7個關鍵問題,由臨床醫生和信息學博士共同決定關鍵醫學實體及屬性。并在此基礎上,提取一種新的醫學實體屬性抽取方法。另外,采用項目組自己研發的醫學文本標注軟件對手術記錄進行標注(軟件著作權登記號2019SR0653695)。

由兩名醫生(分別具有5年及3年臨床工作經驗)使用標注軟件手動標注632份手術記錄中實體和屬性,當兩名醫生標注不一致時,由第三位醫生(具有10年以上臨床工作經驗)決定,標注結果作為金標準。將632份手術記錄按照3:1的比例隨機分為訓練組和驗證組,訓練組用來訓練模型,驗證組用來檢驗模型效能(圖1)。為減少隨機分類所帶來的偏差,對隨機選擇的過程重復執行10次,模型性能為10組實驗結果的平均值。

圖1 研究流程圖

1.2 提取策略

根據手術記錄所關注的7個問題,確定與之相關的醫學實體。例如,腫瘤位置是我們關注的問題,手術記錄中描述“幽門可及質硬腫塊”,那么“腫塊”就是病變實體,“幽門”就是位置實體。從實體周圍篩選屬性,將非結構化文本轉換成結構化文本,從而提取有用信息。結構化之后的文本包括三部分:實體類型、實體名稱、實體屬性。所以,我們的提取信息的步驟是先識別實體,再提取其屬性。

第一步,醫學實體識別。我們采用混合雙向長短時相記憶網絡(Bidirectional Long Short-Term Memory,BiLSTM)和CRF模型,識別句子中的醫學實體。長短時記憶網絡[12]是一種特殊的循環網絡模型,克服了傳統循環網絡模型由于序列過長而產生梯度彌散問題。長短時記憶網絡模型通過特殊設計的門結構使得模型可以有選擇的保存上下文信息,具體公式如公式(1)所示。

其中,λ是激活函數,⊙ 是點乘運算,tanh表示雙曲正切激活函數,it,ft,ot分別表示在時刻t的輸入門,忘記門,輸出門,Ct表示t時刻的轉態,ht表示t時刻的輸出。

此外,BiLSTM相關參數如表1所示。其中,L指字向量的維度,LBilstm指輸入序列的最大長度,λ是優化函數的學習率。

表1 BiLSTM相關參數

CRF是一種較新的無向圖模型,由Laff etry等[13]在最大熵和隱馬爾可夫兩個模型的基礎上發展出的一個判別式概率模型,對于有序數據的標注與切分非常適用。醫學實體主要分以下四類:

(1)手術名稱,指所行手術的名字。例如:“胃大部切除術”“腹腔鏡探查術”“剖腹探查術”等,后兩者手術名稱對腹膜轉移起到提示作用。

(2)病變,指細胞、組織和器官等發生的病理變化。例如“腫塊”“淋巴結”“結節”等。其中“結節”是判斷腹膜轉移灶的主要實體。

(3)部位,指人體的解剖位置,文中主要指腫瘤和淋巴結解剖部位。腫瘤的位置,例如“賁門”“胃底”“胃體”“全胃”等;淋巴結的位置,例如“腹主動脈旁”“胃小彎側”“胃大彎側”“腸系膜根部”等;結節的位置,例如“盆腔”“大網膜”等。

(4)征象,記錄中組織或器官的表現。例如,“侵及漿膜”“漿膜皺縮”“漿膜可見瘤體突出”“漿膜面結節樣改變”“積液”“液體”“腹水”等。“腹水”與“積液”提示可能存在腹膜轉移。

標注采用BIO方案,B代表當前詞是一個組塊的開始,I代表當前詞在一個組塊中,O代表當前詞不在任意組塊中。使用BIO標簽方案的樣例如下所示:“…決定行胃大部切除術…”BIO:…決/O,定/O,行/O,胃/B,大/I,部/I,切 /I,除/I,術/I…。

接著,屬性提取。采用規則的方法提取實體的屬性。因為手術記錄來自同一醫院的同一個大科室,雖然每位醫生的手術記錄有自己獨特的語言,但是他們整體的描述還是相似的,實體和屬性以及他們在字段中的位置相對固定,所以我們采用規則的方法來提取屬性[14]。與實體相關的屬性主要分為兩類,數字和否定。通常情況下,一小段文本包含一個實體,與之相關的屬性均在實體鄰近的位置,因此,我們設計實體前后句子的采集窗口,窗口大小為8個字符,在此基礎上,采用規則方法抽取實體屬性。屬性主要分以下兩類:

第一類,數字提取。數字主要描述腫瘤的大小和腹水的量,我們設計提取規則:“d+(.d+)[units]”,“d+(.d+|)[units]*d+(.d+|)[units]”。例如,“腫瘤大小約4 cm×5 cm”,“結節大小約2 cm”,“腹水量約150 mL”。

第二類,否定詞提取。否定可以幫助臨床排除一些鑒別診斷。在胃癌手術記錄中,否定的描述可以有助于胃癌分期的判斷。例如,“腹膜未見明顯轉移結節”,則提示胃癌分期M0,與Mitchell等[15]開發的否定識別方法類似。

文本被標注后,將提取的臨床實體和屬性根據固定的模式放入模式中,即按照類別、關鍵詞、屬性的順序排列(<type,key, attributes>)生成結構化的文本。

1.3 評估方法和統計方法

對文本進行標注后生成文本標注的金標準,標注結果為:標注實體對應的位置編號,文本第一個字符的位置為0,例如:“腹腔內無腹水”與“腹水”實體的位置信息是4:5。判斷模型是否能夠準確識別實體,主要通過比較模型識別的實體位置和醫生標注的實體位置是否一致。如果二者完全相同,則識別結果為精確匹配。如果模型標注的位置區間包含實體的區間,那我們認為也是正確的即松弛匹配。松弛匹配不存在語義判斷,只關注實體區間位置。

本文采用Python3.6(https://www.python.org)和Scikitlearn0.20(https://scikit-learn.org/stable)庫建立機器學習模型。采用了機器學習模型常用的評估指標來評估模型的性能,即精確度(Precision,P)、召回率(Recall,R)和F值。精確率,又稱查準率,正確預測為正的占全部預測為正的比例,即真正正確的占所有預測為正的比例。在本文中,指模型識別并證實正確的實體數目與預測為實體的總數目之比。召回率,又稱查全率,正確預測為正的占全部實際為正的比例,即真正正確的占所有實際為正的比例。本文中指模型識別并證實正確識別的實體數目與醫生標注的實體總數目之比。F值是P和R的調和平均值,由兩者計算得出,同時受兩者的影響[F=2PR/(P+R)]。

我們將評估整體實體和屬性在精確和松弛匹配下的P、R和F值,評估各個類型的醫學實體和屬性在精確和松弛匹配下的P、R和F值。

2 結果

模型分析了632份手術記錄,21319個實體,2145個與數字相關的屬性,2250個與否定相關的屬性。474份作為訓練組,158份作為驗證組。每個關鍵問題至少有20個樣本作為訓練,20份作為驗證。醫生標注的醫學實體最終結果,見圖2。

圖2 醫生標注醫學實體的結果示例

模型主要步驟包括兩個方面,實體識別和屬性提取,具體結果如表2所示。結果顯示了在精確和松弛匹配下醫學實體及其屬性的P、R和F值。此外,松弛匹配的F值在三種實體類別以及屬性的識別中,大于精確匹配下的F值。BiLSTM-CRF對實體的識別在精確和松弛匹配下的F值均較單純CRF模型要高(表3)。醫學實體識別的過程將直接影響屬性提取的結果,所以我們首先評估醫學實體識別的性能,然后評估屬性的性能。

表2 醫學實體和屬性的識別結果

表3 BiLSTM-CRF與CRF的比較

驗證組手術記錄共158份,由結構化文本可知,31例(19.62%)出現漿膜受侵,59例(37.34%)出現腫大淋巴結,7例(4.43%)出現腹膜轉移(圖3)。

圖3 與胃癌分期相關的問題在驗證組中的結果

3 討論

研究發現,本文提出的方法可以有效的識別醫學實體并抽取其相關屬性,使非結構化的文本轉化為結構化的文本,更方便統計胃癌相關數據,得到關鍵問題的答案。

近幾年,信息學與醫學的結合在科研與臨床領域越來越廣泛,放射組學就是典型的代表,臨床研究已經涉及消化、泌尿、呼吸等多個系統[16-18]。本研究也是結合了醫學與信息學,同放射組學一樣,醫生需要提出待解決的問題,并對影像和文本進行標注,通過計算機模型進行處理,最終得到醫生想要的數據,為臨床的科學研究以及患者個體化診療帶來幫助。研究中提出了一種混合BiLSTM+CRF與規則的方法提取醫學實體和屬性,是基于深度學習的方法與基于統計模型的方法的結合。BiLSTM是一種基于深度學習的方法,CRF是基于統計模型的方法。目前在國內電子病歷中最常使用的是CRF模型。CRF模型依賴于特征的質量,特征質量的高低直接影響了模型的性能。與CRF不同,BiLSTM是一種無監督的學習,模型自主抽取特征,具有自動學習特征的能力,可與CRF模型互為補充,提高性能。有研究也采用人工設計規則的方法抽取實體,由相關領域的專家來手工構造相應的規則模板或專業詞典,再利用字符串匹配等算法對相關實體進行識別[11],這種方法最大的缺點是對數據依賴性過強、可移植性差,而且手工編寫規則模板需要許多時間。而本研究中的方法可以更好的移植應用到不同的數據集,具有很好的擴展性。結果顯示,BiLSTM+CRF神經網絡在連續文本所建的模型中取得了良好的效果。本文使用的神經網絡模型識別醫學實體,這為中文醫學信息抽取提供了新的思路。

研究中僅僅分析了胃癌的手術記錄,這是因為手術記錄中對的腹腔情況的描述,是臨床胃癌M分期的金標準[11],與治療方案和預后關系密切[19-20],對臨床和科研意義重大。本文中與腹膜轉移相關的內容在第二、三、四類臨床實體中體現。本院手術記錄中的常常這樣描述腹膜轉移,例如,“盆腔可見乳白色結節”“大網膜見多發粟粒樣結節”等。其中,“結節”屬于第二類實體,結果顯示,第二類實體在松弛情況下的P值是0.89,R值是0.92,F值是0.90,這說明本研究對腹膜轉移灶的檢出效能比較好。“盆腔”和“大網膜”屬于第三類實體,即部位。如果手術記錄中對轉移灶的部位描述比較詳細,那么結構化的文本結果將顯示腹膜轉移的所有部位。目前,我國抗癌協會胃癌專業委員會推薦采用日本胃癌學會的腹膜分期[21]。當文本顯示轉移結節位置中有“盆腔”的時候,則提示腹膜分期為P1c[22]。第四類實體是對征象的描述,手術記錄中常見到“盆腔可見積液”“可見腹水”“可見少量黃色液體”等描述,這些征象提示腹膜轉移的可能性大。

本文將非結構化的文本轉化為結構化文本之后,不僅可以顯示是否腹膜轉移,還可以顯示腹膜轉移的具體分布。同時,結果還可以顯示胃癌漿膜浸潤的情況,漿膜浸潤是腹膜轉移的高危因素。雖然病理是確定漿膜浸潤的金標準,但是術中所見漿膜的形態與病理有很大的相關性。淋巴結轉移也是腹膜轉移的高危因素,結果不僅可以顯示是否存在淋巴結轉移,還可以顯示轉移淋巴結的位置。例如,當轉移淋巴結的位置中有腹主動脈旁時,則提示胃癌分期M1,而不僅僅是N1[23]。經結構化處理過的手術記錄,除去了一些重復和繁瑣的手術步驟記錄,只專注于關鍵信息,節省了時間與人力,同時保證了正確性。目前在影像報告中首先受到國內學者關注[24]。

本文也有一定的局限性。文中采用同一醫院同一部門的手術記錄,其中醫學實體表達比較固定,這也是我們實體識別和屬性提取F值較高的原因之一。為了提高模型的穩定性,需要采用多中心的臨床數據進行模型訓練驗證。

綜上所述,本文提出了一種新的混合方法從手術記錄中提取胃癌分期相關信息,并取得了良好的效果。筆者認為將非結構化的文本轉化結構化文本將是一項十分有意義的工作,未來將有可能在不同系統疾病的入院記錄、病程記錄等一系列醫療文本中使用。

主站蜘蛛池模板: 少妇高潮惨叫久久久久久| 国产JIZzJIzz视频全部免费| 日本精品视频一区二区| 97视频免费在线观看| 99青青青精品视频在线| 丝袜亚洲综合| 99色亚洲国产精品11p| 国产精品成人一区二区| 美女一级毛片无遮挡内谢| 天堂亚洲网| 亚洲无码91视频| 亚洲精品日产精品乱码不卡| 再看日本中文字幕在线观看| 亚洲大尺度在线| 亚洲精品第五页| 一区二区在线视频免费观看| 老司机精品久久| 亚洲伊人天堂| 国产区福利小视频在线观看尤物| 亚洲欧美日韩高清综合678| 久99久热只有精品国产15| 日本黄色a视频| 国产极品美女在线观看| 青青青视频免费一区二区| 日本成人在线不卡视频| 国产成人精品无码一区二 | 久久亚洲综合伊人| 69综合网| 欧美精品在线看| 免费jizz在线播放| 国产一区二区影院| 色天天综合久久久久综合片| 一本久道久综合久久鬼色| 综合社区亚洲熟妇p| 伦伦影院精品一区| 国产区91| 99热这里都是国产精品| 日韩少妇激情一区二区| 国产成人精品优优av| 欧洲成人在线观看| 国产精品亚欧美一区二区三区 | 国产精品极品美女自在线网站| 91蝌蚪视频在线观看| 一本久道热中字伊人| 国产精品第一区| 国产午夜在线观看视频| 久久不卡国产精品无码| 四虎影视库国产精品一区| 国产成人无码综合亚洲日韩不卡| 久久青青草原亚洲av无码| 成年人午夜免费视频| 视频国产精品丝袜第一页| 亚洲欧美日韩综合二区三区| 亚洲乱码精品久久久久..| 亚洲国产精品日韩专区AV| 亚洲成a人片| 国产成人夜色91| 四虎永久在线精品国产免费| 国产精品9| 嫩草在线视频| 亚洲男人天堂久久| 亚洲日本韩在线观看| 久久9966精品国产免费| 一级毛片中文字幕| 粗大猛烈进出高潮视频无码| 亚洲精品动漫| 狼友av永久网站免费观看| 亚洲婷婷在线视频| 国产丰满成熟女性性满足视频| 免费 国产 无码久久久| 激情六月丁香婷婷| 九九九精品成人免费视频7| 香蕉视频国产精品人| 国产va免费精品观看| 97精品国产高清久久久久蜜芽| 57pao国产成视频免费播放 | 99热这里只有精品免费国产| 男女男免费视频网站国产| 亚洲成人播放| 亚洲福利视频一区二区| 亚洲国产日韩一区| 日本午夜网站|