999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫學知識圖譜自動構建研究

2022-03-11 12:39:28戴國琳劉新遙萬艷麗
醫學信息 2022年4期
關鍵詞:語義用戶方法

馬 浩,戴國琳,劉新遙,萬艷麗

(中國醫學科學院醫學信息研究所,北京 100020)

隨著我國醫療技術的發展和醫療領域信息化水平的提升,生物醫學文獻、電子病歷等大量的數據迅速產生,這給醫學的發展提供了重要的資源。如何合理、有效地利用海量醫學數據成為了一項重要的研究課題。知識圖譜最早是谷歌的一個知識庫,它使用語義檢索來提高谷歌搜索的質量[1]。知識圖譜的基本組成是“實體-關系-實體”三元組和“實體-屬性-屬性值”對,其具有強大的語義處理能力,能夠對醫學知識進行合理的表示及利用,為醫學的發展提供有力支持。醫學知識圖譜也是知識圖譜應用的重要領域之一,目前醫學領域經典的醫學知識圖譜有北京大學、鄭州大學和鵬城實驗室構建的中文醫學知識圖譜[2]、上海曙光醫院構建的中醫藥知識圖譜[3]、中國中醫科學院構建的中醫臨床知識圖譜[4]、中醫養生知識圖譜[5]等。本文主要對醫學知識圖譜的自動構建情況進行總結,以期為醫學知識圖譜的構建及應用提供借鑒。

1 醫學知識圖譜構建

構建醫學知識圖譜首先需要從非結構化、半結構化的數據源中,通過知識抽取和知識融合技術得到結構化的知識并將其存儲于數據庫中,形成的醫學知識圖譜可以支持構建醫療語義搜索引擎、醫療問答系統和醫療決策支持系統,具體構建流程見圖1。

圖1 醫學知識圖譜構建流程

1.1 命名實體識別 命名實體識別的概念在1996 年的MUC-6 會議上被提出,當時用來識別文本中的人名、機構名和地理位置[6]。在醫學領域中,命名實體主要包括疾病名、藥物名等。命名實體識別早期一般采用基于規則和詞典的方法,此種方法可以取得較高的準確率,但召回率較低,規則構建的難度較大,遷移性較差。機器學習的方法一般把命名實體識別看作是序列標注任務,常用的模型有支持向量機(support vector machine,SVM)[7]、條件隨機場(conditional random field,CRF)[8]等。機器學習的方法需要手工構建特征,構建過程費時費力,且這些特征往往不能擴展到其他任務。

深度學習的方法可以自動提取有效特征,不需要人工干預,很好的節省人力。目前在命名實體識別任務中最經典的深度學習方法是BiLSTM-CRF模型[9]。該模型的輸入為經過預訓練得到的詞向量,通過前向和后向的LSTM 層提取特征,最后經過CRF 層得到標簽序列。但是該模型也有一些缺陷,比如BiLSTM-CRF 模型不能利用全局的上下文信息。對此,曾青霞等[10]在模型中加入注意力機制,在CCKS2018 和CoNLL 數據集中進行了實驗,發現加入了注意力機制后模型的準確率有所提高。此外,深度學習的方法需要大規模的標注數據,在數據規模較小的情況下表現不佳。陳美杉等[11]提出了一種KNN-BERT-BiLSTM-CRF 模型,通過遷移學習的方法對肝癌患者提問的文本進行命名實體識別,發現該方法取得了較高的F1 值,并且只需要少量的標注語料。

1.2 關系抽取 實體關系抽取任務在1998 年的MUC-7[12]會議上第1 次被提出,該會議給出了3 種關系模板:Location_of、Employee_of 和Product_of。在醫學領域的關系主要有疾病導致癥狀、檢查證實疾病等。關系抽取的方法早期有基于共現和基于規則的方法。基于共現的方法比較簡單,召回率高,但精確度較低。基于規則的方法準確率較高,但召回率較低,可移植性差。基于機器學習的方法可以分為有監督、半監督和無監督的方法。有監督的方法具有較高的準確率,但是依賴于有標注的語料庫,半監督和無監督的方法可以減少對人工標注數據的依賴。

基于深度學習的方法也可以進行醫學實體間的關系抽取。張志昌等[13]使用雙向的GRU 聯合注意力機制進行中文電子病歷中的關系抽取。丁龍[14]提出一種基于注意力機制的BiGRU-CNN 模型進行電子病歷中的關系抽取,與其他模型相比,該方法取得了最高的F1 值。李青青等[15]提出了一種基于Attention機制的主輔多任務模型抽取生物醫學實體間的關系,該方法能夠利用多個任務之間的相關信息,提升生物醫學關系抽取的效果。

以上方法都是流水線的方法,即先抽取實體再抽取實體之間的關系,這種方法會存在錯誤傳播的問題,并且無法充分利用兩個任務之間的相關信息。牧楊子[16]使用BiLSTM 模型進行中文電子病歷的實體關系聯合抽取,較好的完成了實體關系聯合抽取任務。羅凌[17]提出一種新的標注策略來提取生物醫學文本中的重疊關系,使用Att-BiLSTM-CRF 模型對實體關系進行聯合抽取,取得了優于流水線方法的結果。周侗[18]使用圖卷積網絡聯合實體識別任務和關系抽取任務,進行中文電子病歷的實體關系聯合抽取,取得了很好的效果。

1.3 實體對齊 在醫學知識圖譜的構建過程中,醫學實體“多詞一義”的情況十分普遍,比如“帕金森癥”還可表述為“帕金森障礙”“帕金森綜合征”“PD”等。通過實體對齊工作可以對這些冗余的知識整合加工,提高知識的質量。實體對齊也可稱為共指消解,其目標是發現多個知識庫中指代現實世界中同一事物的實體,并將它們進行鏈接,從而可以進行多源知識的融合[19]。實體對齊可以通過基于屬性相似度的成對實體對齊和考慮了實體間關系的集體實體對齊來實現。成對實體對齊常用方法有基于傳統概率模型的方法和基于機器學習的方法等。集體實體對齊常用的方法有基于向量空間模型的方法、基于條件隨機場模型的方法、基于相似性傳播的方法等。

目前,基于知識表示學習的實體對齊方法是研究的熱點。這種方法可以充分利用知識圖譜中潛在的語義關系,有助于提高實體對齊的效果,具體的有基于翻譯模型[20]的方法和基于圖卷積神經網絡[21]的方法。在醫學領域,孫倩南[22]使用TransE 算法對實體和關系進行嵌入,對不同數據源的呼吸科室醫療數據進行了實體對齊工作。滕飛等[23]在表示學習的基礎上,根據醫學知識的特點,加入詞根集和規則用于醫學實體對齊任務,提高了實體對齊的準確性。程瑞[24]通過圖卷積網絡對醫療知識圖譜中的關系信息和結構信息進行建模,使用TransE 對屬性信息進行建模,最終將兩者融合進行實體對齊,在DBP15K數據集上取得了較好的效果。

2 醫學知識圖譜應用

醫學知識圖譜能夠對醫學知識進行結構化表示并在此基礎上進行查詢與推理,目前主要應用于醫療語義搜索引擎、醫療問答系統、醫療決策支持系統等。

2.1 醫療語義搜索引擎 基于醫學知識圖譜的醫療語義搜索引擎可以準確地理解用戶的搜索意圖,提高用戶的搜索體驗,幫助用戶快速找到自己感興趣的內容。當用戶進行查詢時,語義搜索引擎可以將用戶查詢的關鍵詞映射到醫學知識圖譜中的概念之上,根據醫學知識圖譜中的概念層次結構進行推理,通過知識卡片的形式向用戶返回相關的知識。目前谷歌、百度等搜索引擎都已經將知識圖譜嵌入了搜索引擎。谷歌可以提供約400 種健康狀況的信息,當用戶搜索疾病信息時,它可以通過信息卡片的形式展示疾病的特征。百度構建的知識圖譜“知心”,可以用于支持用戶對于醫療信息的搜索。受限于醫學知識圖譜的規模和質量,目前基于知識圖譜的醫療語義搜索引擎的應用范圍和效果仍有待進一步提高。

2.2 醫療問答系統 醫療問答系統是搜索系統的一種高級形式,可以通過自然語言來準確地回答用戶的問題。對于用戶提出的問題,基于知識圖譜的醫療問答系統首先通過命名實體識別、關系抽取等自然語言處理技術對用戶的問句進行語義解析,理解用戶的問題,然后生成知識圖譜的查詢語句在知識圖譜中進行查詢,最后向用戶返回答案。目前醫療問答系統的產品如北京慧醫明智科技有限公司的“慧醫大白”還有國外的“沃森醫生”都可以提供基于醫學知識圖譜的醫療問答。也有不少研究者對醫療問答系統的構建進行了探索,如康莉[25]基于構建的心血管病知識圖譜,采用深度學習的方法進行語義解析,最終實現了心血管疾病知識的問答系統。曹明宇等[26]構建了原發性肝癌的知識圖譜,并基于此構建了原發性肝癌知識問答系統,可以對肝細胞癌相關問題進行回答。但是目前仍沒有較為成熟的醫療問答系統出現,知識圖譜的完整性、系統理解用戶問題的準確性、推理的準確性及系統能回答問題的復雜性等方面都有待提高。

2.3 醫療決策支持系統 基于醫療知識圖譜,可以構建醫療決策支持系統進行自動診斷,根據癥狀和化驗結果給出診斷和治療方案,幫助醫生減少誤診的發生,提高醫療工作的質量。基于醫學知識圖譜的醫療決策支持系統主要通過推理引擎來完成決策支持過程。當用戶輸入癥狀和檢查結果,推理引擎根據知識圖譜和用戶的輸入給出診斷結果或接下來的治療方案。目前百度的“靈醫”、阿里巴巴的“Doctor You”、騰訊的“覓影”,都可以為醫生提供臨床決策支持服務。國外的“沃森醫生”可以提供針對腫瘤疾病的決策支持,目前已經在部分醫院得到應用。Gong F 等[27]利用知識圖譜實現了對患者的用藥推薦并取得了良好的效果。鄭少宇等[28]基于醫學教材、診療指南等知識源構建了常見病的知識圖譜,基于此開發了對于常見病的診斷輔助系統,可以在主要臨床環節有效地進行決策輔助。目前醫療決策支持系統一般只能對醫療決策提供輔助,其提供決策的準確性還有待加強。

3 總結

知識圖譜已成為當前研究的熱點,但由于醫療大數據具有專業性強,結構復雜等特點,醫學知識圖譜的自動構建和應用依然面臨很大的挑戰。在醫學知識抽取環節,抽取算法的準確率普遍不高,限制條件較多,可擴展性不強。醫學實體對齊算法的計算復雜度較高,實體對齊方法缺乏訓練數據,多語言的實體對齊也較為困難。在醫學知識應用方面,由于現有醫學知識推理能力的限制,醫療決策支持系統的準確性暫時還不能滿足臨床輔助決策要求。

總之,醫學知識圖譜能夠促進醫學數據的有效利用,進而促進醫學的發展。我國醫療信息化水平的發展及海量醫學數據的產生為醫學知識圖譜的發展提供了契機。相信在不久的將來,隨著醫學知識圖譜構建的發展,其將在醫療領域發揮更大的作用。

猜你喜歡
語義用戶方法
語言與語義
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 中文字幕av一区二区三区欲色| 日韩av在线直播| 亚洲精品国产综合99| 狠狠色综合久久狠狠色综合| 久久精品亚洲中文字幕乱码| 72种姿势欧美久久久大黄蕉| 国产精品天干天干在线观看| 亚洲大学生视频在线播放| 国产精品一区二区不卡的视频| 午夜影院a级片| 国产最新无码专区在线| 中国黄色一级视频| 在线观看亚洲人成网站| 日韩毛片在线播放| 欧美yw精品日本国产精品| 一区二区三区精品视频在线观看| 国产大全韩国亚洲一区二区三区| 伊人激情久久综合中文字幕| 性做久久久久久久免费看| 国产黄视频网站| 国产成人av一区二区三区| 国产午夜福利在线小视频| 国产精品一线天| 亚洲侵犯无码网址在线观看| 朝桐光一区二区| 欧美视频在线观看第一页| 青青草原国产| 亚洲午夜国产片在线观看| 亚洲日本中文字幕天堂网| 无码精品福利一区二区三区| 日本一区二区不卡视频| 国产精品尤物铁牛tv| 日本人妻丰满熟妇区| 国产99久久亚洲综合精品西瓜tv| 日本久久网站| 99爱在线| 成人亚洲天堂| 午夜福利亚洲精品| 免费看的一级毛片| 五月婷婷亚洲综合| 精品久久综合1区2区3区激情| a在线观看免费| 亚洲天堂视频在线观看免费| 精品久久久无码专区中文字幕| 中文字幕在线不卡视频| 欧美日韩另类在线| 免费一看一级毛片| 四虎永久免费地址| WWW丫丫国产成人精品| 99精品国产电影| 久久夜夜视频| a亚洲天堂| 91精品国产一区自在线拍| 日韩欧美国产综合| 亚洲精品中文字幕午夜| 午夜福利免费视频| 亚洲日韩国产精品综合在线观看| 国产精品专区第1页| 亚洲欧美不卡中文字幕| 国产青青草视频| 特级精品毛片免费观看| 亚洲AV电影不卡在线观看| 亚洲av无码成人专区| 试看120秒男女啪啪免费| 992tv国产人成在线观看| 六月婷婷精品视频在线观看| 国产xx在线观看| 又黄又湿又爽的视频| 免费国产高清视频| 91九色最新地址| 精品亚洲国产成人AV| 国产美女91视频| 99热这里只有免费国产精品 | 毛片最新网址| 亚洲精品自在线拍| 亚洲自拍另类| 欧美在线一级片| 2022国产91精品久久久久久| 日韩国产高清无码| 亚洲视频在线观看免费视频| 欧美午夜在线视频| 亚洲无码在线午夜电影|