知識圖譜是一種比較通用的語義知識的形式化描述框架,應用節點表示語義符號,用邊表示符號之間的語義關系[1]。醫學是知識圖譜應用最廣的垂直領域之一,可提供高效的檢索、查詢和支持知識推理,為患者教育、智能導診、藥物研發、藥物監測、輔助診斷、決策支持提供強大的數據支撐[2]。隨著區域衛生信息化和醫療信息系統的發展,如何在海量醫學數據中提煉信息、知識,并進行合理的組織、管理、共享和應用是推進醫學智能化的關鍵問題之一。
目前國內外已開展了一些醫學領域知識圖譜構建及其應用的研究,涉及醫學大領域的圖譜構建[3]、特定臨床科室知識圖譜構建[4-5]、單病種知識圖譜構建[6]等。構建知識圖譜應用的數據源包括電子病歷(Electronic Health Record,EHR)、臨床指南、專家共識、文獻、書籍以及醫學領域詞表,如醫學主題詞表(Medical Subject Heading、MeSH)等。通用領域的知識圖譜構建的主要環節通常包括知識體系構建、知識獲取、知識融合、知識存儲、知識推理和知識應用等[1]。由于醫學數據的結構復雜和專業性強等特點,現有知識圖譜構建技術在醫學領域中普遍存在效率低、限制多、拓展性差[7]等問題。本文以心力衰竭為例構建醫學領域的知識圖譜,探索利用現有詞表、本體、數據庫等資源構建專病知識圖譜的可行性,為單病種醫學知識圖譜構建提供參考和為臨床決策支持提供知識技術支撐。
本文以“心力衰竭”為核心,構建包含疾病、檢查、手術、藥物、科室、癥狀、解剖學7大類語義概念的知識圖譜。通過文獻調研與網絡調研,選取生物醫學領域的常用詞表、本體對上述的生物醫學大類進行組織,構建層級結構。本文的實驗數據存儲及知識圖譜的主要構建過程依托支持分類表、詞表、應用本體等術語系統的概念復用、拆分合并及語義關系創建與關聯的多語言領域術語系統構建工具TBench[8]平臺。
知識體系構建主要分為人工定義構建和自動學習構建兩種方法,通常包括概念分類、屬性描述、概念間關系的定義3個主要方面。本文將范圍限定在心力衰竭領域,為了確保準確性與合理性,采用人工定義構建的方式對知識體系進行定義。概念分類主要針對心力衰竭相關的疾病、檢查、手術、藥物、科室、癥狀、解剖學。屬性描述分為概念屬性和概念間語義關系屬性的描述,概念屬性={CID,AID,SID,概念名稱,是否為優選詞,來源,語義類型 };語義關系屬性= {RID,關系名稱,定義域,值域,定義,反向關系名稱}。其中,CID為概念的唯一標識符,AID為來源術語ID,SID為術語ID,RID為語義關系的唯一標識符。語義關系設定如表1所示,共14類,包括同義詞關系、層級關系和12類概念間非層級關系。其中12類概念間非層級關系為6對互為相反的關系,是疾病概念與其他6類概念的關系。

表1 知識圖譜中的關系類型設定
本文通過對“心力衰竭”相關的疾病、檢查、手術、藥物、科室、癥狀、解剖學7個大類的相關知識進行組織,構建知識圖譜的層級關系,主要參考國內外現有詞表、本體,綜合這些詞表的特點。表2顯示了具體的參考資源,如疾病的分類和層級結構主要參考“醫學系統命名法-臨床術語(Systematized Nomenclature of Medicine-Clinical Term, SNOMED-CT)”和“醫學主題詞表(Medical Subject Headings,MeSH)”兩個詞表構建。
收集數據資源之后,根據資源的實際情況,將部分目前沒有中文版的資源首先進行機器翻譯。為了保證準確性,在機器翻譯之后進行了人工校對。
同義關系的構建方法包括繼承、基于規則和同義詞傳導3類。某些詞表、本體本身會包含一些同義詞的信息,如MeSH詞表,這部分的同義關系直接繼承到知識圖譜中。

表2 知識圖譜的語義類型與相關參考資源
本文利用網絡爬蟲工具從來源于網絡版的臨床知識庫的數據中抽取包含“心衰”和“心力衰竭”疾病相關的所有詞條,再根據基于規則的方法抽取相關同義詞。如該疾病描述中出現了特定詞語“簡稱”“別稱”“別名”“又名”“又稱”等,則在這些詞語后出現的詞語名稱視為該疾病的同義詞,進行人工審核確定無誤后納入為同義詞。對于不同來源的術語的同義關系的確定,這部分可以稱為“實體對齊”,通常通過判斷不同知識庫中的兩個實體是否表示同一物理對象從而鏈接異構知識庫。這類數據主要通過同義關系傳導的方法進行實體對齊,即如果A的同義詞A’與B或者B的同義詞B’相同,則認為A和B是同一個實體,是同義詞的關系。對于非繼承得到的同義關系需要人工審核以確保其準確性。
概念間非層級關系即具體實體間的關聯。如“疾病-疾病相關科室-科室”,主要從網絡臨床知識庫中利用自然語言處理方法進行關系的抽取。網絡版的臨床知識庫中通常包括半結構化的醫學知識。如“中國公眾健康網”關于心力衰竭的描述包括概述、病因、癥狀、并發癥、診斷及同義詞等,其中每個版塊都會有自然語言的文本對相應問題進行描述。概念間的非層級關系構建主要利用IK Analyzer分詞工具,通過基于規則的詞語共現方法實現。
首先確定待抽取數據源。如抽取“疾病-檢查”關系,通常會截取特定字段,如疾病相關描述的“實驗室檢查及輔助檢查”字段,進行進一步抽取工作。其次,匯總所有描述待抽取詞的相關詞表。同樣以“疾病-檢查”關系抽取為例,匯總與檢驗檢查相關的詞表列表,利用其中的概念及其同義詞生成IK Analyzer的自定義詞典,這樣便不會隨意分開某些特定的詞(如“結腸鏡檢查”不會被分成“結腸鏡”和“檢查”兩個詞),還可以過濾掉一些常見的停用詞以提升文本處理的速度和精確度。在配置好IK Analyzer工具之后,導入第一步處理得到的半結構化數據,進行分詞。在該步驟中,同樣需要第二步的詞表列表,得到基于原始半結構化文本中的相關內容,形成關系對。最后,經過人工審核生成知識體系中定義的雙向關系(圖1),以“疾病-檢查”的非層級關系構建為例說明構建的流程,構建了上述12類概念間非層級關系。
如果不同來源的數據存在不一致或者矛盾的問題,優先采用可靠性高的數據,如繼承的詞表中的數據。此外,為了控制數據的質量,利用共現規則提取的數據需要經過有臨床背景的醫學生、醫生審閱,以保證數據可靠、可用。人工審核的數據形式以三元組列表形式,即“概念1-語義關系-概念2”的形式展示。采用交叉驗證的方法,即兩人同時評估關系的可靠性,如果都通過則保留關系,都不通過則刪除關系,一人通過一人拒絕則邀請第三人審核,選擇第三人的審核結果,以減小誤差。

圖1 概念間的非層級關系構建示例
本文旨在構建醫學領域的專病知識圖譜,以“心力衰竭”這一小領域為例重點構建了同義關系、層級關系和12類概念間非層級關系。知識圖譜中包括126個心衰疾病概念和398個心力衰竭直接關聯的非疾病概念(表3),因此該心力衰竭知識圖譜共包括524個概念。

表3 心力衰竭知識圖譜概念數據量與關聯數據量與統計
心力衰竭的相關關系包括1 581對“疾病-檢查”關系,684對“疾病-手術”關系,94對“疾病-藥物”關系,292對“疾病-科室”關系,1 558對“疾病-癥狀”關系,151對“疾病-解剖”關系,共包括4 360對概念間的非層級關系。該統計是基于未去重的數據統計的,如急性左心力衰竭是心力衰竭的下位類,這兩種疾病的癥狀都有呼吸困難、乏力的癥狀,都會被納入統計數據。
由于數據量較多,僅對心力衰竭知識圖譜的部分數據進行了圖形化展示。在上文中定義的14類關系,即藥物、解剖學、檢查、手術、癥狀、科室和疾病相互關聯的關系、部分同義詞關系和層級關系如圖2所示。如急性左心衰的同義詞包括急性左側心力衰竭、急性左心功能不全、急性左側心功能降低、急性左心衰竭,該疾病的癥狀有呼吸困難。呼吸困難屬于呼吸道癥狀,如此關聯了心力衰竭下位概念急性左心衰與癥狀類數據,其他數據同理。
本文主要利用現有資源構建了心力衰竭領域的知識圖譜,但在數據的完整性方面沒有追求涵蓋所有現階段心衰知識。今后在知識圖譜應用時可以通過納入更多的資源以擴充數據量,尤其是臨床指南、電子病歷等具有高價值但結構化不高的數據。此外本文的應用場景主要是面向普通大眾或者基層醫生進行醫學科普,在綜合性和易用性方面應優于教科書和臨床指南,但在嚴謹性和科學性方面可能會不如教科書和臨床指南,如“疾病-癥狀“關系可加上可信度或發生概率,在今后的研究中將探索相關數據的挖掘與集成。
本文在知識圖譜的構建過程中,利用基于規則的方法較多,優點是準確率較高,較為接近人類的思考方式,但需要較多的人工干預,可能較難移植到其他醫學領域[1]。在今后的研究中,將繼續探索機器學習方法在實體識別、實體對齊、關系抽取方面的應用。目前還未探索利用一些工具(如XSLT轉換工具和XMedlan工具)直接結構化、語義化文獻資源,從而集成不同類型的領域知識,如像黃智生等人通過對“川崎病“相關的文獻、臨床試驗、藥物知識庫等數據語義化集成可查詢的圖譜數據[6]。由于考慮到利用工具對本文中的部分中文數據資源及部分數據資源的數據類型進行處理的難度較大,因此主要對抽取的重點信息進行了關聯與集成。

圖2 心力衰竭知識圖譜可視化示例
此外,現有的研究中對于本體、知識圖譜評價主要集中在專家評價[9],與已有臨床指南等進行對比[10]或通過實際應用效果[11]對圖譜的準確性、全面性進行評估。本文后續會將構建的模型投入到實際應用中,根據使用者的反饋與評價不斷完善數據結構與內容。
知識圖譜為海量異構數據的集成提供了有效的方式,目前已應用于智能檢索、問答及醫學垂直領域等方面,具有很好的應用前景。本文基于目前知識圖譜的構建流程和方法,構建了包含524個概念和4 360對關系的心力衰竭知識圖譜,證明了基于現有資源構建專病知識圖譜可以為專病領域的知識圖譜構建提供參考。醫學知識圖譜的構建與持續完善將為基層醫療、大眾科普等方面提供數據支撐,也可以在應用中不斷提升其可用性與可靠性。