王永博,高 曠,李緒輝,黃 橋,郭 靜,司宜蓓,陳沐坤,閻思宇,胡文斌,靳英輝
1. 武漢大學中南醫院循證與轉化醫學中心 (武漢 430071)
2. 武漢大學計算機學院(武漢 430072)
3. 南京中醫藥大學附屬醫院針灸康復科(南京 210029)
4. 武漢大學第二臨床學院(武漢 430071)
臨床指南是基于系統評價證據,平衡不同干預措施的利弊后形成的旨在為醫生和患者提供符合實際情況的推薦意見[1]。臨床指南的內容不僅整合了該領域權威專家的臨床指導意見,而且涵蓋了基本的臨床相關理論知識和科學嚴謹的臨床診療建議。作為銜接循證醫學和臨床實踐的紐帶,臨床指南在規范醫療行為、提高醫療質量、降低醫療成本、減少醫療糾紛等方面發揮著重要作用。指南的轉化和應用是醫學科技成果轉化的關鍵環節。但是,有研究指出目前指南的傳播仍然局限于文本形式,導致臨床指南的內容不能被實時、準確地查覽,嚴重阻礙了指南在臨床決策和實踐中的可操作性,使其難以發揮真正的價值[2-4]。
“人工智能+醫療”是指人工智能通過機器學習、深度學習、自然語言處理等技術,利用計算機算法從數據中獲取信息,實現輔助診斷、疾病分診、療法選擇、風險預測等一系列功能[5]。隨著人工智能的快速發展,知識圖譜已經成為知識服務領域的研究熱點[6]。Google于2012年首次引入了知識圖譜的概念,并將其應用于搜索引擎,以提高搜索效率。知識圖譜以結構化的形式描述了客觀世界中的概念、實體及其之間的關系,將互聯網的信息表達以更接近人類認知世界的形式呈現,提供了一種更好的組織、管理和理解互聯網海量信息的能力[7]。目前,知識圖譜在醫學領域擁有著廣泛的應用和發展前景,如疾病風險評估、智能咨詢診療、醫療質量控制和醫療知識問答等[8]。構建基于臨床指南的醫學知識圖譜對輔助臨床決策有著重要研究價值。
膀胱癌是全球第十大常見腫瘤[9]。全球范圍內,男性年齡標化發病率為9.5/10萬人,女性2.4/10萬人;男性年齡標化死亡率為3.3/10萬人,女性0.86/10萬人[9]。膀胱癌可分為非肌層浸潤性膀胱癌(non-muscle invasive bladder cancer,NMIBC)和肌層浸潤性膀胱癌。約75%的膀胱癌患者在初次診斷時為NMIBC[10]。近年來,針對NMIBC新的診斷、治療方式不斷涌現,為此,世界各國和地區不斷制訂、更新NMIBC臨床指南,以指導醫生的臨床實踐。我國也積極推進相關指南制訂工作。本課題組于2018年發表了《中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版 )》[11]。
目前鮮有研究圍繞NMIBC臨床指南知識圖譜設計與應用展開探討。本文提出并構建NMIBC臨床指南知識圖譜框架,旨在為指南數字化、智能化提供基礎,以推動指南的實施與傳播。
基于NMIBC疾病特征、診療現狀和指南特點以及臨床應用常見問題,明確NMIBC臨床指南的知識圖譜構建目標,設計符合專業認知與實際需要的NMIBC臨床指南知識圖譜,圖1為NMIBC知識圖譜構建框架藍圖。

圖1 NMIBC指南知識圖譜構建的框架藍圖Figure 1. The framework blueprint for the construction of the NMIBC guideline knowledge graph
本研究以《中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)》[11]為例。該指南共包含8項主題,分別是:NMIBC手術治療、化療、免疫治療、聯合治療、NMIBC原位癌治療、NMIBC患者行根治性膀胱切除術、NMIBC復發治療、隨訪及監測。通過對指南內容進行梳理,明確該指南涵蓋的基本診治過程,如根據患者基本信息、疾病特征、診斷,提供相應的治療、預后預測及隨訪流程。據此,對指南的內容范圍進行解析,梳理歸納指南內容和知識結構,結合專家意見設置NMIBC中各概念間的層級關系,對指南內容進行結構化組織(圖2)。

圖2 NMIBC指南體系Figure 2. NMIBC guideline system
1.3.1 概念結構設計
知識圖譜主要有自頂向下、自底向上及綜合法三種構建方式,本研究采用綜合法。該方法首先需定義大量重要概念,然后將它們分別進行恰當的歸納和演繹,并與一些中級概念關聯起來。
首先,為知識圖譜定義概念層與數據層模式,并將實體與關系加入知識庫。概念是指具有同種特性的實體構成的集合。本體是結構化知識庫的概念模板,通過概念層設計而形成的知識庫不僅層次結構較強,且冗余程度較小。概念層是數據的模式,是對數據層的提煉。數據層主要由一系列的事實組成,而知識將以事實為單位進行存儲,即數據層是具體的數據。概念層構建在數據層之上,是知識圖譜的核心,需依據其來管理和組織數據層。
本研究參照OMAHA Schema(當前版本更新于2021年8月20日)進行概念層提取[12]。OMAHA Schema旨在為中文醫學領域的知識圖譜構建、數據挖掘、語義分析等提供可參考和可擴展的數據定義和描述規范。在Schema的構建過程中,充分研究和參考了國內外成熟的知識圖譜Schema(UMLS語義網絡、Schema.org、cnSchema等),同時也考慮了中文醫學知識的特點,是一套符合中文環境的醫學知識圖譜。NMIBC指南體系的大部分內容都符合OMAHA Schema規范,對臨床指南中OMAHA Schema未包含的概念層,本研究通過反復討論進行補充,整理出的NMIBC本體二級概念結構,如表1所示。

表1 NMIBC指南本體概念結構(部分)Table 1. Conceptual structure for NMIBC guideline (part)

續表1
1.3.2 實體語義關系設計
為實現指南結構的概念整合,其中一個重要的步驟是使這些概念層在語義上形成關聯,以構成一個完整的指南結構體。本研究團隊根據OMAHA Schema設計了一張以NMIBC知識圖譜為使用對象的實體語義關系表(表2,圖3),不同疾病知識圖譜的概念關系可在此表的基礎上進行設計并使用,也可對特定關系進行補充。

圖3 NMIBC指南本體設計中實體語義關系圖(部分)Figure 3. Entity semantic relation diagram in NMIBC guideline ontology design (part)

表2 NMIBC指南本體設計中實體語義關系(部分)Table 2. Entity semantic relation in NMIBC guideline ontology design (part)
實體是指具有可區別性且獨立存在的某種事物。實體是知識圖譜中最基本的元素,不同的實體間存在不同的關系。關系用于刻畫實體和實體之間的聯系。
構建指南數據層的目的是從不同格式的臨床指南中提取醫學知識,并將醫學知識轉換為可被計算機處理的數據格式。本研究基于三元組數據模型構建數據層,揭示指南內各類醫學實體間的關聯,并通過若干個組合的臨床指南知識點,形成臨床指南知識網絡。
如表3所示,對于臨床問題1“NMIBC患者行TURBT的適應證”,推薦意見為“對懷疑為NMIBC的患者,推薦TURBT作為診斷和初始治療的方法”。首先,根據PICO原則對該問題進行拆分,即人群為“NMIBC患者”、干預方法為“TURBT”,另外添加問題的主題為“手術治療”。其次,提取實例“臨床問題1”與“推薦意見1”,兩者分屬“臨床問題”和“推薦意見”概念層,概念“臨床問題”與“推薦意見”的關系為“推薦意見”;提取實例“NMIBC患者”為人群,概念“推薦意見”與“NMIBC患者”的關系為“相關人群”;提取“TURBT”為操作,概念“推薦意見”與“TURBT”的關系為“涉及”;提取實例“NMIBC患者”與“TURBT”的關系為“適應證”;提取“推薦”為文本,概念“推薦意見”與“推薦”的關系為“傾向”。臨床問題1的主題為“手術治療”,提取“臨床問題1”與“手術治療”,兩者關系為“主題”。問題2—4的數據層(實體和關系)設計如表4所示。

表3 指南部分問題及推薦意見Table 3. Several questions and recommendations of the guideline

表4 三元組關系示例Table 4. Examples of triplet relation
醫學臨床指南中含有大量醫學術語,臨床指南的知識抽取就是從臨床指南中抽取與概念層設計相匹配的實體和關系,并將其整理成實體庫和三元組關系庫。針對NMIBC臨床指南用語相對規范統一、內容結構較為明晰、句法搭配相對固定等特點,本研究選擇人工抽取的方式。后續系列文章中會涉及到不同類型、不同版本指南的更新和融合,以及真實數據的挖掘過程,擬采用遠程監督算法進行抽取。遠程監督算法是一種半監督算法,可基于一個標注好的小型知識圖譜,給外部文檔庫中的句子標注關系標簽,以實體識別為基礎完成關系抽取,遠程監督關系抽取類似于多實例問題(multiple instance problem),借助多實例學習和遠程監督算法可以快速完成知識的提取和展示。
針對臨床問題1—4的問題和推薦意見,實體抽取旨在獲取如表5所示的結果。關系抽取參照表2和表4進行。若實體間的關系需要補充,則通過專家討論協商。

表5 知識抽取示例Table 5. Examples of knowledge extraction
明確了所有實體以及實體間的關系后,需設計數據的物理模型對知識進行存儲,形成知識圖譜。與傳統的關系型數據庫不同,圖形數據庫基于圖理論,以非結構化的方式存儲關聯的數據,將圖形抽象為節點、邊等基本元素,其中一個節點代表一個實體,節點間的邊代表實體間的關系,在關聯表示方面具有高效的處理能力。為表示多樣化、復雜化的醫學實體關系,本研究組選用Neo4j圖數據庫作為存儲體系。基于抽取的三元組數據模型,設計并導入醫學節點和關系節點,考慮到疾病臨床指南整理的數據為中等規模以及數據可實時插入,以CSV文件為主對數據進行存儲。
將實體與關系整理成CSV格式的文件,導入Neo4j desktop 1.4.9數據庫,輸入cypher語句,生成知識圖譜:
LOAD CSV WITH HEADERS FROM "file:///Neo4j_Load.csv" AS line
WITH line WHERE line.entityID is not Null and line.valueId is not Null
match (from:entity{id:line.entityID}),(to:entity{id:line.valueId})
merge (from)-[r:rel{property:line.property}]->(to)
其中,entityID為起始實體ID,valueID為指向實體ID,entity為起始實體,value為指向實體。
輸入cypher語句:
MATCH (n) RETURN n
可得到可視化結果,即NMIBC指南知識圖譜全貌,如圖4A所示。
若想獲取所有和“臨床問題1”相連接的實體及相應的關系,則輸入cypher語句:
match p=(:臨床問題{name:'臨床問題1'})--()return p
4個臨床問題相連接的實體及相應的關系如圖4B—E所示。其中推薦意見采用綠色圓形表示,其顏色深淺和節點圓形的大小分別表示推薦意見不同的證據等級和推薦強度,使知識圖譜節點展示更清晰直觀,查詢或搜索時更加方便快捷。

圖4 NMIBC指南知識圖譜Figure 4. NMIBC guideline knowledge graph
NMIBC知識圖譜可實現搜索與推薦功能,應用于臨床輔助決策。隨著圖數據規模的日益增大,大圖上的子圖搜索問題變得極為重要[13]。以臨床問題1—4為例,通過后臺代碼演示數據庫檢索過程,以驗證檢索的準確性。
對于臨床問題1:“TURBT的適應證?”,該問題的問題類型為查詢某操作的適應證,查詢元路徑:(a:操作)-[:適應證]->(b:疾病/臨床所見)。
輸入cypher語句:
match (a{name:'TURBT'})-[:適應證]->(b) where b:臨床所見 or b:疾病 return b
則可得到圖5A的結果,即TURBT的適應證為“NMIBC”。

圖5 NMIBC指南知識圖譜臨床實例驗證Figure 5. Validation of clinical examples of the NMIBC guideline knowledge graph
對于臨床問題2:“術后即刻膀胱灌注化療的禁忌證?”,該問題的問題類型為查詢某操作的禁忌證,查詢元路徑是:(a:操作)-[:禁忌證]->(b:疾病/臨床所見)。
輸入cypher語句:
match (a{name:'即刻膀胱灌注化療'})-[:禁忌證]->(b) where (b:臨床所見 or b:疾病) return b
則可獲取圖5B的結果,即術后即刻膀胱灌注化療的禁忌證為“術中發生膀胱穿孔”和“術后嚴重肉眼血尿”。
對于臨床問題3:“低危患者術后是否只需行即刻單次膀胱灌注化療?”,該問題的問題類型為查詢某人群的操作治療方案中的術后操作及術后操作數量,查詢元路徑:(a:人群)-...-(:操作治療方案)-[:術后操作]->(b:操作))。
輸入cypher語句:
match (:人群 {name:"低危NMIBC患者"})-[*..3]-(c:操作治療方案)-[:術后治療]-(:操作{name:'即刻膀胱灌注化療'})
return
case size((c)-[:術后治療]->())
when 1 then true
else false
end
則可得到圖5C的結果,其中第一行代碼檢索術后治療為即刻膀胱灌注化療的操作治療方案。隨后檢索操作治療方案有幾種術后治療,檢索結果是只有一個,所以回答是“true”。
對于臨床問題4:“對NMIBC患者,BCG誘導加維持灌注治療是否優于單純BCG誘導灌注治療?”。該問題的問題類型為操作對比。
輸入cypher語句:
match (a:臨床問題)-[:干預方法]-(b:操作), (a:臨床問題)-[:對比方法]-(c:操作)where (b.name='BCG誘導加維持灌注治療' and c.name='BCG誘導灌注治療') or (b.name='BCG誘導灌注治療' and c.name='BCG誘導加維持灌注治療')
match (a)--(:推薦意見)-[:涉及{傾向:'推薦'}]-(d:操作)
return d.name
則可得到圖5D的結果,其中第一行代碼檢索是否存在有將這兩種操作方法互為對比的臨床問題。隨后尋找該臨床問題對應的推薦意見。檢索結果是“BCG誘導加維持灌注治療”。
本研究后續會通過規則匹配的方法,實現NMIBC系統的后臺操作代碼。當用戶點擊某種治療方式或預后因素時,系統會根據NMIBC知識圖譜接收搜索條件內容,通過規則匹配,最后將其轉換為Cypher語句并在Neo4j中查詢答案。
本研究采用專家咨詢法,邀請專家對設計的NMIBC知識圖譜進行評估以驗證知識圖譜的科學性與合理性,并基于專家意見對知識圖譜進行修改與補充,確定最終版NMIBC(單一)指南知識圖譜。
本研究基于領域專家共識并參照OMAHA Schema,設計NMIBC領域的頂層本體,提出并構建了NMIBC臨床指南的知識圖譜框架,其二級概念架構及數據層(實體和關系)設計方法也可為其他疾病臨床指南知識圖譜的建設提供參考。本課題組考慮到過多的層數會使概念層龐雜而冗余,增加運營與維護成本,且過多的層數會使概念類別數量呈指數增加,為實體抽取帶來負擔。另外,由于實體提取算法的訓練依賴于標注數據,而少量標注數據無法覆蓋過多概念類別。因此,本課題組在實際操作中用二層概念層初步構建了該知識圖譜,發現其可以合理表達指南中的概念與語義關系。
本研究的知識圖譜構建方法著重從知識源頭對知識進行優化,設計并調整概念間的關系結構,對實體與實體間的關聯進行細化完善,并驗證其可行性。對于指南中臨床問題和推薦意見缺少的實體,本研究進行了補充,以使知識圖譜節點更清晰,查詢或搜索時更方便快捷。另外,在綜合考慮指南數據存儲以及為后續大量指南知識提取提供參考等情況后,本課題組對臨床問題根據PICO原則進行拆分,然后由臨床問題指向推薦意見,從而確保指南信息存儲的完整性。對指南的制訂過程與方法、推薦意見中的操作說明和證據概述的補充,以及對不同類型/版本指南的更新和融合將在本系列其他文章展示。
本研究仍存在一定局限。首先,參照OMAHA Schema的語義結構規范雖然可以保證輸入知識圖譜的數據質量,但仍需臨床工作者和工程師對臨床指南進行整理和總結,對Schema中缺失的語義類型、屬性關系進行補充。其次,非結構化文本指南中有確定性知識和不確定性知識兩種,不確定知識的選擇和劃分也是難點之一。更好的方法是引入多種知識表達方式以增強知識圖譜的語義表達能力。
綜上所述,本文提出的NMIBC指南的知識圖譜框架設計不僅為指南數字化、智能化提供了基礎,同樣可以用于輔助臨床決策,有利于指南的實施、推廣與傳播。本研究提出的框架設計不僅適用于NMIBC的知識圖譜構建,對于其他醫學專業或通用醫學知識圖譜的構建也可以提供思路。