司宜蓓,郭 靜,王永博,李緒輝,黃 橋,王家瑩,靳英輝,商洪才
1. 武漢大學第二臨床學院(武漢 430071)
2. 南京中醫藥大學附屬醫院針灸康復科(南京 210029)
3. 武漢大學中南醫院循證與轉化醫學中心(武漢 430071)
4. 南京醫科大學附屬無錫人民醫院藥物臨床試驗機構辦公室(江蘇無錫 214000)
5. 北京中醫藥大學東直門醫院中醫內科學教育部重點實驗室和北京市重點實驗室(北京 100700)
前期研究中,本團隊基于心血管疾病中醫/中西醫診療現狀及其指南應用中存在的問題,通過文獻檢索及廣泛調研,設計了中醫/中西醫心血管疾病指南知識圖譜框架藍圖,隨后結合專家意見對指南內容進行結構化組織,完成了概念層設計。現以所選四篇范例文獻中《冠心病穩定型心絞痛中醫診療指南》[1]為例進行知識抽取、知識存儲,構建中醫/中西醫指南知識圖譜,進一步驗證知識圖譜技術應用于中醫/中西醫指南領域的可操作性和合理性。
以《冠心病穩定型心絞痛中醫診療指南》為例的中醫指南體系中,現代醫學相關部分內容均符合OMAHA Schema規范,對臨床指南中OMAHA Schema未包含的中醫相關的概念層,本課題組通過反復討論進行了補充,整理出的中醫指南實體關系表見表1。

表1 《冠心病穩定型心絞痛中醫診療指南》實體語義關系表Table 1. Entity semantic relation table in“Guidelines of the Traditonal Chinese Medicine management of stable angina pectoris in coronary artery disease”
獲取實體之間的某種語義關系或關系的類別后,從示例臨床指南中提取實體及聯系這一對實體的關系所構成的三元組,將非結構化數據轉化為結構化數據,以便進行后續計算機的處理和儲存。按照《冠心病穩定型心絞痛中醫診療指南》中臨床問題出現的順序進行編號,考慮到文章的篇幅,現僅報告臨床問題1、2、5、6,如表2所示。

表2 指南部分問題及推薦意見Table 2. Several questions and recommendations of the guideline
對于指南問題1,“穩定型心絞痛心血瘀阻證患者有什么方藥治療方案”。推薦意見1為“冠心2號方(證據級別:B級;推薦強度:強推薦):川芎10 g、赤芍10 g、紅花10 g、降香10 g、丹參30 g”。首先,將問題按PICO原則進行拆分,即人群為“穩定型心絞痛心血瘀阻證患者”,干預方法為“方藥治療方案”,對比方法和結果空缺。其次,提取實體“臨床問題1”與“推薦意見1”,兩者分屬“臨床問題”和“推薦意見”概念層,概念內容“臨床問題”與“推薦意見”的關系為“推薦意見”。提取實體“穩定型心絞痛心血瘀阻證患者”為“人群”,概念內容“推薦意見”與“穩定型心絞痛心血瘀阻證患者”的關系為“相關人群”。提取實體“冠心2號方”為“方藥”,概念內容“推薦意見”與“冠心2號方”關系為“涉及”。提取實體“川芎10 g、赤芍10 g、紅花10 g、降香10 g、丹參30 g”為“組方用藥”,概念內容“方藥”與“川芎10 g、赤芍10 g、紅花10 g、降香10 g、丹參30 g”關系為“組方用藥”。
對于指南問題2,“穩定型心絞痛心血瘀阻證患者伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀,有什么方藥治療方案”。推薦意見2為“若胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀者,可加蒲黃10 g、延胡索15 g、桂枝15 g或肉桂3 g、細辛3 g、高良姜10 g、薤白10~15 g等溫通散寒之品(證據級別:D級;推薦強度:有條件推薦)”。首先,將問題按PICO原則進行拆分,即人群為“穩定型心絞痛心血瘀阻證伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀的患者”,“伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀的患者”為“亞人群”,與相關人群“穩定型心絞痛心血瘀阻證患者”關系為“子類”,干預方法為“方藥治療方案”,對比方法和結果空缺。其次,提取實體“臨床問題2”與“推薦意見2”,兩者分屬“臨床問題”和“推薦意見”概念層,概念內容“臨床問題”與“推薦意見”的關系為“推薦意見”。提取實體“伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀的患者”為“亞人群”,概念內容“推薦意見”與“伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀的患者”的關系為“相關人群”。提取實體“冠心病2號方+溫通散寒藥”為“方藥”,概念內容“推薦意見”與“冠心病2號方+溫通散寒藥”關系為“涉及”。提取實體“川芎10 g、赤芍10 g、紅花10 g、降香10 g、丹參30 g加蒲黃10 g、延胡索15 g、桂枝15 g或肉桂3 g、細辛3 g、高良姜10 g、薤白10~15 g等”為“組方用藥”,概念內容“方藥”與“川芎10 g、赤芍10 g、紅花10 g、降香10 g、丹參30 g加蒲黃10 g、延胡索15 g、桂枝15 g或肉桂3 g、細辛3 g、高良姜10 g、薤白10~15 g等”關系為“組方用藥”。
對于指南問題5,“穩定型心絞痛心血瘀阻證患者有什么中成藥治療方案”。推薦意見5-1為“注射用紅花黃色素(證據級別:B級;推薦強度:強推薦),用法:靜脈滴注,注射用紅花黃色素100 mg或150 mg,靜脈緩慢滴注(滴速不高于30滴/min),每日1次”。首先,將問題按PICO原則進行拆分,即人群為“穩定型心絞痛心血瘀阻證患者”,干預方法為“中成藥治療方案”,對比方法和結果空缺。其次,提取實體“臨床問題5”與“推薦意見5-1”,兩者分屬“臨床問題”和“推薦意見”概念層,概念內容“臨床問題”與“推薦意見”的關系為“推薦意見”。提取實體“穩定型心絞痛心血瘀阻證患者”為“人群”,概念內容“推薦意見”與“穩定型心絞痛心血瘀阻證患者”的關系為“相關人群”。提取實體“注射用紅花黃色素”為“中成藥”,概念內容“推薦意見”與“注射用紅花黃色素”關系為“涉及”。提取實體“靜脈滴注,注射用紅花黃色素100 mg或150 mg,靜脈緩慢滴注(滴速不高于30滴/min),每日1次”為“用法用量”,概念內容“中成藥”與“靜脈滴注,注射用紅花黃色素100 mg 或150 mg,靜脈緩慢滴注(滴速不高于30滴/min),每日1次”關系為“用法用量”。
對于指南問題6,“穩定型心絞痛患者有什么針刺治療方案”。推薦意見6-1為“針刺治療可選用穴位:內關穴(證據級別:C級;推薦強度:有條件推薦)”。首先,將問題按PICO原則進行拆分,即人群為“穩定型心絞痛患者”,干預方法為“針刺治療方案”,對比方法和結果空缺。其次,提取實體“臨床問題6”與“推薦意見6-1”,兩者分屬“臨床問題”和“推薦意見”概念層,概念內容“臨床問題”與“推薦意見”的關系為“推薦意見”。提取實體“穩定型心絞痛患者”為“人群”,概念內容“推薦意見”與“穩定型心絞痛患者”的關系為“相關人群”。提取實體“針刺內關穴”為“中醫操作”,概念內容“推薦意見”與“針刺內關穴”關系為“涉及”。推薦意見6-2,6-3,6-4的數據層實體和關系設計方法同上(表3)。

表3 三元組關系表示例Table 3. Examples of triplet relational table

續表3
《冠心病穩定型心絞痛中醫診療指南》中涉及較多中醫專有概念,文本復雜,本研究選擇人工抽取的方式進行知識抽取。根據上述概念層與數據層設計,從指南中抽取與其相匹配的實體與關系,并整理成實體庫和三元組關系庫(表4)。
知識存儲的目的是確定合理高效的知識圖譜存儲方式。目前知識圖譜的存儲方式主要有SQL(structured query language)數據庫和NoSQL(not only SQL)數據庫。在NoSQL領域,圖數據庫(Graph Database)受到較高關注。Neo4j是目前最常用的圖數據庫,具有高性能、實用性強、輕量級等優點[2]。本文采用Neo4j圖數據庫存儲數據。Neo4j以節點、關系、屬性為基本元素,展示了較為完整的事物描述結構,可提供更快的事物和數據關系處理能力,能更加直觀、清晰地了解實體之間的關聯規則[3]。
1.4.1 知識導入
基于抽取的三元組數據模型,設計導入的醫學節點和關系節點,考慮到所整理的數據為中等規模以及數據可實時插入的特點,采用導入CSV文件為主的方式,對數據進行存儲。將數據導入到Neo4j中之后,可以得到如圖1所示《冠心病穩定型心絞痛中醫診療指南》知識圖譜,其中綠色的深淺和節點圓形的大小分別表示推薦意見不同的證據等級和推薦強度。上文示例臨床問題細節展示如圖2所示。

圖1 《冠心病穩定型心絞痛中醫診療指南》知識圖譜Figure 1. Knowledge graph of "Guidelines for the Traditional Chinese Medicine management for stable angina pectoris in coronary artery disease"

圖2 知識圖譜部分示例Figure 2. Some examples of knowledge graphs
1.4.2 知識檢索
以臨床問題1、2為例進行檢索,通過圖譜展示發現,可以實現以多種方式查找穩定性心絞痛患者的不同治療方案。
(1)檢索語句
1) 臨床問題1:穩定型心絞痛心血瘀阻證患者的方藥治療方案是什么?
問題類型:查詢某人群的治療方藥
查找思路:
①查找臨床問題中是否有與“穩定型心絞痛心血瘀阻證患者”和“方藥治療方案”相關的節點,并返回其涉及的方藥名與配方(精確查找)。
②查找“穩定型心絞痛心血瘀阻證患者”最接近的方藥與配方(模糊查找)。
cypher語句:
①match (a:臨床問題)-[:相關人群]-(c:人群{name:'穩定型心絞痛心血瘀阻證患者'}), (a:臨床問題)-[:干預方法]-(:事件{name:'方藥治療方案'})
match (a:臨床問題)- -(b:推薦意見),(b:推薦意見)- -(c)
match (b)- -(d:方藥), (d:方藥)- -(e:組方用藥)
Return d.name, e.name
②match p=shortestPath((a:人群{name:'穩定型心絞痛心血瘀阻證患者'})-[r*..5]-(:方藥))with p ORDER by length(p)
match (b) where b in nodes(p) and b:方藥
match(b:方藥)- -(c:組方用藥)
Return b.name, c.name limit 1
檢索結果如圖3-A。
2)臨床問題2:穩定型心絞痛心血瘀阻證患者伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀,有什么方藥治療方案?
問題類型:查詢某亞人群的治療方藥
查找思路:
①查找臨床問題中是否有實體與描述中存在“伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀”的“穩定型心絞痛心血瘀阻證患者”的亞人群有關聯關系且干預方法為“方藥治療方案”,并返回其涉及的方藥名與配方(精確查找)。
②查找“伴有胸痛劇烈、畏寒肢冷、脈沉細或沉遲,陽虛血瘀”的亞人群最接近的方藥與配方(模糊查找)。
Cypher 語句:
①match (a:亞人群) where (a.name contains'胸痛劇烈') or (a.name contains '畏寒肢冷')or (a.name contains '脈沉細或沉遲') or (a.name contains '陽虛血瘀')
match (a)- - (:人群)- -(b:臨床問題)-[:干預方法]-(:事件{name:'方藥治療方案'}), (b:臨床問題)- - (:推薦意見)-[:相關人群]-(a)
match (b)- -(:推薦意見)- -(d:方藥), (d:方藥)--(e:組方用藥)
Return d.name, e.name
②match (a:亞人群) where (a.name contains'胸痛劇烈') or (a.name contains '畏寒肢冷')or (a.name contains '脈沉細或沉遲') or (a.name contains '陽虛血瘀')
match p=shortestPath((a)-[r*..5]-(:方藥))with p ORDER by length(p)
match (b) where b in nodes(p) and b:方藥
match (b:方藥)- -(c:組方用藥)
Return b.name, c.name limit 1
檢索結果如圖3-B。

圖3 知識圖譜問題檢索展示Figure 3. Knowledge atlas problem retrieval display
自2012年5月知識圖譜的概念被Google正式提出后,因其可將知識以一種直觀、可視化的方式展現,并可以建立碎片化數據關聯的特點,已在學術界和工業界普及應用,成為多個領域的研究熱點[4]。目前,醫學是知識圖譜應用最廣的垂直領域之一,在智能輔助診療、醫療質量控制及醫療知識問答等智慧醫療領域都有著很好的發展前景[5]。我國醫療系統中傳統中醫與西醫并存,傳統中醫療法約占總數的40%[6]。隨著我國經濟和科技的快速發展,中醫藥的發展也迎來了新的局面。中醫藥領域的知識量大、繁雜,在知識表示與存儲等方面存在很大的局限性,因此知識圖譜與中醫藥的結合已成為必然的趨勢[7]。目前,知識圖譜在中醫領域圍繞中醫基礎、中醫臨床、中醫養生保健等多個方面取得了一些進展,但通過調研發現,目前罕有研究圍繞中醫/中西醫結合臨床指南知識圖譜構建與應用展開探討[8-10]。因此,基于中醫/中西醫結合臨床指南構建用于輔助臨床決策的醫學知識圖譜值得深入研究與推廣。
為更好地體現“證據等級和推薦強度”這一指南特有內容,在進行《冠心病穩定型心絞痛中醫診療指南》概念層實體語義關系表設計時,本研究將指南特有“證據等級和推薦強度”作為推薦意見屬性進行提取和展現。在數據層構建過程中,由于中醫的辨證論治特點以及中醫指南的行文結構,本課題組在綜合考慮指南數據存儲,以及為后續大量指南提取提供參考等問題后,決定根據指南推薦意見提出臨床問題,然后按照PICO原則對問題進行拆分。在進行指南知識抽取時,對于指南推薦意見中缺少的實體,本研究組進行實體補充,以確保指南信息存儲的完整性。如對中醫證型的伴隨證型及治療方案進行提取時,本課題組補充了伴隨證型的主要中醫證型以及加減藥物的初始方藥,以確保指南信息存儲的完整性。另外,在進行中醫方藥成分提取時,將組方用藥作為整體進行提取以利于后續知識圖譜在知識問答、臨床決策等方面的應用。另一種策略是對組方用藥中各個成分進行單獨提取,對多個指南知識圖譜的融合及真實世界證據補充后的知識推理可起到一定的促進作用,便于探索某種組方用藥成分或聯合用藥是否對另一種證型有效,兩種提取方案可視研究目的選擇使用。最后,建議中醫/中西醫臨床指南以及西醫臨床指南的編者在書寫推薦意見部分時可以參考PICO原則,明確臨床問題、人群與操作等,便于臨床醫生閱讀,利于相關知識圖譜構建,提高指南在臨床決策和實踐中的可操作性。
本研究以《冠心病穩定型心絞痛中醫診療指南》為例,提出并設計完成了中醫指南的知識圖譜,系統、全面、規范地展示了中醫臨床指南內容,為今后指南數字化、智能化提供了基礎。同樣臨床指南知識圖譜可運用于輔助臨床決策系統、知識問答等多個領域,有利于推動指南的實施、推廣與傳播。該臨床指南知識圖譜的構建思路也可為其他疾病中醫/中西醫結合臨床指南的知識圖譜建構提供參考。