, ,,
隨著社會經濟的發展和人民生活水平的提高,糖尿病已成為威脅我國人民健康和生命的主要慢性病之一。2017年我國糖尿病患病人數約為1.18億,居世界首位[1]。據WHO統計,2005-2015年我國因糖尿病及其相關心血管疾病而造成的經濟損失高達5 577億美元[2]。糖尿病病因不明確,早期的預防能夠有效控制糖尿病的發生和發展[3]。基層衛生服務機構是糖尿病防控的主力軍,若利用糖尿病的權威指南、教科書和專家經驗,建立糖尿病防治知識庫供基層使用,將會給糖尿病的預防控制帶來極大便利。
本體作為一種知識建模工具,用于描述概念與概念之間的關系[4]。它不僅能夠全面揭示知識間的復雜關系,還能最大限度地實現知識的共享和復用[5]。近年來,本體知識庫已成為醫學領域的研究熱點,主要集中于診斷推理[6-7]、算法改進[8]和用藥提醒[9]等方面,但中文本體知識庫相對缺乏[10]。我國學者設計了基于本體的糖尿病知識庫,用于語義查詢[11]、算法改進[12]以及糖尿病分型、藥物治療、護理和飲食知識普及[13]等,但以基層醫生實際需求為導向的糖尿病知識庫較少。本文以本體論為指導,運用斯坦福大學開發的protégé工具構建糖尿病知識庫,從基層醫生實際應用出發,對糖尿病知識進行采集、梳理、表示和利用。
為了保證糖尿病知識庫的質量,建庫過程中應遵循以下4項構建原則。實用性原則,即緊密圍繞基層醫生的需求提供及時準確的輔助診療知識;全面性原則,即保證糖尿病知識分類體系及其內容的全面性;準確性原則,即將權威指南、教科書和專家經驗相結合,確保糖尿病知識來源的權威性、真實性和可用性;共享性原則,即構建糖尿病知識庫要遵循相應的國際標準,保證知識的復用性,為后續糖尿病知識庫的擴充和完善提供支持。依據上述原則,建設以用戶為中心、理論與實踐相結合、內容與需求相適應的糖尿病知識庫。
糖尿病知識庫的構建從上到下依次分為:知識采集、知識梳理、知識表示和知識利用4個階段。其中,知識采集是糖尿病知識庫構建的基礎,是知識梳理和知識表示,糖尿病知識庫構建的核心,知識利用是知識庫構建的最終目標。
具體架構見圖1。

圖1 糖尿病知識庫構建框架
知識采集過程中,首先應明確糖尿病本體知識庫的應用對象和需求。糖尿病的防控以基層為主,基層醫生肩負著為人民群眾提供全方位全生命周期的健康服務重任,因此糖尿病本體庫的構建應以基層醫生為主要服務對象。同時糖尿病本體庫不僅需涵蓋糖尿病預防、控制、治療和康復等方面的醫學知識,還要考慮不同類型人群的個性化差異,從而更有效地為基層醫生的糖尿病防控工作提供決策支持。
基層醫療服務雖然以慢病、常見病的預防控制為主,但仍需具備識別并發癥或疑難雜癥的能力,達到早發現、早治療的目的。糖尿病知識不僅來源于權威指南、百科知識、教科書,還來源于專家經驗和科研文獻。其中,權威指南主要是糖尿病方面的防治指南,如《中國2型糖尿病防治指南(2017年版)》《中國2型糖尿病防治指南(基層版)》《中國1型糖尿病診治指南(2012年版)》《中國糖尿病醫學營養治療指南(2013)》等;百科知識主要是與糖尿病相關的科普資料和前沿知識;教科書的內容包括糖尿病及其并發癥,以及流行病學教材所涉及的糖尿病病因、防治等方面;專家經驗方面,通過專家咨詢會和專家訪談形式,搜集和整理來自基層全科醫生和三級醫院專科醫生的臨床實踐經驗,完善糖尿病的理論知識。由于雙向轉診的文件規定較為抽象,應請專家結合實際將抽象的概念轉化為可觀察的癥狀、可操作的指標。科研文獻需要在CNKI、萬方、維普等中文數據庫,以及PubMed、Elsevier、Ovid等外文數據庫中,以“糖尿病”“預防”“診斷”“進展”“案例分析”等主題和關鍵詞進行定期檢索,了解最新的糖尿病知識和典型的糖尿病防治案例。通過上述方式采集糖尿病知識,并通過一系列的清洗、篩選、整合,存儲到數據庫。
2.2.1 概念抽取
由于通過知識采集獲取的糖尿病知識凌亂,不成體系,因此需要對知識加以組織整理。概念抽取是對知識進行篩選、評估、梳理和分類的過程。通過概念抽取獲得關鍵性的術語,達到精準表達糖尿病領域知識的目的。為了確保概念的科學性和通用性,本文以《中英文醫學詞表》、《一體化醫學語言系統》、《開放生物醫學本體組織(OBO)》、《臨床醫學系統術語(SNOMED CT)》和相關糖尿病防治權威指南等為參考,從基層的應用需求出發,將糖尿病知識梳理為“目標人群”“預防”“診斷”“治療”“并發癥”“轉診”“隨訪”等7類,形成糖尿病知識的框架體系。
2.2.2 類的關系
糖尿病核心概念只有經過嚴密的歸類和合并,才能形成邏輯性高、實用度高的框架體系。經過分析,本文的糖尿病本體主要存在以下主要關系:一是上下位關系,表示概念之間是整體與部分的包含關系,如“治療”是“藥物治療”的上位類,“胰島素”是藥物治療的下位類;二是并列關系,表示概念具有相同的上位類,如糖尿病分型中的“1型糖尿病”、“2型糖尿病”、“妊娠糖尿病”和“其他類型的糖尿病”4個概念均為并列關系;三是實例關系,即子類是上位類的具體的實例,如在治療糖尿病的格列奈類藥物中,瑞格列奈、米格列奈、那格列奈都是格列奈類藥物的一些實例。
2.2.3 屬性
屬性分為對象屬性和數據屬性。對象屬性用于描述兩個類(實體)之間的關系,包括“治療”“被治療”“禁用”“預防”“有…危險因素”“有…癥狀”等,如“肥胖”是“糖尿病”的危險因素,“口干多尿”是“糖尿病”的癥狀表達,“腎功能不全者”禁用“二甲雙胍”,具有函數性、逆函數性、傳遞性、對稱性、非對稱性、自反性和不自反性等特征,它們有助于實現知識推理,使知識的表達更加豐富和靈活,數據屬性用于描述個體和數值間的關系,如患者的身高、體重、空腹血糖的控制目標等。通過數據屬性,計算機可以判斷目標個體的健康狀態。比如如果血清酮體≥3mmol/L,則表示患者可能患有DKA并發癥。
2.2.4 約束
約束是指通過對屬性進行定義,進一步限制類的性質或類間關系,包括數量約束(Quantifier Restrictions)、序數約束(Cardinality Restrictions)和賦值約束(hasValue Restrictions)3類。數量約束分為“some”和“only”,“some”表示A類中的所有個體至少有1種和B類中的個體存在某種關系,“only”表示A類只與B類存在某種關系,序數約束對關系中的最大值、最小值進行了限定,賦值約束對關系的取值進行具體限制。
2.2.5 實例
完成本體框架構建后,可以添加實例。實例是本體的具體化,能夠繼承類的屬性。通過在實例中添加相應的屬性值,呈現相應的語義關系。如在口服降糖藥TZDs中添加“禁忌”屬性,則在實例“吡格列酮”中自動添加其屬性值,其禁忌屬性是心力衰竭者。
當前糖尿病本體庫共包含類7個、相關概念210個、對象屬性21個、數據屬性57個、約束80個、實例271個,可基本實現對糖尿病領域知識的語義化表達。隨著糖尿病知識的積累,糖尿病本體庫將得到進一步擴充和豐富。
2.3.1 可視化展示
利用Protégé本體可視化功能,可以實現糖尿病語義關系的圖形化展示(圖2)。不同的線條代表不同類型的語義關系。以圖3為例,紫色實線指向該類的子類,如口服降糖藥包含SGLT2抑制劑、磺脲類藥物、雙胍類藥物、a-糖苷酶抑制劑、DPP-4抑制劑、TZDs和格列奈類藥物等下位類;黃色虛線表示糖尿病患者的治療方式包括運動治療、營養治療和藥物治療;灰色虛線表示雙胍類藥物禁用于接受大手術患者、嚴重感染、缺氧者、腎功能不全者和肝功能不全者。
通過可視化展示,糖尿病概念間的語義關系更加清晰明了,對輔助基層醫生進行糖尿病的預防和診療有很大的幫助。

圖2 糖尿病語義網絡

圖3 部分糖尿病診療語義網絡展示
2.3.2 知識檢索
本體是描述某一領域內所有概念及其屬性關系的知識表示方法。與傳統的檢索方式相比,基于本體的知識檢索不僅能檢索出與檢索詞字面匹配的內容,還能揭示與檢索詞相關聯的屬性和概念,提高檢索結果的全面性和準確性。通過傳統的關鍵詞檢索或概念檢索,檢索結果只是與癥狀字面匹配或同義的內容,而基于本體的知識檢索能夠揭示可能出現該種癥狀的人群、預防和治療方法等,能夠有效滿足基層醫生的需求。
2.3.3 知識推理
知識推理是對糖尿病知識進行分類、檢驗和評價的過程,能夠檢驗本體內在邏輯的一致性,并按照本體建立的語義關系對新知識進行自動分類,為本體知識庫的擴充和更新提供極大的便利。知識推理主要體現于知識分類和邏輯校驗,通過Protégé的推理機reasoner可以實現這一過程。輸入實例“wendy”,50歲,空腹血糖9.2 mmol/L,糖化血紅蛋白0.08 mmol/L(圖4),點擊“reasoner”下的“startreasoner”,會發現“wendy”被自動歸類至糖尿病患者(圖5)。若本體不具備內在邏輯一致性,則會自動報錯,彈出提示界面。

圖4 實例輸入

圖5 知識推理
2.3.4 知識共享
隨著糖尿病診療知識的不斷豐富,不同領域的專家從基因、中醫藥乃至環境等層面建立了相應的本體知識庫,使其信息共享變得尤為重要。通過Protégé的“merge ontology”功能可以實現本體知識的共享,來自不同本體的知識能夠在同一本體中展示。同時,protégé具有edit、defineclass等功能,通過按鍵或牽拉,便可根據需要重新分類、增加或刪除屬性和約束,操作便捷,為開展后續知識的融合奠定良好基礎。
本文以基層醫生的需求為導向,將糖尿病知識劃分為“目標人群”“預防”“診斷”“治療”“并發癥”“轉診”“隨訪”等類別的基礎上,對糖尿病知識進行了語義關聯,為輔助基層醫生進行糖尿病診療提供知識參考。為了驗證糖尿病知識庫的應用效果,本文將知識庫嵌入糖尿病管理系統,并面向基層醫生進行了初步測試,發現基于本體的糖尿病知識庫能夠輔助醫生診斷、用藥、判斷人群健康狀態和自動識別需要向上轉診的患者,對于提升基層醫生的診療效率,緩解基層醫生的工作壓力具有很好的效果。
糖尿病知識庫有助于基層醫生獲取和應用糖尿病知識,對糖尿病及其并發癥的防控具有重要意義。本文基于本體,在梳理糖尿病領域的知識體系的基礎上,完成了糖尿病知識可視化展示、知識推理、知識檢索和知識共享等應用,對構建更加完善的糖尿病管理知識庫具有一定的參考價值,但也存在一定的局限性,如糖尿病診療知識的儲備量需要不斷擴充,詞間關系需要繼續豐富。后續將進一步完善糖尿病診療知識,規范知識組織方式,使本體庫能夠與電子病歷系統進行交互,提高本體庫應用的深度和廣度。