張 莉 王玉廷
(重慶醫科大學附屬第二醫院病案統計科 重慶渝中 400010)
目前,糖尿病已經成為威脅人類健康的重要慢性疾病之一,由國際糖尿病聯盟統計,中國的糖尿病患者占全球四分之一[1],糖尿病及并發癥對人體的危害極大,患有糖尿病及其并發癥,而導致的機體損傷,使得糖尿病致死率升高。據國際糖尿病聯盟(International Diabetes Federation,IDF)的統計,2017年,全球有4.25億糖尿病患者,預計到2045年,將會有近7億糖尿病患者。糖尿病作為一個不能完全根治的慢性疾病,醫學上還沒有可以準確預防糖尿病的方法。如何更高效率的治療和預防糖尿病,已成為當今社會無法忽視的重大問題[2]。
近年來,國內對糖尿病的研究主要集中在并發癥、臨床診斷、護理、流行病學、檢查檢驗及治療等方向。何永靜通過對老年糖尿病并發癥的臨床分析,為防止老年糖尿病并發癥提供依據[3];林婉媚等將疑似糖尿病患者作為研究對象,對其進行生化檢驗與常規檢驗對比,得出生化檢驗在糖尿病診斷中的靈敏度及特異性上較常規檢驗更高[4]。國外的糖尿病相關研究也集中在并發癥、相關治療及護理等方面。但是,國外研究更關注與糖尿病的分型和臨床護理方向。
知識圖譜(Knowledge Graph/Vault)又稱為科學知識圖譜,是顯示知識發展進程與結構關系的一種圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。
國內對知識圖譜的研究主要集中于圖書館學、情報學在經濟與管理,以及科學計量學在具體學科的應用領域。胡澤文等對情報學中應用知識圖譜現狀及必要性展開敘述,提出知識圖譜可用于對各學科研究熱點及前沿等進行可視化的分析[5];杜湘等運用文獻計量及知識圖譜的可視化分析,對高原濕地相關文獻在發表時間、核心作者及研究熱點等方面進行推理,得到高原濕地相關研究熱點及研究軌跡[6]。相對國內研究情況,國外的知識圖譜研究層次及研究范圍更加廣泛,且更注重知識圖譜與本體,以及信息檢索等方面的研究。
由于本體(ontology)被不同領域的專家引用,各個領域的專家對本體的概念也會有一定的差異。最早的人工智能領域的學者是這樣定義本體的:本體是構成相關領域詞匯的基本術語和關系,以及利用這些本體和關系,構成規定的這些詞匯外延規則的定義。后來美國斯坦福大學有學者提出:“本體是概念化的規范說明”。接著,有學者補充該定義:本體是共享概念模型的明確的形式化規范說明。這一概念得到各領域專家學者的認可。同時,也被廣泛應用推廣[7]。我國對本體的研究起步相對國外較晚。湯艷莉、賴茂生教授認為:本體是語義網的重要組成部分,是對世界或者領域知識、概念、實體及其關系的一種明確的、規范的概念化描述[8]。
由此可以知到,不同學科的專家給出的本體概念存在一定的差異。總的來看,本體都包含了五大特征,分別是:概念、形式、共享、明確及描述領域知識。
本體構建方法是指專家或者學者根據需求和基本步驟進行本體的構建,即將非結構化的相關知識進行搜集,并提取。然后,再用計算機可以理解的方式表達出來。盡管本體的概念有相對的一致性。但由于不同領域的要求存在一定的差異性,在進行本體構建時也會有相對的不同。
本文主要對糖尿病并發癥、治療情況及臨床癥狀表現進行本體構建,即通過對糖尿病及其并發癥知識體系進行非結構化的提取,收集相關癥狀體征、發病因素、治療方法、預防等數據進行整合,并作為構建糖尿病知識圖譜的實體及屬性的相關結構框架。
首先,我們需要對糖尿病相關知識進行類(Class)的劃分,必須將各個類進行概念化,明確各類的突出信息,把糖尿病知識體系表達完整。其次,我們要將數據類型屬性(Data Properties)進行描述,并根據不同的屬性對類進行約束,完成對類的標識。再次,我們將各類之間的關系進行定義,即對象屬性(Object Properties)定義[9]。把握住各類的關系,才能完整的表示出該知識體系結構情況。最后,我們要對類及屬性進行約束,只有對約束進行準確的描述表達,本體的構建才能更加完整精確。
目前,在我們構建本體的工具中,較為成熟且使用率較高的主要有Ontolingua Server、Onosiris、Webonto、Protege等。本文主要借助Protege進行糖尿病本體的構建[10]。
1.定義
糖尿病是一組以高血糖為特征的代謝性疾病。高血糖則是由于胰島素分泌缺陷或其生物作用受損,或兩者兼有引起。高血糖可以導致各種組織,特別是眼、腎、心臟、血管、神經的慢性損害、功能障礙[11]。
2.名稱
(1)中文名:糖尿病;(2)英文名:diabetes mellitus(DM);(3)別名:消渴癥。
3.病因
糖尿病的病因主要分為環境因素及遺傳因素兩大因素。我們通過對糖尿病病因的遺傳因素進行研究表明:糖尿病發病具有種族和家族遺傳易感性[12]。1型糖尿病主要誘發原因有以下三點:(1)遺傳易感性;(2)自身免疫性;(3)病毒感染。
2型糖尿病患病的遺傳因素相比1型糖尿病更高。同時,環境因素和胰島旁分泌功能失調也會導致患2型糖尿病的概率升高。對糖尿病影響最大的環境因素,主要表現在:身體活動減少、飲食過多,而形成的肥胖及精神狀態的降低,使得糖尿病的患病率升高。
4.糖尿病并發癥
依據文獻,目前常見的慢性糖尿病并發癥包含:糖尿病周圍神經病變、糖尿病腦血管病、糖尿病腎病、糖尿病足及糖尿病眼部的并發癥等。其中,糖尿病足是最常見的糖尿病并發病癥合并感染中的一類,是由于患者足部神經病變,致下肢功能障礙,導致的下肢產生的壞疽和潰瘍[13]。糖尿病眼部并發癥患者常常會出現視力模糊。其中,較嚴重的會導致患者失明。而常見的急性糖尿病并發癥包括:乳酸性酸中毒、糖尿病酮癥酸中毒等。
5.糖尿病分型
根據是否需要依賴胰島素治療,一般將糖尿病分為1型糖尿病和2型糖尿病。另外,按照患病人群的年齡劃分,可分為:新生兒糖尿病,小兒糖尿病,妊娠糖尿病,青年的成人發病型糖尿病及老年糖尿病。
6.糖尿病疾病診斷
包括糖尿病的診斷指標及診斷相關注意事項。查找有關糖尿病的文獻,進行簡單的整理歸納,得到相關的糖尿病診斷指標:
(1)測定果糖胺;(2)測定糖化血漿蛋白;(3)測定血紅蛋白A1;(4)測定血漿胰島素;(5)葡萄糖耐量試驗;(6)測定尿糖。
本文將糖尿病的治療方法主要分為三大類:藥物治療、胰島素治療及營養治療。糖尿病患者不能僅靠依賴藥物或胰島素進行治療,需要結合多種方法治療,加上適合的運動、飲食,按時服藥等相結合,才能達到更好地效果。
糖尿病是一組以血糖升高為主的代謝性疾病,臨床上主要表現多為“三多一少”癥狀(多飲、多尿、多食和消瘦),也有存在體質下降,乏力等情況。通常情況下,1型糖尿病多在青少年及兒童中,且發病較急,部分患者會出現身體消瘦,體質虛弱的情況。2型糖尿病相對無明顯的“三多一少”癥狀,更多情況下表現出慢性疾病,通常患病較高的是中老年人及肥胖人群[14]。
本文借助本體構建工具Protege對糖尿病進行本體構建,選用版本為protege 5.2版本。構建過程主要分為類的構建、對象屬性定義及數據類型的構建,通過本體的構建展示糖尿病知識及其相關關系[15]。
選擇標簽class,創建基本類結構[16],設置三個大類。包括:糖尿病治療方法(Diabetes_treatment)、糖尿病癥狀(Symptoms_of_diabetes)及糖尿病相關疾病(Diabetes_related_diseases),分別定義出各類。
對已構建好的類進行對象屬性的定義,分別對糖尿病治療方法(Diabetes_treatment)、糖尿病癥狀(Symptoms_of_diabetes)及糖尿病相關并發癥(Diabetes_related_diseases),用于表示類與類之間的關系[17]。
1.part of:表示整體與部分的關系。
2.cure:表示糖尿病治療方法可以治療糖尿病相關疾病。
3.has_symptom:表示糖尿病相關疾病的相關癥狀。
4.need_cure:表示糖尿病相關疾病需要的治療方法。
5.related_disease:表示糖尿病癥狀是由于糖尿病相關疾病引起的。
其中,cure與need cure,has_symptom與related_disease是兩組相反的對象屬性,需要在描述中進行相關的定義。
我們在對糖尿病類進行描述時,需要通過數據類型的定義進行完善。在本體的構建中,類相當于數據庫中的表的形式,而數據類則相當于數據庫中的列[18]。這個需要對每一類進行定義。比如,糖尿病治療方法的描述有治療類型及治療名稱。
我們通過以上對本體類、對象屬性及數據屬性的定義,可以看到糖尿病本體類及其層次結構圖與本體結構圖,本體結構圖是對整個糖尿病知識結構的描述[19]。其中的箭頭表示不同的關系,實線箭頭表示其父類與子類的關系,虛線箭頭則是針對其對象屬性的定義,不同顏色的虛線箭頭表示不同的對象屬性。即圖1和圖2:

圖1 糖尿病類及其層次結構圖

圖2 糖尿病本體結構圖
本文通過對目前糖尿病現狀及具體知識情況的掌握,對糖尿病病因、臨床表現、并發癥及藥物治療等進行綜合的知識匯總,借助工具Protege構建糖尿病本體,將糖尿病疾病病因及藥物治療相關知識進行關聯,最終進行可視化的圖形展示,完成最基礎糖尿病知識結構構建。對于Protege工具在糖尿病知識構建的方面,深入研究可以實現知識索引的,建立更加全面、完整的糖尿病知識庫。