嚴 越 鄭 靜 林德南 呂 果 倪士光 袁克虹
(清華大學深圳國際研究生院深圳 518055) (深圳市醫學信息中心深圳 518000) (清華大學深圳國際研究生院深圳 518055)
腦卒中是常見腦血管疾病,俗稱“中風”,由腦部血管突然破裂或血管阻塞引起,對應國際疾病分類ICD-10標準編碼號為I64.X04。從全球范圍看,我國卒中終生風險及卒中引發疾病負擔位居世界第1,風險高達39.3%[1]。從國內角度看,腦卒中是我國成年人致死、致殘首位病因,具有發病率高、致殘率高、死亡率高、復發率高、經濟負擔高的特點,伴發病年輕化、普遍化等不良趨勢[2]。病患確診腦卒中后,通常只能控制難以根治。因此需要充分發揮基層醫護人員作用,做好評估篩查,有效規避卒中風險,做到“早預防,早治療”[3]。但是腦卒中危險因素預測與及時監控困難,基層醫護人員對此缺乏工具。針對腦卒中高危人群的篩查常用ABCD2,美國國立衛生研究院卒中量表(National Institute of Health Stroke Scale,NIHSS),Rankin, Barthel量表等[4],但復雜、耗時耗力;FAST等評價方法[5]較簡單但難以滿足需求。目前尚缺乏對我國或亞洲人種族危險因素綜合排序研究,也未定量考慮危險因素間的耦合關系。
2.1.1 總體思路 首先對相關實體和關系進行定義,綜合數據源給出第1層(頂層)實體節點;其次在領域知識幫助下歸納抽取頂層實體之間關系;再次對每個實體向下抽取節點,用共詞分析法[6]、半監督機器學習方法[7]進行文本挖掘以確定節點,直到能夠獲取實體屬性為止[8]。腦卒中防治醫學節點(Prevention Entity, PE)指腦卒中疾病在防治方面可唯一標識的醫學實體或屬性,通常出現在文本數據、電子病歷、調研結果表單等各種渠道中。實體節點的父節點必須為實體或主題節點,子節點可為實體或屬性。腦卒中防治醫學關系(Prevention Relationship, PR)表示不同腦卒中防治醫學實體或屬性間發生的事實關系,可表示為PR(PEi,PEj)或PR(PEi,PAi),其中PEi,PEj為腦卒中防治醫學實體,PAi為腦卒中防治醫學屬性。
2.1.2 概念層構建 首先定義頂層主題詞、整合并篩選高頻主題,總結出6方面主題詞并將其作為腦卒中防治知識圖譜概念層的頂層實體節點,分別為患者實體、危險因素實體、篩查手段實體、健康指導實體、癥狀表現實體與預防方式實體。將危險因素作為知識圖譜核心實體,整理出9種腦卒中防治醫學關系類型:has、instance of、attribute of、take、control、influence、improve、test、lead。大致可分為跨層與同層兩種,見表1、圖1。

表1 9種腦卒中防治醫學關系

圖1 腦卒中防治知識圖譜概念層結構
2.1.3 節點提取路徑 除頂層外的節點都需由文本挖掘識別與命名。針對不同數據類型采取不同處理方式,見圖2。對文獻采用共詞分析法[6]挖掘危險因素實體及內在聯系;對病例和調研結果等采用表單解析法[9]挖掘實體。最后對挖掘到的實體進行匯總與篩選,逆向剔除不合語言規則的危險因素[10]并請專家把關。

圖2 節點提取實現路徑
2.2.1 數據預處理 (1)數據采集。為保證圖譜內容專業全面,數據來源涵蓋電子病歷與調研結果、學術論文與醫療教材、政府報告與規范指南3類。采用愛愛醫專業醫學平臺獲取有效病例54則,中國知網(China National Knowledge Infrastructure,CNKI)獲取學術期刊文獻1 222篇,調研有效問卷數量共計257份,獲取人民衛生出版社《神經病學》第8章腦血管疾病以及醫生培訓的腦卒中癥狀識別及院前急救教材6份,近3年中國腦卒中防治報告及14份規范指南。(2)數據清洗。用文本整理器整合格式、實現大小寫與全半角轉換等。構建用戶字典使摘要分詞結果更準確[11],共導入機器和手工匯聚形成的406條用戶字典幫助機器進行分詞。爬取1 208條常用中文停用詞,通過機器學習最終建立包含1 555條詞條的停用詞表庫,剔除對挖掘無意義的詞語[12]。
2.2.2 挖掘特征詞 (1)構建共詞矩陣。清洗后得到474個待處理詞,詞頻篩選后得到249條高頻詞。采用Ochiia系數將每個數值都除以與之相關的兩個關鍵詞總頻次開放的乘積,用Transport函數進行轉秩,得到相似矩陣。為降低統計誤差,將危險因素相似矩陣轉化為表示兩詞間差異程度的相異矩陣,數值大說明代表詞間距離大、相似度低。(2)文本挖掘。采用自下而上的合成聚類初步判定代表詞間關聯程度,再用主成分分析法確定最少能反映原始數據的公共因子,碎石圖結果保留45個特征值大于1的因子。對旋轉后的主成分因子載荷系數矩陣調用Abs函數求其絕對值,篩選大于0.5對命名有幫助的主成分命名因子。(3)篩選及輸出候選特征詞。因疾病及藥物醫學術語詞性構成規則難以總結,故采用逆向語言規則法[10],過濾不能作為危險因素實體的噪音詞語,如方位詞、連接詞等。以可干預危險因素為例的部分節點梳理結果,見表2。

表2 以可干預危險因素為例的部分節點梳理
2.2.3 存儲與可視化 Neo4j在乳腺癌等醫學知識圖譜[13]的繪制中已被驗證適用于生物醫學領域,數據存儲到Neo4j后共得到節點165個、關系168條。關鍵危險因素權重以屬性方式存儲,見圖3。

圖3 知識圖譜整體可視化效果
3.1.1 多可干預危險因素耦合作用模型 腦卒中疾病規律尚未完全探明,依賴作用的未知性增大致病因素模糊度。利用圖譜所挖掘的典型危險因素,構建多可干預危險因素耦合作用模型,見圖4。模型從疾病因素、生活方式和其他方面因素考慮子系統之間相互作用。

圖4 多可干預危險因素耦合作用模型
3.1.2 影響因子 從知識圖譜節點中歸納出表現力好、影響突出的9個因素:在生活方式層次下的節點有F11(吸煙)、F12(酗酒)、F13(飲食不當);疾病因素層次下的節點有F21(高血壓)、F22(糖尿病)、F23(心臟病);其他因素層次下的節點有F31(心理狀況)、F32(經濟狀況)、F33(教育程度)。
3.1.3 相互作用矩陣 在矩陣主對角線上放置所有腦卒中風險影響因子,其值表示該風險因子會對腦卒中風險產生影響的程度。多個影響因子相互耦合作用則放置在次對角線位置,其值表示因素之間耦合作用對我國居民患腦卒中風險的影響程度,見圖5。

圖5 相互作用矩陣
關系矩陣中的Pi,j表示第i個風險影響因子單獨對腦卒中致病的影響,根據式(1)-(3)計算影響整體或個體腦卒中風險性的第i個影響因子權重k。其中,n表示腦卒中風險的主要影響因子數量;SR(i) 表示風險因子i自身風險系數和與對其他影響因子產生耦合作用的系數之和;SC(i)則表示風險因子i自身風險系和與其他因子對i因子產生耦合作用的系數之和。再據式(4)進一步計算整體或個人的可控危險因素程度。Vi表示某個腦卒中風險因子i參數的值:Ui=Pi,i/(max-min)。SD是根據多個影響因子計算得到的用于評價腦卒中患病風險性的無量綱數值,稱為可干預因素下的腦卒中評價系數[14]。
(1)
其中:
(2)
(3)
最后:
(4)
采用專家半定量取值法分別對節點間不對等耦合作用打分,獲得9×9相互作用矩陣。按照可控危險因素影響作用大小和強烈程度劃分為5級,采用無量綱數值0-4來定量表達無影響、弱影響、中等影響、強影響和極強影響作用。通過醫院專家打分,每個數值分別表示可控危險因素i作用于可控危險因素j而對整體腦卒中患病風險產生的影響。計算影響整體腦卒中患病風險性的第i個可控危險因素的權重k,見表3。根據式(4)得到居民總體SD值為0.044 22,屬中等風險范圍,可作個人腦患卒中風險的基準參考。構建模糊層次分析模型不僅能對群體情況作出判斷,還能預測個人腦卒中風險,將群體或個人腦卒中評價系數SD值等距分為極弱風險、弱風險、中等風險、強風險和極強風險5個等級,依照等級規范及時采取防治措施。

表3 腦卒中可干預危險因素權重及排序
4.1.1 最易影響其他可控危險因素 即酗酒,不僅其自身對于腦卒中有極強影響作用,還會誘發高血壓、心臟病等嚴重疾病,而這些疾病本身也是腦卒中發病的重要危險因素,故會造成負面效果極強的多因素耦合作用。
4.1.2 最易被其他因素所影響因素 即高血壓,故高血壓防控需要從多方面入手。心理狀況是作用最明顯的腦卒中可控危險因素,一方面其對吸煙、飲酒等不良生活習慣因素產生作用,另一方面腦卒中急性發病與此高度相關。從數據與病例中屢次出現的“情緒激動時起病”可知不能忽視心理健康,建議學會調節情緒、降低壓力,在需要時尋求情感支持。
從相互作用角度將危險因素分成3類:SR>SC、SR≈SC、SR 本文初步構造面向腦卒中防治的知識圖譜,集成多種疾病相關知識資源,有效地將龐雜數據資源轉化為結構化、可視化知識。進而提出一種便于推廣的風險預測模型,綜合模糊層次分析法和耦合理論優點,能綜合考慮、定量描述危險因素相互作用關系,提出將危險因素按SR與SC分類,而非單方面強調對疾病因素管控。面向知識圖譜構建的風險評估模型可成為普通群眾自查風險的有效工具和基層醫護人員診斷的輔助工具。 知識圖譜逐步與醫療領域結合,能夠解決當前醫療電子數據龐雜、知識管理困難的問題。國內乳腺癌、乙肝等少數疾病已經開始嘗試構建知識圖譜[13,15-17],但構建方法與標準不統一、真實數據應用較少[18-19]。中文醫學知識圖譜起步較晚,在覆蓋疾病種類、數據質量等方面仍有發展空間,應加強與國外醫學圖譜的連接[20]。腦卒中等高危疾病研究有待加強[21],需進一步探索醫學知識的自動提取技術[9]。應發揮知識圖譜精準快速查詢普及防治知識的優勢,成為腦卒中互答、診斷輔助等系統的基礎[22-23],服務于基層臨床評估。腦卒中發病年輕化、普遍化等不良趨勢逐漸顯現,快速節奏與壓力對青壯年人群生活方式產生的負面影響需加強重視。各年齡階段人群均需做好腦卒中防治工作,在群體基礎上針對個人情況進行調整,從根源進行防治。5 結論
5.1 主要研究成果
5.2 未來研究方向