袁 方 任海玲 馬鴻儒 趙 夢 廖 聰 李洲誼 宋 菲
1.銀川市第一人民醫院信息管理部,寧夏銀川 750001;2.寧夏醫科大學臨床醫學院,寧夏銀川 750004;3.寧夏醫科大學醫學信息與工程學院,寧夏銀川 750004
新發傳染病(emerging infectious diseases,EIDs)是全球衛生重點關注問題,嚴重威脅人類健康及社會發展[1]。傳染病監測是公共衛生的重要組成內容[2],合理有效的傳染病監測可盡早發現疫情趨勢,幫助及時采取預防控制措施,遏制疫情蔓延,有效控制因疾病流行和暴發給人類發展和生存造成的危害[3-6]。我國傳染病監測工作已經開展70 年,依據歷史監測數據,利用數據模型進行準確分析和預測,能夠及時獲知傳染病的發病趨勢[7-8]。但我國建立的傳染病監測系統大多數是針對診斷后的病歷信息進行監測,是被動的監測系統,缺乏對EIDs 的預警能力。近年來,隨著醫院信息化建設的成熟,云計算[9]、物聯網[10]、大數據[11-12]、互聯網[13]、人工智能[14-15]等技術在醫療領域的廣泛深入應用,大量臨床真實世界數據(clinical real world data,CRWD)得以累積及保存,基于現有的CRWD,將人工智能、數據挖掘技術用于探索EIDs 的預警研究成為可能。本研究以某一區域的傳染病為例,基于醫療全周期CRWD,以數據挖掘、自然語言處理、機器學習和智能交互等人工智能技術為核心,開發EIDs 檢測預警系統,以期對傳染病暴發進行早期探查、預警和快速反應,從而提高甄別傳染病疫情的敏感性。
系統的預警邏輯分為醫療智能診斷和流行病學分析兩個部分:醫療智能診斷模型根據就診患者的病情表述、檢驗、檢查等數據快速計算該病歷為新發傳染病的概率;流行病學分析模型基于某段時間疑似新發傳染病患者數據,綜合相關流行病學史信息,整體分析后給出預警結果,并針對傳播范圍和速度、傳播方式和影響、易感人群給出預測。在實現框架上,分為靜默監控預警及主動嗅探預警兩個部分。傳染病預警系統架構見圖1。
1.1.1 診前數據收集 基于移動端智能導診及智能預問診系統,通過智能人機對話方式,詢問并主動采集患者相關醫療數據。智能導診系統自動采集基于人口學特征的患者主訴及病情數據,包括住址、年齡、性別、癥狀等數據;預問診系統自動采集患者的主訴、現病史、既往史等數據。
1.1.2 診中數據收集 基于智能診室機器人,主動收集診中的以患者病情為中心的全部醫療數據,包括電子病歷、檢查檢驗、影像、病理、手術等數據。
1.1.3 診后數據收集 基于智能隨訪管理系統,對院外患者進行隨訪和跟蹤,自動收集患者的病情變化、用藥、飲食等數據,同時也對患者家屬或密切接觸者進行跟蹤觀察。
1.1.4 醫療全周期CRWD 整理 對以上數據中非結構化數據進行病歷文本結構化處理,最終形成完整的、多維度的、基于時間軸的患者病情畫像。
假設每一種新發傳染病,都能找到相似同源,通過學習目前傳染病的已知特征,構建醫療智能診斷模型來實現對輸入病情進行預測;假設某病歷為傳染病的概率向量:
P(i)=[p(dj,1),p(di,2),...p(di,j),...p(di,n)]。
其中p(di,j)表示:病歷i 疑似為已知傳染病的概率。j=0 時,表示為傳染病。
1.2.1 傳染病智能診斷模型 基于人工智能學習醫療全周期CRWD,考慮時間空間維度特征,構建傳染病智能診斷模型。該模型將貝葉斯模型和W&D 模型(wide &deep learning,W&D)進行融合,首先將患者病情特征、知識圖譜數據映射為向量表示,其次基于歷史診斷行為進行參數學習,最后達到針對新輸入病情描述給出疑似疾病的概率。智能診斷模型示意圖見圖2。

圖2 傳染病智能診斷模型
①貝葉斯模型:
argmax P(di|x1,x2,...,xn)≈P(x1,x2,...,xn|di)*P(di)。
其中,argmax P(di|x1,x2,...,xn)表示,在病情特征x1,x2,...,xn的條件下,計算疾病di的概率,最大概率值對應的疾病即為預測疾病。在系統實際應用中,選擇最有可能的1~3 種疾病作為待融合結果。
②W&D 模型:
W&D 模型,結合淺層模型的記憶能力和深層模型的泛化優勢,進行學習和推理,模型示意圖如下。

圖3 W&D 模型
1.2.2 傳染病知識圖譜 以權威文獻為基礎,利用信息抽取、語義表示自然語言處理技術,并以專家共識作為有效補充,搭建傳染病知識圖譜。傳染病知識圖譜包括病原微生物、傳染病流行病學特點、病程階段、臨床表現、檢驗、檢查、治療及歷史上該傳染病事件相關內容。
醫院上線系統以來,可按照我國法定報告的甲、乙、丙3 類傳染病做特定篩選統計,對相應就診患者進行動態監測,同時通過靜默檢測預警結合主動嗅探預警設置做傳染病的精準預測,幫助醫院及時準確掌握傳染病患者就診情況,并做相應準備和預防工作。
靜默監控預警是指在不影響醫生任何診療行為前提下,基于醫院每天自然產生的數據進行預警。傳染病AI 預警引擎嵌入門診全系列系統中,在問診過程中,實時聽取醫患問診時的溝通對話,進行語義分析與結構化處理,通過流行病學分析模型及指定時間段的疑似數據綜合判斷,分析得出傳染病概率P>0.8時,主動提示醫生進行預警分析,并將分析報告發給相應專家復審、評估。同時,針對監控預警報告進行日志可視化,重點病歷進行標注,上傳預警中心進行分析展示。靜默檢測界面見圖4。

圖4 靜默監測界面
主動嗅探預警是指當靜默監控預警結論通過專家復審,啟動流行病學信息采集器來采集更多臨床信息支持預警計算。該采集器會集成醫院搭建的智能導診系統、智能預問診系統、診室聽譯機器人及診后隨訪系統數據,針對具有疑似特征患者進行深度詢問,主要體現:導診、預問診按照特定的流行病學史詢問邏輯自動采集數據;門診輔助機器人智能引導醫生圍繞流行病學史進行詢問,輔助醫生給患者開具相關檢驗檢查,以供醫學診斷模型分析;診后隨訪系統針對疑似患者詢問康復信息,詢問密切接觸者的健康狀況等;匯總所有數據后,同步更新傳染病AI 預警模型分析模型的結果,輔助專家二次確認。主動嗅探觸發界面見圖5。

圖5 主動嗅探觸發
針對靜默監控系統日志與預警信息,通過監控空間特征和時間特征,及時對傳染病進行預警。系統預警記錄見圖6。

圖6 系統預警記錄
預警中心做出決策后,醫院、社區衛生等機構,將聯系該患者進行相應的檢查、檢驗。一旦確診,職能部門進行傳染病上報。
傳染病預測通常分為定性預測、定量預測和綜合預測,主要對傳染病進行時空分布描述、發展變化趨勢描述。常用的分析方法有單一預警模型(時間模型[16]、空間模型[17])、組合預警模型(時空模型[18]、關聯模型(如癥狀-疾病關聯模型[19])、信息可視化展示[20]、區塊鏈技術應用[21]、人工智能技術賦能[22]、物聯網增效[23]等。常用的是時間序列模型中的CUSUM 模型、AR1MA模型。如利用ARIMA 模型進行某區域手足口病發病趨勢分析[24]、猩紅熱發病趨勢預測[25]、乙型肝炎發病率預測[26-27]等。
基于數據模型開展傳染病預警研究是近年來公共衛生領域的研究熱點,國內外學者大多都以病歷、癥狀、互聯網大數據等作為監測資料[28],利用統計學方法、數學方法或物理學法搭建模型,同時將新一代信息技術作為輔助方法用于完善模型的建立與運行。結果顯示,現有國內外研究對于傳統傳染病預警效果較好,但對于新發傳染病的預警效果欠佳,影響傳染病模型預警效果的主要原因可能:一是受數據及時性、準確性和敏感性及數據類型局限性的影響,模型只能在單一傳染病預警中表現較好或在某一階段的傳染病預警中表現良好;二是數據格式的統一化程度會影響傳染病預警的準確性。
本研究基于醫療全周期臨床真實世界數據建立的新發傳染病監測預警系統,一方面數據資料及時、全面、準確、可用,另一方面基于數據挖掘技術的定性定量相結合的思路提高了EIDs 預警的及時性,提升了重大EIDs 的預警靈敏度,達到快速、及時、動態監測預警,對于提高疫情防控的效率和效果,使防控關口前移,具有重要意義。