胡龍軍,高文學,蔡國君,王聰健,侯冷晨,楊佳芳,1c,陳懇,陳躍軍
1. 同濟大學附屬第十人民醫院 a. 醫務處;b. 臨床研究辦公室;c. 信息處,上海 200072;2. 上海森億醫療科技有限公司,上海 201203
科研已經成為臨床醫生一項非常重要的工作內容[1]。然而,臨床業務工作占據了醫生大部分時間,使醫生在科研上投入的精力相對有限。另外,在科研過程中,病歷數據的查詢和收集也占據大量時間,延長了醫生的科研周期[2]。能否使醫院醫療大數據快速有效的被應用已成為臨床科研發展面臨的重要挑戰。目前,人工智能在虛擬助理[3]、醫學影像[4]、病理診斷[5]、醫院管理[6]等廣泛應用,但醫院的大數據應用存在技術基礎薄弱、數據整合與挖掘難度高、應用需求和策略不明晰等問題,未能有效滿足臨床醫生科研應用需求[7]。
為使臨床人員能便捷、充分獲取院內數據,提升院內大數據的應用能力,現介紹我院基于人工智能開發的臨床研究信息平臺,以期為臨床人員提供臨床科研過程中數據的采集、分析和管理服務,從而提升醫院科研水平和綜合競爭力。
針對數據驅動的臨床研究場景,集成醫院海量臨床信息庫(HIS、EMR、LIS、RIS 等),基于自然語言處理、機器學習等AI 引擎實現各類醫學文本數據的結構化、標準化和歸一化等處理,形成可被臨床研究直接分析、利用的科研數據。基于治理后的數據,面向臨床應用提供輔助診療模型、專病知識問答、語義搜索引擎服務,最終實現面向臨床的數據需求功能(CRF 電子表單設計和數據分析)、數據檢索功能(簡單檢索和智能檢索)、隊列研究功能(篩選數據、交叉分析和訂閱數據)、隨訪功能(遠程隨訪問卷和智能健康咨詢)、數據安全功能(用戶權限管理和數據訪問管理)、數據展示功能(科研數據治理和科研數據概覽)等(圖1)。

圖1 臨床研究信息平臺系統設計
由于醫療領域的專業性和特殊性,醫學領域的自然語言處理技術落后于通用領域。在中文醫學領域,現有的自然語言處理工具僅能針對醫學文本做一些特定詞表和規則匹配,或是套用通用領域的自然語言處理模型,其效果和可靠性都難以達到使用要求。
本院開發的信息平臺,依托醫院內部海量語料數據,將入院記錄、病程記錄、檢查報告中的檢查所見、檢查結論、手術操作中的操作記錄以及出院記錄等語法、語義多樣的自然語句描述的非結構化醫學文本內容作為輸入信息,基于自然語言處理算法、深度學習算法,完成分詞、命名實體識別、關系提取處理過程從而實現結構化變量的輸出,進一步做標準化處理。人工智能技術處理醫學文本信息示意圖,如圖2。

圖2 人工智能技術處理醫學文本信息示意圖
另外,通過使用深度學習和自然語言處理自動化輔助構建的圖結構的術語網絡,整合醫學邏輯范疇網絡以及中文語用范疇網絡,使術語網絡同時具備精確性、形式性、計算性、可讀性等特點,讓人工智能可以通過網絡理解中文,理解醫學邏輯。
系統開發環境為Windows 和OSX,采用HTML5、Angular 和C#編程語言。采用容器云技術搭建分布式架構醫院信息平臺,與院內業務系統、院外隨訪系統對接,利用消息中間件實現各業務系統的數據整合。容器云架構中基礎設施層采用Kubernetes 進行容器編排,Ceph 進行分布式存儲,Flannel 構建虛擬子網;管理層負責發布、監控、管理信息平臺應用的服務;應用層通過Orion Health Rhapsody 消息引擎和Kettle 數據ETL 引擎,建立統一的數據交換接口,同業務系統與數據庫相獨立,雙方發生問題時都不會影響對方業務系統使用。臨床研究信息平臺硬件系統架構,如圖3。

圖3 臨床研究信息平臺硬件系統架構
未來,本研究項目將涉及多中心醫院數據,各分中心可通過VPN 協議發起申請,無需共享原始醫療數據,經線上線下結合的審批流程后直接返回數據統計結果和質量報告。
開發建成了具有“科研項目、智能搜索、隊列發現、隨訪管理、系統管理、科研駕駛艙”等六大功能模塊的信息平臺(圖4)。

圖4 醫院臨床研究信息平臺界面
該模塊可滿足用戶科研數據的定向需求,即用戶可在該系統中根據研究目的自定義設計CRF 電子表格模板,待模板需求信息明確后,可從智能搜索和隊列發現模塊中入組信息,對于遺漏空白內容,也可查找對應病歷信息針對性補充。
該模塊的數據探索功能可支持對定向需求中的科研數據的分析,包括數據清洗、數據查詢、統計分析和預測模型四部分。其中數據清洗能夠實現對數據進行自動或半自動化清洗,以及分析型變量的衍生,即缺失值與異常值的處理、數據轉換與分組、一個患者多條記錄數據處理等;數據查詢可對清洗后的數據進一步直觀了解;統計分析功能可幫助用戶對數據進行簡單描述性分析;預測模型功能嵌套了多種主流的機器學習模型,幫助用戶快速構建精度更高的疾病預后與診斷模型,同時基于構建的機器學習模型對研究疾病進行個體化的預測。
4.2.1 簡單檢索
支持直接輸入關鍵字、疾病、診斷、ICD 碼等任意搜索詞,可以搜到符合檢索條件的患者和病歷。在簡單檢索里面可以通過切換姓名、門診號、住院號、醫保卡號和病案號對相關患者進行精準檢索。
4.2.2 智能檢索
支持多條件、復雜組合、獨立變量、同一次就診、事件時序等高級檢索,支持對醫院系統的結構化信息(個人信息、就診信息、過敏消息、診斷信息)和非結構化信息(放射報告、入院記錄、出院小結、病案首頁)等進行檢索,同時支持對搜索結果進行細化和多條件關系再搜索。
以上兩種搜索結果,可根據“篩選工具”對患者的年齡、性別、病歷年份、就診類型、就診科室作進一步的篩選。
隊列發現模塊有三大功能:① 將智能檢索結果加入該模塊中,同時通過韋恩圖篩選符合研究要求的隊列數據,并進行可視化展示;② 通過韋恩圖對不同隊列數據進行交叉分析;③ 訂閱管理,當隊列數據量太少無法滿足研究需要時,設置數據訂閱條件,待醫院產生的新數據進入平臺后,符合條件的會自動進入研究隊列中。
用戶可在該系統中根據不同病種自定義設計隨訪表單模板,該系統可對微信綁定認證的隨訪患者推送表單,并會默認將對應隨訪表單作為微信消息的鏈接自動推送給患者,患者可通過微信公眾號打開查看并填寫,提交后數據會顯示在該系統對應表單里;另外,該模塊存儲大量健康知識庫,用戶可以通過綁定微信,輸入關鍵字,獲取相關健康內容。
系統管理是對用戶進行一些權限管理與數據安全管理,嚴格控制患者信息。給每個科室開放一個賬號,針對不同科室、科室內人員設置不同的數據訪問權限,若臨床人員從該平臺導出數據,需向臨床研究辦公室提出申請。
科研駕駛艙是對全院科研數據集中展示,包括數據治理中心和科研數據概覽兩大功能,其中數據治理中心從多個維度展現數據集成和治理工作成果(圖5),數據治理中心子模塊:基于各類醫學術語標準,將診斷、檢驗、藥品的文本信息歸一為2893 類、1041 類、6169 類;在此基礎上,已完成診斷、檢驗、藥品的標準化數據量為32498155 條、18233285 條、80900072 條;同時結構化各類檢查報告、病歷文書、入院記錄等文本信息1259019 份。科研數據概覽子模塊:可查看入組病例數、已錄入字段數、已進行隨訪次數等數據,用戶也可查看項目的進度情況,包括已結束、正開展和未發布等。

圖5 科研駕駛艙功能模塊中展示的全院數據治理情況
現有醫院信息系統已比較完善,但缺乏醫療大數據治理、分析、應用的信息化、智能化支撐平臺,導致基于醫療數據驅動的臨床研究受限。針對普遍存在臨床數據采集與醫院信息系統割裂、數據分散在多個應用系統(如檢驗、放射、病理等)、缺少患者隨訪跟蹤支持軟件[8]等問題,本院開發的臨床研究信息平臺可為醫院數據的存儲、采集、分析等提供一站式服務與管理。醫院科研人員不僅可快速檢索歷史數據,也能創建隊列收集實時數據,更能獲得智能化數據分析支持。目前,本院心內科與骨科已在該平臺建立單病種隊列研究項目,并實時獲取樣本數據,為其節省大量時間,極大提升科研效率。由于數據驅動模式是臨床問題發現的重要方式之一[9],該臨床研究信息平臺的建立,將解決長期困擾臨床醫生的數據難獲取問題,助力其解決臨床問題,提升個人臨床能力水平,促使醫院科研能力進一步發展,從而提高醫院整體競爭力。
隨著醫療衛生信息化建設的進程加快,醫療數據的類型和規模正以前所未有的速度增長,以至無法利用目前主流軟件工具,在合理時間內達到擷取、管理并整合目的[10]。針對不同來源和不同格式的數據,規范化的收集存儲是第一道工序[11]。然而,醫療信息以文本形式儲存為主,且存在歧義和非標準化描述,如何將其轉化為結構化可利用數據非常困難[12]。自然語言處理是人工智能領域重要基礎技術[13],目前自然語言處理在語義分析、知識庫建設和文本處理方面取得很大進展[14],可實現各類醫學文本數據的結構化、標準化和歸一化。另外,機器學習作為人工智能的一個重要分支[15],具有高效率、高準確性等諸多優點,其和醫學領域的結合已經成為當前熱點之一[16]。例如,梅奧診所借助其所研發的臨床文本分析和知識抽取系統完成對過往病歷、醫學文獻的解析及知識提取,最終形成機器智能輔助臨床診療[17]。可見,醫療大數據蘊含價值巨大,但如沒有人工智能發展及由此帶來的自然語言處理、機器學習等技術的進步,數據價值很難被挖掘和應用。所以說,隨著人工智能不斷發展,醫療大數據能被充分利用,必將發揮巨大價值,促進醫療健康事業快速發展。