許文韻
(福建醫科大學附屬協和醫院信息管理處 福州 350001)
2016年6月國務院印發《關于促進和規范健康醫療大數據應用發展的指導意見》(國發辦〔2016〕47號),指出要夯實健康醫療大數據應用基礎,推進公共衛生大數據應用,認為健康醫療大數據應用發展將帶來健康醫療模式的深刻變化,有利于激發醫藥衛生體制改革的活力,提升健康醫療服務效率和質量[1]。2016年10月原國家衛計委啟動第1批健康醫療大數據中心與產業園建設國家試點工程,確定福建省、江蘇省以及福州、廈門、南京、常州為第1批試點省市,其中福州立即啟動國家健康醫療大數據中心建設工作。該項目是國家健康醫療大數據南方中心重要組成部分,旨在整合匯聚福州市乃至福建省人口健康醫療數據,加快“互聯網+醫療”的發展,深化醫療衛生體制改革,引領福州市健康醫療產業鏈和數字經濟發展。
2016年10月21日原國家衛計委啟動第1批健康醫療大數據中心與產業園建設國家試點工程。2017年1月與中電數據簽訂合作框架協議,確定中電數據為健康醫療大數據中心與產業園建設國家試點工程(福州)的建設和運營主體單位。2017年4月確定“一個辦法,兩大平臺,一個中心,兩個基地”的建設方案,即《福州市健康醫療大數據資源管理暫行辦法》(“一個辦法”)、國家健康醫療大數據平臺(福州)和國家健康醫療大數據安全服務平臺(福州)(“兩個平臺”)。2018年6月作為健康醫療大數據中心與產業園建設國家試點工程(福州)的核心基礎設施,東南健康醫療大數據中心奠基動工,標志著試點工程進入實質性建設階段。2018年11月29日健康醫療大數據中心與產業園建設國家試點工程(福州)成果發布暨在榕生態企業投資簽約活動在福州舉行,福州市人民政府向中電(福建)健康醫療大數據運營服務有限公司頒發數據授權證書,正式授權該公司運營國家健康醫療大數據平臺(福州)。
健康醫療大數據中心的物理基礎設施選址于福州濱海新城中國東南大數據產業園。中心占地60畝,規劃建成投產15 000個機柜,用于存放福州市以及福建省內部分縣市的健康醫療數據。園區擁有福州國家級互聯網骨干直聯點及超算中心,為大數據開發應用提供良好的硬件條件。其架構包括統一運維平臺、安全運維平臺、分布式云數據中心、數據中心操作系統、大數據服務支持平臺、服務運營平臺,見圖1。

圖1 健康醫療大數據平臺架構
作為平臺底層的基礎設施,中心選用高安全、超融合并且技術自主可控的基礎硬件設備,提供大量計算、存儲、網絡資源,具有可靠、高效的基礎支撐作用。在硬件設施基礎上形成分布式云數據中心,除支撐健康醫療大數據上層應用需求外,還可綜合對外提供計算、存儲、網絡、安全等基礎設施即服務(Infrastructure as a Service,IaaS)。平臺數據匯集采用大規模并行處理,分布式地采集、處理和交換數據,按照對應業務數據模型抽取、轉換、加載(Extract-Transform-Load,ETL)到目標數據庫中。在此基礎上對外提供多種大數據分析架構服務接口,支持Hadoop、Spark等主流大數據開發架構,具有數據湖、認知計算、分析、數據治理等大數據服務。統一對運維平臺和安全運營平臺進行安全準入、身份甄別、授權管理、安全保障等管理工作,為數據運營保駕護航,切實保障數據安全。
福州市政府出臺《福州市健康醫療大數據資源管理暫行辦法》,為數據采集提供政策依據。平臺采用分布式采集數據模式,在福州市各級衛生醫療機構設置前置機,在前期批量采集數據的基礎上,每日增量采集醫療機構中醫院信息系統(Hospital Information System,HIS),電子病歷系統(Electronic Medical Record,EMR),實驗室信息管理系統(Laboratory Information Management System,LIMS),醫學影像存儲與傳輸系統(Picture Archiving and Communication System,PACS)4個主要業務系統數據,傳輸至大數據中心的臨時數據庫中進行ETL處理。針對不同醫療機構數據分別進行清洗、標注工作。
該平臺通過了信息安全等級保護3級測評,執行相關安全規章制度。數據僅對經過授權使用的機構根據授權范圍開放。目前只允許東南大數據產業園園區內經授權機構接入平臺使用授權數據,數據不出園區,確保安全。
經過幾年發展,福州市健康醫療大數據平臺已完成37家市級機構HIS、EMR、LIS、PACS 4個主要業務系統數據采集、匯聚和治理以及34家醫院歸一化處理工作,共涉及數據表67 751張,結構化存量數量總量10TB(200億條),X線,電子計算機斷層掃描(Computed Tomography,CT),磁共振成像(Magnetic Resonance Imaging,MRI),B超,心電等非機構化數據已入庫140TB左右。共制定元數據規范10 000條及數據字典500個,近300個臨床數據集,基本完成福州市數據采集及標注工作,為下一步數據深化治理及生態企業數據服務打下堅實基礎。
福州健康醫療大數據在醫學科研、精準醫療、智能影像、慢病管理等方面的應用都取得一定成果。例如依托福州健康醫療大數據中心,聯合肝病、肝癌大數據聯盟,將全國主要肝病專科醫院、肝病醫學中心等的相關數據匯聚到福州,建立全國肝病和肝癌大數據平臺,通過輔助診斷和智能分析進行肝癌早篩。在研究健康醫療大數據基礎上,結合人工智能技術實現CT影像肺結節篩查服務,可快速精確發現早期肺癌可疑偵像。部分科研成果處于測試階段,有望很快進入臨床應用。
3.1.1 數據局限性 4年來國家健康醫療大數據中心(福州)對其下屬37家市級醫療機構以及基層衛生院數據進行采集。目前中心獲取數據的來源途徑較為單一,主要限于福州市市級醫療機構,尚未涉及省屬醫院醫療數據。而省屬醫院尤其是省屬三甲醫院的醫療數據對于疾病診療和科研具有重要價值。
3.1.2 數據壁壘存在原因 (1)醫療數據所有權問題。患者就診產生的醫療數據所有權歸屬是一個復雜問題。現行法律法規對此并無明確規定,可能成為后續大數據開發和應用過程中的法律隱患。鑒于數據所有權不確定性,醫療機構向第3方機構提供所保管的患者醫療數據是否會侵犯患者隱私權等合法權利無法得到確認。而健康醫療數據涉及居民個人隱私,其對外發送或開放面臨個人敏感信息泄露風險較大。要進一步推動國家個人數據信息屬權立法工作,不僅能保障國家安全和公民隱私,界定醫療機構合法權利,還能為大數據發展過程中價值流通和放大創造條件。(2)醫療機構信息化資源限制。隨著醫療信息化發展,機構內部對信息化資源需求日益增加。而醫療機構對信息化的投入遠遠不及資源需求增速。對醫療機構進行數據采集會額外占用信息化資源。事實上衛生醫療主管部門已建立各類醫療監測、管理平臺,例如居民健康檔案,醫院質量監測系統(Hospital Quality Monitoring System,HQMS),醫保體檢審核付費系統,孕產婦信息監管平臺,采集醫院內病人診療和影像數據、病案首頁數據、體檢數據、孕產婦孕檢分娩信息等,涵蓋大部分院內醫療信息系統。多個對外接口數據傳輸已經占用閑時信息化資源比例較大。建議各級衛生主管部門理清各相關部門數據概況,開展數據資源梳理、資產目錄編制和登記工作,以此為基礎做好頂層設計,統籌兼顧,整合多個數據采集接口和平臺,實現數據統籌,爭取做到“一數一采”,充分重復利用,減少信息化資源投入。統籌健康醫療大數據信息系統建設,防止重復建設造成資源浪費[2]。同時要合理設計數據匯聚范圍和方式,界定對醫療機構進行數據匯聚的時間跨度、內容和范圍,盡量做到“最小夠用”。避免“一鍋端”模式,降低大數據中心與被匯聚醫療機構間數據流動風險。合理設計匯聚方式,平衡采集和接收端數據處理成本。
3.1.3 非臨床健康數據發展滯后[3]隨著科技的發展,智能可穿戴設備的涌現、健康管理醫療機構的興起、基因檢測的普及,很多“互聯網+”健康企業、生物高新技術企業擁有一定數量人口生理健康數據,例如居家自我檢測的醫學數據,基因序列、蛋白質組等生物醫學數據。這些數據對于醫療科研、疾病防控同樣具有較大價值。鑒于各類企業采集數據可靠性以及信息孤島普遍存在,目前開放整合相關產業采集的健康數據較困難。未來這些數據也應納入健康醫療大數據體系。推動實現醫療健康數據互聯互通,消除數據壁壘,聯通數據孤島,真正推動健康醫療大數據的充分利用。
3.2.1 問題分析 不同醫療機構所使用管理信息系統結構不一,導致醫療數據標準、格式差異較大。目前采用的方式是直接采集各醫療機構基礎數據,傳輸至中心后再根據各醫院系統數據結構有針對性地進行清洗標注。隨著采集來源增多,依賴行業專家人工清洗海量數據耗時較長,且對原始數據關系梳理進一步加重工作負擔。這不僅提高處理成本,也增加ETL復雜性。
3.2.2 應對措施 加強各醫療機構的信息化建設以及標準化改造。信息化建設要以電子病歷為核心,按照電子病歷等級評審要求進行醫院管理信息系統建設,以滿足數據匯聚接口要求。加大技術研究,制定統一標準和技術要求,各醫療機構按照統一的數據匯聚接口要求提供數據,這樣只需按照醫療機構類別進行處理,提高治理效率,降低處理成本。
3.3.1 數據利用率較低 主要原因包括以下兩方面:一方面,數據屬權立法空白,出于嚴格保護患者個人隱私需要,對于所提供數據的處理較謹慎;另一方面,為保證數據安全,目前只授權健康醫療大數據產業園內企業和科研機構使用中心數據,產業園外機構無法接入,數據利用率不高。
3.3.2 應用成果有限 基于現有數據已經產出部分科研成果和大數據應用,但數量有限,很多成果尚處于研究階段未投入臨床驗證。運用醫療大數據的渠道和方式較為單一,如電子病歷數據共享、圖像檢測等應用,遠未充分其應有的價值。2016 年國務院發布《“十三五”深化醫藥衛生體制改革規劃》,提出健全基于互聯網、大數據技術的分級診療信息系統;應用藥品流通大數據,拓展增值服務深度和廣度[4]。這意味著健康醫療大數據應用不僅限于醫院診療過程中,還應貫穿整個人類健康中,包括藥物研發、臨床診斷與治療、保險支付和商業保險設計以及健康管理和公共衛生服務等環節。
加強區塊鏈等新技術應用,建立可信、透明、可追溯的數據交換業務協同體系。增加數據安全保障機制,在保證患者隱私和數據安全前提下,開放接入地域限制,增加接入科研機構數量,擴大數據利用范圍,提高匯聚數據開發利用率。促進相關研究,推動醫療行業大數據應用向更深、更廣層面發展,使科研成果盡快投入臨床驗證和使用并以此反哺于數據來源機構,應用于基層醫療服務,形成良性循環,進一步加強醫療機構數據匯聚積極性。
健康醫療大數據已納入國家大數據戰略布局,加快健康醫療大數據中心建設能夠促進醫療服務發展和醫療資源合理流動,不斷滿足人民群眾多層次、多樣化健康需求。加強政策支持,繼續匯聚更多醫療機構數據,加快大數據科研和科研成果轉化,培育健康經濟新動能是健康醫療大數據中心發展方向。