王士泉,陳忠民,李 蓉,張 瑞,蔡 玥,李 偉*
(1.東華軟件股份公司,北京100191;2.火箭軍特色醫學中心核輻射損傷與監測研究室,北京100088;3.火箭軍特色醫學中心健康管理科,北京100088;4.國家衛生健康委統計信息中心,北京100044)
全民健康保障信息化工程一期項目(以下簡稱“全民健康保障信息化工程”)是國家政務信息化工程建設中的重點。該項目依托國家電子政務外網和現有信息化基礎,以城鄉居民電子健康檔案、中西醫電子病歷和全員人口信息為核心,綜合運用云計算、大數據、新一代移動互聯網等新興信息技術,有效整合衛生計生信息資源,實現跨地域跨部門的信息共享,上下聯動,醫療、醫藥、醫保協同,從而有效提高我國衛生計生服務能力、綜合監管能力和信息服務能力,促進多部門合力解決社會突出問題,以滿足人民群眾多層次、多樣化的健康需求。
截至2018年,全民健康保障信息化工程已經采集并存儲了大量數據,包括全員人口、電子病歷、居民健康檔案、衛生統計、委屬(管)醫院上報等信息。但是這些業務信息分散在各應用系統中,亟須匯聚融合并有效利用,因此需要在擁抱信息化、迎接大變革、推動大健康、實現大發展的時代背景下構建深度應用[1]。本研究通過融通各類結構化、非結構化及半結構化的數據資源,建設一套全民健康保障信息化工程大數據分析系統,進行深度挖掘,輔助全民健康保障信息化工程在分級診療制度、現代醫院管理制度、全民醫保制度、藥品供應保障制度、綜合監督制度等維度打造示范應用[2]。
健康醫療領域的大數據分析有別于傳統常規業務工作中的統計分析,更強調從大量、多維度的原始業務數據中發現趨勢以及變化規律、異常現象、關聯因素等。大數據在分析過程中普遍采用人工智能方法,包括量化(如對病案首頁中文本的處理)、分類(如基于特征提取的疾病分類)、搜索(如多模異構病例數據的關聯檢索、模糊匹配)、關聯(如人口、死因、體征等信息的融通后表達)、預測(如基于病案首頁的費用預測)、推理(如基于流行病學的擴散分析)等[3]。
全民健康保障信息化工程覆蓋了綜合管理、公共衛生管理、醫療健康服務、基本藥物運行監測、衛生服務質量與績效、全員人口統籌等業務領域,如圖1所示,涉及服務范圍廣、業務數據量大,這對數據分析、業務響應速度和效率提出了更高的要求。但是傳統的應用開發技術與數據處理方法難以滿足全民健康保障信息化工程對龐大數據量的分析要求,大數據技術卻能提供更好的支撐。全民健康保障信息化工程的六大示范應用中均有大數據分析業務需求。從系統集約化建設角度來看,將六大示范應用領域對大數據分析的需求進行提煉、歸納,并構建統一的技術服務體系與架構顯得尤為關鍵。

圖1 全民健康保障信息化工程六大示范應用
全民健康保障信息化工程作為國家衛生信息化基礎支撐環境,其大數據分析的主要目的是對基本業務應用大數據進行綜合分析,包括但不限于醫療服務質量與績效評價分析[基于疾病診斷相關分組(diagnosis related groups,DRGs)的大數據決策分析、重點科室DRGs分析、醫療資源配置與能力評估分析]、藥品分析(基本藥物制度運行評價、藥品價格比較、藥品應用分析)、三大基礎庫分析(電子健康檔案庫分析、電子病歷數據庫分析和全員人口庫分析)以及對國家發布的一系列與醫療衛生相關政策的分析,從而輔助國家衛生健康相關政策的制訂,對政策落實情況進行跟蹤和預測(包括醫改政策、公共衛生政策、醫療服務政策等)。
以“健康中國2030”為主線,按照“整合、優化、共享、外包”的理念,整合資源、系統、服務,建設全民健康保障信息化工程大數據分析系統,從而支撐公共衛生、區域醫療、臨床科研、個人健康等服務。根據六大業務場景(即六大示范應用)的劃分,設計全民健康保障信息化工程大數據分析系統總體業務功能框架,如圖2所示。
國家全民健康數據中心為全民健康保障信息化工程提供大數據分析所需的基礎業務數據資源,包括基礎數據資源(全員人口、健康檔案、電子病歷等)、來自于業務應用系統的數據資源[44家委屬(管)醫院上報信息、基層醫療衛生服務及績效考核評價信息、醫療資源監管與服務信息、醫療質量監管信息、婦幼保健信息等]以及歷史數據[包括衛生統計直報數據(機構信息、報表信息、病案信息等)]和人口數據(死亡登記、出生登記等)。

圖2 全民健康保障信息化工程大數據分析系統業務架構
大數據分析系統作為全民健康保障信息化工程的基礎系統,涵蓋了從數據處理到數據分析、服務實現到服務管理,而不同功能面向的問題域不同,其實現機制也不盡相同,因此在系統建設中需要采用多元化的技術路線,以滿足系統功能、性能、安全等需求。
系統技術路線采用以容器、微服務、DevOps技術為基礎的云原生技術體系,從技術服務模式上可以劃分為IaaS(Infrastructure as a Service)層面、PaaS(Platform as a Service)層面和SaaS(Software as a Service)層面。
在IaaS層面,由云服務運營商來提供基礎網絡接入與云技術支撐,包括云計算服務、云存儲服務和云網絡服務。其中,云計算服務包括x86云主機、裸金屬、彈性伸縮、鏡像服務、云桌面及GPU云主機;云存儲服務包括云硬盤服務、對象存儲服務、文件存儲服務、云網盤服務、云主機備份及云硬盤備份;云網絡服務包括vRouter、Floating IP、負載均衡、網絡地址轉換(network address translation,NAT)網關、私有網絡(virtual private cloud,VPC)、域名系統(domain name system,DNS)等。
在PaaS層面,由平臺承建商提供核心能力,包括基礎技術層與技術服務層。其中,基礎技術層包含大數據技術服務(包括數據平臺MapReduce、列數據庫Hbase、流計算Storm、內存計算Spark、數據倉庫Hive、實時計算Flink、MPP引擎、搜索服務Elastic-Search)、中間件服務[包括微服務架構引擎、開發流水線(應用開發)、API服務網關、分布式緩存服務Redis、分布式消息服務RabbitMQ、分布式消息服務Kafka]和數據庫服務(包括云數據庫MySQL、SQLServer、PostgreSQL、MongoDB以及分布式關系型云數據庫)。技術服務層包括全局序列、分布式任務調度、統一認證、統一時間服務、工作流引擎、規則引擎、微服務框架、加密服務、分布式事務、數據脫敏、分布式緩存、分布式對象存儲等組件。
在SaaS層面,由各應用模塊的具體研發單位提供業務服務支持。在開發層,以Java EE Web技術體系為主。后臺采用基于模型-視圖-控制器(model-viewcontroller,MVC)模式、對象關系映射框架(object relational mapping,ORM)模式以提高系統的靈活性、重用性和維護性,其中MVC選擇的框架是SpringMVC,ORM選擇MyBatis。前臺采用HTML5、BootStrap框架。前后臺交互采用Http+JSON方式實現。在數據層,系統數據存儲主要采用關系型數據庫、NoSQL數據庫和分布式文件系統。其中,關系型數據用來存儲數據資源中的基礎業務數據和字典數據,主要是各類結構化業務數據,提供對數據查詢、信息驗證等數據服務的支撐;分布式文件系統用來存儲數據資源中的數據倉庫主題數據和專題數據庫中的專題數據,主要是結構化數據、半結構化數據和文件,并結合數據批處理技術,提供對數據分析應用的支撐;NoSQL數據主要存儲面向應用具體需要的緩存數據,支撐對性能、并發性要求較高的應用。數據處理主要采用SQL、批處理和流處理相關技術,以支撐數據查詢、數據分析的需要。在服務層,系統采用面向服務的架構,基于高內聚、松耦合的設計思想,按照統一的標準,將系統對外提供的共享功能均封裝為服務,并通過服務總線進行統一管理。對于需求變化大、訪問并發數高的服務,采用微服務方式,將服務細分為可獨立部署的微服務,并采用開發運維工具(DevOps)和容器技術實現自動化的部署,基于云技術實現服務資源的彈性伸縮,以滿足性能和擴展性要求。同時,系統對外服務接口統一采用Restful Web Service技術,并通過JSON格式傳遞信息。
全民健康保障信息化工程大數據分析系統的技術架構是在可擴展的分布式數據庫與大數據技術支撐體系的基礎上,結合全民健康保障信息化工程的實際情況而設計的多層、可擴展框架結構,如圖3所示。架構的核心建設內容分為數據源層、數據整合層、分布式數據存儲和處理層、展現與分析層、應用發布層及用戶層6個部分,數據治理服務貫穿于其中。大數據分析系統的用戶主要面向國家衛生健康委員會各司局、國家衛生健康委統計信息中心以及中國疾病預防控制中心等業務分析人員,且系統支持與醫療保障、藥監局、民政、公安等外部機構進行信息交互。

圖3 全民健康保障信息化工程大數據分析系統總體技術架構
系統利用綜合分析工具、數學分析模型與展示工具完成衛生政策綜合分析與決策支持、委屬(管)醫院監管、醫改進程監測、慢性病監測與預警、基本藥物制度監測、醫療服務價格和成本監測、醫療資源配置與能力評估、醫院運行監測、成本收益監測、醫療質量監測等統計學分析[4]。針對管理者的不同需求,系統還提供多種配置方式,本系統可采用儀表盤、指示燈、曲線圖、直方圖、餅狀圖、報表等方式展示分析結果及數據[5]。同時,系統利用各類綜合業務分析模型與數學模型對包含區域分級診療效果評價、醫療服務質量監測、醫療資源配置與能力評估、老齡化趨勢在內的多項應用提供分析工具與分析服務,實現在衛生政策綜合分析與決策支持、委屬(管)醫院監管、人口決策支持領域的大數據支持[6]。通過集成R語言及Cognos、Beyond BI等多種分析途徑面向業務人員提供數據挖掘、聯機分析、即席查詢和報表等多種功能[7]。
截止到2020年4月,全民健康保障信息化工程大數據分析系統的部分功能已經研發完成并上線,主界面如圖4所示。本文以DRGs分析、健康檔案庫分析、全員人口庫分析作為應用示范進行說明。

圖4 全民健康保障信息化工程大數據分析系統主界面
DRGs分析模塊包括重點專科評價、質量安全分析、數據模型分析、標桿對比等功能。其中,標桿是通過大數據測算得出的一個通用標準,分為常規指標與DRG指標2種。常規指標包括藥占比、耗材占比、死亡人數、平均住院日等,DRG指標包括組數、入組率、病例組合指數(case mix index,CMI)、中低風險死亡數等。在大數據分析系統中,選中任何一家醫院都可以與本省標桿、全國標桿、全國綜合醫院標桿進行對比,如圖5所示,通過雷達圖可清晰地看出各指標高低。
健康檔案庫分析模塊包括雙線轉診情況分析、二孩出生情況分析、健康指標分析、老年人健康分析、慢性病管理情況分析、健康檔案庫數據校驗等功能。本文以雙向轉診情況分析中的雙向轉診流向分析功能和二孩出生情況分析為例進行說明。

圖5 DRGs分析——標桿對比
雙向轉診主要是充分利用各社區醫院的服務功能和網點資源,促使基本醫療逐步“下沉”到社區,讓社區群眾危重病、疑難病的救治轉到大中型醫院。雙向轉診流向分析功能實現了對不同年份各省、市公立醫院轉往基層醫療衛生機構住院患者占比與基層醫療衛生機構向醫院轉診患者占比2個指標間的數據對比,如圖6所示。其中,公立醫院轉往基層醫療衛生機構住院指標的計算方法為:年末公立醫院轉往基層醫療衛生機構住院患者數/基層醫療衛生機構住院患者總數×100%;基層醫療衛生機構向醫院轉診患者指標計算方法為:(年末基層醫療衛生機構向上級醫院轉診人次數+轉入上級醫院的住院人數)/[基層醫療(門診人次數+住院人數)]×100%。

圖6 健康檔案庫分析——雙向轉診流向分析
同時,二孩出生情況分析中可以以柱狀圖的形式展現二孩出生人數的年度分布情況及各省份分布情況,如圖7所示。

圖7 健康檔案庫分析——二孩出生情況分析
全員人口庫分析模塊包括人口出生及死亡情況分析、人口老齡化分析、人口分布構成分析、人口婚姻狀況統計分析等功能。其中,對人口出生及死亡情況分析以柱狀圖的形式展現人口的出生人數、出生率、死亡人數、死亡率,以表格形式展現各省份的總人口、城鎮人口、城鎮人口占比、鄉村人口、鄉村人口占比、人口出生率、人口死亡率和人口自然增長率。各指標中出生率指某一地區在一段時期之內(通常指1 a)出生人數與平均人口之比,可反映出人口的出生水平;死亡率指某一地區一段時間內的死亡人數與該時期平均總人數之比。人口出生死亡情況分析如圖8所示。
人口老少比是反映一個國家或地區人口年齡結構的重要指標。人口老少比分析功能利用柱狀圖展現少年、老年人口數量,用折線圖展現老少比的變化趨勢,如圖9所示。人口老少比的數據來源于全員人口庫,人口數量指人口的絕對量,即人口總體中所包含的生命個體的多少。老少比的計算方式為:(≥65周歲人口數÷0~14周歲人口數)×100%。
大數據分析系統作為全民健康保障信息化工程的亮點,其所支持的業務和采用的技術是不斷變化的,因此系統建設不是一蹴而就的,而是要經過一個逐漸完善和演進的過程,將其提供的業務服務內容逐步豐富、粒度逐步細化[8]。通過實施全民健康保障信息化工程大數據分析系統,利用大數據信息處理技術與分析方法,對醫療服務質量與績效、三大基礎庫進行分析,可以有效提升衛生行政部門科學決策、綜合監管以及信息服務能力,促進多部門合力解決社會突出問題。當然,本系統在界面友好性、兼容性、數據分析粒度與維度以及跨機構應用場景拓展等方面仍有不足之處,將在后續工作過程中逐步完善[9]。

圖9 全員人口庫分析——人口老少比分析