(山西云時代技術有限公司 山西 030032)
以習近平新時代中國特色社會主義思想為指導,全面貫徹黨中央、國務院的決策部署指導,面向醫療保障的重點環節,持續推進全國醫療保障標準化、智能化和信息化。全面落實全國醫療保障工作會議座談會、全國醫療保障工作會精神,嚴格遵循國家醫療保障局醫療保障信息化工作指導意見及醫療保障信息平臺建設指南。重點加強頂層設計、統一業務標準、打造基礎平臺、做好數據匯集、強化協同共享,在依托國家基礎信息資源的情況下,落實國家統一電子政務網絡及數據交換平臺。不斷提高全省醫療保障能力和服務水平,以信息化建設為助力推動全省醫保覆蓋與醫保控費,成為全國醫療保障信息化的一股強勁力量。努力解決省醫療保障領域重點、難點、熱點問題,積極推動醫保、醫療、醫藥“三醫聯動”。助力提高醫療改革整體效果,為全面實施健康中國戰略提供醫療保障信息化支撐。
2019 年1 月4 日,國家醫保局發布了《關于醫療保障信息化工作的指導意見》,統一規劃部署了14 個子系統,在業務管理系統群模塊規劃了宏觀決策大數據應用子系統、信用評價管理子系統等,而這些子系統的搭建需要醫療大數據的數據支持,為數據中臺的構建提供業務和理論支撐。醫藥業收集了大量數據,數據的類型和數量還在增加,但在過去,醫療數據沒有被有效處理過。而且我們國家還面臨慢性病發病率的增加,臨床決策的不精確,醫療資源的分配不當,反復診斷和治療等等。打通底層數據,構建互聯互通的數據平臺,數據互通可以優化各應用場景的體驗,各應用場景產生的數據又可以進一步豐富數據,由此形成一個價值閉環。從政策角度出發,醫療是關系國計民生的高監管行業,數據中臺負責前沿技術研發并承擔數據的采集、存儲、傳輸、跟蹤的任務,提升市場化競爭力,為挖掘醫療大數據的價值提供支持。
目前醫保行業已經沉淀海量的存量數據,且每年還將在持續的增長;數據分散在各地市、和人社其他系統數據在一起,沒有統一割裂集中;建設廠商多、雖然參考核心平臺三版標準、但在實施過程中各廠家差異標準不統一;從政策角度出發,打通各地市數據、建立省級集中、統一標準的數據中臺,為挖掘醫保數據的價值提供先決條件,為支撐醫療保障信息化建設打下夯實的基礎。
某省醫保局數據分布在各個地市和省直,醫保核心系統由7 個核心供應商建設,涉及17 個庫,標準不一,數據量大,數據治理工作任務繁重。現場的數據治理工具,不穩定,性能與易用性欠缺。主要存在以下問題:
體量大。醫療數據體量巨大,一個省的醫療健康數據要以TB、PB 量級存儲和管理。
多態性。數據源是各種各樣的,并且涵蓋了多種類型數據,多種結構的數據對數據治理能力是一項重大考驗。
不完整性。就醫數據的收集和處理常常被分割,導致醫療資料庫難以完整體現出所有相關信息。很多數據都來自手動記錄,導致數據記錄的偏差和殘缺。科室、診斷信息等關鍵信息缺失量大,空值率高。
冗余性。醫保每日會產生大批量數據,同一個人可以在不同的醫院藥店創建相同的信息;整個醫學數據庫包含許多重復的和不相關的信息。無效信息缺少標識,造成數據冗余量大。300 萬的參保人,庫里卻有600 多萬參保人信息。
時效性。數據生成速度非常快更新速度非常高,許多數據的獲取時間每周、每天、每分鐘甚至每秒都在不斷更新。因此要求更高的響應速度和治理速度。
隱私性。數據隱私是醫療大數據的重要特征。醫療和衛生數據如疾病、診斷和基因數據等泄露將對個體造成負面影響,也會導致公民權利受到侵犯。
隨著大數據時代的來臨,各行各業開始認識到數據的價值。把數據視作寶貴財富,已經成為業界的一種共識,企業也在快速探索應用場景和商業模式,并開始構建數據平臺。如果在大數據“拼圖”中遺忘了數據治理,那么技術投資就可能毫無意義。因為沒有數據治理這一環節,其帶來后果往往是:隨處可見的數據不統一,難以提升的數據質量,難以完成的模型梳理,難以保障的數據安全等等,源源不斷的基礎性數據問題會進一步產生,進而導致數據建設難以真正發揮其商業價值。因此,消除數據的不一致性,采用標準化的數據標準,提高數據管理能力,實現數據安全共享,并將數據作為公司在企業、管理和戰略決策的寶貴資產使用,發揮數據資產價值變得迫在眉睫,數據治理呼之欲出。企業通過制定戰略方向,建立組織架構,明確分工責任,控制數據風險,滿足安全標準,提高業績和增加價值,并提供創新的大數據服務。
數據治理平臺是為企業用戶打造的一站式數據建倉和治理平臺,由數據地圖、數據血緣、數據標準、數據模型、數據質量、數據集成、數據安全、元數據管理等功能模塊組成。目標是解決數據治理過程中數據不集中、標準不統一、質量不可控、交付周期長等一系列問題,通過標準化工具和智能化方法,將雜亂無章的基礎數據治理成有價值的數據資產,實現數據的價值化和業務化。
數據治理平臺依托 Postgresql 數據庫加 Hadoop 混搭架構的大數據平臺,提供海量數據的存儲和大規模并行計算能力,支持 PB 級以上的數據存儲和海量數據加工處理,實現海量存儲和高效的數據處理。采取數據分層架構的方式,治理了28 萬個目錄,存儲了逾幾十TB 的數據,實現全面的數據覆蓋。提供從數據探查、數據標準建設、業務模型建設到數據共享服務的全流程業務支撐,由元數據管理、數據地圖、數據探查、數據標準、數據模型、數據質量管理、數據清洗等功能模塊組成。數據治理涉及的各個人員和角色如數據治理管理人員、業務領域數據分析師、數據科學家、數據架構師、部門IT 人員等都可以使用該平臺完成各自在數據治理和運營過程中的任務和工作。依據保密安全和信息安全體系框架和管理要求,基于數據分類分級安全管理策略矩陣,通過統一安全認證平臺接入、堡壘機、VPN,涉數操作行為審計在技術層面實現了事前、事中、事后安全控制,實現數據安全模塊的研發落地,為數據服務體系奠定堅實數據安全基礎。
(1)標準管理
以支持數據應用為出發點,數據治理標準以國家標準為依據,參考省級在用標準,制訂出適合省醫保數據應用發展的數據標準。
(2)數據標化治理
由于目前系統中數據范圍大,標準不一,差異性較多,所以針對數據中臺內數據模型設計必須充分考慮數據源多,數據結構復雜的問題,因此采用分層建設模型,且有一定的建模規范作為支撐。分層的主要目標是不同的分層有不同的職責和作用,可以方便定位和理解數據,更快速響應外部需求。數據中臺的模型分層主要包括:數據交換層、數據貼源層、數據治理層、數據整合層、數據集市層、數據服務層。其中:
數據貼源層:表結構與源系統一致。貼源層對來自所有源系統的數據進行統一存儲和管理。針對本省數據特點,增加聚合緩沖區,主要針對17 個源數據,按7 個廠商標準進行輕度聚合。
數據治理層:對貼源層數據標準和質量校驗規則進行數據轉換和清洗工作,標準化、規范化明細數據,發現問題數據的區域。
數據整合層:數據整合層用來存放整合后的歷史數據,存放的格式采用邏輯模型進行存儲,數據經過加工和轉換,與原始貼源層的數據結構完全不同。
數據集市層:主要是為應用提供數據服務,數據集市中的數據結構,要按照數據應用主題的需求進行獨立設計,數據庫能力要匹配相應的應用場景需求。
(3)數據問題稽核優化
由于各地市政策各異,導致數據完整性、規范性等方面,需要針對具體問題進一步細化及優化。比如:居民的繳費收入,經過核查,各地市的財政補貼數據基本缺失,會影響征繳數據統計;涉及行政區劃未按國家標準進行存儲、生存狀態缺失等部分數據,下發各地市從源頭進行整改,進行追蹤核查,跟進數據問題修復。
目前治理了2017 年以來全省醫保業務系統數據。幫助醫保局收集與沉淀數據,加速醫保數據資產形成,解決數據不一致問題,進而支持業務的決策和優化。
提供大屏快速配置,以供展示組件編排、排列組合的能力,滿足醫保局數據匯報和展示的需要。通過抽象、梳理、整合可復用能力和場景,提煉為可被業務單元引用的基礎能力并下沉,滿足醫保局快速響應政策需要。通過對數據的顆粒歸倉和主題預置,保持對潛在新型數據智能應用的條件就緒狀態,支持新應用的插件式載入與上線。
醫保系統的數據治理是一項持久的攻堅戰。要結合新醫保系統建設,檢驗并優化數據治理成效,加強技術手段和管理干預措施,持續推進數據質量提升,保持與國家局數據標準團隊的緊密溝通,及時更新數據標準。