摘要:近幾年來,隨著信息化技術的快速發展,其間產生了海量數據,推動人類開啟了大數據時代。為了適應醫院集成平臺構建過程中的需要,圍繞數據治理問題,就數據治理模式和方法路徑進行研究,以期望打破醫院集成構建的信息孤島,將醫院中現有的數據進行整合集中,通過數據治理不斷完善數據治理體系建設,持續強化數據分析能力,著力提升數據價值創造能力,以用于支持醫院在臨床科研,運營分析應用上的快速建設發展。
關鍵詞:醫院集成平臺;數據治理;大數據
一、前言
如今,數據已經在各行各業中滲透,成為了生產生活的重要要素。2022年2月,國家衛健委改革司,發布的《國務院醫改領導小組秘書處關于抓好推動公立醫院高質量發展意見落實的通知》[1],明確指出通過完善醫院運營管理體系,推動醫院高質量發展。隨著醫院數字化日益深入,醫院集成平臺的構建成為了各大醫院需要轉型的探索,而數據治理作為數據價值利用的基礎工程,其模式和構建策略,以及遇到的問題還未形成體系,并發展緩慢,亟待研究。
二、醫院集成平臺與數據治理
(一)醫院集成平臺現狀
過去十年以來,信息化建設是醫院系統數字化[2]的歷程,在此過程中醫院內部形成了許多獨立的應用系統,不同的系統之間通過接口完成通信,維護量大,容易出現故障。因此亟待建立以數據為中心的業務互聯互通,同時隨著應用系統的構建,信息孤島現象[3]出現在了數據應用體系之中。比如針對某一系統的決策分析方法無法應用到其他類似的系統之中。因此,需要構建統一的平臺搭建數據橋梁,將所有子系統獲取的數據類的分析方法,處理的技術,模型以及分析的結果進行集成,使得所有初始數據,產出數據,以及分析的結果可以集成在一個平臺上,解決子系統之間的信息孤島現象,同時可以將平臺數據應用到實際的臨床與科研工作中。
(二)醫院數據治理與醫院數據治理體系
國際數據管理協會(Data Management Assocation International DAMA International)將數據治理定義為數據資產管理的權威性和控制性活動,認為數據治理是對數據管理的高層計劃與控制,包括在數據管理和使用層面進行規劃,監督和強制執行[4]。醫院數據治理指醫院對其數據資產集中的管理和控制,支撐并確保數據被安全,高效地交換和應用。從數據治理的角度來看,狹義的數據治理[5]主要包含數據采集,整合,清洗,加工挖掘利用等。廣義的數據治理則還包含元數據整理、主數據管理,信息安全和隱私處理等。
醫院數據治理體系[6]是醫院數據利用的基礎,醫院數據治理體系的建設涉及國家,行業和組織等三個層次,包括資產地位確立,管理體制機制,共享開發以及因此保護等四項內容[7],需要從制度法規,標準規范,應用實踐和支撐技術方面多管齊下,提供支撐。構建醫院數據治理體系需要堅守三大原則:堅持整體系統思維,深刻認識醫院集成平臺數據治理的一般規律,堅持思維創新,探索新型醫院數據治理方法論,堅持安全思維,保障數據安全和人民群眾權益。
三、醫院集成平臺建設中數據治理存在的問題
數據不同于其他資源,是可以反復使用的,經過多次使用以后,仍然可以反復處理和挖掘利用。數據在多次使用的過程中,由于數據目標,使用用戶,方式等已經發生變化,對數據利用的要求也經常變化,這促使質量控制和數據治理成為了必然。而醫療數據系統來源不一,類型復雜多樣性。接口各式各樣造成集成難度大,數據治理形勢嚴峻,而且醫院質量控制能力水平參差不齊,尤其為滿足醫院對高質量發展的要求,數據治理、數據質量提高必然面臨諸多問題。
(一)數據整合和治理權責
醫院內部負責數據治理相關部門的權責不明,業務科室、信息中心、質控中心等多部門職責重疊或缺失,以及數據管理使用責任模糊。
同時醫院數據庫中有著大量非結構化數據,如PACS影像、心電數據,PDF文件,辦公文檔等以及二進制位圖數據等,同時各個醫療系統版本不一、不同的建設時期,異構數據源等致使數據治理成本和難度增加。除此以外各個醫療系統的病人數據、業務數據之間缺乏集成,面向社會公共服務的系統缺乏集成,難以形成統一對外服務平臺。
(二)數據質量問題與數據安全
大量個人隱私數據存在醫院醫療系統中,不同用戶訪問控制,安全設備、技術能力、數據安全管理制度、數據脫敏處理水平等不一,存在數據泄露或者被竊取的風險。數據安全性是醫院集成平臺治理過程中十分需要注意的重要問題,數據泄露很嚴重的一個問題在于數據的分類標準在制定的過程中存在一些問題,導致很多數據的權限劃分存在很大的隱患,如涉及個人隱私的一些數據會被設置為開放、可簡易獲取的數據,導致了醫院集成平臺系統建設以及使用過程中的巨大財產損失。
四、醫院集成平臺系統建設中數據治理的策略
醫院集成平臺系統建設中的數據治理策略可以根據不同維度進行劃分,按建設策略,可分為數據系統切入模式和生產系統切入模式。按組織方式分為頂層設計模式、單點擊破模式。而從時序角度,數據治理劃分為復分析數據治理模式和全視野數據治理模式[8]。
(一)復分析性治理
1. 數據匯集
(1)明確數據采集范圍。醫院子信息系統種類眾多,相同業務甚至有多個不同廠家系統,按照總體設計、詳細調研、分布實施幾個流程步驟。如多個業務系統接入,應當優先根據建設目標來明確建設范圍。
(2)明確數據采集方式。通常不同醫療系統有著不同的數據接入源、不同服務接口、不同的數據庫和數據文件。整體考慮數據質量和時效性要求以及接入數據源、數據庫類型采用不同數據采集方式,比如物化視圖、抽取轉換加載、變更數據捕獲,通過數據批量導入方式,將其批量導入臨床數據中心。
(3)執行數據采集。根據預先選擇定好的數據采集范圍、方式執行數據采集的相關工作。圍繞醫療科室需求,根據數據關聯性、重要性、緊迫性安排系統接入優先順序。如建設周期較長的項目應優先完成短期見效的數據對接,處理歷史存量數據,最后完成實時數據對接,綜合考慮程度以及技術等條件來決定。
2.數據清洗與數據加工
數據清洗,是指將“臟“的數據變為”干凈“的數據。數據清洗主要包含臟數據類型分析,清洗策略定義,依據策略清洗以及質量驗證4個方面。其中清洗策略定義,標準的數據完整性約束以及清洗函數規則三個核心。數據經過清洗后,還需進一步從邏輯上和物理上對各醫療業務系統進行數據集成。
利用數據之前,需要對數據進行清洗、脫敏、挖掘、深度加工,比如對非結構化醫療文本數據進行結構化和重點數據脫敏處理等。很多醫療數據以自然語言描述為主,如就診記錄,電子病歷,檢查報告、病歷文書等都是文本文件方式存儲和記錄,數據綜合治理、挖掘利用難度增大。可以通過XML解析等自然語言工具進行結構化處理,降低數據治理利用難度,主要有本體構建、語義標注,關系抽取等。通常應基于醫學術語庫當統一處理,將同義詞歸為標準術語,如“上呼吸道感染”和“上感”“感冒”等。數據脫敏針對用來標識患者相關數據,比如身份身份證號碼、姓名、電話、郵編、郵箱等基礎數據,進行必要安全保護、脫敏隱私處理。而數據脫敏一般分為靜態脫敏和動態脫敏,靜態脫敏應用于非生產環境數據脫敏處理,動態脫敏一般應用于生產環境數據脫敏處理。院外數據服務應用場景更應重視數據脫敏。
(二)全視野數據治理
構建數據治理體系要求全視野治理從數據產生源頭開始,建設智慧型醫院,支撐醫院的數字化轉型。提升數據分析的利用效能以及提升信息化系統項目建設質量是全視野治理的目的。全院應當建立一種對于數據質量的共識。同時管理層應當設立數據治理委員會,下設數據治理辦公室。醫院集成平臺必須建立配套的相關制度,做到規范與有章可循。同時集成平臺應當設立評價體系,對于數據管理進行評估。
全視野治理面對的大量原始數據,內容雜多,醫院首先制定好完整數據質量治理規劃,其次從重點數據開始,把資產價值較高的數據治理,作為出發點去突破。最后,盯緊新增相關醫療業務系統的增量數據,完成數據治理質量管控,與前期復分析治理時段的數據標準形成前后反饋,相輔相成。
(三)智能化治理
隨著機器學習和深度學習等人工智能的技術在大數據領域中的廣泛應用,數據治理可以逐漸實現智能化,如在大數據開展數據質量審查的過程中,配合傳統的質量核查的方式,通過從臨床醫療中心數據中選取樣本數據,首先經過前期預處理,使用機器學習算法完成深度分析,從而來分析數據質量原因,做數據質量問題的預測,進一步形成知識庫。同時NLP技術的應用可以對醫學文本等進行智能化管理。大大提高數據治理的效率,方便醫院平臺的系統集成。
五、醫院集成平臺系統建設中數據治理的實踐
(一)智能數據治理語義網
真實實踐過程中為解決半結構數據,非結構數據以及非常復雜結構的數據,采用了國際主流的醫學系統命名法-臨床術語集,通過大量使用醫學術語進行表達,基于醫學術語進行醫院集成平臺中的數據治理,可以將以上所面對的不規范數據,或者標準不同的數據,通過構建醫學術語網絡,關聯到諸如臨床數據,藥品,病歷記錄,化驗檢查報告等相關的數據,最終實現數據集成交互,并通過使用專業臨床專家標注與機器學習訓練方法,使得各種醫學術語形成醫學術語語義網。
(二)海量數據治理圖譜
數據治理圖譜是醫療人工智能的廣泛應用,其關鍵技術包括知識表示,自然語言處理,知識獲取,知識處理系統,醫學智能,醫學專家系統。通過語義網為核心構建醫學數據圖譜網絡,使用TensorFlow,PyTorch等先進的深度學習工具形成海量的數據標簽,運用集群環境形成大規模的計算能力。能夠完成知識圖譜實現醫學知識推理,醫學知識演算,實現數據的多層次運用,構建醫學集成平臺系統中的知識治理。在統一的環境中高效,安全的分析與挖掘醫學數據的價值,形成醫學專家知識系統。
(三)高可用醫學數據資源倉儲系統
通過基于實際的需求對數據模型進行合理調整與改造,形成滿足于真實環境中需要的數據模型。利用數據倉儲系統的特點,將可以追溯、數據知識圖譜置入數據倉庫中,構建多層次的數據倉庫中心的建設。數據資源倉庫中儲存的數據包括完全適用于真實環境業務的數據源的數據,也包括以按照各類標準所集成的類別數據,還包括面向各種需求的數據集合數據,涵蓋院內各子平臺數據,院外各子平臺數據。通過使用異構多源數據整合建設醫療數據資源中心。保障各平臺醫療數據的互聯互通。消除了各個集成平臺以及子平臺之間的信息孤島。
通過數據共享,實現內外數據交互,數據資源存儲系統按照不同類別而分模塊獨立建模,分類存儲,模塊包括臨床實踐,科研數據研究,醫院管理等等,基于數據利用目的以及各種需求標準進行數據建模。數據倉儲系統除了存儲診療過程中的實時數據,同時存儲基因組等數據,與臨床病狀,臨床診斷等信息相結合,從而實現精準醫療,能夠根據歷史數據以及當前實時更新的數據,對病患進行個性化治療以及相關治療方案的選擇。同時隨著各類新型數據的出現,根據新型數據構建了可拓展的數據資源倉儲系統,如支撐臨床醫學的影像圖片等可以快速基于影響圖片構建三維重建用于真實實踐。
(四)應用服務平臺
細分來看主要包括醫院精細化的治理、臨床研究創新、不同業務協同,臨床智能輔助決策等等。開發高可用的應用平臺產品,同時在將其產出的結果反饋回醫療業務中去,構建面向醫療服務的數據產品包括醫療協同服務、疾病管理系統,面向臨床科研的數據產品包括專科病種庫,科研探索系統等,基于人工智能技術構建疾病風險評估與預防系統、醫學智能影像系統、醫學智能診斷,臨床智能輔助治療,虛擬智能小醫生助理,以及面向醫院管理的數據產品包括如管理新型指標監控,醫療質量控制,醫院資源消耗預測以及數據資源的交互與上報系統等。運用不同的工具與技術從而形成服務引擎,實現技術資源與數據資源共享。
六、結語
醫院集成平臺建設過程中數據治理是一項復雜,長期的過程,在對數據質量治理的過程中,應當注意對于不斷增加的數據處理,應當在前期做好對于數據治理的計劃工作,不斷完善制度,制定規范,優化人才結構,同時在治理過程中應當精準把握好數據資產,使得能夠實現全視野治理與復分析治理相輔相成。總之,應當不斷及時發現和反饋問題,提升數據治理水平,推動醫院集成平臺的高速高質量發展。
參考文獻
[1]方碧陶.《關于抓好推動公立醫院高質量發展意見落實的通知》印發[J].中醫藥管理雜志,2022,30(03):144.
[2]劉國祥,吳昊,李書章,等.數字化醫院的概念和系統結構模型研究[J].中國醫院管理,2004(11):25-27.
[3]任毅,張玲.醫院信息孤島問題與對策探討[J].醫學信息學雜志,2021,42(08):64-67.
[4]數據管理協會(DAMA國際).DAMA數據管理知識體系指南[M].北京:機械工業出版社.2020.
[5]馬璉,朱衛國,姜會珍,等.面向醫院高質量發展的數據治理模式與方法探討[J].中國衛生信息管理雜志,2022,19(02):159-164.
[6]王覓也,鄭濤,李楠,等.醫療大數據集成及應用平臺體系構建[J].醫學信息學雜志,2019,40(08):37-42.
[7]裴瑩蕾,王婭.構建區域醫療大數據治理體系的實踐探索[J].衛生經濟研究,2022,39(04):71-74.
[8]馬璉,朱衛國,姜會珍,等.面向醫院高質量發展的數據治理模式與方法探討[J].中國衛生信息管理雜志,2022,19(02):159-164.
(作者單位:溧陽市中醫醫院)