


摘? 要:隨著國家新醫改政策的不斷推進,醫院集成平臺建設得以快速推廣和應用。長期以來,數據質量問題一直被忽視,導致其成為限制各類應用系統及醫院集成平臺效能發揮的主要瓶頸。通過分析數據質量問題的表現形式及產生的原因,分析不同應用場景下不同的數據質量管理需求,設計數據質量核查規則配置、數據質量核查、核查結果展示等功能,構建基于集成平臺的數據質量核查系統,可以在技術層面,為數據質量管理工作提供一個工具,對緩解數據質量問題起到一定的積極的作用,從而提升醫院集成平臺的應用價值。
關鍵詞:醫療數據質量;數據質量核查;醫院集成平臺
中圖分類號:TP311.5 ? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)01-0097-05
Abstract:With the continuous promotion of the new national health reform policy,the hospital integrated platform construction can be quickly promoted and applied. For a long time,the problem of data quality has been ignored,resulting in data quality become the main bottleneck restricting the effectiveness of various application systems and hospital integrated platform. Through the analysis of forms of data quality problems and causes analysis of data quality management requirements of different application scenarios,design rules for quality verification data configuration,data quality verification,the verification results show the function of data quality check system based on hospital integration platform,can be at the technical level,to provide a tool for data quality management work,to alleviate the problem of data quality and play a positive role,so as to enhance the application value of Hospital Integration Platform.
Keywords:medical data quality;data quality verification;hospital integration platform
0? 引? 言
近年來,我國醫院信息化建設如火如荼,已經逐步由一體化的信息系統發展到了專業化的臨床信息系統和深層次的管理信息系統、患者服務系統,邁向了全面的信息共享和智能化的更高階段,其核心問題就是集成平臺的建設[1]。醫院集成平臺不僅統一了醫院各業務系統之間的接口,實現了各業務系統之間數據的高度共享、互聯互通,實現了統一的對外信息出口,同時,在集成平臺中積累了大量的業務數據,并通過如“患者主索引”等信息實現對業務數據的有序組織與整合。醫院集成平臺中存儲的大量業務數據已經成為醫院繼人、財、物后最具價值的資源。
隨著基于醫院集成平臺的應用越來越多,越來越深入,醫院對數據的依賴程度也逐步加大,集成平臺中數據質量的好壞直接關系到各類應用中信息的準確程度,也影響著醫院的生存和競爭力。數據質量作為影響管理層決策正確性的基礎元素,逐漸被越來越多的醫院領導者所關注[2],但在長期的醫院業務系統維護和使用過程中,由于種種因素影響,各業務系統中的數據往往存在這樣或那樣的質量問題,常常出現不一致的情況。因此,建立科學有效的數據質量管理體系,對組織的數據質量實施全程管理,將數據質量管理以制度化、規范化的方式落實到數據生成、傳遞和使用的各個過程、方面和人員之中[3],是當前醫療機構信息化建設中的一項重要工作。
因此,我院在實施醫院集成平臺項目的同時,建設了基于集成平臺的數據質量核查系統。該系統從技術層面上,提供了一個數據質量核查工具,實現了對來源于各業務系統的、通過ETL過程匯聚到集成平臺的業務數據進行質量核查,主動暴露和預警核查出來的數據質量問題,實現了對數據質量的實時監控,對于嚴把源頭數據質量關,督促業務系統不斷改進與完善,提高數據準確性、一致性起到了積極的作用。
1? 數據質量問題分析
1.1? 數據質量問題的表現形式
醫院集成平臺的數據質量問題有多種表現形式,一般包括但不限于以下幾種形式:(1)數據準確性問題,如空值、值域錯誤、格式錯誤等;(2)數據關聯性問題,如數據間缺乏參照完整性;(3)重復記錄問題;(4)錯誤的計算規則、錯誤的值;(5)不同的統計口徑問題;(6)不同的命名規則問題;(7)數據粒度不一致問題;(8)數據上傳或抽取穩定性、完整性問題;(9)數據上傳或抽取及時性問題。
1.2? 數據質量問題產生的原因分析
在醫院的信息化建設過程中,有些數據質量問題是難以避免的,這主要是以下幾個方面的原因引起的:(1)數據源問題。由于歷史原因,各業務系統相對獨立、缺乏統一規劃,導致數據的不一致性;業務系統建設階段缺乏數據質量意識,數據源本身存在大量的臟數據和噪聲數據;數據存在人工操作的情況,導致數據的不一致性;不同數據源由不同的部門管理,各部門對數據的關注角度不同導致數據粒度、名稱、表達方式上的多樣性[4];缺乏統一的行業標準、各業務系統建設時期不同、廠商技術水平參差不齊導致數據不一致性;(2)數據抽取問題。對于數據集中備份、數據交互平臺中的數據,由于數據抽取時間點不一致、ETL人員技術水平限制、對業務理解偏差等原因導致數據質量問題;(3)業務規則問題。業務系統的不同版本對數據的處理規則不同導致數據的不一致;各分支機構管理的差異、不同的業務處理規則導致數據不匹配;(4)統計口徑問題。各系統之間的指標體系、編碼規則及分類口徑不一致導致數據質量問題[5]。
1.3? 數據質量核查需求場景分析
(1)數據倉庫數據抽取環節。對于數據抽取或上傳流程中的前置庫(如:ODS庫),需要一套數據質量核查系統,對預抽取的數據進行質量核查,以確保進入數據倉庫數據存儲區的數據質量[6];(2)中心數據庫運行環節。上級管理部門需要一套數據質量核查系統,對業務集中備份庫中的數據進行數據質量核查、數據質量評分考核,分析并反饋存在的數據質量問題、提醒和督促各機構或業務部門規范數據采集和錄入流程,提高業務數據質量。
2? 數據質量核查系統設計
2.1? 設計目標
設計一套對關系型數據庫數據質量進行核查、對問題數據進行展示,易操作、易集成、易擴展、運行穩定的數據質量核查系統。該系統應具有以下特征:(1)可擴充的規則。數據質量核查由數據質量核查規則驅動。數據質量核查規則是一系列業務數據規范的集合,它以數據質量核查系統能夠識別的形式存在于數據質量核查系統規則庫中。數據質量核查系統提供靈活和高可擴充的核查規則配置功能,使用戶能夠通過簡單的配置即可完成核查規則的動態管理;(2)全面的核查手段。數據質量核查系統提供字段級、記錄級、表級不同層次的數據質量核查,可以對數據的準確性、時效性、有效性等通過預先設置的核查規則進行核查,并支持復雜的業務邏輯約束核查;(3)完善的核查結果展示。數據質量核查系統提供對核查結果的查詢、統計、分析服務,可以對不符合規范的業務記錄進行定位;可以在核查結果的基礎上進行分析和統計,如分析不符合規范的數據記錄分布情況和出現頻度等;系統自動生成數據質量核查報告;(4)支持規則字典導入接口。提供規則字典批量導入接口,如通過行業標準化字典,初始化核查規則字典;(5)支持核查結果發布。提供數據核查結果發布接口,如定期將數據質量報告通過數據接口提供給第三方平臺(如OA平臺、企業郵件系統、短信平臺),最終實現數據質量報告及時送達目標用戶;(6)支持數據質量評分考核。系統支持設置各類數據質量問題的評分權重,根據數據質量核查結果,對數據提供單位或數據來源系統進行數據質量評分考核。
2.2? 總體設計
2.2.1? 軟件架構
系統采用B/S架構,基于.NET平臺開發。數據存儲采用MS SQL Server 2016企業版或以上版本。Web端應用整體采用MVC的開發模式,包含如下層次:
展現層:ASP.Net Mvc 5.0+Kendo UI+Jquery,主要負責用戶交互和結果顯示,展現層包含控制模塊,控制模塊主要負責系統的訪問控制、數據加載和注銷,是系統的核心控制單元,控制模塊是系統描述來組織工作。
應用服務層:實現了數據庫實體映射以及根據業務需要自定義實體、定義各個業務接口、實現系統的主要業務邏輯,是系統主要的運算單元。
數據層:實現了靜態數據和數據庫數據的持久化管理,為業務層提供數據服務。
系統分層架構圖如圖1所示。
2.2.2? 功能結構
系統主要功能設計如下:(1)系統管理功能。包括操作日志、運行日志、任務調度;(2)基礎配置功能。包括值域字典、格式字典配置、系統字典配置、系統參數配置、數據庫注冊;(3)質量核查功能。包括核查規則配置、核查服務運行、核查結果記錄等過程,數據質量核查的依據是數據核查規則,數據核查規則是一系列業務數據規范的集合,它以軟件能夠識別的形式存在于規則庫中。質量核查類型包括:完整性核查、及時性核查、關聯性核查、準確性核查、重復記錄核查、約束性核查;(4)結果展示功能。包括核查結果明細查詢功能、質量問題分類統計功能,以及按固定格式生成質量報告;(5)運行監控功能。提供對于數據檢查服務和數據檢查任務執行情況的實時監控功能;(6)評估考核功能。包括設置各類數據質量問題評分權重。根據評分方案及數據質量核查結果,對數據源進行數據質量評分考核。
功能結構圖如圖2所示。
2.2.3? 運行時序
基于預設的規則,系統生成數據質量核查SQL包,通過調用SQL包,對目標數據庫進行數據質量核查,并返回核查結果信息。運行時序圖如圖3所示。
2.3? 關鍵功能設計
2.3.1? 基礎配置功能
(1)值域字典、格式字典配置:配置標準的、機構級的值域字典、格式字典,支撐核查條件設置;(2)系統字典配置:用于定義如核查方案、業務類別、質量問題級別等信息字典,支撐系統管理、核查結果統計;(3)系統參數配置:定義時間參數、機構參數、數據來源參數、是否已核查標識字段等,用于統一限定核查范圍、核查條件,支撐核查服務;(4)評分權重配置:用于配置各類質量問題評分權重,支撐數據質量綜合評分考核;(5)接口管理,包括規則字典導入接口、核查結果發布接口。通過行業標準化字典,初始化核查規則字典;定期將數據質量報告通過數據接口,提供給第三方平臺(如OA平臺、企業郵件系統、短信平臺),最終實現數據質量報告及時送達目標用戶。
2.3.2? 質量核查功能
質量核查功能包括核查規則配置、核查服務運行、核查結果記錄等過程。質量核查類型包括:準確性核查、關聯性核查、重復記錄核查、約束性核查、數據上傳完整性核查、數據上傳及時性核查等。
2.3.2.1? 準確性核查
(1)用于核查目標數據表中特定字段是否為空值的非空核查,例如,核查《患者就診基本信息登記表》中“患者姓名”字段是否為空,核查《輸血記錄表》中的“ABO血型代碼”字段是否為空;(2)用于核查字段取值范圍的值域核查,包括枚舉性值域、區間性值域,例如,核查《患者基本信息表》中“患者性別編碼”字段值是否符合標準規范,核查《手術記錄表》中的“患者舒張壓”字段值是否在合理區間;(3)核查字段格式是否符合規范的格式核查,例如,核查《患者就診基本信息登記表》中的“電話號碼”字段值格式是否符合電話號碼格式,核查《患者就診基本信息登記表》中的“身份證號碼”字段值是否符合身份證號碼格式。
準確性核查規則配置界面原型如圖4所示。
2.3.2.2? 關聯性核查
用于對主從表間主外鍵關聯關系核查。例如,核查《患者就診基本信息表》(A表)與《門診就診記錄表》(B表)中的記錄是否滿足關聯條件:“A表卡號=B表卡號and A表卡類型=B表卡類型”。
2.3.2.3? 重復記錄核查
用于核查主鍵重復的記錄。包括物理主鍵重復核查及邏輯主鍵重復核查。物理主鍵重復核查是指依據數據表的物理主鍵進行重復記錄核查。邏輯主鍵重復核查是指,用戶根據業務邏輯,自定義主鍵或聯合主鍵,并據此邏輯主鍵進行核查。例如,核查《患者注冊信息表》中聯合主鍵“身份證件類型”+“身份證件號碼”是否重復,判斷該表中是否有指向同一患者的重復記錄。
2.3.2.4? 約束性核查
用于核查是否滿足特定的復雜業務邏輯關系。約束性核查包括:(1)核查目標數據庫統計的數據與業務系統數據之間差異的數據總量約束性核查,例如,核查“月門急診人次差異”,比較集成平臺前置機ODS庫《就診記錄表》中就診類型為“門急診”的統計人次與門診業務系統中的統計人次差異;(2)核查業務系統中發生的具體事件,在目標數據庫中對應的表中是否有相應數據存在的存在性約束核查;(3)其他復雜業務邏輯約束核查。例如,核查業務系統提交的出院患者是否有相應的病案首頁提交,即通過出院患者的卡號、卡類型在集成平臺《病案首頁信息表》中查找,是否存在相應數據。
2.3.2.5? 數據上傳完整性核查
用于核查關鍵數據表數據量,用以支撐數據上傳完整性、穩定性分析。
2.3.2.6? 數據上傳及時性核查
用于核查數據上傳及時性,通過客觀記錄數據上傳的時間和業務產生的時間,判斷數據是否上傳及時。例如,核查《門診就診記錄表》中字段“門診就診日期”與本條記錄上傳時間之間的差距。
2.3.3? 結果展示功能
2.3.3.1? 明細查詢
提供核查結果明細查詢服務,對不符合規范的業務數據記錄通過表名、主鍵值等標識信息進行定位。支持按“核查方案”“核查執行編號”“核查執行時間”“核查類型”“規則編號”“數據源名稱”“質量問題級別”等查詢條件進行查詢。例如,準確性核查結果明細查詢,查詢結果基本信息項包括:核查方案、核查執行編號、核查執行時間、核查類型(非空、值域、格式)、規則編號、數據源代碼、異常記錄主鍵、核查表名、核查字段名、質量問題級別、規則說明等。
2.3.3.2? 分類統計
支持按“核查方案”“核查類別”“核查執行時間”“規則編號”“數據來源名稱”“質量問題級別”等信息項進行分類統計。包括統計不符合規范的數據記錄數量、分布范圍和出現的頻度等。例如,準確性核查匯總結果基本信息項包括:核查方案、核查執行編號、核查執行時間、規則編號、核查記錄總數、異常記錄總數、質量問題級別、規則說明等。
2.3.3.3? 質量報告
按固定格式生成質量報告。按數據來源、核查方案、核查時間、核查執行編號、質量類型、問題級別、考核評分結果等角度進行統計分析,并輸出數據質量分析報告。
3? 結? 論
當前,國內各醫療機構普遍處于擁有海量數據,卻信息匱乏的尷尬局面[7],造成這種現象的一個重要影響因素就是系統中存在許多不完整、不規范或重復的數據,即臟數據。數據質量問題長期被忽視,導致今日數據質量問題成為限制各類信息系統以及醫院集成平臺效能發揮的主要瓶頸。
數據質量的改進不是單純的技術問題[8],還涉及工作制度、流程、機制、管理、成本等諸多方面,各醫院應以建設集成平臺、臨床數據中心等項目為契機,一方面通過技術手段,如通過實施數據質量核查系統,規范數據的采集、抽取、交互過程,發現問題并督促業務系統改進完善,另一方面,要讓醫院管理者、醫療信息化工作者以及各類信息系統應用者、參與者真正認識到數據的價值,加強標準化建設,通過管理手段,建立符合醫院自身信息化應用水平及發展情況的數據質量管理體系,將數據質量管理以制度化、規范化的方式落實到數據生成、傳遞和使用的各個過程、方面和人員之中,實現對數據質量的事前、事中、事后全過程控制。
參考文獻:
[1] 薛萬國.對于醫院集成平臺技術的辨析探討 [EB/OL].(2016-08-05).https://www.hit180.com/22392.html.
[2] 諶志華.數據質量管理的研究與應用 [J].信息與電腦(理論版),2013(1):107-109.
[3] 谷斌.信息系統建設中的數據質量管理體系研究 [J].情報雜志,2007(5):65-67.
[4] 趙陽立.淺談供電企業“大營銷”體系下的營銷數據質量管理 [J].電子世界,2013(7):156-157.
[5] 安艷茹.基于知識的數據有效性管控系統研究與設計 [J].航空制造技術,2015(3):110-112.
[6] 高運華.基于數據倉庫的數據質量分析和評估 [J].黑龍江科技信息,2014(20):165.
[7] 彭傳薇,劉琛璽,李小華.淺談醫療數據質量重要性及其影響 [J].解放軍醫院管理雜志,2005(5):467-468.
[8] 王守平.關于山東省社會保險大數據分析應用工作的思考 [J].山東人力資源和社會保障,2018(Z1):51-53.
作者簡介:甘偉誼(1982-),男,漢族,江西樟樹人,高級工程師,本科,研究方向:IT項目管理、醫療大數應用。