趙云,丘文峰,郭揚帆,尚文剛
1.廣東醫學院 信息工程教研室, 廣東 東莞523808;2.廣東醫學院附屬醫院 信息技術部,廣東 湛江 524023;3.廣東東莞塘廈醫院 信息中心,廣東 東莞 523710
醫療數據倉庫的研究
趙云1,丘文峰1,郭揚帆2,尚文剛3
1.廣東醫學院 信息工程教研室, 廣東 東莞523808;2.廣東醫學院附屬醫院 信息技術部,廣東 湛江 524023;3.廣東東莞塘廈醫院 信息中心,廣東 東莞 523710
按照數據倉庫生命周期的規律,依托我院現有的HIS系統,以醫療費用為主題構建醫療數據倉庫。本文從建庫的業務需求獲取、數據模型的建立及數據倉庫系統的實現等方面,介紹了建庫的方法和步驟。該方法對其他醫院建立數據倉庫也有借鑒作用。
HIS;醫療數據倉庫;數據維度;醫療費
從20世紀80年代開始,隨著關系型數據庫技術的快速發展,以關系型數據為基礎,建立了大量基于聯機事務處理的業務系統,累計了大量數據。當聯機事務處理系統應用到一定階段的時候,如何有效地將收集到的數據轉化為信息而為管理者進行決策服務,是企業獲得市場競爭優勢首要考慮的問題。20世紀90年代以后,數據倉庫技術應運而生,數據倉庫以傳統的數據庫技術作為存儲數據和管理資源的基本手段,以統計分析作為分析數據和提取信息的有效手段。目前,國內的數據倉庫技術主要應用在證券、金融、電信等行業中,在醫療行業中的應用才剛剛起步。由于醫療技術具有很強的實踐性、實驗性、統計性,同時醫院管理也是一門復雜的管理學科,因此,探索數據倉庫技術在醫學信息方面的應用就具有更重要的實用價值和廣闊的發展前景。
在數據倉庫的發展過程中,許多人對此做出了貢獻。1993年William H.Inmon所寫的論著 《Building the Data Warehouse》系統地闡述了關于數據倉庫的思想。在文中他將數據倉庫定義為:“一個面向主題的、集成的、隨時間變化的、反映歷史變化的數據集合,用于支持管理層的決策過程。”
整個數據倉庫生命周期的實施過程如圖1所示:該圖闡明了在有效地設計、開發和部署數據倉庫時所必需的一系列高級任務。該圖顯示了整個項目的實施路徑,圖中的每個方框所作的處理都是數據倉庫項目建設過程中的路標或者指示標記。

圖1 數據倉庫生命周期法示意圖
目前HIS系統廣泛地應用于各大中型醫療機構,醫院的各部門業務開展都可以通過各自的業務系統完成。病人從入院到出院期間的各診斷治療環節的醫療、護理等信息資源都能得到高度共享。我校附屬三甲醫院的HIS系統經過多年的運行,積累了豐富的信息資源,已經具備建立醫院數據倉庫的條件。本文從醫院決策的需求出發,依托現有的HIS系統,以醫療費用為主題構建醫療數據倉庫。
了全院各科室的醫療收入情況,據此可以評價各科室的工作情況,評估收入分配指標,以便制定合理的醫療設備配置方案。本文以醫療費用數據集市的構建作為研究對象,其主題域包括門診費用、住院費用、醫療費用構成等業務主題。
在醫療數據倉庫項目的規劃階段,根據業務需求界定項目的范圍和優先級,并提供合理性證明以及進行詳細的項目規劃。
業務需求位于“數據倉庫生命周期圖”的中心,幾乎影響到數據倉庫實施過程中所做出的全部決策,數據倉庫的項目范圍一定是由“業務需求”驅動的。傳統的數據倉庫系統的設計采用“數據驅動”,從原有系統已經存在的數據開始,獲取數據后,對數據進行集成并檢查數據的準確性,按照分析領域對數據及數據之間的聯系重新考察,組織數據倉庫中的主題。這種方法沒有獨立的收集需求和分析需求的階段,而是將需求分析的過程貫穿在整個的設計過程中,雖然具有最大利用現有系統,減少系統建設工作量的優勢,但是不能代替用戶的介入。醫療數據倉庫的建立需要將HIS中分散的業務數據集成在一起,為決策者提供各種類型的數據分析。HIS中對決策有幫助的數據,關鍵是利用“業務需求”驅動法里的整體法來確定的。
醫療數據倉庫根據決策的需要可面向多種主題,利用“業務需求”驅動法,根據決策的需要在分析原有OLAP系統產生數據的同時收集相關信息進行主題域的分析。分析的過程中要注意:主題模糊或不準確會影響后期決策分析效率。比如,若把病人作為主題會難以確定其屬性和維度。病人這個主題對于醫院決策來說過于泛化,必須將其細化到更具體的業務主題上。醫院數據倉庫建設的首要目標是進行主題域的分析,根據主題域,確定系統實現的業務主題。表1給出了建立醫療數據倉庫涉及到的主要主題域。

表1 醫療數據倉庫的業務主題分析
目前國內大部分醫院建立數據倉庫的主要目的是為進行醫療費用分析。醫院領導需要掌握醫療費用的分布情況,藥費占整個醫療費用的比例以及大型醫療設備的利用率,以便控制不合理的費用增長;針對不同類型的患者調整費用項目和收費標準,從而達到提高服務質量、優化醫院經營管理環境的目的。此外,醫療費用也從另一個方面反映
根據業務需求確定主題之后,首先考慮原有HIS系統產生的源數據,再執行數據的審計,為提供決策支持的數據建立模型。數據模型是實現數據倉庫的基礎,數據的邏輯模型、物理模型設計,規劃了數據提取和數據轉換的步驟。
維度建模是一種邏輯設計技術,它的基本思想幾乎是所有業務數據都可以表示成某種數據立方體。該立方體的每一個單元格包含的是各種測度值,立方體的邊定義數據維度。
通常4步驟進行維度的建模:① 選取要建立的業務處理過程;② 定義業務處理的粒度;③ 選定用于每個事實表的維度;④ 確定用于形成每個事實表行的數字型事實。
本文選擇醫療費用作為實施的業務主題,利用星型模式對醫療費用分析進行模型設計。采用星型模型、維度表直接與事實表相連,避免了維度的級別被分散在若干個表中,優化了數據倉庫的查詢響應時間,提高了查詢性能。圖2為住院病人費用業務主題的星型模型圖。圖中選取的業務處理過程為住院費用,業務處理的粒度如3.2節所介紹,根據對分析角度的需要選擇了住院科室、費用科目等為事實表的維度,從藥品費用、治療效果等得到所需的維度量值。

圖2 住院費用主題星型架構
粒度問題是設計數據倉庫的一個最重要方面。粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別,細化程度越高,粒度就越小。低級別的粒度在對未預料的新查詢方面的響應能力要比高粒度好得多。數據的粒度是一個設計問題,它深深地影響存放在數據倉庫中的數據量的大小,同時影響數據倉庫所能回答的查詢類型。粒度的劃分要根據業務需求而定,在數據倉庫中的數據量大小與查詢的詳細程度之間做權衡。首先,估算數據倉庫中數據的行數和DASD(Direct Access Storage Device)數;其次,由估算出的數據量和DASD數,確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。我校附屬醫院全年平均住院3,1000人次,目前醫療費用詳細分類有65項。考慮到并不是所有患者住院期間都會發生全部各類醫療費用,通過估算一年產生關于醫療費用方面的數據大約為100萬行以上,系統應該采用多重粒度劃分。具體策略如圖3所示。

圖3 數據粒度劃分策略
物理模型的設計需要將邏輯模型的設計轉換為物理數據庫,通常遵循以下的過程:首先制定命名標準、數據庫標準和安全策略,然后創建物理模型,包括確定初始的數據庫空間大小及其增長速度同時制定聚集計劃。聚集計劃是物理模型中的關鍵部分,對數據倉庫的性能影響非常大。一旦確定了表的內容,就可以確定初步的索引策略,創建數據庫的實例,最后規劃物理模型的細節情況。數據分割是物理設計的一個重要問題,指把數據分散到各自的物理單元中去,它們能獨立地處理,分割可以大大提高數據倉庫的性能和可維護性。一般關系數據庫都支持分割表的。在醫療數據倉庫中,我們對費用科目維度表按時間(月、季度、年)進行分割,分割后的數據保存到單獨的分割表中。這種維度分割方法減輕了數據倉庫的維護負擔。
使用Microsoft SQL Server2000數據庫倉庫組件中提供的DTS(數據傳輸服務),將各種異構數據源合理的合并在一起,同時使用ActiveX腳本處理在數據傳輸過程中完成的驗證、清洗和轉換操作。利用SQL Server Agent可以調度DTS包的執行,實現自動、定期地進行數據傳輸。
建立了醫療費用數據倉庫,用戶訪問數據倉庫不是簡單的存取和記錄查詢。基于多維數據集的OLAP是將數據想象成多維的立方體,通過對多維數據集進行切片、切塊、聚合、鉆取、旋轉等進行數據的剖析,使用戶從多種維度、多個側面或多種數據綜合查看數據,掌握數據背后蘊含的規律。使用Microsoft SQL Server2000中Analysis Services創建數據集,利用MDX可從指定的多維數據集中取得報表或表達式的計算值,MDX是OLAP與外界交互的專用語言。系統實現的功能:① 醫院各科室經營成本效益分析。通過時間維對科室不同時期的各種費用進行分析,找出收入增加或者減少的原因,對科室工作效率、經濟效率、綜合管理等方面的多項指標進行評價;② 治療結果的統計分析。根據統計分析數據,可以對病人的治愈率、死亡率、危重癥搶救成功率等診斷指標進行分析;③ 各病種醫療費用分析和單病種費用構成分析。從科室角度對各病種醫療費用進行分析,有針對地控制費用比例,探究費用項目結構的合理性;也可從住院天數、病情、治療方案等方面對單病種的治療費用進行分析。④ 醫院收入的相關因素分析。通過分析找出各種影響醫療收入的主要因素。
數據倉庫作為一個新興的研究領域,其建設技術具有很大的復雜性,仍有許多領域需要深入的研究。建立數據倉庫系統是一個不斷更新的、長時間的積累過程,用戶可以隨著應用水平的提高逐步加入更多的復雜的數據,為決策層分析醫院指標體系提供詳實的數據。
[1]王麗珍,周麗華,等.數據倉庫與數據挖掘原理及應用[M].北京:科學出版社,2005.
[2]Ralph Kimball.數據倉庫工具箱:維度建模的完全指南[M].譚明金,譯.北京:電子工業出版社,2003.
[3]Ralph Kimball,等.數據倉庫生命周期工具箱:設計、開發和部署數據倉庫的專家方法[M].肖明,王永紅,等,譯.北京:電子工業出版社,2004.
[4]Efrem G Mallach.決策支持與數據倉庫系統[M].李昭智,譯.北京:電子工業出版社,2001:282-283.
[5]王克龍等.數據倉庫中ETL技術的探討與實踐[J].計算機應用與軟件,2005, 22(11):75-78.
[6]林向陽,高展.數據建模在數據倉庫中的應用[J].微計算機信息,2010,(26):183-185.
[7]Carter C L,Hamilton H J..Efficient_Oriented Generalization Knowledge Discovery from Large Databases[J].IEEE Transations on Knowledge and Data Engineering, 2003,10(2):193-208.
[8]岳增軍,等.病人流向分析與監控系統設計與實現[J].中國醫療設備,2009,24(10):48-49.
Research of Hospital Data Warehouse
ZHAO Yun1, QIU Wen-feng1,GUO Yang-fan2, SHANG Wen-gang3
1.Information Engineering Teaching and Research Section, Guangdong Medical College, Dongguan Guangdong 523808,China;2.Information Technology Department, Affiliated Hospital of Guangdong Medical College, Zhanjiang Guangdong 524023,China; 3. Information Center, Tangxia Hospital,Dongguan Guangdong 523710, China
TP311.13
B
10.3969/j.issn.1674-1633.2011.03.012
1674-1633(2011)03-0034-03
2010-09-26
2010-11-03
湛江市科技攻關項目(2010C3111014)。
本文作者:趙云,碩士,講師。
作者郵箱:zyun@gdmc.edu.cn
Abstract:Started with data circle of data warehouse life-cycle and combined with hospital data warehouse,we give some examples of hospital expense data. In this paper, the system demand obtains,data model builds, the system of ETL design and data warehouse system's achievement were investigated and a number of methods and procedure were provided. The result indicated that the method could guide us building data warehouse.
Key words:HIS; hospital data warehouse; data model; medical expense