●曹洪欣,徐 維(第二軍醫大學 醫學信息學教研室,上海 200433)
作為醫院信息管理系統(Hospital Information System,HIS)的重要組成部分,電子病歷(Electronic Health Record,EHR)誕生伊始即被賦予了“共享病人完整信息、提供醫療提示和報警、提供醫療知識庫支持”的公認內涵,[1]其目標是“提高醫療質量、降低醫療成本、改善工作流程、提供知識庫支持”。[2]但隨著醫學本身的不斷發展與進步以及計算機、網絡技術和信息技術在醫學領域的不斷拓展與應用,使得臨床數據呈現以幾何級暴漲的趨勢,而反觀全球電子病歷系統的發展,因存在時間性、區域性、技術標準等方面的巨大差異,使得富含寶貴信息資源的電子病歷越來越背離了其建設初衷和應用目標而成為一座不斷膨脹的信息孤島。因此,如何整合、挖掘電子病歷信息,使其能夠共享、可交換,實現其服務醫療實踐、醫療知識庫及醫療決策支持等的初衷成為當務之急。本文擬從循證醫學視角出發,構建電子病歷信息資源整合與挖掘的宏觀模型。
EHR本身即具有多樣性、動態性、冗余性、時間性、多維性以及不完整性等特征,[3,4]加之各個國家和地區在建設時間、采用技術、應用標準以及應用目標等存在的較大差異,使得各EHR系統存在廣泛的異質性,無法直接實現共享與交換,因此EHR資源整合與挖掘宏觀模型的構建思路,應在確保EHR數據安全的前提下,遵循著眼解決上述問題,實現“共享病人完整信息、提供醫療提示和報警、提供醫療知識庫支持”的內涵,達成“提高醫療質量、降低醫療成本、改善工作流程、提供知識庫支持”的設計思路。
基于上述思路,在確保醫療機構EHR系統數據安全的前提下,可兼容各異質EHR系統,能夠實現EHR數據共享與交換,適應循證醫學醫療模式,融合國際、國家和區域性標準,滿足各種數據挖掘需求的區域性或國家性資源整合與挖掘的平臺模型是本研究的構建目標。
電子病歷信息資源整合與挖掘宏觀模型的構建必須具有相關理論予以支持,必須遵循國內外相應的有關標準以保證系統的實用性與兼容性,必須通過相關技術予以實現。
循證醫學(Evidence-Based Medicine,EBM)是20世紀80年代才從醫學實踐中獨立發展起來的一門新興學科,也是一門極具生命力的基礎理論研究科學。其核心思想就是充分利用客觀的臨床科學證據進行醫療決策,從而提高醫療質量。目前循證醫學已被廣泛應用于醫學實踐的各個領域,如醫療實踐、臨床科研、醫院管理、醫學教學等。
循證醫學的實踐模式與傳統模式的差別是碰到問題后醫生不僅僅是通過咨詢專家、教科書等傳統方式獲取決策支持,而是要通過獲取最新科研證據、最全臨床證據方式獲取決策證據,達到這一目標必須要有一個便捷、高效、權威、真實、客觀的數據中心的支持,而EHR正是最直接、最真實、最客觀的臨床證據來源之一。EHR最終目標亦即EHR的高級階段是高度共享和智能化、結構化、構建具有決策支持的國家性或區域性的基礎和通用性EHR系統,[5-7]但這必須在循證醫學的理論框架下加以解決。
全球范圍內的EHR系統歷經40多年的建設與發展,但目前尚未有一個國家建成基礎和通用的EHR系統,[6]其中最難突破的瓶頸之一就是標準問題。盡管國際上已制定了許多國際性、國家性和區域性的各種標準,但由于種種復雜因素而始終無法滿足EHR資源整合與共享的發展需求,這也是EHR標準成為全球范圍內的研究熱點的原因。而對EHR資源的整合與挖掘也必然面臨同樣的瓶頸,因為對EHR資源的整合與挖掘也必須要在相關標準及法律法規框架下進行,否則對EHR資源的整合與挖掘將步履維艱。通常EHR資源整合與數據挖掘所涉相關標準同EHR系統建設一樣,可分為術語標準、通信標準、法規標準三類。
本文采用數據中心模式構建EHR資源整合與挖掘模型,涉及的核心技術主要要有數據倉庫、數據挖掘、XMLWebServices技術。
3.3.1 數據倉庫
數據倉庫(DateWarehouse,DW)是面向主題的、集成的、時變的、非易失的數據集合,用以支持決策制定過程。最根本的特點是物理地存放來源于其他數據庫中的數據,需建立在一個較全面和完善的信息應用基礎之上,用于支持決策分析。[8]數據倉庫是數據庫技術的一種新的應用,是一個信息提供平臺,它從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,并為用戶提供各種手段從數據中獲取信息和知識。從功能結構劃分,數據倉庫系統至少應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、數據訪問(DataAccess)三個關鍵部分。
模型構建擬利用數據倉庫技術實現EHR資源整合與挖掘模型的數據庫集成與源數據建設。
3.3.2 數據挖掘
數據挖掘(DataMining,DM)又稱為數據庫中的知識發現(Knowledge Discoveryin Database,KDD),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,獲取有效的、新穎的、潛在有用的、最終可理解的模式的信息和知識的非平凡過程。它起源于多種學科,其中最重要的是數據庫、機器學習和統計學三個領域。
數據挖掘技術主要有關聯規則(Association Rule)發現、分類(Classification)、聚類(Clustering)分析、泛化(Generalization)和預測(Prediction)等;數據挖掘的主要方法有頻繁項集和關聯規則、決策樹(Decision Tree)方法、貝葉斯(Bayesian)方法、人工神經網絡(Artificial NeuralNetwork,ANN)等;常用的理論主要有模糊集合(FuzzySets)、粗糙集(RoughSets)理論、樹立統計、機器學習(MachineLearning)、人工神經網絡、決策樹、模式識別(PatternRecognition)、高性能計算等等。
模型構建擬利用數據挖掘技術實現EHR資源整合與挖掘模型的數據挖掘與應用。3.3.3 XMLWebServices
WebServices是一種基于透明標準體系的組件化松散耦合技術,其目標是實現不同系統間跨平臺、跨編程語言的可互操作性。它是一個基于XML的可編程實體,提供一種特殊的功能元素,可以通過Internet標準,如XML和Http等來訪問任何分布式的操作平臺,實現應用的互相協同工作。[9]WebServices的定位是拓展分布式應用,適合大數據量低頻率的遠程數據調用。[10]Web Services框架的核心技術包括SOAP、WSDL和UDDI,它們都是以標準的XML文檔的形式表達的。
XMLWeb Services是分布式計算的重要標準,也是未來軟件開發的技術趨勢,通過XMLWeb Services標準,應用軟件之間可以實現跨平臺、跨編程語言的聯接和互操作。作為微軟平臺的一個基本功能,基于XMLWebServices標準的.NET開發平臺可以實現個人之間、個人與企業之間、企業之間的信息互連,滿足人們可以隨時隨地存取和使用信息的需求。
模型構建擬利用該技術實現EHR資源整合與挖掘模型的數據結構化處理及數據交換,以實現語法互操作。
目前,EHR資源整合與挖掘常用的模式主要有P2P、索引中心和數據中心三種模式。[11]
P2P模式常用于兩個醫療單位間的點對點直接數據通信,對醫療單位的信息化程度要求比較高;索引中心模式通過索引數據庫→信息源系統數據庫方式實現數據查詢與訪問,但查詢性能不高。P2P和索引中心兩種模式都是直接訪問醫療單位的EHR等信息源系統獲取相關信息,其缺點是:① 對EHR等信息源系統安全威脅較大;② 對EHR等信息源系統資源占用較大;③ 無法支持數據挖掘等深層次的信息處理與共享應用等。而數據中心模式是指通過建立一個集中的數據集散中心,將來自各信息系統的數據進行數據清洗、轉換、裝載、集成,存儲到中心數據庫,并以一定的方式與各信息源進行數據同步,從而實現HER等信息源系統的信息資源整合、共享和再開發利用。基于上述分析,本文擬采用數據中心的模式進行EHR資源整合與挖掘的模型構建。
模型可分為四大模塊:模塊1是源數據模塊,是數據倉庫的數據源,主要來源于醫療機構的各種操作型信息系統數據庫(如HIS系統、EHR系統、PACS系統、RIS系統等)、各種醫療數據文檔以及其他相關數據;模塊2是數據倉庫管理模塊,主要是通過數據倉庫管理工具、各種規范標準及元數據庫等,對模塊1的源數據進行清洗、轉換、裝載、集成,并通過數據建模工具完成各種異質數據及數據結構的統一、規范;模塊3是數據倉庫,集成了經過標準化、規范化處理后的各種數據,并可根據具體需求建立各種數據集市;模塊4是分析應用模塊,通過Web Services層完成各種分析應用(如查詢工具、C/S工具、OLAP工具、數據挖掘工具等)與數據倉庫的數據傳輸請求。
本模型通過倉庫管理模塊將各種異質數據源集成于數據倉庫中,并通過分析應用模塊完成基于Web Services模式的終端應用,即可兼容不同時間、不同區域、不同標準、不同結構的各種源數據資源,避免重復建設和浪費資源,又可以通過各種個性化的工具實現對EHR相關資源的共享與應用,實現基礎與通用的EHR系統建設目標。
21世紀基于循證醫學提供集成的個性化醫療服務已經成為了世界范圍內的共識和目標,而這樣的醫療服務也必然是建立在基于EBM的、完整的海量信息基礎之上,基于EBM的EHR資源的整合與挖掘是實現這一目標的必然之路。但還有許多問題亟待研究解決,尤其是基于EBM信息需求和基于現代醫學技術、信息網絡技術不斷發展的各種臨床信息語義、語法及各類標準、規范的研究與制定,仍然是個漫長而艱辛的過程,必須在國家層面予以支持不斷完善。
[1]Institute of Medicine.The Computer-Based Patient Record[M].Washington:National AcademyPress,1997:55-56.
[2]JohnHalamka.電子病歷與臨床信息技術革命——美國的現狀及深遠影響[J].鄭強等譯.中華醫學雜志,2005(22):1513-1515.
[3]丁衛平,等.電子病歷挖掘:概念、技術及應用[J].計算機工程與設計,2008(2):405-407,410.
[4]丁衛平,等.基于頻繁概念格的電子病歷館里規則挖掘研究[J].微電子學與計算機,2008(8):125-128,132.
[5]李昊旻,等.電子病歷與標準化和結構化[J].中國數字醫學,2008(10):9-12.
[6]徐勇勇,等.電子病歷與臨床信息標準[J].中華神經外科疾病研究雜志,2005(6):481-485.
[7]邱國華.電子病歷的臨床規范[J].中國醫學創新,2009(9):144-145.
[8]邵峰晶,等.數據挖掘原理與算法[M].第二版北京:科學出版社,2009.
[9]王偉,鄭衍衡.基于Web服務的教委財務信息化管理平臺的研究[J].計算機應用研究,2006(12):90-91.
[10]王碹,李燕.應用WebServices構建多層架構的高效.NET應用 [M].北京:科學出版社,2005.
[11]余本功,等.基于第三方的電子病歷信息整合平臺研究[J].計算機系統應用,2008(5):2-5,19.