楊琳,李超,林麗華,紀婷婷
(上海計算機軟件技術開發中心,上海 201112)
基于IT治理的區域醫療衛生大數據架構研究
楊琳,李超,林麗華,紀婷婷
(上海計算機軟件技術開發中心,上海 201112)
十二五期間,區域醫療衛生信息化建設取得顯著成果,信息化系統應用過程中積累海量的醫療衛生數據。醫療衛生大數據中蘊含著豐富的價值,通過有效的手段進行分析、挖掘和利用能夠提高醫療衛生服務水平。如何設計一套合理的區域醫療衛生大數據架構,規劃醫療衛生大數據價值實現路徑,成為當前研究的熱點問題。結合區域醫療衛生大數據現狀,借鑒IT治理的先進方法及思路,提出基于IT治理的區域醫療衛生大數據總體架構,并分別對數據架構、技術架構、應用架構以及安全體系進行實現。該架構設計方法為醫療衛生領域大數據架構設計提供一種思路,給出的區域醫療衛生大數據架構能夠為醫療衛生機構規劃大數據應用提供可參考的模型。
醫療衛生大數據;架構研究;IT治理
當前,高速發展的信息技術帶來了全球信息化浪潮,信息化已成為當今世界發展的大趨勢,在社會和經濟的發展過程中起著重要的作用。國內外在推進衛生改革中,把衛生信息化作為重要的技術支撐和手段[1]。在美國,促進衛生信息經濟發展的重要舉措便是衛生信息化,聯邦政府從衛生信息化的組織保障、制度創新、衛生信息系統設計以及對醫療服務供方采取一定的經濟激勵約束機制等方面促進信息技術在衛生領域中的應用。建立實用共享的醫療衛生信息系統、加快信息標準化和公共服務信息平臺建設也成為了我國頒布的一系列醫改方案。國內外對醫療衛生信息化建設和發展寄予厚望:其一衛生行業綜合管理的科學決策能力和水平的提高可以借由信息化手段實現,其二醫改監測、監督和績效考核能力,提高衛生服務效率的提升也依賴于信息化手段,進而保障服務安全和提升服務質量[2]。
隨著醫療衛生信息化“十二五”規劃、“3521工程”等意見和方案的出臺,在基層醫療信息系統建設指導意見等政策的指導下,我國醫療信息化建設腳步越來越快。目前,全國已有14個省份、107個地市建立了省級、地市級衛生信息平臺,居民健康卡試點工作已在29個省份開展,區域內醫療衛生系統互聯互通已在不同程度地實現了。目前已有2000多家醫療機構開展遠程醫療,二級以上醫療機構均開展電子病歷建設。在“十三五”期間,我國醫療信息化建設任務較重,重點還將圍繞全員人口信息數據庫、電子病歷數據庫、電子健康檔案數據庫3大數據庫,國家、省、地市和縣的4級區域人口健康信息平臺,6大類業務應用等方面展開。
在信息化基礎上積累的大數據已成為促進區域醫療衛生發展的基礎性戰略資源,未來三大數據庫的建設也充分表明基于大數據的醫療健康應用越來越受到重視。但是目前并沒有一個針對區域醫療衛生大數據架構的完整、長期以及統一的規劃。IT治理以其先進的理念和方法,能夠使組織從IT中獲得最大價值,借鑒其理念和方法應用到醫療衛生大數據架構規劃設計中,能夠產生新的思路和價值。本文重點研究了基于IT治理的區域醫療衛生大數據架構設計方法,從總體上對區域醫療衛生大數據架構進行了規劃和設計,并分別對數據架構、技術架構、應用架構以及安全體系進行具體的實現,為未來區域醫療衛生大數據資源建設以及挖掘利用提供了參考。
1.1 IT治理概述
信息時代,公司治理的內涵有了重要表現和發展,IT治理成為了治理的重要內容[3]。IT治理用于描述企業或政府是否采用有效的機制,使得IT的應用能夠完成組織賦予它的使命,同時平衡信息技術與過程的風險、確保實現組織的戰略目標。許多研究者基于他們自己的研究和理解,看待IT治理的視角各不相同,對IT治理亦有不同的描述:
Weill、Peterson等人認為“IT治理是在IT應用過程中,為鼓勵期望行為而明確決策權歸屬和責任擔當的框架”,他們將部署IT決策權看作是IT治理的重點內容,Weill更是強調IT治理旨在解決IT決策權力的分布問題。ITGI(全球IT治理研究中心)、Hoffman等認為“IT治理是董事會和執行層的責任,通過領導、組織和過程來保證IT實現和推動企業戰略目標。價值、風險與控制是IT治理的核心。”他們強調IT治理中的控制因素,主要研究思想是平衡IT風險與回報,控制企業IT資源的運用,實現IT資源的有效性和效率。通過平衡IT資源及IT過程的風險與回報,有助于降低IT成本,提升IT投資價值。Gartner公司則認為IT治理是一種商業范式,它是由戰略競爭力、全球化、業務流程共享和實時的企業創新需求所驅動而產生的。
ITSS分會(中國電子工業標準化技術協會信息技術服務分會)認為“IT治理是專注于信息技術體系及其績效和風險管理的一組治理規則,由領導關系、組織結構和過程組成,以確保信息技術能夠支撐組織的戰略目標。”
基于各不相同的IT治理思想,風格迥異的IT治理模型或框架也被研究者們提出。參考ITSS分會對IT治理的定義,我們得到IT治理模型如圖1所示,治理主體通過評估、指導、監督的治理方法完成治理過程。
1.2 基于IT治理的大數據架構設計方法
各衛生服務機構的業務系統通常由不同的信息化服務商提供,并擁有多個業務系統,在系統的互聯互通及數據規范化方面缺乏統一標準。醫療衛生機構業務的快速發展,催生了對信息系統各種新的需求,業務過程中積累的數據量也越來越多,數據量越來越大,需要大量存儲與計算資源,使得數據應用的成本越來越高,系統的可維護性和運行效率越來越差。如何提升對數據的采集、分析、應用能力,保障信息系統的有效性,促進信息系統和公眾健康醫療數據互聯融合、開放共享,使得大數據架構設計成為信息化過程中關注的熱點。因此我們提出了基于IT治理的大數據架構設計方法,以IT戰略為指導,從信息系統整體視角進行大數據架構設計,使得信息系統處理能力與醫療健康大數據應用需求相匹配。

圖1 IT治理模型
IT治理的治理方法包括評估、指導、監督。評估是考慮組織內部需求和外部壓力,評估組織當前和將來對IT應用的需求及能力,并隨著業務需求、環境壓力的變化,持續評估[4];指導是對IT治理的相關職責進行分配,對IT治理戰略的準備和實施、信息技術及其應用管理體系的管理方案和規劃進行指導;監督是對組織IT管理和應用的績效進行監控,確保與IT有關的戰略被正確執行、IT管理和應用符合內外部要求。
架構開發方法ADM(Architecture Development Method)是TOGAF架構研究和設計的核心[5],是一個以需求為中心的循環流程。主要包括架構愿景、業務架構、技術架構、信息系統架構、機會及解決方案、遷移規劃、架構變更管理、實施治理、需求管理九大流程。結合IT治理的思路,在大數據架構設計方法中,我們把架構開發流程劃分為規劃、實施和應用三個階段,治理實施不再單獨作為一個流程,而是融合在整個架構開發的過程中。在明確了總體戰略/IT治理目標后,應用IT治理的方法對業務需求、能力現狀、規劃方案進行評估,對實施過程進行指導,對應用過程進行監督,并且對應用成效進行持續的評估和反饋,作為IT規劃設計的一個輸入。其中規劃包括需求管理、業務架構、架構愿景三大流程;實施包括數據架構、技術架構、應用架構、安全體系四大流程;應用包括應急聯動、疫情監測、疾病預測等。大數據架構設計方法見圖2。

圖2 基于IT治理的區域醫療衛生大數據架構設計方法
在架構開發的規劃、實施和應用三個階段,每個階段的具體任務包括:
(1)規劃階段
評估規劃階段的三大流程,確保規劃形成的結果與總體戰略保持一致。
需求管理:查找、記錄、組織和跟蹤系統需求變更,并在系統需求變更上使不同部門保持一致,進而可以維護清晰明確的需求闡述、每種需求類型所適用的屬性,以及與其他需求和其他項目工作之間的可追蹤性。
架構愿景:用于明確組織的架構遠景。架構愿景利用業務推動者明確組織架構工作的目的,并且創建基線和目標架構的粗略描述。如果業務目標不清楚,那么該階段中的一部分工作是來幫助業務人員確定其關鍵的目的和相應的過程。
業務架構:詳述關于業務領域架構的工作。架構愿景中概括的基線和目標架構在此被詳細說明,從而使它們作為技術分析的有用輸入。業務架構采用的技術有業務過程建模、業務目標建模、用例建模以及差距分析等。
(2)實施階段
按照總體戰略/IT治理目標要求,指導實施階段四大流程工作的開展。
數據架構:重點考慮大數據價值,基于此方面產生的流程出發,明確在大數據全生命周期諸如采集、傳輸、存儲、分析挖掘以及應用過程中數據的數據流動情況[6],定義實體對象的數據表示和描述、數據存儲、數據分析的方式及過程,以及數據交換機制、數據接口等內容。
技術架構:技術架構是大樹價值實現的關鍵保障,是從技術視角研究和分析大數據的獲取、管理、分布式處理和應用等[7]。大數據的技術架構與具體實現的技術平臺和框架息息相關,不同的技術平臺決定了不同的技術架構和實現。
應用架構:應用架構描述了主流的大數據應用系統和模式所具備的功能,以及這些功能之間的關系[8],主要體現在圍繞醫療衛生大數據的應用如疫情監測、宏觀規劃、疾病分布及預測等,以及為支撐相關應用所必須的數據倉庫、數據分析和挖掘、大數據相關技術等方面。
安全體系:數據的安全性直接關系到大數據業務能否全面地推廣,通過安全體系建設保障大數據平臺及其中數據的安全性。組織自身大數據環境所面臨的安全威脅需進一步明確,由技術層面到管理層面應用多種策略加強安全防護能力,提升大數據應用過程中及其平臺安全性。
(3)應用階段
按照總體戰略/IT治理目標,對不同的場景下基于大數據的應用成效進行監督和評價,并將評價結果反饋至需求管理流程,為后期大數據架構的完善提供參考。醫療衛生大數據應用包括應急聯動、疫情監測以及疾病預測等[9-10]。
區域醫療衛生大數據總體架構是在IT治理/標準和安全體系的支撐下,由區域醫療衛生IT戰略/數據戰略、應用架構與技術架構、數據架構、基礎設施四個層面構成。通過IT治理/標準的實施,確保由醫療衛生IT戰略/數據戰略指導應用架構與基礎設施、技術架構、數據架構三個層面的規劃建設,安全體系為三個層面的安全性提供保障,最終實現醫療衛生IT戰略/數據戰略目標。區域醫療衛生大數據總體架構如圖3所示。

圖3 區域醫療衛生大數據架構實施框架示意圖
區域醫療衛生IT戰略/數據戰略:規定了浦東新區醫療衛生發展信息化戰略和大數據應用的目標,是設計大數據架構的基礎。
IT治理/標準:明確區域醫療衛生IT戰略和數據戰略目標,定義治理團隊的組織結構、權責分配,對各個層面的規劃實施結果提出要求。
數據架構:規劃區域醫療衛生信息化中的各主題數據庫,定義各主題數據庫及其之間的關系,提出數據的采集、加工、分布和利用機制。
技術架構:定義了大數據價值實現過程中各個環節的技術要點、技術規范,技術架構作為較為重要的方面,是對應用架構和數據架構的支撐。
應用架構:規劃區域醫療衛生大數據應用的架構。描述了區域醫療衛生應用系統和模式所具備的功能,定義各應用與信息資源的關系、與業務的支撐關系。
安全體系:定義大數據架構的安全方面的需求,例如安全規劃模型、安全等級和安全評估保障機制等。
基礎設施:規劃區域醫療衛生信息化中的網絡拓撲結構、主要計算和存儲服務器,包括網絡交換分層規劃、計算與存儲匯聚點的分布、IP地址規劃、基礎IT設施所采用的主要平臺及技術。
大數據架構的研究和實現主要是在領域分析和建模的基礎上,因此,區域醫療衛生大數據架構實現包括數據架構、技術架構、應用架構,同時安全體系作為保障,支撐架構的實現和安全運行。
3.1 數據架構
數據架構作為醫療衛生機構不得不面臨的數據量問題,主要研究大數據采集、存儲、分析以及應用過程中的數據表現形式以及支持各種業務應用的數據來源,數據定義的規范、使用方法等,明確數據流轉關系及各模塊之間傳輸、交換及共享的數據。

圖4 區域醫療衛生數據架構圖
由圖可知,區域醫療衛生信息化業務系統將產生各種數據信息,包括醫院管理信息、臨床信息、醫療圖像信息等,以及其他文檔資源等,這些數據通過數據總線,按照相關規范匯聚傳輸,統一存儲到數據中心中。數據中心的數據信息經過數據抽取、轉換和加載等數據的整理,即把醫療衛生機構核心業務的數據從各個應用系統和未利用的信息資源文件中抽取出來,然后在數據規范的指導下,統一數據表達,剔除冗余數據,最后建立起數據倉庫。數據倉庫中的數據不再是業務流程的數據,而是一個個事實的描述,再根據數據分析或挖掘的不同主題,建立相對應的數據集市。數據集市中的數據高度匯總又包含各個維度,非常有利于數據分析挖掘,進行產生應用及展示。
3.2 技術架構
技術架構定義了如何建立一個服務運行環境來支持數據和應用架構,以保證業務的正常開展。技術架構設計結果能夠提供對數據和應用的支持并保持一致。
由圖可知,區域醫療衛生信息化系統產生的數據經過梳理、傳輸、存儲到數據庫中,結構化數據可以采用傳統的結構化數據庫進行存儲操作,非結構化數據采用分布式存儲技術進行存儲操作。數據處理是數據應用的關鍵一步,利用Hadoop、Spark等工具及技術進行數據的挖掘分析操作,支撐報表、統計分析、挖掘預測等功能。

圖5 區域醫療衛生大數據技術架構圖
數據抽取采用ETL技術手段,ETL(Extract-Transform-Load)是構建數據倉庫的重要一環。現實世界中,數據來源復雜,產生了許多臟數據,用戶從數據源抽取出所需的數據,經過數據清洗等數據預處理工作,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。ETL包含三個方面:“抽取”從原始的業務系統中讀取出來原始數據,這是所有工作的前提和起點;“轉換”按照預先設計好的規則將前一階段抽取得數據進行轉換,消除數據的多源異構特性,使本來異構的數據格式能統一起來;“裝載”即是完成進入到數據倉庫中的工作,即將轉換完的數據按計劃增量或全部導入到數據倉庫中。
非結構化或半結構化數據越來越多的存在與醫療衛生領域當中,同時對于醫療衛生服務具有較為重要的價值,非結構化數據的存儲、處理等是當前需要考慮的問題。我們采用分布式數據存儲技術處理采集到的非結構化數據,與目前常見的集中式存儲技術是將數據存儲在某個或多個特定的節點上,而分布式存儲技術是通過網絡使用機構中的每臺機器上的磁盤空間,并將這些分散的存儲資源構成一個虛擬的存儲設備,在機構的各個角落分散的存儲數據。而對于傳統的結構化數據是一種用戶定義的數據類型,它包含了一系列的屬性,每一個屬性都有一個數據類型,存儲在關系數據庫里,可以用二維表結構來表達實現的數據。
分布式大數據處理是醫療衛生信息資源利用的重要一步,在醫療衛生數據中應用的數據挖掘處理技術對于提高整個醫療衛生行業水平是相當有益的。目前在醫療衛生領域應用較為廣泛的有決策樹、支持向量機、回歸分析、數據倉庫與OLAP分析、粗糙集理論以及聚類分析等。
數據挖掘處理的結果需要借助于數據展示技術來更加形象化、多樣化的顯示其價值和意義,在此可采用可視化技術、報表、統計分析、預測圖等方式實現。
3.3 應用架構
大數據應用是其價值的最終體現,應用架構描述了區域醫療衛生應用系統和模式所具備的功能,以及這些功能之間的關系,主要體現在圍繞醫療衛生大數據應用如疫情監測、宏觀規劃、疾病分布及預測等,以及作為支撐相關應用所必須的數據倉庫、數據分析與挖掘、大數據相關技術等方面。
區域醫療衛生大數據應用架構如下:

圖6 區域醫療衛生大數據應用架構圖
區域醫療衛生大數據應用架構以大數據資源存儲基礎設施、數據倉庫、大數據分析與挖掘等為基礎,結合大數據分析、挖掘、展示等技術,實現疫情監測、宏觀規劃、應急聯動、疾病分布、疾病預測等應用。
疫情監測:大數據時代,數據、統計、理性思考等為人類對疫情監測及防控帶來了新的方法和路徑。在某疫情爆發區,通過對醫療衛生大數據抽取,采用實時分析算法及模型,對整個區域疫情的發展態勢、嚴重程度等保持時刻關注,為疫情應對提供決策支持。
宏觀規劃:醫療衛生大數據中涵蓋方方面面的病人、醫院、藥品等信息,通過深入分析和挖掘,能夠為醫療衛生管理機構規劃及管理提供決策支持。例如在醫院的選址研究中,通過分析病人地址區域、醫院位置信息以及結合其他交通等信息,為醫院的選址建設提供決策建議。
應急聯動:當某地發生突發醫療衛生情況時,通過相關醫療衛生數據的分析,統籌協調區域醫療衛生機構對突發情況進行處置,合理安排及分配醫療衛生資源,提高突發情況處置效率及處理效果。
疾病分布:通過大量醫療衛生數據信息,描述疾病事件在什么時間、地區、人群中發生以及發生多少的現象,流行病學中簡稱“三間分布”。從數據倉庫中,抽取出相應的數據庫表,通過分析方法,建立疾病分布模型數據庫,基于疾病分布模型數據庫進行挖掘和分析,得出疾病的分布信息。
疾病預測:流行病的發生和傳播有一定的規律性,與人群分布、氣候以及環境指數等因素密切相關。通過挖掘醫療衛生數據內部特征,結合外部因素(氣溫、人口、環境指數等),可形成相應流行疾病的預測模型,有利于醫療衛生機構提前做好部署,提醒市民防范。
3.4 安全體系
安全體系支撐大數據架構的安全實施,保障醫療衛生大數據應用環境安全,具體可分為數據存儲、數據傳輸、數據應用以及數據管理等方面。

圖7 區域醫療衛生大數據安全體系圖
醫療衛生數據量本來就很大,近年來隨著業務的增長,醫療衛生服務水平的提升,數據量呈非線性增長,數據集中存儲在一起且復雜多樣,多種應用的并發運行及頻繁無序的使用狀況,產生了數據類別存放錯位、數據丟失等問題。存儲備份是保護數據存儲安全的重要環節,身份驗證能夠確定誰正在對數據尤其是敏感數據進行訪問,可以有效地應對數據存儲安全問題。
數據傳輸過程中一旦出現安全漏洞,容易使得數據泄露,數據被盜用,造成較大損失。數據掩蔽是保護數據安全的有效手段,這些數據通過加密或斷詞被屏蔽等進行傳輸安全控制,加強傳輸安全可控性。核心數據的加密防護是增強大數據安全的重心,加強對敏感關鍵數據的加密保護,使任何未經授權許可的用戶無法解密獲取到實際的數據內容,能夠有效地保護數據信息安全。
大數據應用往往具有海量用戶及跨平臺特性,這在一定程度上會帶來較大的風險,因此在數據使用,特別是大數據應用方面應加強授權控制,保護數據的應用安全。數據應用中,通過訪問控制技術,防止非授權訪問和使用受保護的數據資源,近年來于屬性的訪問控制模型、基于任務的訪問控制模型和基于角色的訪問控制模型等諸如此類的訪問控制模型比較人們。通過一系列權限控制技術諸如授權、統一身份認證等,對用戶進行嚴格的認證和訪問控制,有效保證大數據應用安全。
隨著醫療衛生信息化建設的不斷深入,應用系統級及其他途徑產生的醫療衛生數據呈非線性增長,醫療衛生機構面臨大數據環境帶來的機遇與挑戰。本文借鑒IT治理的思路和方法,對區域醫療衛生大數據架構進行了研究,提出了區域醫療衛生大數據總體架構,并對架構實現做了進一步說明。通過對區域醫療衛生大數據架構的設計及實現,能夠為醫療衛生機構大數據的應用及價值實現提供可行的借鑒方法和框架,從而更好地為建設醫療衛生事業服務。
參考文獻:
[1]馬金鳳,趙強,蔣璐,等.云存儲在區域醫療衛生信息化建設中的價值探究[J].軟件導刊,2013,12(10):10-11.
[2]郭麗,王秀麗,馮婕,等.新醫改背景下衛生信息化建設的幾點思考[J].信息通信,2013,(2):154-156.
[3]胥洪娥,趙炳新.企業IT治理對IT績效影響的實證研究[J].科技管理研究,2016,36(4):177-183.
[4]馬健.淺析企業IT治理概念及治理架構.科技視界,2015(4):312-312.
[5]宋俊典,李名敏,金濤,等.基于TOGAF的軌道交通企業信息化架構規劃研究[J].計算機應用與軟件,2010,27(5):165-168.
[6]葛蘇慧,梁宏濤,房正華.高校共享數據中心虛擬化技術的架構[J].計算機技術與發展,2014(4):174-177.
[7]任桂禾,王晶.淺談大數據處理技術架構的演進[J].信息通信技術,2014(6):47-51.
[8]陳麗.基于大數據的應用系統架構研究與應用[J].軟件產業與工程,2014(5):33-38.
[9]林青,黃玉蕾.醫療衛生領域大數據共享的應用研究[J].信息安全與技術,2016,7(4):23-25.
[10]張傳文.基于大數據的區域醫療信息共享體系研究[M].廣州,華南理工大學,2015.
Research on the Big Data Framework of Regional Medical and Health Based on IT Governance
YANG Lin,LI Chao,LIN Li-hua,JI Ting-ting
(Shanghai Development Center of Computer Software Technology,Shanghai 201112)
During the 12th Five-Years Plan period,information construction of regional medical and health has achieved significant results,these information systems come into being bring massive medical and health data.Medical and health data contains wealth of value,through improving the level of medical and health by means of analysis,mining and utilization.How to design a set of reasonable regional medical and health data structure,plan medical and health data value realization,has become the hot issue of the current research.Proposes big data framework of regional medical and health based IT governance,which is focus on current situation,realizes data framework,technology framework,application framework and security system.The design method of architecture provides a novel idea for the big data architecture designing of medical and health,and gives formative medical and health framework to provide a reference model for medical and health institutions.
Medical Big Data;Architecture Research;IT Governance
1007-1423(2017)05-0052-07
10.3969/j.issn.1007-1423.2017.05.013
楊林(1979-),女,湖北襄陽人,工程師,研究方向為IT治理、大數據理論
2016-11-24
2017-02-10
上海市科技人才計劃項目(No.16XD1421500)