王珩
電子病歷挖掘旨在提取出電子病歷數據庫中有用的醫療信息,并挖掘隱含在其中的醫學診斷規則和模式,從而為疾病診斷和治療提供科學的、準確的輔助決策。電子病歷數據挖掘涉及面廣、技術難度大,需要從事信息處理、計算機技術、應用數學的科研人員以及具備相當經驗的醫務工作者通力合作。本文從電子病歷數據挖掘的概念、電子病歷的數據特性、電子病歷數據挖掘的步驟以及應用前景等方面作了簡單研究和介紹。
【關鍵詞】電子病歷 數據挖掘 預處理 應用與發展
隨著數字化醫院建設的不斷推進和計算機應用技術的不斷普及,現代醫院正在逐步向無紙化運行邁進,電子病歷系統作為數字化醫院管理的一個重要組成部分,其囊括了醫療過程和醫患活動的全部數據資源,并積累了相當龐大的數據量,通過對電子病歷的數據挖掘,提取出病歷數據庫中的有用醫療信息,并挖掘出隱含于其中的醫學診斷規則和模式,可盤活塵封的海量數據,為疾病診斷、治療及預防提供科學準確的輔助決策。
1 電子病歷數據挖掘的概念
數據挖掘DM(Data Mining)是基于數據庫的知識發現KDD(Knowledge-Discovery in Databases)中的一個重要處理步驟,一般將KDD中進行知識學習的階段稱為數據挖掘,亦可譯為資料探勘、數據采礦,而KDD則是指從大量的數據中提取出新穎有效的、可能有用的數據結構,形成可被理解的模式,最終實現低層數據向高層知識的轉化。因此,數據挖掘可定義為是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
電子病歷系統是利用現代信息技術對傳統病歷實現收集存儲、傳輸共享以及分析研究等功能的一種計算機程序軟件。電子病歷包含的內容為醫務人員在對患者進行的診療活動過程中,整理形成一整套的醫療活動記錄,包括文字符號、圖表圖形、影像數據等數字化信息。
2011年衛生部制定了電子病歷的基本規范,并在全國范圍內110家醫院開展電子病歷的試點工作。經過幾年的發展,電子病歷系統已成為衡量醫院信息化建設水平的一個重要標準,電子病歷系統也積累了相當可觀的數據量,并且這些數據都是患者的真實數據,對這樣的數據集進行數據挖掘分析,以探求各種疾病的發展規律以及疾病之間的相互關系等、探討對比不同治療方案的診療效果,這對疾病的診療和醫學研究等都具有巨大的價值和廣闊的發展前景。
2 電子病歷系統的數據特點
病歷是患者在醫院診療過程的全紀錄,電子病歷系統保存了這些記錄的數字化信息,因此電子病歷系統數據庫的內容異常豐富,既包含臨床診療參數,也涉及各類管理數據,這些數據反映了醫學數據的獨特性,具有如下幾個特性:
2.1 電子病歷數據的多樣性
從信息的表現形式方面區分,電子病歷數據元素可分為文字(如患者信息、病史信息、查房錄、病程記錄等)、數字(如體溫、血壓、脈搏、檢驗結果等)、圖形圖像(心電圖、CT、DR圖像等)、音頻(如心音)等。電子病歷數據的多樣性是其區別于其他領域的最顯著特征,同時也增加了對其進行數據挖掘的難度,尤其是在數據預處理階段,需要對部分數據進行格式轉換。
2.2 電子病歷數據的動態性
有些電子病歷數據具有一定的時序性,是隨著時間的推移不斷更新變化的,比如心電圖像、24h血壓測量數據等,甚至縱觀患者整個診療過程,其病情的發展、診療的結果、病程記錄等,都是隨著時間的推移而變化的。
2.3 電子病歷數據的不完整性
電子病歷數據是對患者診療記錄的如實記錄,是以治愈患者為目的,而非以研究為目的,因此對電子病歷數據的采集和處理可能會出現一定的偏差,采集的數據可能無法涵蓋研究所需。另外,疾病本身具有的模糊性、患者的表達能力、醫護人員的理解能力也不盡相同,也可能會造成數據記錄的偏差和殘缺。
2.4 電子病歷數據的冗余性
電子病歷系統是一個特殊的系統,其數據安全關乎患者的診療效果乃至生命安全,為進行數據校驗,系統必然會存在大量重復甚至矛盾的數據。如何對這些數據進行有效性篩選、獲取唯一可信的數據集,是電子病歷數據清洗的一個重要步驟。
2.5 電子病歷數據的隱私性
電子病歷系統囊括了患者在院診療過程中的所有信息,其中不乏涉及患者的隱私,如身份信息、疾病信息等,一旦這些信息被暴露,很可能會對患者的生活造成侵擾,甚至會引發倫理、法律等方面的問題。因此,在對電子病歷數據進行挖掘研究的同時,還應做好數據安全方面的相關工作。
3 電子病歷數據挖掘的步驟
對電子病歷的數據挖掘工作可分為預處理和挖掘分析兩大階段。由于電子病歷數據具有多樣性、時序性、不完整性等諸多特性,需要對待挖掘數據進行篩選、清洗、匿名化、標識轉換等操作,通常在數據預處理階段通常需要投入更多的人力物力和時間等。電子病歷數據挖掘的具體步驟介紹如下:
3.1 問題的理解和定義
電子病歷數據挖掘的工作需要從事信息處理、計算機技術、應用數學等方向的科研人員與醫務工作者通力合作,明確數據挖掘的電子病歷數據對象和所期望得到的相關結果。
3.2 數據采集與目標數據庫生成
根據對問題的理解采集相關數據,并根據不同的目標組織生成對應的數據庫。例如需要獲取和優化某疾病的診療方案,在目標數據庫組織的時候就需要包含一定比例的成功病例和失敗病例作為數據挖掘的訓練例和對比例,以便最終能獲取令人信服的結果。
3.3 數據清洗和預處理
由于電子病歷數據中包含相當數量的冗余數據和不完整數據等,需要對待挖掘的數據進行清洗和預處理,其目的是清理冗余數據、填充空缺數據、糾正錯誤數據。
3.4 數據工程
對清理后的數據進行約簡與投影,主要包括選定具有代表性的屬性子集,通過降低維度或變換格式的方法來減少有效數據變量。該步驟可重復多次,才能用最少的數據變量代表目標數據。
3.5 算法選擇并實施
根據數據挖掘的目標選取合適的數據挖掘算法,并將該算法應用于經過處理的數據上,從目標數據中提取數據模式,獲取疾病分類、相互作用關系等所期望的挖掘結果,并使用可視化或知識表的形式進行展示。
3.6 評估和使用挖掘結果
由相關領域專家對發現的模式進行有效性和新穎性評價,利用發現的有用模式優化醫生的診療流程或提供輔助決策支持,提高診療效率。
4 電子病歷數據挖掘的應用及發展前景
數據挖掘技術在數字化醫院中有著廣泛的應用,可為金保工程提供數據分析、為醫院管理提供決策支持等。針對電子病歷的數據挖掘也可為醫療診斷等方面提供幫助,如發現各種疾病之間內在聯系、進行病情預測與疾病分類、自動分析影像數據、指導臨床用藥等。
盡管電子病歷挖掘研究對醫療領域的分析具有較高的價值,但也面臨一些問題,如提供疾病診斷輔助決策結果是根據部分病例及某些專家的診斷經驗而獲得的,在客觀性和普遍性方面不能得到有效保證,在實際應用中還須甄別使用。
電子病歷數據挖掘是一門涉及面廣、技術難度大的新興交叉學科,隨著計算機醫學應用的更廣泛開展,將會開發出更有效的算法模型,數據挖掘技術將在疾病預防、診斷、治療中得到進一步發展和普及,從來帶來更大的社會和經濟效益。
參考文獻
[1]周怡,王世偉.醫學數據挖掘——SQL Server2005案例分析[M].北京:中國鐵道出版社,2008.
[2]吳漢華.大數據時代中如何進行醫療數據挖掘與利用[J].硅谷,2014(05).
[3]丁衛平,管致錦等.電子病歷挖掘:概念、技術及應用[J].計算機工程與設計,2008(01).
[4]蔣俊.數據挖掘技術在醫院信息系統中的應用[J].無線互聯科技,2015(08).
[5]莊軍,郭平等.電子病歷數據預處理技術[J].計算機科學,2007(03).
作者單位
南京郵電大學 江蘇省南京市 210046