摘要:數據挖掘(Data Mining,DM)是一門應用性很強的技術。該文闡述了數據挖掘技術的概念、方法和過程,介紹了數據挖掘在當前醫學領域的應用情況。
關鍵詞:數據挖掘;醫學;應用
中圖分類號:TP274 文獻標識碼:A 文章編號:1009-3044(2009)36-10410-02
Data Mining Technology and Application in Medicine
JIAO Rui, LI Xiang-sheng
(Department of Computer Education, Shanxi Medical University, Taiyuan 030012, China)
Abstract: Data Mining( Data Mining , DM ) is a highly technical applications. This paper describes the concept of data mining techniques, methods and processes introduced in the current data mining application of the field of medicine.
Key words: data mining; medical; application
計算機信息管理系統以及數據庫技術在醫療機構的廣泛應用,促進了醫學信息的數字化,使得醫院數據庫的信息容量急劇增加。這些數據蘊含了大量關于病人的病史、診斷、檢驗和治療的臨床信息、藥品管理信息、醫院管理信息等。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,更好地為醫院的決策管理、醫療、科研和教學服務,已越來越為人們所關注,正是在這種背景下,醫學數據挖掘應運而生[1]。
1 數據挖掘技術
數據挖掘DM是知識發現KDD的核心部分,是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中、人們事先并不知道但又是潛在有用的信息和知識的過程,誕生于二十世紀90年代,它的發展速度很快,匯聚了數據庫、人工智能、數理統計、可視化、并行計算等多個學科,是多技術的綜合。
任務:數據挖掘的任務常見有以下幾種。
1)數據總結:其目的是對數據進行濃縮,給出它的緊湊描述。它主要關心從數據泛化的角度來討論數據總結。
2)關聯分析:其目的是找出數據庫中隱藏的關系網,常用的技術有回歸分析、關聯規則、信念網絡等。
3)聚類分析:聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。它是根據數據的不同特征,將其劃分為不同的數據類別。
4)分類與回歸:它是數據挖掘中非常重要的任務,應用最為廣泛。分類和回歸都可用于預測,其目的是從已知的歷史數據記錄中自動推導出對給定的數據的推廣描述,從而能對未來數據進行預測。
5)偏差檢測:數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏離以及量值隨時間的變化等。
技術:數據挖掘技術涉及到統計學、機器學習和模式識別等領域的知識,根據挖掘任務,數據挖掘技術可以分為概念描述、聚類分析、關聯規則分析、分類分析、回歸分析、序列模式分析等。選擇用某種數據挖掘技術前,首先要將待解決的問題轉化成數據挖掘任務,然后根據任務來選擇具體使用哪一種或幾種數據挖掘技術[2]。
過程:數據挖掘的過程一般由三個主要的階段構成:數據準備、數據挖掘、結果表達和解釋,對知識的發現可以描述為這三個階段的反復過程。
1)數據準備:這個階段又可進一步分成三個子步驟:數據集成,數據選擇、數據預處理。數據集成將多文件和多數據庫運行環境中的數據進行組合,解決語義模糊性,處理數據中的遺漏和清洗無效數據等。數據選擇的目的是辨別出需要分析的數據集合,縮小處理范圍,提高數據挖掘的質量。預處理是為了克服目前數據挖掘工具的局限性。
2)數據挖掘:這個階段進行實際性分析工作,包括的要點是:先決定如何產生假設,再選擇合適的工具進行發掘知識的操作,最后進行證實。
3)結果表述和解釋:根據用戶的需求對提取的信息進行分析,挑選出有效信息,并且通過決策支持工具進行移交。因此,這一步驟的任務不僅是把結果表述出來,還要對信息進行過濾處理,如果不能令用戶滿意,需要重復以上數據挖掘的過程。
2 數據挖掘技術在醫學中應用的可行性和必要性
由于醫療工作自身的特點,如病情觀察的不可間斷、各種醫療檢查結果的紛繁復雜以及大量的醫學文獻專著等,要想使數據真正成為有用的資源,只有充分利用它為醫療工作的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。面對“被數據淹沒,卻饑餓于信息”的挑戰,需要引進一門新的技術——數據挖掘和知識發現,以解決好海量醫學信息的存儲開發與利用。因此,在醫學中應用數據挖掘技術不但是可行的而且是必要的。
運用數據挖掘技術,支持醫院各種層次的科學決策服務,現在已具備了充分的條件。一方面,我國的醫院信息系統經過多年的自動化建設,已具備相當的物質條件和人才儲備,并積累了大量數據,為數據挖掘應用奠定了一定的物質基礎。另一方面數據挖掘在經過多年的發展之后已經形成相對成熟的技術體系,特別是在數據挖掘設計、數據抽取以及聯機分析處理技術等方面都取得了令人滿意的進展,為數據挖掘的應用奠定了技術基礎。
3 數據挖掘技術在醫學的應用
近年來,數據挖掘技術在醫學領域中的應用越來越廣泛,主要表現在以下幾方面。
3.1 在醫院信息系統中的應用
目前,我國大中型醫院均建立了醫院信息系統(Hospital Information System,HIS),運用數據倉庫和數據挖掘技術,對醫院醫療活動過程中產生的海量數據進行深度加工可從中得到長期的、系統的、綜合的數據;同時還可以通過決策樹、神經網絡、遺傳算法、聚類等技術,對數據進行深層次的挖掘和有效利用,得到豐富的輔助決策信息。這兩種技術的綜合應用,能為醫院的科學管理提供支持和依據,可以幫助醫院管理者預測醫院發展的趨勢,滿足更大范圍、更深層次的管理分析需求,從宏觀上把握醫院的發展方向。
3.2 在疾病輔助診斷中的應用
醫學診斷問題是基于知識的序貫診斷問題,醫生通過一定途徑獲取知識,形成推理網絡,而病例數據儲存在數據庫中,因此如何從病例數據庫提取診斷規則成了研究的主題。采用數據挖掘可以通過對患者資料數據庫中大量歷史數據的處理,挖掘出有價值的診斷規則,這樣根據患者的年齡、性別、生理生化指標等就可以做出診斷結論,從而排除了人為因素的干擾。此外由于處理的數據量很大,因此所得到的診斷規則有著較好的應用普遍性。例如利用關聯規則找出頭部創傷患者作CT檢查的適應證以及將數據挖掘用于肝癌遺傳綜合征的自動檢測等等都顯示出數據挖掘技術在疾病輔助診斷的廣闊的應用前景。
3.3 在醫學影像中的應用
當前醫學多媒體數據主要來自醫院中的一些成像儀器如:X光機、B超、CT、電子顯微鏡等,DICOM的出現,促進了醫學影像存檔與通信系統PACS的發展和使用,使得醫院有可能將來自不同設備的醫學影像進行集中、統一的管理和使用。數據挖掘是集數據處理技術最新成果的系統性理論,尤其適用于醫學影像數據分析這類多維數據。
醫學影像數據挖掘的關鍵技術有數據預處理、信息融合技術等。數據挖掘在醫學影像中應用主要在以下三點:1)提高目標影像質量和邊緣提取:利用數據挖掘理論中各種數據的預處理技術去除或降低圖像噪聲的影響,提高目標影像質量或對目標進行邊緣提取。Hsu JH等人曾利用數據挖掘技術對乳腺超聲影像的邊緣檢測算法進行研究并探討了算法的有效性評估問題[3]。2)組織定征和概念描述:通過對目標器官或組織進行概念描述并概括這類對象的有關特征,從而獲得或驗證有關參數的動態范圍。3)醫學影像管理與檢索: 目前,醫學影像存檔與通信系統( PACS) 已經發展成熟,基本解決了醫學影像數據的存儲管理問題, 但影像的檢索始終是研究熱點。數據挖掘技術的應用提供了兩種解決方案:一是由病例描述檢索醫學影像信息;二是由影像信息查詢病例可能診斷[4]。
3.4 在生物信息學中的應用
近年來生物醫學工程研究有了迅猛發展,國內外學者采用數據挖掘技術在DNA分析、醫學影像數據自動分析、糖尿病及心血管系統疾病患者多種生理參數監護數據分析等方面都進行了研究。
DNA在遺傳學研究中的重要作用已經眾所周知,數據挖掘理論中有許多有意義的序列模式分析和相似檢索技術,因此數據挖掘技術被認為是DNA分析中的強有力工具。Jiawei Han和Micheline Ka-mher從異構和分布式基因數據的語義集成、DNA序列間相似的搜索和比較、同時發現的基因序列的識別、發現在疾病不同階段的致病基因等方面闡述了數據挖掘在DNA數據分析領域中的應用[5]。
4 結束語
醫學數據挖掘是計算機技術、人工智能、統計學等與現代醫學信息相結合的產物,是一門涉及面廣、技術難度大的新興交叉學科,需要從事計算機、醫學工程及醫務工作者進行通力合作,力爭在多屬性醫學信息的融合、挖掘算法的高效性和準確性等關鍵技術方面有所突破。
參考文獻:
[1] 曲哲,林國慶,余奎.數據挖掘技術在醫學影像中的應用[J].醫療設備信息,2004,19(6):33-34.
[2] Hsu J H,Tseng SC,et al.A methodology for evaluation of boundary detection algorithmson breast ultrasound images[J].Journal of Medical Engineering Technology,2002(25):173-177.
[3] Jiawei Han Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰,等,譯.北京:電子工業出版社,2001:3-5.
[4] 丁祥武,楊瑩.數據挖掘在醫學上的應用[J].鄖陽醫學院學報,1999(3):130-132.
[5] 李逸波,于吉紅,白曉明.合理選擇數據挖掘工具[J].計算機與信息技術,2006(1).