姚旭升 楊靜 謝穎夫
摘要:
為了從臨床數據中挖掘出疾病之間的相關性,為疾病臨床診斷提供一種輔助方法,使用SPSS Statistics進行數據預處理,將數據轉化為布爾數據,最后應用SPSS Modeler搭建基于Apriori算法的關聯規則挖掘數據流,采用云南某醫院2013年住院病案首頁數據(共54 841條)建立疾病間的關聯規則模型。從227種疾病中挖掘出信度大于20%的關聯規則共40條,涉及20種疾病。關聯規則挖掘可以從大量臨床數據中發現疾病間潛在關聯,為相關疾病的臨床診斷提供輔助。
關鍵詞:
數據挖掘;關聯規則挖掘;SPSS Modeler;臨床輔助診斷
DOIDOI:10.11907/rjdk.172521
中圖分類號:TP319
文獻標識碼:A文章編號文章編號:16727800(2018)003016203
英文摘要Abstract:In order to dig out the correlation between diseases from clinical data, an auxiliary method is provided for the clinical diagnosis of disease. SPSS Statistics is used to preprocess the data and convert the data into Boolean data. Finally, SPSS Modeler is applied to build association rules mining data stream based on Apriori algorithm. An association rule model between diseases was established by using the first page of inpatient medical records(a total of 54 841) in a hospital in Yunnan in 2013. A total of 40 association rules with confidence setting greater than 20% were extracted from the 227 diseases, involving 20 diseases. Association rules mining can discover the latent association between diseases from a large amount of clinical data. This can provide an auxiliary method for the clinical diagnosis of related diseases.
英文關鍵詞Key Words:data mining; association rules; SPSS Modeler; clinical assistant diagnosis
0引言
隨著信息技術的發展,目前很多領域已經逐漸積累起海量數據,數據挖掘手段可以從這些數據中挖掘出一些人類不容易發現的潛在規律。數據挖掘可以概括為一種決策支持過程,主要基于人工智能、機器學習、統計學等技術,高度自動化地分析原有數據,作出歸納性推理,從中挖掘出潛在規律,預測分析對象的行為趨勢,從而幫助決策或調整策略[1]。
關聯規則算法是用來探索事務之間依賴關系的一種常用方法,最典型的應用是挖掘超市交易數據中售出商品間潛在關系,用于找出顧客購買行為模式,從而優化商品布置,以達到增長銷售額的目的[2]。目前關聯規則挖掘已廣泛應用于各個行業。在醫學領域,關聯規則廣泛應用于臨床用藥規律、疾病預測分析等方面[3]。關聯規則算法的特點是可以發現自然組合的關聯,將該方法應用于挖掘不同種疾病之間的相關性,對于疾病的主動預防以及臨床輔助診斷是有意義的[4]。
本文基于SPSS Modeler軟件提出一種針對住院病案首頁中診斷數據的疾病相關性挖掘方法,采用云南省昆明市某三甲醫院2013年住院病案首頁數據,力圖挖掘出一些疾病間可能的潛在關聯,為臨床診斷提供幫助。
1關聯規則挖掘
1.1關聯規則挖掘定義
關聯規則挖掘可描述如下:
設I={i1,i2,...,im}是有m個不同的項組成的集合,簡稱項集。給定一個事務集合D,其中每一個事務T是I中一組項的集合,即TI。若項集AI且AT,則事務T包含項集A[5]。關聯規則是形如A→B的關系式,其中A∪T,B∪T,且A∩B=;關聯規則挖掘是要在事務集合D中找出所有滿足最小支持度和最小置信度的關聯規則。
1.2Apriori算法
Apriori算法是一種最有影響的布爾關聯規則頻繁項集挖掘算法[6],其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則[7],所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
該算法的基本思想:①找出所有頻集,這些項集出現的頻繁性至少與預定義的最小支持度一樣;②由頻集產生強關聯規則,這些規則必須滿足最小支持度與最小可信度;③使用第1步找到頻集產生期望的規則,產生只包含集合項的所有規則,其中每一條規則右部只有一項。一旦這些規則被生成,那么只有那些大于用戶給定的最小可信度的規則才被留下來。
3關聯規則挖掘方法
3.1研究對象
本文采用的數據是云南省某三甲醫院2013年全年的住院病案首頁數據,共54 841條,根據住院病案首頁國家標準,每個住院案例包含四大類指標,分別為患者基本信息、住院過程信息、診療信息與費用信息[8]。由于本文研究的是疾病間潛在的聯系,故選擇以下字段作為研究指標:住院病案號(為保護患者隱私,采用住院病案號作為患者身份標識)、疾病編碼(主要診斷編碼)、疾病編碼1(其它診斷1編碼)……疾病編碼16(其它診斷16編碼),共17個指標。
3.2數據預處理
2013年住院病案首頁數據中把本文不考察的其它指標過濾掉,僅留下研究對象。采用SPSS Statistics 22將數據轉化為事務處理格式,統計疾病頻數,疾病頻數小的疾病對于模型的影響微乎其微,故將疾病頻數小于100的案例刪除,提高建模效率。
3.3關聯規則挖掘模型構建
SPSS Modeler軟件的特點是采用數據流形式處理數據,可以直觀地分析數據處理過程、設置參數[910]。本文采用SPSS Modeler 14.1建立關聯規則挖掘數據流模型。模型如圖1所示。
其中,在“Statistic文件”節點中輸入預處理后的數據源;在“類型”節點中將納入模型的變量類型設為“輸入”;在“標志”節點中將“疾病代碼”設為標志字段。按照“住院病案號”進行匯總,其目的是將現有數據變成可以被布爾數據Apriori算法處理的數據。在“過濾”節點中將疾病編碼修改為疾病中文名,最后在“Apriori算法”節點中設置最小置信度為20%,最小支持度為2%,運行模型、輸出關聯規則結果40條。
4結果
關聯規則算法對疾病間相關性挖掘結果見表1。從227種疾病中挖掘出40條關聯規則。其中前項和后項的含義是若事件A存在的同時事件B存在,那么前項就是A,后項是B;支持度的含義是事件AB同時發生的實例占總案例的比例;置信度的含義是AB事件同時發生占事件A的比例。如第一條的意義是多發性腦梗死的患者同時患有高血壓的占總案例數的5.5%,多發性腦梗死患者中66.1%的人同時患有高血壓。其關聯的內在原因有待醫學專家進一步研究。
5結語
數據挖掘在醫學領域的應用前景十分廣闊,本文應用SPSS Modeler軟件,通過對某醫院2013年住院病案首頁數據的疾病相關性進行挖掘,給出了一個可行的關聯規則挖掘實施方案,挖掘出一些可能有價值的關聯規則。當數據量增大時,可能會從中挖掘出更多有價值的潛在聯系。以上挖掘出部分關聯可以為臨床診斷提供輔助參考,同時對于疾病預防、宣傳也有一定的積極作用。
參考文獻參考文獻:
[1]應振潭.數據挖掘技術在生源質量分析中的應用[J].軟件導刊,2009(8):172173.
[2]林獷.慢性腎小球腎炎的中醫癥狀證候藥物關聯規則挖掘的研究[D].成都:電子科技大學,2016.
[3]趙佳璐.基于關聯規則挖掘的出生缺陷預警系統的研究與實現[D].北京:北京郵電大學,2012.
[4]鄭傳生,蔡偉鴻.一種關聯規則挖掘算法及其在醫療信息挖掘中的應用[J].計算機與現代化,2007(7):1012.
[5]SAHOO J, DAS A K, GOSWAMI A. An efficient approach for mining association rules from high utility itemsets[J]. Expert Systems With Applications, 2015,42(13):57545778.
[6]AGRAWAL R, SRIKANT R. Mining sequential patterns[C]. IEEE Computer Society, 1995:314.
[7]P TANNA, Y GHODASARA. Using apriori with WEKA for frequent pattern mining[J]. International Journal of Engineering Trends and Technology, 2014,12(3):127131.
[8]國家衛生計生委辦公廳.住院病案首頁數據填寫質量規范(暫行)[R].北京:2016
[9]張文彤,鐘云飛.IBM SPSS數據分析與挖掘實戰案例精粹[D].北京:清華大學出版社,2013.
[10]季聰華,曹毅,張穎,等.基于SPSS Clementine軟件的關聯規則算法的應用[J].中醫藥管理雜志,2014(1):3133.
責任編輯(責任編輯:劉亭亭)