李 準 馮思佳 楊美潔 趙文龍
(四川省內江市市中區人民醫院信息科 內江641000) (重慶醫科大學附屬大學城醫院 重慶401331) (重慶醫科大學信息管理系/圖書館 重慶400016)
?
關聯規則技術在冠心病電子病歷中的應用
李 準 馮思佳 楊美潔 趙文龍
(四川省內江市市中區人民醫院信息科 內江641000) (重慶醫科大學附屬大學城醫院 重慶401331) (重慶醫科大學信息管理系/圖書館 重慶400016)
通過電子病歷探討冠心病檢查檢驗結果與用藥之間的關聯性,運用SQL數據庫技術對數據進行預處理,使用關聯規則技術挖掘檢查檢驗結果與用藥之間的關聯規則,為針對性地制定冠心病臨床診療方案提供參考。
關聯規則;冠心病;電子病歷;數據挖掘
近年來,隨著大型醫院信息管理系統的發展,電子病歷數據日益增多,因此探索科學實用的數據挖掘技術,在海量電子病歷數據中發現有價值的規則,為臨床專家疾病診治和科研提供科學依據,提升診治水平,具有重大意義和廣闊前景。關聯規則是關聯分析的關鍵技術之一,關聯規則的置信度和支持度是判斷規則有效性和實用性的常用指標。此外, Apriori算法是數據挖掘關聯規則技術的核心算法,一般分為兩個階段,即尋找頻繁項集和依據頻繁項集產生關聯規則[1-7]。本文在聚類分析結果的基礎上,以冠心病病人的電子化檢查檢驗和藥品醫囑為研究對象,采用關聯分析中的關聯規則技術對冠心病病人檢查檢驗結果與用藥情況進行研究。
2.1 資料來源
收集重慶某綜合醫院近年主診斷為“冠狀動脈粥樣硬化性心臟病”的電子病歷741份。經過數據預處理后實際用于分析的有效電子病歷為678份。
2.2 研究方法
2.2.1 數據收集 從醫院信息系統(HIS)中將主診斷為“冠狀動脈粥樣硬化性心臟病”的電子病歷備份到檢查檢驗、藥品醫囑等數據表中。
2.2.2 數據屬性選擇 通過查閱《臨床檢驗項目分類與代碼》、《中華人民共和國藥典》及相關文獻,咨詢心血管疾病專家,選取冠心病常見的50個檢查檢驗項目和51種藥品。
2.2.3 數據預處理 利用SQL Server 2008對原始數據進行預處理,包括數據清理、集成、規約和轉換。數據轉換的目的是為關聯規則分析提供適合的數據模型,包括檢查檢驗項目結果數據和使用藥品的轉換:(1)用4位數對檢查檢驗結果進行編碼,第1個數字取值為4,代表檢查檢驗項目,主要是為了與藥品項目進行區分;中間兩個數字代表檢查檢驗項目變量名稱,取值為01-50;第4個數字代表檢查檢驗項目結果水平,取值0、1、2、3,0代表未做該項目,1代表低于正常值范圍,2代表在正常值范圍內,3代表高于正常值范圍。(2)用4位數對使用藥品進行編碼,第一個數取值為5,代表藥品,中間兩個數代表藥品變量名,為01-51,第4個數取值0、1,0代表未用該藥品,1代表使用該藥品。
2.3 關聯規則分析
結合本研究,規則置信度(Confidence,C)是指出現檢查檢驗結果A的患者中同時服用藥品B的概率。置信度高說明檢查檢驗結果A出現則藥品B的可能性高,可信度好;反之則可能性低,可信度差。規則支持度(Support,S)是指檢查檢驗結果A和藥品B同時出現的概率。支持度高則說明規則普遍性較高,反之則較低。因此,有效和實用的關聯規則應具有較高的置信度和較高的支持度。通過馬克威分析系統,采用關聯分析中關聯規則技術的Apriori算法對預處理后的數據進行分析,挖掘冠心病病人檢查檢驗結果與用藥之間的關聯性。將最小置信度均設為80%,最小支持度從50%逐漸下調,每次間隔10%,但不低于10%,直到出現有效規則
(檢查檢驗結果與用藥之間的規則)為止。為了方便描述,將下文中的“高于正常值范圍”、“低于正常值范圍”分別簡化為“高”和“低”,僅截取能反映檢查檢驗結果與用藥關系的記錄。
3.1 穩定性心絞痛病人檢查檢驗結果與用藥的關聯性
將穩定性心絞痛病人數據導入系統,多次測試發現將最小支持度設為10%時效果最佳。超敏肌鈣蛋白T高(4103)、淋巴細胞百分比低(4181)、平均血紅蛋白濃度低(4211)、中性粒細胞百分比高(4273)與使用的阿司匹林腸溶(5011)、單硝酸異山梨酯(5021)、硝酸異山梨酯(5111)、阿托伐他汀鈣(5221)、丹參酮(5321)關聯性較強,共3條強規則,規則支持度相對都較低,說明規則普遍性相對較低。強規則表明,同時出現超敏肌鈣蛋白T高(4103)和淋巴細胞百分比低(4181)的病人中有84.62%使用了阿司匹林腸溶(5011);同時出現超敏肌鈣蛋白T高(4103)和中性粒細胞百分比高(4273)的病人中有80.43%使用了阿司匹林腸溶(5011);同時出現超敏肌鈣蛋白T高(4103)和葡萄糖高(4373)的病人中有86.05%使用了阿司匹林腸溶(5011),見表1。
3.2 急性心肌梗死(無充血型) 病人檢查檢驗結果與用藥的關聯性
將急性心肌梗死(無充血型)病人數據導入系統,多次測試發現將最小支持度設為10%時效果最佳。共9條強規則,規則支持度相對都較低,說明規則普遍性相對較低,見表2。

表2 急性心肌梗死(無充血型)強規則
3.3 急性心肌梗死(暈厥型) 病人檢查檢驗結果與用藥的關聯性
將急性心肌梗死(暈厥型)病人數據導入系統,多次測試發現將最小支持度設為30%時效果最佳。共3條強規則,規則支持度相對較高,均為30.77%,說明規則普遍性相對較高,見表3。

表3 急性心肌梗死(暈厥型)強規則
3.4 急性心肌梗死(發熱型) 病人檢查檢驗結果與用藥的關聯性
將急性心肌梗死(發熱型)病人數據導入系統,多次測試發現將最小支持度設為30%時效果最佳。共14條強規則,規則支持度相對較高,說明規則普遍性相對較高,見表4。

表4 急性心肌梗死(發熱型)強規則

續表4
3.5 不穩定性心絞痛病人檢查檢驗結果與用藥的關聯性
將不穩定性心絞痛病人數據導入系統,多次測試發現將最小支持度設為20%時效果最佳。共6條強規則,規則支持度相對較高,說明規則普遍性相對較高,見表5。

表5 不穩定性心絞痛強規則
3.6 急性心肌梗死(充血性心力衰竭型) 病人檢查檢驗結果與用藥的關聯性
將急性心肌梗死(充血性心力衰竭型)病人數據導入系統,多次測試發現將最小支持度設為20%時效果最佳。共13條強規則,規則支持相對較高,均大于20%,說明普遍性相對較高,見表6。

表6 急性心肌梗死(充血性心力衰竭型)強規則
3.7 急性心肌梗死(不明顯充血性心力衰竭型) 病人檢查檢驗結果與用藥的關聯性
將急性心肌梗死(不明顯充血性心力衰竭)病人數據導入系統,多次測試發現將最小支持度設為20%時效果最佳。共7條強規則,規則支持度相對較高,說明規則普遍性相對較高,見表7。

表7 急性心肌梗死(不明顯充血性心力衰竭型)強規則
3.8 急性心肌梗死(營養不良型) 病人檢查檢驗結果與用藥的關聯性
將急性心肌梗死(營養不良型)病人數據導入系統,多次測試發現將最小支持度設為30%時效果最佳。共4條強規則,規則支持度相對較高,均為30.23%,說明普遍性相對較高,見表8。

表8 急性心肌梗死(營養不良型)強規則
4.1 藥品的機制和作用
對強關聯規則中涉及的藥品機制和作用進行分析,以便對規則的價值做出正確的判斷。阿司匹林是解熱鎮痛抗炎藥物,屬于非選擇性環氧酶(COX)抑制藥,臨床上主要用于解熱鎮痛及抗風濕和抑制血小板的形成[8]。本研究中將阿司匹林腸溶液用于防止血栓形成,以治療冠心病。丹參酮是抗心絞痛藥物,因其含丹參,所以具有良好的抗心肌缺血的作用,臨床上主要應用其來改善缺血、緩解胸悶及心絞痛等癥狀[8]。環磷腺苷是抗心絞痛藥物,臨床上主要用于治療心絞痛、心肌梗死、心肌炎及心源性休克,改善心悸、氣急、胸悶等癥狀[9-10]。硝酸甘油是硝酸酯類藥物,具有擴張體循環血管及冠狀血管的作用,是臨床上防止心絞痛最常用的藥物。硝酸異山梨酯(消心痛)作用與硝酸甘油相似,但作用弱且慢,單硝酸異山梨酯在臨床上的應用與硝酸異山梨酯相似[8]。
4.2 關聯規則可用性
(1)冠心病患者白細胞、中性粒細胞比例及中性粒細胞與淋巴細胞比值(N/L)均高于正常人對應值[11],中性粒細胞百分比高或淋巴細胞百分比低都可以導致N/L值高。因此,穩定性心絞痛強關聯規則中的第1、2條歸為已被證實的關聯規則,第3條歸為潛在價值的關聯規則。(2)紅細胞分布寬度(RDW)是預測冠心病危險的標志物[12-13]。文獻報道使用奧美拉唑后血清肌酐將升高[14]。同時也有研究表明白蛋白、肌酐、尿酸是冠心病不容忽視的又一危險因素[15]。乳酸脫氫酶(LDH)也是急性心肌梗死(AMI)的特異性指標。因此將急性心肌梗死(無充血型)強關聯規則中的第2條歸為已被證實的關聯規則,第3、4、6、7、8、9條歸為潛在價值的關聯規則,第1、5條規則歸為無用的關聯規則。(3)血紅蛋白升高可能是冠心病的危險因子之一[16],而本研究中出現平均血紅蛋白濃度低。因此將急性心肌梗死(暈厥型)的3條強規則全部歸為潛在價值的關聯規則。 (4)通過咨詢心血管疾病專家及查閱文獻,白細胞高時使用左氧氟沙星的原因是其他系統發生感染。因此將急性心肌梗死(發熱型)強規則中的第1、2、3、4、5、6、7、9、10、11、12、13條歸為已被證實的關聯規則,第8、14條歸為潛在價值的關聯規則。(5)結合前面的分析過程及相關論著,將不穩定性心絞痛強規則中的第2條歸為已被證實的關聯規則,第1、3、4、5、6條歸為潛在價值的關聯規則;將急性心肌梗死(充血性心力衰竭型)強規則中的第1、2、4、5、12、13條歸為已被證實的關聯規則,第3、6、7、8、9、10、11條歸為潛在價值的關聯規則;將急性心肌梗死(不明顯充血性心力衰竭型)強規則中的第3、6條歸為已被證實的關聯規則,第1、2、4、5、7條歸為潛在價值的關聯規則;將急性心肌梗死(營養不良型)的4條強規則全部歸為已被證實的關聯規則。
通過關聯規則分析發現,在59條強規則中,28條為已被證實的關聯規則,29條為潛在價值的關聯規則,2條為無用的關聯規則。因此57條強規則將對針對性地制定冠心病診療方案起指導意義。
1 薛薇.Clementine數據挖掘方法及應用[D].北京:電子工業出版社, 2010.
2 張晗,任志國,張健,等.基于主題詞關聯規則的醫學文本數據庫數據挖掘的嘗試[J].醫學信息學雜志,2008,29(1):32-35.
3 鄭銀麗,相秉仁,趙國明,等.關聯規則技術在醫藥零售業藥品營銷組合中的應用[J].醫學信息學雜志,2011,32(4):55-58.
4 吳煒,楊梅瑰,唐飛岳,等.基于數據挖掘技術的輔助醫療診斷研究[J].醫學信息學雜志,2010,31(12):22-26.
5 魏魯霞.數據挖掘技術在藥品療效上的應用[J].醫學信息學雜志,2010,31(4):40-43.
6 王春雨,王立準,魏瑜帥,等.數據挖掘在結構化電子病歷中的應用[J].醫學信息學雜志,2014,35(3):31-33.
7 石曉敬.數據挖掘及其在醫學信息中的應用[J].醫學信息學雜志,2013,34(5):2-6.
8 楊寶峰.藥理學[M].北京:人民衛生出版社,2005.
9 國家藥典委員會.《中華人民共和國藥典》2010年版[EB/OL].[2014-08-01].http://www.chp.org.cn/cms/about/.
10 夏小莉.注射用環磷腺苷致變態反應3例[J].醫藥導報, 2012,31(12):1661.
11 張淑琴,王艷,闞耀東.白細胞分類及中性粒細胞與淋巴細胞比值的變化與冠心病病變程度的關系[J].陜西醫學雜志,2011,40(12):1669-1671.
12 鄭剛.紅細胞分布寬度是預測冠狀動脈粥樣硬化性心臟病危險的標志物[J].中國心血管雜志, 2012,17(3):237-239.
13 楊斌武,張鉦,王龍,等.紅細胞分布寬度與冠心病患者冠脈病變的關系[J].中國老年學雜志,2011,31(4):568-569.
14 肖科武,劉超群,王國華.奧美拉唑的不良反應[J].新消化病學雜志,1995,3(4):229.
15 金春梅,金基永.血清白蛋白尿素氮肌酐水平與冠心病的相關性初探[J].現代醫藥衛生, 2010, (19):2912-2914.
16 魏玲,楊麗霞,王先梅,等.冠心病患者外周血紅蛋白含量變化的臨床意義[J].中國微循環, 2004,8(1):30-32
Application of Association Rules Technology in Electronic Medical Records for Coronary Heart Disease
LIZhun,CentralPeople′sHospitalofNeijiangCityinSichuanProvince,Neijiang641000,China;FENGSi-jia,University-townHospitalofChongqingMedialUniversity,Chongqing401331,China;YANGMei-jie,ZHAOWen-long,InformationManagementDepartment/LibraryofChongqingMedicalUniversity,Chongqing400016,China
The paper discusses the association between coronary heart disease examination results and medication status through electronic medical records, carries out pretreatment for the data through SQL database technology, mines the association rules between examination results and medication status, providing references for formulating coronary heart disease clinical diagnosis and treatment plan.
Association rules; Coronary heart disease; Electronic Medical Records(EMR); Data mining
2014-09-26
李準,碩士,初級職稱,發表論文2篇;通訊作者:趙文龍,教授。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.01.013