999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

序列模式挖掘算法在高血壓治療中的研究

2018-03-19 05:54:56張曉宇謝紅薇
計算機工程與設計 2018年3期
關鍵詞:規(guī)則數(shù)據(jù)庫高血壓

張曉宇,謝紅薇,孟 亮

(太原理工大學 計算機科學與技術學院,山西 太原 030024)

0 引 言

逐步治療是針對患有慢性疾病(糖尿病、高血壓、哮喘等)的病人采用的一種治療方法。中國高血壓[1,2]基層防治指南中根據(jù)高血壓病病情的發(fā)展,對患者的治療方法提出:高血壓分為輕危高血壓、中危高血壓和高危高血壓。當初診為輕度高血壓時,采取生活方式干預和單種藥物(ACEI,CCB,低劑量的固定復方制劑等)治療的方法,當血壓不能得到有效控制時,采用多種藥物聯(lián)合治療的方法。

本文應用序列模式挖掘算法研究高血壓患者服用藥物的序列,能夠為醫(yī)生提供參考,縮短診療時間,降低醫(yī)療成本。

序列模式挖掘最早是由R.Algrawal等提出的,并提出了ApriorAll算法和多階段迭代算法GSP用于零售行業(yè)客戶購買行為的研究。SPADE算法是Zaki等提出的序列模式挖掘算法[3]。SPADE算法針對GSP算法需要多次掃描數(shù)據(jù)庫的不足,基于格理論和等價類的思想,采用垂直存儲結構,將掃描數(shù)據(jù)庫的次數(shù)減少到3次,使時間復雜度降低。

Jenna Reps等[4]指出SPADE適用于醫(yī)療數(shù)據(jù)庫,采用SPADE算法研究疾病復發(fā)的可能性以及影響疾病復發(fā)的一些因素。Aileen等[5]采用了SPADE算法挖掘2型糖尿病患者藥物治療的序列。

然而,SPADE算法存在支持度閾值難以設定的問題。因為頻繁序列挖掘的結果對支持度的依賴很大,當使用一個較小的支持度時,可能產生大量冗余的頻繁序列,而使用一個較大的支持度閾值,則可能產生較少的頻繁序列,可能會丟失一些重要的信息。針對這個問題Hu Y H等[6]提出了基于多支持度的模式挖掘算法、Amphawan K[7,8]提出了top-k頻繁模式挖掘、劉瑞陽等[9]將邏輯理論的引入模式挖掘算法優(yōu)化支持度閾值等。然而,上述方法在實際應用中是很難實現(xiàn)的。本文采用統(tǒng)計學的思想,利用支持度閾值和頻繁序列數(shù)之間的關系,并考慮電子病歷中醫(yī)療數(shù)據(jù)的特性[10],和高血壓患者服藥數(shù)據(jù)的特點,提出了一種改進的SPADE算法,來解決支持度閾值難以設定的問題。

1 相關定義

定義1 項目集合I:I是m個不同的項目組成的集合,記為:I={i1,…,im}。

定義2 項集:項集是從I中選取l個項目的非空集合,記為:{i1,i2,…,il}, 其中項目按升序排列并且l>0。

定義3 序列:序列是項集的有序列表,序列α記為:α1→α2→…→αL,其中αi表示第i個項集(1≤i≤l),αi也被稱為是序列α的一個元素。一個序列有L個項目,該序列被稱為L-序列。

定義4 序列數(shù)據(jù)庫:序列數(shù)據(jù)庫SDB(sequence database),每個序列都有唯一的標示符(sid),每一個序列的每一個項集都有暫時的項集標示符(eid)即時間戳,在一個序列中,eid是唯一的,并且如果一個序列中項集ei先于項集ej發(fā)生,那么ei的eid必須嚴格大于ej的eid。

定義5 子序列:存在兩個序列,一個序列是sa=α1→α2→…→αn, 另一個序列是sb=β1→β2→…→βm, 當且僅當存在1≤i1

定義6 支持度:請參見文獻[4]。記為:sup(α)。

定義7 頻繁序列:D是一個序列數(shù)據(jù)庫,在D中,如果一個序列模式p的支持度大于支持度閾值(min_sup),并且p的子序列也都是頻繁的,那么就稱p是頻繁的。

定義8 序列模式挖掘:請參見文獻[4]。

2 算法描述

2.1 SPADE算法思想

SPADE算法是使用“垂直”數(shù)據(jù)結構的序列數(shù)據(jù)庫,并采用了格理論的方法,將原來的搜索空間分解成小格,使得掃描數(shù)據(jù)庫的次數(shù)減少到3次。為庫中每個序列建立一個序號列表,列表中每個序列包含序列號和項目號兩個屬性,在計算序列支持度時,只需要計算序號列表中包含的不同的序列號的個數(shù)。并且將具有相同前綴的等長度序列歸并為一個等價類,新生成的序列只會在等價類內部產生。SPADE算法提高了支持度的計算效率,降低了I/O成本。

2.2 改進的SPADE算法思想

2.2.1 算法思想

首先定義一個映射關系f,頻繁序列的數(shù)目m與支持度閾值min_sup構成的映射關系為:m=f(min_sup)。 先選取一個較小的支持度閾值作為初始值,然后支持度閾值線性遞增,分別計算不同min_sup下的m值,當m第一次遇到極值點時,對應的 min_sup為最佳的支持度閾值。將得到的min_sup值作為SPADE算法的支持度閾值,執(zhí)行SPADE算法。

2.2.2 算法流程圖

改進的SPADE算法流程如圖1所示。

圖1 改進的SPADE算法流程

3 實驗處理及結果分析

3.1 數(shù)據(jù)預處理

本文采用的是一家醫(yī)療中心的電子病歷數(shù)據(jù),從2006年到2009年總計79 746條記錄,由于其包含所有患者的記錄。數(shù)據(jù)預處理模型如圖2所示。

圖2 數(shù)據(jù)預處理模型

在病歷數(shù)據(jù)庫中選取528名高血壓患者服用藥物的數(shù)據(jù),共913條記錄,每條記錄有4個屬性,分別是病歷號、就診時間、藥品個數(shù)和處方藥。數(shù)據(jù)詳細說明見表1。

表1 數(shù)據(jù)集說明

通過實驗得出,由于治療高血壓藥品種類豐富而且繁雜,使得序列數(shù)據(jù)比較稀疏,稀疏的數(shù)據(jù)導致了得到的挖掘結果不理想,所以本文根據(jù)高血壓防治指南將高血壓藥品歸類為14個藥品類。

藥品和藥品類別歸來說明見表2。

表2 高血壓藥品和藥品類別歸類說明

注:其中二氫吡啶類CCB是指二氫吡啶類鈣拮抗劑;ACEI是指血管緊張素轉換酶抑制劑;ARB是指血管緊張素受體拮抗劑

經過分類匯總后實驗數(shù)據(jù)集(MD)一共有4個屬性值,分別是患者的序列號,就診時間,醫(yī)生所開處方藥的個數(shù),以及藥品所屬類別。將數(shù)據(jù)集輸入序列數(shù)據(jù)庫中,數(shù)據(jù)格式見表3。

表3 輸入數(shù)據(jù)格式說明

3.2 支持度閾值的判斷及結果

將MD作為判定支持度閾值的特定數(shù)據(jù)集,應用GSP算法,然后得到支持度閾值的判定結果,結果見表4。

表4 支持度閾值判斷結果

由表4可以看出,將min_sup=0.001作為初始值,第一次出現(xiàn)的極值點在min_sup=0.007時,min_sup=0.007時也m=37,與min_sup=0.008時m的值相等,所以最終得到最佳支持度閾值min_sup=0.007。從圖3中也可直觀的反應出min_sup=0.007時是針對這一數(shù)據(jù)集的最佳支持度閾值。

圖3 數(shù)據(jù)集MD的 min_sup與m關系

將MD隨機平均分為兩個數(shù)據(jù)集MD1,MD2;分別應用GSP算法,得到如圖4的結果,當MD數(shù)據(jù)集減小為原來的一半時,MD1表現(xiàn)為m值在min_sup=0.006時出現(xiàn)第一次極值點,而MD2表現(xiàn)為m在min_sup=0.007時出現(xiàn)第一次極值點;再將MD隨機平均分為4個數(shù)據(jù)集MD3,MD4,MD5,MD6,分別應用GSP算法,發(fā)現(xiàn)這4個數(shù)據(jù)集的m值都在min_sup=0.07時出現(xiàn)第一次極值點,如圖5所示。由此可以得出對于特定數(shù)據(jù)集MD,如果只改變數(shù)據(jù)集的大小,頻繁序列數(shù)m都表現(xiàn)在支持度閾值min_sup=0.007時出現(xiàn)第一次極值點,所以再次驗證數(shù)據(jù)集MD的最佳支持度閾值為0.007。

圖4 數(shù)據(jù)集MD1和MD2的min_sup與m關系

圖5 數(shù)據(jù)集MD3、MD4、MD5和MD6的min_sup與m關系

從圖6中可以看出平均支持度在0.007時第一次到達極值點,min_sup=0.007時,平均支持度=0.018,min_sup=0.008時,平均支持度=0.018,所以在驗證了選取min_sup=0.007是合適的。同時,平均置信度也在0.007時到達第一次極值點,min_sup=0.07時,average confidence=0.1712,min_sup=0.08時,average confidence=0.1712,再次驗證了min_sup=0.007是最佳的。

圖6 最佳支持度閾值驗證

3.3 挖掘頻繁序列

將min_sup設置為0.007作為參數(shù),繼續(xù)執(zhí)行序列模式挖掘算法,得到頻繁序列集F,F(xiàn)集中有37條頻繁序列,在表5中列舉了一些頻繁序列及序列的支持度。

3.4 序列規(guī)則的生成

將頻繁序列生成序列規(guī)則這里采用Zhang X Y等[11]提出的將序列的最后一項作為規(guī)則的結論,序列中除最后一項的所有項作為規(guī)則的條件生成序列規(guī)則的方法。這里針對特殊的1-頻繁序列,將空集作為條件,將1-頻繁序列作為結論來生成規(guī)則。例如1-頻繁序列(<{噻嗪類利尿劑}>),它生成的規(guī)則為(<{}>-> <{噻嗪類利尿劑}>)表示初次診斷為高血壓的患者,醫(yī)生根據(jù)其各項指標給患者的處方可能是噻嗪類利尿劑類的藥物。

表5 頻繁序列

本文在生成序列規(guī)則時選取最小置信度為0.01,將頻繁序列生成序列規(guī)則共37個,表6中列舉了部分序列規(guī)則。其中<{β受體阻滯劑}>=><{ACEI,噻嗪類利尿劑,β受體阻滯劑}>,表示患者之前用藥是β受體阻滯劑類,由于病情惡化,之前的藥物不足以控制血壓時,醫(yī)生可能開出的處方藥是ACEI類,噻嗪類利尿劑類和β受體阻滯劑類,3種藥物聯(lián)合治療。

表6 部分序列規(guī)則說明

3.5 規(guī)則可視化

下面將挖掘得到的規(guī)則實現(xiàn)可視化處理,如圖7為序列規(guī)則圖。

圖7 序列規(guī)則

4 結束語

本文提出了一種改進的SPADE算法,解決了SPADE算法支持度閾值難以設定的問題。根據(jù)支持度閾值和頻繁序列數(shù)目的關系,選擇變化曲線上第一個極值點對應的支持度閾值為最佳支持度閾值。

將改進的SPADE算法應用于研究高血壓患者服藥歷史的序列數(shù)據(jù),挖掘頻繁序列模式,然后將頻繁序列模式轉換為序列規(guī)則可以為患者逐步藥物治療提供指導。

將得到的高血壓患者服藥的序列規(guī)則結合患者的各項身體指標用于推薦,是下一步工作重點。

[1]World Health Organization.A global brief on hypertension[M].Geneva.WHO,2013:7-15.

[2]HUANG Fei,XIE Hongwei,HAO Xiaoyan.An intelligent classification system used for identifying cardiovascular risk level of hypertensive[J].Science Technology and Engineering,2014,14(7):204-211(in Chinese).[黃飛,謝紅薇,郝曉燕.高血壓患者心血管風險水平智能分層系統(tǒng)[J].科學技術與工程,2014,14(7):204-211.]

[3]Kumar K M V M,Srinivas P V S,Rao C R.Sequential pattern mining with multiple minimum supports by MS-SPADE[J].International Journal of Database Management Systems,2012,9(5):285-292.

[4]Reps J,Garibaldi J M,Aickelin U,et al.Discovering sequential patterns in a UK general practice database[C]//Procee-dings of IEEE-EMBS International Conference on Biomedical and Health Informatics.Piscataway:IEEE,2012:960-963.

[5]Wright A P,Wright A T,Mccoy A B.The use of sequential pattern mining to predict next prescribed medications[J].

Journal of Biomedical Informatics,2015,53(C):73-80.

[6]Hu Y H,Wu F,Liao Y J.An efficient tree-based algorithm for mining sequential patterns with multiple minimum supports[J].Journal of Systems & Software,2013,86(5):1224-1238.

[7]Amphawan K,Lenca P,Surarerks A.Mining top-k,regular-frequent itemsets using database partitioning and support estimation[J].Expert Systems with Applications,2012,39(2):1924-1936.

[8]Amphawan K,Lenca P.Mining top-k frequent-regular closed patterns[J].Expert Systems with Applications,2015,42(21):7882-7894.

[9]LIU Duanyang,FENG Jian,LI Xiaofen.Logic-based frequent sequential pattern mining algorithm[J].Computer Science,2015,42(5):260-264(in Chinese).[劉端陽,馮建,李曉粉.一種基于邏輯的頻繁序列模式挖掘算法[J].計算機科學,2015,42(5):260-264.]

[10]Huang Z,Dong W,Bath P.On mining latent treatment patterns from electronic medical records[J].Data Mining and Knowledge Discovery,2015,29(4):914-949.

[11]Zhang X Y.Research on sequential pattern mining algorithm in recommendation of hypertensive drugs[D].Taiyuan:Taiyuan University of Technology,2017.

猜你喜歡
規(guī)則數(shù)據(jù)庫高血壓
撐竿跳規(guī)則的制定
全國高血壓日
數(shù)獨的規(guī)則和演變
如何把高血壓“吃”回去?
高血壓,并非一降了之
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
數(shù)據(jù)庫
財經(2017年2期)2017-03-10 14:35:35
TPP反腐敗規(guī)則對我國的啟示
數(shù)據(jù)庫
財經(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 国产真实乱子伦精品视手机观看| 亚洲国产精品不卡在线| 国产本道久久一区二区三区| av在线5g无码天天| 91精品国产91久无码网站| 国产麻豆91网在线看| 免费在线一区| 免费一级无码在线网站| 国产欧美日韩va| 香蕉eeww99国产在线观看| 午夜福利网址| 一本色道久久88| 日韩中文精品亚洲第三区| 亚洲动漫h| 精品无码国产自产野外拍在线| 制服丝袜 91视频| 亚洲手机在线| 亚洲精品成人片在线观看| 免费毛片视频| 久久永久精品免费视频| 综合人妻久久一区二区精品| 亚洲精品少妇熟女| 波多野结衣亚洲一区| 成年A级毛片| 国产精品性| 一级香蕉人体视频| 日韩高清中文字幕| 波多野结衣在线se| 午夜精品一区二区蜜桃| 国产亚洲精品97在线观看| 91精品视频在线播放| 无码网站免费观看| 天堂网国产| 国产丝袜无码精品| 手机精品视频在线观看免费| 国产va免费精品观看| 美女无遮挡被啪啪到高潮免费| 米奇精品一区二区三区| 波多野结衣爽到高潮漏水大喷| 青青操视频在线| 国产尹人香蕉综合在线电影| 真人高潮娇喘嗯啊在线观看| 成人va亚洲va欧美天堂| 中文字幕一区二区人妻电影| 国产中文一区二区苍井空| 欧美中文字幕无线码视频| AV熟女乱| 97久久免费视频| 免费无码AV片在线观看国产| 欧美久久网| 国产免费观看av大片的网站| 久久精品无码中文字幕| 国产在线麻豆波多野结衣| 91久草视频| 亚洲第一极品精品无码| 亚洲日韩AV无码精品| 全免费a级毛片免费看不卡| 97国产在线观看| 成人国产精品一级毛片天堂| 国产欧美性爱网| 欧美日韩免费| 先锋资源久久| 四虎精品国产AV二区| 久久精品国产精品青草app| 色综合a怡红院怡红院首页| 国产成人欧美| 色偷偷综合网| 综合社区亚洲熟妇p| 欧美日本激情| 黄色在线网| 久久窝窝国产精品午夜看片| 国产在线欧美| 欧美综合成人| 久久6免费视频| 亚洲VA中文字幕| 极品尤物av美乳在线观看| 思思热在线视频精品| 亚洲天天更新| 丰满人妻中出白浆| 久久免费成人| 99re在线免费视频| 日本伊人色综合网|