999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向糖尿病數據集挖掘頻繁項目集和關聯規則*

2022-12-16 09:23:00耿飆梁成全
計算機時代 2022年12期
關鍵詞:關聯可視化規則

耿飆,梁成全

(1.蘇州衛生職業技術學院基礎部,江蘇 蘇州 215009;2.華東療養院信息科)

0 引言

從大型數據庫中提取知識是數據挖掘中的重要內容。在過去的幾十年中,已經開發了一些算法[1-3]。本文對關聯規則算法如基于FP-Growth[4]的算法及其變體,以及CFP-Growth[5]和ICFP-Growth[6],對這三種算法進行比較研究。ICFP-Growth 是CPF-Growth 算法的改進版本,該算法包括三個步驟:多項目支持樹(MIS-Tree)[7]的構建、緊湊型MIS 樹的提取和緊湊型MIS 挖掘樹。本文開發環境:操作系統Windows 10專業版;軟件平臺為Python 3.7.6。數據集是女性的糖尿病數據集(https://www.kaggle.com/mathchi/diabetesdata-set)。它分為兩個“.csv”文件,第一個用于訓練數據集,另一個用于測試數據集。這兩個“.csv”文件包含8 個功能:①懷孕次數;②葡萄糖;③血壓;④皮膚厚度;⑤胰島素;⑥BMI:體重指數;⑦糖尿病譜系函數;⑧年齡。

1 數據庫轉換

該數據集僅包含數值。FP-Growth、CFP-Growth和ICFP-Growth接受事務數據集。糖尿病數據集(數值數據集)被轉換為交易數據集。為了進行這種轉換,每個特征都被可視化,以便了解它在個體數量中的變化,將每個特征重新劃分組合為幾個個體的域。0:表示無糖尿病,1:表示有糖尿病。

第一個特征是年齡,可視化結果如圖1所示。

圖1 年齡與個體數量

在范圍[20,30]中所看到的,與糖尿病患者的數量相比,沒有糖尿病的人數很高,而對于范圍[30,80],0和1兩個類別的人數幾乎相同,所以可將特征的范圍分為兩個域:A1:[0,30]和A2:[30,80]。

第二個特征是血壓,結果如圖2 所示。在[0,40]范圍內,對0 類和1 類有相同的變化,在[40,90]中,0 類最高,在[90,120]范圍內,也有0 類和1 類的相同變體,因此將此特征劃分為三個域:B1:[0,40];B2:[40,90];B3:[90,120]。

圖2 血壓與個體數量

第三個特征是BMI,可視化結果如圖3所示。可以將BMI特征的范圍劃分為兩個域,第一個BMI1:[0,30],其中有0類的個體數量高于1類,第二個是BMI2:[30,60]其中兩個類具有幾乎相同的變化。

圖3 BMI與個體數量

第四個特征是糖尿病譜系函數,可視化在圖4中。在這張圖中,可以看到在[0,0.8]中,0 類的個體數量最多,而在[0.8,2.5]范圍內,相反,類1 的個體數量最多,因此可以將特征分為兩個域:D1:[0,0.8]和D2:[0.8,2.5]。

圖4 糖尿病譜系功能與個體數量

第五個特征是葡萄糖,其可視化結果如圖5所示。在范圍[0,125]內,與類別1 的個體數量相比,類別0 的數量較多,而對于范圍[125,200],對于0 類和1 類個體數量幾乎相同,可以將特征的范圍劃分為兩個域:G1:[0,125]和G2:[125,200]。

圖5 葡萄糖與個體數量

第六個特征是胰島素,結果如圖6 所示。在[0,30]范圍內的胰島素與個體數量的關系中,對于0類和1類有幾乎相同的變化,在范圍[30,150]內,0 類高于1 類,在范圍[150,800]內,也有0 類和1 類的相同變體,因此將此特征劃分為三個域:I1:[0,30];I2:[30,150];I3:[150,800]。

圖6 胰島素與個體數量

第七個特征是Pregnancy,可視化結果如圖7所示。可以將Pregnancies 特征的范圍劃分為兩個域,第一個P1:[0,7],其中0 類的個體數量高于1 類個體的數量,第二個是P2:[7,17]其中兩個類具有幾乎相同的變化。

圖7 懷孕與個體數量

最后一個特征是皮膚厚度,可視化在圖8 中。在這張圖中,可以看到在[0,8]中,兩個類的變化幾乎相同,而在[8,45]中,0 類的個體數量幾乎比1 類多。此外,對于[45,60]范圍,這兩個類也有相同的變化,因此可以將特征分為三個域:S1:[0,8],S2:[8,45]和S3:[45,60]。

圖8 皮膚厚度與個體數量

經過以上分析,可以總結出所有轉換的信息。轉換結果如表1所示。

表1 轉換結果

現在可以使用域將數據集轉換為事務數據集。從轉換中獲得的結果如圖9所示。

圖9 轉換的部分結果

2 關聯規則的提取

首先,必須初始化FP-Growth 的minsupport,以及CFP-Growth和ICFP-Growth的MIS值。要為CFP增長分配MIS值,使用式⑴。

其中MIS(i)是項目“i”的MIS 值。β ∈[0,1]是一個參數,它控制項目的MIS 值,與其頻率相關。f(i)是項目“i”的頻率值。LS 是一個使用指定值,表示允許的最小支持。此外,對于ICFP-Growth,有:

在本實驗中,我們將FP-Growth 的最小支持定義為40,對于CFP-Growth的β等于0.1,LS等于40,對于ICFP-Growth,SD值為0.1,LMS等于50,LMIS等于40。

針對CFP-Growth的MIS值生成結果如表2所示。此外,對于ICFP-Growth,MIS 值初始化的結果在表3中給出。

表2 CFP-Growth算法的MIS值

表3 ICFP-Growth算法的MIS值

在該數據集上應用這三種算法后,獲得了三個包含關聯規則的模型,如圖10所示。

圖10 已獲取關聯規則

我們所提模型的結構是(left)→(right,Confidence)。左為因,右為果。置信度是[0,1] 范圍內的一個數字,它可以表示有多少左可以將我們引向右,有多少原因可以導致結果,使用式⑷計算置信度:

圖11顯示了所有特征之間的關聯規則,但在所給例子中,想要做一個分類模型,因為過濾關聯規則以在結果(右)中只包含代表類的項目('0'和'1'),結果如圖11所示。

圖11 關聯規則結果

在圖中有分類模型的關聯,例如有這個關聯規則('A2','BMI2','G2','P2')→(('1'),0.89)。這表示如果個人的年齡在[30,80]之間,則為A2。BMI2體重指數在[30,60]范圍內,G2血漿葡萄糖濃度在口服葡萄糖耐量試驗中2小時在[125,200]范圍內,P2懷孕次數在[7,17]之間,因此可以看到該個體患有糖尿病,置信度為0.89。

3 性能評價

FP-Growth、CFP-Growth 和ICFP-Growth 這三種算法使用與在訓練數據集上應用的相同預處理進行評估,以將數值數據集轉換為事務數據集。之后,從數據集中取出一個事務,并計算測試事務與模型關聯規則左側的距離。在這種情況下,使用一種方法來計算距離。例如,有T測試交易和G模型中存在的關聯規則的左側。T=['P1','G1','B2','S2','I3','BMI2','D2','A2'],G=['A1','B3','BMI2','D1','G2','I2','P1']。

首先,在數據集中有八個特征。將距離初始化為8,并檢查T 的每個項目是否存在于G 中,并且對于每個項目存在,將距離減1。在這個例子中,有P1存在于T 和G,所以距離是7。另外,G1 不存在于G,所以仍然有距離是7,而B2、S2、I3、D2、A2 也沒有。t 存在于G 中,有BMI2存在,所以將距離減1,這時有距離等于6,G 和T 之間的距離是6。另外,在計算距離之后,選擇三個closet 關聯規則,計算誰對“0”和“1”投了多少票,然后選擇票數最高的類。在這個測試過程之后,計算每個算法的準確性。三種算法FP-Growth、CFP-Growth和ICFP-Growth的準確率分別為51.30%,57%和60.5%。

4 總結

頻繁項目集挖掘是數據挖掘中的一個重要課題。本文實現了三種關聯規則算法,即FP-Growth、CFPGrowth 和ICFP-Growth。這些算法使用python 編程語言提取糖尿病數據集上的頻繁項目集。實驗結果表明,ICFP-Growth比其他兩種算法更準確。

猜你喜歡
關聯可視化規則
基于CiteSpace的足三里穴研究可視化分析
撐竿跳規則的制定
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
主站蜘蛛池模板: 欧美成人aⅴ| 色天天综合| 欧美在线黄| 国产欧美专区在线观看| 欧美性精品不卡在线观看| 青青草91视频| 日本精品一在线观看视频| 狠狠干欧美| 久久伊人操| yjizz视频最新网站在线| 高清乱码精品福利在线视频| 亚洲区一区| 日韩123欧美字幕| a级高清毛片| 三上悠亚一区二区| 国产www网站| av一区二区三区在线观看| 51国产偷自视频区视频手机观看| 免费一极毛片| 国产乱人伦精品一区二区| 色男人的天堂久久综合| 亚洲国语自产一区第二页| 久久精品国产亚洲AV忘忧草18| 日韩大乳视频中文字幕| 国产精品视频系列专区| 亚洲天堂日本| 2021精品国产自在现线看| 5555国产在线观看| 最新国产高清在线| 国产午夜一级淫片| 欧美在线伊人| 丁香五月激情图片| 国产成人综合久久精品下载| 亚洲中文字幕久久无码精品A| 国产福利不卡视频| 亚洲精品高清视频| 婷婷久久综合九色综合88| 四虎AV麻豆| 99久久精品国产自免费| 91视频首页| 亚洲美女久久| 99精品视频播放| 国产欧美在线| 亚洲色欲色欲www网| 999国产精品永久免费视频精品久久 | 久久永久精品免费视频| 国产乱人乱偷精品视频a人人澡| 国产在线专区| 一区二区偷拍美女撒尿视频| 伊人色在线视频| 国产精品污视频| yjizz国产在线视频网| 国产欧美精品一区二区| 亚洲精品中文字幕无乱码| 综合色在线| 97在线免费| 丁香六月综合网| 亚洲精品久综合蜜| 91麻豆国产视频| 热99精品视频| 久久精品视频亚洲| 97视频在线观看免费视频| 污视频日本| 亚欧乱色视频网站大全| 成年看免费观看视频拍拍| 2020极品精品国产| 国产精品妖精视频| 26uuu国产精品视频| 成人午夜视频免费看欧美| 亚洲中文精品人人永久免费| 女人一级毛片| 欧美啪啪视频免码| 成人精品在线观看| 欧美综合一区二区三区| 被公侵犯人妻少妇一区二区三区| 国产99欧美精品久久精品久久| 欧美黄网在线| 综合色88| 国产产在线精品亚洲aavv| 91无码人妻精品一区二区蜜桃| 亚洲性网站| 尤物特级无码毛片免费|