999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于重采樣技術在醫學不平衡數據分類中的應用研究*

2018-07-16 06:14:58田翔華阿拉依阿汗張偉文曹明芹
中國衛生統計 2018年2期
關鍵詞:分類

閆 慈 田翔華 阿拉依·阿汗 張偉文 曹明芹△

【提 要】 目的 以代謝綜合征為例,探討不平衡數據對分類算法的影響,并運用重采樣技術對數據進行平衡化處理,比較神經網絡、決策樹的分類性能。方法 采用隨機過采樣、隨機欠采樣、混合采樣和人工合成數據四種重采樣技術,比較數據重采樣前后及四種數據重采樣間使用神經網絡、決策樹分類的性能,以F-Measure,G-mean和AUC作為模型評價指標。結果 (1)分類算法性能隨不平衡數據集不平衡比例的加劇而降低;(2)四種重采樣技術中隨機過采樣后作用于BP神經網絡、C4.5決策樹分類性能最大。結論 分類性能隨數據集中患病率的降低而下降。采用隨機過采樣提高了算法的分類性能。建議在應用分類算法對醫學不平衡數據分類前,采用隨機過采樣技術以提高分類性能。

不平衡數據分類問題已成為數據挖掘領域內一個重要的研究課題。不平衡數據是指分類數據中某一類(多數類)的數量遠大于另一類(少數類)的數量[1],這種不平衡在醫療診斷中頗為常見,如惡性腫瘤。目前流行的分類算法(如決策樹、神經網絡)都是基于類分布均衡的假設,以高總體準確度為目標[2]。為診斷惡性腫瘤,將99.9%的個體診斷為健康,便可達到99.9%的準確度,但是這種分類算法并無任何實際意義。醫學中患者的數量遠遠小于健康個體,在醫療診斷中病人誤診為健康與健康個體誤診為病人付出的代價是不同的,因此,準確的識別出病人更加重要。那么,如何增加患者的識別率,同時兼顧健康個體的準確度,是亟待解決的分類問題。

目前,解決不平衡數據的分類問題主要包括數據處理及算法設計兩方面。前者主要是對數據進行重新采樣以達到平衡,然后再應用傳統的分類算法對數據集分類[3];后者主要結合不平衡數據的特點,對傳統分類算法進行改進,使它更偏向于少數類,以提高不平衡數據集的整體分類性能[4]。

本文以代謝綜合征為切入點,通過計算機模擬不同比例的不平衡數據集,探討不同患病率疾病分類性能間的差異,并對原代謝綜合征不平衡數據集從數據處理角度進行重采樣處理,以神經網絡、決策樹兩種分類算法為例,比較兩種分類算法智能甄別體檢中代謝綜合征患者的性能。

資料與方法

1.數據來源

本研究共收集新疆某體檢中心2014-2016年63861份體檢數據,其中男性32403例,女性31458例,年齡3~93(43.06±13.47)歲,代謝綜合征患者占4.34%,不平衡比例達22。共14個變量,其中13個生理、生化指標,1個分類指標。代謝綜合征的診斷嚴格參照中華醫學會糖尿病分會的標準[5]。數據集變量特征見表1。

表1 數據集變量特征

2.重采樣技術

從數據處理角度解決類別不平衡問題中最重要的方法就是重采樣技術,其主要思想是通過合理地增加或者減少一些樣本達到平衡數據分布的目的,從而降低數據不平衡對分類算法帶來的不良影響[6]。過采樣、欠采樣和混合采樣是目前較為成熟的重采樣技術。過采樣通過對少數類樣本進行復制或人工合成一些新的樣本產生數據集的超集使數據集樣本量達到平衡,分為隨機過采樣和人工合成數據,欠采樣則以一定的策略選取多數類樣本中的一個子集達到同樣的目的[7]。混合采樣則融合過采樣和欠采樣兩種技術。

3.分類算法

(1)BP神經網絡BP神經網絡(back propagation neural network)是一種按誤差逆向傳播算法的多層前饋網絡,其學習規則使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小[8]。其網絡拓撲結構包括輸入層、隱含層和輸出層[9],見圖1。

圖1 BP神經網絡模型結構

本研究以所有生理、生化指標作輸入層,以是否患代謝綜合征為輸出層,設置單個隱含層。隱含層神經元個數的選擇直接關系到神經網絡的規模和精度。目前,隱含層神經元個數的選取尚無理論指導。公式(1)可用于選擇最佳隱含層神經元時的參考公式[10]:

(1)

N表示隱含層神經元個數,P表示輸入神經元個數,Q表示輸出層神經元個數。經過試驗,得最佳隱含層神經元個數為8。

(2)C4.5決策樹決策樹從一個無次序、無規則的實例集中歸納出一組采用樹形結構表示的分類規則。本研究采用C4.5決策樹算法。該算法將定量變量采用離散化的取值空間策略,進行優化二分,并采用信息增益率進行分類性能評估。離散化方法為:①尋找連續型變量的最小值和最大值,分別賦值為min和max;②設置區間[min,max]中N個等分段點Ai,其中,i=1,2,……,N;③分別計算[min,Ai]和[Ai+1,max](i=1,2,……,N)作為區間值時的Gain值,并進行比較;④選取Gain值最大的AK作為該連續型變量的斷點,將變量值設置為[min,Ak]和[Ak+1,max]兩個區間[11]。決策樹的剪枝策略從根節點開始遞歸對決策樹各節點進行檢查,若該節點的某一子樹所含集合的全局支持度小于最小全局支持度閾值,則直接剪掉該子樹;若該節點存在葉節點作為子樹,并且該節點所含集合對某一葉節點的類支持度大于最大類支持度閾值,則剪掉此節點直接指向該葉節點的其他子樹[12]。

4.評價標準

不平衡數據更加關注對少數類樣本的識別,所以僅僅依靠準確率作為評價標準并無適用性。為了更有意義地衡量不平衡數據的分類,需要構建混淆矩陣來確定相應的評價標準[13]。二分類問題中,混淆矩陣記錄了每一類中正確和錯誤識別樣本的結果,如表2所示。

表2 二分類數據的混淆矩陣

不平衡數據分類性能的評價指標如下:

(1)F值(F-Measure)

(2)

在不平衡數據評價中,F-Measure是一個綜合性的評價標準,其公式如(2)所示,其中查全率(recall)表示被正確分類的樣本占總樣本的比例。查準率(precision)表示分類陽性在真正陽性中所占的比例。當查全率和查準率都比較大時,F-Measure才會相應的增大,故F-Measure可以正確的評價分類器對于每一類的分類性能。

(2)幾何均數(G-mean)

(3)

由公式(3)所示,只有當靈敏度和特異度都比較高的時候,G-mean才會相對較高[14]。因此,G-mean綜合考慮了少數類樣本的準確率和多數類樣本的準確率,體現了分類算法在多數樣本和少數樣本上的整體分類性能。

(3)ROC曲線下面積(area under receiver operating characteristic,AUC)

ROC曲線分別以TPrate和FPrate為橫縱坐標,曲線越靠近左上角表示分類器性能越好。在很多情況下直接比較不同模型的ROC曲線并不方便,因此使用ROC曲線的量化指標,即AUC的值作為分類算法的評價指標更為普遍[15]。

本研究以AUC為最重要的評價標準,描述指標的取值范圍均為[0,1],取值越大表示對不平衡數據集的分類性能越好。此外,為提高分類算法的可靠性,采用十折交叉驗證。

結  果

1.不平衡數據集模擬

利用原代謝綜合征不平衡數據集,根據不同疾病的患病率,計算機模擬不同比例的不平衡數據集。BP神經網絡分類不同比例的代謝綜合征數據集,結果見表3。隨著數據集不平衡比例的加劇,即患病率逐漸降低,BP神經網絡的F-Measure不斷增大,但G-mean和AUC不斷降低。綜合考慮F-Measure、G-mean和AUC,認為BP神經網絡的分類性能隨數據集不平衡比例的加劇而降低,C4.5決策樹也得出同樣結論。

表3 BP神經網絡分類不同不平衡比例數據集的結果

2.BP神經網絡分類結果

BP神經網絡分類四種重采樣后的數據集結果見表4。相較于原不平衡數據集,四種重采樣后的數據集經BP神經網絡分類后F-Measure均降低,表明平衡數據后降低了算法的分類性能;G-mean均有提升,隨機過采樣G-mean最大;除人工合成數據外,采用隨機過采樣、隨機欠采樣和混合采樣的AUC均有提升,隨機過采樣AUC最大。綜合考慮F-Measure、G-mean和AUC,隨機過采樣+BP神經網絡的分類性能最佳。

表4 BP神經網絡分類結果

3.C4.5決策樹分類結果

運用四種重采樣技術后,C4.5決策樹分類體檢中的代謝綜合征患者結果見表5。相較于原不平衡數據集,隨機過采樣和混合采樣的F-Measure增大,表明這兩種數據平衡化方法提高了數據集的分類性能;G-mean與AUC均有提升,且隨機過采樣技術的G-mean和AUC均最大,人工合成數據均最小,表明采用四種數據平衡化方法均提高了分類性能,其中隨機過采樣技術分類性能最高,采用人工合成數據分類性能最小。綜合考慮上述三個指標,認為隨機過采樣+C4.5決策樹的分類性能最佳。

表5 C4.5決策樹分類結果

重采樣技術平衡數據集前后決策樹產生的樹狀圖大致相同,見圖2~3。從決策樹可看出,代謝綜合征的影響因素主要是:空腹血糖、高密度脂蛋白、BMI、舒張壓和年齡。但隨機過采樣平衡數據集后,產生的決策樹更接近診斷標準。此外,決策樹分類規則提示,如果體檢者FPG≤6.1,HDL-C≤0.99,BMI≤24.94,age≤61,那么不患代謝綜合征等。

討  論

通過計算機模擬二分類中不同比例的數據集,即模擬不同疾病的患病率,結果證實,隨著數據集不平衡比例的加劇,BP神經網絡、C4.5決策樹的分類性能逐漸降低,即分類算法的性能隨患病率的降低而降低。這與相關報道[11]一致。

本研究中BP神經網絡、C4.5決策樹分類體檢中的代謝綜合征患者,分類性能均大于0.9,均取得了較好的分類性能,這可能與樣本量的大小有關,該樣本由63861份14個變量的體檢數據組成。此外,從決策樹節點看,與目前大規模流行病學調查得出的代謝綜合征發病高危因素一致[16],這表明決策樹產生的樹狀結構具有實際意義,與醫學認識水平相同。且從決策樹的根節點到葉節點對應著一條合理的規則,并可根據規則對體檢人群進行代謝綜合征風險評估。

圖2 原始不平衡數據集決策樹產生的樹狀圖

圖3 隨機過采樣平衡數據集后決策樹產生的樹狀圖

分別采用隨機過采樣、隨機欠采樣、混合采樣和人工合成數據平衡原代謝綜合征不平衡數據集后,C4.5決策樹的分類性能(G-mean、AUC)較平衡數據集前均有明顯提高。而BP神經網絡中,除人工合成數據外,采用隨機過采樣、隨機欠采樣和混合采樣的分類性能(G-mean、AUC)均提高。上述4種數據平衡化方法相比較,隨機過采樣技術更有助于提高分類算法的性能。平衡數據集后,兩種分類算法相比較,C4.5決策樹分類性能更優。因此,綜合考慮表4、表5,認為隨機過采樣+C4.5決策樹可顯著提高體檢數據代謝綜合征分類性能。

此外,研究發現采用四種重采樣技術的F-Measure大多小于原始數據集,這是因為,雖然采用數據平衡化方法可以增加正確分類的患者數量(即TP增大,FN減小),但是,同時也增加了誤分類的健康個體的數量(即TN減小,FP增大)。也就是說,重采樣雖然可以提高患者的查全率,但是當兩類樣本數量相差較大時,誤分類的健康個體的數量有時會比正確分類的患者的數量還要大,故根據公式(2),數據平衡化方法中F-Measure值不會得到很大的提高,甚至降低[17]。

綜上所述,數據集不平衡比例越高,患病率越低,數據挖掘技術分類該疾病的性能越差。通過隨機過采樣、隨機欠采樣、混合采樣和人工合成數據四種方法改善數據集的不平衡性,證實數據集整體的分類性能將得到提升,且采用隨機過采樣后的分類性能最優。因此,在采用分類算法對醫學不平衡數據進行分類前,可采用隨機過采樣技術對不平衡數據進行平衡化處理,從而提高分類算法的分類性能。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 亚洲伦理一区二区| 国产91丝袜| 全部免费特黄特色大片视频| 国产亚洲精久久久久久无码AV| 久久99久久无码毛片一区二区| 四虎亚洲国产成人久久精品| 伊人久久大线影院首页| 日韩美女福利视频| 国产噜噜噜视频在线观看 | 91精品国产无线乱码在线| 国产极品美女在线播放| 欧美α片免费观看| 久久香蕉国产线看观| 国产亚洲精品自在久久不卡| 久久久久人妻一区精品色奶水 | 成人va亚洲va欧美天堂| 中文字幕在线永久在线视频2020| 久热re国产手机在线观看| 麻豆a级片| 国产产在线精品亚洲aavv| 人妻精品久久无码区| 亚洲最大看欧美片网站地址| 国产精品人莉莉成在线播放| 欧美人与性动交a欧美精品| 91精品国产自产在线老师啪l| 精品久久久久久久久久久| 亚洲中文字幕无码爆乳| 九九热视频在线免费观看| 成人福利视频网| 亚洲日韩AV无码一区二区三区人| 国产欧美日韩精品综合在线| 欧美一区二区自偷自拍视频| 亚洲最大福利网站| 成人免费午间影院在线观看| www.91中文字幕| 谁有在线观看日韩亚洲最新视频 | 国产凹凸一区在线观看视频| 亚洲伊人久久精品影院| 黄色网页在线观看| www.亚洲一区二区三区| 欧美国产精品不卡在线观看| 欧美午夜小视频| 精品99在线观看| 国产精品女主播| 久久精品这里只有精99品| 18禁黄无遮挡免费动漫网站| 午夜在线不卡| 亚洲第一黄色网址| 国产精品伦视频观看免费| 国产精品尹人在线观看| 四虎AV麻豆| 国产精品美女自慰喷水| 免费观看三级毛片| 日韩毛片在线视频| 久久亚洲美女精品国产精品| 日韩国产无码一区| 成人毛片在线播放| 在线观看欧美国产| 亚洲成人77777| 国产又爽又黄无遮挡免费观看 | 九色在线视频导航91| 在线欧美一区| 高清乱码精品福利在线视频| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩一区二区在线电影| 免费a级毛片视频| 久青草免费在线视频| 日韩午夜福利在线观看| 黄色三级网站免费| 99偷拍视频精品一区二区| 米奇精品一区二区三区| 国产网站黄| 国产极品美女在线播放| 特级精品毛片免费观看| 国产无码高清视频不卡| 亚洲国产精品无码久久一线| 国产精品女在线观看| 在线日韩一区二区| 久久五月视频| 久久综合色播五月男人的天堂| 天天色天天操综合网| 国产福利小视频在线播放观看|