999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向非平衡數據的癌癥患者生存預測分析

2021-12-20 12:35:54苗立志白瑞思蒙劉成良翟月昊
計算機工程 2021年12期
關鍵詞:乳腺癌

苗立志,白瑞思蒙,劉成良,翟月昊

(1.南京郵電大學 地理與生物信息學院,南京 210023;2.南京郵電大學江蘇省智慧健康大數據分析與位置服務工程實驗室,南京 210023;3.南京郵電大學 通信與信息工程學院,南京 210003)

0 概述

隨著常見疾病的攻克和人均壽命的提高,癌癥逐漸成為威脅人類健康的主要因素。國際癌癥研究機構的分析報告顯示,2018 年全球癌癥新增病例1 810 萬例,死亡病例960 萬人[1]。傳統醫療主要基于癌癥病理類型、患者既往病史等對患者的生存時間進行評估和預測,機器學習技術的發展[2],使其能作為輔助手段被引入到癌癥診斷[3]和生存預測[4]中。目前,癌癥診斷和治療技術已能有效降低患者的死亡率、延長患者的存活時間[5]。由于癌癥確診后患者在5 年內幸存人數將累計達到4 380 萬,因此在收集到的現有數據集中,存活患者數量將遠大于非存活患者數量。癌癥患者原始數據集通常是非平衡的,且傳統算法在對非平衡數據集預測分析時,分類器為確保算法模型整體性能,部分少數類樣本會被誤判[6]。但在實際分類中,少數類樣本會攜帶更多的信息量且更重要,誤判代價非常昂貴,所以面向非平衡數據的處理逐漸成為機器學習應用研究的重要組成部分[7-8]。

當前對非平衡數據問題主要從數據和算法[9]2 個層面進行研究。在算法層面,通常在不改變原始數據樣本的基礎上尋找特定的算法以適用于非平衡數據集,如集成算法[10]和代價敏感算法[11]等。MAHDIYAH 等[12]提出改進的極限學習機(Extreme Learning Machine,ELM)算法,通過集成數據克服數據非平衡問題,可有效改進非平衡數據分類效果。在數據層面,通過過采樣、欠采樣[13]等技術,將非平衡數據集采樣成為平衡數據集。文獻[14]提出過采樣算法中最經典的SMOTE 算法,通過在少數類樣本之間進行線性插值來增加少數類樣本數量。文獻[15]在SMOTE 算法的基礎上提出Borderline-SMOTE 算法,該算法將原始SMOTE 算法和邊界信息相結合,只利用邊界位置的樣本信息產生新樣本,減少噪聲樣本和冗余樣本的生成。

針對醫療領域存在的樣本數據集非平衡問題,國內外研究人員進行了深入研究[16-17]。如WANG 等[18]提出一種基于SMOTE 和粒子群優化算法的混合采樣算法,評估乳腺癌患者5 年的生存率,結果表明在搜索算法和分類器中使用SMOTE 算法可以有效提高對非平衡醫療數據集的分類效果。KUO 等[19]提出一種基于信息粒化的分類算法處理醫療領域中非平衡數據集,該算法通過自動聚類算法生產一組信息粒化,在預測前列腺癌患者的存活率時表現優異。WANG 等[20]為了解決非平衡癌癥數據中過擬合問題,提出一種基于自步學習的自適應非平衡采樣算法,通過欠采樣算法減少數據集中的噪聲樣本,并選擇優質多數類和少數類樣本合成新的平衡子集。相較于其他常見非平衡算法,其平均正確率提高了16%,但該算法在合成新平衡的數據子集同時,會主動丟失一部分樣本信息。非平衡的數據集中存在大量噪聲樣本、冗余樣本等異常樣本[21-22],以美國國立癌癥研究院SEER[23]數據庫中獲取的2015 年乳腺癌患者樣本數據為例,該數據集中有超過12%的樣本是噪聲樣本。

本文提出一種基于RENN和SMOTE 算法的綜合采樣算法RENN-SMOTE-SVM,通過RENN 算法減少多數類樣本集中噪聲樣本的數量,并使用SMOTE算法增加少數類樣本的數量,從而使樣本集比例達到平衡。在SEER 庫中乳腺癌患者數據集上對非平衡的癌癥患者進行生存預測分析,并與SVM 算法、Tomeklinks-SVM 算法、RU-SVM等算法相比較,以分析所提算法的預測效果。

1 RENN-SMOTE-SVM 算法

1.1 RENN 算法

為解決癌癥數據集中非平衡現象及噪聲樣本問題,RENN 作為一種欠采樣算法,基于最近鄰規則減少多數類噪聲樣本數量,提高模型對整體樣本的識別能力。RENN 算法是在ENN[24]算法基礎上的整體優化,ENN 算法的基本思想是、如果1 個多數類樣本的3 個最鄰近樣本中有2 個或多個與之異類,那么就將該樣本視為噪聲樣本并刪除。但ENN 的不足之處在于多數類樣本附近的樣本絕大部分與之同類,所以可以刪除的噪聲樣本數量有限。RENN 算法在ENN 算法的基礎上進行多次循環刪除噪聲樣本過程,以刪除更多的噪聲樣本,減少噪聲樣本對分類器的判決影響。

1.2 SMOTE 算法

在非平衡的癌癥數據集中,多數類樣本在數據集中占比很高,僅依靠欠采樣算法刪除部分噪聲樣本,難以完全平衡數據集。因此,需要采用過采樣算法使樣本比例達到平衡,增加模型的泛化能力和對少數樣本的識別能力。在過采樣算法中,本文選取了SMOTE 算法,通過在少數類樣本之間插值產生新的人工合成少數類樣本以平衡數據集。插值方法如式(1)所示:

其中:X表示少數類樣本;rand(0,1)表示區間(0,1)中的一個隨機數;yi表示距離數據樣本X的n個最近鄰樣本中的第i個,在本文實驗中n取5。SMOTE 算法通過以上過程增加少數類樣本數目,使整體數據集趨于平衡。

1.3 RENN-SMOTE-SVM 算法

通過RENN 算法刪除多數類樣本中的噪聲樣本,減少噪聲樣本對結果的干擾。另一方面通過SMOTE算法增加少數類樣本的數量,以平衡數據集。在得到新的平衡癌癥數據集以后,通過SVM 分類器對癌癥患者的生存情況進行預測分析,在面對非平衡數據集時,SVM 有更好的超平面用于區分樣本,獲取更佳的泛化能力[25]。本文提出的RENN-SMOTE-SVM 算法處理流程如圖1 所示。

圖1 RENN-SMOTE-SVM 算法流程Fig.1 Procedure of RENN-SMOTE-SVM algorithm

RENN-SMOTE-SVM 算法步驟如下:

1)輸入原始非平衡數據集S,并對原始非平衡數據集S進行數據預處理。

2)設置目標非均衡尺度ao=1,ao用于限制輸出數據集So的非均衡度。同時根據患者目前生存狀態,將原始數據集S分為兩類,其中存活患者樣本數量相對較多,設為多數類樣本集Smaj,死亡患者樣本數量相對較少,設為少數類樣本集Smin。

3)對多數類樣本集Smaj使用RENN 算法,刪除其噪聲樣本,得到Somaj。

4)比較Somaj和Smin的數目大小,如果Somaj大于Smin則進行步驟5,否則進行步驟6;

5)對少數類樣本集Smin使用SMOTE 算法,增加其樣本數量,得到Somin。

6)合并Somaj和Somin得到平衡數據集So。

7)計算非均衡a尺度;a=Somaj/Somin,判斷a是否等于ao,如果兩者不相等則返回步驟2,否則進行步驟8。

8)輸出So,并基于平衡數據集So應用SVM 算法對患者生存進行預測分析,得到預測結果。

2 乳腺癌患者生存預測分析

2.1 模型構建

本文以乳腺癌患者數據為例,研究面向非平衡數據集的癌癥患者生存預測分析,實驗數據來自于SEER 數據庫,該數據庫是美國最權威的癌癥統計數據庫,記錄了美國部分州縣上百萬名惡性腫瘤患者的發病率、死亡率、患病情況等信息。本次實驗獲取了2015 年SEER 數據庫中11 298 條有效的乳腺癌患者數據,數據集分為兩類:多數類存活患者樣本數量10 646;少數類非存活患者樣本數量652。常見的11 個癌癥主要屬性如表1 所示。其中,Vital status 屬性表示患者一年后的存活狀態,用以分類樣本。

表1 實驗數據屬性Table 1 Experimental data attributes

訓練SVM 分類器中的主要參數設置:SVM 的內核類型Kernel 為rbf;正類和反類的樣本權重比class_weight 為balanced;目標函數的懲罰系數C為1;數據映射到新的特征空間后的分布gamma 為1;其余未提及的參數在本文實驗中選用默認值。

2.2 評價指標

針對非平衡數據集的評價指標[26],本文采用基于混淆矩陣的評價指標衡量分類器性能,具體指標包括正確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1-score 值和G-mean 值。以二分類混淆矩陣為例,如表2 所示。

表2 混淆矩陣Table 2 Confusion matrix

正確率的計算公式如式(2)所示:

精確率的計算公式如式(3)所示:

召回率的計算公式如式(4)所示:

F1-score 是基于精確率和召回率的調和平均數,考察兩者之間的折中,其計算公式如式(5)所示:

G-mean 代表少數類和多數類樣本的整體分類準確程度,體現了模型對非平衡數據集的識別性能,其計算公式如式(6)所示:

2.3 生存預測結果分析

在本文實驗數據集中,原始多數類樣本數量為10 646,通過RENN 算法刪除1 339 個噪聲樣本后,剩余9 307 個多數類可用樣本,其中噪聲樣本占比12.578%。為驗證RENN-SMOTE-SVM 算法對非平衡乳腺癌數據集生存預測準確程度,將本文算法與SVM算法、欠采樣算法Tomeklinks-SVM、RU-SVM、過采樣算法SMOTE-SVM 和ADASYN-SVM 這5 種常用算法進行對比。對所有實驗結果使用10 次交叉驗證后取平均值,其中每次數據集中訓練集樣本數量占90%,測試集樣本數量占10%。實驗結果如表3~表5 所示,表中加粗數字表示該組數據的最大值。

表3 少數類樣本的一年生存預測結果Table 3 One-year survival prediction results of minority samples

表4 多數類樣本的一年生存預測結果Table 4 One-year survival prediction results of most samples

表5 非平衡數據集的一年生存預測結果Table 5 One-year survival prediction results of the unbalanced set

由表3 少數類樣本的生存預測結果可知,通過在數據層面處理以后,其他算法結果均比SVM 算法表現更好,說明通過數據層面的處理能夠增加模型對少數類樣本的識別能力。同時,F1-score 值作為代表模型對當前樣本整體預測結果好壞的重要參數,表明RENN-SMOTE-SVM 算法非常有效地提高了少數類樣本的決策邊界和預測能力。

由表4 多數類樣本的生存預測結果可知,RENN-SMOTE-SVM 算法對多數類樣本的生存預測表現優異,在3 個指標中均取得了最優值。同時,由于RENN 算法去除了一些噪聲和冗余樣本,在多數類樣本的預測結果中,該算法相較于增加少數類數量的過采樣SMOTE-SVM 算法和ADASYN-SVM 算法表現更加突出。

由表5 非平衡數據集的生存預測結果可知,RENN-SMOTE-SVM算法的正確率、F1-score 和G-mean 分別為0.883、0.904 和0.779,該算法在3 個指標下都取得了最高值。其中G-mean 是最重要的評價指標,它代表了分類器對非平衡樣本集的整體預測準確程度,而各類欠采樣和過采樣算法相較于SVM 算法均有效地提高了G-mean 值,其中RENNSMOTE-SVM 算法提升最多。這表明RENNSMOTE-SVM 算法相較于其他算法而言,能夠有效地提高對非平衡乳腺癌數據的生存預測,其預測結果更好。

3 結束語

針對癌癥數據集中存在非平衡數據和噪聲樣本的問題,本文提出一種混合采樣RENN-SMOTESVM 算法。利用RENN 算法刪除多數類樣本集中的噪聲樣本,并通過SMOTE 算法增加少數類樣本的數量,從而獲得均衡數據集。對SEER 庫中乳腺癌患者進行一年后生存結果預測分析,實驗結果表明,RENN-SMOTE-SVM 算法相較于其他常用的采樣算法在多指標的平均水平上表現更優,可用于對非平衡癌癥患者的生存預測分析。由于本文在對癌癥患者進行生存預測分析時,采用的數據集均為二分類數據集,下一步將研究該算法在多分類數據集中的表現,從而拓寬該算法的應用范圍。

猜你喜歡
乳腺癌
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
中醫治療乳腺癌的研究進展
乳腺癌的認知及保健
甘肅科技(2020年20期)2020-04-13 00:30:42
乳腺癌是吃出來的嗎
胸大更容易得乳腺癌嗎
男人也得乳腺癌
防治乳腺癌吃什么:禽比獸好
幸福家庭(2019年14期)2019-01-06 09:15:38
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
PI3K在復發乳腺癌中的表達及意義
癌癥進展(2016年9期)2016-08-22 11:33:20
CD47與乳腺癌相關性的研究進展
主站蜘蛛池模板: 欧美一级大片在线观看| 日本欧美视频在线观看| 国产人成在线视频| lhav亚洲精品| 国产内射在线观看| 美女无遮挡免费视频网站| 丁香婷婷激情综合激情| 国产亚洲欧美日韩在线一区| 综合社区亚洲熟妇p| 国产高清在线精品一区二区三区| 久久无码高潮喷水| 精品福利视频网| 亚洲国产理论片在线播放| 欧美一级黄片一区2区| 久久免费精品琪琪| 好紧太爽了视频免费无码| 992tv国产人成在线观看| 美女扒开下面流白浆在线试听| 欧美黄网在线| 亚洲va在线∨a天堂va欧美va| 欧美精品成人一区二区在线观看| 久久国语对白| 在线一级毛片| 高清久久精品亚洲日韩Av| 亚洲伊人天堂| 国产主播一区二区三区| 亚洲精品卡2卡3卡4卡5卡区| 国产农村妇女精品一二区| 久久免费视频6| 国产麻豆永久视频| 91成人在线观看| 国产精品人人做人人爽人人添| 曰韩免费无码AV一区二区| 国产精品自在自线免费观看| 最新国产你懂的在线网址| 国产在线观看人成激情视频| 日韩国产精品无码一区二区三区| 日韩成人高清无码| 久热中文字幕在线| 日韩国产另类| 亚洲日韩AV无码一区二区三区人 | 欧美福利在线播放| 伊人久久综在合线亚洲2019| www.91中文字幕| 国产精品久久久久久久久| 精品国产污污免费网站| 91精品国产一区| 成人毛片免费观看| 免费播放毛片| 人妻中文字幕无码久久一区| 婷婷综合缴情亚洲五月伊| 久久久91人妻无码精品蜜桃HD| 国内精品自在欧美一区| 五月天在线网站| 亚洲人成网站日本片| 中文字幕av一区二区三区欲色| 日日噜噜夜夜狠狠视频| 天天干天天色综合网| 国产欧美精品专区一区二区| 国产无码网站在线观看| 国外欧美一区另类中文字幕| 中美日韩在线网免费毛片视频| 麻豆a级片| 九色视频在线免费观看| 色综合激情网| 亚洲一区免费看| 亚洲中文无码av永久伊人| 奇米精品一区二区三区在线观看| 91www在线观看| 午夜影院a级片| 久久精品无码专区免费| 国产精品不卡永久免费| 久久精品国产一区二区小说| 伊人久久婷婷| 亚洲精品午夜无码电影网| 久热中文字幕在线| 欧美精品影院| 天堂在线www网亚洲| 中文字幕在线观| 精品视频在线观看你懂的一区| 精品久久国产综合精麻豆| 粗大猛烈进出高潮视频无码|