999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學(xué)習(xí)的乳腺癌分類研究

2020-12-29 04:31:58鄧卓蘇秉華張凱
中國(guó)醫(yī)療設(shè)備 2020年12期
關(guān)鍵詞:乳腺癌分類模型

鄧卓,蘇秉華,張凱

1. 北京理工大學(xué)珠海學(xué)院 光電成像技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,廣東 珠海 519088;2. 北京理工大學(xué),北京 100081

引言

集成學(xué)習(xí)(多分類器系統(tǒng))通過(guò)將多個(gè)弱學(xué)習(xí)器結(jié)合[1-2],獲得比單一學(xué)習(xí)器的泛化能力更加顯著的強(qiáng)分類器。目前集成學(xué)習(xí)根據(jù)個(gè)體學(xué)習(xí)器間的關(guān)系可以分為兩大類[3-4]:一種是學(xué)習(xí)器之間不存在依賴關(guān)系,可以同時(shí)生成并行化的方法,例如隨機(jī)森林[5-6];另一種則是個(gè)體學(xué)習(xí)器之間存在很強(qiáng)的依賴關(guān)系,必須串行生成的序列化方法,例如Xgboost[7-8]。所以論文應(yīng)用集成學(xué)習(xí)中典型的兩類算法模型,研究集成學(xué)習(xí)在醫(yī)療診斷領(lǐng)域的應(yīng)用方法與實(shí)際效果。

目前集成學(xué)習(xí)于醫(yī)療領(lǐng)域的應(yīng)用尚處于研究階段,貴州大學(xué)醫(yī)學(xué)院的張玉璽等[9]人研究了集成學(xué)習(xí)在糖尿病預(yù)測(cè)中的應(yīng)用,主要應(yīng)用了集成學(xué)習(xí)中的隨機(jī)森林模型,并與傳統(tǒng)機(jī)器學(xué)習(xí)的算法做了對(duì)比,表明了集成學(xué)習(xí)算法明顯由于傳統(tǒng)機(jī)器學(xué)習(xí)算法。濟(jì)南市中醫(yī)醫(yī)院的任雪等[10]人提出了基于主動(dòng)集成學(xué)習(xí)的中醫(yī)智能診斷模型及構(gòu)建方法,將多個(gè)不同的機(jī)器學(xué)習(xí)模型進(jìn)行集成訓(xùn)練,獲得更為準(zhǔn)確的中醫(yī)知識(shí)學(xué)習(xí)模型,試驗(yàn)結(jié)果表明,集成學(xué)習(xí)是一種新型有效的中醫(yī)診斷模型。廣東工業(yè)大學(xué)的曾安等[11]人提出了基于卷積神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)的阿爾茨海默癥早期診斷,實(shí)驗(yàn)采用MRI三個(gè)維度上的多個(gè)二維切片進(jìn)行集成訓(xùn)練,從而更加充分地利用MRI包含的有效信息。所以將集成學(xué)習(xí)應(yīng)用于醫(yī)療診斷領(lǐng)域的研究需要進(jìn)一步探索,加快實(shí)現(xiàn)我國(guó)智能醫(yī)療服務(wù),提高醫(yī)療診斷水平。

1 項(xiàng)目模型

本項(xiàng)目首先建立了一個(gè)傳統(tǒng)的決策樹(shù)模型,方便與集成學(xué)習(xí)模型進(jìn)行對(duì)比驗(yàn)證,再利用交叉驗(yàn)證和網(wǎng)格搜索等方法建立了隨機(jī)森林模型和Xgboost模型,提高了模型的分類能力和AUC指標(biāo)。

模型訓(xùn)練采用的數(shù)據(jù)是美國(guó)Wisconsin醫(yī)院William H.Wolberg博士提供的乳腺癌數(shù)據(jù)樣本。經(jīng)過(guò)數(shù)據(jù)清洗處理后,一共有683個(gè)合格的實(shí)驗(yàn)樣本,其中正例(良性)樣本444個(gè),負(fù)例(惡性)樣本239個(gè),樣本共有九個(gè)特征值,分別是腫塊厚度、細(xì)胞大小的均勻性、細(xì)胞形狀的均勻性、邊緣粘性、單上皮細(xì)胞的大小、裸核、乏味染色體,正常核和有絲分裂。建立模型時(shí),將數(shù)據(jù)的70%作為實(shí)驗(yàn)訓(xùn)練樣本,剩余的30%測(cè)試樣本。

1.1 決策樹(shù)模型

決策樹(shù)是利用已知各種情況的發(fā)生概率進(jìn)行決策,求取凈現(xiàn)值的期望值大于等于零的概率的一種樹(shù)形結(jié)構(gòu)模型[4,8]。其結(jié)構(gòu)如圖1所示,每棵樹(shù)都只有一個(gè)根節(jié)點(diǎn),底下有多個(gè)決策節(jié)點(diǎn),每一個(gè)分叉路徑代表某個(gè)分類的屬性值,最終數(shù)據(jù)根據(jù)其屬性值的分類全部落到葉子節(jié)點(diǎn),完成數(shù)據(jù)決策分類。

圖1 決策樹(shù)結(jié)構(gòu)

此項(xiàng)目所用決策樹(shù)的隨機(jī)變量的不確定性指標(biāo)(criterion)是CART決策樹(shù)用于分類問(wèn)題時(shí)選擇最優(yōu)特征的指標(biāo)基尼指數(shù)(gini);規(guī)定每棵葉子節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_sample_leaf)是1,規(guī)定每個(gè)決策節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_samples_split)是2。

1.2 隨機(jī)森林模型

隨機(jī)森林是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho提出的[12],該模型是根據(jù)多個(gè)決策樹(shù)分類器的輸出,采用投票取眾數(shù)的方法進(jìn)行決策[13,14],其模型結(jié)構(gòu)如圖2所示,第一層是弱分類器,每個(gè)弱分類器都根據(jù)數(shù)據(jù)做出自己的判斷,最后采取投票選擇投票最多的結(jié)果作為真實(shí)輸出結(jié)果。

圖2 隨機(jī)森林結(jié)構(gòu)

此項(xiàng)目模型利用了10折交叉驗(yàn)證和網(wǎng)格搜索等方法優(yōu)化模型,提高模型泛化能力和準(zhǔn)確度。n折交叉驗(yàn)證就是在訓(xùn)練模型時(shí)將訓(xùn)練樣本分成n份,其中的1份保留作為驗(yàn)證模型的數(shù)據(jù),其余的n-1個(gè)樣本用來(lái)訓(xùn)練,交叉驗(yàn)證重復(fù)n次,最終每個(gè)子樣本都驗(yàn)證一次,然后將n次的結(jié)果平均得到一個(gè)單一的估測(cè)值,可以防止模型過(guò)擬合,提高模型的泛化能力。

網(wǎng)格搜索就是列舉所有超參數(shù)的后選值,通過(guò)循環(huán)遍歷,嘗試每一種超參數(shù)對(duì)模型訓(xùn)練的好壞程度,最終選出最適合模型的參數(shù)搭配,可以提高模型準(zhǔn)確度。

此模型利用交叉驗(yàn)證和網(wǎng)格搜索方法調(diào)節(jié)超參數(shù),最終選出最優(yōu)網(wǎng)絡(luò)參數(shù)。其中弱分類器(estimators)的個(gè)數(shù)是40,此模型弱分類器采用決策樹(shù),多棵決策樹(shù)集成隨機(jī)森林,每棵樹(shù)的最大深度(max_depth)不能超過(guò)10,每個(gè)決策節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_samples_split)是12,每棵葉子節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值(min_sample_leaf)是4,criterion隨機(jī)變量的不確定性的指標(biāo)(criterion)是基尼指數(shù)(gini)。

1.3 Xgboost模型

Xgboost(極端梯度提升)是個(gè)體學(xué)習(xí)器之間存在依賴關(guān)系的樹(shù)集成模型,其使用K棵樹(shù)中的每棵樹(shù)對(duì)樣本預(yù)測(cè)的預(yù)測(cè)結(jié)果的和作為Xgboost模型的預(yù)測(cè)結(jié)果[15,16],其數(shù)學(xué)定義如式(1)所示。

其中i表示第i個(gè)樣本, 表示第fk棵樹(shù)模型,K表示樹(shù)的數(shù)量,yi表示模型的預(yù)測(cè)值,隨著樹(shù)的數(shù)量值增加,模型的預(yù)測(cè)值越接近實(shí)際值。

模型訓(xùn)練的目標(biāo)函數(shù)如式(2)所示。

其中γ是模型懲罰力度,w是葉子節(jié)點(diǎn)的分值,T表示每棵樹(shù)的葉子節(jié)點(diǎn)數(shù)量,λ是模型超參數(shù)。模型訓(xùn)練時(shí),對(duì)損失函數(shù)做二階泰勒展開(kāi),如公式(5)。

訓(xùn)練時(shí)不斷尋找最佳的樹(shù)模型加入到已有模型中,并更新樣本預(yù)測(cè)值。Xgboost模型的訓(xùn)練過(guò)程如圖3流程所示。

原始數(shù)據(jù)經(jīng)過(guò)第一個(gè)分類器之后輸出結(jié)果,再根據(jù)其結(jié)果調(diào)整樣本分布,使得之前訓(xùn)練器做錯(cuò)的訓(xùn)練樣本在后續(xù)得到更多的關(guān)注,然后基于調(diào)整后的樣本分布訓(xùn)練下一個(gè)弱分類器,以此類推,直到學(xué)習(xí)器數(shù)目達(dá)到指定值,然后將這些學(xué)習(xí)器進(jìn)行加權(quán)求和,正確率越高的弱學(xué)習(xí)器獲得的權(quán)重越大。

圖3 Xgboost結(jié)構(gòu)

此模型利用交叉驗(yàn)證和網(wǎng)格搜索方法調(diào)節(jié)超參數(shù),最終選出的最優(yōu)網(wǎng)絡(luò)參數(shù)。其中模型懲罰力度值(gamma)是0.1,模型的學(xué)習(xí)率(learning_rate)是0.2,每棵樹(shù)的最大深度(max_depth)是3,弱分類器的個(gè)數(shù)(estimators)是28,此模型弱分類器采用決策樹(shù),正則化方程的超參數(shù)(lambda)是 1。

本項(xiàng)目的Xgboost模型共采用了28個(gè)弱分類器集成,每增加一個(gè)分類器都朝著優(yōu)化模型損失函數(shù)方向前進(jìn),模型效果如圖4所示,橫坐標(biāo)是分類器個(gè)數(shù),縱坐標(biāo)是模型的損失函數(shù),從圖中可以看出,隨著分類器的增加模型的損失函數(shù)逐漸減少。

圖4 Xgboost模型損失值

2 結(jié)果

訓(xùn)練數(shù)據(jù)訓(xùn)練完模型后,再利用測(cè)試數(shù)據(jù)測(cè)試模型性能,此項(xiàng)目的三個(gè)模型經(jīng)過(guò)測(cè)試集測(cè)試的結(jié)果如表1所示,其中precision是查準(zhǔn)率(P),即分類正確的比例,P=真正例/(真正例+假正例);recall是召回率(R),即類別被正確選出來(lái)的比例R=真正例/(真正例+假反例);F1-score是P和R的一種調(diào)和平均,F(xiàn)1=2*P*R/(P+R);support是樣本個(gè)數(shù),根據(jù)三個(gè)模型的結(jié)果性能指標(biāo)可以看出隨機(jī)森林模型和Xgboost模型的效果明顯好于決策樹(shù)模型的效果。根據(jù)統(tǒng)計(jì),本項(xiàng)目的集成學(xué)習(xí)模型分類準(zhǔn)確率平均值為0.965853,AUC指標(biāo)均值為0.967601;而傳統(tǒng)的決策樹(shù)模型的分類準(zhǔn)確率為0.921951,AUC值只有0.907999。根據(jù)實(shí)驗(yàn)數(shù)據(jù)和統(tǒng)計(jì)值對(duì)比,乳腺癌的二分類問(wèn)題中集成學(xué)習(xí)效果明顯由于傳統(tǒng)機(jī)器學(xué)習(xí)算法。

ROC(Receiver Operating Characteristic)曲線的縱坐標(biāo)是模型的真正例率(True Positive Rate,TPR),橫坐標(biāo)是模型的假正例率(False Positive Rate,F(xiàn)PR),AUC是ROC曲線下與坐標(biāo)軸圍成的面積,取值在0.5到1之間,值越大模型效果越好,模型的ROC曲線和AUC面積如圖5~7所示。

表1 模型結(jié)果

圖6 隨機(jī)森林的ROC曲線圖

圖7 Xgboost的ROC曲線圖

從三個(gè)模型的ROC曲線可以看出集成學(xué)習(xí)的分類效果明顯由于隨機(jī)森林算法,尤其是模型的AUC值,均到達(dá)了99.7%以上,具有很高的分類效果。

3 討論

本項(xiàng)目利用集成學(xué)習(xí)的隨機(jī)森林和Xgboost模型對(duì)乳腺癌診斷做出分類預(yù)測(cè)模型,模型訓(xùn)練過(guò)程中利用了交叉驗(yàn)證和網(wǎng)格搜索等方法提高模型準(zhǔn)確率的同時(shí)防止模型過(guò)擬合,增強(qiáng)模型泛化能力,并和傳統(tǒng)的機(jī)器學(xué)習(xí)算法決策樹(shù)模型進(jìn)行了對(duì)比。根據(jù)實(shí)驗(yàn)結(jié)果可以看出集成學(xué)習(xí)模型對(duì)乳腺癌的分類效果非常好,模型準(zhǔn)確度很高,而且各項(xiàng)指標(biāo)都優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。

目前,威脅人類身體健康的主要疾病是癌癥,而乳腺癌又是女性疾病的頭號(hào)殺手,所以提高乳腺癌診斷準(zhǔn)確率的研究具有現(xiàn)實(shí)意義;利用人工智能技術(shù)提高醫(yī)療診斷服務(wù)是目前的研究熱點(diǎn),將傳統(tǒng)的機(jī)器學(xué)習(xí)算法應(yīng)用于臨床輔助診斷效果并不明顯,所以將具有高分類能力的集成學(xué)習(xí)算法與醫(yī)療診斷技術(shù)相結(jié)合的技術(shù)研究很有必要;通過(guò)本項(xiàng)目實(shí)踐研究得出,集成學(xué)習(xí)對(duì)乳腺癌的良惡性分類效果很好,且分類能力超過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)算法的分類能力,所以將集成學(xué)習(xí)算法應(yīng)用于醫(yī)療診斷服務(wù)的研究具有實(shí)踐價(jià)值。可以將集成學(xué)習(xí)與醫(yī)療診斷服務(wù)領(lǐng)域交叉,深入研究并應(yīng)用于實(shí)際醫(yī)療臨床,不僅可以提高診斷效率,還可以減少實(shí)際診斷的誤診與漏診現(xiàn)象,使患者及早診斷及早治療,提高患者存活率,提高我國(guó)醫(yī)療服務(wù)水平。

猜你喜歡
乳腺癌分類模型
一半模型
絕經(jīng)了,是否就離乳腺癌越來(lái)越遠(yuǎn)呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
乳腺癌是吃出來(lái)的嗎
分類討論求坐標(biāo)
胸大更容易得乳腺癌嗎
數(shù)據(jù)分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
主站蜘蛛池模板: 狠狠综合久久久久综| 国产一级毛片高清完整视频版| 孕妇高潮太爽了在线观看免费| 国产精品30p| 日韩中文字幕亚洲无线码| 成人综合网址| 免费高清自慰一区二区三区| 久久a毛片| 2020国产精品视频| 精品视频在线观看你懂的一区| 人人澡人人爽欧美一区| 久久一级电影| 亚洲天堂成人| 久久无码免费束人妻| 国产精品久久精品| 一本大道香蕉高清久久| 免费看a级毛片| 国产亚洲欧美日韩在线观看一区二区| 99久久精品免费看国产免费软件| 五月天在线网站| 国产精品毛片在线直播完整版| 91国内在线视频| 亚洲第一页在线观看| 国产电话自拍伊人| 91久久青青草原精品国产| 人人91人人澡人人妻人人爽 | 91视频首页| 色悠久久久久久久综合网伊人| 国产成人久视频免费| 91精品国产91欠久久久久| 在线观看亚洲精品福利片| 青青草国产一区二区三区| 尤物精品视频一区二区三区| 亚洲色图另类| 亚洲精品va| 成年人国产视频| 国产成熟女人性满足视频| 久久综合一个色综合网| 在线欧美一区| 在线观看亚洲人成网站| 中文字幕久久波多野结衣| 免费国产一级 片内射老| 欧洲精品视频在线观看| 国产无码高清视频不卡| 欧美色视频在线| 91精品最新国内在线播放| 国产成人一区二区| 国产精品一线天| 免费人欧美成又黄又爽的视频| 特级毛片免费视频| 一级毛片免费播放视频| 996免费视频国产在线播放| 免费全部高H视频无码无遮掩| 91蝌蚪视频在线观看| 亚洲日本一本dvd高清| 日本免费精品| 精品久久蜜桃| 亚洲精品天堂自在久久77| 亚洲天堂久久久| 91免费国产在线观看尤物| 国产91特黄特色A级毛片| 亚洲第一网站男人都懂| 日本免费福利视频| 在线精品自拍| 人妻无码一区二区视频| 91麻豆精品国产高清在线| 国产无吗一区二区三区在线欢| 亚洲三级影院| 日韩第一页在线| h视频在线观看网站| 亚洲va欧美va国产综合下载| 亚卅精品无码久久毛片乌克兰| 亚洲色欲色欲www在线观看| 久青草国产高清在线视频| 国产三级成人| 亚洲有码在线播放| 国产专区综合另类日韩一区| 99999久久久久久亚洲| 精品综合久久久久久97超人| 九色最新网址| 影音先锋亚洲无码| 日本日韩欧美|