999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不同機(jī)器學(xué)習(xí)算法在分類問題中的應(yīng)用比較

2021-03-05 01:37:48王亞林陳忍忍
黑龍江科學(xué) 2021年4期
關(guān)鍵詞:乳腺癌分類模型

王亞林,陳忍忍

(江蘇省第二地質(zhì)工程勘察院,江蘇 徐州 221000)

0 引言

隨著大數(shù)據(jù)時(shí)代的到來,機(jī)器學(xué)習(xí)成為科學(xué)研究和實(shí)際應(yīng)用的重要工具和研究對(duì)象,使運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行分類問題的研究也成為了熱門。分類問題可以分為二分類問題和多分類問題,其根本思想是通過一個(gè)函數(shù)(算法)來判斷輸入數(shù)據(jù)的標(biāo)簽,即類別。相較于回歸問題,分類問題的輸出是一系列離散值,并且分類問題在現(xiàn)實(shí)中的應(yīng)用更為廣泛,如人臉識(shí)別、語音識(shí)別、圖像分類、遙感等領(lǐng)域。

梯度提升樹(gradient boosting decision tree,GBDT)[1-5]、多層感知機(jī)(multi-layer perceptron,MLP)[6-9]和支持向量機(jī)(support vector machine,SVM)[10-12]均為經(jīng)典的機(jī)器學(xué)習(xí)模型。國內(nèi)外學(xué)者對(duì)這幾種模型在分類問題方面已經(jīng)有了諸多的研究。Guangzhou[13]等將特征篩選與神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、SVM 和 GBDT等模型相互結(jié)合建立分類模型,比較幾種模型在分類問題中的表現(xiàn)。Dev[14]等人利用 DGF和HGF的數(shù)據(jù),對(duì)運(yùn)用機(jī)器學(xué)習(xí)方法進(jìn)行地層巖性分類研究,結(jié)果表明,GBDT具有良好的分類結(jié)果。羅威臻[15]利用遺傳算法和MLP模型研究了肌電和腦電的分類問題,結(jié)果表明,所提出的方法在分類準(zhǔn)確率上已經(jīng)優(yōu)于現(xiàn)有的分類方法。

以UCI機(jī)器學(xué)習(xí)數(shù)據(jù)倉庫(Machine Learning Data Repository)中提供的康斯威星乳腺癌數(shù)據(jù)為研究數(shù)據(jù),分別使用GBDT、MLP和SVM算法建立乳腺癌預(yù)測(cè)模型,比較各種模型的表現(xiàn),為進(jìn)一步研究機(jī)器學(xué)習(xí)模型在分類問題中的實(shí)際應(yīng)用提供了思路。

1 研究方法

1.1 梯度提升樹

提升(Boosting)方法是一種常用的統(tǒng)計(jì)學(xué)方法,它通過改變訓(xùn)練樣本的權(quán)重,學(xué)習(xí)多個(gè)分類器,并將這些分類器進(jìn)行線性組合,提高模型的性能,可以看成一種集成方法。Boosting方法主要采用基函數(shù)的線性組合與前向分布算法。以決策樹為基函數(shù)的提升方法稱為提升樹(booting tree,BD),而梯度提升樹(Gradient boosting decision tree,GBDT)則是結(jié)合回歸樹(Regression Decision Tree)和BT的思想并提出利用殘差梯度來優(yōu)化回歸樹的集成過程。

1.2 多層感知機(jī)

神經(jīng)網(wǎng)絡(luò)是由多個(gè)非常簡單的處理單元彼此按某種方式相互連接而形成的計(jì)算機(jī)系統(tǒng),該系統(tǒng)靠其狀態(tài)對(duì)外部輸入信息的動(dòng)態(tài)響應(yīng)來處理信息。人工神經(jīng)網(wǎng)絡(luò)是一種旨在模仿人腦結(jié)構(gòu)及其功能的信息處理系統(tǒng)。反向傳播(Back propagation,BP)是使用多層前饋網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)的最廣泛使用的算法。

多層感知機(jī)(Multi-Layer perceptron,MLP)是神經(jīng)網(wǎng)絡(luò)模型的擴(kuò)展,其基本思想是通過增加隱藏層的數(shù)量,構(gòu)造一種多層神經(jīng)網(wǎng)絡(luò)模型。總體而言,深度神經(jīng)網(wǎng)絡(luò)模型可以分為輸入層、隱藏層和輸出層三部分。

1.3 支持向量機(jī)

支持向量機(jī)是一種二分類模型,其基本模型是定義在特征空間上的線性分類器。SVM的學(xué)習(xí)策略是間隔最大化,可以形式化為一個(gè)求解凸二次規(guī)劃的問題,也等價(jià)于正則化的合頁損失函數(shù)的最小化問題[5]:

(1)

Lε為損失函數(shù),C為懲罰系數(shù)。一般來說,C的值設(shè)置的越大,則模型訓(xùn)練的精度越高。但是,如果C值設(shè)置的過高,則會(huì)出現(xiàn)過擬合問題。

(2)

1.4 實(shí)驗(yàn)及參數(shù)設(shè)置

基于Pycharm平臺(tái),使用Python 3.8.3進(jìn)行編程,實(shí)現(xiàn)GBDT、MLP和SVM算法。實(shí)驗(yàn)數(shù)據(jù)來自南斯拉夫盧布爾雅那大學(xué)醫(yī)療中心腫瘤研究所。對(duì)于GBDT模型,主要需要設(shè)置最大迭代次數(shù)、樹的深度、節(jié)點(diǎn)和學(xué)習(xí)速率4個(gè)參數(shù)。將最大迭代次數(shù)分別設(shè)為500、1 000和2 000,樹的深度分別設(shè)為2、3和4,節(jié)點(diǎn)均設(shè)為2,學(xué)習(xí)速率分別設(shè)為0.001、0.01和0.1。對(duì)于MLP模型的參數(shù),最大迭代次數(shù)分別設(shè)為500、1 000和2 000,Alpha分別設(shè)為0.1、0.25和1。對(duì)于SVM模型,分別采用不同的核函數(shù),參數(shù)gamma采用網(wǎng)格搜索法尋找最優(yōu)參數(shù)。

2 結(jié)果與分析

2.1 樣本數(shù)據(jù)統(tǒng)計(jì)分析

表1為部分康斯威星乳腺癌數(shù)據(jù)的統(tǒng)計(jì)信息。該數(shù)據(jù)集有兩大類、9個(gè)特征,共286個(gè)樣本。包括類別(class)分別是乳腺癌復(fù)發(fā)(recurrence-events)和未復(fù)發(fā)(no-recurrence-events)。年齡(age)有20~29、30~39、40~49、50~59、60~69和70~79六個(gè)區(qū)間。絕經(jīng)期(menopause)分為未絕經(jīng)(prememo)、40歲之后絕經(jīng)(ge40)和40歲之前絕經(jīng)(lt40)。腫瘤大小(tumor-size)、淋巴結(jié)個(gè)數(shù)(inv-nodes)、結(jié)節(jié)冒有無(node-caps)、腫瘤惡性程度(deg-malig)分為1、2、3三種,3代表惡性程度最高。breast分為left和right。breast-quad是所在象限,irradiate是是否有放射性治療經(jīng)歷。

表1 樣本基本統(tǒng)計(jì)特征(部分)Tab.1 Statistical characters of samples (parts)

2.2 GBDT分類結(jié)果分析

結(jié)果表明(表2),訓(xùn)練集中、模型精度由高至低分別為GBDT3 (預(yù)測(cè)精度=0.99)、GBDT2(預(yù)測(cè)精度=0.98)和GBDT1(預(yù)測(cè)精度=0.98)。驗(yàn)證集中、模型精度由高至低分別為GBDT3 (預(yù)測(cè)精度=0.97)、GBDT1 (預(yù)測(cè)精度=0.96)和GBDT2 (預(yù)測(cè)精度=0.95)。

表2 GBDT模型分類精度Tab.2 Classification accuracy of GBDT model

從模型解釋度來看,幾種模型中,GBDT3模型具有最高的模型解釋度,其他模型的訓(xùn)練集精度均低于該模型,且GBDT3模型的驗(yàn)證分類精度為0.97,預(yù)測(cè)精度也高于其他模型。從模型穩(wěn)定性角度,GBDT3模型訓(xùn)練集和驗(yàn)證集相差0.02,與GBDT2相同,但優(yōu)于GBDT1模型。綜合而言,GBDT3在該分類問題中的表現(xiàn)最優(yōu)。

2.3 多層感知機(jī)分類結(jié)果分析

結(jié)果表明(表3),訓(xùn)練集中、模型精度由高至低分別為MLP3 (預(yù)測(cè)精度=0.99)、MLP2(預(yù)測(cè)精度=0.98)和MLP1 (預(yù)測(cè)精度=0.91)。驗(yàn)證集中、預(yù)測(cè)精度由高至低分別為MLP3(預(yù)測(cè)精度=0.99)、MLP2(預(yù)測(cè)精度=0.99)和MLP1(預(yù)測(cè)精度=0.94)。

從模型解釋度來看,幾種模型中,MLP3模型具有最高的模型解釋度,其他模型的訓(xùn)練集精度均低于該模型,且該模型的預(yù)測(cè)精度是三種模型中最高的。但是,MLP2的精度幾乎與MLP3一致,僅在訓(xùn)練集中略低于MLP3模型。綜合而言,MLP3在該分類問題中的表現(xiàn)最優(yōu)。

表3 MLP模型分類精度Tab.3 Classification accuracy of MLP model

2.4 支持向量機(jī)分類結(jié)果分析

結(jié)果表明(表4),訓(xùn)練集中,模型精度由高至低分別為linear-svm (預(yù)測(cè)精度=0.99)、rbf-svm (預(yù)測(cè)精度=0.98)、poly-svm (預(yù)測(cè)精度=0.97)和sigmoid-svm(預(yù)測(cè)精度=0.95)。驗(yàn)證集中,模型精度由高至低分別為linear-svm (預(yù)測(cè)精度=0.98)、rbf-svm (預(yù)測(cè)精度=0.97)、poly-svm (預(yù)測(cè)精度=0.96)和sigmoid-svm(預(yù)測(cè)精度=0.96)。

表4 SVM模型分類精度Tab.4 Classification accuracy of SVM model

從模型解釋度來看,幾種模型中,GBDT3模型具有最高的模型解釋度,其他模型的訓(xùn)練集精度均低于該模型,且GBDT3模型的驗(yàn)證分類精度為0.97,預(yù)測(cè)精度也高于其他模型。從模型穩(wěn)定性角度,GBDT3模型訓(xùn)練集和驗(yàn)證集相差0.02,與GBDT2相同,但優(yōu)于GBDT1模型。綜合而言,GBDT3在該分類問題中的表現(xiàn)最優(yōu)。

2.5 不同機(jī)器學(xué)習(xí)模型最優(yōu)預(yù)測(cè)結(jié)果比較

表5為GBDT、MLP和SVM三種機(jī)器學(xué)習(xí)模型的最優(yōu)分類預(yù)測(cè)模型的結(jié)果。結(jié)果表明,三種模型對(duì)于威斯康星乳腺癌數(shù)據(jù)集均可獲得較好的分類預(yù)測(cè)結(jié)果。訓(xùn)練集中,GBDT3、MLP3和linear-svm的分類精度一致,均可達(dá)到0.99。驗(yàn)證集中,模型精度由高至低分別為MLP3、linear-svm和GBDT3。綜合而言,幾種模型均有較高的預(yù)測(cè)精度,但是MLP精度更高,所以可以將MLP3模型視為最優(yōu)的乳腺癌預(yù)測(cè)模型。

表5 不同機(jī)器學(xué)習(xí)方法預(yù)測(cè)精度分析Tab.5 Accuracy analysis of different machine learning methods

3 結(jié)論與展望

基于梯度提升樹、多層感知機(jī)和支持向量機(jī)三種機(jī)器學(xué)模型,分析幾種不同機(jī)器學(xué)習(xí)模型的預(yù)測(cè)精度,結(jié)論和展望如下:

三種模型在癌癥分類問題中均有良好的表現(xiàn),無論是建模集還是預(yù)測(cè)集均有較高的預(yù)測(cè)精度。相較而言,MLP模型預(yù)測(cè)精度更好,泛化能力更強(qiáng),且參數(shù)方面更為簡單。

相較于MLP和SVM模型,GBDT模型參數(shù)較多,需要進(jìn)行調(diào)參。綜合而言,幾種模型在分類算法中均有較好的表現(xiàn),研究如何使用兩種模型共同解決其他分類問題有一定的意義。

在今后的研究中,可以采用網(wǎng)格搜索法對(duì)GBDT和MLP進(jìn)行調(diào)參,并將這幾種模型用于更多的分類問題,以進(jìn)行更廣泛的研究。

猜你喜歡
乳腺癌分類模型
一半模型
絕經(jīng)了,是否就離乳腺癌越來越遠(yuǎn)呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
乳腺癌是吃出來的嗎
分類討論求坐標(biāo)
胸大更容易得乳腺癌嗎
數(shù)據(jù)分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
主站蜘蛛池模板: 国产无人区一区二区三区| 嫩草在线视频| 亚洲午夜国产精品无卡| 2019国产在线| 国产免费黄| 日韩天堂视频| 色综合婷婷| 精品伊人久久久久7777人| 亚洲天堂视频网站| 欧美国产综合视频| 国产后式a一视频| 亚洲成人www| 日本在线亚洲| 欧美一级特黄aaaaaa在线看片| 91九色国产在线| 美女扒开下面流白浆在线试听| 中文字幕va| 91精品网站| 91色综合综合热五月激情| 国产精品福利在线观看无码卡| 国产精品v欧美| 久久综合丝袜日本网| 亚洲区第一页| 天天综合网站| 青青操视频免费观看| 日韩精品毛片| 久久久久国色AV免费观看性色| www.亚洲一区| 国产喷水视频| 国产精品成人一区二区不卡| 亚洲成人精品| 亚洲精品午夜无码电影网| 波多野结衣无码中文字幕在线观看一区二区 | 亚洲日韩日本中文在线| 国产毛片片精品天天看视频| 久久国产亚洲偷自| 婷婷99视频精品全部在线观看| 波多野一区| 波多野结衣第一页| 国产精品久久精品| 亚洲精品777| 最新国产高清在线| 精品国产免费人成在线观看| 国产亚洲精品97AA片在线播放| 在线观看视频99| 久夜色精品国产噜噜| 国产成人三级在线观看视频| av在线手机播放| 在线观看无码av免费不卡网站| 91精品国产福利| 亚洲欧美日韩高清综合678| 日韩欧美国产三级| 伊人成色综合网| a级毛片网| 熟妇人妻无乱码中文字幕真矢织江 | 日本亚洲国产一区二区三区| 亚洲中文在线视频| 亚洲全网成人资源在线观看| 亚洲乱码在线视频| 欧美日韩专区| 久久久久亚洲AV成人人电影软件| 首页亚洲国产丝袜长腿综合| 99热在线只有精品| 国产精品香蕉在线观看不卡| 国产精品夜夜嗨视频免费视频| 亚洲欧美不卡中文字幕| 日韩精品高清自在线| 国产流白浆视频| 中文毛片无遮挡播放免费| 亚洲青涩在线| 日本黄色不卡视频| 亚洲欧美一区二区三区麻豆| jizz在线观看| 免费无遮挡AV| www.精品国产| 国产电话自拍伊人| 无码AV日韩一二三区| 视频二区亚洲精品| 国产网友愉拍精品视频| 日韩第八页| 四虎在线观看视频高清无码| 日韩国产高清无码|