基于集成學(xué)習(xí)的乳腺癌分類研究

2020-12-29 04:31:58鄧卓蘇秉華張凱

中國(guó)醫(yī)療設(shè)備 2020年12期

鄧卓，蘇秉華，張凱

1. 北京理工大學(xué)珠海學(xué)院光電成像技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室，廣東珠海 519088；2. 北京理工大學(xué)，北京 100081

引言

集成學(xué)習(xí)（多分類器系統(tǒng)）通過(guò)將多個(gè)弱學(xué)習(xí)器結(jié)合[1-2]，獲得比單一學(xué)習(xí)器的泛化能力更加顯著的強(qiáng)分類器。目前集成學(xué)習(xí)根據(jù)個(gè)體學(xué)習(xí)器間的關(guān)系可以分為兩大類[3-4]：一種是學(xué)習(xí)器之間不存在依賴關(guān)系，可以同時(shí)生成并行化的方法，例如隨機(jī)森林[5-6]；另一種則是個(gè)體學(xué)習(xí)器之間存在很強(qiáng)的依賴關(guān)系，必須串行生成的序列化方法，例如Xgboost[7-8]。所以論文應(yīng)用集成學(xué)習(xí)中典型的兩類算法模型，研究集成學(xué)習(xí)在醫(yī)療診斷領(lǐng)域的應(yīng)用方法與實(shí)際效果。

目前集成學(xué)習(xí)于醫(yī)療領(lǐng)域的應(yīng)用尚處于研究階段，貴州大學(xué)醫(yī)學(xué)院的張玉璽等[9]人研究了集成學(xué)習(xí)在糖尿病預(yù)測(cè)中的應(yīng)用，主要應(yīng)用了集成學(xué)習(xí)中的隨機(jī)森林模型，并與傳統(tǒng)機(jī)器學(xué)習(xí)的算法做了對(duì)比，表明了集成學(xué)習(xí)算法明顯由于傳統(tǒng)機(jī)器學(xué)習(xí)算法。濟(jì)南市中醫(yī)醫(yī)院的任雪等[10]人提出了基于主動(dòng)集成學(xué)習(xí)的中醫(yī)智能診斷模型及構(gòu)建方法，將多個(gè)不同的機(jī)器學(xué)習(xí)模型進(jìn)行集成訓(xùn)練，獲得更為準(zhǔn)確的中醫(yī)知識(shí)學(xué)習(xí)模型，試驗(yàn)結(jié)果表明，集成學(xué)習(xí)是一種新型有效的中醫(yī)診斷模型。廣東工業(yè)大學(xué)的曾安等[11]人提出了基于卷積神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)的阿爾茨海默癥早期診斷，實(shí)驗(yàn)采用MRI三個(gè)維度上的多個(gè)二維切片進(jìn)行集成訓(xùn)練，從而更加充分地利用MRI包含的有效信息。所以將集成學(xué)習(xí)應(yīng)用于醫(yī)療診斷領(lǐng)域的研究需要進(jìn)一步探索，加快實(shí)現(xiàn)我國(guó)智能醫(yī)療服務(wù)，提高醫(yī)療診斷水平。

1 項(xiàng)目模型

本項(xiàng)目首先建立了一個(gè)傳統(tǒng)的決策樹(shù)模型，方便與集成學(xué)習(xí)模型進(jìn)行對(duì)比驗(yàn)證，再利用交叉驗(yàn)證和網(wǎng)格搜索等方法建立了隨機(jī)森林模型和Xgboost模型，提高了模型的分類能力和AUC指標(biāo)。

模型訓(xùn)練采用的數(shù)據(jù)是美國(guó)Wisconsin醫(yī)院William H.Wolberg博士提供的乳腺癌數(shù)據(jù)樣本。經(jīng)過(guò)數(shù)據(jù)清洗處理后，一共有683個(gè)合格的實(shí)驗(yàn)樣本，其中正例（良性）樣本444個(gè)，負(fù)例（惡性）樣本239個(gè)，樣本共有九個(gè)特征值，分別是腫塊厚度、細(xì)胞大小的均勻性、細(xì)胞形狀的均勻性、邊緣粘性、單上皮細(xì)胞的大小、裸核、乏味染色體，正常核和有絲分裂。建立模型時(shí)，將數(shù)據(jù)的70%作為實(shí)驗(yàn)訓(xùn)練樣本，剩余的30%測(cè)試樣本。

1.1 決策樹(shù)模型

決策樹(shù)是利用已知各種情況的發(fā)生概率進(jìn)行決策，求取凈現(xiàn)值的期望值大于等于零的概率的一種樹(shù)形結(jié)構(gòu)模型[4,8]。其結(jié)構(gòu)如圖1所示，每棵樹(shù)都只有一個(gè)根節(jié)點(diǎn)，底下有多個(gè)決策節(jié)點(diǎn)，每一個(gè)分叉路徑代表某個(gè)分類的屬性值，最終數(shù)據(jù)根據(jù)其屬性值的分類全部落到葉子節(jié)點(diǎn)，完成數(shù)據(jù)決策分類。

圖1 決策樹(shù)結(jié)構(gòu)

此項(xiàng)目所用決策樹(shù)的隨機(jī)變量的不確定性指標(biāo)（criterion）是CART決策樹(shù)用于分類問(wèn)題時(shí)選擇最優(yōu)特征的指標(biāo)基尼指數(shù)（gini）；規(guī)定每棵葉子節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值（min_sample_leaf）是1，規(guī)定每個(gè)決策節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值（min_samples_split）是2。

1.2 隨機(jī)森林模型

隨機(jī)森林是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho提出的[12]，該模型是根據(jù)多個(gè)決策樹(shù)分類器的輸出，采用投票取眾數(shù)的方法進(jìn)行決策[13,14]，其模型結(jié)構(gòu)如圖2所示，第一層是弱分類器，每個(gè)弱分類器都根據(jù)數(shù)據(jù)做出自己的判斷，最后采取投票選擇投票最多的結(jié)果作為真實(shí)輸出結(jié)果。

圖2 隨機(jī)森林結(jié)構(gòu)

此項(xiàng)目模型利用了10折交叉驗(yàn)證和網(wǎng)格搜索等方法優(yōu)化模型，提高模型泛化能力和準(zhǔn)確度。n折交叉驗(yàn)證就是在訓(xùn)練模型時(shí)將訓(xùn)練樣本分成n份，其中的1份保留作為驗(yàn)證模型的數(shù)據(jù)，其余的n-1個(gè)樣本用來(lái)訓(xùn)練，交叉驗(yàn)證重復(fù)n次，最終每個(gè)子樣本都驗(yàn)證一次，然后將n次的結(jié)果平均得到一個(gè)單一的估測(cè)值，可以防止模型過(guò)擬合，提高模型的泛化能力。

網(wǎng)格搜索就是列舉所有超參數(shù)的后選值，通過(guò)循環(huán)遍歷，嘗試每一種超參數(shù)對(duì)模型訓(xùn)練的好壞程度，最終選出最適合模型的參數(shù)搭配，可以提高模型準(zhǔn)確度。

此模型利用交叉驗(yàn)證和網(wǎng)格搜索方法調(diào)節(jié)超參數(shù)，最終選出最優(yōu)網(wǎng)絡(luò)參數(shù)。其中弱分類器（estimators）的個(gè)數(shù)是40，此模型弱分類器采用決策樹(shù)，多棵決策樹(shù)集成隨機(jī)森林，每棵樹(shù)的最大深度（max_depth）不能超過(guò)10，每個(gè)決策節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值（min_samples_split）是12，每棵葉子節(jié)點(diǎn)所含樣本個(gè)數(shù)的最小值（min_sample_leaf）是4，criterion隨機(jī)變量的不確定性的指標(biāo)（criterion）是基尼指數(shù)（gini）。

1.3 Xgboost模型

Xgboost（極端梯度提升）是個(gè)體學(xué)習(xí)器之間存在依賴關(guān)系的樹(shù)集成模型，其使用K棵樹(shù)中的每棵樹(shù)對(duì)樣本預(yù)測(cè)的預(yù)測(cè)結(jié)果的和作為Xgboost模型的預(yù)測(cè)結(jié)果[15,16]，其數(shù)學(xué)定義如式(1)所示。

其中i表示第i個(gè)樣本，表示第fk棵樹(shù)模型，K表示樹(shù)的數(shù)量，yi表示模型的預(yù)測(cè)值，隨著樹(shù)的數(shù)量值增加，模型的預(yù)測(cè)值越接近實(shí)際值。

模型訓(xùn)練的目標(biāo)函數(shù)如式(2)所示。

其中γ是模型懲罰力度，w是葉子節(jié)點(diǎn)的分值，T表示每棵樹(shù)的葉子節(jié)點(diǎn)數(shù)量，λ是模型超參數(shù)。模型訓(xùn)練時(shí)，對(duì)損失函數(shù)做二階泰勒展開(kāi)，如公式(5)。

訓(xùn)練時(shí)不斷尋找最佳的樹(shù)模型加入到已有模型中，并更新樣本預(yù)測(cè)值。Xgboost模型的訓(xùn)練過(guò)程如圖3流程所示。

原始數(shù)據(jù)經(jīng)過(guò)第一個(gè)分類器之后輸出結(jié)果，再根據(jù)其結(jié)果調(diào)整樣本分布，使得之前訓(xùn)練器做錯(cuò)的訓(xùn)練樣本在后續(xù)得到更多的關(guān)注，然后基于調(diào)整后的樣本分布訓(xùn)練下一個(gè)弱分類器，以此類推，直到學(xué)習(xí)器數(shù)目達(dá)到指定值，然后將這些學(xué)習(xí)器進(jìn)行加權(quán)求和，正確率越高的弱學(xué)習(xí)器獲得的權(quán)重越大。

圖3 Xgboost結(jié)構(gòu)

此模型利用交叉驗(yàn)證和網(wǎng)格搜索方法調(diào)節(jié)超參數(shù)，最終選出的最優(yōu)網(wǎng)絡(luò)參數(shù)。其中模型懲罰力度值（gamma）是0.1，模型的學(xué)習(xí)率（learning_rate）是0.2，每棵樹(shù)的最大深度（max_depth）是3，弱分類器的個(gè)數(shù)（estimators）是28，此模型弱分類器采用決策樹(shù)，正則化方程的超參數(shù)（lambda）是 1。

本項(xiàng)目的Xgboost模型共采用了28個(gè)弱分類器集成，每增加一個(gè)分類器都朝著優(yōu)化模型損失函數(shù)方向前進(jìn)，模型效果如圖4所示，橫坐標(biāo)是分類器個(gè)數(shù)，縱坐標(biāo)是模型的損失函數(shù)，從圖中可以看出，隨著分類器的增加模型的損失函數(shù)逐漸減少。

圖4 Xgboost模型損失值

2 結(jié)果

訓(xùn)練數(shù)據(jù)訓(xùn)練完模型后，再利用測(cè)試數(shù)據(jù)測(cè)試模型性能，此項(xiàng)目的三個(gè)模型經(jīng)過(guò)測(cè)試集測(cè)試的結(jié)果如表1所示，其中precision是查準(zhǔn)率（P），即分類正確的比例，P=真正例/（真正例+假正例）；recall是召回率（R），即類別被正確選出來(lái)的比例R=真正例/（真正例+假反例）；F1-score是P和R的一種調(diào)和平均，F(xiàn)1=2*P*R/（P+R）；support是樣本個(gè)數(shù)，根據(jù)三個(gè)模型的結(jié)果性能指標(biāo)可以看出隨機(jī)森林模型和Xgboost模型的效果明顯好于決策樹(shù)模型的效果。根據(jù)統(tǒng)計(jì)，本項(xiàng)目的集成學(xué)習(xí)模型分類準(zhǔn)確率平均值為0.965853，AUC指標(biāo)均值為0.967601；而傳統(tǒng)的決策樹(shù)模型的分類準(zhǔn)確率為0.921951，AUC值只有0.907999。根據(jù)實(shí)驗(yàn)數(shù)據(jù)和統(tǒng)計(jì)值對(duì)比，乳腺癌的二分類問(wèn)題中集成學(xué)習(xí)效果明顯由于傳統(tǒng)機(jī)器學(xué)習(xí)算法。

ROC(Receiver Operating Characteristic)曲線的縱坐標(biāo)是模型的真正例率(True Positive Rate，TPR)，橫坐標(biāo)是模型的假正例率（False Positive Rate，F(xiàn)PR），AUC是ROC曲線下與坐標(biāo)軸圍成的面積，取值在0.5到1之間，值越大模型效果越好，模型的ROC曲線和AUC面積如圖5～7所示。

表1 模型結(jié)果

圖6 隨機(jī)森林的ROC曲線圖

圖7 Xgboost的ROC曲線圖

從三個(gè)模型的ROC曲線可以看出集成學(xué)習(xí)的分類效果明顯由于隨機(jī)森林算法，尤其是模型的AUC值，均到達(dá)了99.7%以上，具有很高的分類效果。

3 討論

本項(xiàng)目利用集成學(xué)習(xí)的隨機(jī)森林和Xgboost模型對(duì)乳腺癌診斷做出分類預(yù)測(cè)模型，模型訓(xùn)練過(guò)程中利用了交叉驗(yàn)證和網(wǎng)格搜索等方法提高模型準(zhǔn)確率的同時(shí)防止模型過(guò)擬合，增強(qiáng)模型泛化能力，并和傳統(tǒng)的機(jī)器學(xué)習(xí)算法決策樹(shù)模型進(jìn)行了對(duì)比。根據(jù)實(shí)驗(yàn)結(jié)果可以看出集成學(xué)習(xí)模型對(duì)乳腺癌的分類效果非常好，模型準(zhǔn)確度很高，而且各項(xiàng)指標(biāo)都優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。

目前，威脅人類身體健康的主要疾病是癌癥，而乳腺癌又是女性疾病的頭號(hào)殺手，所以提高乳腺癌診斷準(zhǔn)確率的研究具有現(xiàn)實(shí)意義；利用人工智能技術(shù)提高醫(yī)療診斷服務(wù)是目前的研究熱點(diǎn)，將傳統(tǒng)的機(jī)器學(xué)習(xí)算法應(yīng)用于臨床輔助診斷效果并不明顯，所以將具有高分類能力的集成學(xué)習(xí)算法與醫(yī)療診斷技術(shù)相結(jié)合的技術(shù)研究很有必要；通過(guò)本項(xiàng)目實(shí)踐研究得出，集成學(xué)習(xí)對(duì)乳腺癌的良惡性分類效果很好，且分類能力超過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)算法的分類能力，所以將集成學(xué)習(xí)算法應(yīng)用于醫(yī)療診斷服務(wù)的研究具有實(shí)踐價(jià)值。可以將集成學(xué)習(xí)與醫(yī)療診斷服務(wù)領(lǐng)域交叉，深入研究并應(yīng)用于實(shí)際醫(yī)療臨床，不僅可以提高診斷效率，還可以減少實(shí)際診斷的誤診與漏診現(xiàn)象，使患者及早診斷及早治療，提高患者存活率，提高我國(guó)醫(yī)療服務(wù)水平。