999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SEER數(shù)據(jù)庫(kù)的結(jié)直腸癌預(yù)后因素探討及預(yù)后模型構(gòu)建

2017-03-21 08:44:00,,2
關(guān)鍵詞:特征方法模型

,,2

結(jié)直腸癌包括結(jié)腸癌和直腸癌,是胃腸道中常見(jiàn)的惡性腫瘤。在2015年中國(guó)癌癥統(tǒng)計(jì)和2017年美國(guó)癌癥統(tǒng)計(jì)中,結(jié)直腸癌的發(fā)病率和死亡率在所有惡性腫瘤中均處在前5位[1-2]。根據(jù)美國(guó)SEER(Surveillance,Epidemiology and End Results)數(shù)據(jù)庫(kù)的最新統(tǒng)計(jì)顯示,結(jié)直腸癌患者5年生存率僅為64.5%,中國(guó)結(jié)直腸癌患者5年生存率比美國(guó)和歐洲更低[3]。因此,建立結(jié)直腸癌預(yù)后模型,對(duì)制定臨床決策和改善結(jié)直腸癌預(yù)后具有重要意義。

近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,越來(lái)越多的機(jī)器學(xué)習(xí)方法應(yīng)用于醫(yī)學(xué)模型的構(gòu)建當(dāng)。如2015年Kang J等[4]探討了邏輯回歸、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等3種方法在預(yù)測(cè)放射治療結(jié)果中的應(yīng)用,Bunjira Makond等[5]應(yīng)用貝葉斯網(wǎng)絡(luò)方法對(duì)肺癌腦轉(zhuǎn)移患者的短期生存能力進(jìn)行預(yù)測(cè),2016年Su Jili等[6]應(yīng)用支持向量機(jī)和基因函數(shù)聚類(lèi)構(gòu)建喉癌復(fù)發(fā)模型,曹文哲[7]基于3種機(jī)器學(xué)習(xí)算法建立了前列腺癌診斷模型。在預(yù)后模型構(gòu)建過(guò)程中,特征選擇是非常重要的一步,也通常被視作數(shù)據(jù)挖掘的第一步。通過(guò)特征選擇可以去除大量冗余信息和不相關(guān)特征的干擾,降低分析成本,提高準(zhǔn)確率,提升模型性能[8]。因此,本文應(yīng)用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)分類(lèi)算法,通過(guò)3種不同的變量篩選方法進(jìn)行特征選擇,分別建立結(jié)直腸癌預(yù)后模型,并進(jìn)行進(jìn)一步的比較分析。

1 三種特征選擇方法簡(jiǎn)述

1.1 Logistic回歸

Logistic回歸中自變量選擇的常用方法為逐步選擇法。該法按照選入變量的順序不同分為前進(jìn)法(forward selection)、后退法(backward elimination)和逐步回歸法(stepwise regression),其共同特點(diǎn)是每一步只引入或剔除一個(gè)自變量Xj,決定其取舍則基于對(duì)偏回歸平方和的F檢驗(yàn),即

(1)

1.2 貝葉斯模型平均法

在標(biāo)準(zhǔn)統(tǒng)計(jì)研究中,數(shù)據(jù)分析者通常從某些類(lèi)別的諸多模型中選擇一個(gè)模型,然后進(jìn)行實(shí)驗(yàn)研究。這種模型選擇方法忽略了模型的不確定性,會(huì)導(dǎo)致過(guò)度的推論和決定[10]。同樣,如果只是針對(duì)一種或者少數(shù)幾種模型進(jìn)行特征選擇,結(jié)果也是不準(zhǔn)確的。而貝葉斯模型平均法(Bayesian Model Averaging,BMA)則彌補(bǔ)了這一不足,通過(guò)the fast leaps和bounds算法可遍歷模型空間中的每一個(gè)模型[11]。

假設(shè)研究感興趣的變量為Δ,可能存在的所有模型為M={M1,M2,…,MK}(如果有p個(gè)自變量,即特征變量,那么可能存在的模型將會(huì)達(dá)到2p個(gè))。在給定數(shù)據(jù)集D的情況下,Δ的后驗(yàn)分布為:

(2)

式(2)中,Mk后驗(yàn)?zāi)P透怕蕿椋?/p>

(3)

公式(3)中,p(D|Mk)是模型Mk的邊際似然概率,可由公式(4)得出:

(4)

公式(4)中,θk是模型Mk的所有參數(shù)向量。

由公式(2)、公式(3)、公式(4)可以得出Δ的后驗(yàn)分布,從而可以選擇最優(yōu)模型及其所包含的特征向量。

1.3 LASSO回歸

(5)

公式(5)中,參數(shù)λ表示LASSO回歸模型的復(fù)雜度,λ越大則懲罰力度越大,納入模型的變量越少。LASSO回歸克服了logistic回歸逐步選擇法的局限,并且保留了嶺回歸和子集回歸的優(yōu)點(diǎn)[12]。

2 模型構(gòu)建

2.1 數(shù)據(jù)收集與預(yù)處理

從SEER數(shù)據(jù)庫(kù)的Custom Data中提取被確診為結(jié)直腸癌的患者信息。納入標(biāo)準(zhǔn)為:腫瘤部位為結(jié)直腸且不含闌尾,確診年份為2004-2009年;排除標(biāo)準(zhǔn)為:原位癌,信息缺失記錄。最終共納入65 145名患者信息,涉及24個(gè)預(yù)后變量。變量的詳細(xì)信息見(jiàn)表1。

24個(gè)預(yù)后變量中有19個(gè)為分類(lèi)型變量、5個(gè)為連續(xù)型變量。其中,19個(gè)分類(lèi)型變量又包括6個(gè)二分類(lèi)變量(性別、遠(yuǎn)處轉(zhuǎn)移情況、淋巴結(jié)移除情況、是否化療、是否為首要惡性腫瘤、機(jī)構(gòu)類(lèi)型)、有序多分類(lèi)變量2個(gè)(腫瘤分期、組織分級(jí))、11個(gè)無(wú)序多分類(lèi)變量(種族、居住地、發(fā)病部位、病理類(lèi)型、浸潤(rùn)程度、淋巴受累程度、手術(shù)類(lèi)型、放療順序、放療類(lèi)型、婚姻狀況、保險(xiǎn)情況)。為避免因啞變量過(guò)多造成自由度變高而引發(fā)維數(shù)災(zāi)難以及變量的多重共線(xiàn)性等問(wèn)題,在保證結(jié)果準(zhǔn)確度的情況下,二分類(lèi)變量和有序多分類(lèi)變量無(wú)須設(shè)置啞變量,只對(duì)11個(gè)無(wú)序多分類(lèi)變量設(shè)置啞變量即可。

表1 結(jié)直腸癌預(yù)后變量信息

模型的結(jié)局變量為生存狀態(tài)(survive),將生存期大于等于60個(gè)月的患者視為生存(編碼為1),不足60個(gè)月的患者視為死亡(編碼為0)。其中,生存人數(shù)與死亡人數(shù)的比值為36841∶28304,比值接近1∶1,可視為平衡數(shù)據(jù)。

2.2 特征變量篩選

將數(shù)據(jù)集按7:3分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集內(nèi)分別用logistic回歸、BMA和LASSO回歸3種方法對(duì)特征變量進(jìn)行篩選。

2.2.1 logistic篩選回歸特征變量

本文設(shè)定了α=0.05,作為L(zhǎng)ogistic回歸逐步選擇法的納入標(biāo)準(zhǔn),一共納入種族、性別、年齡、居住地、組織分級(jí)、病理類(lèi)型、浸潤(rùn)程度、淋巴受累程度、遠(yuǎn)處轉(zhuǎn)移情況、受檢淋巴結(jié)數(shù)量、陽(yáng)性淋巴結(jié)數(shù)量、手術(shù)類(lèi)型、淋巴結(jié)移除情況、是否化療、是否為首要惡性腫瘤、腫瘤個(gè)數(shù)、婚姻狀況和保險(xiǎn)情況等18個(gè)特征變量。

Logistic回歸、BMA、LASSO回歸的結(jié)果信息見(jiàn)表2。

表2 Logistic回歸、BMA、LASSO回歸結(jié)果信息

2.2.2 采用貝葉斯模型平均法篩選特征變量

貝葉斯模型平均法可遍歷模型空間中的每一個(gè)模型。本文共有24個(gè)特征變量,可能存在的模型個(gè)數(shù)將達(dá)到16 777 216個(gè)。因此,選取后驗(yàn)概率最高的Model1作為最佳模型,Model1內(nèi)共包含16個(gè)特征變量:種族、性別、年齡、居住地、組織分級(jí)、浸潤(rùn)程度、淋巴受累程度、遠(yuǎn)處轉(zhuǎn)移情況、受檢淋巴結(jié)數(shù)量、陽(yáng)性淋巴結(jié)數(shù)量、手術(shù)類(lèi)型、淋巴結(jié)移除情況、是否化療、是否為首要惡性腫瘤、婚姻狀況和保險(xiǎn)情況。

為便于理解Model1,對(duì)其進(jìn)行可視化(圖1)。圖1中每一行對(duì)應(yīng)一個(gè)變量(啞變量),每一列對(duì)應(yīng)一個(gè)模型(本文只納入了后驗(yàn)概率最高的model1),紅色矩形對(duì)應(yīng)的變量(啞變量)與結(jié)局變量呈正相關(guān),藍(lán)色矩形對(duì)應(yīng)的變量(啞變量)與結(jié)局變量呈負(fù)相關(guān),白色矩形對(duì)應(yīng)的變量(啞變量)未被納入對(duì)應(yīng)的模型中。

圖1 BMA可視化

2.2.3 采用LASSO篩選回歸特征變量

構(gòu)建模型之前需要對(duì)自變量進(jìn)行進(jìn)一步的矩陣化處理,并設(shè)定響應(yīng)變量為二分類(lèi)變量。結(jié)果見(jiàn)圖2。圖中每一條線(xiàn)代表一個(gè)變量(啞變量),左側(cè)坐標(biāo)軸為變量(啞變量)的系數(shù),上側(cè)坐標(biāo)軸為變量(啞變量)個(gè)數(shù),底部坐標(biāo)軸為參數(shù)λ的對(duì)數(shù)值。

由圖2可知,λ作為L(zhǎng)ASSO回歸中一個(gè)非常重要的參數(shù),可以調(diào)節(jié)模型內(nèi)自變量的數(shù)目,因此確定一個(gè)最優(yōu)的λ值極為重要。本文通過(guò)十折交叉驗(yàn)證方法確定的最優(yōu)λ值見(jiàn)圖3。

圖2 LASSO回歸

圖3 十折交叉驗(yàn)證

由圖3可以看出,不同的λ值(對(duì)數(shù)值)對(duì)應(yīng)著不同的自變量數(shù)目和模型誤差。

最優(yōu)的λ值(對(duì)數(shù)值)應(yīng)該對(duì)應(yīng)最低的模型誤差,即紅色曲線(xiàn)的最低點(diǎn),這時(shí)可以得到最優(yōu)λ值為0.0003656017。模型共納入48個(gè)變量(啞變量),對(duì)應(yīng)圖3左側(cè)的虛線(xiàn)。

此外,該算法還提供了在其一倍標(biāo)準(zhǔn)誤內(nèi)更簡(jiǎn)潔的模型,即圖3中右側(cè)的虛線(xiàn)所對(duì)應(yīng)的模型,并且兩個(gè)λ值對(duì)應(yīng)的模型誤差變化不大。因此最終選取λ值為0.004106892,這時(shí)共納入30個(gè)變量(啞變量)。

30個(gè)變量(啞變量)可對(duì)應(yīng)為19個(gè)特征變量:種族、性別、年齡、居住地、腫瘤分期、發(fā)病部位、組織分級(jí)、病理類(lèi)型、浸潤(rùn)程度、遠(yuǎn)處轉(zhuǎn)移情況、受檢淋巴結(jié)數(shù)量、陽(yáng)性淋巴結(jié)數(shù)量、手術(shù)類(lèi)型、淋巴結(jié)移除情況、是否化療、是否為首要惡性腫瘤、腫瘤個(gè)數(shù)、婚姻狀況和保險(xiǎn)情況。

2.2.4 特征變量系數(shù)

Logistic逐步回歸法、貝葉斯模型平均法和LASSO回歸3種特征變量篩選方法的共同變量(啞變量)的系數(shù)見(jiàn)表3。

2.3 模型構(gòu)建

基于3種不同的特征變量篩選方法,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)分類(lèi)算法建立了3個(gè)預(yù)后模型,分別為logit_ANN、bma_ANN、lasso_ANN。此外,還構(gòu)建了未進(jìn)行特征選擇的原始數(shù)據(jù)集基線(xiàn)模型(ANN)。上述各個(gè)模型的參數(shù)均相同。同時(shí)通過(guò)準(zhǔn)確率、ROC曲線(xiàn)下面積等指標(biāo)對(duì)模型性進(jìn)行評(píng)價(jià)的詳細(xì)結(jié)果見(jiàn)表4,ROC曲線(xiàn)見(jiàn)圖4。

表3 特征變量系數(shù)

表4 各分類(lèi)器性能比較

圖4 ROC曲線(xiàn)

由表4可知,bma_ANN模型的性能最好。進(jìn)一步優(yōu)化bma_ANN模型,設(shè)定隱藏層個(gè)數(shù)為5,初始隨機(jī)數(shù)權(quán)值為0.1,權(quán)值衰減參數(shù)為5e-4,最大迭代次數(shù)為200,可得到表4中的bma_op_ANN模型。

3 結(jié)果分析

3.1 結(jié)直腸癌預(yù)后相關(guān)因素的篩選

Logistic逐步回歸、貝葉斯模型平均法和LASSO回歸3種方法篩選出的預(yù)后影響因素各不相同,相同預(yù)后影響因素共有15個(gè):種族、性別、年齡、居住地、組織分級(jí)、浸潤(rùn)程度、遠(yuǎn)處轉(zhuǎn)移情況、受檢淋巴結(jié)數(shù)量、陽(yáng)性淋巴結(jié)數(shù)量、手術(shù)類(lèi)型、淋巴轉(zhuǎn)移情況、是否化療、是否為惡性腫瘤、婚姻狀況和保險(xiǎn)情況。上述15個(gè)因素被3種特征選擇方法均納入模型中,說(shuō)明這些因素很大程度上會(huì)影響結(jié)直腸癌的預(yù)后,是決定結(jié)直腸癌患者5年生存狀態(tài)的關(guān)鍵因素。3種特征選擇方法均排除的變量有4個(gè):腫瘤大小、放療順序、放療類(lèi)型和機(jī)構(gòu)類(lèi)型,說(shuō)明腫瘤的大小、放療與手術(shù)的先后順序、采取何種放療方法以及患者的就診機(jī)構(gòu)對(duì)結(jié)直腸癌患者5年生存狀態(tài)的影響甚微,作用幾乎可以忽略。剩余的腫瘤分期、發(fā)病部位、淋巴受累程度、病理類(lèi)型和腫瘤個(gè)數(shù)等5個(gè)特征變量因變量篩選方法的不同而被納入不同的模型。

通過(guò)表3進(jìn)一步研究特征變量對(duì)結(jié)局變量的作用方向。由表3可知,雖然3種特征變量篩選方法所篩出的共同變量(啞變量)在各自模型內(nèi)的系數(shù)互不相同,但是同一變量(啞變量)在3種篩選方法內(nèi)的系數(shù)的正負(fù)情況卻基本一致(除啞變量extension2外)。系數(shù)為正值的變量(啞變量)與結(jié)直腸癌患者5年生存狀態(tài)呈正相關(guān)關(guān)系,系數(shù)為負(fù)值的變量(啞變量)與其呈負(fù)相關(guān)關(guān)系(這種關(guān)系闡釋多用于連續(xù)型變量和有序分類(lèi)型變量)。由此可以區(qū)分預(yù)后危險(xiǎn)因素和預(yù)后保護(hù)因素。變量age屬于預(yù)后危險(xiǎn)因素,說(shuō)明年齡越大患者5年生存概率越小;而變量scope則屬于預(yù)后保護(hù)因素,說(shuō)明一定程度上移除淋巴結(jié)數(shù)量的增多有利于改善患者的5年生存狀態(tài)。

3.2 特征變量選擇方法與模型性能的關(guān)系

根據(jù)表2和表4可知,ANN、logit_ANN、bma_ANN和lasso_ANN模型納入的特征變量的個(gè)數(shù)分別為24個(gè)、18個(gè)、16個(gè)和19個(gè),4個(gè)模型對(duì)應(yīng)的準(zhǔn)確率分別為70.78%、66.45%、72.96%和72.88%。特征變量個(gè)數(shù)排名為ANN>lasso_ANN>logit_ANN>bma_ANN,而準(zhǔn)確率排名為bma_ANN>lasso_ANN>ANN> logit_ANN。因此,模型準(zhǔn)確率與其納入的特征變量個(gè)數(shù)并無(wú)直接關(guān)系,并不是特征變量越多越全,就可以得到很高的模型準(zhǔn)確率。此外,不考慮數(shù)據(jù)集的類(lèi)型以及建模所用方法的特點(diǎn),直接對(duì)數(shù)據(jù)集進(jìn)行Logistic回歸并通過(guò)逐步選擇篩選特征變量的做法并不可取。針對(duì)本文所用的結(jié)直腸癌患者預(yù)后信息數(shù)據(jù)集,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建預(yù)后模型,Logistic逐步回歸法反而導(dǎo)致了基線(xiàn)模型準(zhǔn)確率的下降,而另外兩種變量篩選方法則對(duì)基線(xiàn)模型的準(zhǔn)確率有一定的提升。所以,應(yīng)該根據(jù)不同的數(shù)據(jù)類(lèi)型、建模方法和研究目的,選擇更為合適的特征變量篩選方法,而不是不考慮實(shí)際情況,貿(mào)然使用最為常見(jiàn)的Logistic逐步回歸法。

3.3 提升預(yù)后模型準(zhǔn)確率的意義

基線(xiàn)模型的準(zhǔn)確率為70.78%,最后獲得的最優(yōu)模型bma_op_ANN的準(zhǔn)確率為73.18%。從數(shù)值上看,準(zhǔn)確率只提升了2.4%,但是鑒于醫(yī)學(xué)數(shù)據(jù)的復(fù)雜性且基數(shù)龐大,提升2.4%具有一定的實(shí)際意義。基線(xiàn)模型預(yù)測(cè)正確的例數(shù)為15 820例,而bma_op_ANN模型預(yù)測(cè)正確的例數(shù)為15 890例,多出70位患者的5年生存狀態(tài)被正確預(yù)測(cè),可節(jié)約大量的醫(yī)療資源。我國(guó)結(jié)直腸癌每年新發(fā)病例高達(dá)30萬(wàn),并且每年增加4%[13]。因此,在實(shí)際應(yīng)用中,結(jié)直腸癌預(yù)后模型準(zhǔn)確率每提升1%,就相當(dāng)于多成功預(yù)測(cè)3 000名結(jié)直腸癌患者的5年生存狀態(tài),對(duì)節(jié)省醫(yī)療開(kāi)支和促進(jìn)醫(yī)療資源的合理利用有一定的積極作用。

4 結(jié)語(yǔ)

本文詳細(xì)闡述了3種特征變量篩選方法的原理與特點(diǎn),通過(guò)其篩出的變量探討了影響結(jié)直腸癌預(yù)后的相關(guān)因素,并根據(jù)其所構(gòu)建模型效能的不同對(duì)3種方法進(jìn)行了進(jìn)一步的比較分析,最終選擇表現(xiàn)最佳的貝葉斯模型平均法進(jìn)行變量篩選,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)分類(lèi)算法構(gòu)建的結(jié)直腸癌患者預(yù)后模型,可為醫(yī)生制定臨床決策提供輔助支持。

猜你喜歡
特征方法模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 精品视频福利| 亚洲AⅤ无码国产精品| 国产大片黄在线观看| 国产在线精品99一区不卡| 欧美成人怡春院在线激情| 精品成人免费自拍视频| 嫩草在线视频| 日韩麻豆小视频| 国产伦片中文免费观看| 97国内精品久久久久不卡| 四虎亚洲国产成人久久精品| 精品国产aⅴ一区二区三区 | 欧美黄色a| 国产精品视频免费网站| 欧美一级高清视频在线播放| 精品一区二区三区视频免费观看| 成人在线视频一区| 五月天在线网站| 亚洲人成网站日本片| 在线观看免费黄色网址| 996免费视频国产在线播放| 国产香蕉97碰碰视频VA碰碰看| 日本精品αv中文字幕| 国产杨幂丝袜av在线播放| 激情国产精品一区| 亚洲国产成熟视频在线多多| 啦啦啦网站在线观看a毛片| 亚洲成人在线免费| 欧美三级日韩三级| V一区无码内射国产| 一级毛片免费高清视频| 五月天综合婷婷| 国产理论一区| 成人午夜视频在线| 午夜a级毛片| 亚洲日韩图片专区第1页| 一级一级一片免费| 日本精品影院| 成人国内精品久久久久影院| 啊嗯不日本网站| 精品亚洲欧美中文字幕在线看| 精品国产aⅴ一区二区三区| 国模在线视频一区二区三区| 色噜噜狠狠色综合网图区| 全部免费特黄特色大片视频| 日本免费a视频| 91综合色区亚洲熟妇p| 亚洲精品中文字幕无乱码| 一本色道久久88亚洲综合| 米奇精品一区二区三区| 久草中文网| 青青网在线国产| 97视频在线观看免费视频| 日韩视频免费| av无码久久精品| 亚洲乱码在线播放| 国产在线无码一区二区三区| 亚洲区视频在线观看| 亚洲成肉网| 黄色网址免费在线| 亚洲色图欧美激情| 欧美黄网在线| 91色爱欧美精品www| 666精品国产精品亚洲| 波多野吉衣一区二区三区av| 国产福利影院在线观看| 色婷婷色丁香| 97国产在线播放| 亚洲最大看欧美片网站地址| 午夜日本永久乱码免费播放片| 欧美三级视频在线播放| 99视频免费观看| 狠狠v日韩v欧美v| 亚洲午夜18| 欧美日韩国产在线人| 亚洲大学生视频在线播放| 国产91久久久久久| 国产黄在线观看| 亚洲va欧美va国产综合下载| 夜夜拍夜夜爽| 五月天丁香婷婷综合久久| 久久国产成人精品国产成人亚洲|