999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于加權隨機森林的三陰性乳腺癌microRNA組學數據的分類預測*

2021-01-09 07:04:08郭志飛王碧玨楊海濤王菊平曹紅艷周立業
中國衛生統計 2020年6期
關鍵詞:乳腺癌分類模型

郭志飛 王碧玨 楊海濤 李 治 王菊平 曹紅艷,6△ 周立業△

【提 要】 目的 基于microRNA組學數據,探討加權隨機森林在三陰性乳腺癌分類預測中的應用,為疾病診斷提供方法學支撐。方法 以TCGA乳腺癌數據為例,采用加權隨機森林構建三陰性乳腺癌的分類預測模型,并與隨機森林、logistic回歸、支持向量機、LASSO和嶺回歸五種模型進行比較。結果 通過比較六種模型的5個評價指標,加權隨機森林模型的預測性能明顯優于其他五種模型,加權隨機森林模型的靈敏度為0.852、特異度為0.873、準確度為0.871、AUC值為0.862和G-means值為0.861。結論 加權隨機森林構建的分類預測模型較好地識別了三陰性乳腺癌患者,可為三陰性乳腺癌的診斷提供方法學上的參考。

乳腺癌是全球發病率僅次于肺癌的第二大癌癥,是45~55歲女性死亡的主要原因,嚴重危害女性的健康和生命[1]。三陰性乳腺癌(triple negative breast cancer,TNBC)是乳腺癌的一種亞型,占乳腺癌的15% ~ 23.8%[2-3]。與非 TNBC相比,TNBC具有侵襲性強、惡性程度高、五年生存率低、預后差等特點[3-4]。目前對于TNBC的診斷大多是從影像學上進行判斷,其中,核磁共振成像是診斷TNBC最精確的影像檢查技術,診斷符合率高達98.28%,但其存在檢查費用昂貴、耗時長的問題;X線攝影作為乳腺首選的影像學檢查方法,容易漏診和誤診,尤其對40歲以下患者的診斷準確性欠佳,且輻射較大,對孕婦等特殊人群不太適用[3,5-6]。因此,如何實現低成本、檢測快、無副作用的TNBC患者的分類預測非常重要。

近年來,大量研究證實microRNA(miRNA)與乳腺癌等疾病的發生、發展密切相關,其在疾病診斷中有較高的應用價值[7-8]。由于TNBC占乳腺癌的20%左右,在構建TNBC分類預測模型時存在類別不平衡的問題。傳統的機器學習算法在處理類別不平衡數據時,更關注于多數類的識別,對少數類的預測精度偏低[9]。代價敏感性學習方法結合不平衡數據的特點引入類權重概念,對傳統分類算法進行改進,提高了不平衡數據的整體分類性能[10]。

因此,本文針對TCGA(The Cancer Genome Atlas)乳腺癌數據,采用基于代價敏感性學習思想的加權隨機森林(weighted random forest,WRF),構建三陰性乳腺癌的分類預測模型。同時,將加權隨機森林與隨機森林、logistic回歸、支持向量機、LASSO和嶺回歸五種方法進行比較,為識別TNBC患者提供輔助意見。

資料與方法

1.資料來源

使用TCGA-Assembler軟件在TCGA網站下載乳腺癌數據[11-12],從中選取包含臨床和miRNA組學數據的女性患者共740例,其中TNBC患者81例,non-TNBC患者659例。

2.研究方法

(1)變量篩選

miRNA有1871個變量,刪除零表達值所占比例≥20%的變量后,剩余811個變量。為了降低預測變量中的冗余信息,篩選出與結局相關的變量,故在構建模型前需進行變量篩選。Fan J等人[13]提出了確定獨立篩選(sure independence screening,SIS),該方法根據預測變量與反應變量的邊際相關程度篩選出邊際相關強的變量。SIS可以快速有效地降低數據維度,篩選出重要變量,從而提高預測性能。因此,本文使用SIS對變量進行篩選,最終得到了67個變量。

(2)嶺回歸、LASSO和支持向量機

嶺回歸和LASSO是通過對系數進行約束或加罰來擬合模型的兩種方法[14-15]。二者都是將系數的估計值往0的方向進行壓縮。但LASSO可以將某些系數的估計值強制壓縮為0,使所得模型更易解釋。

支持向量機(support vector machine,SVM)通過非線性映射函數將低維輸入空間映射到高維特征空間中,并在特征空間構造判別函數對樣品進行分類[16]。

(3)隨機森林

隨機森林(random forest,RF)通過bootstrap重采樣技術,從乳腺癌原始數據中有放回地抽取n個樣本生成n棵分類樹,這n棵分類樹最終組成隨機森林,新數據的分類預測結果由分類樹投票決定[17-18]。

新數據的分類預測結果可用公式(1)表示:

(1)

其中,hi是單棵分類樹的基礎分類模型,Y是輸出變量(TNBC和non-TNBC),I(·)表示示性函數。

(4)加權隨機森林

在處理類別不平衡數據時,RF以錯誤率最小化為目標,傾向于將樣本劃分為多數類,導致其對少數類的預測精度偏低。因此,基于代價敏感性學習的思想,Chao C等人[19]提出了加權隨機森林的方法來解決上述問題。在二分類數據中,分布較大的稱為多數類,其他稱為少數類。兩個類別都有各自的權重,WRF給予少數類較大的權重,多數類較小的權重[20]。在設置不平衡數據權重時,將少數類的權重設置為2或3較合適[21]。

WRF在引入類權重后,選擇劃分屬性的基尼指數會發生改變:

(2)

Δi=i(N)-i(NL)-i(NR)

(3)

其中,N是根節點,NL和NR是左右兩個子節點,Wj是第j類的權重,nj是第j類的樣本量,Δi是節點降低的不純度。在構建分類樹時,通常選擇節點基尼指數最小的屬性為最優劃分屬性。

類權重也會影響每棵分類樹的終端節點。隨機森林每個終端節點的最終預測結果是通過綜合考慮每棵分類樹的加權投票(案例數×每個類的指定權重)來確定的。

(4)

WRF有三個重要的參數:類權重classwt的大小;每個節點隨機選擇特征的數目mtry;樹的棵樹ntree。經驗證,這三個參數分別設置為classwt=1∶2,mtry=3,ntree=400時,WRF模型的預測性能最佳。

(5)模型構建與比較

采用分層抽樣,從TNBC和non-TNBC樣本中分別抽取70%樣本作為訓練集,用于構建模型。將剩余的30%樣本作為測試集,用于評價模型的預測性能。將變量篩選后得到的67個預測變量作為輸入變量,將是否為TNBC作為結局變量,將WRF、RF、logistic回歸、SVM、LASSO和嶺回歸這六種方法在同一訓練集上構建分類預測模型,并利用測試集數據進行預測,通過靈敏度(Se)、特異度(Sp)、準確度(ACC)、受試者工作特征曲線下的面積(AUC)和G-means五個指標對模型的性能進行評價。為了保證預測結果的穩定性,抽樣和模型構建過程重復500次。

從研究結果可以看出,無論是語際錯誤,還是語內錯誤中的詞匯錯誤與句法錯誤,知識能力的不足都是其根本原因。

(6)統計方法實現

支持向量機選擇的核函數為高斯核函數,其帶寬使用默認值。logistic回歸是一個概率預測模型,概率大于0.5為患病,小于等于0.5為未患病。統計分析采用R軟件,screening包用于變量篩選,e1071包用于構建支持向量機模型,glmnet包用于構建LASSO和嶺回歸模型,randomForest包用于構建隨機森林和加權隨機森林模型。

結 果

1.研究對象的基本特征

本次研究共納入740例樣本,其中TNBC患者81例,占10.95%,non-TNBC患者659例,占89.05%;平均年齡為(58.16±13.18)歲,45~54歲年齡段的人數居多,占29.46%;生存狀態中生存人數675人,占91.22%,死亡人數65人,占8.78%;臨床分期共4個階段,其中處于Ⅰ~Ⅱ階段的人數居多,占75.14%。詳見表1。

表1 一般人口學資料

2.參數選擇

(1)加權隨機森林classwt的設置

WRF不設類權重,即類權重設置為1∶1時,分類效果并不理想(Se=0.305,Sp=0.973)。我們將類權重分別設置為1∶2、1∶3、1∶4和1∶5,并在測試數據集上進行驗證,不同類權重構建的各模型預測性能結果如表2所示。

(2)加權隨機森林mtry的選擇

在構建WRF模型時,ntree設定為默認值(ntree=500),逐漸增加變量建模,比較模型袋外數據的錯誤率均值。由圖1可以看出,特征數目為3時,模型的錯誤率最低。為進一步通過綜合評價指標AUC和G-means來評價模型的性能,故將mtry分別設置為2、3、4、5、6、7、8、9和10,并在測試數據集上進行驗證,不同特征數目時各模型的預測性能結果如表3所示。

圖1 模型錯誤率均值隨選擇特征數目變化曲線圖

表2 不同權重構建的加權隨機森林模型的預測性能比較

表3 不同特征數目的加權隨機森林模型的預測性能比較

從表3中可以看出,隨著mtry的逐漸增加,模型的靈敏度逐漸降低,特異度逐漸增加。當mtry取值為3時,模型的AUC和G-means最優,因此模型的參數mtry設定為3。

(3)加權隨機森林ntree的選擇

將參數ntree分別設置為200、400、500、600、800和1000,并在測試數據集上進行驗證,對不同樹棵數的加權隨機森林模型進行預測性能的比較,各模型的預測性能如表4所示。

表4 不同樹棵數的加權隨機森林模型的預測性能比較

從表4中可以看出,五個不同參數模型的分類效果相差不大,當ntree≥400時,各個加權隨機森林模型的各項評價指標均趨于平穩,因此模型的參數ntree設定為400。

(4)模型性能總結

表5展示了重復抽樣500次,六種機器學習方法的5個評價指標的結果。五種模型(RF、logistic回歸、SVM、LASSO和嶺回歸)的ACC值均高于0.87,Sp值均高于0.92,都偏向于識別non-TNBC樣本。但這五個模型的Se都較低,分別為0.309、0.466、0.012、0.122、0.105,可以看出傳統的機器學習方法對少數類(TNBC患者)的識別能力較差。

從表5RF和WRF的評價指標可得,WRF在Se、AUC和G-means指標上均明顯優于RF。尤其在Se指標上,WRF比RF高出了0.543,可見在分析不平衡數據時WRF能夠有效地識別少數類患者。

根據綜合指標AUC值和G-means值來看,WRF的分類預測性能最好,其AUC值為0.862、G-means值為0.861,其余各指標的值參見表5。綜上,WRF在多個指標上明顯優于其他五種方法,可幫助臨床醫生識別TNBC患者。

表5 六種機器學習方法在三陰性乳腺癌預測中的結果比較

討 論

構建TNBC的分類預測模型時,大多是利用圖像特征來構建分類預測模型。Wu T等人[22]利用超聲圖像特征構建了logistic回歸模型,其靈敏度和特異度分別為0.869 和0.829。Wang J等人[23]在提取核磁共振圖像的特征后,使用支持向量機構建了TNBC的分類預測模型,模型的靈敏度和特異度分別為0.570和0.947。然而,通過提取圖像特征構建的模型靈敏度或特異度較低,使就診患者存在較高的被誤診或漏診的可能性,在用于輔助臨床診斷時尚不能讓人滿意。

miRNA與人類多種疾病密切相關,其對疾病分類預測有重要的臨床意義。蔡莉等人[24]使用miRNA識別多發性骨髓瘤患者時,靈敏度達0.86。張杰銘等人[25]發現循環miRNA在鼻咽癌患者的診斷中有重要的潛在價值,模型AUC值高達0.91。本研究對乳腺癌數據進行了挖掘,探索了miRNA在篩檢TNBC患者中的臨床意義,發現使用miRNA數據對TNBC進行預測時效果良好,提示miRNA在TNBC分類預測中有潛在的生物學價值。

針對傳統機器學習在處理類別不平衡數據時不能有效識別少數類的問題,本研究在建模時運用了基于代價敏感性學習思想的WRF方法,其構建的模型有良好的分類預測性能。WRF在處理不平衡數據時,有兩大優勢:不同于重采樣技術需要將原始的不平衡數據構造為類別平衡的數據集,WRF不需要改變原始數據的結構,其在構建模型的過程中,所用的醫學數據仍能夠代表該疾病的普遍發生率;WRF通過對不同類別設置權重,讓少數類的權重增大,從而加大少數類錯分的代價,使模型對成本敏感,達到錯分代價最小化的目的,讓模型在保持了較高特異性的同時,也能夠提高對少數類預測的準確性。

綜上所述,加權隨機森林是一個良好的分類器,有助于識別三陰性乳腺癌患者,能夠為三陰性乳腺癌的診斷提供理論指導,同時加權隨機森林算法也為在運用醫學非均衡數據構建疾病分類預測模型時提供了思路。

猜你喜歡
乳腺癌分類模型
一半模型
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
乳腺癌是吃出來的嗎
分類討論求坐標
胸大更容易得乳腺癌嗎
數據分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
主站蜘蛛池模板: 国产成人高清精品免费5388| 欧美啪啪视频免码| 一本视频精品中文字幕| 国产亚洲日韩av在线| 亚洲天堂免费| 国产精品免费电影| 国产精品一区二区久久精品无码| 午夜性爽视频男人的天堂| 欧美精品另类| 中文国产成人精品久久| 久久久久久久蜜桃| 中文成人在线| 欧美精品啪啪| 亚洲成a人在线播放www| 国产在线观看一区精品| 国产视频你懂得| 国产成人亚洲精品色欲AV| 99视频在线观看免费| 啪啪永久免费av| 一级全免费视频播放| 欧美a在线看| 国产亚洲精久久久久久无码AV| 亚洲综合经典在线一区二区| 国产女人喷水视频| 欧美中文字幕在线二区| 久久免费精品琪琪| 99热这里只有免费国产精品| 久久午夜夜伦鲁鲁片不卡| 亚洲精品日产精品乱码不卡| 国产高潮流白浆视频| 天天色天天操综合网| 国产精品黑色丝袜的老师| 麻豆a级片| 日本国产精品| 国产免费观看av大片的网站| 国产精品美女网站| 亚洲国产午夜精华无码福利| 国产香蕉在线| 国产手机在线ΑⅤ片无码观看| 2020国产精品视频| 亚洲无码日韩一区| 国产资源站| 91丝袜美腿高跟国产极品老师| 99国产精品国产高清一区二区| 极品国产一区二区三区| 欧美中文字幕在线视频| 久久不卡精品| 天天摸天天操免费播放小视频| 日韩久草视频| 国产精品偷伦在线观看| 国产亚洲美日韩AV中文字幕无码成人| 一级毛片免费观看不卡视频| 国产精选小视频在线观看| www精品久久| 国产AV毛片| 91九色国产在线| 国产精品护士| 国产精品嫩草影院视频| av在线手机播放| 国产91蝌蚪窝| a在线观看免费| 综1合AV在线播放| 毛片视频网| 精品福利网| 91精品专区| 日韩无码白| 国产精品自拍露脸视频| 亚洲AV成人一区国产精品| 国产在线麻豆波多野结衣| 亚洲无码高清视频在线观看| 亚洲v日韩v欧美在线观看| 亚洲最大福利网站| 欧美成人午夜影院| 香蕉久人久人青草青草| 性做久久久久久久免费看| 熟妇无码人妻| 园内精品自拍视频在线播放| 国产成人亚洲无码淙合青草| 青草91视频免费观看| 亚洲欧洲一区二区三区| 成人国产精品网站在线看| 五月婷婷综合色|