999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于轉(zhuǎn)錄組數(shù)據(jù)不平衡數(shù)據(jù)的乳腺癌分類預(yù)測模型

2020-05-12 12:02:40劉梓劍
現(xiàn)代計算機 2020年10期
關(guān)鍵詞:分類特征模型

劉梓劍

(四川大學(xué)計算機學(xué)院,成都 610065)

0 引言

近年來,人類日益增長的物質(zhì)文化需求使得地球生態(tài)環(huán)境遭受了巨大的破壞,熬夜、飲食不規(guī)律、久坐缺乏運動等行為在年輕人生活中的常態(tài)。癌癥是一種基因疾病,通常由于基因的突變、細胞微環(huán)境改變等原因隨之產(chǎn)生。而熬夜、飲食習(xí)慣等正是導(dǎo)致患病的重要原因之一。乳腺癌,女性疾病中的頭號殺手,快速的生活節(jié)奏、加班、子女教育加重等使得女性體檢的頻率逐漸降低,而癌癥的常規(guī)檢測預(yù)防手段需要長期體檢,使得很多女性診斷概率降低。第三代測序用低廉的價格結(jié)合機器學(xué)習(xí)高效的分類算法,為癌癥診斷提供了新思路。

轉(zhuǎn)錄組數(shù)據(jù)中,mRNA(message RNA,信使核糖核苷酸),通過DNA轉(zhuǎn)錄獲得,帶著大量的遺傳信息,通過翻譯得到氨基酸,最終合成蛋白質(zhì)實現(xiàn)基因的表達。miRNA(micro RNA,小分子核苷酸)通過與mRNA結(jié)合抑制基因表達。mRNA點位共有6w多個,其中包含了大量冗余無關(guān)的點位。冗余信息常常會降低分類器的準確度,傳統(tǒng)的機器學(xué)習(xí)無法承載能力有限。近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)的發(fā)展取得了巨大的成功,尤其是在視覺和語音識別方面[1,2]。受深度神經(jīng)網(wǎng)絡(luò)的啟發(fā),人們提出了許多利用深度學(xué)習(xí)方法的變體來預(yù)測癌癥亞型的方法[3,4]。然而,一些缺陷可能會限制深度神經(jīng)網(wǎng)絡(luò)在癌癥基因組數(shù)據(jù)中的應(yīng)用。一方面,DNN較為復(fù)雜,需要大量訓(xùn)練樣本進行學(xué)習(xí)[1],而乳腺癌樣本較少,無法滿足大規(guī)模的訓(xùn)練要求。然而,目前大多數(shù)癌癥基因轉(zhuǎn)錄組數(shù)據(jù)的數(shù)據(jù)規(guī)模無法達到神經(jīng)網(wǎng)絡(luò)的要求。另一方面,超參數(shù)的選取是DNN中至關(guān)重要的步驟之一,算法的性能很大程度上由超參數(shù)決定。這使得在實際應(yīng)用中,特別是在小規(guī)模的生物數(shù)據(jù)集上,利用深度神經(jīng)網(wǎng)絡(luò)來獲得預(yù)期的分類性能是很困難的。

深度森林模型(Deep Forest,DF)是由周志華等人[1]于2017年結(jié)合深度神經(jīng)網(wǎng)絡(luò)及隨機森林所提出的模型。該模型由深度級聯(lián)森林結(jié)構(gòu)和多粒度掃描兩部分組成。深度森林算法中采用層次結(jié)構(gòu)的處理方法。在級聯(lián)層中,將每層模型輸出的預(yù)測概率值作為該層特征提取的新特征,并將上一層產(chǎn)生的特征作為下一級的輸入,進行特征的重復(fù)提取和訓(xùn)練過程。基因、轉(zhuǎn)錄組數(shù)據(jù)通常具有三個特點:①高維度;②數(shù)據(jù)類不平衡;③高噪聲。

本文針對乳腺癌轉(zhuǎn)錄組數(shù)據(jù)以上特點,在傳統(tǒng)DF模型的基礎(chǔ)上,提出多源深度森林模型(Multi-Source Deep Forest),使其更加貼合乳腺癌轉(zhuǎn)錄組數(shù)據(jù)模型,讓分類更加準確。

1 數(shù)據(jù)集處理

本文研究中使用的TCGA數(shù)據(jù)庫和自建數(shù)據(jù)庫中的mRNA與miRNA測序數(shù)據(jù)的癌癥亞型樣本分布極度不平衡,會導(dǎo)致假陰率的增加。因此,在DNA甲基化測序數(shù)據(jù)送入模型訓(xùn)練前,需要對數(shù)據(jù)集進行平衡化預(yù)處理,獲得正、負樣本相對平衡的數(shù)據(jù)集。此外,針對轉(zhuǎn)錄組測序數(shù)據(jù)維度高、噪聲多等特點,本文在模型訓(xùn)練前對樣本數(shù)據(jù)進行特征選擇和降維,縮短算法的訓(xùn)練時間,提高算法的泛化能力:對mRNA與miR?NA進行中心化、去零值處理等操作。最后,本文使用十倍交叉驗證方法來劃分數(shù)據(jù)集的測試與驗證。

本文中的數(shù)據(jù)集選取來自TCGA數(shù)據(jù)庫,由于早期的測序價格高昂,病例測序數(shù)據(jù)多來自于官方機構(gòu),并且數(shù)量有限,在1064個乳腺癌樣本中,數(shù)據(jù)類平衡度低于1/10,嚴重影響算法的分類準確度。因此需要多轉(zhuǎn)錄組數(shù)據(jù)進行預(yù)處理,以此提升算法泛化能力。預(yù)處理步驟中,分別對數(shù)據(jù)進行了去中心化,去零值等操作,然后對數(shù)據(jù)集中進行過采樣與欠采樣,提升類的平衡度。通過上述預(yù)處理過后,特征降低了4/5。訓(xùn)練與測試數(shù)據(jù)集通過十折交叉驗證的方法進行劃分。

2 多源多粒度掃描(MSMGS)

特征選擇的過程就是尋找具有顯著差異mRNA、miRNA的過程,這些在正常樣本和癌癥樣本中具有顯著差異的mRNA、miRNA極有可能和癌癥亞型的產(chǎn)生密切相關(guān)。mRNA和非編碼RNA表達譜大多具有高維特點,高維數(shù)據(jù)給預(yù)測帶來維度災(zāi)難。一方面,很多mRNA點位、miRNA與癌癥的產(chǎn)生發(fā)展不相關(guān),同時會給算法帶來錯誤的訓(xùn)練,需要進行處理;另一方面,致癌的mRNA、非編碼RNA之間的相關(guān)性很高,即他們可能承載了相同或類似的信息,這些特征是冗余的,會增加模型建構(gòu)的時間復(fù)雜度,需要剔除;為了解決冗余特征對算法的負面影響,同時提高分類預(yù)測的準確度、降低計算時間,特征選擇是重要的環(huán)節(jié)。

為了解決癌癥轉(zhuǎn)錄組數(shù)據(jù)中信息密度低,高維度的問題。多源多粒度掃描原始輸入特征如圖1所示。

假設(shè)mRNA與miRNA原始特征維度均為400,滑動采樣窗口的大小設(shè)置為100,滑動步長為1,滑動完畢之后就可獲得401個100維的向量。將向量輸入到由隨機森林和完全隨機森林組成的森林群中,選擇兩種不同的隨機森林是為了提升算法的多樣性,提升分類泛化能力。

圖1 MSGMS結(jié)構(gòu)

3 強化級聯(lián)森林(RCF)

級聯(lián)森林啟發(fā)于DNN,DNN中的對特征的學(xué)習(xí)主要依賴于對基礎(chǔ)特征的疊加處理。級聯(lián)森林中的級聯(lián)結(jié)構(gòu)由前一層處理的特征信息輸入,并將結(jié)果輸入到下一層。級聯(lián)森林是隨機森林的組合。森林的多樣性對于算法集成效果至關(guān)重要[5]。為簡單起見,假設(shè)使用四個隨機森林,一半為完全隨機的樹林和剩下一部分為普通隨機森林[5]。每個完全隨機的森林包含500個完全隨機的樹[6],在樹的每個節(jié)點隨機選擇一個特征進行分割,當(dāng)葉子節(jié)點的分類相同為止。同樣,每個隨機森林包含500棵樹,隨機挑選個特征作為候選(t是原始輸入特征的規(guī)模),挑選基尼系數(shù)最好的一個進行分割。超參數(shù)不僅僅包括深林的規(guī)模。

每個森林會產(chǎn)生估計類分布,通過計算不同類型的訓(xùn)練例子的比例在葉子節(jié)點相關(guān)的實例,然后平均所有相同的森林,如圖2所示,紅色強調(diào)實例遍歷路徑沿著葉節(jié)點。

圖2

過擬合的風(fēng)向可以通過各森林得出的類向量由kfold交叉驗證來減少。簡而言之,各樣本將被當(dāng)做k-1次的訓(xùn)練樣本,得到k-1次的類概率向量,然后對類向量求平均值,每一層產(chǎn)生的特征類向量都會作為后層的輸入。每次得出的分類準確度都會與之前的進行對比,如果有提升,則會將當(dāng)前特征向量繼續(xù)輸入到下一層,以此反復(fù),直到某一層的分類準確度不再提升為止。因此,級聯(lián)深林的層數(shù)是自適應(yīng)確定的。不需要再作為超參數(shù)進行確定。

強化級聯(lián)森林中,選取每個森林中最重要的前k個特征,利用k個特征的標準差組成新的特征。然后,我們將新的方差特征與輸出類分布向量結(jié)合起來,增強其在下一層串聯(lián)的輸入向量中的類分布,從而降低下一傳播層的估計錯誤發(fā)現(xiàn)率。使用top-k特征的標準差而不是直接使用top-k特征的原因是:①為了降低模型對k參數(shù)的敏感性;②方差在一定程度上可以體現(xiàn)top-k特征實例的差異性。同時對原有的多余特征進行剔除整理成為新的屬性向量,如圖3所示。

4 實驗

本文的實驗數(shù)據(jù)來自于TCGA的Brest數(shù)據(jù)集。為了驗證算法的高效性,進行了兩組對比實驗。如k近鄰(KNN),深度森林(gcForest)算法,并從分類準確度(Precision),召回率(Recall),F(xiàn)1 分數(shù)(F1-Score)等不同的度量指標來評估MSMGS-RCF模型的性能。分類準確度如圖 4所示,KNN、gcForest、MSMGS-RCF 分別為80.1%、82.3%、88.1%,本文提出的MSMGS-RCF模型的分類性能最佳。

圖3 強化級聯(lián)森林

圖4

5 結(jié)語

本文針對當(dāng)前乳腺癌診斷中所存在的缺陷,提出了一種基于轉(zhuǎn)錄組測序數(shù)據(jù)的分類模型,通過真實數(shù)據(jù)集的實驗室表明,算法模型具有一定的可靠性。針對轉(zhuǎn)錄組數(shù)據(jù)具有的三個特點:①高維度;②數(shù)據(jù)類不平衡;③高噪聲;提出的基于mRNA與miRNA不平衡數(shù)據(jù)的分類模型MSMGS-RCF,提高了乳腺癌分類模型的學(xué)習(xí)效率,降低了實驗成本。本文雖然乳腺癌的整體分類準確度有了一定的提升,但依然存在一些不足與待改進:算法的訓(xùn)練的時間復(fù)雜的較高,少數(shù)類分類準確度較低。可以通過結(jié)合SMOTE等采樣算法對特征進行降維處理,提高少數(shù)類的分類準確度,縮短時間開銷。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 无码久看视频| 久久公开视频| 九九视频免费在线观看| 欧美成人看片一区二区三区| 91亚洲视频下载| 乱色熟女综合一区二区| 国产成人综合欧美精品久久| 99这里只有精品在线| 麻豆精品在线视频| 欧美日韩一区二区在线播放 | 亚洲女人在线| 99久久成人国产精品免费| 久久久精品无码一二三区| 日韩黄色在线| 中国一级毛片免费观看| 26uuu国产精品视频| 日韩毛片视频| 国产v欧美v日韩v综合精品| 亚洲狼网站狼狼鲁亚洲下载| 黄色网在线| 亚洲精品片911| 欧美激情视频一区| 欧美日本二区| 无码AV动漫| 制服丝袜 91视频| 色综合综合网| 97久久免费视频| 亚洲国产天堂久久综合| 久久成人免费| 老司机精品一区在线视频| 亚洲中文无码av永久伊人| 亚洲国产天堂久久综合226114| 91成人在线观看| 国产精品网拍在线| 在线日本国产成人免费的| 亚洲欧美另类日本| 日韩国产欧美精品在线| 青青青伊人色综合久久| 中文字幕亚洲另类天堂| 午夜国产在线观看| 少妇露出福利视频| 亚洲欧美不卡中文字幕| 伦伦影院精品一区| 黄色污网站在线观看| 激情五月婷婷综合网| 久久久久人妻一区精品色奶水| 97视频精品全国在线观看| 久久国产精品波多野结衣| 超清无码一区二区三区| 国产新AV天堂| 久久久无码人妻精品无码| 色婷婷国产精品视频| 国产亚洲视频中文字幕视频 | 青青久视频| 99久久免费精品特色大片| 成人毛片在线播放| 五月婷婷伊人网| 亚洲精品卡2卡3卡4卡5卡区| 免费激情网站| 91九色视频网| 欧美一级专区免费大片| 国产精品视频a| 91在线精品麻豆欧美在线| 18禁影院亚洲专区| 欧美一级夜夜爽www| 国产成人精品亚洲77美色| 亚洲国产精品日韩专区AV| 国产精品区视频中文字幕| 亚洲精品在线影院| a天堂视频| 国产打屁股免费区网站| 国产一区二区人大臿蕉香蕉| 婷婷午夜影院| 国产真实乱子伦视频播放| 四虎精品国产永久在线观看| 久久精品国产免费观看频道| 在线a视频免费观看| 黄色免费在线网址| 99久久亚洲综合精品TS| 日本成人一区| 国产69精品久久久久妇女| 日韩在线欧美在线|