基于轉(zhuǎn)錄組數(shù)據(jù)不平衡數(shù)據(jù)的乳腺癌分類預(yù)測模型

2020-05-12 12:02:40劉梓劍

現(xiàn)代計算機 2020年10期

劉梓劍

（四川大學(xué)計算機學(xué)院，成都 610065）

0 引言

近年來，人類日益增長的物質(zhì)文化需求使得地球生態(tài)環(huán)境遭受了巨大的破壞，熬夜、飲食不規(guī)律、久坐缺乏運動等行為在年輕人生活中的常態(tài)。癌癥是一種基因疾病，通常由于基因的突變、細胞微環(huán)境改變等原因隨之產(chǎn)生。而熬夜、飲食習(xí)慣等正是導(dǎo)致患病的重要原因之一。乳腺癌，女性疾病中的頭號殺手，快速的生活節(jié)奏、加班、子女教育加重等使得女性體檢的頻率逐漸降低，而癌癥的常規(guī)檢測預(yù)防手段需要長期體檢，使得很多女性診斷概率降低。第三代測序用低廉的價格結(jié)合機器學(xué)習(xí)高效的分類算法，為癌癥診斷提供了新思路。

轉(zhuǎn)錄組數(shù)據(jù)中，mRNA（message RNA，信使核糖核苷酸），通過DNA轉(zhuǎn)錄獲得，帶著大量的遺傳信息，通過翻譯得到氨基酸，最終合成蛋白質(zhì)實現(xiàn)基因的表達。miRNA（micro RNA，小分子核苷酸）通過與mRNA結(jié)合抑制基因表達。mRNA點位共有6w多個，其中包含了大量冗余無關(guān)的點位。冗余信息常常會降低分類器的準確度，傳統(tǒng)的機器學(xué)習(xí)無法承載能力有限。近年來，深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNNs）的發(fā)展取得了巨大的成功，尤其是在視覺和語音識別方面[1,2]。受深度神經(jīng)網(wǎng)絡(luò)的啟發(fā)，人們提出了許多利用深度學(xué)習(xí)方法的變體來預(yù)測癌癥亞型的方法[3,4]。然而，一些缺陷可能會限制深度神經(jīng)網(wǎng)絡(luò)在癌癥基因組數(shù)據(jù)中的應(yīng)用。一方面，DNN較為復(fù)雜，需要大量訓(xùn)練樣本進行學(xué)習(xí)[1]，而乳腺癌樣本較少，無法滿足大規(guī)模的訓(xùn)練要求。然而，目前大多數(shù)癌癥基因轉(zhuǎn)錄組數(shù)據(jù)的數(shù)據(jù)規(guī)模無法達到神經(jīng)網(wǎng)絡(luò)的要求。另一方面，超參數(shù)的選取是DNN中至關(guān)重要的步驟之一，算法的性能很大程度上由超參數(shù)決定。這使得在實際應(yīng)用中，特別是在小規(guī)模的生物數(shù)據(jù)集上，利用深度神經(jīng)網(wǎng)絡(luò)來獲得預(yù)期的分類性能是很困難的。

深度森林模型（Deep Forest，DF）是由周志華等人[1]于2017年結(jié)合深度神經(jīng)網(wǎng)絡(luò)及隨機森林所提出的模型。該模型由深度級聯(lián)森林結(jié)構(gòu)和多粒度掃描兩部分組成。深度森林算法中采用層次結(jié)構(gòu)的處理方法。在級聯(lián)層中，將每層模型輸出的預(yù)測概率值作為該層特征提取的新特征，并將上一層產(chǎn)生的特征作為下一級的輸入，進行特征的重復(fù)提取和訓(xùn)練過程。基因、轉(zhuǎn)錄組數(shù)據(jù)通常具有三個特點：①高維度；②數(shù)據(jù)類不平衡；③高噪聲。

本文針對乳腺癌轉(zhuǎn)錄組數(shù)據(jù)以上特點，在傳統(tǒng)DF模型的基礎(chǔ)上，提出多源深度森林模型（Multi-Source Deep Forest），使其更加貼合乳腺癌轉(zhuǎn)錄組數(shù)據(jù)模型，讓分類更加準確。

1 數(shù)據(jù)集處理

本文研究中使用的TCGA數(shù)據(jù)庫和自建數(shù)據(jù)庫中的mRNA與miRNA測序數(shù)據(jù)的癌癥亞型樣本分布極度不平衡，會導(dǎo)致假陰率的增加。因此，在DNA甲基化測序數(shù)據(jù)送入模型訓(xùn)練前，需要對數(shù)據(jù)集進行平衡化預(yù)處理，獲得正、負樣本相對平衡的數(shù)據(jù)集。此外，針對轉(zhuǎn)錄組測序數(shù)據(jù)維度高、噪聲多等特點，本文在模型訓(xùn)練前對樣本數(shù)據(jù)進行特征選擇和降維，縮短算法的訓(xùn)練時間，提高算法的泛化能力：對mRNA與miR?NA進行中心化、去零值處理等操作。最后，本文使用十倍交叉驗證方法來劃分數(shù)據(jù)集的測試與驗證。

本文中的數(shù)據(jù)集選取來自TCGA數(shù)據(jù)庫，由于早期的測序價格高昂，病例測序數(shù)據(jù)多來自于官方機構(gòu)，并且數(shù)量有限，在1064個乳腺癌樣本中，數(shù)據(jù)類平衡度低于1/10，嚴重影響算法的分類準確度。因此需要多轉(zhuǎn)錄組數(shù)據(jù)進行預(yù)處理，以此提升算法泛化能力。預(yù)處理步驟中，分別對數(shù)據(jù)進行了去中心化，去零值等操作，然后對數(shù)據(jù)集中進行過采樣與欠采樣，提升類的平衡度。通過上述預(yù)處理過后，特征降低了4/5。訓(xùn)練與測試數(shù)據(jù)集通過十折交叉驗證的方法進行劃分。

2 多源多粒度掃描（MSMGS）

特征選擇的過程就是尋找具有顯著差異mRNA、miRNA的過程，這些在正常樣本和癌癥樣本中具有顯著差異的mRNA、miRNA極有可能和癌癥亞型的產(chǎn)生密切相關(guān)。mRNA和非編碼RNA表達譜大多具有高維特點，高維數(shù)據(jù)給預(yù)測帶來維度災(zāi)難。一方面，很多mRNA點位、miRNA與癌癥的產(chǎn)生發(fā)展不相關(guān)，同時會給算法帶來錯誤的訓(xùn)練，需要進行處理；另一方面，致癌的mRNA、非編碼RNA之間的相關(guān)性很高，即他們可能承載了相同或類似的信息，這些特征是冗余的，會增加模型建構(gòu)的時間復(fù)雜度，需要剔除；為了解決冗余特征對算法的負面影響，同時提高分類預(yù)測的準確度、降低計算時間，特征選擇是重要的環(huán)節(jié)。

為了解決癌癥轉(zhuǎn)錄組數(shù)據(jù)中信息密度低，高維度的問題。多源多粒度掃描原始輸入特征如圖1所示。

假設(shè)mRNA與miRNA原始特征維度均為400，滑動采樣窗口的大小設(shè)置為100，滑動步長為1，滑動完畢之后就可獲得401個100維的向量。將向量輸入到由隨機森林和完全隨機森林組成的森林群中，選擇兩種不同的隨機森林是為了提升算法的多樣性，提升分類泛化能力。

圖1 MSGMS結(jié)構(gòu)

3 強化級聯(lián)森林（RCF）

級聯(lián)森林啟發(fā)于DNN，DNN中的對特征的學(xué)習(xí)主要依賴于對基礎(chǔ)特征的疊加處理。級聯(lián)森林中的級聯(lián)結(jié)構(gòu)由前一層處理的特征信息輸入，并將結(jié)果輸入到下一層。級聯(lián)森林是隨機森林的組合。森林的多樣性對于算法集成效果至關(guān)重要[5]。為簡單起見，假設(shè)使用四個隨機森林，一半為完全隨機的樹林和剩下一部分為普通隨機森林[5]。每個完全隨機的森林包含500個完全隨機的樹[6]，在樹的每個節(jié)點隨機選擇一個特征進行分割，當(dāng)葉子節(jié)點的分類相同為止。同樣，每個隨機森林包含500棵樹，隨機挑選個特征作為候選（t是原始輸入特征的規(guī)模），挑選基尼系數(shù)最好的一個進行分割。超參數(shù)不僅僅包括深林的規(guī)模。

每個森林會產(chǎn)生估計類分布，通過計算不同類型的訓(xùn)練例子的比例在葉子節(jié)點相關(guān)的實例，然后平均所有相同的森林，如圖2所示，紅色強調(diào)實例遍歷路徑沿著葉節(jié)點。

圖2

過擬合的風(fēng)向可以通過各森林得出的類向量由kfold交叉驗證來減少。簡而言之，各樣本將被當(dāng)做k-1次的訓(xùn)練樣本，得到k-1次的類概率向量，然后對類向量求平均值，每一層產(chǎn)生的特征類向量都會作為后層的輸入。每次得出的分類準確度都會與之前的進行對比，如果有提升，則會將當(dāng)前特征向量繼續(xù)輸入到下一層，以此反復(fù)，直到某一層的分類準確度不再提升為止。因此，級聯(lián)深林的層數(shù)是自適應(yīng)確定的。不需要再作為超參數(shù)進行確定。

強化級聯(lián)森林中，選取每個森林中最重要的前k個特征，利用k個特征的標準差組成新的特征。然后，我們將新的方差特征與輸出類分布向量結(jié)合起來，增強其在下一層串聯(lián)的輸入向量中的類分布，從而降低下一傳播層的估計錯誤發(fā)現(xiàn)率。使用top-k特征的標準差而不是直接使用top-k特征的原因是：①為了降低模型對k參數(shù)的敏感性；②方差在一定程度上可以體現(xiàn)top-k特征實例的差異性。同時對原有的多余特征進行剔除整理成為新的屬性向量，如圖3所示。

4 實驗

本文的實驗數(shù)據(jù)來自于TCGA的Brest數(shù)據(jù)集。為了驗證算法的高效性，進行了兩組對比實驗。如k近鄰（KNN），深度森林（gcForest）算法，并從分類準確度（Precision），召回率（Recall），F(xiàn)1 分數(shù)（F1-Score）等不同的度量指標來評估MSMGS-RCF模型的性能。分類準確度如圖 4所示，KNN、gcForest、MSMGS-RCF 分別為80.1%、82.3%、88.1%，本文提出的MSMGS-RCF模型的分類性能最佳。

圖3 強化級聯(lián)森林

圖4

5 結(jié)語

本文針對當(dāng)前乳腺癌診斷中所存在的缺陷，提出了一種基于轉(zhuǎn)錄組測序數(shù)據(jù)的分類模型，通過真實數(shù)據(jù)集的實驗室表明，算法模型具有一定的可靠性。針對轉(zhuǎn)錄組數(shù)據(jù)具有的三個特點：①高維度；②數(shù)據(jù)類不平衡；③高噪聲；提出的基于mRNA與miRNA不平衡數(shù)據(jù)的分類模型MSMGS-RCF，提高了乳腺癌分類模型的學(xué)習(xí)效率，降低了實驗成本。本文雖然乳腺癌的整體分類準確度有了一定的提升，但依然存在一些不足與待改進：算法的訓(xùn)練的時間復(fù)雜的較高，少數(shù)類分類準確度較低。可以通過結(jié)合SMOTE等采樣算法對特征進行降維處理，提高少數(shù)類的分類準確度，縮短時間開銷。