劉梓劍
(四川大學(xué)計算機學(xué)院,成都 610065)
近年來,人類日益增長的物質(zhì)文化需求使得地球生態(tài)環(huán)境遭受了巨大的破壞,熬夜、飲食不規(guī)律、久坐缺乏運動等行為在年輕人生活中的常態(tài)。癌癥是一種基因疾病,通常由于基因的突變、細胞微環(huán)境改變等原因隨之產(chǎn)生。而熬夜、飲食習(xí)慣等正是導(dǎo)致患病的重要原因之一。乳腺癌,女性疾病中的頭號殺手,快速的生活節(jié)奏、加班、子女教育加重等使得女性體檢的頻率逐漸降低,而癌癥的常規(guī)檢測預(yù)防手段需要長期體檢,使得很多女性診斷概率降低。第三代測序用低廉的價格結(jié)合機器學(xué)習(xí)高效的分類算法,為癌癥診斷提供了新思路。
轉(zhuǎn)錄組數(shù)據(jù)中,mRNA(message RNA,信使核糖核苷酸),通過DNA轉(zhuǎn)錄獲得,帶著大量的遺傳信息,通過翻譯得到氨基酸,最終合成蛋白質(zhì)實現(xiàn)基因的表達。miRNA(micro RNA,小分子核苷酸)通過與mRNA結(jié)合抑制基因表達。mRNA點位共有6w多個,其中包含了大量冗余無關(guān)的點位。冗余信息常常會降低分類器的準確度,傳統(tǒng)的機器學(xué)習(xí)無法承載能力有限。近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)的發(fā)展取得了巨大的成功,尤其是在視覺和語音識別方面[1,2]。受深度神經(jīng)網(wǎng)絡(luò)的啟發(fā),人們提出了許多利用深度學(xué)習(xí)方法的變體來預(yù)測癌癥亞型的方法[3,4]。然而,一些缺陷可能會限制深度神經(jīng)網(wǎng)絡(luò)在癌癥基因組數(shù)據(jù)中的應(yīng)用。一方面,DNN較為復(fù)雜,需要大量訓(xùn)練樣本進行學(xué)習(xí)[1],而乳腺癌樣本較少,無法滿足大規(guī)模的訓(xùn)練要求。然而,目前大多數(shù)癌癥基因轉(zhuǎn)錄組數(shù)據(jù)的數(shù)據(jù)規(guī)模無法達到神經(jīng)網(wǎng)絡(luò)的要求。另一方面,超參數(shù)的選取是DNN中至關(guān)重要的步驟之一,算法的性能很大程度上由超參數(shù)決定。這使得在實際應(yīng)用中,特別是在小規(guī)模的生物數(shù)據(jù)集上,利用深度神經(jīng)網(wǎng)絡(luò)來獲得預(yù)期的分類性能是很困難的。
深度森林模型(Deep Forest,DF)是由周志華等人[1]于2017年結(jié)合深度神經(jīng)網(wǎng)絡(luò)及隨機森林所提出的模型。該模型由深度級聯(lián)森林結(jié)構(gòu)和多粒度掃描兩部分組成。深度森林算法中采用層次結(jié)構(gòu)的處理方法。在級聯(lián)層中,將每層模型輸出的預(yù)測概率值作為該層特征提取的新特征,并將上一層產(chǎn)生的特征作為下一級的輸入,進行特征的重復(fù)提取和訓(xùn)練過程。基因、轉(zhuǎn)錄組數(shù)據(jù)通常具有三個特點:①高維度;②數(shù)據(jù)類不平衡;③高噪聲。
本文針對乳腺癌轉(zhuǎn)錄組數(shù)據(jù)以上特點,在傳統(tǒng)DF模型的基礎(chǔ)上,提出多源深度森林模型(Multi-Source Deep Forest),使其更加貼合乳腺癌轉(zhuǎn)錄組數(shù)據(jù)模型,讓分類更加準確。
本文研究中使用的TCGA數(shù)據(jù)庫和自建數(shù)據(jù)庫中的mRNA與miRNA測序數(shù)據(jù)的癌癥亞型樣本分布極度不平衡,會導(dǎo)致假陰率的增加。因此,在DNA甲基化測序數(shù)據(jù)送入模型訓(xùn)練前,需要對數(shù)據(jù)集進行平衡化預(yù)處理,獲得正、負樣本相對平衡的數(shù)據(jù)集。此外,針對轉(zhuǎn)錄組測序數(shù)據(jù)維度高、噪聲多等特點,本文在模型訓(xùn)練前對樣本數(shù)據(jù)進行特征選擇和降維,縮短算法的訓(xùn)練時間,提高算法的泛化能力:對mRNA與miR?NA進行中心化、去零值處理等操作。最后,本文使用十倍交叉驗證方法來劃分數(shù)據(jù)集的測試與驗證。
本文中的數(shù)據(jù)集選取來自TCGA數(shù)據(jù)庫,由于早期的測序價格高昂,病例測序數(shù)據(jù)多來自于官方機構(gòu),并且數(shù)量有限,在1064個乳腺癌樣本中,數(shù)據(jù)類平衡度低于1/10,嚴重影響算法的分類準確度。因此需要多轉(zhuǎn)錄組數(shù)據(jù)進行預(yù)處理,以此提升算法泛化能力。預(yù)處理步驟中,分別對數(shù)據(jù)進行了去中心化,去零值等操作,然后對數(shù)據(jù)集中進行過采樣與欠采樣,提升類的平衡度。通過上述預(yù)處理過后,特征降低了4/5。訓(xùn)練與測試數(shù)據(jù)集通過十折交叉驗證的方法進行劃分。
特征選擇的過程就是尋找具有顯著差異mRNA、miRNA的過程,這些在正常樣本和癌癥樣本中具有顯著差異的mRNA、miRNA極有可能和癌癥亞型的產(chǎn)生密切相關(guān)。mRNA和非編碼RNA表達譜大多具有高維特點,高維數(shù)據(jù)給預(yù)測帶來維度災(zāi)難。一方面,很多mRNA點位、miRNA與癌癥的產(chǎn)生發(fā)展不相關(guān),同時會給算法帶來錯誤的訓(xùn)練,需要進行處理;另一方面,致癌的mRNA、非編碼RNA之間的相關(guān)性很高,即他們可能承載了相同或類似的信息,這些特征是冗余的,會增加模型建構(gòu)的時間復(fù)雜度,需要剔除;為了解決冗余特征對算法的負面影響,同時提高分類預(yù)測的準確度、降低計算時間,特征選擇是重要的環(huán)節(jié)。
為了解決癌癥轉(zhuǎn)錄組數(shù)據(jù)中信息密度低,高維度的問題。多源多粒度掃描原始輸入特征如圖1所示。
假設(shè)mRNA與miRNA原始特征維度均為400,滑動采樣窗口的大小設(shè)置為100,滑動步長為1,滑動完畢之后就可獲得401個100維的向量。將向量輸入到由隨機森林和完全隨機森林組成的森林群中,選擇兩種不同的隨機森林是為了提升算法的多樣性,提升分類泛化能力。

圖1 MSGMS結(jié)構(gòu)
級聯(lián)森林啟發(fā)于DNN,DNN中的對特征的學(xué)習(xí)主要依賴于對基礎(chǔ)特征的疊加處理。級聯(lián)森林中的級聯(lián)結(jié)構(gòu)由前一層處理的特征信息輸入,并將結(jié)果輸入到下一層。級聯(lián)森林是隨機森林的組合。森林的多樣性對于算法集成效果至關(guān)重要[5]。為簡單起見,假設(shè)使用四個隨機森林,一半為完全隨機的樹林和剩下一部分為普通隨機森林[5]。每個完全隨機的森林包含500個完全隨機的樹[6],在樹的每個節(jié)點隨機選擇一個特征進行分割,當(dāng)葉子節(jié)點的分類相同為止。同樣,每個隨機森林包含500棵樹,隨機挑選個特征作為候選(t是原始輸入特征的規(guī)模),挑選基尼系數(shù)最好的一個進行分割。超參數(shù)不僅僅包括深林的規(guī)模。
每個森林會產(chǎn)生估計類分布,通過計算不同類型的訓(xùn)練例子的比例在葉子節(jié)點相關(guān)的實例,然后平均所有相同的森林,如圖2所示,紅色強調(diào)實例遍歷路徑沿著葉節(jié)點。

圖2
過擬合的風(fēng)向可以通過各森林得出的類向量由kfold交叉驗證來減少。簡而言之,各樣本將被當(dāng)做k-1次的訓(xùn)練樣本,得到k-1次的類概率向量,然后對類向量求平均值,每一層產(chǎn)生的特征類向量都會作為后層的輸入。每次得出的分類準確度都會與之前的進行對比,如果有提升,則會將當(dāng)前特征向量繼續(xù)輸入到下一層,以此反復(fù),直到某一層的分類準確度不再提升為止。因此,級聯(lián)深林的層數(shù)是自適應(yīng)確定的。不需要再作為超參數(shù)進行確定。
強化級聯(lián)森林中,選取每個森林中最重要的前k個特征,利用k個特征的標準差組成新的特征。然后,我們將新的方差特征與輸出類分布向量結(jié)合起來,增強其在下一層串聯(lián)的輸入向量中的類分布,從而降低下一傳播層的估計錯誤發(fā)現(xiàn)率。使用top-k特征的標準差而不是直接使用top-k特征的原因是:①為了降低模型對k參數(shù)的敏感性;②方差在一定程度上可以體現(xiàn)top-k特征實例的差異性。同時對原有的多余特征進行剔除整理成為新的屬性向量,如圖3所示。
本文的實驗數(shù)據(jù)來自于TCGA的Brest數(shù)據(jù)集。為了驗證算法的高效性,進行了兩組對比實驗。如k近鄰(KNN),深度森林(gcForest)算法,并從分類準確度(Precision),召回率(Recall),F(xiàn)1 分數(shù)(F1-Score)等不同的度量指標來評估MSMGS-RCF模型的性能。分類準確度如圖 4所示,KNN、gcForest、MSMGS-RCF 分別為80.1%、82.3%、88.1%,本文提出的MSMGS-RCF模型的分類性能最佳。

圖3 強化級聯(lián)森林

圖4
本文針對當(dāng)前乳腺癌診斷中所存在的缺陷,提出了一種基于轉(zhuǎn)錄組測序數(shù)據(jù)的分類模型,通過真實數(shù)據(jù)集的實驗室表明,算法模型具有一定的可靠性。針對轉(zhuǎn)錄組數(shù)據(jù)具有的三個特點:①高維度;②數(shù)據(jù)類不平衡;③高噪聲;提出的基于mRNA與miRNA不平衡數(shù)據(jù)的分類模型MSMGS-RCF,提高了乳腺癌分類模型的學(xué)習(xí)效率,降低了實驗成本。本文雖然乳腺癌的整體分類準確度有了一定的提升,但依然存在一些不足與待改進:算法的訓(xùn)練的時間復(fù)雜的較高,少數(shù)類分類準確度較低。可以通過結(jié)合SMOTE等采樣算法對特征進行降維處理,提高少數(shù)類的分類準確度,縮短時間開銷。