999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

癌癥多組學數據深度自編碼器整合分型方法

2022-09-21 05:37:54曹業偉
計算機工程與應用 2022年18期
關鍵詞:特征方法

曹業偉,劉 飛

華南理工大學 軟件學院,廣州510006

癌癥又稱為惡性腫瘤,是一系列由于細胞不受控制地生長分裂導致的疾病。癌癥往往由基因突變引起,并伴隨著細胞層面的分子改變[1],包括基因表達、DNA 變異、RNA表達改變等。因此,隨著高通量測序技術的發展,在分子水平上對癌癥重新分類和分型已逐漸變得至關重要。但是在細胞層面上,單一組學數據能提供的信息較為有限。為了有效解決這個問題,研究人員開始對海量的生物多組學數據(例如基因組學數據、轉錄組學數據、表觀遺傳學數據、蛋白質組學數據等)[2]進行研究和分析。利用多組學數據對癌癥亞型進行有效判別,可以在評估患者的癌癥轉移情況和選擇治療手段方面起到重要作用[3],促進精準醫學的發展。

目前,癌癥多組學數據的有關研究已取得許多重要突破,出現了各類生物學數據庫,例如癌癥體細胞突變目錄(the catalogue of somatic mutations in cancer,COSMIC)數據庫[4]、國際癌癥基因組協會(international cancer genome consortium,ICGC)[5]、癌癥基因組圖譜(the cancer genome atlas,TCGA)[6]和兒童癌癥有效療法研究與應用(therapeutically applicable research to generate effective treatments,TARGET)[7]等,這些數據庫為癌癥研究分析提供了大數據基礎。通過高通量測序技術和多組學數據整合方法,將基因組學、轉錄組學、表觀遺傳學和其他各類組學數據與癌癥發生發展相結合起來,可以在分子層面探索癌癥的發病機理。與以往的單組學數據相比,多組學數據整合可以利用各種數據對癌癥信息交叉補充,不僅可以更好解決單組學信息缺失問題,也有助于研究人員從更多維度研究癌癥。

目前針對整合多組學數據有一系列的研究。傳統的多組學整合大多采用統計學方法。例如基于隱變量進行整合,有學者提出了iClusterPlus[8]方法,針對不同數據類型(二值型、離散型和連續型)分別建立隱變量與觀測值的正則化的回歸模型,接著基于隱變量對樣本進行聚類分析,是一種隱變量求解模型,這類方法最大的問題是一旦多組學數據之間的維度差異過大或者樣本數量較少時會難以擬合隱變量,同時也十分依賴特征選擇,需要較多先驗知識選擇多組學特征。除了借助隱變量,還有采用相似度網絡進行整合的方法,例如相似性網絡融合(similarity network fusion,SNF)[9]和高階路徑相似度網絡的融合模型(high-order path elucidated similarity,HOPES)[3]通過構建不同樣本之間的相似度網絡,并不斷迭代更新相似度網絡來整合多組學數據,這一類算法的優點是引入了相似度網絡,使得不同組學數據的維度差異更加均衡,改善了隱變量模型的缺陷。最近在生物信息學中引入的深度學習技術也被用于多組學數據整合任務。Kim 等人[10]設計了一個進化神經網絡來評估卵巢癌的預后情況。Chaudhary等人[11]通過自編碼器(Autoencoder)整合了RNA、miRNA和DNA甲基化數據,可以從肝癌數據中提取壓縮特征,采用Cox 模型根據生存時間對壓縮特征進行篩選,得到具有新特征的樣本。對樣本進行聚類得到標簽,利用標簽監督訓練SVM分類模型。相同的整合流程也被用于神經母細胞瘤[12]和頭頸部鱗狀細胞癌[13],并成功識別出了兩種不同預后效果癌癥亞型。Chai 等人[14]使用該方法對12 種癌癥數據集測試,均可以識別出高風險和低風險患者組。對于具有高維度、高噪聲的多組學癌癥數據集,由于深度神經網絡有較強的擬合能力,所以這些基于深度學習的多組學整合方法相比傳統方法更具優勢。但是這一套多組學整合流程僅識別出兩種癌癥預后亞型,即高風險組和預后低風險組,并且還要利用生存時間來選擇特征,這意味著如果缺乏臨床生存數據則難以進行研究,本質上還是一種監督學習模式。Jonathan 等人使用變分自編碼器(variational autoencoder,VAE)對結腸腺癌進行癌癥分型,并得到5種分子亞型[15],但分型結果與已有的生理學分型并不太吻合,缺乏生物學支撐,效果較為一般。

在本研究中一共采用了三種多組學數據,分別是基因表達、DNA甲基化和miRNA表達。其中基因表達是一類重要的生物學數據,基因經過轉錄表達生成相應產物,這些產物進行各類生化反應;DNA甲基化是一種比較有代表性表觀遺傳學數據,甲基化雖然不改變基因本身,但是會改變被修飾基因的表達情況,一般可以作為公認的癌癥標志;miRNA 主要通過與mRNA 結合進而調控基因的轉錄情況,也是一種表觀遺傳學數據。這三種組學數據可以互相補充生物學信息,從而可以更全面地了解患者的狀態。針對這三類癌癥多組學數據,本文提出了一種基于深度自編碼器的多組學整合方法(deep learning for multi-omics integration,DAEMI)。該方法的主要思想為:將多組學數據輸入自編碼器中進行重構訓練,然后從瓶頸層中獲取新的特征,對于具有新特征的樣本,使用K均值算法對其聚類,進而識別癌癥亞型。在模擬數據集與真實癌癥數據集上分別測試了該方法,并與其他四種方法:高階路徑相似度網絡的融合模型(HOPES)[3]、相似性網絡融合(SNF)[10]、iClusterPlus[8]和moCluster[16]進行了比較。結果表明DAEMI聚類效果優秀穩定,抗噪聲能力強,并可以取得具有顯著生存差異的癌癥亞型分組,同時比其他方法表現得更好。

1 多組學整合研究方法

1.1 實驗數據介紹

本文采用了兩類數據集進行相關整合算法的測試,分別是模擬數據集和真實癌癥數據集。模擬數據集的設置目的是在具有人工標注標簽的情況下,精確評估本文算法的聚類效果。而真實癌癥數據集是為了進一步驗證本文算法的在真實場景下的應用能力,能否應用于生物工程的研究、癌癥預后研究等實際科研領域。

1.1.1 模擬數據集介紹

模擬數據集使用真實組學數據與預設聚類結構相結合的方式,構建方式與先前的一項研究[3]類似。其中真實數據來自GEO,選取了DNA 甲基化、基因表達和miRNA表達,GEO代碼分別為GSE51557、GSE73002和GSE106453。為了盡可能地模擬真實生物數據的維度差異和噪音水平,通過SVD 分解將真實數據與預設聚類結構融合得到相應模擬數據集。構造的模擬數據集設定為無法通過單一組學得到相應真實分組,必須對三種組學進行整合才可以得到真實標簽。為了進一步加大聚類難度,使用均值為0可變方差的高斯噪聲對模擬數據集進行污染,模擬復雜多組學數據的背景噪音,根據方差大小分為低噪音、中噪音和高噪音三個級別。

1.1.2 真實癌癥數據集介紹

在本研究中,除了模擬數據集,還使用了來自癌癥基因組圖譜(TCGA)的真實癌癥數據集。一共有四類癌癥,分別是結腸腺癌(colon adenocarcinoma,COAD)、多形膠質母細胞瘤(glioblastoma multiforme,GBM)、腎透明細胞癌(kidney renal clear cell carcinoma,KIRC)和肺鱗狀細胞癌(lung squamous cell carcinoma,LUSC)。每個真實數據集都包含三種類型的組學數據:DNA 甲基化、基因表達和miRNA 表達。這四個數據集曾被用于高階路徑相似度網絡的融合模型(HOPES)[3]和相似度網絡融合(SNF)[10]研究。

1.2 多組學數據整合流程

DAEMI 的工作流程如圖1 所示。受到文獻[17]啟發,借助深度自編碼器提取特征能力,本文中使用深度自編碼器進行重構訓練,學習多組學數據的特征表示。在此工作流程中,將DNA 甲基化、基因表達和miRNA表達數據輸入到具有3個隱藏層的深度自編碼器中,然后從瓶頸層提取所需的壓縮特征,使用K均值算法對所有這些具有新特征的樣本進行聚類,從而得到不同的癌癥亞型。

圖1 多組學整合的流程結構Fig.1 Architecture of multi-omics integration

與以前的研究相比[11],本文中的方法省去了使用生存數據選擇特征的步驟,從而可以避免了對生存數據的依賴。不同于Chaudhary 等人[11]的做法,沒有使用Cox模型篩選特征,而是認為所有新特征均與癌癥的預后亞型分型有關,因此可以擴大使用特征的范圍,更好地利用所有信息。相比自編碼器輸出層的重構數據,更需要自編碼器從輸入重構過程中學習到的特征表示,即隱藏層的輸出。因為多組學輸入信息維度過高,需要較小的隱藏層進行降維,這樣迫使自編碼器學習到相關多組學特征。自編碼器的重構輸出由于仍然是高維度信息,實用價值不大,故沒有在實驗中使用。

1.3 深度學習框架

自編碼器是一種無監督的前饋非遞歸神經網絡,自編碼器由輸入層、隱藏層和輸出層組成[18],具有多個隱藏層的自編碼器即為深度自編碼器。給定一個樣本x=(x1,x2,…,xn),每個樣本具有n維特征,則自編碼器的目標是將x重構為x′。使用sigmoid 函數作為激活函數:

其中,x和γ分別是大小為d和p的兩個向量。Wi是權重矩陣,bi是偏置矩陣。自編碼器根據以下公式計算x′:

其中,k是網絡層數,在本文中設置為3 層。相鄰兩層fk-1與fk的計算過程為一個組合函數fk-1°fk(x)=fk-1(fk(x))。選擇均方誤差作為損失函數:

在本文實驗設計環節,采用Python 語言編寫程序,利用深度學習框架Keras實現自編碼器[19]。選擇了具有3個隱藏層的深度自編碼器,將瓶頸層中學習到的特征作為樣本的新特征。對于模型的優化求解過程采用了自適應矩估計算法[20]計算每個參數的自適應學習率。

1.4 K 均值聚類

癌癥多組學數據整合工作完成后,需要開展相應的下游聚類任務,本文中采用的聚類方法為K均值聚類。給定樣本集D=(F1,F2,…,Fn),K均值聚類方法將數據劃分為K類(C1,C2,…,CK)。給定聚類簇數K時,簇CK代表簇中nk個對象的集合[21]。第j個簇Cj的質心為:

癌癥數據集樣本經過自編碼器重構訓練后,將瓶頸層中得到的壓縮特征替換為樣本的新特征,再通過K均值算法對這些具有新特征的樣本進行聚類,得到相應的癌癥分型結果。為了更好地與之前的算法(例如SNF和HOPES)進行比較,本文設置了相同數量的聚類簇數,即3個,代表可以識別3種癌癥預后亞型。本文中的K均值算法通過Python第三方軟件包scikit-learn[22]實現。

1.5 生存分析

受限于真實癌癥數據集是無標簽數據,針對聚類得到的癌癥分型結果,參考先前多組學整合研究[3,11-12],大多利用生存分析來驗證癌癥分型結果,本文中使用了Kaplan-Meier生存估計[23]和時序檢驗[24]兩種生存分析方法,評估聚類得到不同組之間是否有顯著的生存差異。Kaplan-Meier方法通過估計生存函數,可以繪制一組病例的生存曲線,不同組別的生存曲線分隔越大,生存曲線交叉越少,則代表生存差異越明顯。將聚類得到的三種組別的Kaplan-Meier曲線繪制出來,并計算了每種癌的時序檢驗P值。生存分析采用Python第三方軟件包lifelines實現[25]。

2 實驗分析

2.1 實驗數據與預處理

為了驗證深度自編碼器的多組學整合能力,分別采用模擬數據集和真實數據集進行測試。

模擬數據集通過SVD 分解構建而成,模擬數據集預設四種聚類結構。其參數如下:樣本數量為200 個,樣本特征為3 980個。選取均值為0,標準差為2.4、2.7、3的高斯噪聲對數據集進行污染,分別設定為低噪音數據集、中噪音數據集、高噪音數據集。

針對真實數據集,本文選擇了缺失值不超過20%的樣本,對于其他缺失較少的病例樣本使用插值法來填充缺失值。四類癌癥數據集的主要參數如下:結腸腺癌(COAD)數據集有92 個有效樣本,41 214 個特征;多形膠質母細胞瘤(GBM)數據集有215個有效樣本,13 881個特征;腎透明細胞癌(KIRC)數據集有122 個有效樣本,43 188 個特征;肺鱗狀細胞癌(LUSC)數據集共有106個有效樣本,35 468個特征。

本文對實驗數據均采用z-score標準化,以減弱不同組學間的差異。將經過標準化的數據輸入到深度自編碼器中進行重構訓練。每一個樣本將三種組學特征直接拼接而成,例如DNA 甲基化有1 000 維特征,基因表達有500維特征,miRNA有1 500維特征,那么最終輸入自編碼器模型的樣本有3 000維特征。

2.2 模擬數據實驗

在模擬癌癥數據集實驗中,將隱藏層中的節點數分別設置為500、100、500,新的壓縮特征從具有100 個節點的瓶頸層中提取得到。訓練次數為50輪。

模擬實驗結果采用歸一化互信息(NMI)進行評價,NMI可以衡量兩個聚類結果的相近程度,結果越接近1,相近程度越高。匯總實驗結果如表1 所示。與傳統方法相比,可以看出本文的方法具有最好的聚類效果,在各類噪聲情況下表現優異,抗噪聲能力很強。總體綜合來看,聚類結果領先SNF、iClusterPlus 和moCluster 很多,與HOPES 相比在低噪聲、中噪聲數據集領先,在高噪聲數據集表現更加優秀。其中SNF 隨著噪音強度提升,NMI 下降明顯。iClusterPlus 和moCluster 雖然抗噪聲能力很強,但是整體NMI處于較低水平,整合效果一般。HOPES雖然效果好,但是隨著噪聲增加,下降幅度比較大,魯棒性一般。而本方法對噪聲有很強的抵抗能力,同時整體表現較好。

表1 DAEMI方法與HOPES、SNF、iClusterPlus和moCluster的模擬數據集表現對比Table 1 Performances on simulation dataset of DAEMI compare with other approaches:HOPES,SNF,iClusterPlus and moCluster

總體來說,本文方法可以在模擬數據集上取得很好的結果,能有效證明對于多組學數據的挖掘整合能力。

2.3 真實癌癥數據實驗

在真實癌癥數據集實驗中,隱藏層節點數目與模擬實驗設置一致。訓練次數為100 輪。受限于真實癌癥數據缺乏真實標簽,參考各類多組學整合研究的主流評價方案[3,11-12],借助臨床數據繪制出生存曲線,并計算相關時序檢驗值,時序檢驗值可以判斷多組生存曲線之間是否有顯著差異,匯總時序檢驗值如表2所示。結合生存曲線與時序分析值作為癌癥預后亞型分型評估標準。不同組別的生存曲線間隔越明顯,證明生存差異越大。

表2 DAEMI方法與HOPES,SNF,iClusterPlus和moCluster的真實癌癥數據集表現對比Table 1 Performances on cancer datasets of DAEMI compare with other approaches:HOPES,SNF,iClusterPlus and moCluster

對于每一種癌癥,通過聚類得到三種不同的癌癥預后亞型,并繪制了每種亞型的Kaplan-Meier 生存曲線,如圖2 所示。根據生存數據計算了每種癌癥的時序分析P 值,并與先前的研究進行了比較,結果如表1 所示。圖2的Kaplan-Meier曲線顯示每種癌癥亞型之間均存在顯著生存差異(時序分析P值<0.05),查看生存曲線圖,三條癌癥亞型的Kaplan-Meier生存曲線之間分隔明顯,交叉情況較少,可以看出確實存在著生存上的差異性。橫向對比四種癌癥數據集的結果,結合生存分析曲線和時序分析值來看,DAEMI在LUSC數據集上效果最好,其時序分析P值為3.34×10-4。

圖2 TCGA中4種癌癥的生存曲線Fig.2 Survival curves for 4 cancers from TCGA

與各類整合方法對比,通過生存分析檢驗癌癥不同亞型之間是否存在顯著生存差異。將本文的方法與先前研究的傳統方法進行比較,由于前文提及的深度學習整合方法是需要生存信息進行特征篩選,之后再進行SVM監督學習訓練分類,本質上是一種監督學習方式,所以無法參與本次實驗比較。

生存曲線圖如圖2 所示,直觀來看DAEMI 整合的癌癥數據集的三條生存曲線分隔比較明顯,交叉現象較少,沒有出現生存曲線交叉纏繞的現象,這證明三種亞型之間的預后確實存在著明顯區別。匯總五種方法時序分析結果如表2 所示,可以看到DAEMI 均具有最好的時序分析P值,時序分析值與相應的生存曲線圖結合判斷,驗證了DAEMI 得到的三種亞型之間確實存在著顯著的生存差異。

值得指出的是,僅有GBM 數據集,DAEMI 略好于其他方法,而在COAD、KIRC 和LUSC 三個數據集上,本文的結果均明顯優于其他方法。這是由于COAD(維度41 214)、KIRC(維度43 188)和LUSC(維度35 468)數據維度遠大于GBM數據集(維度13 881),并且GBM數據集樣本數目最多(215 個),所以COAD、KIRC 和LUSC 的聚類難度遠大于GBM 數據集,這也印證了相應的實驗結果,表明DAEMI對高維度、少樣本的真實數據集的效果很好,具有很好的實用性。DAEMI在KIRC數據集上優勢明顯,這是聚類難度最大的數據集,其余方法均產生了較大的時序分析值,這表明DAEMI 發現癌癥分子亞型的表現很好,對于各類癌癥都具有很好的泛用性。盡管HOPES、SNF、iClusterPlus和moCluster方法在某些癌癥(例如LUSC 和GBM 數據集)中表現良好,但是缺乏一定的泛用性,例如在KIRC數據集上表現很差,表現不夠穩定,這是由于iClusterPlus 方法十分依賴特征篩選,需要配合相應的先驗知識,同樣的問題也出現在moCluster 上。HOPES 和SNF 方法相比前兩者有一定提升,但效果仍一般,泛用性比較一般。總的來說,本文方法在不同種類的癌癥數據集上表現更可靠,在聚類有效性和聚類穩定性方面都優于現有方法。

2.4 功能分析

2.4.1 393種差異表達基因

以KIRC 數據集為例進行功能分析,并使用R 包EBseq[26]對三組患者進行差異基因表達分析。

EBseq可以對多個組進行差異基因表達分析,找出在不同癌癥預后亞型中有明顯表達差異的基因。在本研究中,由于K均值聚類中獲得了3 個癌癥亞型分組,所以假設基因表達中有3 種不同的狀態,分別是低表達、中表達和高表達。因此,如圖3所示有5種可能的表達模式(P1、P2、P3、P4、P5)。其中,模式P1 表示三個組中基因表達狀態均一致;模式P2 表示三個組中前兩組基因表達狀態一致,第三組表達情況與前兩組不同;模式P3 表示第一組和第三組表達狀態一致,第二組表達情況不同;模式P4、模式P5以此類推。從中找出3個組中表達狀態都不相同的基因,即處于模式P5 的基因。經過EBseq 處理,可以發現393 個差異表達的基因處于模式5,其后驗概率均大于0.9,因此把這393 個基因作為差異表達的基因。

圖3 五種表達模式Fig.3 All 5 possible expression patterns

圖4繪制了393個差異表達基因的熱力圖。選取了相關的具有代表性的差異表達基因,例如UQCRC1、AP1M2、RAB25、HIGD1A,這些基因在先前的研究中已有報道。UQCRC1 是透明細胞腎細胞癌的生物標志物[27],AP1M2 也與透明細胞腎細胞癌有關[28],RAB25 是在胃腸道粘膜,腎臟和肺中表達的小GTP 結合蛋白[29],HIGD1A 曾在大腸癌研究中報道[30]。從中可以看到深度多組學整合方法可以有效地進行多組學整合和癌癥分型任務,同時也具有相關癌癥研究的生理意義。

圖4 393種差異表達基因熱力圖Fig.4 Heat map of differentially expressed 393 genes

2.4.2 富集通路分析

對于這393 個基因,使用了R 包clusterProfiler[31]進行了KEGG[32]通路分析和GO[33]通路分析,繪制出富集通路氣泡圖。其中縱坐標是各類通路;橫坐標為比率,代表該通路下差異基因占差異基因總數的比例。右側圖例中,氣泡大小代表基因個數,氣泡越大,基因個數越多;氣泡顏色代表富集的顯著程度,顏色越紅,顯著程度越高。圖5顯示了11個富集的GO項(Benjamini-Hochberg P 值<0.05)。橫軸表示富集倍數(Fold.Enrichment),縱軸從上到下依次是線粒體內膜(mitochondrial inner membrane)呼吸鏈(respiratory chain)、線粒體ATP 合成耦合電子輸運(mitochondrial ATP synthesis coupled electron transport)、ATP合成偶聯電子傳輸(ATP synthesis coupled electron transport)、線粒體呼吸鏈(mitochondrial respiratory chain)、呼吸鏈復合體(respiratory chain complex)、氧化還原酶復合物(oxidoreductase complex)、線粒體呼吸鏈復合體(mitochondrial respiratory chain complex I)、NADH 脫氫酶復合物(NADH dehydrogenase complex)、呼吸鏈復合體(respiratory chain complex I)、液泡質子轉運V 型ATP 酶復合物(vacuolar proton-transporting V-type ATPase complex)。這些通路中,如線粒體內膜、線粒體ATP合成、電子傳遞和線粒體呼吸鏈等均與線粒體有關。參考先前的研究,線粒體在癌癥的發展和轉移中起著重要作用[34],可以看出DAEMI整合方法能有效定位相關基因通路。

圖5 GO富集通路Fig.5 GO enriched pathways

如圖6 所示,在KEGG 分析中確定了8 種通路(Benjamini-Hochberg P值<0.05),縱軸從上到下依次是氧化磷酸化(oxidative phosphorylation)、亨廷頓病(huntington disease)、帕金森綜合癥(Parkinson disease)、非酒精性脂肪肝病(non-alcoholic fatty liver disease,NAFLD)、老年癡呆癥(Alzheimer disease)、心肌收縮(cardiac muscle contraction)、收集導管酸分泌(collecting duct acid secretion)、同源重組(homologous recombination)。其中最重要的通路是氧化磷酸化,這已被先前的研究證實與癌癥發展有關[35]。KEGG 富集分析還揭示了一系列神經退行性疾病通路與癌癥發展有關,如亨廷頓病、帕金森病和阿爾茨海默氏病。先前的研究[36]表明神經退行性疾病可能與癌癥共享某些通路,例如線粒體功能障礙和氧化應激在神經退行性疾病和癌癥中均起關鍵作用[37]。

圖6 KEGG富集通路Fig.6 KEGG enriched pathways

3 結束語

隨著高通量技術的發展,多組學數據整合方法的探索可以促進癌癥亞型的研究。先前研究提出的傳統方法易受到噪聲的影響,因此在某些癌癥數據集上的效果較差,不具備一定的普適性和魯棒性。而目前多數基于深度學習的多組學整合方法,依賴生存數據進行特征篩選,僅能對兩種癌癥亞型的識別效果較好,對多種癌癥亞型的識別效果較差。

為了解決各種癌癥亞型的分類問題,提出了一種基于深度自編碼器的多組學數據整合方法,即DAEMI。使用自編碼器整合DNA甲基化,基因表達和miRNA表達,從瓶頸層提取新特征,再進行聚類分析得到三種亞型。與其他傳統研究方法對比[3,8,10,16],本文的方法在模擬數據集與真實癌癥數據集上均取得了優良的結果,在數據量少的癌癥數據集上優勢更加顯著。這表明DAEMI比傳統方法更加有效,能夠適應不同的癌癥數據集,在多種癌癥數據集上表現結果比較接近,具有很好的泛用性。與依靠生存時間來選擇特征的深度學習方法相比[11-14],本文的方法不需要篩選特征,并且可以識別更多的癌癥亞型。DAEMI使用了深度自編碼器來提取新特征,不需要特征篩選就可以完成癌癥分型任務,在缺失臨床數據的數據集上也能夠進行亞型分析。

目前本文的方法還需要在更多癌癥數據集上進行測試,同時也需要進行更多不同組學數據的對比測試。多組學整合的流程一般是進行數據整合,再開展下游的聚類任務。本研究是將自編碼器應用在整合部分,相當于對多組學數據進行特征提取。目前正在做的工作是進一步將整合任務與聚類任務進行聯合優化,利用深度聚類方法同時完成數據整合和聚類標簽輸出兩個任務。在本文研究的基礎上,將研究中采用的自編碼器進行分割,取編碼器部分連接上單層分類網絡,作為分類器開展自監督學習。目前已經在大數據集上取得了不錯的效果,但針對多組學這類小樣本、高維度數據集,還需要時間進一步調試與研究工作。

總之,基于深度自編碼器的多組學整合可以增強人們對于癌癥分子亞型的理解,有助于探索癌癥亞型分類新方法,并能幫助醫療人員制定個性化的治療策略。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 男女男精品视频| 婷婷综合缴情亚洲五月伊| 在线观看视频99| 欧美在线黄| 高清不卡一区二区三区香蕉| 亚洲日本www| 国产免费一级精品视频| 国内a级毛片| 成年人国产网站| AV不卡国产在线观看| 青青草国产免费国产| 国产9191精品免费观看| 国产成人久久综合777777麻豆| 曰韩免费无码AV一区二区| 亚洲天堂福利视频| 国产久草视频| 国产成人高清在线精品| 久青草免费视频| 99国产精品国产高清一区二区| 91香蕉国产亚洲一二三区| 欧美一级大片在线观看| 亚洲欧美另类专区| 免费一级毛片在线播放傲雪网| 中文字幕在线视频免费| 国产成人免费高清AⅤ| 亚洲欧洲一区二区三区| 日韩欧美在线观看| 色综合天天操| 精品中文字幕一区在线| 女人av社区男人的天堂| 国产成人久久777777| 精品国产免费人成在线观看| 亚洲日韩精品无码专区| 久久国产拍爱| 思思热精品在线8| 国产精品久久久久鬼色| 亚洲永久免费网站| 亚洲AV免费一区二区三区| 素人激情视频福利| 色综合久久综合网| 国产午夜福利亚洲第一| 一本无码在线观看| www.91在线播放| 成人毛片在线播放| 国产国语一级毛片在线视频| 无码久看视频| 国产91精品调教在线播放| 亚洲永久精品ww47国产| 久久天天躁夜夜躁狠狠| 国产精品自在自线免费观看| 国产av无码日韩av无码网站| 日本亚洲国产一区二区三区| 五月婷婷欧美| 国产毛片网站| 久久精品国产在热久久2019| 久久亚洲中文字幕精品一区| 国产成人精品日本亚洲77美色| 日韩黄色在线| 天堂在线www网亚洲| 97久久人人超碰国产精品| 国产制服丝袜91在线| 欧美视频二区| 亚洲综合久久成人AV| 精品国产自在现线看久久| 久久这里只精品国产99热8| 婷婷亚洲最大| 亚洲色图欧美| 九色综合伊人久久富二代| 91在线丝袜| 成人国产一区二区三区| 亚洲无码视频图片| 国产爽歪歪免费视频在线观看 | 一区二区在线视频免费观看| 久久国产精品无码hdav| 日韩小视频在线播放| 啦啦啦网站在线观看a毛片| 一本综合久久| 欧美高清国产| 国产农村妇女精品一二区| 国产精品综合久久久| 欧美午夜久久| 亚洲免费毛片|