999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合Doc2vec 與GCN 的多類型蛋白質(zhì)相互作用預(yù)測方法

2024-01-15 14:37:38曹漢童陳璟
智能系統(tǒng)學(xué)報(bào) 2023年6期
關(guān)鍵詞:信息方法模型

曹漢童,陳璟,2

(1. 江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院, 江蘇 無錫 214122; 2. 江南大學(xué) 江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇 無錫 214122)

蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction, PPI)在許多生物過程中都有著重要作用,在這些過程中,蛋白質(zhì)通過與其他蛋白質(zhì)相互作用形成特定功能。建立準(zhǔn)確的 PPI 預(yù)測模型對于理解正常及疾病狀態(tài)下的細(xì)胞生物至關(guān)重要,推動(dòng)了現(xiàn)代醫(yī)學(xué)的發(fā)展,如靶點(diǎn)治療[1]和新藥設(shè)計(jì)[2]。

生物實(shí)驗(yàn)技術(shù)[3-5]雖然能夠直接發(fā)現(xiàn)和驗(yàn)證PPI,但價(jià)格昂貴、檢測周期長,最顯著的缺點(diǎn)是單個(gè)實(shí)驗(yàn)檢測PPI 會(huì)存在假陽性和假陰性的可能,因此其類型并不能得到完全解釋[6-7]。隨著高通量實(shí)驗(yàn)技術(shù)的迅速發(fā)展,PPI 有關(guān)數(shù)據(jù)日益增多[8],這也使得通過計(jì)算方法預(yù)測其功能類型成為可能。相較生物實(shí)驗(yàn)技術(shù),計(jì)算方法速度快、成本低,可以在短時(shí)間內(nèi)預(yù)測一些高置信度的PPI。利用大量的PPI 數(shù)據(jù),可以構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò),進(jìn)而通過復(fù)雜網(wǎng)絡(luò)理論和機(jī)器學(xué)習(xí)方法預(yù)測PPI 類型。其中,網(wǎng)絡(luò)中的節(jié)點(diǎn)表示蛋白質(zhì),節(jié)點(diǎn)之間的連接表示對應(yīng)蛋白質(zhì)之間的相互作用。

針對PPI 預(yù)測問題,國內(nèi)外已有大量相關(guān)研究。文獻(xiàn)[9]基于同源性的方法,通過計(jì)算蛋白質(zhì)的BLAST 值將一對序列映射到已知的相互作用蛋白質(zhì),從而推斷出新的PPI;文獻(xiàn)[10]基于相鄰效應(yīng),提出結(jié)合自協(xié)方差(auto covariance,AC) 和支持向量機(jī)(support vector machine,SVM)方法,利用氨基酸與其 30 個(gè)鄰位氨基酸的相互作用表征 PPI 信息;文獻(xiàn)[11]采用物理化學(xué)特性響應(yīng)矩陣將序列轉(zhuǎn)化為矩陣,使用局部相位量化的紋理描述符提取局部短語信息矩陣,將隨機(jī)森林(random forest, RF)模型與新特征表示相結(jié)合來檢測 PPI;文獻(xiàn)[12]基于檢測交互的實(shí)驗(yàn)技術(shù),采用邏輯回歸(logistic regression, LR)來預(yù)測交互類型;文獻(xiàn)[13]基于SVM,結(jié)合描述氨基酸的聯(lián)合三元組特征和序列信息來預(yù)測PPI。其中多類型PPI 預(yù)測是對傳統(tǒng)PPI 預(yù)測方法的一種擴(kuò)展和改進(jìn),需要提供更全面、準(zhǔn)確和細(xì)致的預(yù)測結(jié)果。雖然基于計(jì)算方法和機(jī)器學(xué)習(xí)提出了用于多類型PPI 預(yù)測的可行方法,但這些方法很大程度上依賴于提取和選擇更好特征的能力,因此性能受到PPI 特征表示和模型表達(dá)能力的限制。

近年來由于深度學(xué)習(xí)的發(fā)展,并在PPI 預(yù)測問題上也得到了廣泛應(yīng)用。如文獻(xiàn)[14-16]分別使用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN) 以及區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region CNN, RCNN)來提取序列中的高維信息特征,從而改進(jìn)了PPI 相關(guān)任務(wù)中的模型預(yù)測性能。相較于早期機(jī)器學(xué)習(xí)方法,以上模型有了一定的深度,非線性的建模能力得到了增強(qiáng),對PPI 預(yù)測這類復(fù)雜的任務(wù)表現(xiàn)也不斷提升。

雖然上述方法能夠高效地提取蛋白質(zhì)序列信息,但忽視了PPI 網(wǎng)絡(luò)的結(jié)構(gòu)信息,存在一定的局限性,準(zhǔn)確性也有待提高。近年來,大量研究[17-18]表明,圖神經(jīng)網(wǎng)絡(luò)在利用圖結(jié)構(gòu)信息方面有著顯著的優(yōu)勢。因此,采用圖神經(jīng)網(wǎng)絡(luò)(graph neural networks, GNN)以利用PPI 網(wǎng)絡(luò)的結(jié)構(gòu)信息,搭建新型多類型PPI 預(yù)測模型,對于提升預(yù)測的準(zhǔn)確率有較好的前景。文獻(xiàn)[19] 考慮了PPI 的相關(guān)性,提出使用GNN 自動(dòng)學(xué)習(xí)PPI 網(wǎng)絡(luò)中的蛋白質(zhì)特征。文獻(xiàn)[20]將GNN 擴(kuò)展到多類型PPI 分類,并提出全新的測試集訓(xùn)練集劃分方法以及“新蛋白質(zhì)”這一概念-即在訓(xùn)練集中并沒出現(xiàn)過的蛋白質(zhì),實(shí)驗(yàn)結(jié)果表明過往方法對“新蛋白質(zhì)”的分類能力較弱。

因此,本文根據(jù)PPI 網(wǎng)絡(luò)中的蛋白質(zhì)結(jié)點(diǎn),利用其氨基酸序列信息和網(wǎng)絡(luò)結(jié)構(gòu)信息,對其進(jìn)行多類型預(yù)測,提出一種融合Doc2vec[21]文本嵌入方法和圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)[22]的多類型蛋白質(zhì)相互作用分類預(yù)測模型。該模型利用自然語言處理領(lǐng)域中詞袋預(yù)測任務(wù)的無監(jiān)督模型,對蛋白質(zhì)的氨基酸序列進(jìn)行訓(xùn)練,并將模型的輸出作為蛋白質(zhì)序列信息的初步特征,隨后使用一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并采用圖神經(jīng)網(wǎng)絡(luò)作為下游模型,在對單個(gè)蛋白質(zhì)進(jìn)行表征的同時(shí)聚合它的鄰居蛋白質(zhì)的信息。該方法僅利用蛋白質(zhì)序列信息和PPI 網(wǎng)絡(luò)結(jié)構(gòu)信息,在有效處理任何長度的序列信息的同時(shí)也簡化了模型深度,進(jìn)而高效準(zhǔn)確地預(yù)測蛋白質(zhì)之間的相互作用,尤其是對于未曾見過的“新蛋白質(zhì)”之間PPI 的多類型預(yù)測。

1 問題建模

假設(shè)存在一個(gè)蛋白質(zhì)為點(diǎn)的集合P,蛋白質(zhì)相互作用為邊的集合V(即PPIs),相互作用的類型為標(biāo)簽的集合T,表達(dá)公式如下:

式中:n表示蛋白質(zhì)的個(gè)數(shù);I表示相互作用,當(dāng)I(vij) =1/0 時(shí),表明蛋白質(zhì)pi和pj間存在/不存在相互作用(或它們之間的相互作用尚未發(fā)現(xiàn));m表示在數(shù)據(jù)集中出現(xiàn)的相互作用的類別總個(gè)數(shù)。

對于每一條蛋白質(zhì)相互作用vij,設(shè)其標(biāo)簽為xij,且xij∈T。所有的蛋白質(zhì)相互作用集合和對應(yīng)的標(biāo)簽集合構(gòu)成了所需的數(shù)據(jù)集的集合D,所有的蛋白質(zhì)相互作用集合和蛋白質(zhì)集合構(gòu)成了蛋白質(zhì)互作網(wǎng)絡(luò)G,表達(dá)公式如下:

由上述可知,針對多類型PPI 分類預(yù)測任務(wù),需要構(gòu)建一個(gè)模型,并在數(shù)據(jù)集D中劃分訓(xùn)練集和測試集,從訓(xùn)練集中學(xué)習(xí)使得該模型預(yù)測出的不斷地接近于真實(shí)值xij。

2 GDP 預(yù)測模型

2.1 預(yù)測方法

本文提出融合Doc2vec 與GCN 的多類型蛋白質(zhì)相互作用預(yù)測方法,該方法主要分為蛋白質(zhì)嵌入模塊、特征提取模塊、圖卷積編碼模塊和分類器預(yù)測模塊4 個(gè)部分。蛋白質(zhì)嵌入模塊通過調(diào)整Doc2vec 非監(jiān)督段落向量學(xué)習(xí)模型,將不定長的蛋白質(zhì)序列特征信息嵌入至低維向量空間,解決了蛋白質(zhì)初步特征選取問題;特征提取模塊利用一維卷積網(wǎng)絡(luò)的堆疊,將蛋白質(zhì)嵌入模塊獲得的特征進(jìn)一步整合,利用多個(gè)卷積核,放大針對PPI 多分類預(yù)測的有效特征信息;圖卷積編碼模塊利用圖深度學(xué)習(xí)的優(yōu)勢,充分結(jié)合PPI 網(wǎng)絡(luò)結(jié)構(gòu)的信息,聚合每個(gè)蛋白質(zhì)的相鄰蛋白質(zhì)的信息,優(yōu)化了蛋白質(zhì)結(jié)點(diǎn)的編碼表征問題;分類器預(yù)測模塊根據(jù)PPI 網(wǎng)絡(luò)結(jié)構(gòu)信息,找到蛋白質(zhì)相互作用邊,結(jié)合兩個(gè)蛋白質(zhì)節(jié)點(diǎn)信息,并不斷從中學(xué)習(xí)更高效且準(zhǔn)確的分類預(yù)測;具體結(jié)構(gòu)如圖1所示。

圖1 GDP 框架結(jié)構(gòu)Fig. 1 GDP framework

2.2 蛋白質(zhì)嵌入模塊

蛋白質(zhì)序列嵌入一直是生物信息學(xué)領(lǐng)域的重要問題,良好的表征能力決定了蛋白質(zhì)預(yù)測相關(guān)任務(wù)的上限。隨著Word2vec、Seq2vec 等自然語言處理(natural language processing, NLP)領(lǐng)域中詞句嵌入技術(shù)發(fā)展,憑借其強(qiáng)大的表征能力,近年來已被應(yīng)用于蛋白質(zhì)的相關(guān)表征任務(wù)中。Doc2vec 是其中嵌入方法的一種,能得到任意長度文檔的向量表示。基于此,本文將蛋白質(zhì)序列看作文檔,以改進(jìn)Doc2vec 方法對蛋白質(zhì)序列進(jìn)行嵌入,模塊結(jié)構(gòu)如圖2 所示。由圖2 可知,本文將每個(gè)蛋白質(zhì)p的氨基酸序列s作為輸入,設(shè)置超參數(shù)滑動(dòng)窗口長度w和子序列數(shù)量k,其中每個(gè)子序列由若干個(gè)k-mer(k個(gè)氨基酸可以組合為一個(gè)k-mer)構(gòu)成。對于每個(gè)子序列采取連續(xù)詞袋(continuous bag of words)模型訓(xùn)練,即使用子序列的嵌入和滑動(dòng)窗口中的上下文k-mer 的嵌入來學(xué)習(xí)預(yù)測中央k-mer 出現(xiàn)的概率。聚合k個(gè)子序列的嵌入信息得到當(dāng)前輸入蛋白質(zhì)的序列嵌入。通過該模塊可以將最終生成的低維向量作為多標(biāo)簽分類任務(wù)的初步特征。

圖2 蛋白質(zhì)嵌入模塊結(jié)構(gòu)Fig. 2 Protein embedding framework

2.3 特征提取模塊

在針對NLP 中文本任務(wù)等序列任務(wù)時(shí),一維卷積神經(jīng)網(wǎng)絡(luò)有著提升網(wǎng)絡(luò)特征表達(dá)、高效升維與降維、跨通道信息交互等優(yōu)點(diǎn),故本文采用了一維卷積神經(jīng)網(wǎng)絡(luò)來更深層地提取蛋白質(zhì)的局部特征信息,該模塊將蛋白質(zhì)嵌入模塊得到的特征作為輸入,經(jīng)過卷積與全連接層作為輸出,公式如下:

經(jīng)過兩層的卷積再連接一層全連接層,該模塊能夠全面觀測蛋白質(zhì)序列信息并提取到針對多類型PPI 預(yù)測任務(wù)的有效特征,提高模型的分類效率。

2.4 圖卷積編碼模塊

GNN 是基于深度學(xué)習(xí)的處理圖域信息的方法,由于其較好的性能和可解釋性,GNN 已成為一種廣泛應(yīng)用的圖分析方法[23];生物計(jì)算主要利用了蛋白質(zhì)相互作用網(wǎng)絡(luò),因此基于GNN 進(jìn)行相關(guān)生物任務(wù)取得了高效的進(jìn)展。GNN 是對圖進(jìn)行特征變換和特征提取,需要盡可能多的利用圖中節(jié)點(diǎn)特征和拓?fù)湫畔ⅰD分類相關(guān)任務(wù)中,目前主要有兩種卷積方式:1) 信息傳遞式的卷積,即直接在原始圖結(jié)構(gòu)中定義由鄰居聚合和迭代更新機(jī)制所組成的卷積算子,例如GCN、圖注意力網(wǎng)絡(luò)(graph attention network, GAT)等;2) 傳統(tǒng)CNN 式的卷積,先將非歐氏圖轉(zhuǎn)化為規(guī)則網(wǎng)格結(jié)構(gòu),再應(yīng)用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)直接進(jìn)行卷積操作。

圖同構(gòu)卷積網(wǎng)絡(luò)(GINConv)屬于GCN 中的一種,其在同構(gòu)網(wǎng)絡(luò)上有強(qiáng)大的表征能力,故本文采用GINConv,圖卷積編碼結(jié)構(gòu)如圖3 所示。

圖3 圖卷積編碼結(jié)構(gòu)Fig. 3 Graph convolution encoding framework

GINConv將卷積過程形式化為信息傳遞和節(jié)點(diǎn)信息更新兩個(gè)函數(shù),各個(gè)節(jié)點(diǎn)將自己鄰居的信息聚合到自身節(jié)點(diǎn),節(jié)點(diǎn)信息更新是將該節(jié)點(diǎn)上一層的節(jié)點(diǎn)表示與聚合后的鄰居信息進(jìn)行結(jié)合,具體過程如下公式:

其中ε可以是超參數(shù)或者為可學(xué)習(xí)參數(shù)。

2.5 分類器模塊

通過以上3 個(gè)模塊,每個(gè)蛋白質(zhì)都學(xué)習(xí)到了自身的表征向量,利用點(diǎn)積運(yùn)算將蛋白質(zhì)pi和pj的表征向量結(jié)合起來,在后續(xù)添加一層MLP 作為分類器,來進(jìn)行多類型PPI 預(yù)測。預(yù)測的結(jié)果表示為其中hi和hj為圖卷積編碼模塊對應(yīng)蛋白質(zhì)的輸出。

2.6 損失函數(shù)

對于該任務(wù),本文采用多任務(wù)二元交叉熵作為損失函數(shù),公式如下:

式中:Vtrain表示PPI 集合V中劃分出的訓(xùn)練集,表示訓(xùn)練集中vij對應(yīng)的第k種功能類型的真實(shí)標(biāo)簽,則表示模型對其預(yù)測的輸出。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)和評價(jià)指標(biāo)

本文使用String 數(shù)據(jù)庫[24]中的多類型PPI 數(shù)據(jù)作為其中一個(gè)數(shù)據(jù)集來評估所提出GDP 預(yù)測模型,String 數(shù)據(jù)庫收集整合了公開的蛋白質(zhì)相互作用信息來源,并構(gòu)建了一個(gè)全面客觀的大型PPI 網(wǎng)絡(luò),包括直接(物理)和間接(功能)相互作用,其將PPI 分為7 種類型,即反應(yīng)(reaction)、結(jié)合(binding)、(activation)、抑制(inhibition)、催化(catalysis)和表達(dá)(expression),任意一對PPI 至少包含其中一種類型。此外,為驗(yàn)證GDP 模型的泛用性,運(yùn)用了Chen 等[16]從智人子集中隨機(jī)生成的SHS27k 和SHS148k 兩個(gè)子數(shù)據(jù)集。3 個(gè)數(shù)據(jù)集的信息如表1 所示。

表1 數(shù)據(jù)集的規(guī)模信息Table 1 The size of the data set

為避免數(shù)據(jù)的極度不平衡對結(jié)果造成不良影響,采用F1,micro得分作為評價(jià)指標(biāo)。公式如下:

式中:n為分類類別總數(shù);TP,i表示第i類的真陽性數(shù);FP,i表示第i類的假陽性數(shù);FN,i表示第i類的假陰性數(shù)。

3.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)運(yùn)行環(huán)境為Win10 系統(tǒng)、32 GB 內(nèi)存,利用Pycharm 軟件和Pytorch1.8 版本框架搭建GDP 預(yù)測模型。實(shí)驗(yàn)的參數(shù)設(shè)置如表2 所示。

表2 實(shí)驗(yàn)參數(shù)Table 2 Experimental parameter

3.3 實(shí)驗(yàn)結(jié)果

為驗(yàn)證本文提出的方法的有效性,對上述3 個(gè)數(shù)據(jù)集分別使用隨機(jī)(Random)搜索、廣度優(yōu)先搜索(breadth first search, BFS)和深度優(yōu)先搜索(depth first search, DFS)策略進(jìn)行劃分。如圖4 所示,當(dāng)分別使用3 種策略對數(shù)據(jù)集進(jìn)行劃分時(shí),在選取相同數(shù)量的PPI 情況下,BFS和DFS 劃分策略下的測試集蛋白質(zhì)節(jié)點(diǎn)遠(yuǎn)少于Random 劃分策略,即采用BFS 和DFS 劃分?jǐn)?shù)據(jù)集時(shí),能夠出現(xiàn)大量訓(xùn)練集未出現(xiàn)過的“新蛋白質(zhì)”,這些新蛋白質(zhì)更能檢測模型的預(yù)測效率。因此,本文在上述3 個(gè)數(shù)據(jù)集采用Random、BFS 和DFS 3 種劃分方式,分別與當(dāng)前的PPI 分類方法[11,12,14-16,20]進(jìn)行了對比實(shí)驗(yàn),其中RF 與LR 分別使用隨機(jī)森林和邏輯回歸方法,DPPI、DNN-PPI 和PIPR 使用卷積網(wǎng)絡(luò)方法,GNN-PPI 采用圖神經(jīng)網(wǎng)絡(luò)方法。實(shí)驗(yàn)結(jié)果分別如圖5 和圖6 所示。

圖4 不同的測試集劃分策略Fig. 4 Different test sets partitioning strategies

圖6 各方法在數(shù)據(jù)集String 上的micro-F1 得分Fig. 6 Micro-F1 score of each method on String dataset

由圖5 可知,在micro-F1得分指標(biāo)和3 種數(shù)據(jù)集劃分模式下,本文提出的GDP 方法在SHS27k數(shù)據(jù)集和SHS148k 數(shù)據(jù)集上的效果均優(yōu)于其他方法。在數(shù)據(jù)集SHS27k 中,GDP 方法在Random、BFS 和DFS 等3 種劃分方式下的micro-F1得分指標(biāo)相較于目前性能最好的GNN-PPI 方法分別提升了1.2%、9.1%和3.5%;在數(shù)據(jù)集SHS148k 中,GDP 方法在Random、BFS 和DFS 等3 種劃分方式下的micro-F1指標(biāo)分別提升了0.8%、11.4%和1.9%。由此可知,GDP 方法的多類型PPI 預(yù)測結(jié)果的準(zhǔn)確率取得了較大的提升,其原因是PPI 網(wǎng)絡(luò)中僅缺失部分邊緣蛋白質(zhì),而對蛋白質(zhì)進(jìn)行特征表示時(shí)能夠獲得大部分鄰居的特征表示。實(shí)驗(yàn)結(jié)果也表明,使用圖卷積能夠較好的聚合鄰居節(jié)點(diǎn)特征的效果,能夠較大提升圖網(wǎng)絡(luò)中的預(yù)測任務(wù)結(jié)果。與此同時(shí),在Random 和DFS 模式下,GDP 方法也取得了一定提升,這表明蛋白質(zhì)序列表征在PPI 任務(wù)中有著舉足輕重的作用[25]。

由圖6 可知,在micro-F1得分指標(biāo)和3 種數(shù)據(jù)集劃分模式下,GDP 方法在String 數(shù)據(jù)集上的效果優(yōu)于大部分算法。但在BFS 和DFS 劃分策略下,GDP 方法略遜色于GNN-PPI 方法,而在Random 劃分策略下,傳統(tǒng)氨基酸特征提取的深度學(xué)習(xí)方法DPPI 和PIPR 也稍高于GDP 方法。其原因是String 數(shù)據(jù)集屬于大規(guī)模PPI 網(wǎng)絡(luò),而GDP方法訓(xùn)練參數(shù)小,網(wǎng)絡(luò)深度淺,對于大型網(wǎng)絡(luò)易出現(xiàn)過擬合的現(xiàn)象,這也表明GDP 方法存在一定的局限性。

為進(jìn)一步驗(yàn)證GDP 方法中設(shè)計(jì)的蛋白質(zhì)嵌入模塊,特征提取模塊,圖卷積編碼模塊的有效性,以及這3 個(gè)模塊對于整個(gè)方法性能的提升,本文將GDP 方法轉(zhuǎn)化為3 個(gè)新的方法:GDPACID、GDP-CNN 與GDP-GNN 方法。GDP-ACID將蛋白質(zhì)編碼模塊替換為傳統(tǒng)氨基酸One-hot 編碼方式,GDP-CNN 將特征提取模塊替換為兩層MLP 的堆疊,GDP-GNN 則刪除了圖卷積編碼模塊。實(shí)驗(yàn)結(jié)果如表3 所示,由表3 可知,當(dāng)替換或刪減了這3 個(gè)模塊后,在不同數(shù)據(jù)集上和不同劃分策略下,預(yù)測效果都會(huì)出現(xiàn)一定程度的下滑。相較于蛋白質(zhì)嵌入模塊,圖卷積模塊對整個(gè)方法的影響更為明顯,這也反映了將圖深度學(xué)習(xí)應(yīng)用到PPI 網(wǎng)絡(luò)上的必要性。為研究不同蛋白質(zhì)嵌入維度與圖卷積嵌入維度對micro-F1指標(biāo)的影響,在中等規(guī)模數(shù)據(jù)集SHS148K 上分別設(shè)置不同的蛋白質(zhì)嵌入維度d1與圖卷積嵌入維度d2,實(shí)驗(yàn)結(jié)果如表4 和5 所示。由表4 和5 可知,隨著嵌入維度的不斷增加,micro-F1指標(biāo)得分略微降低,但由于增大嵌入維度,可將更多的信息編碼,故其收斂速度加快,較好地提升了方法的性能。另一方面,嵌入的維度過高時(shí)會(huì)造成過擬合的現(xiàn)象。因此為選擇合適的嵌入維度,本文將蛋白質(zhì)嵌入維度d1與圖卷積嵌入維度d2都設(shè)置為128。

表3 GDP 方法及其相關(guān)方法在不同數(shù)據(jù)集和劃分策略上的micro-F1 得分Table 3 Micro-F1 scores of the GDP method and its relative on different data sets and partitioning strategies

表4 不同嵌入維度d1 對GDP 方法micro-F1 指標(biāo)的影響Table 4 Effects of different embedding dimensions d1 on micro-F1 index of GDP method

表5 不同嵌入維度d2 對GDP 方法micro-F1 指標(biāo)的影響Table 5 Effects of different embedding dimensions d2 on micro-F1 index of GDP method

4 結(jié)束語

針對多類型蛋白質(zhì)相互作用預(yù)測問題,本文提出一種融合Doc2vec 與GCN 的預(yù)測方法,GDP方法改進(jìn)了Doc2vec 方法,在不依賴于生物特性信息的情況下,充分地利用了其完整氨基酸序列信息,為下游模型的輸入提供了有效的特征,同時(shí)將圖深度學(xué)習(xí)運(yùn)用到PPI 網(wǎng)絡(luò)中,通過圖卷積聚合鄰居蛋白質(zhì)的特征信息,考慮了整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)信息。在真實(shí)數(shù)據(jù)集上與多種其它類似算法進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明本文提出的GDP 預(yù)測模型具有更高的準(zhǔn)確性。

后續(xù)工作中,將從兩個(gè)角度進(jìn)一步研究:一是選擇更高效的模型對蛋白質(zhì)序列進(jìn)行嵌入表征,如基于Transformer 方法,該方法能將蛋白質(zhì)的GO 注釋以及二級結(jié)構(gòu)結(jié)合起來表征蛋白質(zhì),信息利用全面并且能夠看見全局的序列特征;二是探究圖深度學(xué)習(xí)領(lǐng)域?qū)Φ鞍踪|(zhì)相互作用網(wǎng)絡(luò)其他相關(guān)任務(wù)的影響,如蛋白質(zhì)的結(jié)構(gòu)預(yù)測或者PPI網(wǎng)絡(luò)比對任務(wù)。

猜你喜歡
信息方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會(huì)信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产精品天干天干在线观看 | 日韩欧美高清视频| 国产精品3p视频| 国产在线精品99一区不卡| 亚洲欧洲日韩综合| 久久久久国产一区二区| 播五月综合| 亚洲欧美激情另类| 久久综合色视频| 国产欧美日韩综合一区在线播放| 国产成人精品免费视频大全五级| 亚洲AⅤ综合在线欧美一区| 国模沟沟一区二区三区| 国产成人综合日韩精品无码不卡| 久久香蕉国产线看观看式| 人人看人人鲁狠狠高清| 国产第四页| 日韩精品高清自在线| 永久成人无码激情视频免费| 色国产视频| 58av国产精品| 欧洲日本亚洲中文字幕| 成人国产免费| 婷婷久久综合九色综合88| 日日碰狠狠添天天爽| 亚洲自偷自拍另类小说| 波多野吉衣一区二区三区av| 国产一区自拍视频| 老司机午夜精品网站在线观看 | 国产毛片高清一级国语 | 欧美精品亚洲日韩a| 三区在线视频| 国产女人综合久久精品视| 久久久久国产一级毛片高清板| 亚洲AV无码一区二区三区牲色| AⅤ色综合久久天堂AV色综合| 日韩精品一区二区三区免费| 青草视频网站在线观看| 国产在线观看99| 欧美一级大片在线观看| 国产成人午夜福利免费无码r| 日韩久草视频| 一本久道久久综合多人| 欧美不卡二区| 亚洲欧美精品一中文字幕| 午夜精品福利影院| 中文字幕66页| jizz亚洲高清在线观看| 婷婷亚洲综合五月天在线| 国产亚洲精品yxsp| 亚洲欧州色色免费AV| 伊人91视频| 国产成人h在线观看网站站| 91欧美亚洲国产五月天| 国产日韩精品欧美一区灰| 国产视频一区二区在线观看| 国产精品三级专区| 国产精品天干天干在线观看| 中文天堂在线视频| 欧美有码在线| 欧美午夜在线播放| 国产精品亚洲一区二区三区在线观看| 精品成人一区二区三区电影| 中文字幕有乳无码| 国产在线第二页| 午夜不卡福利| 国产一级片网址| 国产成人精品男人的天堂| 久久国产精品影院| 国产自在线播放| 亚卅精品无码久久毛片乌克兰| 妇女自拍偷自拍亚洲精品| 欧美区一区二区三| 伊人国产无码高清视频| a亚洲视频| 免费a级毛片视频| 国产微拍精品| 国产青榴视频| www.亚洲国产| 久久综合五月婷婷| 国产成人高清精品免费| 久久精品午夜视频|