999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Protein-HVGAE:一種雙曲空間中的蛋白質編碼方法

2023-03-10 00:11:08王皓白沈昕黃尉健陳可佳
計算機與生活 2023年3期
關鍵詞:模型

王皓白,沈昕,黃尉健,陳可佳,3+

1.南京郵電大學 計算機學院,南京210023

2.南京郵電大學 理學院,南京210023

3.江蘇省大數據安全與智能處理重點實驗室(南京郵電大學),南京210023

蛋白質是生命活動的主要承擔者,蛋白質相互作用才能發揮個體的功能并參與到生化過程中。由于生物實驗的成本較高、實驗條件苛刻和結果假陽性概率較大,發現蛋白質之間的潛在交互是一個很大的挑戰。因此,研究者構建了以蛋白質為節點、相互作用為邊的蛋白質交互(protein-protein interaction,PPI)網絡,并設計精確且高通量的算法來識別和預測蛋白質的交互作用[1-2]。這樣既能有效指導實驗、縮短檢測周期,又能輔助檢測藥物靶標、攻克疑難雜癥。

隨著PPI數據種類的不斷豐富、規模的不斷擴大[3],出現了使用機器學習進行蛋白質序列編碼[4-7]、PPI 網絡表示[8]、蛋白質功能預測[9]和復合物識別[10]的方法。特別在PPI 預測任務中,學習算法旨在捕捉蛋白質節點的拓撲特性,以此推斷蛋白質之間是否存在交互。PPI網絡分析的早期工作以矩陣分解[11]和隨機游走[12-13]為主。圖神經網絡(如GCN[14]、GAT[2]、Graph-SAGE[1]等模型)隨后也應用于PPI 網絡,該模型能夠有效結合節點自身的生物屬性與網絡拓撲特性,在許多下游任務中性能顯著。

盡管上述模型展現出圖表示學習的強大能力,但其嵌入精度仍受限于歐氏空間的維數和計算復雜度[15]。PPI 網絡具有無標度屬性,滿足強冪律分布并呈現類似樹狀的層次結構。例如,在圖1 的Bio-GRID 蛋白質交互網絡中,節點的最大和最小度數分別為1 188 和2,平均度數為37.187,滿足強冪律分布。以往模型難以學到這一層次結構。

圖1 BioGRID 蛋白質交互網絡Fig.1 PPI network of BioGRID

最近,以雙曲空間嵌入為代表的流形表示學習成為新的發展趨勢[16]。它假設高維圖數據的分布近似于某個低維流形,可通過學習由距離逆向推斷節點間的連接關系。雙曲空間可近似為n叉樹的連續版本,其空間指數擴張的幾何特性與PPI 網絡特征高度貼合。因此,本文將雙曲空間的圖嵌入方法應用于PPI 網絡,不僅可以由隱變量的距離判斷節點的相似性,還能根據各節點的范數確定網絡的潛在層次結構(即節點間的相關性)[15-17]。

本文提出一種在雙曲空間中的變分圖自編碼器,用于蛋白質編碼。該模型采用兩個雙曲圖卷積網絡(hyperbolic graph convolutional networks,HGCN)[18]作為編碼器,計算隱藏層的均值和方差,并利用多個雙曲空間的不同曲率捕捉網絡的層次結構,區分各節點的低維表示。其中,雙曲圖卷積操作主要分為三步:(1)通過切平面對節點特征做歐氏-雙曲空間的轉換;(2)通過注意力機制在雙曲空間上進行鄰居節點聚合;(3)通過不同曲率構建不同層的HGCN,并據此設計非線性激活函數。模型采用Fermi-Dirac 函數做解碼器,在雙曲空間上使用內積運算重構網絡。最終,在重構的PPI網絡上實現PPI預測、蛋白質功能預測等下游任務。

1 相關工作

圖表示學習是指將圖中的節點轉化為能保留原始圖結構的低維稠密向量,更好用于節點分類、鏈接預測等下游任務。與傳統的基于矩陣分解和隨機游走的方法相比,圖神經網絡模型能夠較好地結合拓撲結構和節點語義特征,廣泛應用于圖表示學習中。經典的圖神經網絡包括GCN[14]、GAT[2]和Graph-SAGE[1]模型等。GCN[14]以鄰接矩陣和節點特征為輸入,并通過聚合一階鄰居節點做圖卷積運算,得到節點的低維稠密向量表示。GAT[2]模型在聚合鄰居節點上做進一步改進,計算各鄰居對中心節點的影響力,以此作為注意力權系數,得到鄰節點的加權求和表示。GraphSAGE[1]模型則是將學習單一節點嵌入轉化為學習節點聚合函數,并通過抽樣指定鄰居個數,解決了節點分布各異的問題。后來,Kipf 等人[19]提出變分圖自編碼器(variational graph auto-encoder,VGAE)模型,以GCN 為編碼器,計算網絡數據的分布,并通過隨機采樣作為隱變量,由內積解碼得到算法輸出。在PPI 網絡表示學習研究中,早期方法多致力于解決鄰接矩陣的稀疏性,計算蛋白質相似性矩陣[11]。Cho 等人[20]提出Mashup 模型,在整合而成的多物種蛋白質網絡上采用帶重啟機制的隨機游走算法,通過不同物種在相同蛋白質上相似的生化屬性學習蛋白質節點的特征。近年來,圖神經網絡開始運用于PPI 網絡的研究。Luck 等人[3]比較了LINE、DeepWalk、node2vec 和SDNE 在PPI 預測任務上的優劣。一些基于深度神經網絡的模型進一步結合了蛋白質的生物特征與網絡結構特征。例如:deepNF 模型[21]采用深度自編碼器,將不同物種的異構蛋白質網絡整合成通用的低維表示。Yao 等人[10]通過無監督的VGAE 模型,進一步利用無損放縮的自編碼器,學習蛋白質網絡的低維表示,實現蛋白質復合物的識別。Kulmanov 等人[9]設計DeepGO 算法,將蛋白質的氨基酸序列和其在網絡中的結構特征有效結合,通過多層神經網絡得到節點的低維嵌入。Hu 等人[22]分別在節點級自監督預訓練和圖級多任務半監督預訓練神經網絡,同時捕捉網絡的局部和整體表示。由于蛋白質可能參與多個生化過程,存在多種相互作用,Ioannidis 等人[23]在多關系蛋白質網絡上構建模型學習其表示。

單個蛋白質一般通過不同的相互作用參與到多種生化反應中,使得PPI 網絡具有顯著的層次結構,節點間度的差異較大。雙曲空間能反映異構拓撲[13,24]特征,即節點數量隨著其與根節點的距離呈指數級增長。因此,雙曲空間上的節點嵌入可有效區分度數差異較大的節點,突出中樞(hub)節點的主導地位。Krioukov 等人[25]首次從理論上證明雙曲模型在復雜網絡分析上的有效性,建立雙曲表示學習的上游模型。Papadopoulos 等人[26]進一步說明雙曲距離在分析復雜網絡演化的實用性。不過,上述模型僅學習到數據的淺層嵌入[15,27],而且沒有使用節點的自身屬性。最近以HGCN 模型[24]為代表的雙曲神經網絡模型[18,28]驗證了結合節點屬性和結構的方法在具有層次結構圖上的節點分類和圖分類任務中表現更加出色。

2 Protein-HVGAE 方法

本文提出了一種蛋白質表示學習方法Protein-HVGAE(hyperbolic graph auto-encoder for protein interaction networks),用于蛋白質鏈接預測和功能預測,總體框架如圖2 所示。該模型在雙曲空間上構建VGAE,采用兩層HGCN 對蛋白質進行編碼,充分學習網絡層次結構的特性(節點范數),以及節點間的相似性(節點距離)。這里,A表示PPI 網絡的鄰接矩陣(adjacency matrix,維數為n×n,其中n為蛋白質節點的數量),X表示網絡中蛋白質節點的特征矩陣(feature matrix,維度為n×d,d為節點特征向量的維度),將矩陣A與矩陣X做內積作為HGCN 的輸入。

圖2 Protein-HVGAE 的框架圖Fig.2 Framework of Protein-HVGAE

2.1 HGCN 編碼

HGCN[18]是圖卷積模型在雙曲空間上的實現,其核心在于通過歐氏切平面實現雙曲空間上未定義的復雜向量運算,并由不同的曲率區分度數差異較大的節點。其中,雙曲空間包含多個等距同構的雙曲模型[28],選取內積和度規定義簡明、數值計算穩定的洛倫茲模型(又名雙曲面模型),學習復雜網絡的隱變量表示。

2.1.1 雙曲-歐氏變換

2.1.2 隱藏層變換

將節點的歐氏特征映射至雙曲空間后,每一層HGCN 中的向量變換均在雙曲空間實現,操作如下:

為減少信息損失,以上操作均在各個節點的切平面上實現。為了更好地逼近網絡的層次結構,各層HGCN 采用不同的曲率,并通過將當前的歐氏輸出轉化為下一層的雙曲輸入,實現層與層間的平滑過渡。由于曲率各異,原點是相鄰層所在的兩個雙曲空間中唯一相同的坐標,在其上做切平面進行特征映射。令-1/Kl-1,-1/Kl分別為l-1和l層上的雙曲曲率,則雙曲空間中的非線性激活函數為:

2.2 HVGAE 模型

VGAE 是變分貝葉斯和圖神經網絡的結合。根據變分貝葉斯原理:對于任一觀察變量xk都存在一個利用xk得到隱變量的后驗分布q(zi|xi)。假設節點滿足正態分布,即q(zi|X,A)=N(zi|μi,diag(σ2i)),則對于整個網絡而言:

其中,Z為隱變量,A為鄰接矩陣,X為特征矩陣。

根據隱變量zi的分布,可通過采樣獲得其具體數值。再利用隱變量zi的內積進行解碼,重構鄰接矩陣:

損失函數由重構網絡損失和隱變量分布誤差構成,通過交叉熵函數以及后驗分布與正態分布的KL散度進行度量,即:

其中,Eq(Z|X,A)[lgp(A|Z)]為交叉熵函數,而KL[q(Z|X,A)|p(Z)]則是KL 散度。

算法1HVGAE 的偽代碼

3 實驗

本文在多個物種的PPI 數據集上進行實驗,通過鏈接預測和節點分類這兩個下游任務,觀察Protein-HVGAE 的表示能力和泛化能力。

3.1 PPI數據集

本文選取人類和酵母菌的三個蛋白質交互作用數據集:STRING-Human[12]、BioGRID[20]和STRINGYeast[12]。為了減少噪聲對數據的影響,僅保留置信度大于0.7 的交互作用。各數據集的統計信息見表1。

表1 3 個PPI數據集的統計信息Table 1 Statistics of 3 PPI networks

3.2 實驗設置

HVGAE 模型使用Adam 方法進行優化,分批次訓練,批大小設置為5 000,迭代次數為200 次,學習率設置為0.01。實驗使用兩層HGCN 嵌入層,每層的嵌入維度大小設置為128。為各對比方法均采用其原始論文中提供的最優參數,為了便于比較,每種方法的嵌入維度也設置為128。實驗將每個PPI 網絡按照8∶2 的比例將數據集劃分為訓練集和測試集。

獲得蛋白質表示之后,直接用于PPI 預測和蛋白質功能預測的下游任務。實驗選擇常用的AUC(area under the curve)和AP(average precision)作為PPI 預測性能的評價指標,并采用Macro-F1 作為蛋白質功能預測的評價指標。

3.3 比較方法

本文選取了一系列圖表示學習方法進行對比實驗,詳細介紹如下:

(1)Deepwalk[29]首次提出基于隨機游走進行網絡表示學習,通過隨機游走獲取k-hop 領域內的節點對構成節點序列,然后使用skip-gram 算法學習節點的表示。

(2)node2vec[12]是Deepwalk 的改進版本,主要的區別是在隨機游走時結合廣度優先搜索和深度優先搜索的策略,根據概率轉移矩陣進行游走。

(3)Struc2vec[30]與前兩個基于近鄰相似假設的方法不同,考慮了非近鄰的節點也可能擁有很高的結構相似性。

(4)GAE(graph auto-encoders)[19]是一種無監督學習框架,通過編碼器學習低維向量,然后通過解碼器重構圖數據。

(5)VGAE[19]和GAE 不同,編碼器學到的不是樣本的低維向量表示,而是低維向量表示的分布。

3.4 各模型性能比較

3.4.1 PPI預測

為了公平比較,首先去除網絡的節點屬性,比較了6 個模型在無節點屬性的PPI網絡下的鏈接預測表現,如表2 所示(表中*表示在無節點屬性情況下的預測結果)。

表2 PPI預測任務上的結果比較(數據無節點屬性)Table 2 Comparison of PPI prediction performance on datasets without node features 單位:%

結果表明,HVGAE 在3 個數據集上的性能均優于其他模型,在BioGRID 數據集的優勢最為顯著。這表明HVGAE 能夠適應不同物種的PPI網絡。

隨后,恢復PPI 網絡的節點屬性,觀察3 種模型GAE、VGAE 和HVGAE 在STRING-Human 和Bio-GRID 數據集下的預測結果(見表3)。其中,*表示在無節點屬性情況下的預測結果。

表3 PPI預測任務上的結果比較(數據包含節點屬性)Table 3 Comparison of PPI prediction performance on datasets with node features 單位:%

與預期相同,在添加節點屬性后,各個方法的預測性能均有所提高。總體來說,與歐氏空間的圖神經網絡模型相比,HVGAE 的性能在3 個數據集上均有明顯提升;而其余模型之間的性能差異并不顯著,且在不同數據集上排名有所波動。進一步說明,合適的幾何度量有助于學習準確的低維表示。

3.4.2 蛋白質功能預測

本文還在蛋白質功能預測(即節點分類)任務中觀察各方法的嵌入效果。本文將蛋白質的節點屬性轉化為功能標簽用于分類,并選用Marco-F1[2]作為多標簽分類的評價指標。表4 列出了在兩個數據集上6種方法的蛋白質功能預測結果。

表4 蛋白質功能識別任務上的Marco-F1 比較Table 4 Comparison of Marco-F1 in protein function recognition task 單位:%

3.5 雙曲-歐氏模型的對比

為了進一步研究雙曲空間是否在層次結構的網絡上更具嵌入優勢,本文還在異構率和雙曲率[12]兩方面量化網絡,以比較HVGAE 和VGAE 的性能。異構率刻畫了網絡的無標度屬性,節點度數差異較大的強冪律分布的網絡異構率較高。由于隱藏的層次結構無法直接提取[15],實驗使用Gromov[31]提出的雙曲率刻畫網絡中隱含的類樹狀結構[15,18,31]。層次結構越顯著,雙曲率越低。由此可見,異構率和雙曲率兩個指標呈反比。

使用PPI 預測任務進行比較,通過定義式(15)的優化率來表示HVGAE 對VGAE 在AUC 指標上的提升程度。

其中,AUCH和AUCE分別為HVGAE 和VGAE 在PPI預測任務上的AUC 值。本文使用雙坐標圖反映HVGAE 在3 個數據集上的優化率,以及各個網絡對應的異構率/雙曲率(圖3)。

圖3 HVGAE 對VGAE 的優化率Fig.3 Optimization rate of HVGAE to VGAE

實驗結果驗證了優化率滿足與異構率成正比、與雙曲率呈反比的特點。同時,在無標度屬性和層次結構最為顯著的BioGRID 數據集上,HVGAE 的性能提升最大,符合先驗知識。

此外,圖表示學習的結果還受到嵌入維數的影響。為了觀察VGAE 在不同幾何空間下的最優嵌入,本文采用BioGRID 數據集進行實驗,設置輸出層維數分別為32、16、12、8 和6,比較VGAE 在雙曲和歐氏空間上的重構精度(圖4)。

圖4 不同嵌入維數下HVGAE 和VGAE 的比較Fig.4 Comparison of HVGAE and VGAE with different embedding dimensions

結果表明,當嵌入維度貼近于數據潛在的真實分布(16 維)時,HVGAE 相較于VGAE 有明顯的提升(高達5.4 個百分點)。當對維度進一步壓縮,其預測精度始終優于VGAE。這進一步驗證了雙曲空間在高維數據的表示上信息損失率更低,因此更適用于刻畫復雜網絡的內在幾何空間。

3.6 曲率分析

實驗最后分析了HVGAE 中的曲率,以驗證模型的穩定性和優化潛力。對于HGCN,不同層曲率的設置有助于在降維過程中逐層逼近蛋白質網絡內在的幾何拓撲結構[18]。本文通過調整-lgK,便于研究曲率對3 個PPI 網絡嵌入精度的影響(見圖5)。

圖5 曲率分析Fig.5 Curvature analysis

由于人類PPI 網絡的層次結構較高,隨著曲率降低,PPI 預測的AP 指數呈上升趨勢,尤其是層次結構最高的BioGRID 數據集,AP 整體提升達到1 個百分點。對于酵母蛋白網絡,曲率下降反而減損了嵌入精度。這一現象與曲率的性質相吻合(即K趨向∞為歐幾里德空間)。

4 結束語

本文提出了一種蛋白質表示學習模型,即雙曲變分圖自編碼器Protein-HVGAE,充分發揮HGCN 和VGAE 在具有層次結構網絡中的學習能力。在不同物種的PPI 數據集上和多個下游任務中,本文方法均優于現有方法,驗證了模型在諸如PPI 網絡等具有無標度特性和較高層次結構圖上的優勢。未來工作中,將進一步研究基于HVGAE 的預訓練方法[8]以進一步獲得多物種PPI網絡的共性特征。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲天堂久久| 狠狠色综合久久狠狠色综合| 国产黑丝一区| 二级特黄绝大片免费视频大片 | 四虎影视库国产精品一区| 国产精品视频导航| 国产成人精品高清不卡在线| 成人福利免费在线观看| 国产精品对白刺激| 久久久久无码精品| 欧美性猛交一区二区三区| 一级爱做片免费观看久久| 欧美成人午夜影院| 在线免费亚洲无码视频| 亚洲二区视频| 亚洲高清中文字幕在线看不卡| 国产青榴视频| 在线国产综合一区二区三区| 免费在线视频a| 色综合久久无码网| 久久6免费视频| 国产本道久久一区二区三区| 91精品最新国内在线播放| 国产一级在线播放| 国产素人在线| 国产日韩精品欧美一区喷| 国产人人乐人人爱| 99re视频在线| 国产精品流白浆在线观看| 亚洲第一成网站| 凹凸国产熟女精品视频| 69av在线| 亚洲精品你懂的| 免费看美女自慰的网站| 中文字幕资源站| 亚洲色图综合在线| 97在线视频免费观看| 视频二区国产精品职场同事| 亚洲精品卡2卡3卡4卡5卡区| 国产9191精品免费观看| 亚洲天堂2014| 色吊丝av中文字幕| 伊人久久影视| 成人毛片免费在线观看| 亚洲一区二区三区中文字幕5566| 熟女成人国产精品视频| 91热爆在线| 色播五月婷婷| 国产黄在线观看| 国产女主播一区| 国产精品19p| 亚洲Av激情网五月天| 91成人精品视频| 无码中文AⅤ在线观看| 国产精品制服| 亚洲欧美一区在线| 2020久久国产综合精品swag| 久久综合激情网| 少妇露出福利视频| 中文无码日韩精品| 色网站在线视频| 九九热这里只有国产精品| 亚洲天天更新| 欧美.成人.综合在线| 伊人成人在线| 狠狠色综合网| 99热这里只有精品在线观看| 亚欧美国产综合| 2020最新国产精品视频| 爆乳熟妇一区二区三区| 国模视频一区二区| 亚洲欧洲日产无码AV| 97一区二区在线播放| 免费看的一级毛片| 人妻免费无码不卡视频| 欧美激情福利| 在线播放91| 午夜不卡福利| 日韩二区三区无| 婷婷午夜影院| 亚洲国产精品国自产拍A| 91丝袜美腿高跟国产极品老师|