999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GAT 雙聚合運算與歸納式矩陣補全的關聯預測

2022-12-13 13:51:58張奕鄭婧蔡鋼生王真梅
計算機工程 2022年12期
關鍵詞:關聯特征模型

張奕,鄭婧,蔡鋼生,王真梅

(1.桂林理工大學 信息科學與工程學院,廣西 桂林 541004;2.廣西嵌入式技術與智能系統重點實驗室,廣西 桂林 541004)

0 概述

長鏈非編碼RNA(long non-coding RNA,lncRNA)是非編碼RNA 家族中的一個組成部分,它擁有長度超過200 個核苷酸的轉錄產物[1]。研究表明lncRNA 異常表達會導致多種復雜疾病。探尋導致疾病的lncRNA,有助于理解疾病產生的機理,為疾病治療及預后提供參考[2]。

由于生物實驗費時費力,在現實生活中大多采用可計算模型代替生物實驗來實現lncRNA-疾病的關聯預測,為生物實驗提供高效的更準確的候選項。目前,常用基于生物網絡和基于機器學習這兩類計算方法預測lncRNA-疾病關聯。

基于生物網絡的方法通常需要構建基因相似性網絡,構建完成后,根據lncRNA-疾病的關聯得分大小對候選的lncRNA 進行排序來預測致病基因。最常用的是標簽傳播算法,如重啟隨機游走和KATZ 算法,它們的主要區別在于不同的傳播算法應用的底層網絡不同。文獻[3]根據lncRNA 功能相似性網絡建立了全局的重啟隨機游走算法RWRlncD,從而對潛在的關聯信息進行預測。但是該模型不能預測沒有任何已知相關lncRNA 的新疾病或沒有任何已知相關疾病的孤立lncRNA。文獻[4]基于“與多種相同miRNA 有關的lncRNA 會導致相似疾病”這一生物假設建立了RWRHLD 模型,從而預測lncRNA-疾病的關聯信息。該模型將miRNA 信息加入到lncRNA-lncRNA 網絡中,與疾病相似性網絡和已知的lncRNA-疾病關聯網絡整合成新網絡,在這個新網絡中實施重啟隨機游走。但是該模型不適用于預測沒有已知lncRNA-miRNA 相互作用的lncRNA,模型實用性較差。文獻[5]結合已知的lncRNA-疾病關聯、lncRNA 表達譜、lncRNA 功能相似性、疾病語義相似性和高斯相互作用譜核相似性建立基于KATZ 的lncRNA-疾病關聯預測模型KATZLDA。雖然該模型可以發現新疾病或孤立lncRNA,但是模型預測精度不高。

基于機器學習的方法是根據與疾病相關的已知lncRNA 和沒有任何已知關聯的lncRNA-疾病對來訓練分類器和建立模型的。文獻[6]將已知的疾病-lncRNA 關聯和lncRNA 表達譜信息進行整合,構建了LRLSLDA 計算模型來預測潛在的lncRNA-疾病關聯。該模型不需要負樣本且適用于預測孤立lncRNA,但是模型最優參數的選取復雜,且模型分別將疾病空間和lncRNA 空間作為兩個分類器,對于同一個lncRNA-疾病對會產生兩個不同的得分,不同分數的選取會得出不同的預測結果。文獻[7]基于貝葉斯算法整合已知的與疾病相關的lncRNA 和多種生物學數據(基因組數據、調控和轉錄生物數據),預測潛在的lncRNA-疾病關聯。該模型雖然預測性能良好,但是貝葉斯分類器想要提高預測性能必須使用足夠多的負樣本,而此類研究缺少負樣本,隨機選擇負樣本不利于優化貝葉斯分類器的性能。文獻[8]提出基于矩陣分解的lncRNA-疾病關聯預測模型MFLDA。該模型通過矩陣分解將數據轉換為低秩矩陣,不同的數據擁有各自的權重,并進一步引入迭代解,同時對權重矩陣和低秩矩陣進行優化。優化后得到的矩陣用來重建lncRNA-疾病關聯,從而預測出潛在的lncRNA-疾病關聯。MFLDA 具有較好的適用性,很容易集成各種異構數據源來預測不同類型實體之間的關聯,但是該模型尋找低秩矩陣最優秩過程復雜,且模型更偏向于選擇稀疏的數據矩陣,導致模型預測精度不高。

為彌補上述不足,深度學習技術逐漸成為研究的熱點。圖作為一種能夠抽象出實體與實體之間關系的數據結構得到廣泛應用[9],圖結構可以將節點與節點間的關系通過邊的權重表現出來。目前,圖神經網絡主要應用于相鄰節點間的信息傳遞和匯聚。文獻[10]將圖神經網絡中的雙向門控循環網絡和標簽注意力機制結合,提出基于圖深度學習的金融文本多標簽分類算法,提升了文本分類性能。文獻[11]在動態網絡異常檢測中引入圖神經網絡,使得結構和屬性上的異??梢酝瑫r被獲知,提升了異常檢測的準確度。文獻[12]將圖神經網絡應用到會話序列推薦算法中,引入注意力機制,提出基于復雜結構信息的圖神經網絡序列推薦算法,提升了會話向量在推薦過程中的準確性。文獻[13]將圖神經網絡用于網絡中物理鏈路與路由方案路徑建模,實現了對延遲抖動等端到端性能指標的有效預估。

近年來,圖注意力網絡(Graph Attention Network,GAT)[14-15]也被應用于一些生物信息學任務中,如文獻[16]提出一種新的基于圖注意力網絡的方法GATMDA 識別微生物-疾病關聯,文獻[17]基于圖注意力網絡提出預測circRNA-疾病關聯的方法GATCDA,文獻[18]基于圖注意力網絡預測藥物ADMET 分類。但截止到目前,較少有使用圖注意力網絡進行lncRNA-疾病關聯預測的工作。另一方面,歸納矩陣補全(Inductive Martix Completion,IMC)技術廣泛應用于生物信息領域[19-21],但也普遍存在預測精度不高的問題。如何更好地將生物信息相似性網絡與歸納矩陣補全技術相結合,進一步提升預測性能,是有待研究的一個問題。

本文提出一種基于圖注意力網絡和歸納矩陣補全技術的雙融合機制lncRNA-疾病關聯預測模型(Dual Fusion Mechanism Prediction model for lncRNADisease Association,DFMP-LDA)。引入n頭注意力機制,設計帶有雙重聚合器的圖注意力網絡。傳統的圖注意力網絡雖然可以穩定自我注意的過程,但由于節點的獨立性,訓練后的節點特征不明顯,本文通過設計雙重聚合器增強lncRNA 節點與疾病節點特征,避免傳統可計算模型中因已知數據稀疏性導致預測精度不高的問題。在此基礎上,利用歸納矩陣補全技術恢復lncRNA-疾病關聯矩陣中缺失的元素,應用增強后的節點特征重建lncRNA-疾病關聯,并使用Adam 優化器[22]進一步提高預測精度。

1 DFMP-LDA 模型

1.1 模型框架

如圖1 所示,DFMP-LDA 模型框架主要包括3 個步驟,具體如下:

圖1 DFMP-LDA 模型框架Fig.1 Framework of DFMP-LDA model

1)相似性網絡建立。整合疾病集成相似性網絡∈Rnd×nd和lncRNA 集成相似性網絡∈Rnl×nl,得到lncRNA-疾病的特征矩陣X∈R(nl+nd)×(nl+nd)。其中,nl和nd代表lncRNA 和疾病的數量。

2)lncRNA 特征、疾病特征增強。使用帶有雙重聚合器的n頭圖注意力網絡訓練特征矩陣X,先計算矩陣X中任意節點i與鄰居節點集的注意力分數,再將節點i的特征和鄰居節點集特征進行“加”和“連接”雙重聚合操作,得到帶有注意力分數的特征矩陣Z∈R(nl+nd)×(nl+nd)。

3)lncRNA-疾病關聯重建。將第2)步得到的特征矩陣Z進行分解,得到疾病特征矩陣ZD∈Rnd×(nl+nd)和lncRNA特征矩陣ZD∈Rnl×(nl+nd),通過歸納矩陣補全技術重建原始ALD關聯網絡,得到新的補全后的lncRNA-疾病關聯Q∈Rnl×nd,再通過Adam優化器進行模型優化。

1.2 相似性網絡建立

1.2.1 疾病語義相似性網絡建立

利用文獻[23]提出的有向無環圖(Directed Acyclic Graph,DAG)計算疾病之間的語義相似性。任意疾病dt對疾病di的語義貢獻值用(dt)表示,計算公式如下:

其中:參數γ為語義貢獻系數,參考文獻[23]的研究結果,將γ設為其最優值0.5。

由文獻[23]可知,兩種疾病的DAG 圖的重疊部分越多,兩者相似程度越高。矩陣DS∈Rnd×nd表示疾病語義相似性網絡,矩陣元素DS(di,dj)表示疾病di和dj的語義相似性,計算公式如下:

其中:表示疾病di的DAG 圖;S(di)表示疾病di的語義值。S(di)計算公式如下:

1.2.2 lncRNA 功能相似性網絡建立

由文獻[23]可知,功能相似的lncRNA 往往與表型相似的疾病有關,計算兩個lncRNA 的功能相似性首先要理解疾病的語義相似性及其與lncRNA之間的關系。用集合D={d1,d2,…,dt,…,dnd}表示疾病集,max(dt,D)表示任意疾病dt在疾病集合D中語義相似性最大值,如式(4)所示:

矩陣FS∈Rnl×nl表示lncRNA 功能相似性網絡,矩陣元素FS(li,lj)表示lncRNAli和lj之間的功能相似性,計算公式如式(5)所示:

其中:集合D1表示與lncRNAli有關聯的疾病集合;集合D2表示與lncRNAlj有關聯的疾病集合;m、n分別表示集合D1和集合D2中疾病的數目。

1.2.3 高斯譜核相似性網絡建立

如果疾病di與lncRNAlj存在經實驗驗證的已知關聯,則定義IP(di)=1;如果疾病di與任何lncRNA都不存在經實驗驗證的已知關聯,則定義IP(di)=0。因為某些疾病不具備語義相似性,所以為了降低數據稀疏性對模型的影響,將高斯核函數[24]應用到生物信息節點之間拓撲結構的關聯關系網絡中。核函數在機器學習以及諸多生物信息分類中被證實是高效有用的方法,使用高斯核函數計算出的疾病高斯譜核相似性(以下簡稱高斯相似性)可以代替疾病語義相似性。矩陣GD∈Rnd×nd表示疾病的高斯相似性網絡,矩陣元素GD(di,dj)表示疾病di和疾病dj的高斯相似性,計算公式如式(6)所示:

在式(6)中,λD是標準化的核帶寬,計算公式如式(7)所示:

同理,用矩陣GL∈Rnl×nl表示lncRNA 的高斯相似性網絡,矩陣元素GL(li,lj)表示lncRNAli和lj的高斯相似性,計算公式如式(8)所示:

在式(8)中,λl是標準化的核帶寬,計算公式如式(9)所示:

1.2.4 集成相似性網絡建立

由于并非所有疾病都可以找到相關的lncRNA,如果給定疾病缺乏相關基因,將無法得到該疾病與其他疾病的語義相似性。為了提高疾病語義相似性的準確性,將疾病的高斯相似性和疾病語義相似性進行集成。如果疾病di與疾病dj之間存在語義相似性,則將di與dj之間的語義相似性定義為疾病語義相似性DS(di,dj)和疾病高斯相似性GD(di,dj)的平均值,否則等于疾病高斯相似性GD(di,dj),由此得到疾病集成相似性網絡,矩陣元素(di,dj)表示疾病di與dj的集成相似性,計算公式如式(10)所示:

同理,用矩陣表示lncRNA 集成相似性網絡,矩陣元素(li,lj)表示lncRNAli和lj的集成相似性,計算公式如式(11)所示:

將疾病集成相似性網絡和lncRNA 集成相似性網絡結合,定義對角矩陣X表示lncRNA-疾病的特征矩陣,用于后續的模型計算。矩陣X如式(12)所示:

1.3 lncRNA 特征與疾病特征加強

1.3.1 帶有雙重聚合器的n頭圖注意力網絡構建

原始圖注意力網絡通過注意力分數在節點更新時自適應聚合鄰居節點信息,通過為不同的鄰居節點分配不同的權重來學習圖上節點的表示。GAT 利用多頭注意力機制穩定自我注意的過程,每個注意頭采用“連接”的方式聚合特征,對于特征向量的提取效果還有待改進。為更好地提取lncRNA 特征向量和疾病特征向量,根據文獻[16]設計帶有雙重聚合器的n頭圖注意力網絡,在每個注意頭設計中加入雙重聚合器,對節點特征進行“加”和“連接”雙重操作,并將前一個注意頭的輸出特征作為下一個注意頭的輸入特征,經過n次迭代,構造出帶有雙重聚合器的n頭圖注意力網絡,達到強化節點間特征的目的。

1.3.2 注意頭中的特征增強過程

在注意頭中,特征增強過程具體如下:

1)注意特征訓練層

在特征矩陣X中任選一個元素作為節點i,根據圖注意力網絡的設計思想,計算節點i的鄰居節點j對節點i在第k次迭代中的注意力分數,計算公式如下:

其中:f(·)表示單層神經網絡;表示節點i在第k次(1≤k≤n)迭代過程中的特征向量;W∈R(nl+nd)×l表示權重矩陣。

為了使特征矩陣X中所有節點的注意力分數值在[0,1]區間,使用Softmax 函數進行標準化,標準化后的注意力分數用表示,計算公式如式(14)所示:

其中:Ni表示矩陣X中節點i的鄰居節點集合。

表示節點i在第k次迭代時鄰居節點集特征,計算公式如式(15)所示:

2)神經特征聚合層

在原始圖注意力網絡中,神經特征聚合層僅僅是將注意特征訓練層的特征進行“連接”操作,為增強節點特征,本文在注意特征訓練層得到節點i在第k次迭代時的鄰居節點集特征后,根據文獻[16]設計雙重聚合器,通過“加”和“連接”雙重聚合操作,實現對特征和的聚合。以Zk表示第k次聚合后的特征向量,計算公式如下:

其中:LeakyReLU(·)表示激活函數;“+”表示加操作;“||”表示連接操作;W1∈R(nl+nd)×k表示權重矩陣。

最后,每次聚合后的特征Zk經過n頭圖注意力網絡,得到最終的特征矩陣Z:

其中:ZD表示疾病特征矩陣;ZL表示lncRNA特征矩陣。

注:特征矩陣Z是原始特征矩陣X經過n頭圖注意力網絡得到的,故特征矩陣Z的前nd行表示疾病特征矩陣,其維數為nd×(nl+nd),其余行表示lncRNA 特征矩陣。

1.4 lncRNA-疾病關聯重建

在lncRNA-疾病關聯預測方面,研究者常采用矩陣補全的方式,用低秩的關聯矩陣表示lncRNA-疾病的關聯關系,通過較少的已知關聯恢復原始矩陣[25]。但傳統的矩陣補全技術依賴于現存的lncRNA-疾病關聯進行預測,由于關聯矩陣中存在整行、整列數據缺失的情況,會導致冷啟動發生,因此不能達到理想的預測效果。DFMP-LDA 采用歸納式矩陣補全技術,打破傳統矩陣補全的局限,使矩陣補全不只是單純依賴關聯矩陣,而是還加入了樣本和未標記信息,實現預測未知樣本的功能。

DFMP-LDA 模型使用上一步推導得到的疾病特征向量ZD和lncRNA 特征向量ZL補全已知的關聯矩陣ALD,重建lncRNA-疾病關聯,得到補全后的關聯矩陣Q,計算公式如下:

在此基礎上,通過最小化損失函數實現參數訓練,根據文獻[22],選擇Adam 優化器對矩陣Q進行優化,具體優化過程如下:

其中:L表示損失函數;η表示衰減系數;λ表示平衡正則項的平衡因子,其值設置為1;W2表示權重矩陣。

2 實驗與評價

2.1 實驗數據集與實驗環境

對原始數據庫LncRNA Disease v2.0[26]進行預處理,收集與人類疾病關系密切的lncRNA 及其關聯,去除重復疾病和lncRNA,最終得到本文使用的數據集Dataset1。Dataset1中含有352個經實驗驗證的lncRNA-疾病已知關聯對,涉及156 種lncRNA 和190 種疾病。為了建立模型,用矩陣Ald表示352 個已知的lncRNA-疾病關聯,nl和nd代表lncRNA 和疾病的數量。矩陣元素ALD(i,j)=1,表示lncRNAli與疾病dj之間存在經實驗驗證的已知關聯;矩陣元素ALD(i,j)=0,表示lncRNAli與疾病dj之間不存在經實驗驗證的已知關聯。所有實驗均在配置Intel Core i5-10210U,1.60 GHz CPU和64位處理器以及Windows 10 操作系統的計算機上完成。

2.2 評價指標

本文采用五折交叉驗證法,將已知的lncRNA-疾病關聯隨機分成5組,實驗過程中依次選擇1組lncRNA-疾病關聯(即正樣本)和1 組相同大小的未知關聯lncRNA-疾病對(即負樣本)作為測試樣本,剩下的4 組lncRNA-疾病關聯以及其余未知lncRNA-疾病對用來訓練模型。通過設置不同的閾值,獲得真陽率(True Positive Rate,TPR)、假陽率(False Positive Rate,FPR)、召回率、精度4 個模型評價指標,根據這4 個評價指標繪制ROC 曲線和PR 曲線,模型性能通過ROC 曲線下面積(AUC)和PR 曲線下面積(AUPR)衡量。為了避免隨機分組的影響,每組實驗重復進行10 次,最后根據10 次重復實驗的平均值計算AUC 值和AUPR 值。

2.3 參數選擇

本節分析注意頭數目n和Adam 優化器中衰減系數η對模型DFMP-LDA 預測性能的影響。首先根據文獻[16]將注意頭數目n設置為4,分析衰減系數η對DFMP-LDA 的影響。將參數值η從5E-6 增加到5E-1(步長為E-1),對數據集Dataset1 執行五折交叉驗證,得到的AUC值如圖2所示??梢钥闯?,當η為5E-3時,AUC值為最優值0.9528;當η為5E-2時,得到AUC的最小值0.822 8。類似地,將η設置為5E-3 后,改變注意頭數目n,發現當n為5 時,得到最優值0.932 2,如圖3 所示。綜合以上兩步,通過設置注意頭數目n為5,衰減系數η為5E-3,DFMP-LDA獲得最佳AUC 值0.932 2。

圖2 不同衰減系數下的AUC值Fig.2 AUC values under different delay factors

圖3 不同數目注意頭下的AUC值Fig.3 AUC values under different number of attention heads

2.4 性能比較

將DFMP-LDA與現有的3種基于機器學習和基于矩陣分解的計算方法SDLDA[27]、DMF-LDA[28]、TPGLDA[29]在相同的數據集Dataset1上進行比較。SDLDA使用奇異值分解提取lncRNA和疾病的線性特征,使用具有2 個完全連接層的神經網絡學習lncRNA和疾病的非線性特征,將線性特征和非線性特征結合成一個向量用于最終預測。DMF-LDA 使用帶有一系列非線性隱藏層的神經網絡,從lncRNA-疾病關聯矩陣中提取lncRNA 和疾病的潛在特征,然后將這2 個特征融合成一個新的向量,用其執行預測任務。TPGLDA將基因疾病關聯與lncRNA 疾病關聯相結合,基于分配算法預測潛在的lncRNA 疾病關聯。五折交叉驗證后,得到DFMP-LDA 與其他3 種模型的ROC 曲線、PR 曲線、AUC 值、AUPR 值和預測時間,分別如圖4、圖5 和表1 所示。

圖4 DFMP-LDA 與其他模型的ROC 曲線Fig.4 ROC curves of DFMP-LDA and other models

圖5 DFMP-LDA 與其他模型的PR 曲線Fig.5 PR curves of DFMP-LDA and other models

表1 DFMP-LDA 與其他模型的預測性能對比Table 1 Prediction performance comparison of DFMP-LDA and other models

由表1 可知,從AUC 值和AUPR 值來看,DFMPLDA的預測性能優于SDLDA和DMFLDA,雖然DFMPLDA 的AUC 值比TPGLDA 低了0.76%,但是AUPR 值比TPGLDA 高1.75%,而且在預測時間上DFMP-LDA較TPGLDA 節省了16.12%。從AUC 值、AUPR 值和預測時間3 個方面得出,DFMP-LDA 的綜合性能最優。

3 結束語

本文建立一種融合圖注意力網絡和歸納矩陣補全技術的lncRNA-疾病關聯預測模型,該模型利用圖注意力網絡的n頭注意力機制對節點及其鄰居節點集特征進行加權,并通過注意頭中的雙重聚合操作進一步增強節點特征。在此基礎上,增強后的特征矩陣輸入到歸納矩陣補全過程中,補全原始關聯矩陣中缺失元素,重建lncRNA-疾病關聯網絡。五折交叉驗證結果顯示,DFMP-LDA 與對比的3 種計算模型相比AUPR值最優,AUC 值分別比SDLDA 模型和DMFLDA 模型高7.64%、10.18%,雖然AUC 略低于TPGLDA 模型,但是預測時間節省了16.12%。以上結果顯示,DFMP-LDA模型是一個可靠的lncRNA-疾病關聯預測模型。

如何整合多種lncRNA 和疾病的生物信息是未來主要的研究方向。此外,因為無法獲得新lncRNA和孤立疾病的特征,所以DFMP-LDA 不能對這些基因和疾病進行預測。后續將考慮結合基因測序等手段收集更多的生物信息,同時對聚合器進行優化,進一步提高預測準確性。

猜你喜歡
關聯特征模型
一半模型
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲男人在线天堂| 婷婷久久综合九色综合88| 日韩欧美91| 成人毛片免费在线观看| 高h视频在线| 激情午夜婷婷| 曰AV在线无码| 欧美无专区| 色综合天天娱乐综合网| 操操操综合网| 嫩草在线视频| 国产福利免费观看| 日本人妻一区二区三区不卡影院| 国产Av无码精品色午夜| 免费国产一级 片内射老| 丁香六月激情综合| 亚洲精品第一页不卡| 人妻少妇乱子伦精品无码专区毛片| 波多野结衣国产精品| 精品久久久久成人码免费动漫| 国产成人精品视频一区二区电影 | 午夜一区二区三区| 99re这里只有国产中文精品国产精品| 91国内在线观看| 婷婷开心中文字幕| 在线观看国产精品日本不卡网| 亚洲国产系列| 91娇喘视频| 国产男人的天堂| 99人妻碰碰碰久久久久禁片| 国产综合无码一区二区色蜜蜜| 日韩黄色精品| 免费一级毛片在线播放傲雪网| 人人爽人人爽人人片| av尤物免费在线观看| 免费一极毛片| av尤物免费在线观看| 人人爽人人爽人人片| 综合色在线| av在线5g无码天天| 国产第一页亚洲| 国产第四页| 3344在线观看无码| 久久免费成人| www.av男人.com| 国产精品毛片一区| 免费在线观看av| 91精品免费久久久| 午夜无码一区二区三区| 一级毛片免费不卡在线视频| 在线看免费无码av天堂的| 国产熟睡乱子伦视频网站| 国产理论一区| 国产熟睡乱子伦视频网站| 久久精品亚洲中文字幕乱码| 亚洲欧美日韩中文字幕在线一区| 国产成人精品一区二区免费看京| 国产成人乱码一区二区三区在线| 97av视频在线观看| 欧美日韩精品一区二区视频| 亚洲AV无码乱码在线观看裸奔 | 国产在线精品人成导航| 久久毛片基地| 欧美日韩在线第一页| aaa国产一级毛片| 91久久偷偷做嫩草影院电| 人妻一本久道久久综合久久鬼色| 国产女人喷水视频| 日本道综合一本久久久88| 亚洲精品人成网线在线| 国产成人亚洲毛片| 一级黄色网站在线免费看| 欧美中文一区| 国产视频 第一页| 97青草最新免费精品视频| 久久精品国产亚洲麻豆| 一区二区三区四区日韩| 露脸一二三区国语对白| 亚洲高清资源| 国产精品福利尤物youwu | 欧美h在线观看| 亚洲人视频在线观看|