999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的LncRNA 與蛋白質互作關系預測算法*

2022-04-07 03:43:00李巧君李江岱王愛菊
計算機與數字工程 2022年3期
關鍵詞:特征融合方法

李巧君 李江岱 王愛菊

(1.河南工業職業技術學院電子信息工程學院 南陽 473000)(2.鄭州工程技術學院信息工程學院 鄭州 450000)

1 引言

長鏈非編碼RNA(Long non-coding RNA,LncRNA)是一種不具有顯著開放性讀碼框而長度大于200 個核苷酸的非編碼功能細胞內源性RNA[1]。與信使RNA(mRNA)相比,由于LncRNA 拼接效率較低常被認為是轉錄噪聲,然而,實驗證明LncRNA 在植物的發育、激素依賴性信號傳導和脅迫反應中具有不可或缺的作用[2],特別是LncRNA 與蛋白相互作用與基因表達調控和植物抗病等細胞過程有關。LncRNA 均是通過與相應的RNA 結合蛋白的相互作用而發揮作用的,RNA 結合蛋白也可以與不同的LncRNA 相互作用,調節不同的細胞過程[3]。因此,識別潛在的LncRNA 與蛋白質相互作用對于理解LncRNA功能至關重要。

目前,對于LncRNA 和蛋白質相互調控機制的研究大多集中在動物和人類癌癥方面,在植物中還沒有廣泛的研究,為深入探索LncRNA 和蛋白質的相互作用,本文借鑒PLRPIM[4]方法,使用K-mer 和One-hot 分別提取LncRNA 和蛋白質的數字向量,利用棧式自編碼器(Autoencoder,AE)[5]和融合神經網絡分別提取特征向量,對特征向量進行點乘方法形成整體特征的融合矩陣,最后通過訓練以整體特征為輸入并且融合了注意力機制[6]的深層網絡結構,獲得了具有期望功能的預測模型。該模型結合卷積神經網絡(ConvoLutionaL NeuraL Networks,CNN)[7]和長短期記憶網絡(Long Short-Term Memory,LSTM)[8]的不同優勢,充分獲得具有時間依賴和參數共享特點的更加高級的特征,實現了對LncRNA和蛋白質互作關系的關聯預測。通過以玉米和擬南芥為樣本的試驗,可以看出本方法具有較為穩定且良好的表現。

2 相關工作

預測LncRNA與蛋白質的相互作用研究一般分為實驗法和計算預測兩種方法。2015年Marinbejar和Huarte 提出RNA 下拉法(RNA-puLLdown)[9],2016 年GagLiardi 和Matarazzo 提出RNA 結 合蛋 白免疫共沉淀技術(RIP)[10]等,這些均是通過實驗方法獲取相互作用,傳統的濕實驗方法不僅耗時費力,在實驗過程中僅有少量的LncRNA 與蛋白質相互作用關系被證實,所以使用計算預測的方法來作為LncRNA-蛋白質互作研究的補充機制顯得尤為重要。

深度學習(Deep Learning,DL)方法已被研究人員廣泛應用于人類和植物疾病中的分子機制[11]。2011 年,MuppiraLa 等提出了一種名為RPISeq 的方法,該方法提取了3-mer 和4-mer 序列特征來訓練RF和SVM模型,用于預測蛋白質-RNA相互作用[12]。2013年,王等基于樸素貝葉斯(NB)和擴展的NB分類器,提出了一種預測蛋白質和RNA 之間相互作用的模型[13]。2016 年,Pan 等開發了一種基于序列的方法IPMiner,基于堆疊式自動編碼器預測LncRNA-蛋白質相互作用[14]。2018 年Yi等提出了基于堆疊式自動編碼器和RF 的RPI-SAN 用于LncRNA-蛋白質相互作用的方法[15],同年,Hu 等提出了一種新的工具HLPI-EnsembLe,該工具基于SVM、極端梯度增強(XGB)和RF 來預測人類LncRNA-蛋白質相互作用[16]。

以上的方法均與序列的生物學或理化性質有關,但是通常不同物種中的生物性質和特點會有所不同,因此,利用生物特性作為特征用于預測是蛋白質和LncRNA 否具有關聯性的方法可能在不同物種中的性能會有較大差異,所以尋找一個以大部分物種共性為特征的新方法,可能有助于預測模型獲得更好的泛化性能。本文提出了一種基于學習的混合方法,使用融合神經網絡預測LncRNA 和蛋白質關聯作用,稱為PIPAFNN,在擬南芥和玉米兩個數據集上的實驗結果表明,我們的方法優于RPISeq-RF、RPI-SAN和IPMiner方法。

3 數據預處理

3.1 數據集與實驗環境

本模型在Python 3.7.3 環境下利用Keras 2.3.1實現,選取擬南芥和玉米的LncRNA 及其結合蛋白質的序列數據作為樣本數據集。數據集源自植物LncRNA 數據庫(PLncRNADB),網站:http://bis.zju.edu.cn/PLncRNADB。擬南芥擁有390 個LncRNA和163 個RNA 結合蛋白,包含948 個陽性樣本(互動對),玉米擁有1107 個LncRNA 和190 個RNA 結合蛋白,包含22,133 個陽性樣本。通過將蛋白質與LncRNA 隨機配對并進一步去除現有的陽性對,擬南芥包含2867 個陰性樣本,玉米包含24361 個陰性樣本。

表1 擬南芥和玉米樣本數據集統計

3.2 數據預處理及特征編碼

1)K-mer 矩陣

特征是LncRNA 和蛋白質的基于序列的整合屬性,這些屬性編碼為用于預測的數字載體。本文選擇k-mer 模型從LncRNA 和蛋白質中提取特征,其中遺傳序列子集S的長度用一個整數k表示。為了獲得高效的特征,我們從由LncRNAs 和蛋白質的各種性質編碼的特征向量中提取了一組599 個描述子。從LncRNA 序列中共獲得256 個特征,從蛋白質序列中獲得343個氨基酸描述符。

我們通過從左到右搜索每個序列提取RNA 序列(A,C,G,T)的4聚體稀疏矩陣,得到256(4×4×4×4)特征圖。對于蛋白質序列,我們根據它們的化學相似性來劃分氨基酸組成。根據偶極矩(<1.0,<1.0,(1.0,2.0),(2.0,3.0),>3.0,>3.0,and<1.0)和鏈體積(<50,>50,>50,>50,>50,>50,>50,>50和<50)對蛋白質序列的7 組物理化學性質{VaL,GLy,ALa},{Phe,Pro,Leu,ILe},{Ser,Tyr,Met,Thr},{His,Asn,Tpr,GLn},{Arg,Lys},{GLu,Asp}和{Cys}進行編號,提取3聚體標記,形成343個(7×7×7)稀疏矩陣特征圖。

2)One-hot 編碼

本文除K-mer 矩陣外,還使用One-hot 方法來獲取序列的可計算特征。One-hot 就是每個位點只具有一個熱點的信息提取方法。本文的每個LncRNA 和蛋白質樣本數據,在One-hot 編碼后可分別得到大小為4 × L 和20 × L 的特征矩陣。由于相互作用的LncRNA 和蛋白質片段均為不定長的序列,這給后續的模型計算和預測研究造成了很大阻力,我們通過利用K-mer 和One-hot 補0 的方法對序列文本信息進行編碼,即可將變長的序列轉化為定長的特征矩陣,以便輸入到后續的特征提取和模型學習。

4 PIPAFNN模型

本文提出的PIPAFNN 模型由特征提取、特征融合、注意力機制和評分預測四個階段組成。模型的整體結構如圖1所示。

圖1 模型整體結構圖

4.1 特征提取階段

本文使用棧式自編碼器和融合神經網絡分別對兩種特征向量進行特征提取。我們采用單層棧式自編碼器將LncRNA 和蛋白質由K-mer 特征編碼得到的稀疏矩陣進行壓縮,得到大小為32 維的特征矩陣。為了便于區分,此處將壓縮LncRNA 得到的特征矩陣記為θu,而對于蛋白質得到的特征矩陣記為φi。其中θu代表樣本中第u 條LncRNA 的自編碼器特征矩陣,φi代表樣本中第i 條蛋白質經自編碼器提取出的特征矩陣。

本文運用CNN-LSTM 融合神經網絡對經過One-hot 處理的特征矩陣進行特征提取,結合CNN和LSTM 的不同優勢,獲得具有時間依賴和參數共享特點的更加高級的特征。在模型中,對LncRNA用大小為3×3,步長為1 的卷積核進行卷積,并用最大池化對數據降維,一共經過三次卷積層和池化層交替得到更加顯著的深層信息,并且在經過展開后接入到到LSTM 層中,進行以ReLU 為激活函數的更加精確學習,最后再加入全連接層將其展開為32 維,以對應用自編碼器提取出的特征大小,便于后續的特征融合。對于蛋白質也采用同樣的流程,有所不同的是蛋白質中對應的卷積核大小為5×5。

4.2 特征融合階段

特征融合部分將嵌入的特征和基于回顧的特征進行融合,以便更好地進行表征學習。在以往的研究中,將基于評分和基于評論的特征相結合的策略被廣泛采用來提高推薦性能。加法融合方法已經在RBLT 和ITLFM 中得到應用,為了獲取更佳的預測效果,我們在加法融合之后直接添加一個全連接神經層,全連接層采用非線性ReLU 激活函數。在實驗過程中,我們發現附加層可以有效地提高性能。

在經過兩種不同的管道分別對LncRNA 和蛋白進行特征提取后,它們均得到兩個類別的特征。分別將兩者的兩個特征進行融合,得到LncRNA 的整體特征pu以及蛋白質的組合特征qi,pu代表第u個LncRNA 樣本的特征矩陣,qi代表第i 個蛋白質樣本的特征矩陣。最后再將LncRNA 和蛋白質的特征矩陣都結合起來,形成一個總體的樣本特征矩陣。

4.3 注意力機制階段

Mnih 等在2014 年提出了注意力機制,以觀察使用者在其關注項目中更加注重的特征,同時對關注度有所差異的屬性賦予不同的關注向量。

本文將注意力機制應用于LncRNA 與蛋白質互作的預測模型中,通過將在歷史學習中得到的信息添加到模型里,以識別在預測中對于不同樣本具有突出貢獻的特征空間中的不同主要屬性,并對其賦予不同的關注度,形成具有特征偏好的模型,獲得更優的預測效果。注意向量是在將自編碼器得到的LncRNA 和蛋白質特征加上融合后的特征矩陣作為注意向量的輸入后,經過權重和偏置運算,在經過激活層后被賦予輸出權重得到的,詳見式(1)。其中au,i即為期望的注意向量,θu、φi、pu、qi四者的聯合向量是輸入層的輸入,Wa為輸入層的權重矩陣,ba則為偏置向量,激活函數為ReLU,vT為輸出權重。而含有棧式自編碼器特征和含有歷史信息的CNN-LSTM 提取特征的樣本融合特征矩陣也作為感知器的輸入,將學習到的注意力加權到樣本的特征屬性中去,最終得到模型的預測打分,見式(2)。F 為互作特征,由注意向量點乘對應樣本的LncRNA 和蛋白質融合特征向量得到。

4.4 評分預測階段

評分預測部分本質上是一個多層感知機(MuLti-Layer Perceptorn,MLP)。該部分將得到的交互特征向量F按如下方式饋入全連接層。

L為隱藏層數,WL,bL和σL分別是第L層的權值矩陣、偏置向量和激活函數。我們對所有層采用ReLU激活函數。預測等級r?u,i通過回歸層得到。

其中W和b分別為權值矩陣和偏差向量。

4.5 模型實現

PIPAFNN 模型首先將K-mer 的向量矩陣輸入到棧式自編碼器中進行特征提取,獲得一個大小為32 維的特征矩陣,而One-hot 矩陣則運用CNN-LSTM 融合神經網絡來獲得特征向量,對LncRNA 用大小為3 × 3,步長為1 的卷積核進行卷積,經過3 次卷積層和池化層交替得到更加顯著的深層信息,展開后接入到LSTM 層中,進行以ReLU為激活函數的更加精確學習,再加入全連接層將其展開為32 維,對蛋白質設置卷積核大小為5 × 5。將LncRNA 和蛋白質分別通過兩個途徑獲得的特征進行融合,經過ReLU激活層后,把LncRNA 和蛋白質的特征向量進行點乘,得到一個包含LncRNA和蛋白質整體特征的融合矩陣,最后通過訓練以整體特征為輸入且融合注意力機制的深層網絡結構,獲得具有期望功能的預測模型。

5 結果分析及對比

為了驗證模型預測的結果是否準確可靠,本算法運用五折交叉驗證方法:通過隨機函數得到互不相交的5 個子數據集,將其中4 個子集用于模型訓練,而剩余未用于訓練的一個集合,即為常說的測試集,用于預測模型的運行結果,此過程重復五次,最終得到五次驗證結果的平均值,即可視為是較為穩定且可靠的評估數據。通過多次重復實驗,模型對擬南芥和玉米正負樣本比按照1∶1 的比例進行實驗并得到相應結果,選取準確率(ACC)、精確率(PRE)、召回率(RecaLL)、特效度(SPE)、接受者操作特征曲線(ROC)下的面積(AUC)作為評價指標。

我們將PIPAFNN 模型與另外三種基于序列的計算模型RPISeq-RF,RPI-SAN 和IPMiner 進行比較,比較各種模型在準確率、精確率、召回率、特效度和AUC 方面的表現,見表2。在準確率方面,PIPLPFNN 表現較好,對兩種植物的準確率分別為91.61%和85.72%。如圖2(a)所示,擬南芥在PIPLPFNN,IPMiner,RPISeq-RF 和RPI-SAN 的AUC 值分別為0.9582,0.8823,0.8761 和0.8164。對于玉米數據集,AUC 值分別為0.9251,0.9034,0.8980和0.8792,如圖2(b)所示。

圖2 不同方法在擬南芥和玉米數據集上的ROC曲線

通過利用稀疏約束的性能優勢,PIPAFNN 模型學習了最豐富的序列特征信息。在表2 中,本方法在擬南芥和玉米數據集的準確率、精確率、召回率、特效度和曲線下面積(AUC)方面都優于其他方法。

表2 其他方法和PIPAFNN方法的預測性能(%)

圖2(a)顯示本方法在擬南芥數據集上的AUC方面有更好的性能,與其他方法相比,AUC 提升了7%。圖2(b)顯示我們的方法在玉米數據集上AUC方面具有更好的性能,與其他方法相比,該方法的AUC提高了2%,表明模型的分類效果十分顯著。

6 結語

本文提出了一種預測LncRNA 和蛋白質相互作用的新方法PIPAFNN,該方法利用CNN-LSTM融合神經網絡應用于特征提取,將注意力機制應用于模型預測,提升了模型的學習性能,與其他方法相比,預測性能得到明顯提升。通過充分利用多個分類器,該方法對基于基因組序列的LncRNA-蛋白質相互作用預測具有很高的成功率。但是,該方法仍有一些潛在的限制需要解決,首先,由于已知LncRNA-蛋白質互作關系稀疏,因此不同物種的植物LncRNA 相關蛋白的研究程度受到限制;其次,數據集數據的偏差可能會影響植物中LncRNA 與蛋白質之間相互作用概率的測量,因此,掌握具有更多經過實驗驗證的數據源會進一步提高模型性能。

猜你喜歡
特征融合方法
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲精品午夜无码电影网| 99在线小视频| 国产a v无码专区亚洲av| 高清国产va日韩亚洲免费午夜电影| 亚洲欧美日韩色图| 国产精品视频猛进猛出| 日韩无码视频播放| 欧美第一页在线| 欧类av怡春院| 亚洲swag精品自拍一区| 男女猛烈无遮挡午夜视频| 亚洲三级电影在线播放 | 无码中字出轨中文人妻中文中| 日韩精品视频久久| 国产SUV精品一区二区6| 国产91色在线| 99热这里只有精品在线观看| 久热这里只有精品6| 国产成人综合在线观看| 国产屁屁影院| 国产精品亚洲αv天堂无码| 精品夜恋影院亚洲欧洲| 久久免费视频播放| 欧美三级日韩三级| 亚洲欧美另类久久久精品播放的| 二级毛片免费观看全程| 天天躁夜夜躁狠狠躁躁88| 91偷拍一区| 91午夜福利在线观看| 2021国产v亚洲v天堂无码| 国产成人精品一区二区不卡| 久久精品人人做人人综合试看| 国产在线观看精品| 亚洲视频影院| 欧美福利在线播放| 四虎精品国产永久在线观看| 99久久国产自偷自偷免费一区| 一级毛片免费观看久| 国产主播在线一区| 国产玖玖玖精品视频| 国产精品手机视频一区二区| 亚洲人在线| 玖玖精品视频在线观看| 欧美精品亚洲精品日韩专区| 99久久精品无码专区免费| 在线播放国产一区| 国产杨幂丝袜av在线播放| 2022国产无码在线| 99久久免费精品特色大片| 香蕉国产精品视频| 亚洲熟女中文字幕男人总站| 日本三区视频| 国产成人h在线观看网站站| 国产精品尤物在线| 秘书高跟黑色丝袜国产91在线 | 亚洲一区二区三区中文字幕5566| 日韩精品毛片| 亚洲日本中文综合在线| 亚洲国产天堂久久综合| 四虎国产精品永久在线网址| 国产丝袜丝视频在线观看| 高h视频在线| 欧美日韩国产成人在线观看| 亚洲欧美日韩动漫| 欧美日韩综合网| 亚洲人成网18禁| 高潮爽到爆的喷水女主播视频| 亚洲国产欧美国产综合久久| 日本欧美视频在线观看| 欧美性色综合网| 99视频在线观看免费| 国产三级国产精品国产普男人| 91福利免费| 欧美三級片黃色三級片黃色1| 男女猛烈无遮挡午夜视频| 又黄又爽视频好爽视频| 日本福利视频网站| 香港一级毛片免费看| 伊人91视频| 亚洲综合亚洲国产尤物| 免费高清毛片| 东京热av无码电影一区二区|