999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合CNN和Bi-LSTM的miRNA-lncRNA互作關系預測模型

2019-07-30 11:15:04石文浩劉嬋娟
計算機研究與發(fā)展 2019年8期
關鍵詞:特征實驗信息

石文浩 孟 軍 張 朋 劉嬋娟

(大連理工大學計算機科學與技術學院 遼寧大連 116023)

隨著對非編碼RNA研究的深入,人們發(fā)現長非編碼RNA(long non-coding RNA, lncRNA)和微小RNA(microRNA, miRNA)具有調節(jié)生物生命活動的重要作用,它們在細胞生長、分化和增殖等方面起著重要的調節(jié)作用[1].研究表明:lncRNA可與miRNA競爭性結合mRNA或以誘餌方式吸附miRNA來調控miRNA[2].反之,miRNA通過與lncRNA的3’UTR不完全匹配進行負性調節(jié),從而直接作用于lncRNA[3].另外,由于兩者調節(jié)網絡的重疊或位置的關系影響其相互作用,miRNA也可間接作用于lncRNA.

目前,研究lncRNA-miRNA-mRNA的相互調控網絡是新熱點[4].由于lncRNA通過與mRNA競爭miRNA的靶基因結合位點來實現對mRNA的調控,故研究miRNA是否靶向lncRNA是研究miRNA調控功能的突破口.現有鑒定miRNA靶基因的方法主要分為生物實驗和計算預測方法2類.生物實驗一方面鑒定代價高耗時長,另一方面不適合大批量的鑒定.傳統計算預測方法則是利用機器學習算法建立預測模型,通過提取miRNA靶基因的序列特征和結構特征作為輸入數據,構建分類器模型,但機器學習方法涉及了過多的人工干預且特征提取過程復雜.為克服兩者的弊端,利用深度學習方法可自動學習特征的特點來實現分類預測是一個突破點.

對于miRNA與lncRNA相互調控機制的研究大多集中在動物和人類癌癥方面,植物方面的研究相對較少.為深入探索植物miRNA與lncRNA的互作關系.本文借鑒miTarget[5]方法,利用“LLLLLL”將有互作關系的miRNA與lncRNA序列連接成單鏈序列,使用基因組學中生物序列的連續(xù)表示方式[6],對單鏈序列進行編碼后作為輸入數據,并提出了一種融合卷積神經網絡(convolutional neural network, CNN)[7]和雙向長短期記憶網絡(bidirectional long short-term memory network, Bi-LSTM)[8]的深度學習模型.該模型結合CNN充分提取特征和Bi-LSTM兼顧上下文信息的特點,充分地學習了序列數據的特征,實現對miRNA-lncRNA互作關系的分類預測.

本文利用5折交叉檢驗方法,通過與傳統的機器學習方法、單一模型的比較和對多個物種數據集進行獨立測試,對在玉米、馬鈴薯和小麥數據集上的實驗結果進行了分析.結果表明:本文提出的模型具有良好的分類效果和泛化能力.

本文的貢獻主要有3個方面:

1) 借鑒miTarget方法,將miRNA與lncRNA利用“LLLLLL”連接成單鏈序列,從而方便使用深度學習模型;

2) 借鑒自然語言處理中分詞思想,利用基因組學中生物序列的連續(xù)表示方式,對生物序列進行編碼,使每條序列映射成一個n維的數字向量,適用于LSTM的輸入格式;

3) 提出了一種融合CNN和Bi-LSTM的深度學習模型實現對miRNA-lncRNA互作關系的分類預測.

1 相關工作

目前,對miRNA,lncRNA和mRNA之間調控機制方面的研究大多使用生物鑒定和計算預測方法[9-10].如使用高通量RNA-seq測序技術構建lncRNA-miRNA-mRNA共表達網絡來研究乳腺癌中關鍵基因,以期達到治療癌癥的目的[9];通過提取lncRNA的序列特征、二級結構等特征,使用傳統機器學習方法來識別lncRNA,進而預測其功能[10].機器學習方法較之生物鑒定代價低耗時少,但涉及過多人工干預和特征提取過程繁雜.

自2006年Hinton等人[11]在《Science》上提出深度學習,自動學習特征、學習能力好等優(yōu)點使之被各個領域廣泛應用.CNN、循環(huán)神經網絡(recurrent neural network, RNN)[12]和LSTM等模型也已很好解決了生物信息方面的問題.

2016年Tripathi等人[13]提出使用深度神經網絡(deep neural network, DNN)模型,利用多層神經網絡層反饋調節(jié),逐層學習lncRNA的特征,達到更好識別lncRNA的目的.2018年,Junghwan等人[14]提出一種基于深度學習方法lncRNANet,該方法將用于RNA序列建模的RNNs和檢測密碼子的CNNs進行結合,從而更好地學習了lncRNA特征,實現對lncRNA的鑒別.

CNN是一種通過卷積操作提取特征,再利用池化層學習數據的局部特征的前饋神經網絡,它無需對輸入數據進行大量預處理,且可以學習大量的特征信息.RNN具有內部記憶特點,且在處理元間既有內部反饋連接又可前饋調節(jié),故對于處理序列信息具有良好的效果.但對于序列數據,CNN只考慮連續(xù)序列之間的相關性而忽略非連續(xù)序列之間的相關性.RNN雖適合處理序列數據,但很難處理信息長期依賴的問題,且存在梯度下降和梯度爆炸問題.LSTM是RNN的擴展,專門用來處理無法長期依賴信息的問題,它雖考慮長距離詞的相關性,但提取特征不夠充分,且單向LSTM不能處理下文單詞信息.而雙向LSTM(Bi-LSTM)有正反LSTM,正向LSTM捕獲上文特征信息,反向LSTN捕獲下文特征信息,故相較于單向LSTM,能夠更有效地處理句子中單詞間的長距離影響.結合CNN與Bi-LSTM的優(yōu)勢,既可以充分地提取特征,又考慮了序列間信息長期依賴和上下信息間的關系,故能充分地學習序列特征信息實現更好地分類預測.

本文提出了一種融合CNN和Bi-LSTM的深度學習模型,不僅避免機器學習特征提取時的人工干預,而且利用了兩者的優(yōu)勢,充分考慮了miRNA-lncRNA序列間連續(xù)數據和非連續(xù)數據的相關性,克服了無法長期依賴信息和充分提取特征的弊端,從而更好地實現對miRNA-lncRNA互作關系的預測.

2 數據預處理

在本節(jié)中,主要介紹對生物序列的數據預處理過程和對序列進行分詞編碼的步驟.

2.1 數據集構建

文中所用的玉米、馬鈴薯和小麥3個物種的lncRNA和miRNA數據分別是下載于GreeNC(http://greenc.sciencedesigners.com/wiki/)[15]和miRBase(http://mirbase.org/)[16]數據庫.首先,將每個物種去重后的lncRNA和miRNA數據分別上傳到在線軟件psRNATarget(https://plantgrn.noble.org/psRNATarget/analysis)[17]上對應位置,得出miRNA-lncRNA互作關系對中對應的miRNA和lncRNA名稱,根據名稱從原始的miRNA和lncRNA序列中提取序列.對于互作關系對的序列,如圖1所示,其處理步驟為:

1) 為方便序列編碼,先將miRNA序列中U替換為T;

2) 借鑒miTarget方法,為區(qū)分miRNA和lncRNA連接處,利用“LLLLLL”將對應的miRNA與lncRNA序列連接成單鏈序列;

3) 對每個互作關系對重復以上步驟.

Fig. 1 Sequence connection mode圖1 序列連接方式

對psRNATarget軟件得出的所有互作關系對經上述處理并去重后,將其作為正樣本.

由于lncRNA序列長度遠遠大于miRNA,在整合序列中l(wèi)ncRNA占比重大,故將總lncRNA分為參與互作關系和未參與互作關系的lncRNA,并采用Needleman-Wunsch算法將未參與互作關系的lncRNA與正樣本中l(wèi)ncRNA進行相似性對比,去除相似性高于80%的lncRNA樣本[18],最后,將去相似性后的未參與互作關系的lncRNA與所有miRNA進行隨機組合,并進行如圖1所示的處理,從而得到負集樣本庫.為保證正負樣本均衡,采用隨機抽樣方法,從中抽取與正樣本數量相當的樣本作為負集.

2.2 序列編碼

對于整合后的miRNA-lncRNA序列,利用基因組學中的生物序列的連續(xù)表示方式,類似于自然語言處理中的分詞[19],將每條序列分成多個子序列(生物單詞),即每3個連續(xù)的堿基作為一個子序列,子序列間不重疊.對正負樣本中所有序列進行分詞處理后,統計得出一個大小為4×4×4=64的生物單詞表,按照單詞在生物序列中出現的概率,從大到小進行編碼,則可將每條序列樣本嵌入到一個n維向量中,即為模型的輸入格式,具體編碼方式如圖2所示:

Fig. 2 Sequence coding mode圖2 序列編碼方式

如圖2所示,將輸入序列S=(TATACGTGT…TGCAACCAG),按上述方案,每3個連續(xù)堿基為一個詞,進行分詞處理,再按詞頻大小進行編碼,最終經程序運行后,即可將S編碼為一個固定長度的向量SC=(59,55,41,…,18,52,16),即編碼向量SC為模型的最終輸入格式.

3 CNN和Bi-LSTM融合模型

提出的模型主要由嵌入階段、卷積階段和雙向LSTM階段組成.

3.1 嵌入階段

嵌入階段主要是將輸入序列映射成矩陣向量的形式,每一列對應一個字.即將輸入序列中的每一個數字映射成一個具有固定長度的向量,則輸入序列被映射成m×n的矩陣形式,其中,m為嵌入向量維度,n為序列長度.嵌入層作用是將一些關鍵的特征放大或把一些籠統的特征分開,把數字序列映射成卷積層易處理的矩陣向量形式,便于之后的卷積層充分提取特征.例如設編碼向量為SC=(19,2,30,42,28),經嵌入層作用后,即可映射為一個矩陣

本實驗中嵌入層參數為輸入維度是66,輸出維度是128,輸出長度是2 840.即經嵌入層后每條序列可映射成一個128×2 840向量,作為卷積層的輸入.

3.2 卷積階段

由于1維卷積(Convolution1D)主要用于自然語言處理上,2維卷積(Convolution2D)常用于計算機視覺上[20],故實驗模型卷積層選用Convolution1D函數.實驗卷積階段主要由2個卷積層構成.此外,為防止過擬合,在嵌入層和卷積層之間添加一個Dropout層,其參數為0.5.

第1層卷積層是利用64個長度為10的過濾器進行卷積,即相當于利用64個10×128卷積核去探測經嵌入層映射的矩陣.即利用卷積核W對矩陣進行卷積操作:

(1)

由于RELU函數比sigmoid函數具有便于稀疏化及有效減少梯度似然值的優(yōu)勢[21],故卷積層的激活函數選用RELU函數:

RELU(x)=max(0,x).

(2)

經卷積操作后,可提取尺寸為64×2831特征映射.再選用pool_length為2的MaxPooling對卷積出來的特征進行采樣處理,即對卷積出的特征的局部區(qū)域取最大值,提取最重要的特征信息.故第1次卷積后輸出維度為64×1415,作為下一卷積層的輸入.

例如使用3個5×5的卷積核對64×64的矩陣進行卷積操作,得到3個60×60的特征映射,再使用2×2的池化窗口進行下采樣,即得到3個30×30的特征映射矩陣,具體卷積階段流程如圖3所示:

Fig. 3 Flow of convolution operation圖3 卷積操作流程

模型的第2個卷積層利用64個長度為5的過濾器卷積,即等同于用5×64卷積核對上層提取的特征再次卷積,則提取出特征映射尺寸為64×1 411,再經最大池化采樣后,即可得尺寸為64×705的特征映射.將其作為雙向LSTM層的輸入.

3.3 Bi-LSTM階段

LSTM是RNN的變體,它通過設置輸入門、遺忘門、輸入門和記憶細胞來解決RNN梯度消失和梯度爆炸以及長期依賴缺失的問題,但單向LSTM只能處理序列上一個方向的信息,而無法處理另一個方向的信息.雙向RNN(bidirecrional recurrent neural network)[22]能同時捕獲序列正反方向信息,從而更好學習序列信息特征.Bi-LSTM則是為解決LSTM只能處理單一方向信息而做的進一步擴展,其借鑒雙向RNN的方法,將雙向RNN中循環(huán)單元替換為LSTM單元,則Bi-LSTM等同于在每個訓練序列的前后各連著一個單向LSTM,且這2個單向LSTM都連接同一個層,從正、反2個方向提取特征信息,可以充分地學習更多的特征.圖4是個雙向循環(huán)神經網絡[19].

Fig. 5 The overall structure of model圖5 模型整體結構

Fig. 4 Bidirectional recurrence neural network圖4 雙向循環(huán)神經網絡

其中,自左向右循環(huán)神經網絡層的更新公式為

(3)

自右向左循環(huán)神經網絡層的更新公式為

(4)

前后2層循環(huán)神經網絡層疊加后輸出為

(5)

其中,t表示時間序列;ht表示時刻t時隱層向量,其上箭頭表示方向;xt表示時刻t的輸入;yt表示時刻t的輸出;Wxh表示輸入-隱層的權重矩陣;Whh表示隱層-隱層的權重矩陣;Why表示隱層-輸出層的權重矩陣;bh為隱層偏置向量;by為輸出層偏置向量;H為隱層激活函數,這里選取sigmoid函數.

Bi-LSTM模型則是將圖4中信息處理單元變換為LSTM模型單元,利用LSTM的記憶細胞來處理長期依賴缺失,并結合正反方向互補的信息,更充分地學習序列數據的特征.其中,本實驗Bi-LSTM的隱層神經元個數為64,dropout參數設為0.3.

3.4 模型實現

實驗模型是在Windows10系統下,利用Python 3.6.5語言編寫的一個基于TensorFlow 1.12.0的Keras框架,模型主要由7層組成.

模型首先利用嵌入層將輸入序列映射成一個128×2 840的矩陣向量,方便進行卷積操作;緊跟著使用參數為0.5的Dropout層來防止過擬合;通過2個卷積層進行卷積操作,并使用最大池化操作過濾出重要的局部特征信息,經RELU函數激勵后,則將矩形向量轉變成一個64×705維特征映射作為Bi-LSTM層輸入;利用Bi-LSTM結合上下文信息的優(yōu)勢,充分學習特征之間的依賴關系,將卷積階段輸出的特征映射向量變?yōu)橐粋€128維向量;最后,使用參數為1的密集層Dense層將Bi-LSTM輸出的特征向量映射成一個具體數字,并使用sigmoid函數將該數字映射在[0,1]之間,即得出預測結果.根據真實值和預測值間的損失,通過BP算法逐層計算,更新參數,完成一輪訓練.其模型的整體結構如圖5所示.

4 實驗與結果

基于玉米(zeamays)、馬鈴薯(solanumtuberosum)和小麥(triticumaestivum)數據集,通過對傳統機器學習方法和不同物種進行測試來驗證提出的模型對miRNA-lncRNA互作關系的預測能力和泛化能力.

4.1 驗證方法與評價標準

實驗采用5折交叉驗證法來驗證模型的性能.5折交叉驗證思想是將數據集均分為5份,輪流取其中一份作為驗證集,其余4份作為訓練集,5次結果的均值作為最終評估值.實驗選取準確值(accuracy,Acc)、精確率(precision,P)、召回率(recall,R)和F1分數(F1_score,F1)作為評價指標:

(6)

(7)

(8)

(9)

其中,TP,FP,TN,FN的含義如表1所示:

Table 1 Meaning of Classification Results表1 分類結果含義

4.2 數據集

按照第1節(jié)介紹方法從GreeNC和miRBase數據庫中下載了玉米、馬鈴薯和小麥的相關數據,并進行第2節(jié)的數據預處理過程.首先采用玉米數據集,用傳統機器學習方法、單一模型與提出的模型進行對比實驗,從而驗證提出方法的有效性;另外,采用馬鈴薯和小麥為數據集,用提出模型分別對兩者進行獨立測試來驗證提出模型的泛化能力.為保證正負樣本均衡,從負集樣本庫中隨機抽取與正集相同數目的樣本作為負集.各物種數據集具體數據如表2所示:

Table 2 Datasets of Each Species表2 各物種數據集

4.3 特征提取

基于傳統的miRNA與lncRNA的提取方法[23],分別提取玉米miRNA,lncRNA相關特征,并將兩者特征組成多維特征集作為機器學習的特征向量.

首先,利用ViennaRNA[24]中RNAfold軟件得到lncRNA序列形成二級結構時釋放的自由能MFE和其二級結構的點括號形式[25],并從中提取配對堿基數、(C+G)堿基含量和G,C的比例,即可得到最小自由能MFE、配對堿基數n_pairs、(C+G)含量CG_content和GC_ratio四個特征,融合后特征記為Feature1:

CG_content=(C_num+G_num)L,

(10)

GC_ratio=G_numC_num,

(11)

Feature1=[MFE,n_pairs,CG_content,
GC_ratio],

(12)

其中,C_num為序列中堿基C的數目;G_num為序列中堿基G的數目;L為序列的長度.

此外,還提取lncRNA的k-mers特征.一個k-mers由k個堿基組成,則1-mer={A,T,C,G}有4種,2-mer={AA,AT,AC,AG,…},每個堿基可以是A,T,C或G,故有4×4=16種,實驗中k=1,2.k-mers提取方法為:沿lncRNA序列使用長度為k的滑動窗口以步長為1堿基進行滑動匹配,則有:

(13)

sk=l-k+1,k=1,2;

(14)

(15)

其中,wk為權重;sk為匹配總數;l為序列長度;mi為每個k-mers的匹配數;hi為每個k-mers的頻率,則可得到lncRNA的4+16=20個k-mers特征,記為Feature2:

Feature2=[h1,h2,h3,…,h20].

(16)

對miRNA序列提取特征為序列長度m_l和miRNA的k-mers特征,其中k=1,2,則可得1+4+16=21個miRNA的特征,記為Feature3:

Feature3=[m_l,m_h1,m_h2,m_h3,…,m_h20].

(17)

最終將lncRNA的特征Feature1,Feature2和miRNA的特征Feature3組成一個4+20+21=45維的特征集,將其作為傳統機器學習的特征向量Feature:

Feature=(Feature1,Feature2,Feature3).

(18)

4.4 基于不同方法的分類結果

為驗證提出方法的有效性和優(yōu)勢,實驗以玉米為數據集,按照3.3節(jié)方法對miRNA和lncRNA的特征進行提取后融合,并使用樸素貝葉斯(Naive Bayes, NB)[26]、梯度提升決策樹(gradient boosting decision tree, GBDT)[27]、隨機森林(random forest, RF)[28]和決策樹(decision tree, DT)[29]方法進行分類預測,進行對比實驗,5折交叉檢驗的實驗結果如表3所示:

Table 3 Classification Results Based on Different Methods表3 基于不同方法的分類結果 %

Note: ① a,b,c,d,e:same letter means difference inAccis not significant,otherwise, it is significant

②SD: Standard deviation

從表3可看出,較之于傳統機器學習方法,提出方法在準確率、精確率、召回率和F1值4個指標上性能都具有明顯的優(yōu)勢;其中,在準確率上比NB,GBDT,RF和DT方法分別高出17.35%,7.15%,6.56%和3.19%,說明提出方法在預測miRNA-lncRNA有無互作關系上具有良好的分類能力.同時,與單一模型CNN和Bi-LSTM相比,融合模型兼顧兩者優(yōu)勢,既能提取豐富的特征,又可解決長距離信息依賴缺失問題,比單一模型性能略有提升.此外,從最小顯著性差異法(LSD)分析結果看,提出方法顯著優(yōu)于其他方法且準確率的標準差(SD)僅為0.60%,表明模型的穩(wěn)定性較好.

圖6描繪出在玉米測試集上,不同方法下的ROC曲線.從結果可看出,較之于機器學習模型與單一模型,融合模型的ROC曲線下面積最大,其面積即AUC值高達0.99以上幾乎接近于1,十分接近真實情況,表明模型的分類效果十分顯著.

Fig. 6 ROC curves of different methods on test sets圖6 不同方法在測試集上的ROC曲線

4.5 基于不同物種的分類結果

為證明提出方法的泛化能力,選用馬鈴薯和小麥數據集作為獨立測試集,進行模型測試,通過2個不同物種的實驗結果,證明提出方法泛化能力好且適合于大多數物種.5折交叉檢驗的實驗結果如表4所示:

Table 4 Classification Results Based on Different Species表4 基于不同物種的分類結果 %

從表4結果可看出,提出方法在預測馬鈴薯和小麥的miRNA-lncRNA有無互作關系上各方面性能指標都較好,表明模型具有良好泛化能力,適合大多數物種.此外,兩者的方差都較小,說明不同物種數據下,模型的穩(wěn)定性也較好.

5 結束語

文中提出一種融合CNN和Bi-LSTM的深度學習模型,兼顧CNN和Bi-LSTM的優(yōu)勢,充分考慮了序列數據間的相關性和較好地結合了上下文信息,從而充分地提取特征.實驗結果表明:模型與傳統機器學習、單一模型對比,取得了優(yōu)于傳統機器學習和單一模型的分類效果;此外,在馬鈴薯和小麥數據集上進行獨立測試,也取得良好的分類效果,驗證了提出模型具有不錯的泛化能力,適合于大多數物種測試.

未來將會嘗試使用更多的模型,如膠囊網絡、深度信念網絡等來進一步改善對miRNA-lncRNA互作關系的預測;另外,結合機器學習和深度學習方法,提高預測性能也是將來的研究方向.

猜你喜歡
特征實驗信息
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲va欧美va国产综合下载| 99r在线精品视频在线播放| 亚洲欧洲自拍拍偷午夜色| 色综合网址| a毛片在线播放| 国产不卡网| 日韩大乳视频中文字幕| 欧美成a人片在线观看| 天堂成人在线视频| 91久久精品日日躁夜夜躁欧美| 8090成人午夜精品| 国产精品视频999| 精品99在线观看| 国产精品专区第一页在线观看| 超清无码一区二区三区| 波多野结衣国产精品| 中文字幕啪啪| 亚洲开心婷婷中文字幕| 国产福利在线免费观看| 亚洲首页在线观看| 免费a在线观看播放| 欧美中文字幕无线码视频| 日韩国产 在线| 久久久久国色AV免费观看性色| 成人综合网址| www.99在线观看| 国产微拍精品| 香蕉99国内自产自拍视频| 全免费a级毛片免费看不卡| 久久国产成人精品国产成人亚洲| 国产菊爆视频在线观看| 97在线免费| 国产精品一区二区无码免费看片| 亚洲视频免费在线看| 又粗又大又爽又紧免费视频| 88国产经典欧美一区二区三区| 亚洲国产欧美国产综合久久 | 精品无码国产一区二区三区AV| 国产白浆视频| 亚洲色图综合在线| 99伊人精品| 91在线一9|永久视频在线| 成人日韩欧美| AV熟女乱| 在线看片中文字幕| yy6080理论大片一级久久| 人妻出轨无码中文一区二区| 国产成人免费视频精品一区二区 | 无码专区在线观看| 亚洲成a人在线播放www| 国产毛片基地| 国产又黄又硬又粗| 任我操在线视频| 在线观看视频一区二区| 亚洲AV无码一区二区三区牲色| 色综合久久无码网| 中文一区二区视频| 久热精品免费| 全色黄大色大片免费久久老太| 久久久久人妻一区精品| 成人在线欧美| 99re精彩视频| 在线观看视频99| 欧美翘臀一区二区三区 | 911亚洲精品| 国产丝袜啪啪| www精品久久| 黄色一级视频欧美| 免费看一级毛片波多结衣| 亚洲精品片911| 亚洲视屏在线观看| 999国产精品永久免费视频精品久久| 国产h视频免费观看| 欧美一区二区福利视频| 97亚洲色综久久精品| 国模视频一区二区| 一区二区三区国产精品视频| 国产特级毛片| 97久久免费视频| 999国内精品视频免费| 日韩中文无码av超清| 亚洲天堂免费|