999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度卷積神經網絡的無序蛋白質功能模體的識別

2018-06-26 04:35:34
濟南大學學報(自然科學版) 2018年4期
關鍵詞:特征方法

 , , , ,

(1. 山東理工大學 計算機科學與技術學院, 山東 淄博 255049; 2. 山東大學 山東省軟件工程重點實驗室, 山東 濟南 250000)

天然無序蛋白質是一類柔性極強的蛋白質,它們在未綁定到其他分子時,處于不折疊的松散狀態卻具有正常的生物學功能,不僅廣泛參與各種重要的生理與病理過程, 而且與神經退行性疾病和癌癥的關系非常密切[1-2]。天然無序蛋白質在生物體內普遍存在,并且生命形式越高級其含量越多[1-2],特別是在人類細胞中,大約30%~50%的蛋白質完全無序或包含顯著無序片段[3]。雖然無序蛋白質在單獨存在狀態下無折疊,但是當綁定到其分子伴侶上時,其中的某些片段會發生從無折疊到折疊的狀態改變,通常把這些能改變狀態的片段稱為分子識別特征(molecular recognition features,MoRF)[4],也稱功能模體。同一個MoRF可以與多個不同的分子對象綁定而呈現不同的二級結構折疊狀態。MoRF很容易形成蛋白質相互作用網絡中的“集線器”[5],是蛋白質相互作用網絡中的關鍵點,因此,識別MoRF在無序蛋白質序列中的位置,對理解蛋白質的功能,研究蛋白質折疊機制和相關疾病的致病機理及尋找藥物靶點至關重要。

物理實驗方法識別無序蛋白質功能模體具有難度大、 成本高、 耗時長(無序片段在X射線晶體衍射圖上電子密度缺失)的缺陷, 而計算機輔助方法能極大地降低成本和縮短耗費時間, 并且為在大數據的基礎上進行分析提供可能, 是必不可少的方法。 天然無序蛋白質和MoRF沒有固定的折疊結構, 能用的結構特征信息有限, 因此, 基于序列特征的預測方法受到了廣泛關注。 目前人們提出一些基于序列特征來預測無序蛋白質MoRF序列位置的方法, 其中, 代表性的方法有MoRFpred[6]、 ANCHOR[7]、 MFSPSSMpred[8]、 Retro-MoRFs[9]、 MoRFCHiB[10]和MoRFPred-plus[11]。這些方法將從其他預測工具得到的大量結果作為輸入特征,例如,預測的殘基無序傾向概率、二級結構特征、溶劑可及表面面積和二面轉角等。大量采用預測的特征值進行串聯后再次作為輸入,容易造成特征空間的高維稀疏而導致“過擬合”問題,并且極大地增加了算法的復雜度。另外,傳統算法將特征抽取和機器學習訓練作為2個獨立的過程進行,先采用各種統計分析方法提取特征并人工進行預處理,再進行二次編碼來生成特征向量作為機器學習的輸入,然后進行學習訓練,沒有考慮特征抽取和機器學習過程之間存在著潛在的不匹配效應,而且人工特征工程也容易導致特征抽取的不全面,因此,有必要提出更加簡單、高效的算法來改進無序蛋白質功能模體的預測。

先前的研究[7,12]表明,無序蛋白質功能模體具有特定的序列保守性模式,它是由高度保守殘基夾雜著高度可變的殘基構成的。高度保守是為了維護特定的功能,而高度可變是為了維護無序結構的靈活性。在結合分子伴侶時,并不是所有殘基貢獻都一樣,只有一些特定的殘基模式在分子識別中有貢獻,因此,功能模體在蛋白質序列的特征表達中具有特定的模式。

目前,隨著人工智能熱潮的到來,深度學習受到了高度關注,而深度卷積神經網絡(deep convolutional neural networks, DCNN)被視為深度學習的支柱。DCNN最初是被設計用來處理圖像像素矩陣中的空間局部關聯性[13]。它直接以原始圖像作為輸入,避開傳統識別算法中復雜的特征提取和數據重建過程,隱式地從訓練數據中自行抽取特征進行學習。DCNN取得成功的關鍵是卷積算子能夠充分利用圖像像素矩陣中密集表示的數據的空間局部相關性[13]。因為這種局部相關性不是圖像數據所特有的,任何能表示成矩陣形式的其他類型的數據也具有這類屬性,所以DCNN在自然語言、聲音、視頻等多個領域的應用取得了巨大成功。另外,DCNN不像傳統算法那樣把特征提取和模型學習作為2個獨立的步驟進行,而是交織在一起同時進行,這樣可以減少特征提取和模型學習之間潛在的不匹配效應[13]。

本文中采用類似于圖像的表示方法(像素矩陣)來表示蛋白質序列(特征矩陣),序列中的功能模體的模式信息也必然包含在該序列所對應的特征矩陣中,所以DCNN也適用于蛋白質中功能模體的序列模式識別問題。基于此本文中提出一種簡單的序列表示方法來描述蛋白質的序列信息,并采用DCNN構建模型進行無序蛋白質功能模體MoRF的預測。

1 數據和方法

1.1 數據集

本文中所使用的數據集分為3個部分,即訓練集、驗證集和測試集,均來自于文獻[6]中所使用的數據集。其中訓練集取自于421條蛋白質多肽鏈,包含了5 396個正樣本(MoRF殘基) 和240 588個負樣本(非MoRF殘基)。為了解決正、負樣本的嚴重不平衡問題,從負樣本中隨機抽取了與正樣本等量的樣本數與正樣本合并到一起組成訓練集。驗證集由419條包含MoRF的蛋白質多肽鏈構成,測試集由45條包含MoRF的蛋白質多肽鏈構成。驗證集、測試集與訓練集的序列相似度均小于30%。上述數據集的統計見表1。

表1 數據集的統計

1.2 蛋白質序列特征表示

本文中使用了2類特征來表示蛋白質序列,即位置性特異性打分矩陣(position specific scoring matrix,PSSM)和氨基酸特征系數。

1)PSSM。本文中使用PSI-BLAST (position specific iterative basic local alignment search tool)命令[14],設置迭代次數為3,比對美國國家生物技術信息中心的非冗余序列數據庫來生成PSSM文件。每條長度為l的蛋白質肽鏈可得到一個l×20型的矩陣(l為蛋白質序列的長度)。該矩陣主要用來代表序列中氨基酸的保守性特征,其元素值分布在[-16,16]之間,元素數值越大,表示保守性越強。

2)氨基酸特征系數。本文中使用了3類特征系數來表示氨基酸特征(圖1),分別來自文獻[15]中的10種木寺系數(k1—k10)、文獻[16]中的5種特征系數(f1—f5)和文獻[17]中的7種特征系數(p1—p7)。這些特征系數在相關文獻里被認為是能比較豐富地表達氨基酸的各種理化特征信息和微觀結構特征信息。這樣,每條蛋白質序列可表示為一個l×(10+5+7)型,即l×22型的矩陣。

黃色背景的k1—k10、綠色背景的f1—f5和藍色背景的p1—p7分別代表了不同類的特征系數,每類分別包含了3×20個、5×20個和7×20個系數常量。圖1 3類氨基酸的特征系數

1.3 蛋白質序列的編碼方式

用PSSM及3組氨基酸特征系數矩陣橫向連接到一起來表示蛋白質序列特征,每條長度為l的蛋白質序列對應到一個l×(20+10+5+7)型,即l×42型的矩陣。采用滑動窗口切分該矩陣,為每個殘基產生一個特征矩陣作為神經網絡模型的輸入。無序蛋白質MoRF片段的長度一般分布在5~25個殘基之間,為了讓每個殘基可能對應的MoRF片段的信息都完整地包含在該滑動窗口內,本文中采用長度為51的滑動窗口(每個殘基兩側各取25個殘基)來切分序列所對應的特征矩陣。通過這種編碼方式,每個殘基的特征信息即被表示成一個51×42型的矩陣。

1.4 方法的流程圖

本算法的流程圖如圖2所示。 首先, 由蛋白質序列得到PSSM, 并計算序列對應的3類特征系數(k1—k10、f1—f7和p1—p5)。 用上述PSSM和各種特征系數橫向連接來表示蛋白質序列, 使每條長度為l的蛋白質序列對應于一個l×42型的矩陣; 然后, 通過滑動窗口提取每個殘基對應的特征矩陣塊作為DCNN模型的輸入; 最后, 將DCNN模型的輸出概率值進一步通過平滑處理, 產生最終的預測結果。

1.5 深度卷積神經網絡的結構

本文中采用的DCNN結構如圖3所示,3個卷積層(卷積核大小為3×3)、3個丟失層(丟失率為0.2)和3個下采樣層(窗口大小為2×2)分別交織在一起,最后再接上2個全連接層,并在全連接層中間也插入1個丟失層(丟失率為0.2)。除了輸出層的激活函數為Sigmoid, 用來產生預測概率值外, 其他各層的激活函數均為Relu,模型訓練時損失函數為Binary_crossentropy,優化函數為RMSProp。

1.6 評價指標

本研究屬于二分類問題,即判斷某個氨基酸殘基是否屬于無序蛋白質的MoRF片段。感受性曲線(receiver operating characteristic curve, ROC)及曲線下的面積(area under curve, AUC)值被用來作為算法的評價指標。AUC值越大,即ROC下的面積值越大,說明該分類器的性能越好。在ROC圖中,每個點的橫坐標為假陽性率(FPR),代表將負樣本錯分為正樣本的概率;縱坐標為真陽性率(TPR),代表將正樣本分對的概率。另外, 正確指數又稱約登(Youden)指數,也被用來作為評價指標之一。該指數為正樣本分對的概率與負樣本分對的概率之和減去1,表示分類器對樣本預測正確的總能力,指數越大,性能越好。

2 結果與分析

2.1 平均化處理滑動窗口的優化

因為無序蛋白中的功能模體是一個連續的序列片段而不是單個的氨基酸, 所以本文中采用滑動窗口對DCNN模型的輸出概率值進行平滑的優化處理, 即對每個殘基取包含其兩側一定長度內的殘基預測概率的平均值作為該中心殘基的最終預測結果。 為了優化平均化滑動窗口的大小, 本文中在驗證集上進行了分析比較。該算法根據不同滑動窗口

conv2d、max_pooling2d、dense、dropout和activation分別表示對應的卷積層、下采樣層、全連接層、丟失層和激活層;input和output表示各層網絡對應的輸入和輸出參數。圖3 本文中使用的深度卷積神經網絡的結構圖

大小所得到的ROC曲線如圖4所示。當窗口長度大于9后,算法性能趨于穩定,因此,本文中選擇最佳的滑動窗口長度13來進行結果的優化。

圖4 根據不同平均化滑動窗口大小所得到的感受性曲線

2.2 基于不同特征的方法的性能比較

在驗證集上, 本文中對使用不同特征表示蛋白質序列的方法的性能進行了比較。 主要對比了以下4種方法: 1)打分矩陣方法僅使用了PSSM來表示蛋白質序列特征; 2)特征系數方法僅使用了3類氨基酸特征系數來表示蛋白質序列特征; 3)打分矩陣-特征系數方法同時使用了PSSM和3類氨基酸特征系數來表示蛋白質序列特征,但沒有采用最后的平滑處理來優化結果;4)本文中提出的方法。上述4種方法在驗證集上進行測試得到的ROC曲線如圖5所示,本文中提出的方法AUC值達到0.708,優于其他方法的性能。

圖5 4種基于不同特征的方法在驗證集上的感受性曲線

2.3 與其他方法的比較

目前已有的方法中,Retro-MoRFs[9]、MoRFCHiB[10]和MoRFPred-plus[11]的性能主要依賴于組合多個分類器的預測結果,它們的精確度在很大程度上是“以量取勝”,而本文中提出的方法是基于單個機器學習模型的,因此,只與3個有代表性的單模型方法進行了比較,即MoRFpred[6]、ANCHOR[7]和MFSPSSMpred[8],這些方法也經常在其他文獻中作為比較對象。經過在測試集上進行測試,各方法的ROC曲線圖如圖6所示,詳細的正確指數、TPR、FPR和AUC值列于表2中。從圖6和表2中可以看出,本文中提出的方法在測試集上取得最好的性能,即正確指數值達到0.444,AUC值達到0.760。

圖6 不同方法在測試集上的感受性曲線

方法名稱正確指數真陽性率假陽性率線下面積值文獻[6]中的方法0.1920.2360.0450.697文獻[7]中的方法0.1980.4330.2360.638文獻[8]中的方法0.3700.5460.1760.706本文中提出的方法0.4440.7320.2880.760

3 結語

本文中利用一種深度學習方法來預測天然無序蛋白質中的功能模體在序列中的位置。采用位置特異性打分矩陣和3類氨基酸特征系數來描述蛋白質序列信息,將每條序列編碼成類似于圖像像素矩陣的二維數值矩陣形式,并用DCNN來搭建模型進行預測。 另外, 本文中把無序蛋白質中的功能模體預測作為一個片段識別來對待, 而不是像傳統方法那樣作為單個的殘基分類, 所以在DCNN的輸出上加了一個段平均化的平滑處理步驟來進一步優化結果。 在相同數據集上進行測試和比較, 結果表明,本文中提出的方法顯著優于其他方法, AUC值和正確指數值均大于其他方法的,說明本算法能有效地識別功能模體在無序蛋白質序列中的隱藏信息模式。本方法也適用于其他聚集型蛋白質功能位點的預測。

馮曉英等學者研究的結論說明:“經過20年的發展,混合式教學的實踐與研究已經漸趨成熟;混合式教學被普遍看好,被認為是未來教學的主要形式;政府和教育機構也對混合式教學給予越來越多的戰略和政策支持。”具體來講:

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 在线另类稀缺国产呦| 全部毛片免费看| 一本大道香蕉高清久久| 午夜人性色福利无码视频在线观看| 久久国产香蕉| 亚洲伊人电影| 国产亚洲精久久久久久无码AV| 自拍偷拍一区| 亚洲日韩国产精品综合在线观看 | 欧美日韩国产综合视频在线观看| 国产综合精品一区二区| 欧美国产精品不卡在线观看 | 精品偷拍一区二区| 久久黄色影院| 99久久人妻精品免费二区| 精品亚洲国产成人AV| 日韩欧美91| 亚洲AⅤ波多系列中文字幕| 91黄视频在线观看| 人妻丰满熟妇av五码区| 国产成人无码久久久久毛片| 亚洲国产在一区二区三区| 日韩国产 在线| 色综合色国产热无码一| 人妻精品久久久无码区色视| 亚洲欧美国产高清va在线播放| 欧美国产三级| 国产在线91在线电影| 国产av无码日韩av无码网站| 亚洲第一区欧美国产综合| 54pao国产成人免费视频| 欧美高清三区| 国产激情在线视频| 精品国产毛片| 国产日产欧美精品| 欧美在线国产| 很黄的网站在线观看| 久996视频精品免费观看| 91精品aⅴ无码中文字字幕蜜桃| 国产a在视频线精品视频下载| 国产91在线|日本| 激情亚洲天堂| 国产国产人免费视频成18| 911亚洲精品| 国产一级毛片在线| 在线欧美日韩国产| 亚洲成人一区二区三区| 综合色区亚洲熟妇在线| 精品91在线| 亚洲男人的天堂久久精品| 第一页亚洲| 日韩毛片在线视频| 亚洲人人视频| 亚洲人成影院在线观看| 国产午夜不卡| 理论片一区| 日韩欧美综合在线制服| 奇米影视狠狠精品7777| 国产乱子伦精品视频| 伊人久久婷婷| 欧美日韩中文国产| 最新国语自产精品视频在| 国产微拍一区二区三区四区| 欧美日韩国产在线人| 日韩二区三区无| 老司机精品一区在线视频| 中文字幕日韩丝袜一区| 国产在线一区视频| 欧美成人怡春院在线激情| a色毛片免费视频| 亚洲视频a| 国产理论最新国产精品视频| 91香蕉视频下载网站| 亚洲综合精品香蕉久久网| 青青青伊人色综合久久| 91久久大香线蕉| 亚洲欧美极品| 午夜福利免费视频| 色首页AV在线| 国产美女免费| 精品一区二区三区水蜜桃| 久久中文字幕2021精品|