999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習和支持向量機的基因結合蛋白預測

2021-09-03 09:41:26陳佐瓚丁小軍甘井中
濟南大學學報(自然科學版) 2021年5期
關鍵詞:特征方法

陳佐瓚, 徐 兵, 丁小軍, 甘井中

(1. 玉林師范學院 計算機科學與工程學院, 廣西 玉林 537000; 2. 南京師范大學 地理科學學院, 江蘇 南京 210023;3. 中南大學 計算機學院, 湖南 長沙 410083)

基因與蛋白質的結合是生物體的重要功能。隨著科技的進步,基因測序技術不斷完善,諸多專家學者致力于挖掘基因序列,探索蛋白質在生物學上的意義[1-3]。每個生物都有蛋白質,預測蛋白質原始序列是當今生物信息學領域的研究熱點[4-6]。蛋白質與脫氧核糖核酸(DNA)結合的能力稱為DNA結合蛋白(DBP)。 DNA通過與蛋白質結合,可以實現多種功能, 調節生物體的機制[7]。 生物信息學領域的熱點問題集中在計算機資源和一些分類算法的集成上[8-9],其中蛋白質數據的積累、人工計算工作量以及人力物力成本等都是需要考慮的問題。

近年來,一些學者認為DNA結合蛋白預測是一個分類任務,因此諸多基于統計學和機器學習方法應用于DNA結合蛋白研究[10-13]。以上方法確實比人工分類方法的效率有所提升,但是在預測精度和速度方面還需要提升和改進。基于統計學的生物實驗預測方法的優點是預測效果好,準確性極高,但也存在成本高、預測時間長的缺點。基于機器學習算法通過蛋白質的結構以及功能特性來學習其特征集合,采用機器學習中非線性映射方法,根據集合特征實現分類,但是如何保持集合向量分類,獲得可以有效輸出特征分類的結果還需要重點研究[14]。目前,人工智能中的深度學習方法已成為DNA結合蛋白預測方向上生物學信息的研究熱點, 并取得了顯著成果[15],但是,在當今日益增長的生物數據中,如何使用當前的深度模型來解釋生物信息甚至生物問題,是一個很有意義的研究課題。基于此,本文中提出一種基于深度學習和支持向量機(SVM)的DNA結合蛋白預測算法(簡稱本文算法)。

1 DNA結合蛋白預測方法

1.1 模型框架

給定結構序列A1A2A3A4A5A6A7…AL,該結構序列包含20個堿性氨基酸和噪聲蛋白,長度為L。通過嵌入操作,采用卷積神經網絡(convolutional neural network,CNN)和門控循環單元 (gated recurrent unit, GRU)深度學習方法構建模型(見圖1),構建深層神經網絡對原始氨基酸序列進行編碼和解碼,得到氨基酸序列預測結果。通過特定的氨基酸序列的預測實例,分析模型各個模塊的功能。

GRU—門控循環單元。

在圖1所示的模型框架結構中,輸入流為模擬氨基酸序列“MSFMVPT”特征的工作流程,主要包括4個階段: 1)原始氨基酸序列成為固定長度的整數序列,需要進行編碼; 2)通過嵌入操作將特征序列進行向量化表示; 3)將經過編碼標注后的特征序列轉化得到的特征向量饋入Convolution(卷積)中,進行特征提取; 4)不同于傳統卷積神經網絡常用的Softmax分類器方法,本文中將提取后的特征序列饋入到GRU中進行解碼輸出,該輸出為一個定長的向量,然后通過SVM進行分類輸出。

1.2 序列編碼

本文算法的一個顯著特點是需要對原始的蛋白質序列進行饋入,將原始蛋白質序列編碼為可由計算機處理、分析的數據。在生物信息學領域,特征的擴展需要通過嵌入進行擴展,從而構建氨基酸詞典,如表1所示。每個氨基酸都是一一對應于從小到大的整數,其順序不會影響實驗效果,只是完成字符到整數的轉換[16]。由于輸入深度學習模型所需的數據規模是固定的,因此必須要進行序列填充。當氨基酸序列“MSFMVPT”的長度為7時,輸入長度設置為閾值8,該序列用“X”填充并變為“XMSFMVPT”。

表1 氨基酸詞典

2 實驗結果與分析

2.1 數據集

使用Zhang等[16]設計的蛋白質資料庫PDB14189基準數據集進行實驗。該數據集是通過搜索“DNA結合”關鍵字,并使用UniProt數據庫[17]篩選和收集得到的DNA結合蛋白的集合。為了使數據集的品質更加高效,必須篩去全部氨基酸序號小于50且大于6 000的蛋白質序列,還要刪除全部不規則氨基酸,如表1中的“X”和“Z”等序列蛋白質。最后,使用BLAST軟件對相似程度超40%的序列進行冗余過濾操作[18]。

2.2 評價指標

通過在基準數據集上進行實驗,根據實驗指標來評估本文算法的優越性,衡量模型的預測效果。由于單一的準確率σacc指標不能完全表征本文算法的預測效果,因此還需要引入其他評估指標,如靈敏度σsen、 特異性σspe等[19-21]。其中,準確率σacc表征算法正確預測的樣本的能力,靈敏度σsen表征算法正確預測的陽性樣本的能力,特異性σspe表征算法正確預測的陰性樣本的能力。評估指標的計算公式分別為

(1)

(2)

(3)

式中:NTP為正確預測的陽性樣本的數量;NTN為正確預測的陰性樣本的數量;NFP為錯誤預測的陽性樣本的數量;NFN為錯誤預測的陰性樣本的數量。

2.3 對比實驗

2.3.1 蛋白質不同尺度特征對比

蛋白質不同尺度特征在PDB14189基準數據上的表現如表2所示。 由表可以看出, 本文算法獲得的準確率、 靈敏度、 特異性數值均大于前4個序列的, 表明該算法對基準數據的識別能力更強。為了評估本文算法的預測能力,分別繪制了不同方法(文獻[2]、 [22]、 [23]中的方法)的受試者工作特征曲線(ROC)和召回率(PR)曲線,如圖2所示。由圖可以得出,本文算法在單尺度特征的基礎上結合了不同尺度的特征,得到了更有意義的結果。

(a) ROC曲線

表2 蛋白質不同尺度特征在基準數據上的表現

2.3.2 與傳統方法的比較

為了檢驗本文算法的穩健性,在獨立數據集PDB2272上對其進行了評估,結果見表3。由表可以看出,與文獻[2]、 [22]、 [23]中的方法相比,本文算法的準確率為66.88%,靈敏度為69.93%, 特異性為65.95%, 3個數值都為最大值, 可見本文算法優于的其他傳統方法的, 表現了本文算法的優越性。

表3 不同算法在3個評估指標上的對比

實際上,非DNA結合蛋白的數量遠比DNA結合蛋白的多。本文中基于PDB2272基準數據集進行仿真實驗,測試了本文算法的性能,并使用不同的陰性樣本與陽性樣本的數量比率來進行驗證,結果如圖3所示。從圖可以看出,隨著陰性樣本數與陽性樣本數比率的減小,準確率緩慢增大。在不平衡測試集的情況下,本文算法的性能仍然穩定,并且在DNA結合蛋白的預測中表現良好。

圖3 本文算法在PDB2272上的預測準確率

2.3.3 本文算法的應用

為了測試模型的魯棒性,張戈[7]收集了2 859個蛋白質編號(identity document,ID)。經分析發現,果蠅的2種不同蛋白質的ID對應了相同的蛋白質序列。經過預收集和排序后,獲得了2 858個DBP(即DBP2858數據集)。DBP2858數據集中包含人類DBP 的樣本數量為1 049,擬南芥(A.thaliana)的為929,小鼠(mouse)的為424,啤酒酵母(S.cerevisiae)的為314,而果蠅(D.melanogaster)的為142。使用PDB14189基準數據集來訓練模型,結果如表4所示。在DBP數據集中,本文算法可以正確識別57.83%的蛋白質序列。

表4 本文算法對不同生物物種的預測性能

3 結論

由于DNA結合蛋白在對生物體的調控機制中具有重要作用, 因此本文中提出了一種基于深度學習和支持向量機的算法用來預測DNA結合蛋白。 在同一數據集上, 分別對本文中提出的深度學習模型和其他傳統預測方法進行了訓練和實驗對比。 實驗結果表明, 本文算法對平衡數據集和不平衡數據集都有較好的預測效果, 并且具有較高的預測精度和效率。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 久久永久精品免费视频| 视频国产精品丝袜第一页| h视频在线观看网站| 国产性爱网站| 一边摸一边做爽的视频17国产| 狠狠色丁香婷婷| 97视频精品全国免费观看| 国产一区二区免费播放| 亚洲欧洲日韩综合| 九色在线观看视频| 久久精品人人做人人爽| 亚洲成年人片| 麻豆精品在线视频| 精品一区二区三区水蜜桃| 中文字幕色在线| 又大又硬又爽免费视频| 亚洲人成影视在线观看| 午夜在线不卡| 88国产经典欧美一区二区三区| 免费不卡在线观看av| 欧美视频在线第一页| 91精品福利自产拍在线观看| 97在线观看视频免费| 国产精品所毛片视频| 久久黄色免费电影| 久久国产拍爱| 成人精品在线观看| 国产小视频免费| 久久久精品久久久久三级| 国产区福利小视频在线观看尤物| 制服丝袜 91视频| 国产精品成人AⅤ在线一二三四| 91在线视频福利| 欧美日韩中文国产| 国产精品福利社| 中文无码伦av中文字幕| 国产精品成人AⅤ在线一二三四 | 免费毛片视频| 国产色偷丝袜婷婷无码麻豆制服| 国产区人妖精品人妖精品视频| 国产成人欧美| 欧美在线天堂| 亚洲日韩精品伊甸| 国产微拍精品| 精品国产aⅴ一区二区三区| 91无码人妻精品一区| 国产欧美视频在线| 91免费在线看| 欧美在线国产| 成人福利在线视频| 91福利免费| 久草网视频在线| 久久综合久久鬼| 日日摸夜夜爽无码| 91九色国产在线| 国产精品自在在线午夜区app| 久久黄色影院| 欧美午夜性视频| 精品久久久久久成人AV| 久久99国产视频| 国内精品久久久久久久久久影视 | 不卡午夜视频| 欧美精品另类| 一级毛片网| 国产日本欧美在线观看| 国产精品自在线天天看片| 爱爱影院18禁免费| 色噜噜综合网| 91一级片| 国产激情第一页| 一级毛片中文字幕| 欧美www在线观看| 国产男女免费完整版视频| 一区二区欧美日韩高清免费| 2021最新国产精品网站| 在线五月婷婷| 91免费片| 亚洲中文字幕久久精品无码一区| 爽爽影院十八禁在线观看| 女人av社区男人的天堂| 特级精品毛片免费观看| 天天色综网|