999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于線性神經網絡和多參數的蛋白質相似度算法

2017-04-07 01:30:42張建華師會譚張琳婧
鄭州大學學報(理學版) 2017年1期
關鍵詞:結構

劉 瑩, 張建華,2, 師會譚, 張琳婧

(1.鄭州大學 電氣工程學院 河南 鄭州450001;2.鄭州大學 醫學工程技術與數據挖掘研究所 河南 鄭州450001)

基于線性神經網絡和多參數的蛋白質相似度算法

劉 瑩1, 張建華1,2, 師會譚1, 張琳婧1

(1.鄭州大學 電氣工程學院 河南 鄭州450001;2.鄭州大學 醫學工程技術與數據挖掘研究所 河南 鄭州450001)

提出一種新的蛋白質結構相似度算法,目的在于通過比對蛋白質的結構尋找功能上的相似性.收集約1 000對蛋白質的PDB結構文件,采用RCSB PDB結構比對工具獲取每一對蛋白的結構匹配相似度,并計算每一對蛋白質的9個參數的相似度.采用線性神經網絡建立總體相似度和9個參數之間的數學模型.計算模型的仿真誤差,并選取若干蛋白質對該算法模型進行應用驗證.所建立模型仿真誤差為8.76%,驗證結果與已有工具結果基本相同,但個別有一定差異.該算法可用于比較蛋白質的結構相似度,且比對結果可以對蛋白質功能的相似性進行提示.

蛋白質; 相似度; 多參數; 算法模型; 線性神經網絡

0 引言

生物學上一般采用BLAST(basic local alignment search tool)工具來獲取蛋白質氨基酸序列的相似度[1].隨著相關研究工作的進展,大量學者設計開發了其他序列匹配算法以改進BLAST算法的不足[2].然而,氨基酸序列的相似性只能提示兩個蛋白是否具有足夠的同源性,并不能滿足學者對于功能表達相似性的研究.因此,現有研究中已出現了許多關于蛋白質結構相似度比對的工具.CE(combinatorial extension)和FATCAT(flexible structure alignment by chaining AFPs (aligned fragment pairs) with twists)算法是較早開始應用的蛋白質結構比對方法[3],其中CE是采用增量式組合擴展的方法逐段比較對齊的兩個蛋白結構片段,最后將其組合起來評價蛋白質相似度.FATCAT算法是CE算法的進一步改進.DALI是L Holm等設計開發的蛋白質對結構相似度在線工具,其主要計算方法是計算一對蛋白中原子的均方根誤差(root-mean-square deviation, RMSD),但用戶在使用時需要上傳處理過的PDB文件(該方法只能計算ATOM/HETATM部分).文獻[4]結合TM得分旋轉矩陣和動態調整方法設計出TM-align算法,該算法的計算速度大約是DALI 和SAL方法的20倍,CE算法的4倍.鑒于各算法的不同,比對結果往往也不一致.RCSB PDB比對工具是RCSB PDB(RCSB protein data bank)數據庫自主開發的一種用于匹配蛋白質結構相似度的Java web start 應用程序,操作簡便,可以實時在線精確匹配PDB數據庫中的蛋白質結構文件,應用相對較為廣泛.

現有蛋白質相似度比較方法中,基本都是從蛋白質三級結構出發,將其比對結果應用于蛋白質功能的相似性評價上.本文擬從多參數的角度評價蛋白質的相似度,建立相似度和各參數之間的數學關系模型,并依此對蛋白質功能的相似性進行提示.并采用該算法計算并篩選出與新發現的胃癌蛋白p42.3相似的蛋白,成功找出了p42.3的功能調控路徑,從而證明了該算法的可用性.

1 材料和方法

1.1 數據收集

1.1.1 總體相似度和參數選擇 從PDB(http://www.rcsb.org/pdb/home/home.do)數據庫中先行收集相似蛋白質共1 005對,進而下載其結構數據PDB文件.然后通過RCSB PDB結構比對工具(http://www.rcsb.org/pdb/workbench/workbench.do?action=menu)獲取每一對蛋白質的結構相似度作為標準相似度.在PDB文件中,只取ATOM及HETATM部分的數據進行9個參數相似度的計算,分別為空間密度、原子個數、氨基酸個數、氨基酸種類、C元素比例、N元素比例、O元素比例、P元素位置、S元素位置[5-6],并分別標記為S1~S9.參數的選擇標準均以與蛋白質功能表達相關為出發點.

1.1.2 密度相似度(S1) 首先在蛋白質內部以該蛋白中心原子為原點建立空間坐標系,將其余原子的坐標按統一位移向量變化.然后,計算每一個原子距原點的距離,根據距離將蛋白質劃分為一層層的球殼.統計每一層球殼的原子數目,并比較兩個蛋白在每一層的原子個數相似度,而后加權求和.當層數取得無窮大時,每一層球殼的厚度便無窮小,此時所計算的參數便可視為蛋白質的密度相似度.假設將蛋白質平均劃分為n層,每一層相似度計算公式simi,每一層的相似度權值計算公式wi,n1i為其中為第一個蛋白第i層的原子個數,n2i為第二個蛋白第i層的原子個數,n1為第一蛋白質的原子總數,n2為另一個蛋白質的原子總數.

1.1.3 原子數目、氨基酸數目及氨基酸種類相似度(S2、S3、S4) 每一個蛋白分子所包含的原子數目決定了分子的大小和質量,而氨基酸的數目和種類影響著蛋白質的功能.

(1)

其中:n1、m1、k1分別為第一個蛋白質的原子總數、氨基酸數目和氨基酸種類;n2、m2、k2分別為第二個蛋白質的原子總數、氨基酸數目和氨基酸種類.

1.1.4 C、N、O元素比例相似度(S5、S6、S7)S5~S7計算方法相同,均按照公式(2)進行計算,其中:ne1是第一個蛋白質中的C/N/O元素個數;ne2是第二個蛋白質中的C/N/O元素個數;n1和n2分別為兩個蛋白質的原子總數.

(2)

1.1.5P和S元素的相似度(S8、S9) P和S元素在蛋白質中的含量相對較偏少,但其對蛋白質作用的發揮起著關鍵的作用,因此,P、S元素的相似度也是評價兩個同源蛋白相似度的一個重要因素.其中,S8為P元素位置相似度,計算定義為:若兩個蛋白均不含P元素,則該相似度為1;若其中一個含有而另一個不含有,則相似度為0.如果兩個蛋白質均含有P元素,查找P元素位置和其距原點原子的距離,并按照距離獲取其所在的層數(S1計算過程中的分層),如果兩個蛋白所含P原子位于相同層,則相似度為1;在相鄰層,則相似度為0.5,除此之外的情況則相似度為0.S9為S元素的位置相似度,計算方法同P元素.

因此,按照上述方法可以計算出每一對蛋白的9個參數的相似度,將其與總相似度S一起組成樣本數據用于之后的建模分析.所收集部分數據如表1所示.

1.2 線性神經網絡模型的建立

表1 所收集數據S及S1~S9的均值和標準差

圖1 訓練過程

2 結果

所建立神經網絡為單層感知器線性神經網絡,訓練過程如圖1所示.該訓練過程結束后,輸出各參數系數如表2所示.由此可得,所建立的數學模型為:S=0.319 8S1+0.034 3S2+0.027 9S3+0.061 8S4+0.065 3S5+0.106 2S6+0.103 2S7+0.147 7S8+0.148 0S9-0.014 2.仿真誤差如圖2所示,平均誤差ME計算結果為8.67%.分別用該算法模型和RCSB PDB比對工具及BLAST進行相似度的計算,并比較其結果如表3所示.

3 討論

本文提出一種新的基于多參數和線性神經網絡的蛋白質相似度算法,建立了蛋白質相似度和其9個參數之間的數學模型.該算法是從分析蛋白質結構相似度出發,旨在對蛋白質功能的相似性進行提示,所選用參數也均與蛋白質功能的表達相關.

已有一些學者的研究證明,多參數評價蛋白質相似度較單一參數更為合適[9-10,13],文獻[11]通過比較兩個蛋白的骨架碳原子曲線參數比較蛋白質的相似度,例如曲率、扭力和翻轉變體等.文獻[12]通過對氨基酸以及蛋白質多肽鏈中的特殊結構的分析,綜合考慮了蛋白質結構中骨架碳原子數、突變原子數、親水微粒數和螺旋數4個參數,并依托模糊數學等價矩陣理論,提出一種新的相似度算法,證明其性能比考慮單一參數更好.神經網絡是近代應用逐漸廣泛的人工智能算法[14],并且對神經網絡采用單層感知器即可建立線性模型,在數據量較大時,對數據進行特征提取后,再利用神經網絡進行分類會節省時間.因此,本文所采用的簡單線性神經網絡模型,對其進行的誤差分析及結果驗證都表明了其良好的性能.從表3可以看出,本算法的計算結果同RCSB PDB比對工具的結果基本相同,但個別具有一定差異.如1AAX(酪氨酸激酶)和101M(抹香鯨肌紅蛋白)的相似度,3B94(人GITRL蛋白)和4DB5(家兔GITRL蛋白)的相似度相比較,RCSB PDB結構比對工具的結果較高,而3WD5(人TNFα與阿達木抗體結合蛋白)和2TNF(小鼠TNFα蛋白)的相似度相對其較低.具體分析可知,1AAX和101M以及3B94和4DB5均含有S元素且所在位置非常接近,而S元素在蛋白質中的作用一般是形成二硫鍵,以此來影響蛋白質高級結構的生物活性和蛋白質的復性等功能特點[15].而3WD5和2TNF雖然也含有S元素,但其所在位置較為不同(一個在蛋白分子表面,而另一個在內部靠近中心位置),另外,BLAST同源性也表明了二者的相似程度.

表2 各參數系數

圖2 誤差曲線

蛋白質1蛋白質2S1S2S3S4S5S6S7S8S9SRPTBLAST109L110L0.98610.98901.00001.00000.98890.99320.97231.01.00.99090.990.99101M102M0.98350.99300.99920.88000.98800.97920.96190.81.00.93420.990.991AAX101M0.67800.52230.46280.96300.99070.97870.98021.00.50.63680.180.321AAX102M0.68460.09900.16230.92000.99740.99950.98130.01.00.69010.120.323B942R320.85340.81470.98291.00000.99770.98640.99001.01.00.94370.940.983B942R300.70320.55210.99431.00000.98890.99880.96791.01.00.88540.870.703B944DB50.77130.66150.71430.15000.99740.97700.97931.01.00.85000.710.723WD52TNF0.57460.83510.75390.91670.96510.89370.80201.00.50.78450.920.793WD53IT80.98580.99751.00001.00000.99720.98790.97971.01.00.99180.990.99

注:RPT指RCSB PDB Tool

采用本文的算法,可以初步計算并篩選出與p42.3具有相同結構域且總體相似度在80%以上的蛋白質集,推測出p42.3的生物學功能和調控路徑與這些蛋白相似.在后期進行的Weston Blot 及PCR生物學實驗結果驗證了這一預測.本文中所采用的9個參數主要提取自蛋白質的空間結構PDB文件,在參數的選擇和計算方法方面尚需要進一步改進.隨著研究的深入和樣本量的增多,算法將會得到進一步的優化.

[1] JOHNSON M, ZARETSKAYA I, RAYTSELIS Y, et al. NCBI blast: a better web interface[J]. Nucleic acids research,2008, 36(S2): 5-9.

[2] YE Y, CHOI J H, TANG H. RAP rearch: a fast protein similarity search tool for short reads[J]. BMC bioinformatics, 2011, 12(1): 159.

[3] SHINDYALOV I N,BOURNE P E. Protein structure alignment by incremental combinatorial extension (CE) of the optimal path[J]. Protein engineering, 1998, 11(9): 739-747.

[4] ZHANG J H, LU C L, SHANG Z G, et al. P42.3 gene expression in gastric cancer cell and its protein regulatory network analysis[J]. Theoretical biology and medical modelling, 2012, 11(9):53.

[5] 王昕,毛炳蔚,王福偉,等. 蛋白質空間結構的統計分析[J]. 山西大同大學學報(自然科學版), 2008, 24(5): 3-8.

[6] 章社生,何康,范寧,等. 蛋白質空間結構數字特性統計分析及應用[J].武漢工程大學學報, 2010, 32(5): 45-48.

[7] 何立群,占永平. 感知器神經網絡模型研究[J]. 九江學院學報(自然科學版),2014(4): 37-43.

[8] ATLAS K. 神經網絡的優化與用于優化的神經網絡[D]. 大連:大連理工大學,2013.

[9] 高華龍. 蛋白質空間結構相似性比較方法研究[D]. 大連:大連交通大學,2012.

[10]HAO Y, FAN T, NAN K. Optimization and corroboration of the regulatory pathway of p42.3 protein in the pathogenesis of gastric carcinoma[J]. Computational and mathematical methods in medicine, 2015, 5(28): 1-9.

[11]KOTLOVYI V, NICHOLS W L, TEN EYCK LF. Protein structural alignment for detection of maximally conserved regions[J]. Biophysical chemistry,2003, 105(2/3):595-608.

[12]徐占,董洪偉. 多特征框架下的蛋白質相似性比較與分類[J]. 圖學學報, 2010, 31(1): 191-196.

[13]張萍萍,張建華,尹咪咪. 蛋白質空間結構相似度多參數算法模型的建立[J].鄭州大學學報(理學版),2016, 48(2): 105-109.

[14]張睿.計算智能方法及應用研究[J]. 電腦開發與應用, 2012, 25(10): 1-3.

[15]徐國恒. 二硫鍵與蛋白質的結構[J]. 生物學通報, 2010, 45(5): 5-6.

University,Zhengzhou450001,China)

(責任編輯:方惠敏)

Protein Similarity Algorithm Based on a Linear NeuralNetwork and Multiparameter

LIU Ying1, ZHANG Jianhua1,2, SHI Huitan1, ZHANG Linjing1

(1.SchoolofElectricalEngineeringofZhengzhouUniversity,Zhengzhou450001,China;2.BiomedicalEngineeringTechnologyandDataMiningResearchInstitutionofZhengzhou

The study aimed to presented a new algorithm of proteins structure similarity.The aims of the algorithm was to find the similarity of function by proteins structure alignment.The data of more than 1 000 pairs of proteins were collected.Their similarities were obtained through RCSB PDB structure alignment tool, meanwhile, the similarity of nine parameters of every pairs of proteins were calculated. A linear neural network was adopted to establish the mathematical model between them and the simulation error of it was calculated.Several pairs protein were selected to verify the practicability.The mean error of the model is 8.76%. The result of the practicability verification was basically the same with existing tools except individual had some difference.The algorithm model can be used to evaluate the similarity of proteins structure and the result could signal the function similarity of proteins.

proteins; similarity; multiple parameter; algorithm model; linear neural network

2016-09-13

國家自然科學基金項目(813D3150).

劉瑩(1989—),女,河南南陽人,碩士研究生,主要從事多參數信息學研究,E-mail:1063251753@qq.com;通訊作者:張建華(1971—),男,河北唐山人,副教授,主要從事醫學工程技術與數據挖掘研究,E-mail:petermails@163.com.

TP301.6

A

1671-6841(2017)01-0103-05

10.13705/j.issn.1671-6841.2016230

猜你喜歡
結構
DNA結構的發現
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
循環結構謹防“死循環”
論《日出》的結構
縱向結構
縱向結構
我國社會結構的重建
人間(2015年21期)2015-03-11 15:23:21
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 丁香亚洲综合五月天婷婷| 欧美影院久久| 国产91全国探花系列在线播放| 色妞永久免费视频| 99热这里只有精品5| 被公侵犯人妻少妇一区二区三区| 精品1区2区3区| 91在线精品免费免费播放| 日韩国产高清无码| 亚洲欧美一区二区三区图片| 国产主播喷水| 999国内精品久久免费视频| 国产乱人乱偷精品视频a人人澡| 老色鬼久久亚洲AV综合| 一级黄色片网| 亚洲国产清纯| 午夜三级在线| 波多野结衣无码中文字幕在线观看一区二区 | 蜜桃视频一区| 无码中文AⅤ在线观看| 亚洲成aⅴ人片在线影院八| 91无码人妻精品一区| 亚洲中文字幕国产av| 日本人妻一区二区三区不卡影院| 亚洲swag精品自拍一区| 欧美成人精品一级在线观看| 欧美色视频在线| 成人在线第一页| 波多野结衣AV无码久久一区| 九九热视频精品在线| 亚洲天堂精品视频| 天天色天天综合网| 毛片视频网址| 中文字幕日韩久久综合影院| 国产日韩欧美成人| 五月六月伊人狠狠丁香网| 老司机久久99久久精品播放| 毛片网站在线看| 国产成人1024精品下载| 91在线一9|永久视频在线| 亚洲综合久久一本伊一区| 老色鬼欧美精品| 午夜免费小视频| 91黄视频在线观看| 欧美日韩精品一区二区在线线| 久久综合九色综合97婷婷| 久久亚洲高清国产| www.99在线观看| 91色在线观看| 国产成年女人特黄特色毛片免| 天天综合网在线| 国产激爽爽爽大片在线观看| 欧美性爱精品一区二区三区| 国产免费看久久久| 国产精品亚洲а∨天堂免下载| 91午夜福利在线观看| 欧美日韩在线第一页| 日本中文字幕久久网站| 久久特级毛片| 色综合中文字幕| 一本色道久久88综合日韩精品| 又粗又大又爽又紧免费视频| 国产色网站| 蜜桃视频一区二区三区| 色综合天天操| 精品一区二区三区四区五区| 亚洲天堂精品在线| 久久这里只精品国产99热8| 国产精品999在线| 亚欧成人无码AV在线播放| 999精品在线视频| 日本91视频| 超碰91免费人妻| 野花国产精品入口| 亚洲永久免费网站| 日本国产精品| 一级在线毛片| 中文字幕乱码二三区免费| 亚洲综合激情另类专区| 鲁鲁鲁爽爽爽在线视频观看 | 极品私人尤物在线精品首页| 曰AV在线无码|