999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

蛋白質空間結構相似度多參數(shù)算法模型的建立

2016-06-27 08:16:46張萍萍張建華尹咪咪
鄭州大學學報(理學版) 2016年2期
關鍵詞:區(qū)域模型

張萍萍, 張建華, 尹咪咪

(鄭州大學 電氣工程學院 河南 鄭州 450001)

蛋白質空間結構相似度多參數(shù)算法模型的建立

張萍萍, 張建華, 尹咪咪

(鄭州大學 電氣工程學院 河南 鄭州 450001)

通過收集165對蛋白質的結構文件,利用BLASTP比較它們的相似度.建立球極坐標系,分別將球體半徑、方位角和仰角二等分和三等分,將蛋白質劃分為8塊和27塊類似球殼碎片的區(qū)域.在此基礎上,利用MATLAB計算12個參數(shù)相似度,用SPSS建立了二等分和三等分時總相似度和12個參數(shù)相似度的全回歸模型、逐步回歸模型和相關性回歸模型.利用MATLAB建立BP神經(jīng)網(wǎng)絡模型,并與線性回歸模型進行了對比.根據(jù)二等分時逐步回歸模型的結果可以看出,原子個數(shù)相似度,C、N原子個數(shù)相似度,P、S的位置相似度以及密度相似度和總體相似度的相關性最顯著.二等分時結果較三等分時好,逐步回歸模型的結果最好.

蛋白質; 相似度; 回歸分析; 逐步回歸; BP神經(jīng)網(wǎng)絡

0 引言

蛋白質是組成生物體的物質基礎,是生物功能的體現(xiàn)者,了解蛋白質的三維結構能夠有效地揭示蛋白質的功能.蛋白質的結構和功能是統(tǒng)一的,蛋白質的生物功能在很大程度上依賴于其空間結構[1],結構相似的蛋白質功能也往往相似.文獻[2]提出了一種基于骨架的蛋白質三維模型形狀相似性分析方法.文獻[3]在扇形劃分模型的基礎上提出了一種基于方差和均值統(tǒng)計描述的蛋白質結構相似性比較方法.文獻[4] 使用混沌游走方法比較蛋白質的相似度.文獻[5]對Ca骨架進行同密度劃分和同心球劃分,提取VPT特征分別判定相似性.文獻[6]對比較蛋白建立球極坐標系,比較各區(qū)域Ca的相似性,利用半徑和首尾距離來比較蛋白質的相似度.本文在上述研究基礎上,計算各區(qū)域密度相似度,P、S個數(shù)和位置相似度,原子個數(shù)相似度,氨基酸個數(shù)和種類相似度,C、N、O、H原子個數(shù)相似度,然后運用統(tǒng)計學方法建立它們與總相似度之間的線性關系,找出與總相似度相關性最顯著的特征.采用BP算法建立學習網(wǎng)絡計算總體相似度,并與線性回歸模型進行了對比.

1 方法

1.1 蛋白質的結構劃分

在文獻[7]基礎上建立蛋白質的球極坐標系,不僅根據(jù)球體半徑將蛋白質劃分成等厚度球殼狀,而且也等劃分方位角和仰角,形成一個假想球殼碎片的空間劃分方法.作為比較,分別將球體半徑、方位角和仰角劃分成二等分和三等分,也就是將蛋白質分為8塊和27塊來進行計算.

1.2 蛋白質數(shù)據(jù)的來源

選取一些常見的蛋白質,如S100家族、TNFa、RAS等,通過PDB數(shù)據(jù)庫獲取蛋白質編碼,下載PDB文件,通過NCBI查找它們的氨基酸序列.將得到的氨基酸序列進行BLASTP找到與這些蛋白質相似的蛋白,下載這些相似蛋白的PDB文件,并標記每對蛋白的相似度,共找到了待分析的蛋白165對.

1.3 參數(shù)的選取

蛋白質結構復雜多變,不能通過單一參數(shù)來比較兩個蛋白質的相似性,可以通過多參數(shù)分別建立線性與非線性關系來計算相似度.本文選取了12個參數(shù),分別為原子個數(shù)相似度,氨基酸個數(shù)和種類相似度,C、N、O、H原子個數(shù)相似度,P、S個數(shù)和位置相似度以及密度相似度,所選取的參數(shù)都在一定程度上影響著蛋白質功能的發(fā)揮.參數(shù)的選取是經(jīng)所有作者和幾位生物學教授討論決定的.

1.4 參數(shù)相似度的計算方法

1) 原子個數(shù)相似度(Sim1)

蛋白質內原子個數(shù)的多少決定了它的大小和質量,因此將蛋白質的原子個數(shù)相似度Sim1作為總相似度的一個參數(shù).假設待比較蛋白為蛋白A和蛋白B,統(tǒng)計兩個蛋白的原子總數(shù)分別為n1和n2,原子個數(shù)相似度計算方法如下:

(1)

2) 氨基酸個數(shù)和種類相似度(Sim2,Sim3)

氨基酸是蛋白質的基本組成單元,因此,統(tǒng)計蛋白A和蛋白B內氨基酸的個數(shù)和種類,計算它們的相似度,作為總相似度的一個參數(shù).Sim2為氨基酸個數(shù)相似度,Sim3為氨基酸種類相似度.氨基酸個數(shù)和種類的相似度也可以采用式(1)計算.此時,n1為第1個蛋白的氨基酸個數(shù)和種類,n2為第2個蛋白的氨基酸個數(shù)和種類.

3) C、N、O、H原子個數(shù)相似度(Sim4~Sim7)

C幾乎占了蛋白質成分的50%左右,文獻[8]從蛋白質Ca骨架的角度出發(fā),計算TM-score的值來比較結構的相似度.此外,N、O、H幾乎占了蛋白質組成元素的40%以上,所以它們的相似性也作為總相似性的一個參數(shù),比較方法依舊采用式(1).此時,n1為第一個蛋白的C、N、O、H的個數(shù),n2為第二個蛋白的C、N、O、H的個數(shù),Sim4為C原子個數(shù)相似度,Sim5為N原子個數(shù)相似度,Sim6為O原子個數(shù)相似度,Sim7為H原子個數(shù)相似度.

4) P、S個數(shù)和位置相似度(Sim8~Sim11)

S在蛋白質中的含量為0~3%,P的含量更少,但它們的存在會導致蛋白質的結構和功能發(fā)生大的變化,不同位置對蛋白質的結構和功能的影響也不一樣,因此將P、S個數(shù)和位置相似度作為總相似度的一個參數(shù).Sim8為P原子個數(shù)相似度,Sim9為P原子位置相似度,Sim10為S原子個數(shù)相似度,Sim11為S原子位置相似度.對P、S位置相似度的計算采用如下方法:因為P/S個數(shù)較少,首先根據(jù)球體半徑等分后,看兩個蛋白相同區(qū)域內是否含有P/S,若在同一塊區(qū)域里面都含有或都不含有P/S,則這一塊區(qū)域P/S的相似度為1,若一個區(qū)域含有P/S,另一個區(qū)域不含有P/S,則相似度為0.同理,計算將方位角和仰角等分后區(qū)域的 P/S相似度,這樣可以得到每一塊區(qū)域的P/S位置相似度,總的P/S位置相似度計算公式如下:

(2)

式中:mi為第i個分塊區(qū)域的P/S相似度;n為分塊個數(shù).P/S個數(shù)相似度也可以采用式(1)計算.

5) 密度相似度(Sim12)

首先計算分塊的每個區(qū)域的原子個數(shù),比較第i個區(qū)域的原子個數(shù)相似度si,然后計算該區(qū)域在蛋白質中所占的比重li.si可以根據(jù)式(1)得到,li為

(3)

式中:n1i為第1個蛋白第i個區(qū)域的原子個數(shù);n2i為第2個蛋白第i個區(qū)域的原子個數(shù).則密度相似度計算公式如下:

(4)

式中:n為分塊個數(shù).

1.5 線性回歸模型的建立

利用MTALAB可以得到每對相似蛋白的12個參數(shù)的相似度,通過BLASTP得到了每對蛋白的總體相似度,采用SPSS軟件來分析這12個參數(shù)和總體相似度的關系.為了進行比較,分別在二等分和三等分時利用SPSS對Sim和Sim1~Sim12建立全回歸模型,方法為“enter”;對Sim和Sim1~Sim12建立逐步回歸模型,方法為“stepwise”;對Sim和Sim1~Sim12進行兩兩相關分析,并用和Sim相關性水平在 0.01內的參數(shù)建立相關性回歸模型,方法為“enter”.

1.6 BP網(wǎng)絡模型的建立

根據(jù)線性回歸模型的建立比較兩種劃分區(qū)域方式,對結果比較好的一種建立BP神經(jīng)網(wǎng)絡模型,由于BP網(wǎng)絡的學習和記憶具有不穩(wěn)定性,故運行多次,找到比較好的一次結果,對網(wǎng)絡進行保存,以便下次使用時調用.為了防止過學習,沒有劃分訓練數(shù)據(jù)和測試數(shù)據(jù),而是采用交叉驗證的方式,提高了學習速率.

2 結果

2.1 線性回歸模型

分別將球體半徑、方位角和仰角劃分成二等分和三等分區(qū)域,也就是將蛋白質分為8塊和27塊,利用SPSS軟件建立165組對比蛋白的12個參數(shù)相似度和總相似度的線性回歸模型,結果如表1所示.可以看出,這些模型的P都小于0.001,說明這些線性回歸模型都極顯著.二等分時逐步回歸模型的R值最接近1,F(xiàn)值最大,誤差最小,說明二等分時逐步回歸模型的結果最好.此外,二等分時的結果要明顯好于三等分時的結果.

表1 線性回歸模型結果

與BLASTP的相似度進行比較,線性回歸模型的結果和誤差如圖1~4所示.二等分時實際誤差:全回歸模型為0.083 3,逐步回歸模型為0.076 8,相關性回歸模型為0.105 3.三等分時實際誤差:全回歸模型為0.139 8,逐步回歸模型為0.143 7,相關性回歸模型為0.142 0.可以看出,二等分時結果要比三等分時結果好,也就是將蛋白質分為8塊區(qū)域時結果較好.

圖1 二等分時線性回歸模型的結果
Fig.1 Linear regression model results in bisection

圖2 二等分時線性回歸模型的誤差
Fig.2 Linear regression model errors in bisection

圖3 三等分時線性回歸模型的結果
Fig.3 Linear regression model results in trisection

圖4 三等分時線性回歸模型的誤差
Fig.4 Linear regression model errors in trisection

二等分時全回歸模型公式為: Sim=0.691+1.027*Sim1-0.253*Sim2-0.143*Sim3-4.663*Sim4+2.521*Sim5+1.242*Sim6+ 0.012*Sim7-0.197*Sim8+0.44*Sim9+0.087*Sim10+0.101*Sim11+0.149*Sim12.

二等分時逐步回歸模型公式為: Sim=0.362+0.936*Sim1-2.373*Sim4+1.566*Sim5+0.291*Sim9+0.110*Sim11+0.115*Sim12.

二等分時相關性回歸模型公式為: Sim=-0.199+0.299*Sim1+0.143*Sim2+0.003*Sim8+0.388*Sim9+0.123*Sim10+0.073*Sim11+0.187*Sim12.

從二等分逐步回歸模型的結果來看,原子個數(shù)相似度,C、N原子個數(shù)相似度,P、S位置相似度以及密度相似度和總體相似度的相關性最顯著,用其建立的方程來比較蛋白質的相似度較另外兩個模型效果更好.

2.2 BP神經(jīng)網(wǎng)絡模型

BP神經(jīng)網(wǎng)絡每次運行結果不一樣,誤差為0.023~0.34,選取誤差為0.030 2時保存訓練網(wǎng)絡.BP神經(jīng)網(wǎng)絡模型的結果和誤差如圖5和圖6所示,可以看出,BP神經(jīng)網(wǎng)絡的結果比線性回歸模型的結果要好.

圖5 BP神經(jīng)網(wǎng)絡模型的結果
Fig.5 Results of BP neural network model

圖6 BP神經(jīng)網(wǎng)絡模型的誤差
Fig.6 Errors of BP neural network model

3 討論

介紹了比較蛋白質空間結構相似度模型的建立方法,首先找到待比較蛋白的坐標中心,建立球極坐標系,根據(jù)球體半徑、方位角和仰角將蛋白質劃分區(qū)域,形成一個假想球殼碎片的空間劃分方法.作為比較,分別將球體半徑、方位角和仰角劃分成二等分和三等分,也就是將蛋白質分為8塊和27塊來進行計算.從線性回歸模型的建立結果可以看出,二等分時的結果要明顯好于三等分.3個線性回歸模型中逐步回歸模型的結果最好,誤差最小.雖然這12個參數(shù)都對蛋白質的結構和功能有影響,但是在建立模型時,數(shù)據(jù)可能會有冗余,需要刪去冗余項.根據(jù)二等分時逐步回歸模型的結果可以看出,原子個數(shù)相似度,C、N原子個數(shù)相似度,P、S位置相似度以及密度相似度和總體相似度的相關性最顯著.

作為比較,建立了BP神經(jīng)網(wǎng)絡模型來計算蛋白質的相似度,誤差為0.023~0.34,保存了其中誤差為0.030 2時的訓練網(wǎng)絡,可以作為以后比較蛋白的參考.這里只收集了165對蛋白的資料,今后還可以繼續(xù)補充蛋白資料,以提高BP網(wǎng)絡的準確性.雖然線性回歸模型沒有BP神經(jīng)網(wǎng)絡模型的效果好,但它是一個固定的數(shù)學式,可以很方便地得出兩個蛋白的相似度,而BP神經(jīng)網(wǎng)絡結果不固定,每次訓練還需要調用訓練網(wǎng)絡,因此兩者各有所長.

[1] FATEMI M H,GHARAGHANI S.A novel QSAR model for prediction of apoptosis-inducing activity of 4-aryl-4-H-chromenes based on support vector machine[J].Bioorganic and medicinal chemistry,2007,15(24):7746-7754.

[2] LI Z,QIN S W,YU Z Y,et al.Skeleton-based shape analysis of protein models [J].Journal of molecular graphics and modelling,2014,53:72-81.

[3] 王雪平,王長纓.基于統(tǒng)計方法描述的蛋白質三維結構相似性比較[J].閩南師范大學學報(自然科學版),2014,27(1):39-43.

[4] 徐占.蛋白質空間結構的相似性比較[D].無錫:江南大學,2010.

[5] HOKSZA D.DDPIn-distance and density based protein indexing[C]// Proceeding of the 6th Annual IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology.Nashville, 2009:263-270.

[6] CHEN Z T.Analyzing influence on the conformation of single-chain antibody with the differential length of linkers[J].African journal of microbiology research,2011, 5(31):5737-5744.

[7] MARK J, IRENA Z, YAN R, et al. NCBI BLAST:a better web interface[J].Nucleic acids research,2008,36(12):5-9.

[8] HUNG L H,SAMUDRALA R.Accelerated protein structure comparison using TM-score-GPU[J].Bioinformatics,2012,28(16):2191-2192.

(責任編輯:孔 薇)

Establishing Algorithm Model of the Protein Spatial Structure Similarity Based on Multi-parameter

ZHANG Pingping, ZHANG Jianhua, YIN Mimi

(SchoolofElectricalEngineering,ZhengzhouUniversity,Zhengzhou450001,China)

One hundred and sixty-five pairs of protein structural files were collected and BLASTP was then utilized to compare their similarities. The spherical polar coordinate was established. The radius of the sphere, the azimuth and elevation were bisected and trisected, respectively, so the protein was divided into 8 and 27 blocks which were similar to spherical shell fragments. On this basis, the similarity of 12 parameters was calculated using MATLAB. The full regression model, stepwise regression model and filter regression model between the total similarity and the similarity of 12 parameters when they were bisected and trisected were established using SPSS. The BP neural network model was established using MATLAB for comparison. According to the results of stepwise regression model, similarity of the atomic number, similarity of C and N atomic number, similarity of P and S position and density had the most significant correlation with the overall similarity. Results of bisection were much better when compared with that of trisection,and stepwise regression model had the best results.

protein; similarity; regression analysis; stepwise regression; BP neural network

2015-10-07

國家自然科學青年基金資助項目(813D3150);中國中醫(yī)藥行業(yè)科研專項基金資助項目(201007001).

張萍萍(1991—),女,河南汝州人,碩士研究生,主要從事生物信息學研究,E-mail:385716230@qq.com;通訊作者:張建華(1971—),男,河北唐山人,副教授,博士研究生,主要從事生物醫(yī)學信息的采集、分析及處理研究,E-mail:petermails@163.com.

張萍萍,張建華,尹咪咪. 蛋白質空間結構相似度多參數(shù)算法模型的建立[J]. 鄭州大學學報(理學版),2016,48(2):105-109.

Q816

A

1671-6841(2016)02-0105-05

10.13705/j.issn.1671-6841.2015211

猜你喜歡
區(qū)域模型
一半模型
永久基本農田集中區(qū)域“禁廢”
分割區(qū)域
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
關于四色猜想
分區(qū)域
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
基于嚴重區(qū)域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 欧美色伊人| 最新国产你懂的在线网址| 成人亚洲国产| 在线免费不卡视频| 综合人妻久久一区二区精品| 日本三级黄在线观看| 无码国产伊人| 国产在线精彩视频二区| 精品自窥自偷在线看| 97超级碰碰碰碰精品| 国产精品一区二区无码免费看片| 国产免费人成视频网| 国产在线观看99| 国产va免费精品| 国内精品视频区在线2021| 国产精品第5页| 国产簧片免费在线播放| 日本免费a视频| 亚洲欧洲一区二区三区| 亚洲天堂网在线播放| 欧美成人在线免费| 国产精品美人久久久久久AV| 91探花国产综合在线精品| www.youjizz.com久久| 欧美97欧美综合色伦图| 免费啪啪网址| 天天色天天操综合网| 亚洲自拍另类| 亚洲最大综合网| 高潮毛片免费观看| 久久久精品国产SM调教网站| 色综合天天综合中文网| 99精品一区二区免费视频| 免费一级毛片完整版在线看| 精品无码一区二区三区电影| 久久亚洲AⅤ无码精品午夜麻豆| 色婷婷亚洲综合五月| 国产精品永久免费嫩草研究院| 一级香蕉人体视频| 麻豆国产原创视频在线播放| 亚洲综合片| 4虎影视国产在线观看精品| 国产精品亚欧美一区二区| 亚洲天堂区| 三级欧美在线| 亚洲中文字幕手机在线第一页| 久久综合九九亚洲一区| 丁香五月婷婷激情基地| www.91中文字幕| 国产剧情伊人| 波多野结衣一区二区三区四区视频| 亚洲VA中文字幕| 久久国产精品娇妻素人| 国产在线无码一区二区三区| 亚洲中文字幕久久精品无码一区| 久久精品中文字幕免费| 亚欧成人无码AV在线播放| 日本一本在线视频| 欧美成人免费午夜全| 永久免费无码日韩视频| 亚洲国产精品无码AV| 亚洲福利网址| 午夜福利网址| 久久久成年黄色视频| 国产美女91视频| 日韩无码黄色| 一区二区无码在线视频| 999国产精品永久免费视频精品久久 | 国产成人精品亚洲77美色| 欧美亚洲一二三区| 久久亚洲天堂| 日韩高清欧美| 久久久久无码精品国产免费| 日韩大片免费观看视频播放| 99这里只有精品在线| 人人爽人人爽人人片| 欧美黑人欧美精品刺激| 91免费观看视频| 欧美精品亚洲精品日韩专区| 国产成人麻豆精品| 久久国产精品娇妻素人| 国产麻豆另类AV|