999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列特征組合與核非線性回歸預(yù)測蛋白質(zhì)折疊速率

2017-07-31 16:25:35王雅男白鳳蘭劉立偉王華
關(guān)鍵詞:方法

王雅男,白鳳蘭,劉立偉,王華

(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)

基于序列特征組合與核非線性回歸預(yù)測蛋白質(zhì)折疊速率

王雅男,白鳳蘭,劉立偉,王華

(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)

選取可壓縮性、LZ復(fù)雜度等特征值,將它們和20種氨基酸屬性Ca,K0,Pβ,Ra,ΔASA,PI,Ht,Mμ,Esm進(jìn)行組合,表征蛋白質(zhì)序列 .建立多元核非線性回歸模型,用核非線性回歸模型計(jì)算了 83個(gè)蛋白質(zhì)的折疊速率預(yù)測值 .由 Jack-knife檢驗(yàn)方法得知在不同的結(jié)構(gòu)中不同組合特征值與相應(yīng)折疊速率有較好的相關(guān)性 .實(shí)驗(yàn)結(jié)果表明:多元核非線性回歸模型其預(yù)測精度及可行性高于線性回歸模型,計(jì)算復(fù)雜度低和方便易操作等優(yōu)點(diǎn),具有良好的應(yīng)用前景 .

核非線性回歸;特征組合;蛋白質(zhì)序列;相關(guān)系數(shù);折疊速率

0 引言

蛋白質(zhì)是生命活動(dòng)的主要承擔(dān)者,是生命的物質(zhì)基礎(chǔ),也是構(gòu)成細(xì)胞的基本有機(jī)物.自然狀態(tài)下,蛋白質(zhì)能從未折疊狀態(tài)到達(dá)其特定的具有三維結(jié)構(gòu)的天然構(gòu)象.蛋白質(zhì)折疊是一個(gè)非常復(fù)雜的過程,許多國內(nèi)外科研工作者對蛋白質(zhì)折疊速率問題進(jìn)行了深入研究,不僅發(fā)現(xiàn)了很多影響蛋白質(zhì)折疊速率的參數(shù)還相繼提出各種預(yù)測蛋白質(zhì)折疊速率的方法.已有預(yù)測方法的關(guān)鍵步驟:首先利用序列結(jié)構(gòu)特征和氨基酸的物化性表征蛋白質(zhì),其次建立回歸模型.例如,用接觸序CO、總接觸序ACO和有效接觸序ECO等[1-3]表征蛋白質(zhì)的預(yù)測方法,但是不能進(jìn)行快速預(yù)測因?yàn)樾枰玫街芷陂L、成本高的三級結(jié)構(gòu)信息.用二級結(jié)構(gòu)含量SSC、有效長度Leff等[4-5]表征蛋白質(zhì)的預(yù)測方法,但是受到二級結(jié)構(gòu)的限制[6-10]因?yàn)樾枰ㄟ^分子實(shí)驗(yàn)或者通過一級序列預(yù)測才能得到二級結(jié)構(gòu)信息.用蛋白質(zhì)肽鏈長度、氨基酸的物理化學(xué)性質(zhì)、氨基酸的組成信息、氨基酸相互作用[11-14]表征蛋白質(zhì)的預(yù)測方法,但是這些信息對蛋白質(zhì)折疊速率的研究不全面,因?yàn)榈鞍踪|(zhì)結(jié)構(gòu)非常復(fù)雜.蛋白質(zhì)按折疊類型分為二態(tài)、多態(tài)和混態(tài)三種,按結(jié)構(gòu)類型分為全α、全β、混合型三種[15-16].考慮到蛋白質(zhì)折疊具有復(fù)雜性、非線性和不確定性,本文選取和蛋白質(zhì)折疊速率相關(guān)性比較好的蛋白質(zhì)序列的多種特征值,在已有的蛋白質(zhì)序列的特征參數(shù)值對蛋白質(zhì)折疊速率基礎(chǔ)上,提出了基于MATLAB技術(shù)的支持向量回歸機(jī)(SVR)模型對蛋白質(zhì)折疊速率進(jìn)行預(yù)測.首先將蛋白質(zhì)進(jìn)行分類,然后通過核非線性回歸求出擬合的最佳參數(shù),進(jìn)而求出預(yù)測值.再通過Jack-knife檢驗(yàn)的方法從多方面驗(yàn)證蛋白質(zhì)序列的特征值對蛋白質(zhì)折疊速率的影響.

1 材料和方法

1.1 材料

本文從Gromiha[17]文中提取83個(gè)蛋白質(zhì),在PDB 數(shù)據(jù)庫(http://www.rcsb. org/pdb/home/home.do)中查到相關(guān)的氨基酸序列.含有39個(gè)未分類的蛋白質(zhì)和44個(gè)已分類的蛋白質(zhì).44個(gè)已分類的蛋白質(zhì)包含全類蛋白質(zhì)13個(gè),全類蛋白質(zhì)18個(gè),混合類蛋白質(zhì)13個(gè).

1.2 提取序列特征值

首先,提取20種氨基酸的一些屬性:α螺旋接觸面積Cα,可壓縮性K0,β折疊趨勢Pβ,在溶劑中的收縮率Ra,溶劑可及表面積ΔASA,氨基酸的等電點(diǎn)PI(25℃),熱力學(xué)疏水性轉(zhuǎn)移Ht,折射率Mu,短程和中程非保稅能源Esm等.

其次,將組成蛋白質(zhì)序列的氨基酸屬性標(biāo)準(zhǔn)化和平均化.

計(jì)算公式:

(1)

其中,氨基酸屬性中的最小值和最大值分別為Pmin和Pmax,氨基酸的標(biāo)準(zhǔn)化屬性為Pnorm(i),氨基酸序列中第i個(gè)殘基的屬性為P(i).

計(jì)算公式:

(2)

其中,氨基酸序列中第j個(gè)殘基的屬性為P(j),氨基酸序列的殘基數(shù)為N,蛋白質(zhì)的氨基酸平均屬性為Pave.

利用氨基酸的標(biāo)準(zhǔn)化式(1)計(jì)算出20個(gè)氨基酸屬性的值.用式(1)、(2)和20個(gè)氨基酸標(biāo)準(zhǔn)化后的值利用MATLAB分別計(jì)算39個(gè)未分類蛋白質(zhì)以及13個(gè)全α類蛋白質(zhì),18個(gè)全β類蛋白質(zhì)和13個(gè)混合類蛋白質(zhì)的特征值,得到的數(shù)據(jù)多文中沒表示.

最后,計(jì)算了83個(gè)蛋白質(zhì)序列的序列復(fù)雜度[7,18].

計(jì)算公式:

(3)

其中,序列為S,序列S的復(fù)雜度為c(S).

1.3 方法

1.3.1 核非線性回歸 (SVR)模型

核函數(shù)主要有四類,分別是:線性核函數(shù)(linear kernel)、多項(xiàng)式核函數(shù)(ploynomial kernel)、徑向基核函數(shù)(radical basis kernel)、神經(jīng)元的非線性作用核函數(shù)(neurons nonlinear interaction kernel).雖然一些實(shí)驗(yàn)表明在分類中不同的核函數(shù)能夠產(chǎn)生幾乎同樣的結(jié)果,但在回歸分析中,不同的核函數(shù)往往對擬合結(jié)果有較大的影響.通過大量實(shí)驗(yàn)本文選擇徑向基函數(shù)(RBF)作為核函數(shù).基于序列特征與全部樣本構(gòu)建核非線性回歸(SVR)模型[19-22].

用Matlab程序算法和SVR_GUI界面可以快速的得到預(yù)測結(jié)果.為了盡可能得到最好的預(yù)測準(zhǔn)確度,選擇使用網(wǎng)格搜索策略選擇參數(shù)c和g的值,并對每一個(gè)數(shù)據(jù)集,基于5倍交叉驗(yàn)證,當(dāng)參數(shù)尋優(yōu)完畢后,得到bestc和bestg,當(dāng)訓(xùn)練和預(yù)測完畢后得到蛋白質(zhì)折疊速率的預(yù)測值和均方誤差與相關(guān)系數(shù).

1.3.2 模型評估

由于已知折疊速率的蛋白質(zhì)樣本數(shù)量較少,采用Jack-knife檢驗(yàn)進(jìn)行模型評估.評價(jià)指標(biāo)為折疊速率預(yù)測值與實(shí)驗(yàn)值間的相關(guān)系數(shù)r和標(biāo)準(zhǔn)誤差σ:

2 結(jié)果與討論

用SVR模型分別計(jì)算了13個(gè)全α類蛋白質(zhì)、18個(gè)全β類蛋白質(zhì)、13個(gè)混合類蛋白質(zhì)和未分類的39個(gè)蛋白質(zhì)的10種特征值與折疊速率之間的相關(guān)性.特征值的不同組合,使實(shí)驗(yàn)值與預(yù)測值之間的相關(guān)性有好有壞,即10種特征值當(dāng)中某些特征值組合對蛋白質(zhì)的折疊速率沒有影響,為此經(jīng)過多次試驗(yàn)可知,特征值組合Cα,Ra,LZc,Ht對于全α類蛋白質(zhì)折疊速率有影響;特征值組合K0、Pβ、ΔASA、LZc、PI對于全β類蛋白質(zhì)折疊速率有影響;特征值組合K0,ΔASA,PI,對于混合類蛋白質(zhì)折疊速率有影響;特征值組合K0、Ra、ΔASA、Mu、Esm對于未分類的蛋白質(zhì)折疊速率有影響.用SVR模型得出實(shí)驗(yàn)值與預(yù)測值之間的相關(guān)系數(shù)分別為0.88,0.91,0.99,0.99,均方誤差分別為2.165 08、1.141 29、0.010 033、0.159 45.實(shí)驗(yàn)值與預(yù)測值之間的關(guān)系直觀圖分別為圖1所示.

(a) 未分類蛋白質(zhì)

(b) α類蛋白質(zhì)

(c) β類蛋白質(zhì)

(d) 混合類蛋白質(zhì)

為了驗(yàn)證核非線性回歸方法的可靠性,本文在已有的數(shù)據(jù)基礎(chǔ)上又尋找了一些其它屬性的數(shù)據(jù),經(jīng)過多次試驗(yàn),對于未分類蛋白質(zhì)、全α類蛋白質(zhì)、全β類蛋白質(zhì)、混合類蛋白質(zhì)選取了以上所述的特征值分別進(jìn)行核非線性回歸,將得出的結(jié)果用Jack-knife方法進(jìn)行檢驗(yàn)并與 Gromiha方法的結(jié)果進(jìn)行比較,發(fā)現(xiàn)相關(guān)系數(shù)都比其有所提高,見表 1.另外,由直觀圖 1也可知,用本文的方法得到的預(yù)測值與蛋白質(zhì)折疊速速率實(shí)驗(yàn)值具有良好的相關(guān)性.

由表1可見,兩種方法中特征值組合不盡相同,經(jīng)過多次試驗(yàn),選取了使實(shí)驗(yàn)值與預(yù)測值具有最好的相關(guān)性的特征值組合.不論在我們的方法和Gromiha方法中,可壓縮性除全α類蛋白質(zhì)外,對于其它類型的蛋白質(zhì)折疊速率均有影響,其次,在溶劑中的收縮率除全α類和混合類蛋白質(zhì)外,對于其它類型的蛋白質(zhì)折疊速率也均有影響;在我們的方法中,序列復(fù)雜度LZc對全α、β類的蛋白質(zhì)折疊速率有影響,短程和中程非保稅能源Esm、只對未分類的蛋白質(zhì)有影響.由此可知,特征值的不同組合,對蛋白質(zhì)折疊速率的影響大小不同.經(jīng)多次實(shí)驗(yàn)得知,基于序列特征組合建立的SVR模型非線性回歸很顯著.經(jīng)Jack-knife檢驗(yàn)可知蛋白質(zhì)折疊速率預(yù)測值與實(shí)驗(yàn)值ln(kf)有良好的相關(guān)性,獲得了優(yōu)于Gromiha方法的預(yù)測精度.

表1 蛋白質(zhì)核非線性回歸分析結(jié)果比對

3 結(jié)論

組成蛋白質(zhì)的20種氨基酸的物理化學(xué)屬性有很多種,其中哪些屬性對不同類別的蛋白質(zhì)折疊速率預(yù)測有影響是本文研究的關(guān)鍵所在.本文提取13個(gè)全α類蛋白質(zhì)、18個(gè)全β類蛋白質(zhì)、13個(gè)混合類蛋白質(zhì)和未分類的39個(gè)蛋白質(zhì)的10種特征值,用核非線性回歸方法和Jack-knife檢驗(yàn)進(jìn)行多次特征組合驗(yàn)證,特征值K0、Ra、 ΔASA、Mu、Esm,對于未分類的蛋白質(zhì)折疊速率有影響,特征值Cα,Ra,LZc,Ht對于全α類蛋白質(zhì)折疊速率有影響,特征值K0、Pβ、Ra、ΔASA、LZc、PI對于全β類蛋白質(zhì)折疊速率有影響,特征值K0,ΔASA,PI,對于混合類蛋白質(zhì)折疊速率有一定的影響.而這種特征組合得到的結(jié)果優(yōu)于Gromiha方法的結(jié)果.

蛋白質(zhì)折疊是一個(gè)非常復(fù)雜的過程.本文只是研究蛋白質(zhì)的一級結(jié)構(gòu)信息對蛋白質(zhì)折疊速率的影響,運(yùn)用生物信息學(xué)的方法,選取了蛋白質(zhì)編碼序列的一些特征值,通過實(shí)驗(yàn)驗(yàn)證了這些特征值對不同類別的蛋白質(zhì)折疊速率的影響不同.不同的樣本集對研究結(jié)果有一定的影響,因此需要大量樣本驗(yàn)證支持.

[1]GALZITSKAYA O V, GARBUZYNSKIY S O, IVANKOV D N, et al. Chain length is the main determinant of the folding rate for proteins with three-state folding kinetics[J]. Proteins: Structure, Function, and Bioinformatics, 2003, 51(2): 162-166.

[2]IVANKOV D N, FINKELSTEIN A V. Prediction of protein folding rates from the amino acid sequence-predicted secondary structure[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(24): 8942-8944.

[3]IVANKOV D N, BOGATYREVA N S, LOBANOV M Y, et al. Coupling between properties of the protein shape and the rate of protein folding[J]. PLoS One, 2009, 4(8): 6476.

[4]CHANG L, WANG J, WANG W. Composition-based effective chain length for prediction of protein folding rates[J]. Physical Review E, 2010, 82(5): 051930.

[5]MA B G, GUO J X, ZHANG H Y. Direct correlation between proteins' folding rates and their amino acid compositions: an ab initio folding rate prediction[J]. Proteins: Structure, Function, and Bioinformatics, 2006, 65(2): 362-372.

[6]MA B G, CHEN L L, ZHANG H Y. What determines protein folding type? An investigation of intrinsic structural properties and its implications for understanding folding mechanisms[J]. Journal of molecular biology, 2007, 370(3): 439-448.

[7]HUANG J T, XING D J, HUANG W. Relationship between protein folding kinetics and amino acid properties[J]. Amino acids, 2012, 43(2): 567-572.

[8]LIN G N, WANG Z, XU D, et al. SeqRate: sequence-based protein folding type classification and rates prediction[J]. BMC bioinformatics, 2010, 11(Suppl 3): S1.

[9]GROMIHA M M, THANGAKANI A M, SELVARAJ S. FOLD-RATE: prediction of protein folding rates from amino acid sequence[J]. Nucleic acids research, 2006, 34(Suppl 2): 70-74.

[10]HUANG L T, GROMIHA M M. Analysis and prediction of protein folding rates using quadratic response surface models[J]. Journal of computational chemistry, 2008, 29(10): 1675-1683.

[11]JIANG Y, IGLINSKI P, KURGAN L. Prediction of protein folding rates from primary sequences using hybrid sequence representation[J]. Journal of computational chemistry, 2009, 30(5): 772-783.

[12]OUYANG Z, LIANG J. Predicting protein folding rates from geometric contact and amino acid sequence[J]. Protein Science, 2008, 17(7): 1256-1263.

[13]LI H Y, WANG J H. Folding rate prediction using complex network analysis for proteins with two-and three-state folding kinetics[J]. Journal of Biomedical Science and Engineering, 2009, 2(8): 644.

[14]CHENG X, XIAO X, WU Z, et al. Swfoldrate: Predicting protein folding rates from amino acid sequence with sliding window method[J]. Proteins: Structure, Function, and Bioinformatics, 2013, 81(1): 140-148.

[15]HUANG J T, CHENG J P, CHEN H. Secondary structure length as a determinant of folding rate of proteins with two-and three-state kinetics[J]. PROTEINS: Structure, Function, and Bioinformatics, 2007, 67(1): 12-17.

[16]GALZITSKAYA O V, GLYAKINA A V. Nucleation-based prediction of the protein folding rate and its correlation with the folding nucleus size[J]. Proteins: Structure, Function, and Bioinformatics, 2012, 80(12): 2711-2727.

[17]GROMIHA M M. A statistical model for predicting protein folding rates from amino acid sequence with structural class information[J]. Journal of chemical information and modeling, 2005, 45(2): 494-501.

[18]LIU L, LI C, BAI F, et al. An optimization approach and its application to compare DNA sequences[J]. Journal of Molecular Structure, 2015, 1082: 49-55.

[19]VAPNIK V. The nature of statistical learning theory[M]. USA:Springer Science & Business Media, 2013.

[20]VAPNIK V, GOLOWICH S E, SMOLA A. Support vector method for function approximation, regression estimation, and signal processing[C]//Advances in Neural Information Processing Systems 9,1996.

[21]CASTRO NETO M, JEONG Y S, JEONG M K, et al. Online-SVR for short-term traffic flow prediction under typical and atypical traffic conditions[J]. Expert systems with applications, 2009, 36(3): 6164-6173.

[22]YUAN Z. Better prediction of protein contact number using a support vector regression analysis of amino acid sequence[J]. BMC bioinformatics, 2005, 6(1): 248.

Protein Folding Rate Prediction based on Sequence Features Combined with Nuclear Non-Linear Regression

WANG Yanan ,BAI Fenglan ,LIU Liwei ,WANG Hua

(School of Mathematics, Dalian Jiaotong University, Dalian 116028, China)

Compressibility, LZ complexity and other characteristic values are selected and combined with twenty kinds of amino acid propertiesCa,K0,Pβ,Ra,ΔASA,PI,Ht,Mμ,Esmto characterize the protein sequence. Multiple nuclear non-linear regression model is established and used to calculate the folding rate prediction value of 83 proteins. By Jack-knife test, it is found that in different structures there is a good correlation between different combinations of characteristic values and the corresponding folding rate. The results show that the multiple nuclear non-linear regression model prediction accuracy and feasibility are higher than linear regression model, because it has the advantages of instancy low computational complexity and convenient and easy operation.

nuclear non-linear regression; combinations of features; protein sequences; correlation coefficient; folding rate

1673- 9590(2017)04- 0206- 05

2016- 04-11

王雅楠( 1990- ),女,碩士研究生;白鳳蘭(1963-),女,教授,博士,主要從事生物分子信息學(xué)的研究E- mail:569594280@qq.com.

A

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 中文字幕在线观看日本| 亚洲成年人网| 99热这里只有精品在线播放| 日韩精品一区二区三区swag| 国产亚洲精| 久久永久免费人妻精品| 在线视频一区二区三区不卡| 亚洲乱强伦| 中文字幕天无码久久精品视频免费| 亚洲精品第1页| 国产一级片网址| 性色生活片在线观看| 91视频精品| 亚洲va欧美va国产综合下载| 国产凹凸一区在线观看视频| 亚洲精品国产精品乱码不卞| AⅤ色综合久久天堂AV色综合 | 毛片大全免费观看| 亚洲第一黄片大全| 国产噜噜在线视频观看| 亚洲国产精品美女| 亚洲香蕉久久| 国产亚洲欧美在线专区| 伊人成人在线| 91毛片网| 亚洲天堂精品视频| 亚洲国产成人自拍| 欧美国产在线一区| 黄色网址免费在线| 青草精品视频| 国产熟女一级毛片| 国产高颜值露脸在线观看| YW尤物AV无码国产在线观看| 欧美日本二区| 福利一区在线| 婷婷久久综合九色综合88| 片在线无码观看| 超碰91免费人妻| 久久久久人妻精品一区三寸蜜桃| 99re热精品视频国产免费| 第九色区aⅴ天堂久久香| 日本免费福利视频| 亚洲欧洲国产成人综合不卡| 国产丝袜无码一区二区视频| 在线免费不卡视频| 国产农村妇女精品一二区| 一级成人a毛片免费播放| 中文字幕久久波多野结衣| 国产福利拍拍拍| 色综合日本| 小蝌蚪亚洲精品国产| 色视频久久| 亚洲欧美另类视频| 国产微拍精品| 91探花在线观看国产最新| 国产一级视频久久| 亚洲欧美不卡| 亚洲视频免费在线看| 久久综合AV免费观看| 国产精品入口麻豆| 2020久久国产综合精品swag| 国产欧美日韩资源在线观看| 青青极品在线| 国产va免费精品观看| 日韩精品一区二区三区中文无码| 亚洲综合亚洲国产尤物| 国产簧片免费在线播放| 久久久91人妻无码精品蜜桃HD| 亚洲中文精品人人永久免费| 青青热久麻豆精品视频在线观看| 被公侵犯人妻少妇一区二区三区| 在线日韩日本国产亚洲| 国产第八页| 国产91蝌蚪窝| 欧美国产日韩在线| 色婷婷在线播放| 国产欧美高清| 亚洲国产中文在线二区三区免| 欧美区在线播放| 97国产在线视频| 久久久久国色AV免费观看性色| www.91在线播放|