999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優(yōu)化特征參量的蛋白質(zhì)βαβ模體識別分析

2015-03-12 21:58:33姜雪于巍
江蘇農(nóng)業(yè)科學 2015年2期

姜雪 于巍

摘要:選取了來自1 423個相似性小于33%的蛋白質(zhì)序列的1 459個βαβ模體和2 419個非βαβ模體,通過分析模體中各二級結構單元的分布情況,確定固定序列模式長。基于優(yōu)化的氨基酸信息,利用離散增量算法識別βαβ模體。運用10-fold交叉檢驗和獨立檢驗方法對算法進行檢驗,識別總精度分別達到79.4%和78.6%。

關鍵詞:蛋白質(zhì);βαβ模體;離散增量;優(yōu)化的參量;優(yōu)化位點氨基酸;識別精度

中圖分類號: Q51文獻標志碼: A文章編號:1002-1302(2015)02-0020-04

收稿日期:2014-04-09

基金項目:遼寧省教育廳教學改革立項(編號:2012411)。

作者簡介:姜雪(1978—),女,黑龍江明水人,碩士,講師,主要從事生物信息學研究。E-mail:shuidi780829@163.com。 模體是具有特定功能或作為一個獨立結構域一部分的相鄰的二級結構的聚合體,是蛋白質(zhì)家族組成結構和執(zhí)行功能的重要部分,介于蛋白質(zhì)二級結構和三級結構之間,充當三級結構的構件。近20年來,對簡單模體如β-轉角、β-發(fā)夾的預測[1-8]得到了很好的發(fā)展,主要方法集中在人工神經(jīng)網(wǎng)絡、支持向量機和統(tǒng)計方法上,且都取得了較好的預測效果。而βαβ是常見的復雜結構模體之一。如果2組平行的β折疊片通過α螺旋經(jīng)過連接肽(Loop)回折2次,且β折疊之間有氫鍵相連,最終β折疊片的疏水側鏈面向α螺旋的疏水面,彼此緊密裝配,形成β-Loop-α-Loop-β結構,簡記為βαβ,多傾向于形成右手扭曲的拓撲結構[9]。它包含大量的折疊信息,頻繁地出現(xiàn)在每一個具有β折疊片的蛋白質(zhì)結構中,常與形成功能結構位點和活性位點有關,同時βαβ模體上存在大量的功能位點,能為藥物分子設計提供信息。因此對蛋白質(zhì)的功能有著重要影響。正確地識別βαβ模體對研究蛋白質(zhì)的空間結構和功能具有重要意義,對分子藥物開發(fā)設計具有相應的理論價值。1983年,Taylor等運用和已知模板進行序列比對的方法對16個α/β類蛋白質(zhì)包含的βαβ模體進行了預測,預測率達到70%[10];1984年,Taylor等在統(tǒng)計βαβ模體的基礎上用同樣的方法對18個α/β類蛋白質(zhì)包含的βαβ模體進行了預測,預測率達到75%[11];1986年Wierenga等運用指紋圖譜方法對PID數(shù)據(jù)集中的2 676條序列中的βαβ模體的ADP結合位點進行了預測[12]??梢?,對復雜結構模體βαβ的預測研究工作還很少,但成功的預測卻說明βαβ存在著功能位點,其理論預測是可行的。

本研究構建了2個數(shù)據(jù)集:一是來自1 423個相似性小于33%的蛋白質(zhì)的1 459個βαβ模體和2 419個非βαβ模體;二是來自256個相似性小于25%的蛋白質(zhì)的310個βαβ模體和480個非βαβ模體。通過分析模體中各二級結構單元的分布情況,確定了固定序列模式長為33個氨基酸殘基,運用了一種基于優(yōu)化特征參量的離散信息算法,識別了βαβ模體,取得了良好的效果。

1材料與方法

1.1數(shù)據(jù)

構建合理的數(shù)據(jù)集是蛋白質(zhì)模體預測的關鍵,本研究中使用DSSP[13](definition of secondary structure of proteins)數(shù)據(jù)庫和PROMOTIF[14]軟件來構建βαβ數(shù)據(jù)集,這是目前廣泛應用的獲得蛋白質(zhì)特殊結構模體的方法。數(shù)據(jù)來自EVA(這是一種連續(xù)的、自動化、大規(guī)模的工作方式進行蛋白質(zhì)結構預測算法評估的Web服務器http://pdg.cnb.uam.es/eva/)。從中選取了1 423個相似性小于33%、分辨率高于2.5的蛋白質(zhì)作為數(shù)據(jù)集1(set1)和256個相似性小于25%、分辨率高于3.0的蛋白質(zhì)作為數(shù)據(jù)集2(set2)。選取的蛋白質(zhì)需要滿足:(1)每個蛋白質(zhì)序列中至少包含一個βαβ模體;(2)剔除含有不規(guī)則氨基酸的模體。序列及其對應的二級結構信息按DSSP庫確定,文中在使用時將二級結構分為3類:H、I、G歸為α螺旋,用H表示;E歸為β折疊;其他都歸為無規(guī)卷曲,用C表示。對set1,獲得二級結構為ECHCE模式的片斷為 3 878個,利用PROMOTIF軟件分析獲得βαβ模體片段為1 622個,其中與ECHCE模式相匹配的1 459個片斷確認為βαβ,其余2 419個確認為非βαβ;對set2,獲得的二級結構為ECHCE模式的片斷為790個,利用PROMOTIF獲得與ECHCE模式相匹配的310個確認為βαβ,其余480個確認為非βαβ。

1.2序列固定模式長的選取

復雜結構模體是由簡單的二級結構連接而成,其二級結構單元的種類、連接肽的長度等信息影響著復雜結構模體的形成及功能。因此有必要對2個數(shù)據(jù)集的βαβ模體序列片段長、組成單元β折疊長、連接肽loop長和α螺旋長進行統(tǒng)計,結果如表1和表2。

從表1和表2的數(shù)據(jù)看出,2個數(shù)據(jù)集中各二級結構單元的分布情況基本一致,2個數(shù)據(jù)集的模體平均長分別為33、31個氨基酸殘基左右,左右兩端β折疊長為5個氨基酸左右,α螺旋長為10個氨基酸左右,這也說明了二級結構單元在βαβ模體中分布的特定性。因此,選取適合的序列信息是預測的關鍵步驟,根據(jù)2個數(shù)據(jù)集中序列的平均長度,為使得表1set1二級結構單元長度統(tǒng)計

預測過程中信息更好的進入序列,確定固定序列長為33個氨基酸殘基。參照文獻[3]、[6]和[7]識別β發(fā)夾的思想,對βαβ模體進行以下3種截取方式,得到B00型、N05型和C29型。其具體截取方法為:

(1)以模體對應的二級結構CHC為中央位置對齊(B00型):當序列對應的二級結構CHC為奇數(shù)時,序列對應二級結構CHC的左端和右端取相同個數(shù)的殘基;當序列對應的二級結構CHC為偶數(shù)時,序列對應二級結構CHC的左側比右側多取一個氨基酸殘基。

(2)以序列左端loop的起始位點作為序列的第5位點,選取序列(N05)。

(3)以序列右端loop的終止位點作為序列的第29位點,選取序列(C29)。

選取過程中,若序列長不足33個氨基酸殘基時,添加空位補齊。截取示意圖如圖1。

同時,為考察模體序列中氨基酸的保守性,計算了位點信息矢量,Ci[15]定義如下:

Ci=100lgl(∑lj=1Pijlgpij+lgl)。

如果某一位點是完全保守的,可計算該位點Ci的值為100;如果該位點的氨基酸是隨機分布的,同樣可計算Ci的值為0。因此Ci取值在[0,100]之間。Ci的值在各自的取值區(qū)域內(nèi)越高表明該位點的保守性越強。對set1的βαβ 3種取法對應序列位點的保守性計算結果如圖2、圖3、圖4。

型左端氨基酸的保守性好于右端,這2種取法綜合起來與B00型的保守性結果一致。因此本研究以位點氨基酸為參量來預測βαβ模體。

1.3計算方法

離散量是對離散性的度量,是信息系數(shù)之一,生物多樣性指標和生物的關聯(lián)性分析等都需要引入離散量。它是一種較好的模式識別分類器,離散量和離散增量定義如下:

定義1:對于s個信息符號的狀態(tài)空間X,ni表示第i狀態(tài)出現(xiàn)的個數(shù),離散源X:[n1,n2,…,ns]的離散量為:

D(X)=D(n1,n2,…,ns)=NlogbN-∑si=1nilogbni。(1)

定義2:對于2個離散源X:[n1,n2,…,ns]和Y:[m1,m2,…,ms],它們的離散增量為

Δ(X,Y)=D(X,Y)-D(X)-D(Y)=(M+N)lg(M+N)-∑si=1(mi+ni)lg(mi+ni)-MlgM-NlgN+∑si=1milgmi+∑si=1nilgni。(2)

其中D(X,Y)是混合離散源X+Y:[n1+m1,n2+m2,…,ns+ms]的離散量,N=∑si=1ni,M=∑si=1mi??梢宰C明,離散增量的取值范圍是0≤Δ(X,Y)≤D(M,N)。

2個離散源之間的離散增量Δ(X,Y)值越小,說明這2個離散源的相似程度越大,而Δ(X,Y)值越大,說明這2個離散源的相似性越差。

本研究中選取位點氨基酸作為參量,對于βαβ和非βαβ模體的3種選取模式的任何一種,其位點氨基酸維數(shù)分別為(21×33)(21表示20種氨基酸和一個空位,33表示固定序列長),共得到2 079(21×33×3)維向量。任一待測序列應用公式(2)得到2個離散增量值,哪一個值小,則被判斷為哪一類模體。

1.4檢驗方法

檢驗方法使用目前廣泛應用的k-fold交叉檢驗和獨立檢驗。k-fold交叉檢驗即隨機、均勻地將數(shù)據(jù)集分為k個子集,依次取出一個子集作為測試集,其余k-1個子集作為訓練集,此過程循環(huán)k次,識別的結果取k次的平均,本研究中k取10。獨立檢驗是指訓練集和檢驗集相互獨立,即訓練集中的數(shù)據(jù)不會出現(xiàn)在檢驗集中,更加客觀地反應實際問題和預測之間的差別。

1.5精度評價指標

本研究中計算了βαβ的正確識別率(即識真的能力)Q(βαβ)、非βαβ發(fā)夾正確識別率Q(nβαβ)、βαβ發(fā)夾識別的預測率[即辨假的能力S(βαβ)]、非βαβ發(fā)夾識別的預測率S(nβαβ),識別總精度(Acc)和相關系數(shù)(MCC),定義如下:

Q(βαβ)=PP+U×100,Q(nβαβ)=NN+O×100,

S(βαβ)=PP+O×100,

S(nβαβ)=NN+U×100,Acc=P+NO+N+U+O×100,

MCC=(P×N)-(O×U)(P+O)×(P+U)×(N+U)×(N+O)。

這里P、U、N、O分別表示βαβ被正確識別出來的序列數(shù)目、βαβ沒有被正確識別出來的數(shù)目、非βαβ被正確識別出來的序列數(shù)目、非βαβ沒有被正確識別出來的數(shù)目。

2結果與分析

2.1以位點氨基酸為參量的預測結果

由于氨基酸在蛋白質(zhì)序列中具有很強的保守性,以位點氨基酸出現(xiàn)的頻率為參量,輸入到離散增量的算法中,得出每條序列的離散量值,用上文中的識別方法作判斷,對set1和set2 3種截取模式的10-fold交叉檢驗結果如表3和表4。表3set1的10-fold交叉檢驗預測結果

截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0082.255.652.484.065.50.371N0580.862.556.185.669.30.419C2983.153.751.582.464.60.362

表4set2的10-fold交叉檢驗預測結果

截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0083.958.754.786.068.10.417N0583.959.855.386.368.80.426C2984.856.153.486.266.80.402

從表3和表4的數(shù)據(jù)可看出,兩數(shù)據(jù)集中βαβ的識真能力均達到80%以上,好于辯假能力,但非βαβ的識真能力低于辯假能力,說明可以很好地識別出βαβ,排除非βαβ。數(shù)據(jù)顯示,3種截取模式中N05型的識別總精度好于B00型和C29型,set1的識別精度達到69.3%,相關系數(shù)達到0.419。

2.2優(yōu)化的位點氨基酸(A)的預測結果

上述計算中選取參量的維數(shù)較高,計算中常會由于高維參量引起維數(shù)災難問題,因此有必要將位點氨基酸通過降維來避免過訓練發(fā)生,從而提高識別的效果。下面選取mRMR(maximum relevance mimimum redundancy)方法來進行降維。mRMR方法是一種基于互信息的特征篩選方法:利用互信息計算特征參量與分析目標間的相關性和特征之間的冗余性,根據(jù)最大依賴性來優(yōu)先選取具有最小冗余性的n個特征,本研究中用已編譯成程序[16]的mRMR軟件包實現(xiàn)。2個數(shù)據(jù)集的序列模式長為33個氨基酸殘基的序列中提取的2 079維位點氨基酸通過篩選,累積貢獻率達到90%以上的前100維作為優(yōu)化的位點氨基酸(A)。運用上述算法2個數(shù)據(jù)集的10-fold交叉檢驗結果如表5和表6。

主站蜘蛛池模板: 97人人做人人爽香蕉精品| 久久伊伊香蕉综合精品| 美女无遮挡免费视频网站| 激情五月婷婷综合网| 国产成人一区二区| 国产精品偷伦视频免费观看国产| 大香网伊人久久综合网2020| 国产成人精品一区二区三区| 久久亚洲国产视频| 色婷婷色丁香| 伊人久久久久久久久久| 国产精品三级专区| 日韩中文无码av超清| 五月天久久婷婷| 欧美一级专区免费大片| 四虎永久在线视频| 国产精品网曝门免费视频| 午夜色综合| 谁有在线观看日韩亚洲最新视频| 国产永久在线观看| 亚洲福利一区二区三区| 国产激情在线视频| 91精品啪在线观看国产91九色| 亚洲综合片| 一区二区三区四区精品视频| 国产精品久久久久久影院| 亚洲国产高清精品线久久| 亚洲一区色| 丝袜久久剧情精品国产| 国产在线视频二区| 91外围女在线观看| 国产一区二区三区在线观看视频 | 亚洲三级色| 亚洲最大看欧美片网站地址| 成人小视频在线观看免费| 国产精品欧美在线观看| 男女性色大片免费网站| 国产精品va免费视频| 亚洲成在人线av品善网好看| 国产视频你懂得| 欧美另类视频一区二区三区| 亚洲成a人在线播放www| 日韩天堂在线观看| 先锋资源久久| 麻豆精品国产自产在线| 国产99在线观看| 女同国产精品一区二区| 男人的天堂久久精品激情| 国产精品污视频| 日韩美一区二区| 看国产一级毛片| 亚洲一级毛片免费看| 亚洲第一黄片大全| 91精品国产一区自在线拍| 色综合中文| 最新国产精品第1页| 伊人久久福利中文字幕| 日韩欧美中文字幕在线韩免费| 91九色最新地址| 国产精品所毛片视频| 日本成人精品视频| 国产精品三级专区| 国产精品永久久久久| 国产情侣一区二区三区| 国产91蝌蚪窝| 美女扒开下面流白浆在线试听 | 免费在线色| 亚洲中文无码av永久伊人| 国产成人精品亚洲日本对白优播| 一级爆乳无码av| 波多野结衣无码AV在线| 人妻21p大胆| 亚洲AV无码乱码在线观看裸奔| 亚洲一区二区三区麻豆| 毛片免费视频| AV在线天堂进入| 国产又黄又硬又粗| 久久永久视频| 色男人的天堂久久综合| 亚洲最新在线| 日韩在线成年视频人网站观看| AⅤ色综合久久天堂AV色综合 |