999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析優(yōu)化參數(shù)預(yù)測(cè)水解酶的亞類

2018-05-07 06:52:04王瑩程薇薇

王瑩 程薇薇

摘 要:本文基于前人建立的數(shù)據(jù)庫(kù),以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,用主成分分析對(duì)序列向量進(jìn)行分析,選取20個(gè)主要成分。將每條序列由20維向量來(lái)表示。用SVM算法對(duì)水解酶的亞類分別進(jìn)行分類預(yù)測(cè),在Jack-knife檢驗(yàn)下的預(yù)測(cè)總精度為96.9%。

關(guān)鍵詞:SVM算法 主成分分析 水解酶 模體

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2018)01(a)-0143-02

酶是一種生物催化劑,存活在細(xì)胞中,影響著細(xì)胞生長(zhǎng)、代謝等生命過(guò)程的化學(xué)反應(yīng)[1]近些年,許多研究者通過(guò)利用生物信息學(xué)建立了相應(yīng)的酶序列的數(shù)據(jù)庫(kù),并通過(guò)分類預(yù)測(cè)算法及酶序列的相關(guān)特征建立數(shù)學(xué)模型對(duì)酶的家族類及其亞類的研究上取得了較好的預(yù)測(cè)結(jié)果。隨著酶序列的相關(guān)特征的增多,用來(lái)表示序列的向量維數(shù)也相應(yīng)的增加,急需對(duì)其進(jìn)行優(yōu)化,降低向量的維數(shù),以提高預(yù)測(cè)的總精度。因此,本文將用主成分分析的方法來(lái)降低序列特征的維數(shù),得到較好的預(yù)測(cè)精度。

1 數(shù)據(jù)庫(kù)和方法

1.1 數(shù)據(jù)庫(kù)

本文選取2011年由我們小組構(gòu)建和整理新數(shù)據(jù)庫(kù),其中水解酶5個(gè)亞類共4498條序列。

1.2 特征參數(shù)

1.2.1 氨基酸組分

蛋白質(zhì)序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數(shù),來(lái)表示酶的序列信息。我們可以將一條酶序列替換為一個(gè)20維的向量。

1.2.2 氨基酸緊鄰組分

本文用氨基酸緊鄰組分將每條酶序列用400維向量來(lái)表示,以反映序列的結(jié)構(gòu)信息。將一條酶序列替換為一個(gè)400維的向量,同上一個(gè)參數(shù)。

1.2.3 預(yù)測(cè)的二級(jí)結(jié)構(gòu)

對(duì)于蛋白質(zhì)分子來(lái)說(shuō),它不僅只具有一級(jí)結(jié)構(gòu),還有二級(jí)結(jié)構(gòu)等。而二級(jí)結(jié)構(gòu)反映其空間結(jié)構(gòu)信息。因此,本文選取預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息(P)作為特征參數(shù)。

本文所使用的二級(jí)結(jié)構(gòu)信息是PSIpred(Position Specific Iterated pred)軟件[2]。對(duì)于一條酶序列,我們用一個(gè)3維的向量來(lái)表示3種二級(jí)結(jié)構(gòu)在該序列中出現(xiàn)的頻數(shù)。

1.2.4 低頻功率譜密度值(F)

功率譜密度可以反映蛋白質(zhì)序列的次序信息,本文將用其作為參數(shù)取得了較好的預(yù)測(cè)效果[3],功率譜密度值的提取方法如下[4]。

(1)將酶序列轉(zhuǎn)為成數(shù)字序列。

由于酶具有強(qiáng)疏水性,因此我們使用疏水值作為參數(shù)[6],使得每條酶序列變成數(shù)字序列。

(2)離散傅里葉變換。

酶序列數(shù)字化后,對(duì)它進(jìn)行離散傅里葉變換,具體公式如下:

1≤k≤L

(3)提取功率譜密度值:,其中T為周期。

(4)功率譜密度值的處理。

因?yàn)槊織l酶序列長(zhǎng)短不同,比較和分析其特性有一定的限制,需將長(zhǎng)度不同的酶序列變?yōu)橄嗤L(zhǎng)度。因此,根據(jù)信號(hào)的組成特點(diǎn),本文將每條酶序列都轉(zhuǎn)換成15維的向量。

1.2.5 MEME模體和功能模體

模體是刻畫(huà)蛋白質(zhì)結(jié)構(gòu)和執(zhí)行功能的重要部分。因此,通過(guò)對(duì)模體的研究,我們就能得到該序列的功能信息及結(jié)構(gòu)特征。本文選用已被廣泛用于DNA及蛋白質(zhì)序列中模體搜索的MEME在線搜索器作為搜索工具[3]來(lái)搜索水解酶中的模體。本文限定6~15個(gè)氨基酸殘基作為模體的長(zhǎng)度,并且每類亞類搜索5個(gè)模體類數(shù),統(tǒng)計(jì)每條酶序列。

我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語(yǔ)言編譯實(shí)現(xiàn)。用來(lái)搜索水解酶的亞類的蛋白質(zhì)序列中出現(xiàn)的模體。對(duì)于每一條酶序列來(lái)說(shuō),記錄模體在序列中出現(xiàn)的頻數(shù)。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統(tǒng)計(jì)模體,水解酶共得到30個(gè)模體頻數(shù)值。

1.3 主成分分析

主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發(fā)展。主成分分析是一種通過(guò)降維的方法把多個(gè)變量化成幾個(gè)主成分的統(tǒng)計(jì)分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

本文以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,將468維向量利用主成分分析的方法優(yōu)選出貢獻(xiàn)率較高的20維向量特征。因此,通過(guò)該方法每一條酶序列將由20維向量來(lái)表示。

1.4 支持向量機(jī)算法

支持向量機(jī)[4](SVM)是一種新型分類預(yù)測(cè)方法。SVM的基本思想是將把輸入數(shù)據(jù)通過(guò)非線性映射映射到一個(gè)高維的空間,然后在找到最優(yōu)超平面,最終超平面與樣本之間的距離最大。其中最優(yōu)超平面的判別函數(shù)為:,這里是內(nèi)積核函數(shù)。本文選取徑向基核函數(shù)進(jìn)行計(jì)算。

2 結(jié)語(yǔ)

本文基于前人建立的數(shù)據(jù)庫(kù),以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進(jìn)行分類預(yù)測(cè),在Jack-knife檢驗(yàn)下進(jìn)行預(yù)測(cè),總精度依次為96.9%。其中各亞類的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

參考文獻(xiàn)

[1] 閻隆飛,孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.

[2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.

[3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.

[4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.

[5] 許忠能.生物信息學(xué)[M].北京:清華大學(xué)出版社,2008.

[6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.

主站蜘蛛池模板: 国产免费黄| 国产精品理论片| 国产精品视频免费网站| 国内精自视频品线一二区| 成人午夜视频免费看欧美| 国产亚洲精品自在久久不卡| 她的性爱视频| 91破解版在线亚洲| 国产成人乱无码视频| 色天堂无毒不卡| 精品国产成人av免费| 美女高潮全身流白浆福利区| 日本不卡视频在线| 日韩精品成人在线| 日韩精品久久无码中文字幕色欲| 性视频一区| 亚洲美女视频一区| 精品夜恋影院亚洲欧洲| 欧美激情首页| 伊人久久婷婷| 国产精品第一区在线观看| 国产精品第| 亚洲无线观看| 久久毛片免费基地| 日本影院一区| 四虎国产精品永久一区| 国产午夜福利片在线观看| 精品国产一区91在线| av在线无码浏览| 91久久偷偷做嫩草影院精品| 亚洲第一成年人网站| 久久综合五月婷婷| 国产精品久久精品| 亚洲VA中文字幕| www亚洲天堂| 亚洲中文字幕97久久精品少妇| a毛片在线免费观看| 午夜日b视频| 毛片三级在线观看| 成人亚洲天堂| 国产va视频| 欧美不卡视频在线观看| 毛片视频网址| 91久久夜色精品| 国产精品无码影视久久久久久久| 四虎成人精品| 国产精品亚洲天堂| 国产成人乱无码视频| 日韩av无码DVD| 色九九视频| 精品色综合| 亚洲91精品视频| 国产精品jizz在线观看软件| 国产靠逼视频| 欧美午夜久久| www成人国产在线观看网站| a级高清毛片| 国产精品不卡永久免费| 欧美成人一级| 日韩激情成人| 最新亚洲人成网站在线观看| 久热中文字幕在线| 亚洲精品国产日韩无码AV永久免费网| 亚洲AV无码久久精品色欲| 久久免费看片| 色爽网免费视频| 91在线国内在线播放老师| 国产精品手机在线观看你懂的| 久爱午夜精品免费视频| 国产在线精品人成导航| 四虎永久免费在线| 又爽又大又黄a级毛片在线视频| 伦伦影院精品一区| 精品小视频在线观看| 日本一区二区三区精品AⅤ| 亚洲精品第一页不卡| a毛片基地免费大全| 在线观看免费国产| 97se综合| 国产精品理论片| 中国国产A一级毛片| 一区二区三区四区在线|