999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進PCA的蛋白質O-糖基化位點的預測

2018-01-25 07:14:16楊雪梅
價值工程 2018年36期

摘要:提出了改進的主成分分析(IPCA)的方法,結合支持向量機(SVM)對蛋白質O-糖基化位點進行預測。IPCA克服了傳統主成分分析(PCA)尋找全局主要成分的不足,對類內樣本進行加權,在保護局部結構的前提下,消除了變量之間的相關性,提取出具有局部特征的主要成分。然后,在特征空間中用SVM進行分類(預測)。實驗結果表明,IPCA+SVM方法是預測糖基化位點行之有效的方法。

Abstract: To improve the prediction accuracy of O-glycosylation sites, a new method of improved principle component analysis (IPCA) was proposed. At first, next the feature of the original data were extracted by IPCA, IPCA protects the local structure of multimodal data by weighting the data in the same class; then the prediction(classification) was done in feature space by Support Vector Machines(SVM). The results indicate that the performance of IPCA+SVM is viable and effect.

關鍵詞:預測;蛋白質;改進主成分分析;SVM

Key words:prediction;protein;improved principal component analysis(IPCA);Support Vector Machine(SVM)

中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2018)36-0194-03

0? 引言

糖基化是指在酶的作用下將糖轉移至蛋白質,和蛋白質上的氨基酸殘基形成糖苷鍵的過程。糖基化是對蛋白質的重要修飾,有調節、改良蛋白質功能的作用。蛋白質的糖基化程度和糖鏈結構的異常變化是癌癥及其他疾病發生的標志之一[1]。因此,預測糖基化位點重要意義。

糖基化有多種形式,其中的O-糖基化發生在絲氨酸殘基(S)或蘇氨酸殘基(T)的羥基氧上[1]。本文將對O-糖基化位點進行預測,即預測一個含有S或T的氨基酸序列是否帶有糖鏈。

目前,用來進行預測的方法有人工神經網絡(ANN)[2]、支持向量機(SVM)[3]以及一些特征提取的方法[4-6],都取得了較好的預測效果。

在特征提取的方法中,FDA和PCA所提取的特征都是全局特征,當數據是多模態時,效果就不能令人滿意。多模態是指在同一類中樣本數據又形成幾個“簇”,即“類內多模態”。這種情況在實際應用中經常可以觀測到,比如,引起某種疾病的原因有多種,因而癥狀就有多種,該疾病的樣本數據就是多模態的;用二分類的方法解決多分類問題時也會誘導出“類內多模態”問題。在糖基化位點預測的問題中,可以將樣本分為“糖基化”和“非糖基化”兩類,而“糖基化”這一類又包括“糖基化S”和“糖基化T”,“非糖基化”這一類又包括“非糖基化S”和“非糖基化T”,顯然數據是多模態的。

由于FDA和PCA關注全局特征的提取,而忽略了局部結構的保護,在訓練過程中,可能會造成一定的過擬合從而誤判。Sugiyama[7]改進了FDA,結合局部保護映射(LPP)和FDA的思想,提出了局部Fisher(LFDA)的方法,對于同類的樣本,根據樣本之間的“親密度”賦予它們不同的“權重”,有效地保護了局部結構,成功地解決了FDA分類時的多模態問題。受到LFDA的啟發,在本文中,提出了改進的主成分分析的方法(IPCA),在計算樣本的協方差矩陣時,對于同類樣本根據其“親密度”賦予相應的“權重系數”,對改進后的協方差矩陣進行分析,提取其特征向量,從而得到具有局部結構的特征,再在特征域用支持向量機(SVM)分類,得到了較好的分類效果。

本文結構如下:第一節介紹蛋白質序列數據與編碼;第二節描述用來預測的IPCA+SVM算法;第四節是預測與結果;最后給出結論。

1? 蛋白質序列與編碼

文中用到的蛋白質數據來自糖基化數據庫Uniprot (v8.0)[8]。選擇了哺乳動物的蛋白質樣本共8組,每組2000個,8組樣本的長度e分別為5,7,9,11,21,31,41,51。每個樣本以S和T為中心,并對該殘基是否糖基化做了標注[1]。糖基化的樣本叫做positive,否則叫做negative。編碼方式為稀疏編碼。

實驗用的訓練樣本和測試樣本同文獻[1]。

2? 改進的主成分分析(IPCA)預測算法

設xi∈Rd,i=1,2,…n是d維訓練樣本向量,yi∈{1,2}是其類標。傳統PCA特征提取的方法是針對全局的,C是所有訓練樣本的協方差矩陣,

用IPCA提取的特征作為SVM的輸入,預測出樣本的類別。

3? 結果與討論

首先,計算了四類樣本的平均值,如圖1,用顏色代表數字,可以看到Positive T和Positive S盡管都屬于positive,但還是各有特征,因此數據是多模態的。

取長度為21的樣本做實驗,此時向量維數為21*(e-1)=420。預測了10次,取10次的平均值。算法用matlabR2014a實現。用IPCA+SVM方法做實驗,并和PCA+SVM、IPCA+ANN和PCA+ANN方法比較,其中的參數如計算親密度的參數s,主成分的個數k等通過實驗確定最佳值。結果見表1。

預測最大值在k以及s的不同值達到。IPCA+SVM方法在主成分個數k為95時達到最高預測準確率(親密度的參數s=7)。總體上看,本文提出的方法優于其他方法,這是因為IPCA用加權的方式提取特征避免了過擬合,保護了局部結構。

進一步,我們用其他7組樣本也做了實驗,IPCA+SVM方法的結果見表2。

4? 結論

對于多模態的蛋白質序列樣本數據,提出了改進的主成分分析法提取特征,引入親密度矩陣對同類樣本進行加權,提取的特征有效保護了局部結構,結合SVM進行預測。實驗表明,相比于已有的預測方法,該方法能夠取得較為理想的效果。

用來進行特征提取的加權主成分分析法,還可以考慮引入核函數,提取更為豐富的非線性特征,有望提高預測的精度。

參考文獻:

[1]楊雪梅,蘇禎.基于KPCA及SVM的蛋白質O-糖基化位點的預測,科學技術與工程,2013,13(25):87-92.

[2]Nishikawa I, Sakamoto H, Nouno I, et al. Prediction of the O-glycosylation sites in protein by layered neural networks and support vector machines. Lecture Notes in Artificial Intelligence. 2006; LNAI (4252): 953-960.

[3]Kenta S, Nobuyoshi N, Yasubumi S.? Support vector machines prediction of N- and O-glycosylation sites using whole sequence information and subcellular localizition. IPSJ Transactions on Bioinformatics. 2009(2):25-35.

[4]楊雪梅,趙花麗. 蛋白質結構的主成分分析及氧鏈糖基化位點的人工神經網絡預測[J].數學的實踐與認識,2009,39(19):108-114.

[5]Zehao Chen. Kernel Independent Component Analysis-Based Prediction on the Protein O-Glycosylation Sites Using Support Vectors Machine and Ensemble Classifiers. ICIC 2015, Part III, LNAI 9227, 651-661.

[6]楊雪梅,李世鵬. 基于核fisher判別分析的蛋白質氧鏈糖基化位點的預測[J].計算機應用,2010,30(11):2959-2961.

[7]Masashi S.: “Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis”. Journal of Machine Learning Research. 8, 1027-1061, 2007.

[8]http://www.ebi.uniprot[DB/OL].

主站蜘蛛池模板: 亚卅精品无码久久毛片乌克兰| 久热中文字幕在线| 久久久久人妻一区精品| a免费毛片在线播放| 一级毛片在线播放免费观看| 97色伦色在线综合视频| 真实国产乱子伦高清| 欧美精品v日韩精品v国产精品| 伦伦影院精品一区| 蜜桃视频一区二区三区| 一本大道无码高清| 久久国产亚洲欧美日韩精品| 亚洲无码37.| 在线播放国产一区| 人人91人人澡人人妻人人爽 | 自偷自拍三级全三级视频| 国产成人啪视频一区二区三区| 国产SUV精品一区二区6| 免费观看无遮挡www的小视频| 国产日韩欧美在线视频免费观看 | 最新亚洲人成无码网站欣赏网| 亚洲男人的天堂久久香蕉网| 日本精品视频| 国产黑丝一区| 免费又爽又刺激高潮网址 | 国产一级二级三级毛片| 一区二区三区精品视频在线观看| 国产欧美另类| 国产一区二区丝袜高跟鞋| 激情爆乳一区二区| 草逼视频国产| 国产成人免费观看在线视频| 扒开粉嫩的小缝隙喷白浆视频| 2021无码专区人妻系列日韩| 福利在线不卡一区| 亚洲码一区二区三区| 在线毛片网站| 无码中字出轨中文人妻中文中| 亚洲va视频| 亚洲综合亚洲国产尤物| 免费人成黄页在线观看国产| 亚洲日韩在线满18点击进入| 黄色网站在线观看无码| 伊人久久福利中文字幕| 国产在线视频二区| 成人韩免费网站| 国产香蕉97碰碰视频VA碰碰看| 国产美女主播一级成人毛片| 欧美精品色视频| 国产乱子伦精品视频| 亚洲欧洲日产国码无码av喷潮| 国产黑丝一区| 欧美天天干| 乱人伦视频中文字幕在线| 第九色区aⅴ天堂久久香| 久久伊人操| 国产91成人| 欧美日韩精品一区二区在线线 | 中国精品久久| 久久一级电影| 婷婷午夜影院| 国产激爽大片在线播放| 亚洲品质国产精品无码| 国产一级在线观看www色| 妇女自拍偷自拍亚洲精品| 亚洲国产欧美中日韩成人综合视频| 狂欢视频在线观看不卡| 澳门av无码| 成人年鲁鲁在线观看视频| 九九九久久国产精品| 国产成年无码AⅤ片在线| 97se亚洲综合| 在线色国产| 玖玖精品视频在线观看| 国产成人精品视频一区二区电影| 亚洲男人在线天堂| 在线五月婷婷| 国产流白浆视频| 夜夜高潮夜夜爽国产伦精品| 亚洲 欧美 日韩综合一区| 久久亚洲国产视频| 少妇精品在线|