999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HBV序列的系統(tǒng)進(jìn)化分析和特征提取研究

2015-04-18 03:00:30謝坐祥張俊鵬
大理大學(xué)學(xué)報(bào) 2015年12期
關(guān)鍵詞:特征提取分類特征

謝坐祥,陳 霞,張俊鵬

(大理大學(xué)工程學(xué)院,云南大理 671003)

乙型肝炎病毒(Hepatitis B Virus,HBV)是一類引起人類慢、急性肝炎的環(huán)狀DNA病毒〔1〕。目前全球約有2.4億人感染乙型肝炎,每年約有78萬(wàn)人死于慢性或急性乙型肝炎。根據(jù)世界衛(wèi)生組織(WHO)〔1〕報(bào)告,我國(guó)有5%~10%的成年人是HBV慢性感染者。

HBV基因?yàn)椴糠珠]合雙鏈環(huán)狀DNA,全長(zhǎng)約3.2 kb。它主要分為P、X、C和S 4個(gè)基因區(qū),C區(qū)分為C基因和前C基因片段,S區(qū)分為前S1、前S2和S基因片段〔2〕。目前研究表明:HBV基因型可以分為A、B、C、D、E、F、G和H 8種類型,不同的基因型呈現(xiàn)不同地理區(qū)域分布,我國(guó)主要以B和C兩種基因型為主〔3〕。

本文將基于機(jī)器學(xué)習(xí)算法和數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)HBV多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次的分析。這將有利于進(jìn)一步了解HBV病毒在序列層次下的進(jìn)化關(guān)系、突變過程、基因特點(diǎn)和基因型種類,進(jìn)而為HBV患者提供更科學(xué)有效的輔助治療。

1 材料與方法

1.1 數(shù)據(jù)源 本文選用的HBV序列數(shù)據(jù)源來(lái)源于云南省第一人民醫(yī)院〔3〕,選取的HBV序列片段為X和前C基因片段。10例HBV感染者樣本使用聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase Chain Reaction,PCR)擴(kuò)增技術(shù)克隆至364個(gè)樣本,每例樣本的克隆數(shù)如表1所示。

表1 HBV感染者樣本及其克隆數(shù)

1.2 分析方法 HBV序列分析流程圖如圖1所示,整個(gè)分析過程由3個(gè)步驟組成。步驟1獲取HBV數(shù)據(jù)源,數(shù)據(jù)源包括364個(gè)HBV樣本序列和38個(gè)HBV參考序列,然后進(jìn)行多序列比對(duì)。為了保證HBV多序列比對(duì)的質(zhì)量,本文采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。步驟2就比對(duì)后的HBV序列進(jìn)行系統(tǒng)進(jìn)化分析,通過構(gòu)造系統(tǒng)進(jìn)化樹建立HBV樣本序列與參考序列之間的進(jìn)化分析。本文使用鄰接法〔4〕、最大似然法〔5〕、最小進(jìn)化法〔6〕、平均距離法〔7〕和最大簡(jiǎn)約法〔8〕5種常用方法分別對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹;為了研究堿基位點(diǎn)與HBeAg陽(yáng)性與陰性的關(guān)系,步驟3對(duì)364個(gè)HBV樣本序列進(jìn)行特征堿基位點(diǎn)提取,提取方法采用CFS(Correlation Feature Selection)〔9〕、卡方檢驗(yàn)(Chi-square Test)〔10〕和信息熵(Information Entropy)〔11〕3種方法進(jìn)行特征提取。為了評(píng)價(jià)特征提取前后的分類精度,分別使用決策樹C4.5算法〔12〕、樸素貝葉斯(Nave Bayes)〔13〕、支持向量機(jī)(SVM)〔14〕和隨機(jī)森林(Random Forest)〔15〕4種分類器對(duì)HBV序列樣本進(jìn)行分類精度比較。

圖1 HBV序列分析流程圖

2 HBV序列系統(tǒng)進(jìn)化分析

進(jìn)化分析是從分子特性出發(fā)了解生物系統(tǒng)的內(nèi)在規(guī)律。進(jìn)化論表明物種之間存在一定的親緣關(guān)系,一般用系統(tǒng)進(jìn)化樹距離的大小表示序列進(jìn)化中親緣關(guān)系的遠(yuǎn)近。

本文使用MEGA v6軟件中的鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法5種方法對(duì)10例HBV克隆序列構(gòu)建系統(tǒng)進(jìn)化樹,參數(shù)為MEGA軟件默認(rèn)設(shè)置參數(shù)。通過分析系統(tǒng)進(jìn)化樹,5種方法所預(yù)測(cè)的HBV基因型完全一致,這也驗(yàn)證了不同方法預(yù)測(cè)HBV基因型結(jié)果一致性。

除了編號(hào)8、13和24的真實(shí)基因型未知外,其余編號(hào)的預(yù)測(cè)基因型與真實(shí)基因型結(jié)果完全一致,見表1。這也進(jìn)一步說(shuō)明采用系統(tǒng)進(jìn)化樹預(yù)測(cè)未知HBV序列基因型的方法是有效的。

3 HBV序列特征提取

特征提取也叫特征選擇,它是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟。其主要思想是從已知的特征屬性集中根據(jù)某一特定準(zhǔn)則提取出區(qū)分性較好的單個(gè)特征子集或一個(gè)最優(yōu)特征屬性子集〔16〕。經(jīng)特征提取后可以剔除大量的冗余信息和不相關(guān)特征信息,這不僅降低特征屬性空間維數(shù),還節(jié)約分析時(shí)間和提高對(duì)目標(biāo)函數(shù)的預(yù)測(cè)性能力。

目前研究表明,每條HBV序列的堿基位點(diǎn)中,往往很多堿基位點(diǎn)是保守的,與HBV基因型分類無(wú)關(guān),因此對(duì)HBV序列的堿基位點(diǎn)進(jìn)行特征提取可以提高HBV基因型正確率和預(yù)測(cè)水平,同時(shí)在序列層次下挖掘與乙型肝炎患者相關(guān)的單核苷酸多態(tài)性位點(diǎn)(Single-Nucleotide Polymorphism,SNP)〔17〕。

3.1 特征堿基位點(diǎn)提取 HBV序列經(jīng)過多序列比對(duì)后,總共有624個(gè)堿基位點(diǎn)。由于CFS方法提取的是一個(gè)最優(yōu)屬性集,其大小為11。然而,卡方和信息熵方法按照權(quán)重重要性排列每個(gè)堿基位點(diǎn),其大小為624。為了公平地比較他們之間的分類精度,卡方和信息熵方法都統(tǒng)一選擇前11個(gè)最具有代表性的特征屬性集。

另一方面,為了研究屬性集大小與分類精度之間的關(guān)系,將卡方和信息熵方法提取的特征屬性集大小擴(kuò)大至20、30、40和50。

3.2 分類結(jié)果分析 本文選取決策樹C4.5、Na?ve Bayes、SVM和Random Forest 4種經(jīng)典分類器對(duì)CFS、卡方和信息熵3種特征提取前后的HBV序列進(jìn)行分類分析。軟件平臺(tái)為WEKA v3.7,屬性集大小設(shè)置為11,20、30、40和50。

如表2所示,Original代表原始HBV序列數(shù)據(jù),CFS-11代表CFS特征提取方法后的HBV序列數(shù)據(jù),Chi-11、Chi-20、Chi-30、Chi-40和Chi-50分別代表卡方特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù),InfoGain-11、InfoGain-20、InfoGain-30、InfoGain-40和InfoGain-50分別代表信息熵特征提取法的前11、20、30、40和50特征屬性集大小的HBV序列數(shù)據(jù)。當(dāng)特征屬性集大小為11的時(shí)候,4種分類器的分類精度ACC(Accuracy)有所降低,但是所選擇的11個(gè)特征屬性集也能夠很好的表征出原始HBV序列數(shù)據(jù)的624個(gè)特征屬性。隨著特征屬性集大小的增大,4種分類器的分類精度ACC都有增大的趨勢(shì)。特別地,當(dāng)特征屬性集大小選擇合適時(shí),Na?ve Bayes和Random Forest的分類精度ACC可以達(dá)到最大值1。這些結(jié)果表明:特征提取對(duì)HBV序列數(shù)據(jù)降維的同時(shí),也能夠保證甚至提高分類精度ACC。

表2 比較不同特征提取方法的分類精度ACC

4 結(jié)語(yǔ)

本文從多序列比對(duì)、系統(tǒng)進(jìn)化分析和特征提取3個(gè)層次對(duì)10例HBV感染者的HBV序列進(jìn)行分析。首先采用手動(dòng)比對(duì)方法對(duì)HBV序列進(jìn)行多序列比對(duì)。然后利用鄰接法、最大似然法、最小進(jìn)化法、平均距離法和最大簡(jiǎn)約法構(gòu)造10例HBV克隆序列的系統(tǒng)進(jìn)化樹。5種系統(tǒng)進(jìn)化樹構(gòu)造法的預(yù)測(cè)結(jié)果完全一致,預(yù)測(cè)的10例(編號(hào)8、10、13、17、24、26、32、213、264和320)HBV感染者基因型分別為:C、C、C、Ba、C、C、C、C、C和C。除去未知基因型,準(zhǔn)確率為100%。為了降低HBV序列數(shù)據(jù)的維數(shù),采用CFS、卡方檢驗(yàn)和信息熵3種方法進(jìn)行特征提取。4種分類器(決策樹C4.5、Na?ve Bayes、SVM和Random Forest)的分類結(jié)果表明:特征提取能夠降低HBV序列數(shù)據(jù)的維數(shù),同時(shí)保證甚至提高分類精度。

〔1〕World Health Organization.乙型肝炎實(shí)況報(bào)道第204號(hào)〔EB/OL〕.〔2015-07-19〕.http://www.who.int/mediacentre/factsheets/fs204/zh/.

〔2〕BRECHOT C,POURCEL C,LOUISE A,et al.Presence of integrated hepatitis B virus DNA sequences in cellular DNA of human hepatocellular carcinoma〔J〕.Nature,1980,286(5772):533-535.

〔3〕SHEN T,GAO J,ZOU Y L,et al.Novel hepatitis B virus subgenotype in the southern Yunnan Province of China〔J〕.Intervirology,2009,52(6):340-346.

〔4〕SAITOU N,NEI M.The neighbor-joining method:a new method for reconstructing phylogenetic trees〔J〕.Molecular Biology and Evolution,1987,4(4):406-425.

〔5〕YANG Z.PAML:a program package for phylogenetic analysis by maximum likelihood〔J〕.Computer Applications in the Biosciences:CABIOS,1997,13(5):555-556.

〔6〕RZHETSKY A,NEI M.A simple method for estimating and testing minimum-evolution trees〔J〕.Mol Biol Evol,1992,9(5):945-967.

〔7〕TAKEZAKI N,NEI M.Genetic distances and reconstruction of phylogenetic trees from microsatellite DNA〔J〕.Genetics,1996,144(1):389-399.

〔8〕SAITOU N,IMANISHI T.Relative efficiencies of the Fitch-Margoliash,maximum-parsimony,maximum-likelihood,minimum-evolution,and neighbor-joining methods of phylogenetic tree construction in obtaining the correct tree〔J〕.Mol Biol Evol,1989,6(5):514-525.

〔9〕HALL M A.Correlation-based feature selection for machine learning〔D〕.Hamilton:The University of Waikato,1999.

〔10〕YATES F.Contingency tables involving small numbers and the χ2test〔J〕.Supplement to the Journal of the Royal Statistical Society,1934,1(2):217-235.

〔11〕KULLBACK S,LEIBLER R A.On information and sufficiency〔J〕.The Annals of Mathematical Statistics,1951,22(1):79-86.

〔12〕QUINLAN J R.C4.5:programs for machine learning〔M〕.Amsterdam:Elsevier,2014.

〔13〕RISHI.AnempiricalstudyofthenaiveBayesclassifier〔C〕//IJCAI 2001 workshop on empirical methods in artificial intelligence.2001,3(22):41-46.

〔14〕CORTES C,VAPNIK V.Support-vector networks〔J〕.Machine Learning,1995,20(3):273-297.

〔15〕 BREIMAN L.Random forests〔J〕.Machine Learning,2001,45(1):5-32.

〔16〕GUYON I,ELISSEEFF A.An introduction to variable and feature selection〔J〕.The Journal of Machine Learning Research,2003,3:1157-1182.

〔17〕AHMADIAN A,GHARIZADEH B,GUSTAFSSON A C,et al.Single-nucleotide polymorphism analysis by pyrosequencing〔J〕.Analytical Biochemistry,2000,280(1):103-110.

猜你喜歡
特征提取分類特征
分類算一算
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 凹凸精品免费精品视频| 国产精品主播| 国产91高清视频| 狠狠干欧美| 狠狠躁天天躁夜夜躁婷婷| 国产男女XX00免费观看| 免费99精品国产自在现线| 4虎影视国产在线观看精品| 伊人久久精品无码麻豆精品| 麻豆精品在线播放| 丁香婷婷在线视频| 国产夜色视频| 亚洲日韩AV无码一区二区三区人| 国产欧美日韩精品综合在线| 麻豆国产在线观看一区二区| 91偷拍一区| 在线无码九区| 亚洲全网成人资源在线观看| 日韩欧美国产成人| www.91中文字幕| 四虎永久在线| 国产一国产一有一级毛片视频| 亚洲a免费| 午夜在线不卡| 波多野结衣一区二区三区88| 六月婷婷精品视频在线观看| 亚洲国产精品VA在线看黑人| 欧美亚洲日韩中文| 毛片免费在线视频| 精品撒尿视频一区二区三区| 国产成人高清精品免费软件| 国产91线观看| 一级看片免费视频| 免费久久一级欧美特大黄| 亚洲国产日韩一区| 十八禁美女裸体网站| 国产成人无码综合亚洲日韩不卡| 99re经典视频在线| 毛片久久久| 亚洲色图综合在线| 国产色婷婷| 91黄视频在线观看| 中文字幕在线不卡视频| a级毛片免费看| 亚洲黄网在线| 伊人久久影视| 国产手机在线ΑⅤ片无码观看| 永久免费无码成人网站| 国产人免费人成免费视频| 国产精品欧美激情| 国产精品亚欧美一区二区| 国产精品视频导航| 亚洲人成网站18禁动漫无码| 亚洲三级a| 亚洲欧洲自拍拍偷午夜色| 国产三级国产精品国产普男人| 国产精品香蕉在线观看不卡| 欧美日韩亚洲综合在线观看| a级毛片在线免费观看| 国产免费久久精品99re丫丫一| 91久久精品日日躁夜夜躁欧美| 亚洲国产成人自拍| 亚洲成a人片77777在线播放| 欧美不卡在线视频| 毛片视频网址| 黄色片中文字幕| 欧美a√在线| 国产成人在线无码免费视频| 欧美精品H在线播放| 91麻豆精品国产91久久久久| 欧美激情视频一区二区三区免费| 美女视频黄频a免费高清不卡| 五月综合色婷婷| 无码精品国产VA在线观看DVD| 亚洲中文无码av永久伊人| 日本高清有码人妻| 国产精品污视频| 亚洲三级片在线看| 亚洲成人精品| 欧美性猛交一区二区三区| 中文字幕免费播放| 99999久久久久久亚洲|