999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于HBV序列的SNP位點檢測方法研究

2014-08-03 15:23:30劉立芳賀建峰
計算機(jī)工程與應(yīng)用 2014年23期
關(guān)鍵詞:特征檢測方法

張 琪,劉立芳,馬 磊,賀建峰

昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500

一種基于HBV序列的SNP位點檢測方法研究

張 琪,劉立芳,馬 磊,賀建峰

昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500

1 介紹

乙型肝炎病毒屬于被稱為肝脫氧核糖核酸病毒科的病毒族,嚴(yán)重影響人類健康,它與DNA病毒關(guān)系密切。這種類型的病毒感染是一種嚴(yán)重的全球健康問題,也是常見的誘發(fā)肝臟疾病和肝癌的原因。據(jù)估計,全球至少有20億人感染乙肝病毒,多達(dá)3.78億人患有慢性感染,每年大約有62萬人死于由HBV感染引發(fā)的急性和慢性病[1-2]。此外,每年全世界新增450萬HBV感染病例,其中四分之一發(fā)展成為肝臟類疾病[3]。

HBV是一種環(huán)狀的非閉合雙鏈DNA分子,全基因長約為3.2 bp。乙型肝炎病毒可編碼四個重疊的開放閱讀框(ORFs:S,C,P和X)。S ORF編碼乙型肝炎表面抗原(HBsAg),它在結(jié)構(gòu)上和功能上分為pre-S1,pre-S2,和S區(qū),C ORF編碼乙肝e抗原和核蛋白,P ORF編碼聚合酶蛋白,X ORF編碼X蛋白[4]。HBV根據(jù)基因組序列之間差異性大于8%的基因分型標(biāo)準(zhǔn)進(jìn)行分型[5-8]。并且其基因型在不同的地區(qū)流行程度或分布不同。

在物種遺傳進(jìn)化過程中,變異是各種生物對“適者生存”原則的生動體現(xiàn)。HBV病毒為了達(dá)到在宿主體內(nèi)長期生存和傳播的目的,也必然具有這種內(nèi)在的潛力。研究表明HBV基因變異可能導(dǎo)致每個HBV患者受HBV感染后,其病情輕重存在很大差異,給乙肝的治療和診斷帶來了許多問題。然而目前卻沒有很好的藥物及方法對其進(jìn)行有效的治療。目前國際上采用的接種疫苗的方法,幾乎成了唯一的預(yù)防措施,并取得了較好的成效,使得HBsAg攜帶者顯著減少。同時,在治療過程中,仍然存在很多問題。基于個體差異和遺傳背景的不同,使得不同人感染HBV容易與否及病毒最終演化情況也存在很大差異。在這其中,SNP的存在與否是決定不同個體之間基因存在差異的根本原因。SNP位點的檢出可以在一定程度上預(yù)測個體被HBV感染的風(fēng)險性及被感染后的疾病演變程度,為治療與預(yù)防HBV感染做好準(zhǔn)備[9-10]。

雖然單位點突變作為乙肝病毒進(jìn)化中的一個重要因素,已經(jīng)有所研究,但是卻只有有限的突變位點被文獻(xiàn)報道,例如ntG1764A和ntA1762T[11]。目前,單核苷酸多態(tài)性(SNP)發(fā)掘主要依賴直接DNA測序或變性高性能液相色譜(dHPLC)[12-13]。但是這些方法均具有耗時長,過程繁瑣和技術(shù)難度高,費(fèi)用大等缺點,從而制約了SNP的研究。基于此,本文提出了一種基于計算機(jī)的方法,所提出的方法首次應(yīng)用于HBV序列的SNP位點檢測,即應(yīng)用MORE[14]和RPSW[15]算法去研究乙肝病毒序列pre-C和X(nt1374~nt1900)區(qū)遺傳因子的單突變位點。結(jié)果部分與以前相關(guān)文獻(xiàn)報道的內(nèi)容部分一致,例如,突變位點ntA1762T,ntT1753C,ntG1764A和nt1896。除此之外,還發(fā)現(xiàn)新的突變位點和具有突變風(fēng)險的突變位點,例如ntA1436G,ntG1629A,ntA1383C,ntA1573T,nt1726,nt1657,nt1463,nt1658,nt1498,nt1386。

2 材料與方法

2.1 實驗數(shù)據(jù)源

在本課題研究中,使用數(shù)據(jù)為云南省第一人民醫(yī)院提供的乙型肝炎病毒序列片段(X基因和前C基因)。樣本集包括10例HBV患者,其中HBeAg陽性4例和陰性六例。共有364條序列,其中209條序列為HBV陰性,155條序列為HBV陽性。在乙型肝炎病毒序列中,實驗的目的是挖掘HBV的SNP位點即單突變位點,所以這里將所有HBV序列的每一個垂直列映射為特征屬性的思想進(jìn)行數(shù)據(jù)處理的(如圖1)。HBV序列數(shù)據(jù)類型分為兩大類,即陽性(positive)和陰性(negative)。每條克隆序列為一個樣本,所對應(yīng)的HBV數(shù)據(jù)類型為類屬性即目標(biāo)屬性(如表1)。

表1 乙肝病毒的數(shù)據(jù)集

2.2 方法

在本文中,有三個步驟來約束和匯總乙肝病毒序列。首先,找出對區(qū)分樣本最有用的特征位點。然后,使用MORE算法開發(fā)特征位點的最優(yōu)風(fēng)險和預(yù)防模式。最后,RPSW算法被用來對乙肝病毒進(jìn)行差異化分析。

2.2.1 信息熵建立和特征選擇

生物信息學(xué)數(shù)據(jù)在樣本采集的過程中,由于受到各種因素的影響,產(chǎn)生大量的冗余信息。在這種情況下,特征信息的提取顯得尤為重要。可以通過特征信息提取,剔除冗余的數(shù)據(jù)信息即非疾病基因或疾病風(fēng)險基因,以降低數(shù)據(jù)維數(shù),從而提高對初始數(shù)據(jù)集訓(xùn)練時的時間和空間復(fù)雜度,同時也可以提高分類器的效率,為提取對疾病有重要價值的特征信息避免了很多不相關(guān)信息的干擾,從而使剩下的特征信息可以較好地用于疾病診斷和防治。

圖1 樣本數(shù)據(jù)經(jīng)過映射后得到的格式

本節(jié)介紹一種基于信息熵的序列統(tǒng)計特征提取法。在DNA序列數(shù)據(jù)中,信息表示每個位點堿基不確定性的消失,堿基位點的變化將影響該位點信息的獲取,如果DNA序列中某個垂直列堿基位點發(fā)生變化,則信息熵就越大,如果該列只有一種堿基,則信息熵為0。所以信息熵同時也是系統(tǒng)有序化程度的一個衡量指標(biāo)。關(guān)于信息熵的計算如式(1)所示。給定包含關(guān)于某個目標(biāo)概念的正反樣本的樣本集S,那么S相對這個分類的熵為[16]:

P+和P-分別表示在樣本S中正例的比重和反例的比重。反映在HBV序列中表現(xiàn)為HBV陽性和陰性。在計算過程中,lb0=0。例如,樣本集S中的所有屬性都屬于同一個類,則信息熵為0,如果樣本集S中正例樣本與反例樣本的個數(shù)相同,則信息熵為1,如果樣本集中正例樣本與反例樣本個數(shù)不相同,信息熵則在0和1之間。

信息增益是一種特征量化方法,用來定義屬性分類訓(xùn)練數(shù)據(jù)的能力。在WEKA平臺下,信息增益融合了基于排序(Ranking)的方法,它根據(jù)DNA序列的垂直列中堿基的變化率來評價對疾病基因的重要性,變化率越高,該位置對疾病基因就越重要。然后按照重要性降序排列。最后選擇排名靠前的基因作為特征基因[16]。一個屬性的增益(S,A),相對于一數(shù)據(jù)集樣品S,被定義為:

其中,Value(A)的值是屬性A所有可能值的集,Sv是S的子集。值得注意的是,第一部分是在公式(1)中提到的原始數(shù)據(jù)集S的熵,在公式(2)中的第二部分是當(dāng)S用屬性A分完區(qū)后的熵。分區(qū)熵是每個子集Sv的熵的總和,通過樣品的Sv/S比值來加權(quán)。因此,增益(S,A)是由屬性A值的變化引起熵的減少。通過屬性A的值,當(dāng)S中任何組成元素的目標(biāo)值被編碼時,增益(S,A)的值是一系列保存下來的數(shù)據(jù)。

該方法在WEKA工作臺上執(zhí)行和實現(xiàn)[17]。

2.2.2 最優(yōu)風(fēng)險和預(yù)防模式

在醫(yī)療數(shù)據(jù)集中,含有大量的患者記錄,每一個患者記錄包括一系列屬性,其中一個屬性為目標(biāo)屬性,這個目標(biāo)屬性一般分為兩類,即正常類(Normal)和異常類(Abnormal),如果在樣本中一個患者沒有患病也沒有患病風(fēng)險,即屬于正常類,相反則屬于異常類。所謂模式就是這些屬性值項的集合。

由于在實際的醫(yī)療數(shù)據(jù)集中,數(shù)據(jù)量很大且正反類事例嚴(yán)重不平衡,患病的比例要遠(yuǎn)遠(yuǎn)小于非患病的比例,因此這里采用局部支持度作為異常類模式的支持度,即樣本中同時出現(xiàn)模式P和a的概率與樣本中只出現(xiàn)a的概率的比值。假設(shè)模式P在異常類樣本a的局部支持度的計算公式如公式(3)所示:

這里supp(p→a)表示模式P的支持度,即同時出現(xiàn)模式P和a的概率。局部支持度是滿足反單調(diào)性的:一個超集的支持度小于或等于它的任一子集的支持度。最優(yōu)風(fēng)險與預(yù)防模式能夠被挖掘的原因就是最優(yōu)風(fēng)險與預(yù)防模式滿足反單調(diào)性的原則。在本文中,如果一個模式的局部支持度大于給定的閾值,則這個模式就是頻繁的。

RR(相對風(fēng)險)或OR(比值比)是一個在流行病學(xué)研究中常用的指標(biāo)[18],這是一個概念,用于對比兩組數(shù)據(jù),并期望得到某個特定非期望事件。例如,如果R是屬性值對328=A,類是陽性的,OR=3.0,那么這意味著當(dāng)屬性值對328=A時有三倍的可能表達(dá)為陽性。當(dāng)OR=1時,它表明該因素沒有影響發(fā)病率。當(dāng)OR是高于1,這表明,該因素可能是一個風(fēng)險因素,當(dāng)OR低于1時,它說明了因子可能是預(yù)防因素。RR測量相比OR更加的保守。如果RR高于給定的閾值,這個模式更有可能是一個風(fēng)險模式。否則模式可能是一個預(yù)防模式。下面是一個例子,說明如何計算RR和OR。

表2說明,結(jié)果分為陽性(+)和陰性(-),在被測試的HBV樣本上根據(jù)特定的分析,貼著有(+)或沒有(-)HBV。讓a和c表示HBV的陽性和陰性的數(shù)量,b和d表示沒有HBV的陽性和陰性的數(shù)量,分別為:

表2 模式產(chǎn)生的可能性與輸出結(jié)果

挖掘風(fēng)險和預(yù)防模式肯定帶來冗余模式,這些對于觀察結(jié)果沒有幫助。例如,有兩個風(fēng)險模式,{“Caffeine=yes”和“Cancer=no”}RR=4.1,{“Caffeine=yes”,“Smoking=no”和“Cancer=no”}RR=4.0。實際上,后一種模式與原模式相比有較低的RR,當(dāng)合并因子“Smoking=no”。就可以推斷前者比后者是更有效的模式。最優(yōu)風(fēng)險和預(yù)防模式是所有模式中最強(qiáng)大的模式。最優(yōu)風(fēng)險和預(yù)防模式可以通過MORE(挖掘最優(yōu)風(fēng)險模式集)算法的挖掘排除多余的模式[14]。

最優(yōu)風(fēng)險和預(yù)防模式是從風(fēng)險和預(yù)防模式中提取出來的。一方面,最優(yōu)風(fēng)險模式集包含所有風(fēng)險模式,這種模式比其他的子模式有更高的相對風(fēng)險。另一方面,最優(yōu)預(yù)防模式包括所有的預(yù)防模式,它們有更低的相對風(fēng)險,在這里指小于給定的閾值。當(dāng)子模式的風(fēng)險和預(yù)防模式不能滿足這個要求,這些風(fēng)險和預(yù)防模式將被忽略。

2.2.3 基于設(shè)置權(quán)重的最優(yōu)風(fēng)險和預(yù)防模式集的差異分析

基于最優(yōu)風(fēng)險和預(yù)防模式,RPSW算法[15]計算每個屬性值對的頻率,對所有屬性值對進(jìn)行頻率降序排列。最優(yōu)風(fēng)險模式屬性值對和預(yù)防模式屬性值對被認(rèn)為分別是風(fēng)險因素和預(yù)防因素集。如果一個屬性值對是一個最優(yōu)風(fēng)險或者預(yù)防模式的頻繁元素,并且它的頻繁集相比期望的頻繁閾值更高或者相等,那么它屬于風(fēng)險或預(yù)防模式集。

對于最優(yōu)風(fēng)險和預(yù)防集,只有最優(yōu)風(fēng)險模式的相對風(fēng)險高于最優(yōu)風(fēng)險模式中的相對風(fēng)險閾值,最優(yōu)預(yù)防模式的相對風(fēng)險低于最優(yōu)預(yù)防模式中的相對風(fēng)險閾值,上述規(guī)則才被用來生成最優(yōu)風(fēng)險和預(yù)防集,最優(yōu)風(fēng)險和預(yù)防集之間沒有共同集。

例如,假設(shè)有五個風(fēng)險模式(相對風(fēng)險閾值:2.0)

這些風(fēng)險模式涉及五個模式和五個屬性:R1、R2、R3、R4和R5。前面已經(jīng)討論過,只選擇了前三個模式。選擇的風(fēng)險模式包含四個屬性:R1,R2,R3和R5。如果屬性值對一直存在于預(yù)防模式中,能夠比較在風(fēng)險和預(yù)防集中的組成部分的等級,然后確定這些屬性值屬于風(fēng)險還是預(yù)防因素。

最優(yōu)風(fēng)險和預(yù)防模式集下的權(quán)重都是基于最優(yōu)風(fēng)險和預(yù)防集。僅僅考慮最優(yōu)風(fēng)險和預(yù)防模式的屬性集。為了使結(jié)果更加直觀,歸一化了各屬性的權(quán)重值對。最優(yōu)風(fēng)險和預(yù)防模式集的總權(quán)重分別是100。在風(fēng)險模式和預(yù)防模式集每個屬性值對有一個權(quán)重,分別生成最優(yōu)風(fēng)險和預(yù)防模式因素權(quán)重集。

3 實驗結(jié)果

3.1 最優(yōu)風(fēng)險和預(yù)防模式

這里根據(jù)信息增益值分別大于0.05,0.10,0.15,0.20四種情況進(jìn)行特征屬性選取的。表3表示信息增益值分別大于0.05,0.10,0.15,0.20時的特征屬性值項選擇結(jié)果數(shù)目。本文在實驗過程中通過這四種情況下的特征提取結(jié)果進(jìn)行了最終結(jié)果實驗,發(fā)現(xiàn)當(dāng)信息增益值選取0.15時,選取的特征屬性對SNP位點的挖掘最有意義。

表3 信息增益值特征屬性提取結(jié)果

3.2 最優(yōu)風(fēng)險和預(yù)防模式的突變位點

基于第二章中的最優(yōu)風(fēng)險與預(yù)防模式及最優(yōu)風(fēng)險與預(yù)防權(quán)重算法概述,將其應(yīng)用到HBV序列候選SNP位點挖掘中。由于實驗數(shù)據(jù)源HBV序列片段(nt1374~nt1900)包括526個堿基位點,經(jīng)過多條序列比對后,變?yōu)?23個堿基位點,表示HBV序列共包含623個垂直列。根據(jù)公式(3)得出實驗樣本的局部支持度為0.43,為了盡可能獲得可能多的最優(yōu)風(fēng)險與預(yù)防模式,對模式長度和相對風(fēng)險閾值進(jìn)行了多次選取多次實驗,最后選取了一個最佳方案即設(shè)置模式長度為7,特征屬性選取閾值為0.15,相對風(fēng)險閾值為1.5。在此條件下,實驗共返回420個最優(yōu)風(fēng)險與預(yù)防模式,分別為388個最優(yōu)風(fēng)險模式和32個最優(yōu)預(yù)防模式。限于篇幅,只列舉了部分具有代表性的最優(yōu)風(fēng)險模式(表4)和最優(yōu)預(yù)防模式(表5)。

表4 HBV序列生成的部分最優(yōu)風(fēng)險模式集

表5 HBV序列生成的部分最優(yōu)預(yù)防模式集

針對表4和表5的部分實驗結(jié)果,以最優(yōu)風(fēng)險模式中的Pattern 1為例解釋說明。模式中Length=3,表示模式長度為3,說明此模式包括三個特征屬性值項,RR=6.500 0表示相對風(fēng)險值為6.500 0。

圖2 特征屬性值項分別在最優(yōu)風(fēng)險與預(yù)防集的權(quán)重值

3.3 乙肝病毒序列的差異分析

在此實驗中,是假設(shè)模式中每一個特征屬性值項是相互獨(dú)立的,所以基于RPSW算法及表3和表4建立的最優(yōu)風(fēng)險與預(yù)防模式結(jié)果,HBV序列的特征屬性值項的最優(yōu)風(fēng)險與預(yù)防權(quán)重計算如圖2所示。每個特征屬性值項的權(quán)重來自它們在最優(yōu)風(fēng)險與預(yù)防集中的百分比。它可以用來判斷每個特征屬性值項的重要性,同時也可以了解某個特征屬性值項對患者患某種疾病的風(fēng)險性與預(yù)防性。

這里特征屬性值項attribute305=T出現(xiàn)在最優(yōu)風(fēng)險頻率集中,attribute305對應(yīng)在HBV序列中的位置為第1 635位堿基位點。風(fēng)險權(quán)重為13.127 8,是最優(yōu)風(fēng)險集中最大的風(fēng)險權(quán)重,表明attribute305在HBV序列第1 635位堿基為T時發(fā)生了陰轉(zhuǎn)的可能性在所有特征屬性值項中最大,這些是導(dǎo)致此處發(fā)生堿基突變的決定因素。attribute209=T出現(xiàn)在最優(yōu)預(yù)防集中,且預(yù)防權(quán)重為28.846 2,表明attribute209在HBV序列第1 573位堿基為T時不發(fā)生陰轉(zhuǎn)的可能性很大,是此處防止堿基突變的決定因素。如果attribute69同時出現(xiàn)在最優(yōu)風(fēng)險與預(yù)防集中,其中特征屬性值項attribute69=A出現(xiàn)在最優(yōu)風(fēng)險集中,attribute69=G出現(xiàn)在最優(yōu)預(yù)防集中,則表明attribute69在HBV序列第1 436位置上發(fā)生堿基G到A的陰轉(zhuǎn),說明此處為候選SNPs位點。

根據(jù)上述表述,基于圖2中最優(yōu)風(fēng)險權(quán)重集,在本次實驗中共檢測出16處候選SNPs位點,其中8處屬于堿基替換突變,在這8處點突變中,其中4處已在一些文獻(xiàn)中發(fā)布(nt1753,nt1762,nt1764,nt1896),4處(nt1436,nt1383,nt1629,nt1573)是新發(fā)現(xiàn)的候選SNP位點。其余8處則為SNPs位點缺失,即發(fā)生的缺失突變。

實驗結(jié)果表明,實驗提出的挖掘SNP位點的計算機(jī)方法,不僅可以檢測已知SNP位點,也可以檢測未知SNP位點,同時具有不需要昂貴的硬件支持,檢出率較高的優(yōu)點。

表6 每個特征屬性的頻率按照降序排列

4 結(jié)論

近年來SNP的檢測方法已被廣泛研究,國內(nèi)外專家學(xué)者也相應(yīng)提出了多種方法檢測SNP,但是均需要依賴昂貴的儀器或?qū)I(yè)人員的技術(shù)支持。本研究針對364條HBV病毒序列數(shù)據(jù),提出了一種基于最優(yōu)風(fēng)險與預(yù)防模式算法來研究HBV病毒序列的SNP位點檢測問題。綜合特征屬性提取和風(fēng)險與預(yù)防模式的建立挖掘出HBV病毒序列的部分SNP位點。該方法與其他硬件檢測的方法相比,無論在檢測的通用性還是檢出率上都具有較為明顯的優(yōu)勢,從而證明了該方法能較好地完成對SNP位點的檢測,同時該方法所用成本低廉,操作簡便,并能在龐大的基因數(shù)據(jù)中選出SNP位點,從而對乙型肝炎的臨床診斷和生物醫(yī)學(xué)研究起到有益的參考和借鑒作用,有望成為適用于臨床的SNPs檢測方法。

[1]William M,Lee M D.Hepatitis B virus infection[J].New England Journal of Medicine,1997,337(24):1733-1745.

[2]Goldstein S T,Zou F,Hadler S C,et al.A mathematical model to estimate global hepatitis B disease burden and vaccination impact[J].International Journal of Epidemiology,2005,34:1329-1339.

[3]Zanetti A R,Van Damme P,Shouval D.The global impact of vaccination against hepatitis B:a historical overview[J]. Vaccine,2008,26(49):6266-6273.

[4]Ganem D E,Schneider R J.Hepadnaviridae:the viruses and their replication[M]//Field virology.Philadelphia:Lippincott Williams&Wikins,2001:2923-2969.

[5]Kramvis A,Kem M C.Relationship of genotypes of hepatitis B virus to mutations,disease progression and response to antiviral therapy[J].Journal of Viral Hepatitis,2005,12(5):456-464.

[6]Olinger C M,Jutavijittum P,Hübschen J M,et al.Possible new hepatitis B virus genotype in southeast Asia[J].Emerge Infect Disease,2008,14(11):1777-1780.

[7]Tatematsu K,Tanaka Y,Kurbanov F,et al.A genetic variant of hepatitis B virus divergent from known human and ape genotypes isolated from a japanese patient and provisionally assigned to new genotype J[J].Journal of Virology,2009,83(20):10538-10547.

[8]Miyakawa Y,Mizokami M.Classifying hepatitis B virus genotypes[J].Intervirology,2003,46(8):329-338.

[9]Public Health Agency of Canada.Canadian immunization guide[M].Canada:Evergreen,2012.

[10]劉學(xué)芳,田鐵南,原麗娟.乙肝疫苗的預(yù)防接種與效果觀察[J].基層醫(yī)學(xué)論壇,2012(36).

[11]Li K S,Yamashiro T,Sumie A,et al.Hepatitis B virus harboring nucleotide deletions in the core promoter region and genotype B correlate with low viral replication activity in anti-HBe positive carriers[J].Journal of Clinical Virology,2001,23(1/2):97-106.

[12]den Dunnen J T,Antonarakis S E.Mutation nomenclature extensions and suggestions to describe complex mutations:a discussion[J].Human Mutation,2000,15(1):7-12.

[13]Gross E,Arnold N,Goette J,et al.A comparison of BRCAI mutation analysis by direct sequencing,SSCP and DHPLC[J]. Human Genetic,1999,105:72-78.

[14]Li Jiuyong,F(xiàn)u Ada Wai-chee,He Hongxing,et al.Efficient discovery of risk patterns in medical data[J].Artificial Intelligence in Medicine,2009,45:77-89.

[15]張俊鵬,賀建峰,馬磊.基于最優(yōu)風(fēng)險與預(yù)防模式的醫(yī)療數(shù)據(jù)挖掘算法[J].計算機(jī)工程,2011,37(42).

[16]Mitchell T M.Machine learning[M].[S.l.]:McGraw-Hill,1997.

[17]Hall M,F(xiàn)rank E,Holmes G,et al.The WEKA data mining software:an update[J].SIGKDD Explor Newsl,2009,11(1):10-18.

[18]Gange S J,Cole S R.Epidemiologic analysis-a case-oriented approach[M].New York:Oxford University Press,2002.

ZHANG Qi,LIU Lifang,MA Lei,HE Jianfeng

Faculty of Information Engineering andAutomation,Kunming University of Science and Technology,Kunming 650500,China

As one of the severe diseases,HBV(Hepatitis B Virus)infection is seriously affecting human health.This kind of virus infection is the main reason that leads to chronic liver disease,cirrhosis and liver cancer.Due to the particularity of HBV replication and high variability characteristics,related studies have revealed that the HBV gene mutation is the basic reason of persistent HBV infection.In order to understand the genetic variation of HBV,the SNP detection from HBV sequences has been widely applied in the large number of research,the detected SNP loci may contain great clinical significance.However,currently,the SNP loci detection methods are restricted by some negative factors,such as high technical difficulty,high expense and so on.Therefore,to explore a computer-based method for SNP loci detection becomes a trend.In this paper,considering the characteristics of SNP loci of the HBV sequence,an method of SNP loci detection based on optimal risk and prevention pattern is proposed.The proposed method is first applied to detect the SNP site in the HBV sequence.Experimental results show that the method has not only effectively detected the SNP loci of the sequence on HBV X gene fragment and the pre-C gene fragment which have been reported,and has also found a new SNP loci.Different from the SNP loci detection with hardware,the proposed method has the advantages of simple operation,low cost,and it can be accepted by general laboratory and medical institutions.

Hepatitis B Virus;feature selection;optimal risk and preventive patterns;Single Nucleotide Polymophism(SNP)

乙型肝炎病毒(Hepatitis B Virus,HBV)感染作為嚴(yán)重影響人類健康的疾病之一,是導(dǎo)致慢性肝臟疾病、肝硬化和肝癌的主要元兇。HBV由于其自身復(fù)制的特殊性,具有高變異特性,據(jù)研究表明HBV基因變異是HBV持續(xù)感染的根本原因。為了了解HBV的基因變異情況,檢測HBV序列的SNP位點即單突變位點已廣泛應(yīng)用于大量的研究,所檢測出的SNP位點對指導(dǎo)臨床有重要意義。但是目前關(guān)于SNP位點檢測的方法多因技術(shù)難度較高,費(fèi)用大等不利因素而受到制約。因此,探討一種基于計算機(jī)的SNP位點檢測方法成為一種趨勢。針對HBV序列的 SNP位點的特點,提出了一種基于最優(yōu)風(fēng)險與預(yù)防模型的HBV序列的SNP位點檢測方法。方法首次應(yīng)用于HBV序列的SNP位點檢測,實驗結(jié)果表明:該方法不僅有效地檢測出HBV序列的X基因片段和前C區(qū)基因片段中已經(jīng)報道的位點,而且還發(fā)現(xiàn)了一些新的SNP位點。與硬件檢測SNP位點不同的是,所提出的計算機(jī)方法具有操作簡單和費(fèi)用低的優(yōu)點,而且普通實驗室和醫(yī)療機(jī)構(gòu)均可以承受。

乙型肝炎;特征選擇;風(fēng)險與預(yù)防模式;單核苷酸多態(tài)性(SNP)

A

TP18;TP311

10.3778/j.issn.1002-8331.1305-0156

ZHANG Qi,LIU Lifang,MA Lei,et al.SNP loci detection method based on HBV sequence.Computer Engineering and Applications,2014,50(23):145-150.

張琪(1988—),女,在讀碩士研究生,研究領(lǐng)域為數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí);劉立芳(1988—),男,在讀碩士研究生,研究領(lǐng)域為數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí);馬磊(1978—),男,講師,研究領(lǐng)域為生物信息學(xué)、數(shù)據(jù)挖掘、軟件工程。E-mail:310193263@qq.com

2013-05-14

2013-09-03

1002-8331(2014)23-0145-06

CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-09-04,http://www.cnki.net/kcms/detail/11.2127.TP.20130904.1344.018.html

◎圖形圖像處理◎

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應(yīng)用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 色综合a怡红院怡红院首页| 日本不卡在线视频| 欧美成人午夜在线全部免费| 偷拍久久网| 91久久精品日日躁夜夜躁欧美| 色婷婷视频在线| 国产黄色视频综合| 国产女人喷水视频| 欧美国产在线看| 国产h视频免费观看| 国产精品99久久久久久董美香| 成年人福利视频| jijzzizz老师出水喷水喷出| 精品91视频| 精品91在线| 国产一级小视频| 国产成人亚洲无吗淙合青草| 国产人妖视频一区在线观看| 国产欧美中文字幕| 亚洲天堂在线免费| 亚洲精品无码AⅤ片青青在线观看| 五月丁香在线视频| 国产免费a级片| 波多野结衣视频一区二区| 国产呦精品一区二区三区网站| 精品视频在线一区| 亚洲综合第一区| 亚洲成人网在线观看| 成人午夜视频网站| 久久久久久尹人网香蕉| 国产欧美日韩免费| 999福利激情视频| 高潮爽到爆的喷水女主播视频| 在线观看国产精品第一区免费 | 青草视频免费在线观看| 亚洲男人天堂久久| 欧美成人国产| 国产老女人精品免费视频| 老司机午夜精品视频你懂的| 婷婷丁香在线观看| 久久精品这里只有精99品| 免费jjzz在在线播放国产| 免费无码网站| 亚洲欧美日韩精品专区| 黄色网址手机国内免费在线观看| 欧美成人a∨视频免费观看| 亚洲制服丝袜第一页| 欧美国产在线看| 国产v精品成人免费视频71pao| 欧美亚洲国产一区| 国产xx在线观看| 国产va视频| 欧美一区二区三区不卡免费| 国产成人盗摄精品| 欧美无遮挡国产欧美另类| 日韩高清在线观看不卡一区二区| 香蕉视频在线观看www| 亚洲精品桃花岛av在线| 国产精品自拍露脸视频| 成年av福利永久免费观看| 日韩国产高清无码| 特级aaaaaaaaa毛片免费视频| 午夜不卡福利| 激情午夜婷婷| 久久一色本道亚洲| 4虎影视国产在线观看精品| 国产人成在线观看| 亚洲男人的天堂视频| 国产精品视频导航| www.亚洲一区| 日韩免费中文字幕| 精品亚洲欧美中文字幕在线看 | 天天摸天天操免费播放小视频| 亚洲AV电影不卡在线观看| 一区二区三区四区精品视频| 亚洲最大情网站在线观看| 欧美综合区自拍亚洲综合绿色| 国产免费久久精品99re丫丫一| 91精品国产无线乱码在线| 国产人人乐人人爱| 欧洲精品视频在线观看| 婷婷亚洲最大|