999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用HMM算法確定重組自交系基因型

2016-03-10 02:54:58賈瑤麗
中國高新技術企業 2016年8期

摘要:重組自交系是雜交一代經過連續自交而獲得的自交系群體。隱形馬爾科夫模型(HMM)是一種極大似然估計算法,在很多生物信息研究中取得了理想的結果。文章提供了利用一階隱型馬爾科夫模型來確定重組自交系個體基因型的方法,并論述了其準確性和時效性。該算法在模擬數據及小鼠基因型數據上取得了理想的結果。

關鍵詞:重組自交系;HMM算法;生物信息;隱形馬爾科夫模型;極大似然估計算法 文獻標識碼:A

中圖分類號:S511 文章編號:1009-2374(2016)08-0022-02 DOI:10.13535/j.cnki.11-4406/n.2016.08.012

生物的基因組中蘊含著豐富的遺傳信息。隨著測序技術的不斷發展,通過對不同生物的基因組測序,人們發現,在不同個體的染色體上,99%的堿基信息都是相同的,而另外1%的差異造就了不同個體差異。這些單個堿基上的不同也叫單核苷酸多態性(SNP)。單核苷酸多態性也是主要的可遺傳變異。現如今,研究遺傳變異不僅限于單個的SNP。在遺傳的過程中,不同基因座位的基因并不是完全隨機地形成單體型,而是某些相鄰基因座位上的基因同時出現的概率總是比較大,這種現象叫做連鎖不平衡。現在越來越多的研究利用全基因組的SNP信息進行關聯分析。通過全基因組關聯分析等研究,已經在植物和動物中發現了很多關鍵基因。

在全基因組關聯分析等諸多研究中,生物學家常常通過構建重組自交系,然后對重組自交系進行測序整理,確定重組自交系的基因型,為關聯分析提供輸入數據。隨著測序技術的發展,人們可以通過對DNA、RNA片段進行測序而獲得重要的數據。然而由于測序成本昂貴,測序深度不足,導致測序存在一定的誤差,對測序數據處理并進行基因分型得到的數據同樣也會存在一定誤差。為了減小這種誤差,并且不依賴于昂貴的測序成本費用,文章利用隱形馬爾科夫模型(HMM)算法來提高測序數據的準確性。

1 重組自交系

重組自交系是雜交一代結果連續自交獲得的。如果是二倍體生物,基因組由兩條染色體組成,其中一條來自父親,另一條來自母親。在遺傳的過程中,當兩個個體進行雜交時,在減數分裂時期,同源染色體間會發生交換。通常根據研究的目標及生物學意義選擇兩個親本,記為親本1和親本2,經兩個親本進行雜交,在后代中不斷選擇合適的個體進行自交。進過多代自交,并經過培養環境或自然環境的選擇后,就會得到較好的純合自交系結果。當染色體上存在不同的等位基因時,其中一個等位基因作為遺傳信息遺傳給自交后代。

染色體上的等位基因一般只存在兩種,即A、C、G、T中的兩種。當雜交后代經過不斷自交后,絕大部分染色體區域將被純化,也存在少部分不易被純化的區域。在對基因型進行基因分型之后,在每個座位上,一般的,當基因型來自于親本1時被標記為0,來自于親本2被標記為2,如果是雜合的情況,該位置被標記為1。有時也將基因型來自于親本1位點的標記為AA,來自親本2的位點標記為HH,雜合的位點標記為AH。本文采用第一種標記方法,并用此標記方法來描述隱型馬爾科夫過程。

2 隱形馬爾科夫模型在重組自交系中的應用

隱形馬爾科夫模型是加入隱含狀態的馬爾科夫模型,最早由Baum等人提出。隱型馬爾科夫模型的狀態值是隱藏的、不可見的。隱型馬爾科夫模型可以通過可觀測到的數據推測不可觀測的數據。隱形馬爾科夫模型是一個雙重自動機,它描述狀態之間的轉移過程,并描述狀態值與觀測值之間的對應關系。通過概率分布將它們聯系在一起。

隱形馬爾科夫模型由五元組λ=(S,O,π,A,B)來描述,其中S為狀態值集合,O為觀測值集合,π為初始狀態,A為狀態轉移概率矩陣,B為發散概率矩陣(特定狀態下產生每個觀測值的概率)。文章中采用一階馬爾科夫模型,即每一個狀態僅依賴于前一個狀態。在重組自交系中,狀態和觀測值均由基因型組成。對于每一個群體中的個體,包含三種狀態和三種觀測值,即S={0,1,2},O={0,1,2},樣本的SNP的序列為觀測序列,樣本SNP的待估計序列為狀態序列。

假設觀測序列X={},對于重組自交系首先要求參數A、B的最優估計值。用給定的觀測序列X來優化模型λ,使概率達到局部最大。本文優化模型參考Baum-Welch。給定初始化參數,在當前參數情況下,在局部估計最優狀態序列。在新的最有狀態序列下重新估計參數,不斷迭代直到λ收斂。

當獲得最優的參數λ后,在所有的狀態路徑中,找出使觀測序列概率最大的狀態路徑R,即:

通過不斷迭代,更新轉移概率矩陣和發散矩陣,當矩陣收斂時,獲得概率似然最大的狀態序列。在重組自交系中,將隱馬爾科夫模型的學習問題和解碼問題結合起來,編寫了一個適合于重組自交系的軟件包。

3 算法運行及結論總結

第一,為了驗證程序的準確性及其效率,文中模擬了不同樣本數量,不同SNP數量的重組自交系群體,模擬數據具體信息如表1所示。除模擬數據以外,從http://mouse.cs.ucla.edu/mousehapmap/獲得了小鼠已驗證的自交系群體的單體型數據,小鼠的數據中包含99個家系,每個家系包含大約10萬個SNP。對于模擬數據和小鼠自交系的數據,分別隨機修改其中5%、10%、15%、20%的位點。在模擬數據及小鼠數據上運行HMM算法,將運行結果與修改前的原始數據進行比較。實驗結果如表1和表2所示,表格中記載的為單個樣本的時間。如果運行環境相同,每個樣本的迭代過程均一樣,耗時也一樣。從表中可以看出,結果的準確性超過94%,當樣本量增加時,時間會線性增長。

第二,重組自交系對于全基因組關聯研究、表達數量性狀研究等有重要意義。在很多研究中已通過相關研究確定了很多重要的位點,找到了很多影響某些性狀的關鍵基因及一些重要的致病基因。隱型馬爾科夫模型在序列比對、識別CpG島等生物信息學方面也取得了顯著的成就。理想的重組自交系決定了之后的研究是否順利以及是否正確,文章提供的算法很好地解決了這個

問題。

參考文獻

[1]將紅敬.HMM及其在生物信息學中的應用[D].中南大學,2011.

[2]王子坤.隨機過程論[M].北京:科學出版社,1965.

[3]Birney E.Hidden Markov Models in biological sequence analysis[J].IBM Journal of Research and Development,2011,45(364).

[4]L.E.Baum.An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of Markov Process[J].Inequalities,1972,3(1).

[5]Burke,C.J,M.Rosenblatt.A Markovian function of a Markov chain[J].Ann.Math.Stat,1958,(29).

作者簡介:賈瑤麗(1989-),女,山西長治人,北京交通大學碩士研究生,研究方向:數據挖掘。

(責任編輯:黃銀芳)

主站蜘蛛池模板: 国产成人a在线观看视频| 手机在线免费毛片| 成人精品在线观看| 91福利免费视频| 精品精品国产高清A毛片| 风韵丰满熟妇啪啪区老熟熟女| 亚洲av无码牛牛影视在线二区| 中文天堂在线视频| 视频二区亚洲精品| 亚洲女同一区二区| 国产福利一区视频| 国产剧情无码视频在线观看| 欧美日本在线一区二区三区| 97久久免费视频| 国产爽爽视频| 中文字幕欧美日韩| 久青草网站| 婷婷色狠狠干| 国产欧美日韩va另类在线播放| 四虎国产精品永久一区| 直接黄91麻豆网站| 在线观看欧美精品二区| 在线亚洲精品福利网址导航| 国产精品污视频| 四虎影院国产| 国产成人久久综合一区| 午夜国产在线观看| 538国产在线| 毛片国产精品完整版| 日韩毛片免费观看| 亚洲最黄视频| 国产国产人免费视频成18| 好紧好深好大乳无码中文字幕| 国产簧片免费在线播放| 成人国产精品网站在线看| 久久精品日日躁夜夜躁欧美| 高清无码手机在线观看| 在线观看热码亚洲av每日更新| 国产成人在线小视频| 欧美va亚洲va香蕉在线| 日日拍夜夜嗷嗷叫国产| 亚洲中文精品久久久久久不卡| 亚洲香蕉伊综合在人在线| 亚洲精品你懂的| 国产中文一区二区苍井空| 国产成人1024精品| 国产香蕉一区二区在线网站| 亚洲成年人网| 精品国产自在在线在线观看| 欧美精品黑人粗大| 中文字幕无码av专区久久| 99re这里只有国产中文精品国产精品 | 国产在线观看一区精品| 国产成人亚洲精品无码电影| 国产打屁股免费区网站| 国产成人你懂的在线观看| 国产欧美日韩精品第二区| 国产不卡网| 99在线视频网站| 久久精品国产精品国产一区| 亚洲视频免费在线看| 免费一级毛片在线观看| 国产在线欧美| 国产va免费精品观看| 午夜日b视频| 国产亚洲一区二区三区在线| 丁香婷婷综合激情| 亚洲精品爱草草视频在线| 国产网友愉拍精品| 亚洲国产精品VA在线看黑人| 麻豆精品视频在线原创| 亚洲一区网站| 亚洲AV一二三区无码AV蜜桃| 国产永久免费视频m3u8| 国产乱人伦AV在线A| 亚洲无码精彩视频在线观看| 天天综合网色中文字幕| 成人小视频网| 最新国产午夜精品视频成人| 国产亚洲高清在线精品99| 日韩中文精品亚洲第三区| a网站在线观看|