

摘要:重組自交系是雜交一代經過連續自交而獲得的自交系群體。隱形馬爾科夫模型(HMM)是一種極大似然估計算法,在很多生物信息研究中取得了理想的結果。文章提供了利用一階隱型馬爾科夫模型來確定重組自交系個體基因型的方法,并論述了其準確性和時效性。該算法在模擬數據及小鼠基因型數據上取得了理想的結果。
關鍵詞:重組自交系;HMM算法;生物信息;隱形馬爾科夫模型;極大似然估計算法 文獻標識碼:A
中圖分類號:S511 文章編號:1009-2374(2016)08-0022-02 DOI:10.13535/j.cnki.11-4406/n.2016.08.012
生物的基因組中蘊含著豐富的遺傳信息。隨著測序技術的不斷發展,通過對不同生物的基因組測序,人們發現,在不同個體的染色體上,99%的堿基信息都是相同的,而另外1%的差異造就了不同個體差異。這些單個堿基上的不同也叫單核苷酸多態性(SNP)。單核苷酸多態性也是主要的可遺傳變異。現如今,研究遺傳變異不僅限于單個的SNP。在遺傳的過程中,不同基因座位的基因并不是完全隨機地形成單體型,而是某些相鄰基因座位上的基因同時出現的概率總是比較大,這種現象叫做連鎖不平衡。現在越來越多的研究利用全基因組的SNP信息進行關聯分析。通過全基因組關聯分析等研究,已經在植物和動物中發現了很多關鍵基因。
在全基因組關聯分析等諸多研究中,生物學家常常通過構建重組自交系,然后對重組自交系進行測序整理,確定重組自交系的基因型,為關聯分析提供輸入數據。隨著測序技術的發展,人們可以通過對DNA、RNA片段進行測序而獲得重要的數據。然而由于測序成本昂貴,測序深度不足,導致測序存在一定的誤差,對測序數據處理并進行基因分型得到的數據同樣也會存在一定誤差。為了減小這種誤差,并且不依賴于昂貴的測序成本費用,文章利用隱形馬爾科夫模型(HMM)算法來提高測序數據的準確性。
1 重組自交系
重組自交系是雜交一代結果連續自交獲得的。如果是二倍體生物,基因組由兩條染色體組成,其中一條來自父親,另一條來自母親。在遺傳的過程中,當兩個個體進行雜交時,在減數分裂時期,同源染色體間會發生交換。通常根據研究的目標及生物學意義選擇兩個親本,記為親本1和親本2,經兩個親本進行雜交,在后代中不斷選擇合適的個體進行自交。進過多代自交,并經過培養環境或自然環境的選擇后,就會得到較好的純合自交系結果。當染色體上存在不同的等位基因時,其中一個等位基因作為遺傳信息遺傳給自交后代。
染色體上的等位基因一般只存在兩種,即A、C、G、T中的兩種。當雜交后代經過不斷自交后,絕大部分染色體區域將被純化,也存在少部分不易被純化的區域。在對基因型進行基因分型之后,在每個座位上,一般的,當基因型來自于親本1時被標記為0,來自于親本2被標記為2,如果是雜合的情況,該位置被標記為1。有時也將基因型來自于親本1位點的標記為AA,來自親本2的位點標記為HH,雜合的位點標記為AH。本文采用第一種標記方法,并用此標記方法來描述隱型馬爾科夫過程。
2 隱形馬爾科夫模型在重組自交系中的應用
隱形馬爾科夫模型是加入隱含狀態的馬爾科夫模型,最早由Baum等人提出。隱型馬爾科夫模型的狀態值是隱藏的、不可見的。隱型馬爾科夫模型可以通過可觀測到的數據推測不可觀測的數據。隱形馬爾科夫模型是一個雙重自動機,它描述狀態之間的轉移過程,并描述狀態值與觀測值之間的對應關系。通過概率分布將它們聯系在一起。
隱形馬爾科夫模型由五元組λ=(S,O,π,A,B)來描述,其中S為狀態值集合,O為觀測值集合,π為初始狀態,A為狀態轉移概率矩陣,B為發散概率矩陣(特定狀態下產生每個觀測值的概率)。文章中采用一階馬爾科夫模型,即每一個狀態僅依賴于前一個狀態。在重組自交系中,狀態和觀測值均由基因型組成。對于每一個群體中的個體,包含三種狀態和三種觀測值,即S={0,1,2},O={0,1,2},樣本的SNP的序列為觀測序列,樣本SNP的待估計序列為狀態序列。
假設觀測序列X={},對于重組自交系首先要求參數A、B的最優估計值。用給定的觀測序列X來優化模型λ,使概率達到局部最大。本文優化模型參考Baum-Welch。給定初始化參數,在當前參數情況下,在局部估計最優狀態序列。在新的最有狀態序列下重新估計參數,不斷迭代直到λ收斂。
當獲得最優的參數λ后,在所有的狀態路徑中,找出使觀測序列概率最大的狀態路徑R,即:
通過不斷迭代,更新轉移概率矩陣和發散矩陣,當矩陣收斂時,獲得概率似然最大的狀態序列。在重組自交系中,將隱馬爾科夫模型的學習問題和解碼問題結合起來,編寫了一個適合于重組自交系的軟件包。
3 算法運行及結論總結
第一,為了驗證程序的準確性及其效率,文中模擬了不同樣本數量,不同SNP數量的重組自交系群體,模擬數據具體信息如表1所示。除模擬數據以外,從http://mouse.cs.ucla.edu/mousehapmap/獲得了小鼠已驗證的自交系群體的單體型數據,小鼠的數據中包含99個家系,每個家系包含大約10萬個SNP。對于模擬數據和小鼠自交系的數據,分別隨機修改其中5%、10%、15%、20%的位點。在模擬數據及小鼠數據上運行HMM算法,將運行結果與修改前的原始數據進行比較。實驗結果如表1和表2所示,表格中記載的為單個樣本的時間。如果運行環境相同,每個樣本的迭代過程均一樣,耗時也一樣。從表中可以看出,結果的準確性超過94%,當樣本量增加時,時間會線性增長。
第二,重組自交系對于全基因組關聯研究、表達數量性狀研究等有重要意義。在很多研究中已通過相關研究確定了很多重要的位點,找到了很多影響某些性狀的關鍵基因及一些重要的致病基因。隱型馬爾科夫模型在序列比對、識別CpG島等生物信息學方面也取得了顯著的成就。理想的重組自交系決定了之后的研究是否順利以及是否正確,文章提供的算法很好地解決了這個
問題。
參考文獻
[1]將紅敬.HMM及其在生物信息學中的應用[D].中南大學,2011.
[2]王子坤.隨機過程論[M].北京:科學出版社,1965.
[3]Birney E.Hidden Markov Models in biological sequence analysis[J].IBM Journal of Research and Development,2011,45(364).
[4]L.E.Baum.An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of Markov Process[J].Inequalities,1972,3(1).
[5]Burke,C.J,M.Rosenblatt.A Markovian function of a Markov chain[J].Ann.Math.Stat,1958,(29).
作者簡介:賈瑤麗(1989-),女,山西長治人,北京交通大學碩士研究生,研究方向:數據挖掘。
(責任編輯:黃銀芳)