潘克邁, 秦雪瑞, 劉雄恩
(福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院,福建 福州 350002)
分子系統(tǒng)發(fā)育推算中采用的DNA進(jìn)化模型如JC69、K80、F81、F84、HKY85、TN93、REV94等,均為描述4種核苷酸之間變換的馬爾可夫隨機(jī)過(guò)程[1,2],用于分子進(jìn)化分析的同源DNA多序列比對(duì)數(shù)據(jù)中出現(xiàn)的比對(duì)缺失(gap)成為上述模型應(yīng)用的障礙.目前通用的數(shù)據(jù)預(yù)處理方法是將含gap位點(diǎn)成對(duì)或整列刪除.DNA序列比對(duì)數(shù)據(jù)代表了初始的同源性假設(shè),忽略gap的數(shù)據(jù)處理方式會(huì)丟失分子進(jìn)化信息,造成系統(tǒng)發(fā)育樹(shù)枝長(zhǎng)估算的偏差和進(jìn)化距離的偏低估計(jì)[3-5].因此,在分子系統(tǒng)發(fā)育分析推算中融合gap信息是必要的.
Mcguire et al[6]將gap視作核苷酸的第5種狀態(tài),首次提出了融合gap信息的JC69+gap、F81+gap、F84+gap等5-狀態(tài)模型,基于模型進(jìn)化距離的估算仍會(huì)出現(xiàn)偏差.林碧嬌等[7]在上述3種模型基礎(chǔ)上引入新的參數(shù),提出JC69+gap′、F81+gap′、F84+gap′等改進(jìn)模型,區(qū)分了indel與substitution在性質(zhì)上的差異.基于改進(jìn)模型推導(dǎo)的核苷酸變換概率5階矩陣可以應(yīng)用于系統(tǒng)發(fā)育重建方法中的最大似然法.改進(jìn)模型F81+gap′減小了進(jìn)化距離估算的偏差,但其中F84+gap′模型的參數(shù)較多、計(jì)算復(fù)雜且未能推導(dǎo)出相應(yīng)的距離計(jì)算公式[8].目前流行的系統(tǒng)發(fā)育重建軟件,如PHYLIP[9]、PAUP[10]、MEGA[11]、PAML[12]、MrBayes[13]、PhyML[14]等,未將上述5-狀態(tài)模型作為計(jì)算模型的參考選項(xiàng).
秦雪瑞等[8]將序列比對(duì)后出現(xiàn)的gap視為統(tǒng)計(jì)抽樣過(guò)程中產(chǎn)生的隨機(jī)缺失數(shù)據(jù),提出對(duì)同源DNA多序列比對(duì)數(shù)據(jù)中的gap進(jìn)行核苷酸插補(bǔ)等數(shù)據(jù)預(yù)處理方法;給出了核苷酸最近鄰插補(bǔ)算法,并比較分析插補(bǔ)前后序列基于4-狀態(tài)模型及比對(duì)序列基于5-狀態(tài)模型的序列間進(jìn)化距離;……