摘要:引入信息參數—非均勻指數和緊鄰堿基關聯,對核糖體蛋白加工假基因與對應核糖體蛋白基因編碼序列之間進行了對比分析,發現絕大多數(約占89%)假基因的非均勻性明顯弱于對應功能基因編碼序列,絕大多數(約占88%)假基因的緊鄰堿基關聯強于對應基因編碼序列。
關鍵詞:加工假基因 功能基因 非均勻指數 堿基關聯
中圖分類號:Q61 文獻標識碼:A文章編號:1674-098X(2013)01(b)-00-02
假基因是功能基因的缺陷拷貝,其序列與功能基因序列相似性較高。假基因的來源[1]有兩個方面:一是基因組DNA復制或不均等交換過程中基因序列發生突變(如點突變、插入或缺失),導致復制后的基因在轉錄和翻譯時出現異常,從而使其喪失正常功能而成為重復假基因;二是基因轉錄物mRNA反轉錄后以cDNA的方式重新整合到基因組,由于插入位點不合適或序列發生突變而失去正常功能,成為加工假基因。
密碼子使用是編碼序列與非編碼序列的基本差異。三聯體密碼子的重復是核酸序列編碼區域的最主要的特征,由于編碼區密碼子的三個位點上的堿基使用不均勻,編碼區在堿基使用方面體現出顯著的不均勻性。假基因是由編碼蛋白質的功能基因演變而來的非編碼序列,因此假基因和對應基因的堿基使用非均勻性可能有明顯差異。遺傳信息大部分都是儲藏在細胞內的DNA(或RNA)分子中。信息主要存在于DNA序列的堿基關聯之中。一般來講,假基因是喪失了正常功能的序列,這種功能缺失會使其堿基關聯減弱?該文用信息參數—非均勻指數[2]和緊鄰堿基關聯[3]比較分析加工假基因與其對應基因之間的差異。
1 數據
核糖體蛋白(RP)基因是產生最多加工假基因的一類基因。從耶魯大學Gerstein實驗室創建的假基因網站(http://www.pseudogene.org)選取了2090個RP加工假基因(以后均稱為假基因)和與其對應的79個RP基因的編碼序列。
2 方法
2.1 非均勻指數
定義非均勻指數
(1)
其中表示序列的4種堿基數,為序列三聯體密碼子第個位點上出現的堿基的個數。非均勻指數描述序列中的堿基使用在三個密碼子位點上的不均勻性。根據 Pearson定理,若4種堿基在密碼子3個位點上均勻使用,則HI指數遵從自由度為的分布,從表中可知,對于在3個位點上均勻分布的核苷酸序列,在置信水平99%時,HI<16.8。
2.2 緊鄰堿基關聯
定義緊鄰堿基關聯(或互信息)
(2)
其中為序列中堿基i出現的概率(),為緊鄰堿基聯合概率。描述序列中緊鄰堿基關聯相對于獨立序列的偏離。對于長度為N的隨機序列,(2Nln2)遵從自由度為9的分布,因而定出置信度為99%的漲落限為
(3)
3 結果與討論
由公式(1)出發,分別計算了假基因和對應基因的HI值并進行比較,結果列于表1。在計算假基因的HI值時,把序列的第i+3k(i=1,2,3;k=0,1,2,3…)位點看成密碼子的第i位點。由于核苷酸序列的堿基關聯是以短程關聯為主性[3],我們選取了最能描述短程關聯的信息參數D2,由公式(2)出發,計算假基因和對應基因的D2值。用公式(3)計算每條序列在99%置信水平上的漲落限。超出漲落限的D2值才能表示在對應置信度上的緊鄰堿基關聯,因此首先篩選出D2值超出漲落限的62個RP功能基因編碼序列,再從對應假基因中挑出D2值超出漲落限的1601個序列,然后在假基因和對應基因之間進行D2值的比較,比較結果列于表1。
*N 表示所有RP基因對應假基因的個數,N1表示HI值大于16.8的假基因的個數,N2 表示HI值小于對應功能基因編碼序列HI值的假基因的個數,N3表示D2值超出置信度為99%的漲落限的假基因的個數,N4表示D2值超出置信度為99%的漲落限且同時大于對應功能基因編碼序列D2值的假基因的個數。D2值在漲落限以下的功能基因不參與比較。
從表1中HI值的比較我們可知,在2090個假基因中雖有一部分(約43%)假基因的HI值大于16.8,即在99%的置信水平上可以說這些序列是不均勻的,但明顯的是絕大多數(1865個,約占89%)的假基因的非均勻性都弱于對應基因。也就是說,功能基因變為假基因之后,演化過程中序列非均勻性降低。基因編碼序列中存在3周期的讀碼框架,密碼子三個位點的堿基分布是極不均勻的。從進化的角度來看,假基因由功能基因演變而來,由于多數假基因沒有正常功能而不受選擇壓力,因此隨著時間的推移,其序列中逐漸積累隨機突變,向基因間序列漂變,導致假基因的密碼子三個位點上的堿基分布不均勻性變弱。少數(約11%)假基因非均勻性強于對應基因非均勻性。為從分子水平上解釋這一點,我們把這些假基因與對應基因用Clustal w軟件進行了多重序列比對,發現這些假基因中發生的突變一般都是堿基替換或長度為3的整數倍的片段插入或缺失,而序列的靠中間部位幾乎沒有非3的整數倍的插入或缺失,這是假基因保持較高水平非均勻性的主要原因,因為非3的整數倍的片段插入或缺失會導致移碼,而長度為3的整數倍的片段插入或缺失則維持原有的讀碼框架。
此外還有以下幾種可能:(1)相對其他假基因而言這些假基因形成的時間不是很早,突變較少;(2)在沒有非3的整數倍的片段插入或缺失的前提下,一些堿基替換突變只是偶然地引起了序列更不均勻的結果;(3)可能是進化壓力在反方向上起作用所致,即基因有缺陷的拷貝(假基因)可能不是進化的死末端,因為反向的壓力能夠使其為了具體的任務而調整。有些假基因可以轉錄并在RNA水平上起作用就是很好的例證[4]。
從表1中的D2值的比較中發現,在所比較的1601個假基因中共有1405(約占88%)個序列的D2值大于對應基因的D2值。由于假基因的對應基因中也含有與假基因中的重復序列非常相似的序列片段,可以確定這種堿基關聯特征不是由重復序列引起的。一般來講,假基因產生之后由于不受進化選擇壓力其序列積累隨機突變,逐漸向基因間序列漂變。隨機突變事實上并不完全隨機,它受到依賴于緊鄰堿基的突變偏好性的影響,這是多數假基因的堿基關聯增強的原因。
參考文獻
[1]Zhang Z,Harrison P,Gerstein M,et al.Identification and analysis of over 2000 ribosomal protein pseudogenes in the human genome[J].Genome Research,2002,12:1466-1482.
[2]李煒疆.核酸序列的非均勻性分析[J].內蒙古大學學報(自然科學版),1996,27:729-731.
[3]Luo LF,Lee WJ,Jia LJ,et al.Statistical correlation in a DNA sequence[J].Phys Rev E,1998,58:861-871.
[4]Hirotsune S,Yoshida N,Chen A,Garrett L,Sugiyama F,Takahashi S,et al.An expressed pseudogene regulates the messenger-RNA stability of its homologous coding gene[J].Nature,2003,423:91-96.