摘要:采用生物信息學方法比較分析了大熊貓、牛、家犬、馬、原雞、人、獼猴、小家鼠、兔、綿羊、黑猩猩、毛猩猩、褐家鼠和野豬RPSA基因編碼區(CDS)的遺傳多樣性,并對該基因編碼的氨基酸序列、蛋白質二級結構和結構功能域進行預測和分析。結果表明,在來自14個物種的84條基因序列中檢測到338個多態位點,共發現42種單倍型,物種間及物種內RPSA基因編碼區存在較豐富的遺傳多樣性。RPSA基因編碼蛋白質等電點均低于6,呈酸性;蛋白質二級結構的主要結構元件是α-螺旋和無規則卷曲,有一個保守結構域。
關鍵詞:物種;RPSA基因;遺傳多樣性;生物信息學
中圖分類號:Q38 文獻標識碼:A 文章編號:0439-8114(2012)02-0389-04
Bioinformatics Analysis on Coding Regions of RPSA Gene among 14 Species
FU Xin,LI Xiang-long,ZHOU Rong-yan,LI Lan-hui
(College of Animal Science and Technology, Agricultural University of Hebei,Baoding 071001,Hebei,China)
Abstract: The genetic diversity of coding regions of RPSA gene among 14 species including Ailuropoda melanoleuca, Bos taurus, Canis familiaris, Equus caballus, Gallus gallus, Homo sapiens, Macaca radiata, Mus musculus, Oryctolagus cuniculus, Ovis aries, Pan troglodytes, Pongo abelii, Rattus norregicus and Sus scrofa was analyzed using the method of bioinformatics. The sequence of amino acids coded by the gene, protein secondary structure and structural function domain were also forecasted and analyzed. The results showed that a total of 338 polymorphic sites were detected from 84 sequences of the 14 species, from which 42 hapolotypes were sorted; And the genetic diversity of the CDS of RPSA gene was high within and among species. Isoelectric of all the RPSA proteins was below 6, and was acidic. The main motifs of presumed secondary structure of RPSA were al-pha helix and random coil. And a conservative structure domain was detected.
Key words: species; RPSA gene; genetic diversity; bioinformatics
RPSA(Ribosomal protein SA)也叫37kD層粘連蛋白受體前體/67kD層粘連蛋白受體(LRP/LR),是一種在一些諸如癌癥和朊病毒疾病病變中起作用的多功能蛋白質[1]。RPSA基因是多拷貝基因家族中的一員,包含一個完整的功能基因和若干偽基因[2]。病變生成的癌癥(各種惡性腫瘤的統稱)有乳腺癌、卵巢癌、肺癌和宮頸癌等;朊病毒疾病又稱可傳播性海綿狀腦病,是一類引起人和動物神經組織退化的疾病,包括人的克雅氏病(CJD),動物的震顫病,瘋牛病[3,4](又稱牛海綿狀腦病),綿羊和山羊中的羊瘙癢病[5,6]等。本研究選用GenBank中已提交物種的RPSA基因的編碼區序列,利用比較基因組學和生物信息學方法研究了該基因編碼區的變異,探明了該基因在不同種間及種內的遺傳分化,進而為動物癌癥和朊病毒疾病發生的相關研究以及動物育種工作提供基礎資料。
1 材料與方法
1.1 序列來源
從NCBI網站(http://www.ncbi.nlm.nih.gov/)的GenBank中下載大熊貓、牛、家犬、馬、原雞、人、獼猴、小家鼠、兔、綿羊、黑猩猩、毛猩猩、褐家鼠和野豬14個物種的84條RPSA基因編碼區(CDS)的序列(表1)。
1.2 分析方法
先利用BioEdit軟件對84個不同序列的RPSA基因編碼區進行比對分析,選取完整編碼區序列(長度為1 002 bp)進行比較后,利用DanSP 4.20軟件對其進行遺傳多樣性分析,生成單倍型,并計算遺傳距離。再利用MEGA 4.0軟件的UPGMA方法進行聚類分析,構建聚類圖。分別用ProtParam(http:// www. expasy.Ch/tools/protparam.html)、ProtScale
(http://www.expasy.ch /tools /protscale.html)、SOPMA(http://npsa-pbil.ibcp.fr /cgi-bin /npsa_automat.pl?page = /NPSA /npsa_sopma.html )、SMART(http://smart. embl-heidelberg.de/)在線工具對氨基酸序列進行分析預測。
2 結果與分析
2.1 14個物種RPSA基因序列的多樣性
2.1.1 多態位點、單倍型及其多樣性 在所分析的共有片段為1 002 bp的84條序列中,發現338個多態位點,百分率為33.73%,其中單一多態位點有112個,百分率為11.18%;共發現42種單倍型,各物種的多態位點數和單倍型多樣性不一致表明RPSA基因在種群間存在遺傳變異(表2)。核苷酸多樣性(Pi)為0.069,其中人和兔的RPSA基因的多態位點數較多,說明人和兔的RPSA基因多態性都比較豐富;褐家鼠和野豬的RPSA基因核苷酸變異較小。
2.1.2 12個物種RPSA基因核苷酸歧異度、凈遺傳距離和遺傳分化 12個物種核苷酸歧異度(Dxy)為0.008~0.138,凈遺傳距離(Da)為0.004~0.136,遺傳分化系數(Gst)為0~1.000(表3),12個物種核苷酸歧異度、凈遺傳距離和遺傳分化系數的變化范圍都很大,這說明12個物種遺傳分化已經十分明顯。其中人和黑猩猩間的核苷酸歧異度、凈遺傳距離均最小,說明人與黑猩猩的親緣關系較近,其中褐家鼠和小家鼠與其他物種間的核苷酸歧異度和凈遺傳距離均最大。這說明褐家鼠和小家鼠與本研究中其他物種間親緣關系較遠,基本上與NCBI上的動物學分類相符合。
2.2 14個物種RPSA編碼氨基酸序列的多樣性
2.2.1 密碼子偏愛性 在編碼蛋白質過程中,不同物種或同一物種的不同基因在密碼子使用上均存在明顯的偏愛性,即密碼子偏愛性現象[7]。所選取的14個物種RPSA基因編碼區中密碼子有效值(ENC)為50.915(<61),偏愛指標(CBI)為0.407(>0),經χ2檢驗,計算得到未校正的χ2值為0.401,說明RPSA基因對密碼子有較強的偏愛性[8]。
2.2.2 同義替換和非同義替換 14個物種84條RPSA基因編碼區中同義替換平均位點數為213.07個,非同義替換平均位點數為693.86個。14個物種同義替換位點數(SS)為209.00~218.88(表2),同義替換核苷酸多樣性均值Pi(s)為0.185。非同義替換位點數(NSS)為687.12~697.00,非同義替換核苷酸多樣性均值Pi(a)為0.035。如表2所示,大熊貓的非同義替換位點數較其他物種多,其次是綿羊;說明大熊貓RPSA基因編碼區的非同義替換較其他物種高,而綿羊第二高。同義替換不受自然選擇的控制,而非同義替換速率則遠遠低于同義替換,且其發生的速率與基因密切相關,這被認為是進化選擇的結果[9],在有些基因中,非同義替換速率遠遠高于同義替換,這是由于達爾文的正向選擇造成[10]。本研究中發現所選物種的RPSA基因的非同義替換位點數均明顯高于同義替換位點數,說明所分析的這些種群進化過程可能受到正向選擇的影響。
2.3 12個物種RPSA基因遺傳分化的分析
根據12個物種的遺傳分化系數(Gst),用MEGA 4.0軟件的UPGMA方法構建12個物種的聚類圖(圖1)。根據聚類圖分析得出,人與黑猩猩的親緣關系最近,綿羊和牛的親緣關系較近,家犬和馬的親緣關系較近,小家鼠和褐家鼠的親緣關系較近,但總體而言褐家鼠與小家鼠與其他物種的親緣關系最遠,基本上與NCBI上的動物學分類相符合。
2.4 14個物種氨基酸序列分析和預測
2.4.1 氨基酸序列的組成成分及生化特性分析 用ProtParam在線工具分析14個物種的RPSA基因編碼的氨基酸序列,結果顯示,等電點低于6,說明RPSA基因編碼的蛋白質呈酸性。Ala是所測物種中共有的最主要的氨基酸,含量為11%~13%;其次是Glu,含量為8.5%~9.5%;其他的氨基酸含量波動不大。所測物種中帶負電荷的總數都高于帶正電荷的總數。通過ProtParam分析這些物種RPSA蛋白質發現其不穩定系數為36~41,說明這種蛋白質比較穩定。
2.4.2 二級結構的預測和分析 蛋白質的二級結構是指氨基酸殘基形成的α-螺旋、β-轉角、β-折疊、無規則卷曲。用SOPMA[11]對RPSA的氨基酸序列的二級結構進行預測,結果表示,牛的RPSA蛋白質二級結構主要由α-螺旋和無規則卷曲組成,其次是β-轉角和β-折疊。統計表明,基因編碼的蛋白質序列由38.97%α-螺旋、44.40%無規則卷曲、4.78%β-轉角和11.85% β-折疊組成。由于α-螺旋是蛋白質分子中最穩定的二級結構,所以RPSA蛋白質二級結構是比較穩定的。對14個物種RPSA的氨基酸序列的二級結構的預測結果與牛的相似。
2.4.3 結構功能域預測 結構功能域是蛋白質中能折疊成特定三維結構的一段區域,是介于蛋白質二級和三級結構之間的另一種結構層次,其結構亞單位成為基序,通常由2~3個二級結構單位組成,包含40~300個氨基酸殘基,它們在三維空間中可以明顯區分且相對獨立,是生物大分子中具有特異結構和獨立功能的區域,并往往具有一定生物學功能[12,13]。SMART是檢測蛋白質序列功能位點區域的生物工具,運用其在線對RPSA基因編碼的蛋白質序列進行檢測。結果說明,14個物種的RPSA基因編碼的蛋白質中都含有1個LCR區域(Low complexity region),都是由208—226位的氨基酸組成,LCR區域主要存在于一些功能域中,為功能域序列的重要組成部分[14]。所以,預測這個LCR區域為主要功能區域,還是保守區域。
3 小結
運用了BioEdit、DanSP 4.20和MEGA 4.0軟件對RPSA基因序列多樣性和編碼氨基酸多樣性進行了預測分析,結果是14個物種的RPSA基因進化符合動物學上的分類,而且RPSA基因對于密碼子的偏愛性較強。接下來通過ProtParam和SMART在線工具對RPSA基因編碼的氨基酸序列及其蛋白質進行預測分析,結果顯示RPSA基因編碼的蛋白質呈酸性,蛋白質結構比較穩定,并且預測分析出了一個功能域——LCR區域。
以上對RPSA基因從簡單結構到復雜結構、平面結構到立體結構的分析,更進一步加強了對RPSA基因的認識,而它的病變生成的疾病是不可逆轉的,在畜牧業上造成大量的經濟損失,影響人體健康甚至危及生命,所以,對于RPSA基因的研究是重要而且必要的,這為后續試驗提供了理論基礎。
參考文獻:
[1] KINOSHITA K,KANEDA Y,SATO M,et al. LBP-p40 binds DNA tightly through associations with histones H2A,H2B,and H4[J].Biochemical and Biophysical Research Communications,1998,253(2):277-282.
[2] BROEKE A V D,POUCKE M V,MARCOS-CARCAVILLA A,et al. Characterization of the ovine ribosomal protein SA gene and its pseudogenes[J]. BMC Genomics,2010,11:179.
[3] TANG Y,XIANG W,HAWKINS SAC. Transcriptional changes in the brains of cattle orally infected with the bovine spongiform encephalopathy agent precede detection of infectivity[J]. Journal of Virology,2009,83(18):9464-9473.
[4] 聞玉梅. 瘋牛病及其病原體——朊病毒[J]. 上海醫學,2002, 25(3):35-137.
[5] ZHOU R,LI X,ZHENG H,et al. Molecular characterization of the full-length coding sequence of the caprine laminin receptor gene (RPSA)[J]. Biochem Genet,2010,48(11-12):962-969.
[6] 孫憲鋒,董小平,張寶云,等. 羊瘙癢因子263K毒株感染金黃地鼠后鼠腦組織中檢出PrP-res蛋白及其神經病理學研究[J]. 病毒學報,2001,17(1):48-53.
[7] GHOSH T. Studies on codon usage in Entamoeba histolytica[J].International Journal for Parasitology,2000,30(6):715-722.
[8] WRIGHT F. The effective number of codon’s used in a gene[J]. Gene,1990,87(1):23-29.
[9] 李 易. 基因進化的同義與非同義替代計算及統計檢驗的比較分析[J]. 曲靖師范學院學報,2006,25(6):1-8.
[10] GUO Z P. Introduction to population genetics [M].Beijing:Agricultural Press,1993. 298-332.
[11] GEOURJON C,DELEAGE G. SOPMA:Significant improvement in protein secondary structure prediction by consensus prediction from multiple alignments[J]. Bioinformatics,1995, 11(6):681-684.
[12] 薛永常,聶會忠,劉長斌. 木質素合成酶C3H基因的生物信息學分析[J]. 生物信息學,2009,7(1):13-17.
[13] 周金鑫,寧祖林,田 云. ERF轉錄因子StERF1的生物信息學分析[J]. 熱帶農業科學,2007,27(3):69-78.
[14] 裘智勇,許光志,郭錫杰. 家蠶濃核病毒中國(鎮江)株結構蛋白的生物信息學比較分析[J]. 生物信息學,2006,2(5):58-66.