穆 松,鐘金城,陳智華,徐利娟
(西南民族大學動物遺傳育種學國家民委—教育部共建重點實驗室,成都 610041)
自20世紀90年代以來,作為小分子RNA家族中的一員,MicroRNA(miRNA)已受到廣泛的關注,2006年的諾貝爾生理學或醫學獎就頒發給了小分子 RNA的研究者。許多研究表明,無論是線蟲還是哺乳動物,其體內的miRNA通過分裂或轉錄抑制目標mRNA達到調控基因表達以及生長發育、細胞增殖和凋亡等作用[1]。
miRNA是長度為20~24個堿基(nt)的非編碼單鏈RNA,廣泛存在于真核生物中,其本身不具備開放閱讀框(ORF:Open Read Frame)。成熟的miRNA 5'端為一磷酸基團,3'端為羥基,可同上游或下游的序列部分地配對形成莖環結構,miRNA是由具有莖環二級結構的miRNA前體(per-miRNA)加工而成。許多試驗表明,miRNA前體在物種間具有高度的進化保守性,其中以莖環部保守性最強。miRNA的表達還具有特異性和時序性特點,在生物體的不同組織中有不同類型的miRNA,生長發育的不同階段也存在不同種類的miRNA。這些性質都表明miRNA參與了復雜的基因表達調控過程,并決定了生物的生長發育及其行為等變化[2]。
生物信息學技術是預測和發現新miRNA的有效辦法[3-5]。大部分的miRNA序列在動物中高度保守,通過計算機軟件和其他計算工具可以預測、鑒定出生物的miRNA,并可以利用EST、GSS數據庫對miRNA進行大規模的生物信息學預測和分析[6-8]。本研究根據NCBI數據庫中的牛EST、GSS信息以及豬、家犬、人、大猩猩和小家鼠5種哺乳動物的已經注冊miRNA分子信息,預測?;蚪M中新的候選miRNA,以期為進一步尋找牛的miRNA和遺傳育種研究提供一條新的思路和方法。
1.1 miRNAs、ESTs和 GSSs序列的獲得 牛、豬、家犬、小家鼠、大猩猩、人等6種動物的miRNA序列來自于miRBase數據庫(http://microrna.sanger.ac.uk/sequences;Release 13.0,March 2009)[9]。牛的EST、GSS[15]和mRNA序列來自于美國國家生物技術信息中心(http://www.ncbi.nlm.nih.gov/)的GeneBank核酸數據庫。
1.2 分析軟件 序列比對軟件為blast-2.2.0-ia32-win32(ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.20/blast-2.2.20-ia32-win32.exe),二級結構預測采用RNA structure軟件進行,蛋白質序列比對在NCBI提供的Web服務BlastX(http://blast.ncbi.nlm.nih.gov/Blast.cgi)中進行[17]。
1.3 牛基因組中新的miRNAs預測 綜合文獻[10-11,18]以及通過對牛已經注冊的miRNA序列進行分析得到本研究的篩選標準為:①新預測的miRNA與成熟的miRNA只能存在0~3個堿基差異;②新預測miRNA的前體能折疊成發夾二級結構;③發夾結構必須有較小的自由能[14];④miRNA中的A+U含量在30%~70%之間;⑤miRNA與其互補序列的差異不能多于6個;⑥在miRNA中不能存在環狀結構。符合以上標準的序列即為本研究所預測到的牛基因組中新的miRNA序列。
2.1 ?;蚪M中新miRNA的預測 根據miRNA高度保守的特點,本研究按照圖1所示的思路尋找?;蚪M中新的 miRNA。首先下載人、大猩猩、豬、家犬、小家鼠等5個物種的共1 737條miRNA序列,并與牛的已知miRNA進行比對刪除相同序列,5個物種間也進行比對刪除相同序列,得到了1 445條無重復的目標序列;然后用篩選出的1 445條序列與牛GSS、EST數據庫中的序列進行Blast比對,選取其中存在0~3個堿基的同源序列,并刪除重復和表達蛋白的序列,最終得到229條序列,其中來自于GSS序列148條、EST序列 81條。
將上述229條序列下載后,選擇包含有miRNA相似序列的前后總長共100 nt的片段利用RNAstructure軟件進行折疊,觀察其二級結構和自由能大小,得到能形成發夾結構且具有較小自由能的共34條序列,其中來自于EST、GSS的序列分別為12條和22條。但是符合A+U堿基含量在30%~70%條件的只有21條序列,來自 EST、GSS的序列數量分別為8條和13條。
將得到的21條miRNA候選序列與sanger數據庫per-miRNA分子(http://microrna.sanger.ac.uk/sequences/search.shtml)進行比對,發現同源性較高的有17條,即此17條序列就是本研究預測得到的?;蚪M中新的miRNA序列(表1)。

圖1 ?;蚪M中新的miRNA篩選思路
2.2 牛基因組中新miRNA前體的結構特征 由于miRNA序列很短,在基因組中找到匹配序列的概率較大,僅僅搜索相似序列將會產生大量的假陽性結果,如果結合這些相似序列的側翼序列可能形成二級結構來進一步篩選,能大大減少假陽性率[12]。由圖2展示的二級結構可見,本研究得到的17條候選per-miRNAs可以形成發夾結構,包含真正的miRNAs的可能性極大,也表明本研究結果的可靠性。

表1 ?;蚪M中新的miRNA序列
發夾二級結構的形成是miRNA成熟過程中的一個重要步驟,也是miRNA的一個重要特征,但是發夾結構并不是miRNA分子所特有的[13],有些RNAs也能形成類似的發夾結構(mRNA、tRNA、rRNA)。為了避免將其它的RNAs誤認為miRNA,本研究引入了自由能(free energy),對已有的per-miRNA統計分析表明,per-RNA具有較小的自由能(表1),說明預測得到的miRNAs符合具有較小自由能的條件。

圖2 ?;蚪M中候選miRNA前體分子的二級結構預測
在真核生物中,miRNA具有序列十分保守、前體能折疊成發夾結構、具有較小自由能等特點。本研究得到的17條miRNA,符合miRNA的所有特征,大小在20~24 nt,均能形成發夾狀的二級結構,且自由能較小,這表明本研究篩選得到的17條序列可能是牛基因組中新的miRNA,這對牛的遺傳育種研究和畜牧業生產具有一定的價值和意義,當然這一結果還需要經過生物學實驗的最終驗證。
本研究利用生物信息學方法,預測到了17條?;蚪M的miRNA候選基因序列,它們都與已知的miRNAs序列高度相似。在生物學實驗中,應用芯片技術通過雜交能夠發現大量的miRNA分子,但是無法直接得到miRNA前體序列、基因位置和靶基因等信息[16]。但是通過生物信息學方法,除了在對比過程中就能了解前體信息外,還能了解到其靶基因信息,具有許多優越性。這說明根據miRNA的保守性和物種之間基因組的同源性,用生物信息學理論和方法篩選、尋找新的miRNA候選序列的方法能夠在較短時間里尋找出一定量的新miRNA分子,速度快、通量大,是一條行之有效的在生物體內尋找到更多miRNA分子的新思路和途徑。
經過多年的發展,同源序列搜索的方法已經取得了很大成功,但是本質上需要已知的miRNAs/permiRNAs為參照,搜索與已知miRNAs/per-miRNAs在序列上和結構上同源的 miRNAs/per-miRNAs,對于不與已知miRNAs/per-miRNAs同源的miRNAs/per-miRNAs則無能為力。這也說明生物信息學分析得到的結果是否正確還需要進一步的生物學實驗驗證,在生物學研究中把生物信息學研究與生物學實驗有機地結合是十分重要和必要的。
[1]Bartel D.MicroRNAs,genomics,mechanism and function[J].Cell,2004,116:281-297.
[2]Zarnore P D Haleyb.The big world of small RNAs[J].Science,2005,309:1519-1524.
[3]Zhang B H,Pan X,Cobb G P,et al.Plant micro RNA:A small regulatory molecule with big impact[J].Dve Biol,2006,289:3-6.
[4]Jones-Rhoades M W,Bartel D P.Computational identification of plant microRNAs and their targets,including a stress-induced miRNA[J].Mol Cell,2004,14:787-799.
[5]Guo Z Y,M ao C Q.Computational identification of microRNAs and their targets[J].China Biotechnology,2008,28(10):118-123.
[6]Wang J F,Zhou H,Chen Y Q,et al.Identification of 20 micro RNAs from Oryza sativa[J].Nucleic Acids Res,2004,32:1688-1695.
[7]Arazi T,Talmor-Neiman M,Stav R,et al.Cloning and characterization of microRNAs from moss[J].Plant J,2005,43:837-848.
[8]Zhang B H,Pan X P,Wang Q L,et al.Identification and characterization of new plant microRNAs using EST analysis[J].Cell Res,2005,15:336.
[9]Mathews D H,Sabina J,Zuker M,et al.Ex panded sequence dependences of thermodynamic parameters improves prediction of RNA secondary structure[J].J Mol Biol,1999,288:911-940.
[10]Xie F L,Huang S Q,Guo K,et al.Computational identification of novel microRNA s and targets in Brassica napus[J].FEBS Letters,2008,581:1464-1474.
[11]Qiu C X,Xie F L,Zhu Y Y,et al.Computational identification of microRNAs and targets in Gossypium hirsutum expressed sequence tag s[J].Gene,2007,395(1-2):49-61.
[12]徐德昌,李勇,程大友,等.基于同源搜索的甜菜 MicroRNA計算識別[J].生物信息學,2008,4:152-155.
[13]陳海漩,嚴忠海,龍建兒,等.應用生物信息學尋找山羊新的 MicroRNA分子及實驗驗證[J].遺傳,2008,30(10):1326-1332.
[14]Zhang B H,Pan X PX,Cox S B,et al.Evidence that miRNAs are different from other RNAs[J].Cell M ol Life Sci,2006,63(2):246-254.
[15]Zhang B,Ban X,Anderson T A.Identification of 188 conserved maize microRNAs and their targets[J].FEBS Letters,2006,580(15):3753-3762.
[16]趙東宇,王巖,羅迪,等.生物信息學中的 MicroRNA預測研究[J].吉林大學學報,2008,5:276-280.
[17]Zuker M.Mflod web server for nucleic acid folding and hybridization prediction[J].Nucleic Acids Res,2003,31:3406-3415.
[18]項安玲,黃思齊,楊志敏.蕓苔屬植物中 MicroRNA的生物信息學預測與分析[J].中國生物化學與分子生物學報,2008,24(3):244-253.