蔣璐凱

摘 要: 在“后基因組”時代,對于DNA功能元件的注釋,尤其是啟動子這類關(guān)鍵的調(diào)控元件的鑒定是進一步理解人類基因組繁雜調(diào)控網(wǎng)絡的重要研究內(nèi)容。本文基于高通量測序數(shù)據(jù)對細胞系H1-hesc中的基因啟動子進行識別分類,利用數(shù)據(jù)挖掘軟件Weka基于啟動子組蛋白修飾特征建立分類模型,比較各分類算法性能優(yōu)劣,以期應用最佳分類器在其它細胞系中識別分類啟動子。
關(guān)鍵詞: 啟動子;高通量測序;Weka;分類算法
Abstract:The definition of DNA functional elements (especially promoters) is an important research topic in understanding the regulatory network of human genome. This paper identifies types of gene promoters in H1-hesc cell line based on the high-throughput data and then builds classifiers between different types of promoters according to the data of histone modification feature. Finally the paper compares four classifiers' performance and it is expected to apply the best model in the predicting and identifying promoters in other cell lines.
Key words: promoter;high-throughput sequencing;Weka;classification algorithms
引言
Weka是一款基于Java開發(fā)環(huán)境的機器學習軟件,其全稱是懷卡拓知識分析環(huán)境(Waikato Environment for Knowledge Analysis)。這款開源的數(shù)據(jù)挖掘軟件發(fā)展到現(xiàn)在已由最初應用于農(nóng)業(yè)領(lǐng)域而擴展到更多不同領(lǐng)域,尤其是以教育和研究為主的技術(shù)科研范疇中。其優(yōu)勢在于:在GNU(General Public License)準則下免費使用,幾乎可以在任何一個現(xiàn)代計算平臺上運行,集數(shù)據(jù)預處理和預測模型建立功能于一身,還有易用的圖形交互界面[1]。Weka可以實現(xiàn)多樣的數(shù)據(jù)挖掘任務,具體包括:數(shù)據(jù)預處理、聚類、分類、回歸分析、結(jié)果可視化以及特征提取。
本文基于Weka軟件平臺的分類算法,展開啟動子類型識別相關(guān)研究。隨著對于人類基因組的研究進入“后基因組時代”,基因組學的研究重心已經(jīng)由揭示生命體的遺傳信息和密碼轉(zhuǎn)移到對分子整體水平的功能研究上來[2]。作為控制基因轉(zhuǎn)錄調(diào)控起始的關(guān)鍵DNA元件—啟動子,是基因組學的研究熱點,對于其類型識別預測等層面的深入研究有助于理解基因的表達調(diào)控機制等生物學特性,為疾病診治增加了新方法,為進一步構(gòu)建生物表達調(diào)控網(wǎng)絡提供基礎(chǔ)[3]。
1 基于高通量測序技術(shù)的啟動子分類
隨著生物信息學領(lǐng)域高通量測序技術(shù)的發(fā)展,新一代測序技術(shù)為啟動子識別引入了新的數(shù)據(jù)支持,極大程度上促進了啟動子區(qū)域的定位和啟動子功能的定性。啟動子存在于基因的轉(zhuǎn)錄起始位點附近,一般是上游區(qū)域(靠近5端),是一段能夠引導特異性基因表達活動的DNA序列[4]。啟動子作為一個特殊的調(diào)控元件,在其區(qū)域會有潛在的RNA聚合酶在DNA上的初始結(jié)合位點以及特異性的組蛋白修飾信號,根據(jù)全基因組分析的結(jié)果表明,包括組蛋白H3第4位賴氨酸(H3K4)甲基化和組蛋白H3第9位賴氨酸乙?;℉3K9ac)在內(nèi)的若干組蛋白修飾都會在啟動子區(qū)域富集[5]。本文基于以上啟動子區(qū)域特點信息,利用RNA-seq數(shù)據(jù)和ChIP-Seq數(shù)據(jù)進行啟動子類型的識別及獲取組蛋白修飾特征數(shù)據(jù)。
1.1 數(shù)據(jù)獲取及預處理
本文首先從UCSC基因組瀏覽器上獲取人類基因組g19版本的注釋基因數(shù)據(jù),其主要包含信息見表1。研究時,對注釋基因可根據(jù)以下條件進行預處理:轉(zhuǎn)錄起始位點唯一且轉(zhuǎn)錄起始位點上下游各10 kbp的區(qū)域內(nèi)不包含其它基因任何位點的基因,最后得到7 732個符合條件的基因。然后依然從UCSC中下載細胞系H1-hesc的2個全細胞RNA-seq測序數(shù)據(jù)文件以及該細胞系的RNA聚合酶II的ChIP-Seq數(shù)據(jù)(版本號為wgEncodeEH000563)。最后,從基因表達綜合數(shù)據(jù)庫(Gene Expresion Omnibus,GEO)中下載細胞系H1-hesc的6種組蛋白修飾(與活躍啟動子相關(guān)的H3K9ac、H3K27ac 和H3K4me1/2/3以及與非活躍啟動子相關(guān)的H3K27me3)數(shù)據(jù)。由于從GEO中直接下載的組蛋白修飾數(shù)據(jù)的BED文件都是比對到人類基因組g18的,而本文其余的數(shù)據(jù)都是基于g19的,因此這里需要對組蛋白修飾數(shù)據(jù)利用UCSC的LiftOver工具設(shè)計進行不同版本之間的基因組坐標轉(zhuǎn)換。
1.2 啟動子分類
啟動子是DNA調(diào)控元件,是基因轉(zhuǎn)錄活動“開關(guān)”。啟動子是否具有生物活性,可以根據(jù)基因是否出現(xiàn)轉(zhuǎn)錄活動,即采用基因的表達水平進行衡量。為此,本文利用RNA-seq數(shù)據(jù)計算7 732個注釋基因在細胞系H1-hesc的表達情況,衡量指標為RPKM(Reads Per Kilobase per Million mapped reads),其計算公式如下:
RPKM是每百萬reads中來自某個基因每一千堿基區(qū)域上的reads數(shù)量,能夠有效地反映基因真實的表達水平[6]。由于有2個數(shù)據(jù)文件,將2個計算結(jié)果取平均值作為基因的RPKM值。為了更好地擬合真實情況,盡可能減小避免測序誤差帶來的影響,在此人為規(guī)定RPKM值大于0.1以上的基因為表達基因,根據(jù)計算結(jié)果細胞系H1-hesc中61%的基因是表達基因。
基因具有表達水平,說明存在著具有生物活性的啟動子引導了基因的轉(zhuǎn)錄活動。而啟動子能夠調(diào)控起始基因轉(zhuǎn)錄,需要結(jié)合特異性的RNA聚合酶II,因此利用其ChIP-Seq數(shù)據(jù)去識別具有RNA聚合酶II富集的候選啟動子區(qū)域。在此,將具有RNA聚合酶II信號的表達基因的啟動子分類為活躍啟動子,將具有RNA聚合酶II信號的、但基因RPKM值介于0~0.1之間的啟動子分類為弱啟動子,將具有RNA聚合酶II信號的、但基因RPKM值為0的啟動子分類為預備啟動子。最終,分類結(jié)果如圖1所示。其中,活躍啟動子1 260個,弱啟動子705個以及預備啟動子81個。
1.3 啟動子組蛋白修飾特征
組蛋白修飾會在啟動子區(qū)域富集,具有顯著的局部的峰和廣泛的分布,而在不同類型的啟動子中各個組蛋白修飾特征分布又會存在一定的差異性,因此本文研究細胞系H1-hesc的6個組蛋白修飾數(shù)據(jù)在啟動子區(qū)域的分布情況。一般認為,基因啟動子主要是在轉(zhuǎn)錄起始位點上游1 kbp范圍內(nèi)。為此,可將基因轉(zhuǎn)錄起始位點上下游各1 kbp的區(qū)域作為候選啟動子區(qū)域,進行組蛋白修飾信號特征的提取。將2 kbp區(qū)域劃分為10個連續(xù)且不重疊的、長度為200 bp的小bins,然后統(tǒng)計每個基因bins上的各個組蛋白修飾read的分布情況。每個組蛋白修飾數(shù)據(jù)均有2個實驗數(shù)據(jù)文件,為此取二者統(tǒng)計結(jié)果的平均值作為組蛋白修飾read落于某個bins內(nèi)的數(shù)目。研究可得組蛋白修飾分布情況如圖2所示。
2 分類算法及性能比較
基于先前的工作,已經(jīng)得到了各個類型啟動子的組蛋白修飾特征數(shù)據(jù),每個啟動子是60維的特征向量,需要處理的是一個三分類問題。對于有些分類算法,如支持向量機在設(shè)計時針對的是二分類問題。為此本文采取的方法是一對一策略,即在每兩類之間建立分類器,那么三分類問題中會建立3個分類器,對于新的未知樣例將根據(jù)3個分類器的投票結(jié)果來判定其類別[7]。Weka提供了多分類的分析環(huán)境,在Classify目錄下選擇meta中的MultiClassClassifier,然后根據(jù)實驗對象選擇合適的分類算法就可以實現(xiàn)多分類。本文選擇了4種分類算法進行比較,分別是:基于C4.5決策樹學習算法的J48、隨機森林(Random Forest)、基于徑向基核函數(shù)的LibSVM以及樸素貝葉斯網(wǎng)絡。采取10折交叉驗證的方法進行分類器評估及選擇。分類器相關(guān)參數(shù)都是默認值。研究中,各分類算法的性能比較結(jié)果可見表2。
從表2的結(jié)果對比中,綜合各個指標可以看出:隨機森林分類算法在啟動子識別分類中的性能較為優(yōu)異。在一般分類預測問題中,隨機森林可以勝任預測類問題,尤其是多分類問題的第一選擇。圖3即是隨機森林算法在該分類預測中結(jié)果的混淆矩陣及分類器的ROC曲線(曲線1為基于活躍啟動子、曲線2基于弱啟動子、曲線3為基于預備啟動子)??梢赃M一步看出,分類器對于3個類型的啟動子預測準確率都在70%以上,這在多分類不平衡問題中是一個較好的結(jié)果。因此,可以應用這一經(jīng)過訓練的分類器在其他細胞系中去識別預測啟動子類型。
3 結(jié)束語
本文主要研究了基于Weka數(shù)據(jù)挖掘平臺的分類算法在啟動子識別分類中的應用?;诘诙鷾y序技術(shù)的實驗數(shù)據(jù)對細胞系H1-hesc中的基因啟動子進行了識別分類并提取組蛋白修飾特征,然后對比Weka中的4種分類算法在啟動子分類預測上的性能優(yōu)劣,得到隨機森林分類算法能較好對啟動子進行分類預測,今后的相關(guān)研究工作將進一步優(yōu)化分類器,從而提高模型性能。
參考文獻
[1] WITTEN I H FRANK E HALL M A. Data mining: Practical machine learning tools and techniques[M]. 3rd ed. 李川,張永輝,譯. 北京:機械工業(yè)出版社,2014.
[2] GIFFORD C A ZILLER M J GU Hongcang et al. Transcriptional and epigenetic dynamics during specification of human embryonic stem cells[J].Cell 2013 153(5):1149-1163.
[3] RAZIN S V GAVRILOV A A ULYANOV S V. Transcription-controlling regulatory elements of the eukaryotic genome[J]. Molecular Biology 2015 49(2):185-194.
[4] Davari K Lichti J Gallus C et al. Rapid genome-wide recruitment of RNA polymerase II drives transcription splicing and translation events during T cell responses[J]. Cell Reports 2017 19(3):643-654.
[5] BARSKI A CUDDAPAH S CUI K et al. High-resolution profiling of histone methylations in the human genome[J]. Cell 2007 129(4):823-837.
[6] MORTAZAVI A WILLIAMS B A MCCUE K et al. Mapping and quantifying mammalian transcriptomes by RNA-seq[J]. Nature Methods 2008 5(7):621-628.
[7] XU Wenxuan ZHANG Li. Human promoter recognition based on single nucleotide statistics and support vector machine ensemble[J]. Journal of Computer Applications 2015 35(10):2808-2812.