蘇偉,孫自杰,岳鵬,林昊*
(1.電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院 成都 611731;2.成都東軟學(xué)院健康醫(yī)療科技學(xué)院 成都 611844)
啟動(dòng)子通常位于基因上游,能與RNA 聚合酶特異性結(jié)合并起始轉(zhuǎn)錄的一段DNA 序列,作為轉(zhuǎn)錄起始過程的關(guān)鍵元件,激活RNA 聚合酶與模板DNA 結(jié)合,是基因表達(dá)和轉(zhuǎn)錄調(diào)節(jié)的起始步驟[1]。
原核生物RNA 聚合酶中的σ 因子可以特異性識(shí)別并結(jié)合啟動(dòng)子。在大腸桿菌中,存在多種σ 因子,根據(jù)分子量可以分為7 類,σ70、σ54、σ38、σ32、σ28、σ24、σ19,在已知的7 類σ 因子中前6 類保守性極強(qiáng),而σ19 在大多數(shù)基因組中是缺失的[2]。每一類σ 因子具有特定的生物學(xué)功能[3-6],σ70 主要負(fù)責(zé)持家基因的轉(zhuǎn)錄;σ54 被認(rèn)為是參與氮代謝的調(diào)控因子以及控制一些輔助進(jìn)程;σ38 參與穩(wěn)定期基因的調(diào)節(jié);σ32 是熱休克σ 因子(熱激因子);σ28 參與鞭毛的合成;σ24 與極端熱應(yīng)激反應(yīng)有關(guān);σ19 則參與對(duì)鐵離子轉(zhuǎn)運(yùn)系統(tǒng)的調(diào)控。根據(jù)σ 因子的同源性,可將其大致分為兩類:一類是σ70 家族,包括σ70、σ38、σ32、σ28、σ24、σ19;另一類是σ54 家族。大腸桿菌基因組內(nèi)的啟動(dòng)子類型依據(jù)與之結(jié)合的σ 因子種類也可分為相應(yīng)的類型。不同類型的啟動(dòng)子共有序列也有所差異。因此,啟動(dòng)子也依據(jù)被識(shí)別的片段分為σ70 家族和σ54 家族。如σ70 啟動(dòng)子具有兩個(gè)重要的基序區(qū)域,?10 區(qū)和?35 區(qū),分別位于轉(zhuǎn)錄起始位點(diǎn)上游 約10bp 和35bp 處。?10 區(qū)含有保守序列“TATAAT”,又被稱為Pribnow box 或TATA box,富含腺嘌呤(adenine,A)和胸腺嘧啶(thymine,T),有助于DNA 雙鏈解螺旋分離;?35 區(qū)則由6 個(gè)保守的核苷酸“TTGACA”組成[7]。除了σ70 因子,?10 區(qū)和?35 區(qū)也是被σ70 家族其他因子識(shí)別的重要片段。相比之下,σ54 啟動(dòng)子的共有序列及其位置與σ70 啟動(dòng)子具有明顯差異,在σ54 啟動(dòng)子的?24 區(qū)和?12 區(qū)存在保守區(qū)域,其保守序列分別是“TGGCA[CT][GA]”和“TGC[AT][TA]”[8]。
啟動(dòng)子序列的鑒定對(duì)于研究基因表達(dá)、分析基因調(diào)控機(jī)制、研究基因結(jié)構(gòu)以及注釋基因信息至關(guān)重要。準(zhǔn)確識(shí)別啟動(dòng)子的方法一般是依靠昂貴且耗時(shí)費(fèi)力的實(shí)驗(yàn)檢測(cè)方法,然而,在全基因組范圍內(nèi)進(jìn)行檢測(cè)是一項(xiàng)艱巨的任務(wù)。隨著測(cè)序技術(shù)以及計(jì)算機(jī)技術(shù)的發(fā)展,越來越多生物的全基因組被測(cè)序出來,尤其是原核生物,因此出現(xiàn)了基于計(jì)算生物學(xué)的啟動(dòng)子預(yù)測(cè)方法,這些預(yù)測(cè)方法在不斷地改進(jìn),有助于鑒別啟動(dòng)子序列。
原核生物RNA 聚合酶中的σ 因子可以特異性識(shí)別并結(jié)合啟動(dòng)子,如圖1 所示。

圖1 大腸桿菌σ70 啟動(dòng)子與RNA 聚合酶結(jié)合
2005 年至今已經(jīng)開發(fā)了30 多種計(jì)算方法來預(yù)測(cè)原核生物啟動(dòng)子,大致流程如圖2 所示。這些方法在許多方面有所不同,包括使用的基準(zhǔn)數(shù)據(jù)集、特征提取方法、特征選擇技術(shù)以及分類方法等。本文總結(jié)了39 種原核啟動(dòng)子預(yù)測(cè)方法,從基準(zhǔn)數(shù)據(jù)集信息、特征表示、特征選擇、性能評(píng)估策略等多方面進(jìn)行了比較和分析,如表1 所示。

圖2 基于計(jì)算方法的原核啟動(dòng)子預(yù)測(cè)流程

表1 39 個(gè)原核啟動(dòng)子預(yù)測(cè)工具比較

續(xù)表
39 個(gè)預(yù)測(cè)工具根據(jù)其功能可分為以下3 類。
1)普通啟動(dòng)子的識(shí)別。工具1~9[9-17]屬于這一類,這些工具收集各種原核生物的啟動(dòng)子作為基準(zhǔn)數(shù)據(jù)集,包含大腸桿菌、枯草芽孢桿菌、結(jié)核桿菌、乳酸乳球菌、天藍(lán)色鏈霉菌、分枝桿菌以及假單胞菌等。并沒有指出這一類啟動(dòng)子具體的類型,因此這些方法只是簡(jiǎn)單地對(duì)啟動(dòng)子序列進(jìn)行預(yù)測(cè)。
2)特殊類型啟動(dòng)子的預(yù)測(cè)。這一類方法包含工具10~30[18-38]。這些工具以具體類型的啟動(dòng)子作為基準(zhǔn)數(shù)據(jù)集,如大腸桿菌的6 類啟動(dòng)子,原核生物的σ54 啟動(dòng)子,藍(lán)細(xì)菌的5 類啟動(dòng)子等。不同類型的啟動(dòng)子在基因表達(dá)調(diào)控過程中起著不同且重要的作用,如目前已知的σ54 啟動(dòng)子僅有數(shù)百條,而原核生物有3 萬(wàn)多種,還有大量σ54 啟動(dòng)子未被發(fā)現(xiàn)。σ54啟動(dòng)子參與了氮代謝的調(diào)控,因此σ54 啟動(dòng)子的預(yù)測(cè)對(duì)于了解原核生物氮代謝過程具有重要意義。
3)啟動(dòng)子的預(yù)測(cè)與分類。剩余的9 個(gè)方法[39-47]均屬于這一類,以大腸桿菌啟動(dòng)子作為數(shù)據(jù)集。這類方法具有一個(gè)典型的特征,即模型具有兩層結(jié)構(gòu),第一層均是對(duì)啟動(dòng)子的預(yù)測(cè),第二層是對(duì)啟動(dòng)子屬性分類。工具31~36 除了預(yù)測(cè)啟動(dòng)子和非啟動(dòng)子,第二層還判斷啟動(dòng)子的具體類型(σ70,σ54,σ38,σ32,σ28,σ24)。實(shí)際上,啟動(dòng)子還有強(qiáng)弱之分。強(qiáng)啟動(dòng)子能增加轉(zhuǎn)錄頻率從而提高基因的表達(dá)水平,所以預(yù)測(cè)啟動(dòng)子的強(qiáng)度也很重要。基于此,模型37~39 的第二層鑒定啟動(dòng)子的強(qiáng)弱(Strong,Weak)。
隨著后基因組時(shí)代的到來以及計(jì)算機(jī)的發(fā)展,對(duì)于原核啟動(dòng)子的預(yù)測(cè)方法也不局限于初步的分類,還增加了對(duì)啟動(dòng)子類型和強(qiáng)度的鑒定,為了解基因調(diào)控過程提供新信息。
建立原核啟動(dòng)子預(yù)測(cè)模型的第一步需要構(gòu)建一個(gè)高質(zhì)量的基準(zhǔn)數(shù)據(jù)集。大腸桿菌(E.coli)作為原核生物中被廣泛使用、研究的模式生物,其經(jīng)過實(shí)驗(yàn)驗(yàn)證的轉(zhuǎn)錄調(diào)控信息已被系統(tǒng)地收錄在RegulonDB數(shù)據(jù)庫(kù)[48]中。DBTBS 數(shù)據(jù)庫(kù)[49]則收集整理了關(guān)于枯草芽孢桿菌(B.subtilis)的啟動(dòng)子數(shù)據(jù)。因此,RegulonDB 和DBTBS 數(shù)據(jù)庫(kù)為預(yù)測(cè)方法提供了數(shù)據(jù)基礎(chǔ)。39 個(gè)工具中共有35 個(gè)工具的數(shù)據(jù)集包含大腸桿菌和枯草芽孢桿菌啟動(dòng)子。
另外,為了減少由序列同源性引起的潛在誤差,通常會(huì)使用CD-HIT[50]工具以75%~85%的序列相似性閾值來去除掉數(shù)據(jù)集中序列冗余。原核啟動(dòng)子相較真核啟動(dòng)子,其結(jié)構(gòu)相對(duì)較為簡(jiǎn)單、功能元件也相對(duì)較少,因此一般選擇轉(zhuǎn)錄起始位點(diǎn)(transcriptional start site,TSS)上游60bp 以及下游20bp 作為原核啟動(dòng)子序列,不僅包含了重要的共有序列,如?35 區(qū)、?10 區(qū)、起始位點(diǎn)等,也避免了序列過長(zhǎng)導(dǎo)致引入不必要的信息,具體數(shù)據(jù)可見原核啟動(dòng)子數(shù)據(jù)庫(kù)(prokaryotic promoter database,PPD)[51]。
幾乎所有的機(jī)器學(xué)習(xí)方法是以數(shù)值向量作為輸入,因此需要一個(gè)合適的特征描述方法將數(shù)據(jù)集中的每一個(gè)樣本轉(zhuǎn)換為能夠反映序列信息的數(shù)值向量。在原核啟動(dòng)子識(shí)別工作中,這些特征大致可以分為5 類:核苷酸組成、核苷酸理化性質(zhì)、偽核苷酸組成、二進(jìn)制編碼以及位置權(quán)重矩陣,以下對(duì)這5 類特征進(jìn)行簡(jiǎn)單的介紹。
核苷酸組成,也叫k-mer,統(tǒng)計(jì)了DNA 序列片段的所有可能組合的k長(zhǎng)度子串出現(xiàn)頻率,其計(jì)算公式為:

式中,i代表某一k聯(lián)體,有4k種可能性;N(t)表示DNA 序列中某一k聯(lián)體出現(xiàn)的次數(shù);L表示DNA 序列的長(zhǎng)度。隨著k值的增加,DNA 序列的局部或短程信息也會(huì)逐漸增加。
此外,核苷酸組成還包括了g-gapped k-mer,GC 含量,累積核苷酸頻率(accumulated nucleotide frequency,ANF)等。ANF 表示了每一個(gè)堿基在序列中的分布密度,表達(dá)式為:

式中,|si|代表第i個(gè)堿基的位置;N(si)表示某一堿基出現(xiàn)頻數(shù);q∈{A,C,G,T}。
DNA 序列中堿基的理化性質(zhì)也可作為啟動(dòng)子預(yù)測(cè)的重要特征,包括核苷酸的化學(xué)性質(zhì)、雙鏈的穩(wěn)定性、自由能、應(yīng)激誘導(dǎo)的DNA 雙鏈不穩(wěn)定性等。
根據(jù)表2 中對(duì)不同核苷酸的分類,DNA 序列中第i個(gè)核苷酸可以表示為:

表2 核苷酸化學(xué)性質(zhì)

式中,xi,yi,zi分別表示指環(huán)結(jié)構(gòu)(ring structure),功能組別(function group),以及氫鍵(hydrogen bond),如:

因此4 種堿基(A,C,G,T)可以分別表示為(1,1,1),(0,1,0),(1,0,0)和(0,0,1)。
偽核苷酸組成(pseudo k-tuple nucleotide composition,PseKNC)最初是由文獻(xiàn)[52]提出,分為I 型和II 型。這兩種方法基于核苷酸的物化性質(zhì)引入了DNA 序列的全局或長(zhǎng)程順序信息。
I 型PseKNC,也叫平行相關(guān)偽核苷酸組成,將每一條DNA 序列轉(zhuǎn)化為4k+λ 維的向量,具體表示為:

II 型PseKNC,也叫串聯(lián)相關(guān)偽核苷酸組成,可產(chǎn)生4k+λ Λ維向量:

式(5)和式(6)中的fu與式(1)相同;前4k個(gè)元素是核苷酸組成特征,后面的元素是偽核苷酸組成特征;λ是一個(gè)正整數(shù),反映序列順序關(guān)聯(lián)階數(shù);ω是權(quán)重因子,用于權(quán)衡核苷酸組分和DNA 序列局部結(jié)構(gòu)性質(zhì)的影響;τj代表的是m階關(guān)聯(lián)因子,反映了每條DNA 序列所有二核苷酸的m階順序關(guān)聯(lián)性。
二進(jìn)制編碼通過將4 種核苷酸轉(zhuǎn)換成包含4 個(gè)元素的向量作為特征,其中一個(gè)元素為1,其余為0,既A、C、G 和T 分別表示為(1,0,0,0),(0,1,0,0),(0,0,1,0)以及(0,0,0,1)。因此,一段長(zhǎng)為L(zhǎng)的DNA序列可以用L×4 的二維矩陣表示。
位置權(quán)重矩陣(position weight matrix,PWM)可用來表示序列的保守片段,以序列每一位置的堿基保守程度為參量,分別計(jì)算每種堿基的保守指數(shù),以此作為特征,具體表示為:

式中,Si,j表示堿基i在第j個(gè)位置的保守指數(shù);qi,j是指在背景序列中堿基i出現(xiàn)在第j個(gè)位置的頻率;bi是背景概率。
因此,PWM 是一個(gè)4×L的二維矩陣:

從式(1)以及式(5)、式(6)可以看出,隨著k值的增加,特征維度呈指數(shù)級(jí)增長(zhǎng),會(huì)導(dǎo)致“維度災(zāi)難”以及過擬合問題,而且由不同特征提取方法整合形成的融合特征集合往往會(huì)夾雜一些冗余或不相關(guān)的信息,所以為了避免出現(xiàn)上述問題并且提高計(jì)算效率,篩選有用的特征也是必不可少的步驟。
最小冗余最大相關(guān)(minimum redundancy maximum relevance,mRMR)[53]是一種通過篩選相關(guān)性最大的特征來減少信息冗余的方法。mRMR 的應(yīng)用大大減少了特征維數(shù)和模型訓(xùn)練的時(shí)間,幾乎不丟失有效信息。
對(duì)于兩個(gè)隨機(jī)變量x和y,其互信息為:

式中,p()表示概率密度函數(shù)。
最大相關(guān)性為:

式中,c為類別變量;S為特征子集。
最小冗余度則表示為:

最后的評(píng)選標(biāo)準(zhǔn)如式(12)所示:

mRMR 會(huì)將所有特征的最大相關(guān)最小冗余打分按從大從小排序,值越大表明該特征越重要。
當(dāng)兩個(gè)特征高度依賴時(shí),它們對(duì)模型的貢獻(xiàn)不能疊加,文獻(xiàn)[54]基于距離函數(shù)提出了最大相關(guān)最大距離(max-relevance-max-distance,MRMD)來衡量每個(gè)特征的獨(dú)立性。
MRMD 包含兩個(gè)方面的特征排序度量:1)特征子集與目標(biāo)類別的相關(guān)性;2)特征子集的冗余度。采用皮爾遜相關(guān)系數(shù)來衡量相關(guān)性、多種距離函數(shù)來計(jì)算冗余度。皮爾遜相關(guān)系數(shù)越大,特征與目標(biāo)類別之間的相關(guān)性越高;特征距離越大,特征子集的冗余度越低;相關(guān)性與距離之和大的特征被選入最終的特征子集。因此,MRMD 生成的特征子集冗余度最低,與目標(biāo)類別的相關(guān)性最強(qiáng)。
F-score 是一種基于filter 的特征選擇方法,對(duì)每一個(gè)特征進(jìn)行重要性打分,其具體計(jì)算方法為:

式中,n+、n?分別表示正負(fù)樣本的數(shù)量;分別指第i個(gè)特征在正樣本、負(fù)樣本以及所有樣本中的平均值;分別指的是正負(fù)樣本中第k條序列的第i個(gè)特征的數(shù)值。
F-score 通常與增量特征選擇技術(shù)相結(jié)合來確定最優(yōu)特征子集。
增量特征選擇(incremental feature selection,IFS)方法適用于確定最優(yōu)特征子集。該方法的核心思想是將按重要性評(píng)分降序的特征依次加入到特征子集中,形成新的子集,將每一個(gè)子集輸入至模型中,從而根據(jù)結(jié)果決策出最優(yōu)特征子集。
選擇合適的算法可以使最終的模型具有良好的性能和泛化能力,各種監(jiān)督學(xué)習(xí)方法已經(jīng)被廣泛應(yīng)用于預(yù)測(cè)原核啟動(dòng)子,大致有以下4 類。
支持向量機(jī)(support vector machine,SVM)[55]是基于監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類,在樣本空間中尋找最優(yōu)分類超平面使得兩類的間隔最大。
對(duì)于線性可分的情況,存在一個(gè)分類超平面能將訓(xùn)練樣本正確分類。而對(duì)于線性不可分的情況,需要使用核函數(shù)將低維不可分樣本映射到更高維的特征空間,使得樣本在高維空間中線性可分。
神經(jīng)網(wǎng)絡(luò)(neural networks,NN)學(xué)習(xí)是一種模擬生物大腦神經(jīng)網(wǎng)絡(luò)的自適應(yīng)計(jì)算模型。隨著近年來人工智能的快速發(fā)展,人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)及其卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)已成為研究生物信息學(xué)問題的重要方法。
基本的ANN 結(jié)構(gòu)包括輸入層、隱藏層和輸出層,主要特點(diǎn)是信號(hào)正向傳播,誤差反向傳播。通過最小化誤差函數(shù),修正神經(jīng)元間的連接權(quán)重,當(dāng)其誤差小于一定閾值的時(shí)候,即停止訓(xùn)練。
CNN 目前在很多研究領(lǐng)域都取得了巨大的成功,如語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等,是深度學(xué)習(xí)的代表算法之一。CNN 通常由輸入層、卷積層、激活函數(shù)、池化層、全連接層和輸出層組成。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同的是CNN 采用局部連接和權(quán)值共享,使得網(wǎng)絡(luò)易于優(yōu)化并且降低了模型的復(fù)雜度,減小過擬合風(fēng)險(xiǎn)。
集成學(xué)習(xí)(ensemble learning,EL)通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。在預(yù)測(cè)原核啟動(dòng)子的方法中,集成學(xué)習(xí)也是被廣泛應(yīng)用的,如隨機(jī)森林(random forest,RF)。
RF 是一種基于決策樹的集成學(xué)習(xí)方法,在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。對(duì)于基決策樹的每個(gè)結(jié)點(diǎn),隨機(jī)選擇該結(jié)點(diǎn)屬性集合中的一個(gè)子集,再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。RF 的每一個(gè)決策樹都會(huì)產(chǎn)生一個(gè)分類結(jié)果,通過投票決定最終輸出。與單一的決策樹相比,RF 具有較強(qiáng)的魯棒性,并且對(duì)大數(shù)據(jù)具有較好的處理效果。
線性判別分析(linear discriminant analysis,LDA)在二分類問題上最初是由文獻(xiàn)[56]提出的,亦稱為“Fisher 判別分析”。
LDA 的核心思想相對(duì)簡(jiǎn)單:首先將訓(xùn)練集中的樣本投影到一條直線上,使得同一類樣本盡可能靠近,不同類樣本盡可能遠(yuǎn)離;當(dāng)新樣本進(jìn)來時(shí),將其投影到同一直線上,從而根據(jù)投影點(diǎn)的位置判斷其類別。
在統(tǒng)計(jì)分析中,獨(dú)立測(cè)試集和K 折疊交叉驗(yàn)證已經(jīng)被廣泛地應(yīng)用于驗(yàn)證分類器性能。當(dāng)樣本數(shù)量足夠多時(shí),會(huì)將基準(zhǔn)數(shù)據(jù)集劃分為訓(xùn)練集和獨(dú)立測(cè)試集。獨(dú)立測(cè)試集由于未參與模型的訓(xùn)練,可以更好地評(píng)價(jià)模型性能。在原核啟動(dòng)子識(shí)別模型中,K 折疊交叉驗(yàn)證的應(yīng)用最為廣泛,其基本思想是重復(fù)利用數(shù)據(jù),每一個(gè)樣本既可以作為訓(xùn)練集參與模型訓(xùn)練,也會(huì)作為測(cè)試集參與模型評(píng)估。方法是將數(shù)據(jù)平均分成K份,K?1 個(gè)子集用作訓(xùn)練,剩余一份用作測(cè)試,重復(fù)K次,最后返回K次結(jié)果的平均值。K 折疊交叉驗(yàn)證最大程度上利用了每一個(gè)數(shù)據(jù),能更好地反應(yīng)模型的預(yù)測(cè)性能。
另外,受試者工作特征曲線(receiver operating characteristic curve,ROC)下面積AUC 值也可以反應(yīng)模型性能,其值越接近于1,表明模型性能越好。
近年來,基于生物信息學(xué)的原核啟動(dòng)子預(yù)測(cè)方法備受學(xué)者關(guān)注,已有多種方法被提出。為了充分了解這個(gè)領(lǐng)域的發(fā)展現(xiàn)狀,本文收集并系統(tǒng)地分析了2005 年至今共計(jì)39 個(gè)原核啟動(dòng)子預(yù)測(cè)方法,詳細(xì)闡述了這些方法的數(shù)據(jù)集構(gòu)建、特征選擇、特征提取、分類算法以及性能評(píng)估,詳細(xì)信息如表1所示。
目前,對(duì)原核啟動(dòng)子預(yù)測(cè)的研究取得了令人滿意的結(jié)果。隨著更多原核生物的基因組被測(cè)序出來,被研究的物種也不局限于少數(shù)幾個(gè)模式生物,使用這些預(yù)測(cè)算法有助于了解原核生物基因調(diào)控機(jī)制。本文系統(tǒng)地比較了原核啟動(dòng)子預(yù)測(cè)方法,為研究此問題提供新思路、新角度。