基于XGBoost的啟動(dòng)子及其類型識(shí)別的兩層預(yù)測器

2023-06-25 07:42:18胡仔豪

現(xiàn)代信息科技 2023年7期

摘? 要：啟動(dòng)子的分類已成為一個(gè)有趣的問題，并引起了生物信息學(xué)領(lǐng)域許多研究人員的關(guān)注。為解決這一問題，進(jìn)行了多種研究，但其性能結(jié)果仍需進(jìn)一步改進(jìn)。為此，基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法，引入了一種智能計(jì)算模型，即iPSI（2L）-XGBoost，用于區(qū)分啟動(dòng)子及其強(qiáng)弱。所提出的計(jì)算模型iPSI（2L）-XGBoost能夠在兩層中分別達(dá)到86.79%和78.64%的交叉驗(yàn)證精度，就所有評估指標(biāo)而言，擬議的iPSI（2L）-XGBoost模型比其他模型獲得了有效的成功率。因此，iPSI（2L）-XGBoost模型將為啟動(dòng)子鑒定的學(xué)術(shù)研究提供一個(gè)有用的工具。

關(guān)鍵詞：啟動(dòng)子；啟動(dòng)子識(shí)別；卷積神經(jīng)網(wǎng)絡(luò)；多特征融合；XGBoost

中圖分類號：TP39；TP18 文獻(xiàn)標(biāo)識(shí)碼：A? 文章編號：2096-4706（2023）07-0078-04

Abstract： The classification of promoters has become an interesting issue and has attracted the attention of many researchers in the field of bioinformatics. To solve this problem， various studies have been conducted， but their performance results still need to be further improved. Therefore， based on machine learning and deep learning algorithms， an intelligent computing model， iPSI（2L）-XGBoost， is introduced to distinguish promoters and their strengths. The proposed computing model iPSI（2L）-XGBoost can achieve cross validation accuracy of 86.79% and 78.64% in two layers， respectively. For all evaluation indicators， the proposed iPSI（2L）-XGBoost model achieves an effective success rate compared to other models. Therefore， the iPSI（2L）-XGBoost model will provide a useful tool for academic research on promoter identification.

Keywords： promoter; promoter recognition; Convolutional Neural Networks; Multi-feature fusion; XGBoost

0? 引? 言

DNA中的啟動(dòng)子是基因的重要組成部分，它調(diào)節(jié)特定細(xì)胞中特定基因的轉(zhuǎn)錄。與真核生物基因表達(dá)調(diào)控相比，原核生物基因表達(dá)調(diào)節(jié)是簡單的。在前一種情況下，兩個(gè)調(diào)節(jié)過程，即轉(zhuǎn)錄和翻譯同時(shí)發(fā)生，而在后一種情況中，基因表達(dá)調(diào)節(jié)是一種更復(fù)雜的現(xiàn)象，因?yàn)樽畛醯腄NA合成發(fā)生在轉(zhuǎn)錄和翻譯之后。更重要的是，在原核生物中，大多數(shù)基因都由一個(gè)操縱子控制，操縱子將大多數(shù)基因作為一個(gè)表達(dá)簇進(jìn)行調(diào)控和轉(zhuǎn)錄。染色體上的特定區(qū)域決定了特定轉(zhuǎn)錄物的命運(yùn)，是否或如何啟動(dòng)轉(zhuǎn)錄。這些序列被稱為啟動(dòng)子，對基因表達(dá)調(diào)控和控制特定途徑至關(guān)重要，其位于轉(zhuǎn)錄起始位點(diǎn)（TSS）附近。RNA聚合酶（RNAP）和各種稱為“σ-因子”的蛋白質(zhì)的組合可以通過誘導(dǎo)RNA全酶來確定TSS[1]，因此，σ-因子可以用于識(shí)別原核啟動(dòng)子區(qū)域。根據(jù)σ-因子（例如，大腸桿菌中的σ70、σ54、σ38、σ32、σ28和σ24）[2]及其轉(zhuǎn)錄激活和表達(dá)水平的強(qiáng)度不同，啟動(dòng)子區(qū)域結(jié)構(gòu)譜中的模式可分為幾類[3，4]。原核生物中只有一種RNA聚合酶（RNAP）可以轉(zhuǎn)錄其基因，但有多種σ因子[5]。啟動(dòng)子也可分為強(qiáng)啟動(dòng)子和弱啟動(dòng)子，強(qiáng)啟動(dòng)子可提高轉(zhuǎn)錄頻率和外源基因表達(dá)水平。據(jù)我們所知，iPSW（2L）-PseKNC[6]是識(shí)別啟動(dòng)子強(qiáng)弱的第一個(gè)預(yù)測器，DNA序列是由偽K核苷酸組成（PseKNC）融合核苷酸密度和這些物理化學(xué)性質(zhì)形成的，使用支持向量機(jī)進(jìn)行預(yù)測。最近，為了確定啟動(dòng)子及其強(qiáng)弱，已經(jīng)做出了許多努力。Le等人使用語言模型提取DNA序列的特征，然后將其輸入卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行分類，發(fā)現(xiàn)FastText在這個(gè)問題上比Glove或Word2Vector取得了更好的性能[7]。Tayara等人提出了iPSW（PseDNC-DL）模型，該模型結(jié)合了從卷積層和PseDNC中提取的特征[8]。這里，我們使用新構(gòu)建的特征提取方法，即One-hot、PCA-PseKNC和PseKNC三種編碼方法融合后再利用XGBoost分類算法進(jìn)行預(yù)測分類，得到一個(gè)新的兩層預(yù)測器iPSI（2L）-XGBoost，以提高識(shí)別啟動(dòng)子及其強(qiáng)度類型的預(yù)測能力。

1? 材料與方法

1.1? 基準(zhǔn)數(shù)據(jù)集

收集高質(zhì)量數(shù)據(jù)集是解決生物信息學(xué)問題的最重要步驟之一，現(xiàn)用于預(yù)測啟動(dòng)子強(qiáng)弱類型的數(shù)據(jù)集均是基于Xiao[6]等人提出的數(shù)據(jù)集。為了客觀評估我們的模型與其他現(xiàn)有模型之間的性能差異，我們也使用了iPSW（2L）-PseKNC[6]模型構(gòu)建的基準(zhǔn)數(shù)據(jù)集，并將其命名為數(shù)據(jù)集Ⅰ。在這個(gè)數(shù)據(jù)集中，他們從RegulonDB[9]收集了所有實(shí)驗(yàn)證實(shí)的啟動(dòng)子序列，這是基因表達(dá)調(diào)控網(wǎng)絡(luò)的巨大數(shù)據(jù)庫。這些序列根據(jù)其轉(zhuǎn)錄激活和表達(dá)水平分為兩類：強(qiáng)啟動(dòng)子和弱啟動(dòng)子。他們還通過考慮內(nèi)含子、外顯子和基因間序列（不包括陽性序列）來提取非啟動(dòng)子序列。之后，CD-HIT[10]也被用來排除相似度超過85%的成對序列。數(shù)據(jù)集Ⅰ包括3 382個(gè)啟動(dòng)子樣本和3 382個(gè)非啟動(dòng)子樣本。在3 382個(gè)啟動(dòng)子樣本中，有1 591個(gè)強(qiáng)啟動(dòng)子樣本和1 792個(gè)弱啟動(dòng)子樣本用于構(gòu)建二級分類。

1.2? 特征提取

對于數(shù)據(jù)集中給定的DNA序列樣本，可以表示為：

DNA由四種不同類型的核苷酸組成：A、C、G和T，其中A是腺嘌呤，C是胞嘧啶，G是鳥嘌呤，T是胸腺嘧啶。在One hot編碼中，A編碼為（1，0，0，0），C編碼為（0，1，0，0），G編碼為（0，0，1，0），T編碼為（0，0，0，1）。偽K元組核苷酸合成（PseKNC）是一種結(jié)合核苷酸的物理化學(xué)性質(zhì)和頻率密度的編碼方法。每個(gè)核苷酸都有不同的物理化學(xué)性質(zhì)，例如化學(xué)結(jié)構(gòu)、內(nèi)部結(jié)合特征以及根據(jù)互補(bǔ)堿基配對原理，都可以分成不同的類別。

根據(jù)不同的物理化學(xué)性質(zhì)，四個(gè)核苷酸可以用不同的編碼表示，在PseKNC特征編碼中，第i個(gè)核苷酸可以編碼為（xi， yi， zi， pi），其中第i個(gè)核苷酸分別為A、C、G、T時(shí)其理化性質(zhì)編碼為（1，1，1），（0，1，0），（1，0，0）和（0，0，1）。

在本研究中，我們構(gòu)建了一種新的編碼方法，稱為PCA-PseKNC。PCA-PseKNC的構(gòu)建原理與PseKNC相同，只是將one-hot編碼改為核苷酸二聯(lián)體編碼。

我們提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)、PCA-PseKNC和PseKNC的特征融合編碼方法。圖1給出了如何獲得序列特征的流程圖。利用卷積神經(jīng)網(wǎng)絡(luò)從One-hot和PseKNC融合后的特征編碼中提取重要特征。其主要思想是通過使用卷積和池化層來實(shí)現(xiàn)數(shù)據(jù)特征的自學(xué)習(xí)，以及降低特征的維數(shù)。

基于網(wǎng)格搜索算法，選擇各層CNN模型的超參數(shù)配置。網(wǎng)格搜索算法是一種超參數(shù)優(yōu)化算法，通過它可以從超參數(shù)空間的手動(dòng)定義子集中選擇最佳的超參數(shù)組合。調(diào)諧的超參數(shù)是卷積和稠密層后的丟失概率、卷積層的數(shù)量、濾波器的數(shù)量、濾波器的大小、最大池化層。表1給出了第一層和第二層啟動(dòng)子和啟動(dòng)子強(qiáng)度識(shí)別中使用的CNN模型的詳細(xì)配置。

式（4）表示卷積運(yùn)算“Conv1D”其中D表示DNA序列的輸入，f表示核的指數(shù)，j表示輸出位置的指數(shù)。卷積的每個(gè)濾波器W f由一個(gè)權(quán)重矩陣S×N表示，其中S是濾波器尺寸，N是輸入通道的數(shù)量。密集層如式（5）所示，其中xi是1×d維特征向量，wi是前一層xi的權(quán)重，wd+1是一個(gè)加性偏差項(xiàng)。式（6）包含密集層的脫落操作，其中mi是從概率為α的貝努利分布中取樣的。為了避免網(wǎng)絡(luò)過擬合，應(yīng)用了Dropout正則化，ReLU是一個(gè)激活函數(shù)，它表示校正的線性函數(shù)，并在數(shù)學(xué)上用式（7）表示。式（8）中表示的sigmoid，用于預(yù)測所提供的序列是啟動(dòng)子還是非啟動(dòng)子。該層的輸出通過一個(gè)sigmoid函數(shù)縮放到[0，1]，其中x是這些函數(shù)的輸入。

在這項(xiàng)研究中，使用CNN模型去提取一個(gè)新的特征，然后再將這組特征與PCA_PseKNC特征融合從而獲得一個(gè)新的特征編碼，最后將輸出特征編碼展平以獲得最終的特征編碼。對每個(gè)序列形成的二維矩陣進(jìn)行擴(kuò)展，得到最終的880維特征編碼。樣本序列D可以表示為：

1.3? 預(yù)測模型

本研究使用XGBoost作為構(gòu)建預(yù)測器的分類算法，故將預(yù)測器命名為iPSI（2L）-XGBoost，該計(jì)算模型中的一些參數(shù)如表2所示。在預(yù)測過程中，使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法，以區(qū)分第一層中的啟動(dòng)子或非啟動(dòng)子，而第二層對啟動(dòng)子進(jìn)行了強(qiáng)啟動(dòng)子或弱啟動(dòng)子的預(yù)測。

1.4? 評價(jià)指標(biāo)

為了評估由上述深度學(xué)習(xí)框架構(gòu)建的分類器的性能，進(jìn)行了5倍交叉驗(yàn)證實(shí)驗(yàn)。確定五個(gè)測試集之間的平均度量，以便在構(gòu)建分類器時(shí)比較性能。我們遵循周氏的評估標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)廣泛應(yīng)用于許多生物信息學(xué)研究[6，11-14]。標(biāo)準(zhǔn)包括準(zhǔn)確性（Acc）、靈敏度（Sn）、特異性（Sp）和馬修斯相關(guān)系數(shù)（MCC），定義為：

其中N +是所調(diào)查的陽性樣本或啟動(dòng)子的總數(shù)；N -是調(diào)查的陰性樣品或非啟動(dòng)子的總數(shù)；是錯(cuò)誤地預(yù)測為啟動(dòng)子的非啟動(dòng)子的數(shù)量以及? 是錯(cuò)誤地預(yù)測為非啟動(dòng)子的啟動(dòng)子樣本的數(shù)量。同樣，我們還使用接收器工作特性（ROC）曲線下的面積AUC[15]作為性能評估的附加指標(biāo)。AUC是一個(gè)介于0到1之間的概率值，其中較大的AUC表示更好的預(yù)測性能。

2? 結(jié)果和討論

K折疊交叉驗(yàn)證應(yīng)用非常廣泛，非常適合于大型數(shù)據(jù)集，因?yàn)樗梢詼p少計(jì)算時(shí)間。用于預(yù)測啟動(dòng)子強(qiáng)弱類型的現(xiàn)有預(yù)測器均基于5倍交叉驗(yàn)證進(jìn)行了性能檢查。為了與現(xiàn)有模型進(jìn)行比較，我們也使用了5倍交叉驗(yàn)證方法，并用五個(gè)指標(biāo)評估了預(yù)測器的性能：靈敏度（Sn）、特異性（Sp）、準(zhǔn)確度（Acc）、馬修相關(guān)系數(shù)（MCC）和ROC曲線下面積（AUC）。就鑒定是否為啟動(dòng)子而言，iPSI（2L）-XGBoost獲得的Sn、Sp、Acc、MCC和AUC分別為87.29%、88.68%、86.79%、0.755 8和0.952；對于啟動(dòng)子的預(yù)測強(qiáng)度，Sn、Sp、Acc、MCC和AUC分別為73.57%、81.27%、78.64%、0.547和0.836 2。

為了進(jìn)一步證明iPSI（2L）-XGBoost預(yù)測器的功效，將其與現(xiàn)有預(yù)測器進(jìn)行了比較，表3顯示了iPSI（2L）-XGBoost和其他預(yù)測器之間的性能比較，本研究中提出的預(yù)測器優(yōu)于其他預(yù)測器。在同一數(shù)據(jù)集上，iPSI（2L）-XGBoost在兩個(gè)任務(wù)中都優(yōu)于iPSW（2L）-PseKNC。在啟動(dòng)子識(shí)別任務(wù)中，與其他的最佳預(yù)測器Combination of N-grams[7]相比，iPSW（2L）-XGBoost的Acc提高了1.38%，MCC提高了4.68%。在啟動(dòng)子強(qiáng)度識(shí)別中，iPSI（2L）-XGBoost分別使Acc和MCC提高了5.54%和6.7%。此外，Sp、Sn和AUC都有不同程度的提升。所以該預(yù)測器可以有效提高識(shí)別原核啟動(dòng)子及其強(qiáng)弱類型的性能。

3? 結(jié)? 論

本文引入了一種高效、智能的計(jì)算模型iPSI（2L）-XGBoost，通過使用深度學(xué)習(xí)方法識(shí)別原核啟動(dòng)子及其類型。第一層用于識(shí)別原核啟動(dòng)子，第二層用于識(shí)別啟動(dòng)子是強(qiáng)啟動(dòng)子還是弱啟動(dòng)子。iPSI（2L）-XGBoost融合了One-hot、PCA-PseKNC和PseKNC三種編碼方法，并利用卷積神經(jīng)網(wǎng)絡(luò)從融合后的One-hot和PseKNC特征編碼中提取重要特征，XGBoost用作構(gòu)建預(yù)測器的分類算法。結(jié)果表明，與現(xiàn)有方法相比，所提出的智能計(jì)算模型的性能顯著。所提出的智能計(jì)算模型可以有效識(shí)別原核啟動(dòng)子和強(qiáng)、弱啟動(dòng)子類型，可能在藥物相關(guān)應(yīng)用和學(xué)術(shù)界具有一定使用價(jià)值。

參考文獻(xiàn)：

[1] SHAHMURADOV I A，RAZALI R M，BOUGOUFFA S，et al. bTSSfinder： a novel tool for the prediction of promoters in cyanobacteria and Escherichia coli [J].Bioinformatics，2017，33：334-340.

[2] LIU B，YANG F，HUANG D S，et al. iPromoter-2L： a two-layer predictor for identifying promoters and their types by multi-window-based PseKNC [J].Bioinformatics，2017，34（1）：33-40.

[3] ABEEL T，SAEYS Y，ROUZé P，et al. ProSOM：core promoter prediction based on unsupervised clustering of DNA physical profiles [J].Bioinformatics，2008，24（13）：24-31.

[4] MEYSMAN P，COLLADO-VIDES J，MORETT E，et al. Structural Properties of Prokaryotic Promoter Regions Correlate with Functional Features [J/OL].Plos One，2014[2022-10-03].https：//doi.org/10.1371/journal.pone.0088717.

[5] WOSTEN M M S M. Eubacterial sigma-factors [J].FEMS Microbiology Reviews，1998，22（3）：127-150.

[6] XIAO X，XU Z C，QIU W R，et al. iPSW（2L）-PseKNC：A two-layer predictor for identifying promoters and their strength by hybrid features via pseudo K-tuple nucleotide composition [J].Genomics，2019，111（6）：1785-1793.

[7] LE N Q K，YAPP E K Y，NAGASUNDARAM N，et al. Classifying Promoters by Interpreting the Hidden Information of DNA Sequences via Deep Learning and Combination of Continuous FastText N-Grams [J/OL].Frontiers in Bioengineering and Biotechnology，2019，7：[2022-10-03].https：//doi.org/10.3389/fbioe.2019.00305.

[8] TAYARA H，TAHIR M，CHONG K T，et al. Identification of prokaryotic promoters and their strength by integrating heterogeneous features [J].Genomics，2020，112（2）：1396-1403.

[9] SANTOS-ZAVALETA A，SALGADO H，GAMA-CASTRO S，et al. RegulonDB v 10.5： tackling challenges to unify classic and high throughput knowledge of gene regulation in E. coli K-12 [J].Nucleic Acids Research，2019，47（D1）：D212-D220.

[10] FU L M，NIU B F，ZHU Z W，et al. CD-HIT： accelerated for clustering the next-generation sequencing data [J].Bioinformatics，2012，28（23）：3150-3152.

[11] CHOU K C. Prediction of signal peptides using scaled window [J].Peptides，2001，22（12）：1973-1979.

[12] LE N Q K，YAPP E K Y，HO Q T，et al. iEnhancer-5Step： identifying enhancers using hidden informationof DNA sequences via Chou's 5-step rule and word embedding [J].Anal Biochem，2019，571：53-61.

[13] CHEN W，F(xiàn)ENG P M，LIN H，et al. Irspot-psednc： identify recombinationspots with pseudo dinucleotide composition [J/OL].Nucleic Acids Research，2013，41（6）：[2022-09-26].https：//doi.org/10.1093/nar/gks1450.

[14] XU Y，SHAO X J，WU L Y，et al. iSNO-AAPair：incorporating amino acid pairwise coupling into PseAAC for predicting cysteine S-nitrosylation sites in proteins [J/OL].Peer J，2013[2022-09-26].https：//www.ncbi.nlm.nih.gov/pmc/articles/PMC3792191/pdf/peerj-01-171.

[15] BRADLEY A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms [J].Pattern Recognit，1997，30（7）：1145-1159.

[16] LIN H，DENG E Z，DING H，et al. iPro54-PseKNC：a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition [J].Nucleic Acids Research，2014，42（21）：12961-12972.

[17] SILVA S D A E，F(xiàn)ORTE F，SARTOR I T S，et al. DNA duplex stability as discriminative characteristic for Escherichia coli σ54- and σ28- dependent promoter sequences [J].Biologicals，2014，42（1）：22-28.

[18] SONG K. Recognition of prokaryotic promoters based on a novel variable-window Z-curve method [J].Nucleic Acids Research，2012，40（3）：963-971.

[19] LI Q Z，LIN H. The recognition and prediction of σ70 promoters in escherichia colik-12 [J].Theoretical Biology，2006，242（1）：135-141.

作者簡介：胡仔豪（1999—），男，漢族，江西南昌人，碩士研究生在讀，研究方向：生物信息學(xué)、智能控制等。

現(xiàn)代信息科技2023年7期

現(xiàn)代信息科技的其它文章: 基于快速響應(yīng)碼的電廠設(shè)備管理及移動(dòng)端APP開發(fā); 軌道交通智慧車站智能導(dǎo)乘系統(tǒng)優(yōu)化研究; 基于R-Shiny的中文文本可視化系統(tǒng)設(shè)計(jì)研究; 基于“寫時(shí)復(fù)制”的培養(yǎng)方案管理系統(tǒng)邏輯鎖定方案設(shè)計(jì); 基于PHP+MySQL的在線相冊設(shè)計(jì)與實(shí)現(xiàn); 一種基于層疊指針網(wǎng)絡(luò)的實(shí)體關(guān)系抽取