999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的啟動(dòng)子及其類型識(shí)別的兩層預(yù)測器

2023-06-25 07:42:18胡仔豪
現(xiàn)代信息科技 2023年7期

摘? 要:啟動(dòng)子的分類已成為一個(gè)有趣的問題,并引起了生物信息學(xué)領(lǐng)域許多研究人員的關(guān)注。為解決這一問題,進(jìn)行了多種研究,但其性能結(jié)果仍需進(jìn)一步改進(jìn)。為此,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,引入了一種智能計(jì)算模型,即iPSI(2L)-XGBoost,用于區(qū)分啟動(dòng)子及其強(qiáng)弱。所提出的計(jì)算模型iPSI(2L)-XGBoost能夠在兩層中分別達(dá)到86.79%和78.64%的交叉驗(yàn)證精度,就所有評估指標(biāo)而言,擬議的iPSI(2L)-XGBoost模型比其他模型獲得了有效的成功率。因此,iPSI(2L)-XGBoost模型將為啟動(dòng)子鑒定的學(xué)術(shù)研究提供一個(gè)有用的工具。

關(guān)鍵詞:啟動(dòng)子;啟動(dòng)子識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);多特征融合;XGBoost

中圖分類號:TP39;TP18 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號:2096-4706(2023)07-0078-04

Abstract: The classification of promoters has become an interesting issue and has attracted the attention of many researchers in the field of bioinformatics. To solve this problem, various studies have been conducted, but their performance results still need to be further improved. Therefore, based on machine learning and deep learning algorithms, an intelligent computing model, iPSI(2L)-XGBoost, is introduced to distinguish promoters and their strengths. The proposed computing model iPSI(2L)-XGBoost can achieve cross validation accuracy of 86.79% and 78.64% in two layers, respectively. For all evaluation indicators, the proposed iPSI(2L)-XGBoost model achieves an effective success rate compared to other models. Therefore, the iPSI(2L)-XGBoost model will provide a useful tool for academic research on promoter identification.

Keywords: promoter; promoter recognition; Convolutional Neural Networks; Multi-feature fusion; XGBoost

0? 引? 言

DNA中的啟動(dòng)子是基因的重要組成部分,它調(diào)節(jié)特定細(xì)胞中特定基因的轉(zhuǎn)錄。與真核生物基因表達(dá)調(diào)控相比,原核生物基因表達(dá)調(diào)節(jié)是簡單的。在前一種情況下,兩個(gè)調(diào)節(jié)過程,即轉(zhuǎn)錄和翻譯同時(shí)發(fā)生,而在后一種情況中,基因表達(dá)調(diào)節(jié)是一種更復(fù)雜的現(xiàn)象,因?yàn)樽畛醯腄NA合成發(fā)生在轉(zhuǎn)錄和翻譯之后。更重要的是,在原核生物中,大多數(shù)基因都由一個(gè)操縱子控制,操縱子將大多數(shù)基因作為一個(gè)表達(dá)簇進(jìn)行調(diào)控和轉(zhuǎn)錄。染色體上的特定區(qū)域決定了特定轉(zhuǎn)錄物的命運(yùn),是否或如何啟動(dòng)轉(zhuǎn)錄。這些序列被稱為啟動(dòng)子,對基因表達(dá)調(diào)控和控制特定途徑至關(guān)重要,其位于轉(zhuǎn)錄起始位點(diǎn)(TSS)附近。RNA聚合酶(RNAP)和各種稱為“σ-因子”的蛋白質(zhì)的組合可以通過誘導(dǎo)RNA全酶來確定TSS[1],因此,σ-因子可以用于識(shí)別原核啟動(dòng)子區(qū)域。根據(jù)σ-因子(例如,大腸桿菌中的σ70、σ54、σ38、σ32、σ28和σ24)[2]及其轉(zhuǎn)錄激活和表達(dá)水平的強(qiáng)度不同,啟動(dòng)子區(qū)域結(jié)構(gòu)譜中的模式可分為幾類[3,4]。原核生物中只有一種RNA聚合酶(RNAP)可以轉(zhuǎn)錄其基因,但有多種σ因子[5]。啟動(dòng)子也可分為強(qiáng)啟動(dòng)子和弱啟動(dòng)子,強(qiáng)啟動(dòng)子可提高轉(zhuǎn)錄頻率和外源基因表達(dá)水平。據(jù)我們所知,iPSW(2L)-PseKNC[6]是識(shí)別啟動(dòng)子強(qiáng)弱的第一個(gè)預(yù)測器,DNA序列是由偽K核苷酸組成(PseKNC)融合核苷酸密度和這些物理化學(xué)性質(zhì)形成的,使用支持向量機(jī)進(jìn)行預(yù)測。最近,為了確定啟動(dòng)子及其強(qiáng)弱,已經(jīng)做出了許多努力。Le等人使用語言模型提取DNA序列的特征,然后將其輸入卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行分類,發(fā)現(xiàn)FastText在這個(gè)問題上比Glove或Word2Vector取得了更好的性能[7]。Tayara等人提出了iPSW(PseDNC-DL)模型,該模型結(jié)合了從卷積層和PseDNC中提取的特征[8]。這里,我們使用新構(gòu)建的特征提取方法,即One-hot、PCA-PseKNC和PseKNC三種編碼方法融合后再利用XGBoost分類算法進(jìn)行預(yù)測分類,得到一個(gè)新的兩層預(yù)測器iPSI(2L)-XGBoost,以提高識(shí)別啟動(dòng)子及其強(qiáng)度類型的預(yù)測能力。

1? 材料與方法

1.1? 基準(zhǔn)數(shù)據(jù)集

收集高質(zhì)量數(shù)據(jù)集是解決生物信息學(xué)問題的最重要步驟之一,現(xiàn)用于預(yù)測啟動(dòng)子強(qiáng)弱類型的數(shù)據(jù)集均是基于Xiao[6]等人提出的數(shù)據(jù)集。為了客觀評估我們的模型與其他現(xiàn)有模型之間的性能差異,我們也使用了iPSW(2L)-PseKNC[6]模型構(gòu)建的基準(zhǔn)數(shù)據(jù)集,并將其命名為數(shù)據(jù)集Ⅰ。在這個(gè)數(shù)據(jù)集中,他們從RegulonDB[9]收集了所有實(shí)驗(yàn)證實(shí)的啟動(dòng)子序列,這是基因表達(dá)調(diào)控網(wǎng)絡(luò)的巨大數(shù)據(jù)庫。這些序列根據(jù)其轉(zhuǎn)錄激活和表達(dá)水平分為兩類:強(qiáng)啟動(dòng)子和弱啟動(dòng)子。他們還通過考慮內(nèi)含子、外顯子和基因間序列(不包括陽性序列)來提取非啟動(dòng)子序列。之后,CD-HIT[10]也被用來排除相似度超過85%的成對序列。數(shù)據(jù)集Ⅰ包括3 382個(gè)啟動(dòng)子樣本和3 382個(gè)非啟動(dòng)子樣本。在3 382個(gè)啟動(dòng)子樣本中,有1 591個(gè)強(qiáng)啟動(dòng)子樣本和1 792個(gè)弱啟動(dòng)子樣本用于構(gòu)建二級分類。

1.2? 特征提取

對于數(shù)據(jù)集中給定的DNA序列樣本,可以表示為:

DNA由四種不同類型的核苷酸組成:A、C、G和T,其中A是腺嘌呤,C是胞嘧啶,G是鳥嘌呤,T是胸腺嘧啶。在One hot編碼中,A編碼為(1,0,0,0),C編碼為(0,1,0,0),G編碼為(0,0,1,0),T編碼為(0,0,0,1)。偽K元組核苷酸合成(PseKNC)是一種結(jié)合核苷酸的物理化學(xué)性質(zhì)和頻率密度的編碼方法。每個(gè)核苷酸都有不同的物理化學(xué)性質(zhì),例如化學(xué)結(jié)構(gòu)、內(nèi)部結(jié)合特征以及根據(jù)互補(bǔ)堿基配對原理,都可以分成不同的類別。

根據(jù)不同的物理化學(xué)性質(zhì),四個(gè)核苷酸可以用不同的編碼表示,在PseKNC特征編碼中,第i個(gè)核苷酸可以編碼為(xi, yi, zi, pi),其中第i個(gè)核苷酸分別為A、C、G、T時(shí)其理化性質(zhì)編碼為(1,1,1),(0,1,0),(1,0,0)和(0,0,1)。

在本研究中,我們構(gòu)建了一種新的編碼方法,稱為PCA-PseKNC。PCA-PseKNC的構(gòu)建原理與PseKNC相同,只是將one-hot編碼改為核苷酸二聯(lián)體編碼。

我們提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)、PCA-PseKNC和PseKNC的特征融合編碼方法。圖1給出了如何獲得序列特征的流程圖。利用卷積神經(jīng)網(wǎng)絡(luò)從One-hot和PseKNC融合后的特征編碼中提取重要特征。其主要思想是通過使用卷積和池化層來實(shí)現(xiàn)數(shù)據(jù)特征的自學(xué)習(xí),以及降低特征的維數(shù)。

基于網(wǎng)格搜索算法,選擇各層CNN模型的超參數(shù)配置。網(wǎng)格搜索算法是一種超參數(shù)優(yōu)化算法,通過它可以從超參數(shù)空間的手動(dòng)定義子集中選擇最佳的超參數(shù)組合。調(diào)諧的超參數(shù)是卷積和稠密層后的丟失概率、卷積層的數(shù)量、濾波器的數(shù)量、濾波器的大小、最大池化層。表1給出了第一層和第二層啟動(dòng)子和啟動(dòng)子強(qiáng)度識(shí)別中使用的CNN模型的詳細(xì)配置。

式(4)表示卷積運(yùn)算“Conv1D”其中D表示DNA序列的輸入,f表示核的指數(shù),j表示輸出位置的指數(shù)。卷積的每個(gè)濾波器W f由一個(gè)權(quán)重矩陣S×N表示,其中S是濾波器尺寸,N是輸入通道的數(shù)量。密集層如式(5)所示,其中xi是1×d維特征向量,wi是前一層xi的權(quán)重,wd+1是一個(gè)加性偏差項(xiàng)。式(6)包含密集層的脫落操作,其中mi是從概率為α的貝努利分布中取樣的。為了避免網(wǎng)絡(luò)過擬合,應(yīng)用了Dropout正則化,ReLU是一個(gè)激活函數(shù),它表示校正的線性函數(shù),并在數(shù)學(xué)上用式(7)表示。式(8)中表示的sigmoid,用于預(yù)測所提供的序列是啟動(dòng)子還是非啟動(dòng)子。該層的輸出通過一個(gè)sigmoid函數(shù)縮放到[0,1],其中x是這些函數(shù)的輸入。

在這項(xiàng)研究中,使用CNN模型去提取一個(gè)新的特征,然后再將這組特征與PCA_PseKNC特征融合從而獲得一個(gè)新的特征編碼,最后將輸出特征編碼展平以獲得最終的特征編碼。對每個(gè)序列形成的二維矩陣進(jìn)行擴(kuò)展,得到最終的880維特征編碼。樣本序列D可以表示為:

1.3? 預(yù)測模型

本研究使用XGBoost作為構(gòu)建預(yù)測器的分類算法,故將預(yù)測器命名為iPSI(2L)-XGBoost,該計(jì)算模型中的一些參數(shù)如表2所示。在預(yù)測過程中,使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,以區(qū)分第一層中的啟動(dòng)子或非啟動(dòng)子,而第二層對啟動(dòng)子進(jìn)行了強(qiáng)啟動(dòng)子或弱啟動(dòng)子的預(yù)測。

1.4? 評價(jià)指標(biāo)

為了評估由上述深度學(xué)習(xí)框架構(gòu)建的分類器的性能,進(jìn)行了5倍交叉驗(yàn)證實(shí)驗(yàn)。確定五個(gè)測試集之間的平均度量,以便在構(gòu)建分類器時(shí)比較性能。我們遵循周氏的評估標(biāo)準(zhǔn),該標(biāo)準(zhǔn)廣泛應(yīng)用于許多生物信息學(xué)研究[6,11-14]。標(biāo)準(zhǔn)包括準(zhǔn)確性(Acc)、靈敏度(Sn)、特異性(Sp)和馬修斯相關(guān)系數(shù)(MCC),定義為:

其中N +是所調(diào)查的陽性樣本或啟動(dòng)子的總數(shù);N -是調(diào)查的陰性樣品或非啟動(dòng)子的總數(shù); 是錯(cuò)誤地預(yù)測為啟動(dòng)子的非啟動(dòng)子的數(shù)量以及? 是錯(cuò)誤地預(yù)測為非啟動(dòng)子的啟動(dòng)子樣本的數(shù)量。同樣,我們還使用接收器工作特性(ROC)曲線下的面積AUC[15]作為性能評估的附加指標(biāo)。AUC是一個(gè)介于0到1之間的概率值,其中較大的AUC表示更好的預(yù)測性能。

2? 結(jié)果和討論

K折疊交叉驗(yàn)證應(yīng)用非常廣泛,非常適合于大型數(shù)據(jù)集,因?yàn)樗梢詼p少計(jì)算時(shí)間。用于預(yù)測啟動(dòng)子強(qiáng)弱類型的現(xiàn)有預(yù)測器均基于5倍交叉驗(yàn)證進(jìn)行了性能檢查。為了與現(xiàn)有模型進(jìn)行比較,我們也使用了5倍交叉驗(yàn)證方法,并用五個(gè)指標(biāo)評估了預(yù)測器的性能:靈敏度(Sn)、特異性(Sp)、準(zhǔn)確度(Acc)、馬修相關(guān)系數(shù)(MCC)和ROC曲線下面積(AUC)。就鑒定是否為啟動(dòng)子而言,iPSI(2L)-XGBoost獲得的Sn、Sp、Acc、MCC和AUC分別為87.29%、88.68%、86.79%、0.755 8和0.952;對于啟動(dòng)子的預(yù)測強(qiáng)度,Sn、Sp、Acc、MCC和AUC分別為73.57%、81.27%、78.64%、0.547和0.836 2。

為了進(jìn)一步證明iPSI(2L)-XGBoost預(yù)測器的功效,將其與現(xiàn)有預(yù)測器進(jìn)行了比較,表3顯示了iPSI(2L)-XGBoost和其他預(yù)測器之間的性能比較,本研究中提出的預(yù)測器優(yōu)于其他預(yù)測器。在同一數(shù)據(jù)集上,iPSI(2L)-XGBoost在兩個(gè)任務(wù)中都優(yōu)于iPSW(2L)-PseKNC。在啟動(dòng)子識(shí)別任務(wù)中,與其他的最佳預(yù)測器Combination of N-grams[7]相比,iPSW(2L)-XGBoost的Acc提高了1.38%,MCC提高了4.68%。在啟動(dòng)子強(qiáng)度識(shí)別中,iPSI(2L)-XGBoost分別使Acc和MCC提高了5.54%和6.7%。此外,Sp、Sn和AUC都有不同程度的提升。所以該預(yù)測器可以有效提高識(shí)別原核啟動(dòng)子及其強(qiáng)弱類型的性能。

3? 結(jié)? 論

本文引入了一種高效、智能的計(jì)算模型iPSI(2L)-XGBoost,通過使用深度學(xué)習(xí)方法識(shí)別原核啟動(dòng)子及其類型。第一層用于識(shí)別原核啟動(dòng)子,第二層用于識(shí)別啟動(dòng)子是強(qiáng)啟動(dòng)子還是弱啟動(dòng)子。iPSI(2L)-XGBoost融合了One-hot、PCA-PseKNC和PseKNC三種編碼方法,并利用卷積神經(jīng)網(wǎng)絡(luò)從融合后的One-hot和PseKNC特征編碼中提取重要特征,XGBoost用作構(gòu)建預(yù)測器的分類算法。結(jié)果表明,與現(xiàn)有方法相比,所提出的智能計(jì)算模型的性能顯著。所提出的智能計(jì)算模型可以有效識(shí)別原核啟動(dòng)子和強(qiáng)、弱啟動(dòng)子類型,可能在藥物相關(guān)應(yīng)用和學(xué)術(shù)界具有一定使用價(jià)值。

參考文獻(xiàn):

[1] SHAHMURADOV I A,RAZALI R M,BOUGOUFFA S,et al. bTSSfinder: a novel tool for the prediction of promoters in cyanobacteria and Escherichia coli [J].Bioinformatics,2017,33:334-340.

[2] LIU B,YANG F,HUANG D S,et al. iPromoter-2L: a two-layer predictor for identifying promoters and their types by multi-window-based PseKNC [J].Bioinformatics,2017,34(1):33-40.

[3] ABEEL T,SAEYS Y,ROUZé P,et al. ProSOM:core promoter prediction based on unsupervised clustering of DNA physical profiles [J].Bioinformatics,2008,24(13):24-31.

[4] MEYSMAN P,COLLADO-VIDES J,MORETT E,et al. Structural Properties of Prokaryotic Promoter Regions Correlate with Functional Features [J/OL].Plos One,2014[2022-10-03].https://doi.org/10.1371/journal.pone.0088717.

[5] WOSTEN M M S M. Eubacterial sigma-factors [J].FEMS Microbiology Reviews,1998,22(3):127-150.

[6] XIAO X,XU Z C,QIU W R,et al. iPSW(2L)-PseKNC:A two-layer predictor for identifying promoters and their strength by hybrid features via pseudo K-tuple nucleotide composition [J].Genomics,2019,111(6):1785-1793.

[7] LE N Q K,YAPP E K Y,NAGASUNDARAM N,et al. Classifying Promoters by Interpreting the Hidden Information of DNA Sequences via Deep Learning and Combination of Continuous FastText N-Grams [J/OL].Frontiers in Bioengineering and Biotechnology,2019,7:[2022-10-03].https://doi.org/10.3389/fbioe.2019.00305.

[8] TAYARA H,TAHIR M,CHONG K T,et al. Identification of prokaryotic promoters and their strength by integrating heterogeneous features [J].Genomics,2020,112(2):1396-1403.

[9] SANTOS-ZAVALETA A,SALGADO H,GAMA-CASTRO S,et al. RegulonDB v 10.5: tackling challenges to unify classic and high throughput knowledge of gene regulation in E. coli K-12 [J].Nucleic Acids Research,2019,47(D1):D212-D220.

[10] FU L M,NIU B F,ZHU Z W,et al. CD-HIT: accelerated for clustering the next-generation sequencing data [J].Bioinformatics,2012,28(23):3150-3152.

[11] CHOU K C. Prediction of signal peptides using scaled window [J].Peptides,2001,22(12):1973-1979.

[12] LE N Q K,YAPP E K Y,HO Q T,et al. iEnhancer-5Step: identifying enhancers using hidden informationof DNA sequences via Chou's 5-step rule and word embedding [J].Anal Biochem,2019,571:53-61.

[13] CHEN W,F(xiàn)ENG P M,LIN H,et al. Irspot-psednc: identify recombinationspots with pseudo dinucleotide composition [J/OL].Nucleic Acids Research,2013,41(6):[2022-09-26].https://doi.org/10.1093/nar/gks1450.

[14] XU Y,SHAO X J,WU L Y,et al. iSNO-AAPair:incorporating amino acid pairwise coupling into PseAAC for predicting cysteine S-nitrosylation sites in proteins [J/OL].Peer J,2013[2022-09-26].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3792191/pdf/peerj-01-171.

[15] BRADLEY A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms [J].Pattern Recognit,1997,30(7):1145-1159.

[16] LIN H,DENG E Z,DING H,et al. iPro54-PseKNC:a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition [J].Nucleic Acids Research,2014,42(21):12961-12972.

[17] SILVA S D A E,F(xiàn)ORTE F,SARTOR I T S,et al. DNA duplex stability as discriminative characteristic for Escherichia coli σ54- and σ28- dependent promoter sequences [J].Biologicals,2014,42(1):22-28.

[18] SONG K. Recognition of prokaryotic promoters based on a novel variable-window Z-curve method [J].Nucleic Acids Research,2012,40(3):963-971.

[19] LI Q Z,LIN H. The recognition and prediction of σ70 promoters in escherichia colik-12 [J].Theoretical Biology,2006,242(1):135-141.

作者簡介:胡仔豪(1999—),男,漢族,江西南昌人,碩士研究生在讀,研究方向:生物信息學(xué)、智能控制等。

主站蜘蛛池模板: 永久在线播放| 国产精品 欧美激情 在线播放| 国产精品爽爽va在线无码观看| 国产精品免费电影| 四虎精品黑人视频| 亚洲午夜综合网| 色综合综合网| 黄色网在线免费观看| 国产91在线|中文| 欧美日韩国产在线人| 国产成人久久综合777777麻豆| 国产91视频观看| 99在线视频免费| 国产激爽大片在线播放| 亚洲天堂啪啪| 亚洲一本大道在线| 福利片91| 国产成年女人特黄特色毛片免 | 日本一区二区三区精品AⅤ| 婷婷综合缴情亚洲五月伊| 国产精品免费福利久久播放| 亚洲日本中文字幕天堂网| 制服丝袜在线视频香蕉| 无码av免费不卡在线观看| 思思热精品在线8| 日韩成人免费网站| 美女扒开下面流白浆在线试听 | 亚洲欧美一区二区三区麻豆| 亚洲精品自在线拍| 午夜日本永久乱码免费播放片| 天天综合网色| 日韩精品欧美国产在线| 亚洲成网777777国产精品| 99热国产这里只有精品无卡顿"| 青青青国产在线播放| 99久久婷婷国产综合精| 人人艹人人爽| 国产精品九九视频| 国产激情在线视频| 国产黄色片在线看| 国产成人久久综合一区| 国产精品久久久久婷婷五月| 国产一级无码不卡视频| 五月婷婷导航| 中文字幕乱码中文乱码51精品| 中文字幕不卡免费高清视频| 国产精品hd在线播放| 色屁屁一区二区三区视频国产| 91丝袜乱伦| 免费又黄又爽又猛大片午夜| 亚洲色成人www在线观看| 亚洲日产2021三区在线| 亚洲色成人www在线观看| 国产乱人伦偷精品视频AAA| 欧美激情成人网| 亚洲国产成熟视频在线多多| 免费在线成人网| 人妻精品久久无码区| 免费在线成人网| 激情无码视频在线看| 国产精品视频导航| 伊人精品成人久久综合| 91视频日本| 日韩黄色精品| 一本一道波多野结衣av黑人在线| 无码精品国产dvd在线观看9久 | 国产黄色片在线看| 亚洲V日韩V无码一区二区| 国产18在线| 成人久久18免费网站| 九九九精品成人免费视频7| 亚洲第一黄片大全| 国产国产人免费视频成18| 午夜精品国产自在| 青青久久91| 喷潮白浆直流在线播放| 欧美国产日韩在线观看| 99久久无色码中文字幕| 国产成人亚洲日韩欧美电影| 亚洲成AV人手机在线观看网站| 亚洲va精品中文字幕| 国产一区二区三区精品久久呦|