999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的DNA復(fù)制起始位點識別研究

2024-01-01 00:00:00葉寒曉

摘"要:DNA復(fù)制發(fā)生在所有生物體內(nèi),是生物遺傳的基礎(chǔ),它是從單個原始的DNA分子生成兩個相同復(fù)制品的過程。為了深入了解這一重要的生物學(xué)過程并將它應(yīng)用于發(fā)展對抗遺傳病的新戰(zhàn)略,有必要對DNA復(fù)制的機制進行研究。在后基因組時代,隨著DNA序列數(shù)據(jù)的數(shù)量呈爆炸式的增長,急需發(fā)展高通量數(shù)據(jù)比對的工具,此工具能夠通過DNA序列數(shù)據(jù)即可識別DNA序列中的復(fù)制起始位點。文章中提出一個新型的預(yù)測器iROIPCM,將DNA序列樣本通過結(jié)合一系列自協(xié)方差和交叉協(xié)方差的物理化學(xué)屬性矩陣來表示,并使用支持向量機進行分類。經(jīng)過嚴(yán)格的交叉驗證,結(jié)果表明,所提出的預(yù)測器在敏感性、特異性、準(zhǔn)確性、穩(wěn)定性等指標(biāo)上都明顯優(yōu)于已有的預(yù)測器,能在一定程度上對相關(guān)研究有所助益。

關(guān)鍵詞:復(fù)制起始位點;物理化學(xué)屬性;支持向量機;交叉驗證

中圖分類號:Q523""""""文獻標(biāo)識碼:A"""""""文章編號:20959699(2024)03001806

基因組的復(fù)制對于任何細胞的繁殖都是必不可少的一步。盡管古細菌、細菌、真核生物的DNA復(fù)制過程不同,但它們復(fù)制機制的核心部分相同。基因組DNA合成的開始需要在復(fù)制機制可以加載的位點上,通過專門的引物使得蛋白質(zhì)與核酸進行精準(zhǔn)的相互作用。這類位點,定義為“復(fù)制起始位點”(Replication Origin,ORI),也被稱為“復(fù)制起點”(RO)。至今為止,經(jīng)驗證,原核生物的染色體上通常只有一個復(fù)制起始位點。對于小的DNA,如細菌質(zhì)粒和小病毒中的DNA,一個起始位點就足夠確保整個基因組中每個細胞周期的完整和適當(dāng)?shù)膹?fù)制。相反,真核生物的基因組中明顯含有更多的起始位點,從酵母基因組中的300~400個到人類基因組中的30 000~50 000個,自然會在多個位置形成復(fù)制叉[1],才能及時復(fù)制它們較大的線性染色體。因此,從根本上來說,獲取復(fù)制起始位點的信息對于深入了解細胞繁殖的過程至關(guān)重要[2]。

釀酒酵母被最早應(yīng)用于真核基因組復(fù)制起始位點的預(yù)測研究,在該領(lǐng)域的探索研究上,學(xué)者們已經(jīng)取得了相當(dāng)大的進展。基于相似性原理,Breier et al.[3]開發(fā)了一種預(yù)測酵母復(fù)制起始位點的算法。Chen et al.[4]提出將兩種DNA結(jié)構(gòu)特性相結(jié)合的方法,即DNA彎曲[5]和羥基自由基裂解強度[67]來預(yù)測釀酒酵母基因組中的復(fù)制起始位點。MarsolierKergoat et al.[8]則通過分析復(fù)制起始位點附近GC和TA的偏移來做同樣的預(yù)測。以偽核苷酸組成(pseKNC)的方法為基礎(chǔ)[9], Li et al.[10]開發(fā)了新算法對酵母的復(fù)制起始位點進行了識別。Wu et al.[11]開發(fā)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法來識別釀酒酵母中不同長度的復(fù)制起始位點。也有學(xué)者結(jié)合多種特征來識別復(fù)制起始位點,Dao et al.[12]將基于表觀基因組的特征、基于序列的特征和基于3D基因組的特征相結(jié)合以提高預(yù)測的準(zhǔn)確性。

上述方法各有其優(yōu)點,并對該領(lǐng)域的發(fā)展起到了促進作用。但它們在準(zhǔn)確性和實際應(yīng)用價值方面仍存在一定的局限性:(1)主流的功能區(qū)識別方法多是統(tǒng)計學(xué)習(xí)識別方法,在預(yù)測精度上還有進一步的提升空間;(2)大多數(shù)功能區(qū)識別算法對較短序列的識別效果較差,且在特征提取時對信息挖掘得不夠透徹。識別方法的實際應(yīng)用能力有待改善。

根據(jù)Chou提出的觀點[13],要建立一個真正有用的基于生物序列信息的預(yù)測器,應(yīng)該遵守以下規(guī)則來具體而清晰地制定研究方案:(1)如何構(gòu)建或選擇一個有效的基準(zhǔn)數(shù)據(jù)集來訓(xùn)練和測試預(yù)測器;(2)如何用一個能真實反映它們與目標(biāo)之間相關(guān)性的有效數(shù)學(xué)表達式來描述生物序列樣本;(3)如何通過有效的算法來進行預(yù)測;(4)如何正確地進行交叉驗證測試,客觀地評估預(yù)測的準(zhǔn)確度。

要構(gòu)建有效的預(yù)測器,需先提取生物信息的特征,而對DNA復(fù)制起始位點序列特征提取的關(guān)鍵,在于將序列中某些關(guān)鍵信息轉(zhuǎn)化為向量來表達。由于單核苷酸包含的特異性信息較少,為能更多地包含信息,采用二聯(lián)核苷酸(即二核苷酸)組成來替代單核苷酸,并通過“物理化學(xué)屬性矩陣”和“自協(xié)方差和交叉協(xié)方差變換”的方法得到DNA樣本的特征表達,結(jié)合機器學(xué)習(xí)算法構(gòu)建較高性能的預(yù)測器。精準(zhǔn)預(yù)測DNA復(fù)制起始位點對于進一步研究DNA功能和相關(guān)新藥的開發(fā)都具有重要意義。在文章的其他部分,將逐步構(gòu)建該預(yù)測器。

1"材料方法

1.1"基準(zhǔn)數(shù)據(jù)集

從OriDB[14]數(shù)據(jù)庫(http://www.oridb.org/)中收集了740個釀酒酵母的DNA序列。為了構(gòu)建一個覆蓋廣泛并較低同源性的基準(zhǔn)數(shù)據(jù)集,構(gòu)建過程嚴(yán)格按照以下程序。首先,剔除模棱兩可的數(shù)據(jù),例如備注“可能”“可疑”的序列,因為這些序列的可靠性不強。其次,整理獲得410個經(jīng)證實的長度為300 bp的復(fù)制起始位點DNA序列。然后,提取該410個樣本序列上游-600 bp到-300 bp段的序列,作為410個非復(fù)制起始位點的DNA序列樣本。為了減少冗余和同源性,使用CDHIT軟件[15]剔除了數(shù)據(jù)中相似度超過75%的序列。最后,得到了405個正樣本(即ORI)和406個負樣本(即非ORI)。

基準(zhǔn)數(shù)據(jù)集可用下式表達:

O=Ο+∪Ο- ,(1)

其中,正集Ο+包含405個ORI樣本,負集Ο-包含406個非ORI樣本,符號∪是集合的意思。

給定一個含L個核苷酸殘基的DNA樣本D,最直接的樣本表達方式見如下序列模型:

D=N1N2N3N4N5N6N7…NL ,(2)

其中,L為300,N1表示第一個位置上的核苷酸殘基,N2表示第二個位置上的核苷酸殘基,……,以此類推,NL表示第L個位置上的核苷酸殘基。盡管式(2)中包含DNA樣本的完整信息,但它很難直接應(yīng)用于統(tǒng)計預(yù)測。因為現(xiàn)有的學(xué)習(xí)器無法處理序列樣本,只能處理向量,如支持向量機、隨機森林等。因此,有必要構(gòu)建特征向量來表達DNA樣本。

1.2"物理化學(xué)屬性矩陣

為了開發(fā)一個高性能的預(yù)測器,關(guān)鍵前提是如何找到一個準(zhǔn)確的數(shù)學(xué)表達式去表達DNA樣本,且這個表達式必須能真實地反映預(yù)測結(jié)論與特征屬性間的內(nèi)在聯(lián)系。

ORI(或非ORI)樣本可表達為:

D=Ψ1Ψ2Ψ3…ΨΩT,(3)

其中,T是轉(zhuǎn)置運算符,Ω是整數(shù),反映向量的維數(shù)。Ω以及式(3)中ΨΩ的值取決于如何從DNA序列中提取到所需的信息。

由于每個樣本由300維的核苷酸組成,因此式(2)可表示為:

D=N1N2N3N4N5N6N7…N300 ,(4)

其中,Ni∈Aadenine,Ccytosine,Gguanine,Tthymine,(i=1,2,3,…,L),Ni表示DNA序列中的第i個核苷酸。

接著,用“物理化學(xué)屬性矩陣”和“自協(xié)方差和交叉協(xié)方差變換”的方法來表達式(2)中的DNA樣本序列。DNA中的每個二核苷酸都有許多物理化學(xué)屬性。因此,一個DNA序列能用一系列的物理化學(xué)屬性值進行編碼。

編碼過程中采用了以下12種物理化學(xué)屬性[16]:(1) HC1: Aphilicity; (2) HC2: base stacking; (3) HC3: BDNA twist ; (4) HC4: bendability ; (5) HC5: DNA bending stiffness ; (6) HC6: DNA denaturation ; (7) HC7: duplex disrupt energy ; (8) HC8: duplex free energy ; (9) HC9: propeller twist ;(10) HC10: protein deformation; (11) HC11: proteinDNA twist;

(12)HC12: ZDNA。每個二核苷酸12種屬性的初始值在表1中列出。

根據(jù)這12種物理化學(xué)屬性,式(3)中的DNA序列可以表示為一個12×L-1維的物理化學(xué)屬性矩陣:

D=HC1(N1N2)HC1(N2N3)…HC1(NL2NL1)HC2(N1N2)HC2(N2N3)…HC2(NL2NL1)HC12(N1N2)HC12(N2N3)…HC12(NL2NL1) (5)

其中,HCj(NiNi+1)是式(4)中二核苷酸NiNi+1的第j個 ( j=1, 2, …, 12 )物理化學(xué)屬性值。

在將這些物理化學(xué)屬性值轉(zhuǎn)化為式(5)前,表1中每個二核苷酸的12種物理化學(xué)屬性初始值都需要通過下式的轉(zhuǎn)換:

HCj(NiNi+1)=HCj(NiNi+1)-lt;HCjgt;SD(HCj)(6)

其中,lt; gt;意味著取16種原始二核苷酸中數(shù)量的平均值,SD則表示對應(yīng)的標(biāo)準(zhǔn)偏差。

表2列出了標(biāo)準(zhǔn)化后表1的值。

因此,長度為L的DNA序列可表示為12×L-1維的物理化學(xué)矩陣。

接著,利用兩種協(xié)方差將矩陣變換為一個固定長度的特征向量。根據(jù)自協(xié)方差,樣本中λ個二核苷酸分隔的兩個子序列之間物理化學(xué)屬性的關(guān)系可以表示為:

AC ( j, "λ ) = ∑L1λi=1 [HCj(NiNi+1) - HCj][HCj(NiNi+1+λ) - HCj](L-1 -λ)(j=1,2,…,12)(7)

其中,λ=(1, 2, …, L-1)和HCj表示式(5)中第i條水平線的平均值,表達式如下:

HCj=∑L-1i=1HCj(NiNi+1)L-1

據(jù)此,根據(jù)式(7),使用式(5)中物理化學(xué)屬性上的自協(xié)方差,獲得了12×λ個自協(xié)方差成分。根據(jù)自協(xié)方差,對于不同的物理化學(xué)屬性,兩個子序列之間的關(guān)系可表示為:

CC ( j1, j2, λ )=∑L1λi=1[HCj1(NiNi+1)-HCj1][HCj2(NiNi+1+λ)-HCj2]L-1-λ( j1=1,2,…,12; "j2=1,2,…,12; "j1≠j2 ) (8)

故共有12×11×λ個交叉協(xié)方差成分。

綜上,生成了12×λ+12×11×λ=144×λ維的特征向量。

經(jīng)過初步計算和分析,當(dāng)λ=4時,效果更好。因此,一個DNA序列可以表達為:

D=[d1, d2, …, dμ, …, d144×λ]T"=[d1, d2, …, d576]T(9)

該式得到的DNA樣本特征表達,將作為支持向量機(SVM)分類器的輸入數(shù)據(jù)。

2"新型預(yù)測器

新型預(yù)測器iROIPCM將上述特征提取方法和機器學(xué)習(xí)分類算法相結(jié)合。選取的數(shù)據(jù)集中正負樣本均衡,采用支持向量機(SVM)來執(zhí)行預(yù)測取得了較為理想的效果。支持向量機是一種流行的有監(jiān)督的機器學(xué)習(xí)算法,被廣泛用于生物信息學(xué)和化學(xué)統(tǒng)計學(xué),其基本原理是將輸入的向量轉(zhuǎn)化為一個高維的希爾伯特空間,然后在高維空間中找到一個能將待分類的點分開的“超平面”,并利用這些超平面,找到這兩類點之間的“最大間隔”。構(gòu)建預(yù)測器過程中采用的支持向量機(SVM)算法可自LIBSVM軟件包[17]中獲得,通過選擇合適的內(nèi)置參數(shù)來進行分類預(yù)測。

為了最大限度地提高支持向量機算法的性能,通過網(wǎng)格搜索對RBF核函數(shù)的兩個參數(shù)進行了初步優(yōu)化。得出,當(dāng)參數(shù)c = 3.031 4,g = 0.006 801 2 時,分類器效果最好,如圖1所示。

3"結(jié)果與討論

為了驗證該預(yù)測器的效果,還設(shè)計并進行了留一法交叉驗證實驗對預(yù)測器進行評估。采用敏感性(sensitivity,Sn)、特異性(specificity,Sp)、精確度(accuracy,Acc)、馬修斯相關(guān)系數(shù)(Mathew′s correlation coefficient,MCC)四個指標(biāo)綜合評判該預(yù)測器的性能。

Sn=TPTP+FNSp=TNTN+FPAcc=TP+TNTP+TN+FP+FNMcc=TP×TN-FP×FNTP+FN×TN+FN×TP+FP×TN+FP

其中,TP表示預(yù)測正確的正樣本數(shù)量;TN表示預(yù)測正確的負樣本數(shù)量;FP表示預(yù)測為正樣本的負樣本數(shù)量;FN表示預(yù)測為負樣本的正樣本數(shù)量。

如表3所示,與Bendability+cleavage intensity[4]的方法相比較,該方法在各項指數(shù)上都有明顯的提高,說明所開發(fā)的預(yù)測器是一個行之有效的工具。

參考文獻:

[1]Leonard A C, Mechali M. DNA Replication Origins[J].Cold Spring Harbor Perspectives in Biology,2013,5(10):a010116.

[2]Chengcheng S, Shaocun Z, He H. Choosing a suitable method for the identification of replication origins in microbial genomes[J].Frontiers in Microbiology,2015,6:1049.

[3]Breier A M, Chatterji S, Cozzarelli N R. Prediction of Saccharomyces cerevisiae replication origins[J].Genome biology,2004,5(04):R22.

[4]Chen W, Feng P, Lin H. Prediction of replication origins by calculating DNA structural properties[J].FEBS letters,2012,586(06):934938.

[5]Brukner I, Sanchez R, Suck D,et al. Sequencedependent bending propensity of DNA as revealed by DNase I: parameters for trinucleotides[J].EMBO JOURNAL,1995,14(08):18121812.

[6]Kang J H, Kim S M. DNA cleavage by hydroxyl radicals generated in the Cu,Znsuperoxide dismutase and hydrogen peroxide system[J].Molecules amp; Cells,1997,7(06):777.

[7]Bishop E P, Rohs R, Parker S C J, et al. A map of minor groove shape and electrostatic potential from hydroxyl radical cleavage patterns of DNA[J].Acs Chemical Biology,2015,6(12):1314.

[8]MarieClaude M K, Nieduszynski C A. Asymmetry Indices for Analysis and Prediction of Replication Origins in Eukaryotic Genomes[J].Plos One,2012,7(09):e45050.

[9]Xu Y, Wen X, Shao X J,et al. iHydPseAAC: Predicting Hydroxyproline and Hydroxylysine in Proteins by Incorporating Dipeptide PositionSpecific Propensity into Pseudo Amino Acid Composition[J].International Journal of Molecular Sciences,2014, 15(05):75947610.

[10]Li W C, Deng E Z, Ding H,et al. IORIPseKNC: A predictor for identifying origin of replication with pseudo ktuple nucleotide composition[J].Chemometrics and Intelligent Laboratory Systems,2015,141:100106.

[11]Wu F,Yang R,Chen J, et al. A Convolutional Neural NetworkBased Approach to Identify the Origins of Replication in Saccharomyces Cerevisiae[C]//Technical Committee on Control Theory, Chinese Association of Automation, Chinese Association of Automation, Systems Engineering Society of China.2020 39th Chinese Control Conference (CCC)(6).School of Mechanical, Electrical and Information Engineering, Shandong University,2020:110115.

[12]Dao F Y, Lv H, Fullwooid M J,et al. Accurate Identification of DNA Replication Origin by Fusing Epigenomics and Chromatin Interaction Information[J].Research,2023(01):455468.

[13]Chou K C. Some remarks on protein attribute prediction and pseudo amino acid composition[J].Journal of Theoretical Biology,2011,273(01):236247.

[14]Nieduszynski C A, Hiraga S I, Ak P,et al. OriDB: a DNA replication origin database[J].Nucleic Acids Research,2007,35:D40.

[15]Li W, Godzik A. Cdhit: a fast program for clustering and comparing large sets of protein or nucleotide sequences[J].Bioinformatics,2006(22):16581659.

[16]Wei C, Hao L, PengMian F,et al. iNucPhysChem: A SequenceBased Predictor for Identifying Nucleosomes via Physicochemical Properties[J].Plos One,2012,7(10):e47843.

[17]Chang C C, Lin C J. LIBSVM: A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(03):127.

責(zé)任編輯:肖祖銘

Research on the Identification of DNA Replication Origin Based on Machine Learning

YE Hanxiao1,2

(1. School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330032, China;

2. School of Statistics and Data Science, Jiangxi University of Finance and Economics, Nanchang 330013, China)

Abstract:DNA replication occurs in all organisms, is the basis of biological inheritance, which is the process of generating two identical copies from a single original DNA molecule. In order to have a thorough understanding of this important biological process and then apply it to the development of the new strategy against genetic disorders, it is necessary to study the mechanism of DNA replication. In the postgenomic era, with the explosive growth of DNA sequence data, there is an urgent need to develop highthroughput data alignment tool that can identify DNA replication origin purely based on the sequence information. In the paper, a new predictor called iROIPCM was proposed to represent the physicochemical attribute matrix of DNA sequence samples by combining a series of autocovariance and cross covariance, and the support vector machine is used for classification. Through strict cross validation, the results show that the proposed predictor is significantly better than the existing predictor in sensitivity, specificity, accuracy, and stability indexes, which can be helpful for relevant research to a certain extent.

Keywords: replication origin; physicochemical attribute; support vector machine (SVM); cross validation

主站蜘蛛池模板: 激情综合网址| 成人免费网站久久久| 久久五月天国产自| 日本精品影院| 国产sm重味一区二区三区| 久久中文字幕2021精品| 亚洲精品动漫| 色哟哟国产精品| 国产在线视频导航| 久久精品人妻中文视频| A级毛片无码久久精品免费| 丁香婷婷综合激情| 911亚洲精品| 精品中文字幕一区在线| 毛片三级在线观看| 精品少妇人妻av无码久久| 久久性妇女精品免费| 综合天天色| 日韩欧美91| аⅴ资源中文在线天堂| 久久国产黑丝袜视频| 无遮挡国产高潮视频免费观看| 国产经典在线观看一区| 亚洲第一色网站| 国产无遮挡猛进猛出免费软件| 日韩成人在线网站| 亚洲欧美成aⅴ人在线观看| 国产福利免费视频| 久久情精品国产品免费| 亚洲第一在线播放| 国产一线在线| 日韩成人午夜| 香蕉久久永久视频| 久久99国产综合精品1| 久草视频精品| 四虎永久在线| 青青草原国产| 亚洲中文字幕国产av| 色综合中文| 国产精品55夜色66夜色| 91亚洲免费| 青青热久麻豆精品视频在线观看| 99久久无色码中文字幕| 久久久精品国产亚洲AV日韩| 亚洲精品成人片在线播放| 亚洲熟女偷拍| 欧美日韩北条麻妃一区二区| 久久青青草原亚洲av无码| 久久熟女AV| 欧美三级日韩三级| 久久精品无码国产一区二区三区| 91精品国产自产91精品资源| 日本不卡在线| 婷婷色婷婷| 国产99视频精品免费视频7| 多人乱p欧美在线观看| 露脸国产精品自产在线播| 污污网站在线观看| 国产aⅴ无码专区亚洲av综合网| 婷婷色中文网| 亚洲成a人片7777| 乱人伦99久久| 欧美高清三区| 亚洲视频免费在线看| 日韩福利视频导航| 97久久人人超碰国产精品| 国产国模一区二区三区四区| 91青青视频| 国产精品自拍合集| 婷婷亚洲天堂| 91精品国产无线乱码在线| 手机在线免费不卡一区二| 久久天天躁狠狠躁夜夜躁| 夜夜高潮夜夜爽国产伦精品| 国产视频一区二区在线观看| 国产精品三级专区| 亚洲开心婷婷中文字幕| 台湾AV国片精品女同性| 国产无码网站在线观看| 在线观看亚洲精品福利片| 无码乱人伦一区二区亚洲一| 久久中文无码精品|