999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遺傳算法酵母核小體定位性質預測

2019-07-05 09:43:24郭亞茹豐繼華于華崢黃月月
生物信息學 2019年2期
關鍵詞:性質區(qū)域實驗

郭亞茹, 豐繼華, 于華崢,牟 錦, 黃月月,劉 珂

(云南民族大學 電氣信息工程學院, 昆明 650504)

真核細胞內普遍存在著兩種定位性質不同的核小體:即定位良好和定位模糊的核小體。二者的區(qū)別在于,定位良好的核小體包裝DNA平均長度為147 bp左右,而定位模糊的核小體包裝DNA長度不定。盡管隨著生物實驗技術的進步和成本的下降,不同物種的核小體定位數(shù)據(jù)在不斷產生,但現(xiàn)階段完全依靠實驗方法檢測核小體定位性質還面臨著以下問題:(1)生物種類繁多,用實驗方法檢測所有生物的核小體位置是一項不可能完成的任務。(2)生物實驗需要大量的人力、物力和時間投入,其成本和時效性是一大制約因素。(3)雖然現(xiàn)階段實驗數(shù)據(jù)的規(guī)模和豐富程度給核小體相關研究提供了極大支持,但仍不能滿足部分研究人員希望即時獲得自身關注領域數(shù)據(jù)的現(xiàn)實要求。因此,在基因組研究的某些領域使用計算機建模并進行預測,是對生物實驗研究的有力補充,甚至是現(xiàn)階段一項不可替代的工作。

對于核小體定位性質(定位良好與定位模糊)一般是根據(jù)生物實驗數(shù)據(jù)進行研究的。Gan等人[1]于2014年首次從結構角度研究了核小體定位特征和模糊核小體性質,提出了一種基于連續(xù)小波變換(CWT)的核小體位置預測新方法(WaveNuc)。

研究表明,基因的轉起始位點周圍通常存在著一個保守的核小體缺失區(qū)域(NFR)[2-4],而在其上、下游區(qū)域的核小體則呈現(xiàn)出周期性排列[5-11]。我們根據(jù)現(xiàn)有核小體分布規(guī)律,對基因組轉錄起始位點周圍的核小體分布建立了一個高精度復合正弦模型,并在前人所做的核小體位置預測工作基礎上[12],以該分布模型作為遺傳算法的尋優(yōu)目標函數(shù),以確定不同性質核小體分布中心及相鄰區(qū)域,最終實現(xiàn)對局部核小體定位性質的預測。

1 建立分布模型

在使用遺傳算法進行核小體定位性質預測之前,需要構建一個能真實反映核小體分布的數(shù)學模型。由于目前在核小體研究領域還未解決全基因組范圍內定位良好和定位模糊核小體的分布問題。面對這一難題,我們首先注意到一個普遍事實,即無論是單細胞的酵母,還是多細胞的果蠅,甚至是屬于高等哺乳動物的人類,其核小體在基因啟動子周圍的組織形式都是高度保守和近似的[13](見圖1)。

1.1 數(shù)據(jù)來源

酵母轉錄起始位點的核小體分布圖譜來源于Lee等人于2007年做出的酵母核小體高分辨率占位率實驗數(shù)據(jù)[20]。基因的轉錄起始位點據(jù)來源于David等人提出的4 792個高置信度轉錄數(shù)據(jù)[21]。

圖1 酵母轉錄起始位點的核小體分布圖譜Fig.1 Nucleosome distribution map of yeast transcription initiation site

1.2 擬合函數(shù)的選取

為了提取核小體組織形式,我們分別對多項式、傅里葉級數(shù)、高斯函數(shù)和正弦函數(shù)的擬合效果進行了比較。以上四種擬合方式實驗結果如圖2所示,其中(a)、(b)、(c)、(d)分別代表多項式擬合、傅里葉擬合、高斯擬合和正弦函數(shù)擬合。

圖2 四種擬合函數(shù)對比圖Fig 2 Comparison of four fitting functions

在圖2的擬合結果中,多項式擬合精度最低(圖2(a))。傅里葉擬合圖像與核小體分布圖像具有一定的相似性(圖2(b)),但是位于轉錄起始點下游的區(qū)域擬合未能捕獲原分布特征,即在遠離轉錄起始位點兩端的區(qū)域擬合程度較差。圖2(c)是高斯函數(shù)擬合的結果,在轉錄區(qū)域高斯函數(shù)擬合的相似性較高,但在轉錄起始位點上游區(qū)域擬合誤差最大。

圖2(d)使用的是正弦函數(shù)進行的擬合,擬合圖像幾乎與實測核小體分布圖譜完全重合,僅在上游區(qū)域遠離TSS的區(qū)域存在擬合誤差。

表1列出了五種擬合函數(shù)的性能指標。分別是:和方差(SSE)、擬合優(yōu)度(Rsquare)、標準差(Rmse)、自由度(Dfe)及校正決定系數(shù)(Adjrsquare)。其中,和方差和標準差越接近于0,說明擬合出的數(shù)據(jù)與原始分布數(shù)據(jù)越相似。

而擬合優(yōu)度與校正決定系數(shù)越接近于1時,擬合的效果越好。通過比較,可知使用正弦函數(shù)擬合的核小體分布圖效果最好。

本文采用的復合正弦函數(shù)為:

(1)

對上述擬合模型擬合后得到的最優(yōu)參數(shù)見表2。

表1 四種擬合函數(shù)性能指標(酵母)Table 1 Performance indicators of four fitting functions (Yeast)

表2 正弦擬合函數(shù)參數(shù)列表(酵母)Table 2 List of sine fitting function parameters (Yeast)

2 核小體性質預測

在前人所做的核小體位置預測的基礎上[12],我們利用遺傳算法尋找分布模型中的極值點,其代表兩種不同性質核小體的分布中心。

具體方法:(1)首先隨機產生200個個體作為初始種群,為了簡化計算,使用的是常規(guī)二進制編碼。(2)在遺傳算子的選擇上,交叉算子選用均勻交叉,變異算算子采用離散變異算法。我們測試后發(fā)現(xiàn)交叉概率選取區(qū)間為[0.7,0.9],變異率選取[0.001,0.1],遺傳算法無論在收斂速度上,還是精度上都達到了實驗預期。結果見表3和表4。

獲得表3和表4所示的分布中心后,我們將按以下假設判別個體基因上的核小體定位性質:

(1)轉錄起始位點周圍核小體分布譜的波峰中心及其鄰近區(qū)域,是定位良好核小體的最可能出現(xiàn)的范圍。如果支持向量機預測到核小體可能出現(xiàn)的區(qū)域與其重合,且連續(xù)范圍達到120-160 bp左右,可判別為定位良好的核小體。

(2)相反,如果核小體分布譜的波谷中心及其鄰近區(qū)域與核小體預測區(qū)域重合,且連續(xù)范圍大于160 bp,則可判斷為定位模糊的核小體。

表3 遺傳算法搜索到的波峰位置Table 3 Veak position searched by genetic algorithm

表4 遺傳算法搜索到的波谷位置Table 4 Valley location found by genetic algorithm

圖3是示意了在轉錄起始位點(TSS)上下游各取1 000 bp的區(qū)域,通過擬合函數(shù)辨識出定位良好核小體和模糊核小體的分布中心,其中黑色橢圓代表定位良好的核小體最可能出現(xiàn)的位置,藍色為定位模糊的核小體最可能出現(xiàn)的位置。從總體辨識結果觀察,定位良好核小體和模糊核小體在轉錄起始點周圍區(qū)域遵循著“間隔平均,交替出現(xiàn)”的規(guī)律。

圖3中,分布模型曲線中的藍色陰影區(qū)域表示核小體缺失區(qū)域(NFR),波峰對應定位良好的核小體,波谷對應定位模糊的核小體。

將單個基因上預測到可能存在核小體的區(qū)域與模板進行比對,當波峰區(qū)域與存在核小體區(qū)域重疊時,可以認為這一區(qū)域有較高概率出現(xiàn)定位良好的核小體;反之,當波谷區(qū)域與存在核小體區(qū)域重疊,那么表明這一區(qū)域有較高概率出現(xiàn)定位模糊的核小體;如果模板中無論是波峰還是波谷區(qū)域均不存在核小體時,那么可以認為這些區(qū)域是連接DNA。

圖3 轉錄起始位點周圍核小體預測示意圖Fig.3 Schematic diagram of nucleosome prediction around the transcription start site

根據(jù)上述方法,我們繪制了核小體定位性質預測示意圖(見圖4),圖中最上端是預測模板,(a)、(b)、(c)、(d)分別代表是第三條染色體上,隨機選取的4個基因(YCL027W、YCL040W、YCR054W和YCR066W)的轉錄區(qū)域,藍色區(qū)域是由支持向量機根據(jù)DNA物理性質預測到的核小體可能出現(xiàn)的區(qū)域。圖4中,通過擬合函數(shù)波峰與波谷周圍構成的預測模板,將基因劃分為不同的區(qū)域,如果預測到的核小體出現(xiàn)在波峰區(qū)域,且滿足判定條件,可判別為定位良好,而出現(xiàn)在波谷區(qū)域則判別為定位模糊。通過以上方法,可以對全基因組轉錄起始位點周圍的核小體預測結果進行定位性質判別。為了證明以上方法的正確性,我們將不同性質核小體區(qū)域與生物實驗數(shù)據(jù)做了比較,在此陽性樣本定義為預測區(qū)間內確實出現(xiàn)與該區(qū)間同性質的核小體,反之則為陰性樣本,并使用了以下統(tǒng)計指標[23]:真陽性(TP),假陽性(FP),真陰性(TN),假陰性(FN),

真樣本靈敏度:Sn+=TP/(TP+FN)

(2)

負樣本靈敏度:Sn-=TN/(TN+FP)

(3)

真樣本特異度:Sp+=TP/(TP+FP)

(4)

負樣本特異度:Sp-=TN/(TN+FN)

(5)

(6)

馬修斯相關系數(shù):

MCC=

(7)

預測的四種基因的性能指標如表5所示。

圖4 核小體預測性質定位示意圖Fig.4 Schematic diagram of nucleosome prediction properties

性能指標YCL027WYCL040WYCL040WYCR066WTP489489479480FP80918187TN205194204198FN69697978Sn+(%)87.687.685.886.0Sn-(%)71.968.071.569.4Sp+(%)85.984.385.584.6Sp-(%)74.873.772.071.7Ac(%)82.381.081.080.4MCC(%)60.256.957.556.0AUC(%)78.9975.3377.0276.12

實驗結果顯示陽性樣本所占比例即準確率(Ac)均以超過80%,說明此預測方法有效。圖5為ROC曲線。

由圖5看出四種基因的ROC曲線的得分均大于0.75,進一步說明預測結果具有統(tǒng)計意義,實現(xiàn)了核小體的性質判別,達到了預期的準確率和實驗目的。

圖5 四種基因的預測結果ROC曲線圖Fig.5 ROC graph of prediction results of four genes

3 結 語

根據(jù)轉錄起始位點核小體分布先驗知識,建立擬合函數(shù)后,利用遺傳算法搜索極值,確定出核小體定位性質劃分模板,可有效辨別出定位良好和模糊的核小體位置。通過結果分析,證明了我們的方法在局部區(qū)域是行之有效的,是對模糊核小體預測工作進行的一次有益嘗試。

猜你喜歡
性質區(qū)域實驗
記一次有趣的實驗
隨機變量的分布列性質的應用
完全平方數(shù)的性質及其應用
做個怪怪長實驗
九點圓的性質和應用
厲害了,我的性質
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關于四色猜想
分區(qū)域
主站蜘蛛池模板: 国产资源免费观看| 综合亚洲网| 在线无码av一区二区三区| 色哟哟色院91精品网站| 四虎影院国产| 波多野结衣中文字幕久久| 精品天海翼一区二区| 99久视频| 18禁高潮出水呻吟娇喘蜜芽 | 国产无码制服丝袜| 国产成人无码AV在线播放动漫 | 亚洲国产精品美女| 亚洲精品视频免费看| 色精品视频| 毛片三级在线观看| 国产精品久久久久久久久久久久| 色综合成人| 国产av一码二码三码无码| 国产成人a在线观看视频| 97青青青国产在线播放| 五月婷婷亚洲综合| 91精品综合| 狠狠亚洲婷婷综合色香| 精品久久久无码专区中文字幕| 欧美一级专区免费大片| 亚洲综合一区国产精品| 久久动漫精品| 中文精品久久久久国产网址| 四虎影视库国产精品一区| 中国黄色一级视频| 日韩欧美高清视频| 狠狠色丁香婷婷综合| 国产网站一区二区三区| 亚洲 日韩 激情 无码 中出| 亚洲中文字幕无码爆乳| 亚洲精品天堂在线观看| 99在线视频网站| 亚洲成a人片7777| 一级爱做片免费观看久久| 午夜福利免费视频| 亚洲av片在线免费观看| 国产三级毛片| 国产麻豆91网在线看| jizz国产视频| 国产Av无码精品色午夜| A级毛片高清免费视频就| 亚洲国产精品无码久久一线| av在线手机播放| 在线播放国产99re| 99精品视频九九精品| 亚洲色图欧美视频| 2022精品国偷自产免费观看| 伊人大杳蕉中文无码| 亚洲欧美成人综合| 欧美精品高清| 久久亚洲美女精品国产精品| 日韩无码黄色| 亚洲国产欧美目韩成人综合| 第九色区aⅴ天堂久久香| 欧美日韩福利| 青青青视频蜜桃一区二区| 亚洲欧洲综合| 中文字幕无码电影| 国产亚洲精品无码专| 91国内外精品自在线播放| 国产最新无码专区在线| 在线免费a视频| 91人妻在线视频| 亚洲黄色片免费看| 久青草免费在线视频| 亚洲天堂色色人体| 精品国产网站| 成人精品免费视频| 色综合热无码热国产| 亚洲国产一区在线观看| 欧美亚洲国产视频| jizz在线免费播放| 中文字幕 91| 人人澡人人爽欧美一区| 日韩美毛片| 福利在线不卡一区| 久久香蕉国产线看观看精品蕉|