999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于小波變換的蛋白質與DNA相互作用的計算機預測

2010-10-16 07:23:04馮鐵男秦殿剛王翼飛
上海大學學報(自然科學版) 2010年3期
關鍵詞:模型

江 浩, 馮鐵男, 秦殿剛, 王翼飛

(上海大學 理學院,上海 200444)

基于小波變換的蛋白質與DNA相互作用的計算機預測

江 浩, 馮鐵男, 秦殿剛, 王翼飛

(上海大學 理學院,上海 200444)

蛋白質與DNA的相互作用在細胞的轉錄調控和DNA修飾等活動中至關重要.將改進的共鳴識別模型應用于預測酵母蛋白質與DNA的相互作用,運用小波變換找出陽性數據和隨機數據的信噪比分布的差異,并通過閾值的選取達到了較好的預測結果.同時,將陽性數據與相應復合物的序列進行序列聯配,找到了保守位點,進而從結合位點的角度驗證了本方法的正確性.

共鳴識別模型;離散小波變換;蛋白質與 DNA相互作用;信噪比

Abstract:Protein-DNA interactions are vital for many processes such as transcriptional regulation and DNA modification in living cells.This paper uses the modified resonant recognitions model to predict interactions between yeast proteins and DNA. The difference of distributions of signal-to-noise ratio(SNR)between the positive data and the random data are found using wavelet transform.Satisfactory results are obtained by choosing an appropriate threshold.

Key words:resonant recognition model;discrete wavelet transform;p rotein-DNA interaction;signal-tonoise ratio(SNR)蛋白質與 DNA的相互作用在基因的轉錄調控和DNA修飾等活動中扮演了關鍵角色,通過對蛋白質與 DNA相互作用的研究,可以進一步了解增殖和分化等生命活動的機理[1].E.W.Prohofsky通過固體物理學試驗得到了共鳴識別模型 (resonant recognitionsmodel,RRM)[2-3],將其作為研究蛋白質與DNA相互作用的一種方法,歸納出了產生相互作用的蛋白質和DNA具有相近特征頻率的結論,為從蛋白質和DNA的一級結構入手研究蛋白質與 DNA的相互作用提供了一種途徑.但是,共鳴識別模型在對任意給定的一對蛋白質和 DNA進行預測時效果非常不理想.引入小波變換后,改進的共鳴識別模型[4]由于小波變換的多分辨性質,使得我們可以在不同的頻率下分析相互作用的蛋白質對,從而較好地預測蛋白質對間是否相互作用[5].本研究將改進的共鳴識別模型運用于預測任意給定的蛋白質與DNA對是否相互作用.在進一步運用小波變換的多分辨性質后,我們克服了由于蛋白質和 DNA的序列長度差距太大所導致的交叉譜函數而不能準確找到共同頻率的難題,并舍去了判斷與特征頻率相對應的相位角,從而簡化了判別步驟,最終可以較好地從蛋白質和DNA的序列信息中提取出蛋白質與 DNA相互作用的信息.

1 材料與方法

1.1 數據的來源

本研究所采用的數據為酵母的蛋白質與 DNA相互作用的陽性數據對,數據來源為 EMBL-EBI(http://www.ebi.ac.uk),共 363對相互作用的蛋白質和 DNA,其中 283組數據作為訓練數據,另外 80組數據作為待預測數據.蛋白質與 DNA對已經在網站(http://staffa.wi.mit.edu/cgi-bin/young_public/navframe.cgi?s=17&f=downloaddata)中確定為相互作用的蛋白質與DNA對.

過度預測是所有算法都必須面對的問題[4],采取隨機序列來對檢測模型進行評估可以較好地防止過度預測[5].本研究采用符合均勻分布的隨機序列與陽性數據進行比對,即獨立等概率地在 4種堿基(或 20種氨基酸)中隨機生成一個堿基 (或氨基酸)殘基,經過多次循環之后得到一定長度的假想 DNA序列 (或蛋白質序列).假想生物分子的長度也是隨機產生,假想的隨機 DNA序列長度介于 500~5 000之間,而假想的隨機蛋白質序列長度介于 300~1 000之間.之所以這樣選取序列長度,是因為下載的陽性數據的長度大部分介于這兩組范圍之間.

1.2 共鳴識別模型與改進共鳴識別模型

共鳴識別模型 (RRM)是一個數學物理模型,它將生物大分子 (包括蛋白質和 DNA)的一級結構恰當地數值化,并采用了信號處理的技術,從而能夠直接對生物大分子間的相互作用等性質進行分析.例如,可以很好地預測蛋白酶與蛋白酶抑制劑等蛋白質的相互作用[6],甚至可以對蛋白質的二級結構進行預測[7].

改進的共鳴識別模型 (modified resonant recognition model,MRRM)是在共鳴識別模型的基礎上,將 IC值[9]替代 EIIP值,通過小波變換的多分辨功能及不同的頻率范圍內的信噪比來分析蛋白質序列,從而可以對蛋白質對間的相互作用進行直接判斷.

為了將改進共鳴識別模型用于預測蛋白質與DNA的相互作用,我們仍舊使用 EIIP值將陽性數據序列數值化,并采用雙正交小波 3.3進行離散小波變換.但是,由于蛋白質和 DNA的序列長度相差太大,如果僅作 3個層次的小波變換,則陽性數據與隨機數據間僅有 D3層上的數值信號存在較顯著的差異.由于長度為N的信號最多能分成 log2N層[10],而我們得到的陽性數據對的序列長度都至少超過了100,所以可以作 5層次的小波變換,即

式中,Ai代表第 i層低頻信號 (app roximation at level i),Di代表第 i層高頻信號 (detail at level i).這里僅取D3,D4,D5作為研究對象.

以下是用于預測蛋白質與 DNA相互作用的MRRM模型的算法步驟:

(1)將一條蛋白序列和一條 DNA序列分別賦EIIP值,得到兩個數值序列 P,D.

(2)對得到的數值序列分別進行 5個層次的離散小波變換,采用雙正交 3.3小波.將兩條序列由高頻到低頻分解為 5層,每一層都會產生屬于此層的高頻信號 Di和低頻信息 Ai,在這里僅保留第 3,4,5層的高頻信息,即 D3,D4,D5,共得到 6組數值信號

式中,i=1,2,…,Ns,k=D,D,D,s=Protein,

345DNA,Ns為序列 s的長度.

(3)對上述保留的各層數據序列作離散傅里葉變換,得到數據序列

式中,F為離散傅里葉變換函數,i=1,2,…,Ns/2,k=D3,D4,D5,s=Protein,DNA,Ns為序列 s的長度.

(4)對傅里葉系數分別進行標準化,

式中,i=1,2,…,Ns/2,k=D3,D4,D5,s=Protein,DNA,Ns為序列 s的長度.

(5)將得到的蛋白質各層的數值序列與對應的DNA各層數值序列作比較,將較長的序列截短至與較短序列的長度相同,令 N=min{Ns/2|s∈{Protein,DNA}},則得到的新序列為 Mi(k,s)=Ni(k,s),i=1,2,…,N.

(6)求交叉譜系數

在用MRRM方法得到的 Leu3與 YBR068C在 D3,D4,D5層的交叉譜圖像中 (見圖1),我們看到 D3,D4,D5層中都有較明顯的波峰,其中又以 D4層的波峰最為明顯.為了能更好地預測,我們還需要計算出相應的信噪比.

圖1 用M RRM方法得到的 L eu3與 YBR068C的交叉譜Fig.1 Cross-spectral function of L eu3 and YBR068C by M RRM

(7)計算信噪比

(8)計算出信噪比之后,對每一層分別選出閾值,使得隨機序列的信號值在閾值范圍內的陽性預測百分比不超過 10%的前提下,陽性數據的信號值在閾值范圍內的百分比達到最大.

在整個MRRM模型的計算流程中沒有大的循環體 (見圖2),因此,計算機運行時需要的時間非常少,這是MRRM模型的另一個優點.

2 結果與討論

下面從上述 363條陽性序列中選取 283條,分別進行分析訓練,從得到的結果 (見表1)中,我們可以清楚地看到,隨機數據組和酵母陽性數據對的信噪比在 D3,D4和D5層中的分布是有明顯差別的.

圖2 M RRM模型的計算流程圖Fig.2 Flowchar t of the com putation w ith M RRM m odels

表 1 相互作用蛋白質與 DNA在雙正交 3.3小波分解 5層后的D3,D4,D5層在信噪比下不同閾值的百分比Table 1 Percentage of the pa ir sof proteinsand DNA which are interactive decomposed into 5 by the b ior thogonal 3.3 wavelet in the term of the signal to noise in d ifferent thresholds

表 1中的百分數即為以信噪比為判別參數的陽性百分比,其中閾值的選擇按照在隨機序列陽性預測百分比不超過 10%的前提,使得陽性序列數據符合百分比最大的原則.

為了能更加直觀地考察蛋白質和 DNA對在信噪比下的分布情況,我們在圖3中給出了待預測蛋白質與 DNA對在雙正交 3.3小波分解 5層后 D3,D4,D5層的信噪比分布圖,其精確的結果在表 2中給出.

從表 1中我們注意到,雖然 D3層的結果是最好的,但是由圖3和表 2可以看出,D4層和 D5層的效果都好于D3層,所以我們不能僅僅依靠單獨某一層的信息來作判斷.為了得到更好的結果,我們要設定相互作用的蛋白質和 DNA對必須同時滿足以下 3個條件:①當 K=D3時,0

下面,我們對 DNA序列中與蛋白質相互作用的結合位點進行初步探索,從另一側面驗證我們的預測方法是有效的.以蛋白質 Leu3為例,在 PDB數據庫[11]中找出一個與 GCN4結合形成的復合物——2er8,復合物的 DNA鏈為 CCCGGTACCGGG.將這條DNA鏈與數據中的 YBR068C,YCL018W,YGL009C,YJR016C,YLR355C,YNL104C,YOR375C進行序列聯配[12],結果如圖4所示.可以清楚地看到,蛋白質與DNA復合物的DNA鏈中的第七個核苷酸——腺嘌呤核苷酸A具有高度的保守性.

從 PDB數據庫中找到的與 GCN4結合形成的另一個復合物為 2erg,復合物的 DNA鏈為TTGCCGGTACCGGCA.將這條 DNA鏈與數據中的YBR068C,YCL018W,YGL009C,YJR016C,YLR355C,YNL104C,YOR375C進行序列聯配,從聯配的結果 (見圖5)中可以清楚地看到,蛋白質與 DNA復合物中的DNA鏈中的第十一個核苷酸——胞嘧啶核苷酸 C和第十三個核苷酸——鳥嘌呤核苷酸 G具有高度的保守性.

以上論述都說明了預測結果中的 DNA序列中確實包含了能與蛋白質相互作用的保守結合位點,從而驗證了MRRM在預測蛋白質和 DNA相互作用中的有效性.

圖3 待預測蛋白質與 DNA對在雙正交 3.3小波分解 5層后D3,D4,D5層的信噪比分布圖Fig.3 D istr ibution sof the signal to noise of the pa ir sof proteins and DNA which are pred icted decomposed in to 5 by the b ior thogonal 3.3 wavelet

表 2 待預測蛋白質與 DNA對在雙正交 3.3小波分解 5層后的 D3,D4,D5層的信噪比在指定閾值下的百分比Table 2 Percentage of the pair sof proteinsand DNA which are pred icted decomposed into 5 by the bior thogonal 3.3 wavelet in the term of the signal to noise in designated thresholds

圖4 復合物 2er8中的 DNA鏈與 YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C進行序列聯配的結果Fig.4 Alignm ent results between the DNA chain of DNA bind ing domain 2er8 and YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C

3 結 束 語

MRRM無需考慮蛋白質和DNA的結構域信息,可直接從序列入手,在預測蛋白質與 DNA相互作用方面取得較好的結果.但是,如果要深入分析蛋白質和DNA相互作用的位點時,則必須要解決當序列長度小于50時,如何將信號強度放大的問題.如果這一難題得以攻克,那么MRRM在生物分子相互作用研究領域將有更大的貢獻.

圖5 復合物 2erg中的 DNA鏈與 YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C進行序列聯配的結果Fig.5 Alignment results between the DNA chain of DNA bind ing doma in 2erg and YBR068C,YCL 018W,YGL 009C,YJR016C,YL R355C,YNL 104C,YOR375C

[1] MOROZOV A V. Protein-DNA binding specificity p redictions with structural models[J].Nucleic Acids Research,2005,33:5781-5798.

[2] BARTEL PL,FIELDS S.Advances in molecular biology[M].New York:Oxford University Press,1997.

[3] IRENA C. The resonant recognition model of macromolecular bioactivity:theory and application[M].Basel:Birkhauser Verlag,1997:1-26.

[4] 劉翔.應用改進的共鳴識別模型預測蛋白質相互作用 [J].上海大學學報:自然科學版,2006,12(1):69-72.

[5] 馮鐵男.基于信噪比的蛋白質相互作用的預測 [J].上海大學學報:自然科學版,2008,14(6):604-610.

[6] COSIC I,FANG Q. Evaluation of different wavelet constructions(designs)for analysisof protein sequences[C]∥14th International Conference on Digital Signal Processing.2002:1117-1120.

[7] STAMBUK N,KONJEVODA P,POKRIC B,et al.Resonant recognition model defines the secondary structure of bioactive proteins[J].Croatica Chemica Acta,2002,75(4):899-908.

[8] LADIK J.All valence electron band structures of simple periodic protein models[J]. Int J Quantum Chemistry Quantum Biol Symp,2009,8(1):5-11.

[9] 飛思科技產品研發中心.MATLAB6.5輔助小波分析和應用[M].北京:電子工業出版社,2003:151-184.

[10] 冉啟文,譚立英.小波分析與傅立葉變換及應用[M].北京:國防工業出版社,2002:122-165.

[11] 萬躍華,何立民.網上生物信息學數據庫資源 [J].情報學報,2002,21:497-510.

[12] 王翼飛,史定華.生物信息學—智能算法及其應用[M].北京:化學工業出版社,2006:71-78.

(編輯:趙 宇 )

Com putational Pred iction of Protein-DNA Interaction Based on Wavelet Transform

JIANG Hao, FENG Tie-nan, QIN Dian-gang, WANG Yi-fei
(College of Sciences,Shanghai University,Shanghai200444,China)

Q 51

A

1007-2861(2010)03-0281-05

10.3969/j.issn.1007-2861.2010.03.013

2009-02-12

國家自然科學基金資助項目 (30871341);上海市重點學科建設資助項目 (S30104);上海市教委重點學科建設資助項目(J50101)

王翼飛 (1948~),男,教授,博士生導師,研究方向為計算分子生物學.E-mail:yifei_wang@staff.shu.edu.cn

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 色综合久久久久8天国| 欧美成人怡春院在线激情| 亚洲综合第一页| 99这里只有精品在线| 午夜精品久久久久久久无码软件 | 在线观看91精品国产剧情免费| 欧美一级黄片一区2区| 久久国产精品77777| 亚洲第一成年网| 美女扒开下面流白浆在线试听| 亚洲日本一本dvd高清| 午夜免费视频网站| 久久久成年黄色视频| 色婷婷色丁香| 鲁鲁鲁爽爽爽在线视频观看| 欧美一级高清片久久99| 成人福利一区二区视频在线| 在线观看欧美国产| 久久久国产精品免费视频| 国语少妇高潮| 亚洲成网777777国产精品| 国产91透明丝袜美腿在线| 国产在线拍偷自揄拍精品| 一级毛片在线直接观看| 操操操综合网| 国产在线一区视频| h视频在线播放| 亚洲国产精品日韩av专区| 国产伦精品一区二区三区视频优播| 无码中文字幕精品推荐| 69综合网| 99这里只有精品免费视频| 日韩福利在线观看| 久久99国产综合精品1| 91久久国产热精品免费| 国产在线观看成人91| 国产精品永久在线| 日韩精品一区二区三区大桥未久| 久久久久人妻一区精品色奶水| 亚洲综合亚洲国产尤物| 国产成人禁片在线观看| 国产精品午夜福利麻豆| 色综合激情网| 久久国产精品麻豆系列| 国产麻豆va精品视频| 国产欧美日韩综合在线第一| 99视频国产精品| 这里只有精品国产| 国产小视频免费观看| 亚洲国产精品一区二区第一页免| 欧美一级在线看| 欧美专区日韩专区| 婷婷午夜影院| 国产午夜无码片在线观看网站| h视频在线播放| 日韩天堂视频| 园内精品自拍视频在线播放| 国产又大又粗又猛又爽的视频| 91九色国产porny| 亚洲视频免费在线看| 日本少妇又色又爽又高潮| 国产香蕉国产精品偷在线观看| 玩两个丰满老熟女久久网| 五月婷婷综合色| 亚洲婷婷六月| 女人18一级毛片免费观看| 99久久精品国产自免费| 久久黄色一级视频| 91在线无码精品秘九色APP| 成人噜噜噜视频在线观看| 一级毛片免费不卡在线视频| 曰韩人妻一区二区三区| 国产熟睡乱子伦视频网站| 九色视频线上播放| 久久综合伊人77777| 欧美一区精品| 毛片免费观看视频| 好久久免费视频高清| 亚洲三级影院| 精品成人一区二区三区电影 | 亚洲人成电影在线播放| 色偷偷综合网|