蛋白質相互作用數據庫系統的設計與實現

2010-03-26 00:56:22夏艷軍周建軍向昌盛

湖南農業科學 2010年15期

夏艷軍，周建軍，向昌盛

（1.湖南農業大學生物科學技術學院，湖南長沙 410128；2.湖南農業大學理學院，湖南長沙 410128；3.湖南農業大學東方科技學院，湖南長沙 410128）

目前，蛋白質相互作用的研究已經滲入到生物學研究的各個領域，其產生的貢獻也在不斷擴大，已經成為當前蛋白質組學的一個重要課題[1]。近年來，很多研究者在這方面進行了探索，發現了很多新的大規模高通量檢測蛋白質相互作用的方法[2-4]，同時，產生了越來越多的數據。為了加快研究的進程，取得更有效的研究結果，更好地研究生物的機理，蛋白質相互作用研究應不再局限于各種實驗技術[5]，可以考慮將生物信息學研究方法滲透其中，故亟需一個易用的數據庫系統來管理和分析這些實驗數據，提供數據查找和注釋，特別是提供數據庫分析的平臺，方便數據間的比對，從而挖掘有用信息，引導設計相關實驗方案等[6]。為此，筆者基于Apache、MySQL、CakePHP開發環境，構建了一個蛋白質相互作用數據庫系統，初步實現了上述功能，以期能給相關研究工作提供方便快捷的分析工具。

1 數據庫系統的設計

1.1 總體結構設計

數據庫系統為基于B/S架構的3層Web系統，由數據存儲層，邏輯結構層和界面展示層構成。底層為數據存儲層，對應著蛋白質相互作用數據庫，由MySQL實現，庫中主表的字段結構為蛋白質ID號、蛋白質序列信息、蛋白質關鍵字、相互作用蛋白質信息、蛋白質物種來源等；中間層為邏輯結構層，由PHP程序實現信息的收集和處理，一方面對用戶提交的信息進行處理和篩選，另一方面實現對數據庫的實時操作，將得到的數據信息反饋給用戶；上層為界面展示層，通過HTML語言編寫，該層包含了良好的人機對話界面，用戶可通過該層方便地實現對數據庫的訪問。

1.2 主要功能模塊

根據蛋白質相互作用數據的特點，數據庫系統主要對高級檢索、預測系統、分類統計等3大塊進行邏輯設計，查詢結果和相關的數據實例在展示層中以頁面的形式進行顯示。高級檢索具有蛋白質查詢、蛋白質相互作用查詢以及參考文獻查詢等3種檢索方式，方便了用戶的使用。利用序列相似性比對原理創建的蛋白質相互作用預測系統，對未知的蛋白質相互作用數據進行預測和分析。分類統計信息用于數據庫已有信息的分類和統計，并提供數據下載功能。

1.3 數據來源及規范

隨著蛋白質組學數據的快速增長，各類型數據庫不斷涌現，但這些不同源報道的數據庫具有不同組織和結構形式，內聚力貧瘠。這是數據交換和同化過程中的嚴重障礙。蛋白質相互作用數據的共享既涉及科學數據的交匯、分發、服務和應用環節，也涉及科學數據的采集、加工和處理環節。因此，在構建蛋白質相互作用數據庫之前，需要尋找并采用通用的數據格式和規范，對所交換的數據進行預定義和結構化，要求實現蛋白質相互作用數據交換和處理的自動化。蛋白質相互作用數據庫采用了3種不同數據格式，分別是XML、FASTA以及PSI-MI TAB Format。

1.4 開發環境搭建

本系統開發使用WAMP組合（Windows+A－pache+MySQL+PHP），即整個系統在Windows平臺，以Apache作為Web服務器，使用MySQL作為數據庫系統，并使用PHP腳本語言結合CakePHP框架進行開發，能最大限度地實現一個穩定且易擴展的蛋白質相互作用數據庫系統。同時，本系統也可以運行于LAMP（Linux+Apache+MySQL+PHP/Perl/Python）組合下。之所以選用在Windows系統下開發，是因為大多數用戶使用該OS，有利于本數據庫系統的推廣與利用。基本組件配置如下，WEB服務器為Apache-2.0.63，數據庫為MySQL-5.0.89、php－MyAdmin-3.2.5，腳本語言為PHP-5.2.12、Zend Optimizer-3.3.3，WEB框架為CakePHP-1.2.5，對照數據庫系統為BLAST-2.2.19。

1.5 數據表的設計

從不同的層次對數據進行抽象，構建數據模型。在數據抽象過程中，盡量遵守數據庫設計規范，比如命名規范，遵守數據庫設計的3個范式。通過以上步驟，我們完成了蛋白質相互作用數據庫的設計，數據庫主要由7個數據表組成:蛋白質表（Proteins）、相互作用表（Interactions）、相互作用蛋白表（Interactors）、物種來源表（Taxonomies）、鑒定證據表（Experiments）、參考文獻表（References）、交叉索引表（Dbrefs）。

2 數據庫系統的實現

2.1 數據統計及下載模塊

本數據庫系統根據不同的分類，收集物種、蛋白質、蛋白質相互作用、參考文獻等數據，目前系統的記錄數分別為:268、20683、60699、3852。用戶可以按物種下載蛋白質交互作用的文本文件、XML格式文件以及序列文件。下載的文件都已經進行過壓縮，這樣極大減輕了服務器與網絡的負擔，用戶下載后，可做各種使用。

2.2 高級檢索模塊

通過高級檢索所得的結果由瀏覽頁面顯示，并提供了各數據的基本信息，用戶根據顯示的頁面，全面了解近期已知基因及蛋白質的研究情況。在編號信息處建立了到該數據詳細信息顯示頁面的連接。數據庫自動生成新的頁面來顯示該數據的詳細信息。數據庫建立完畢后最重要的任務是如何將這些數據庫互相關聯起來形成數據庫網絡，最大限度地提高數據庫的利用率。因此，良好的檢索和統計系統至關重要。數據庫系統高級檢索實現了蛋白質查詢、蛋白質相互作用查詢和參考文獻查詢。

2.3 數據提交模塊

用戶可以在線上傳指定格式的蛋白質相互作用數據。其中CSV文件指的是PSI-MI TAB Format，存放簡要的相互作用的信息；XML文件指的是蛋白質相互作用XML標準格式的文件；FASTA文件指的是存放蛋白質序列的FASTA格式的文件。對于不是該格式的文件，需要轉換為相應的格式，才能導入到數據庫中。上傳時，可以分別上傳，也可以同時上傳多個指定格式的文件，如果提交的文件比較大，則解析入庫所需的時間較長。根據網絡因素、服務器因素，一般應當將文件分割后再進行導入。

2.4 初步預測模塊實現

本數據庫系統根據BLAST（The Basic Local Alignment Search Tool）基本原理初步構建序列相似性比較平臺，然后通過相似性搜索結果找出蛋白質相互作用數據庫中已知的相互作用。獨立的BLAST程序有兩種格式:一種是命令行的；另一種是允許用戶建立自己內部獨立的BLAST網頁的網絡服務。本系統使用基于命令行的格式。蛋白質相互作用預測系統的構建流程如下。（1）準備相似性比對用的FASTA序列文件。從數據庫中導出已經收集的有蛋白質相互作用信息的蛋白質序列，轉換為FASTA格式，使用統一的蛋白質編號作為序列的標識符。（2）格式化數據庫，并進行測試。使用BLAST包中的formatdb命令格式化FASTA序列文件，供比對使用。命令:formatdb－pt－i ppi.fasta-t“Database of Protein-Protein Interaction”-ot。（3）得到用戶輸入序列。從用戶提交的表單中，獲取用戶提交的序列，將序列保存為臨時文件。（4）執行BLAST搜索。使用BLAST包中的blastall命令，將用戶的序列與準備好的蛋白質數據庫進行比對。命令:blastall.exe-p blastp-i temp/input1.seq-d ppi.fasta-v 100-b 100-m 0-e 10-TT-o out.txt。（4）獲得目標蛋白質的相互作用信息。過濾比對結果，獲得相符的蛋白質序列的編號，查詢蛋白質相互作用數據庫，獲得相互作用的信息。

3 數據庫系統應用實例

3.1 高級檢索的應用實例

以軍事醫學科學院衛生學環境醫學研究所張志清博士論文所研究的相互作用熱應激蛋白（HSP70）為例[7]，進行檢索系統的應用和驗證。HSP70屬于一系列家族蛋白，可分別以首頁的快捷檢索、蛋白質和相互作用等3種不同方式在本數據庫系統查詢HSP，即可得出檢索結果（圖1）。共檢索到HSP家族相關結果26條，包含相關的蛋白質名稱、物種來源以及交叉索引。結果分頁面顯示，每頁顯示10條，頁面顯示條理清楚。

圖1 HSP檢索結果

3.2 預測系統應用實例

3.2.1 PRK2a介紹PRK2a是擬南芥蛋白酪氨酸激酶（Protein phosphatase，Ppase）。蛋白質磷酸酯酶催化磷酸蛋白的磷酸酯鍵水解而去磷酸化，細胞內任何一種蛋白質的磷酸化狀態均由蛋白激酶和蛋白磷酸酯酶的兩種相反酶活性之間的平衡決定。蛋白質磷酸化在信號傳遞中一個非常重要的特點是:對外界信號具有級聯放大作用。蛋白質磷酸化與脫磷酸化幾乎涉及所有的生理過程，且功能上具有多樣性。因而，研究PRK2a相互作用具有重要意義。

3.2.2 PRK2a序列查詢通過數據庫系統高級檢索查詢到PRK2a相關信息，從中選擇擬南芥PRK2a cDNA作為探針，并根據PRK2a對應的交叉索引分別是SWISSPORT:Q84JQ4，GenBank:NP_178721，DIP:DIP-46187N，可檢索到PRK2a的FASTA格式，將其輸入到預測框。

3.2.3 預測結果及分析經預測，得到PRK2a蛋白質相互作用預測結果:一是與PRK2a相互作用的蛋白質；二是與PRK2a相似蛋白質及其相互作用的蛋白質。依據Score（bits）和E Value兩個指標的最高得分，由高至低依次列出與數據庫中相似的前50條序列，表中顯示了相似序列的蛋白質名稱，以及與其相互作用的蛋白質名稱的列表，Score（bits）分值越高、E Value值越低即代表與其相互作用的程度越高，相反則相似程度越低，從而提高了研究效率。結果見圖2，由于顯示結果較多，僅截圖相似度較高的部分信息。

圖2 PRK2a預測部分結果

通過PRK2a序列實例在本數據庫系統中的預測系統進行序列比對，通過精確同源性的分析，以及本系統的多次測試可以表明，預測系統實現了蛋白質相互作用的基礎功能，可以分析并得出與輸入序列蛋白質相互作用的蛋白質，以及與該蛋白質相似性較高的蛋白質及其相互作用的蛋白質列表。同時，能夠顯示原始序列比對結果，界面顯示條理清晰，便于研究。

4 結論

通過兩個實例HSP70、PRK2a分別對檢索、分析預測等兩個功能模塊進行了具體的應用和驗證。在HSP70檢索方面，在目前數據庫系統的基礎數據下，能夠檢索到HSP相關的蛋白質信息計26條，表明了本系統的檢索功能的實用性，且結果的展示界面條理清楚。在PRK2a預測方面，經過PRK2a名稱，查找到PRK2a序列，再經過精確同源性的分析，找到了與PRK2a相互作用的蛋白質，以及和PRK2a相似的蛋白質及其相互作用的蛋白質。這表明預測系統實現了蛋白質相互作用的基礎功能，為蛋白質相互作用的研究提供了一定的幫助。

[1]Auerbach D,Thaminy S,Hottiger M O and Stagljar I.The postgenomic era of interactive proteomics:facts and perspectives[J].Proteomics,2002,（2）:611-623.

[2]Enright A J，I Iliopoulos,N c kyrpides,et al.Protein interaction maps for complete genomes based on gene fusion events[J].Mature,1999,402（6757）:86-90.

[3]Gomez,S M,S H Lo and A.Rzhetsky,Probabilistic Prediction of unknown metabolic and signal-transduction networks[J].Genetics,2001,159（3）:1291-8.

[4]Gomez S M,W s Noble and A.Rzhetsky,Learning to predict protein-protein interactions from protein sequence[J].Bioinformatics,2003,19（15）:1875-81.

[5]Lichtarge O,H R Bourne and F E Cohen,An evolutionary trace method defines binding surfaces common to protein families[J].Mol Biol,1996,257（2）:342-58.

[6]Lichtarge O,H Yao,D M Kristensen,et al.Accurate and scalable identification of functional sites by evolutionary tracing[J].Struct Funct Genomics,2003,4（2-3）:159-66.

[7]張志清，HSP70及其相互作用蛋白質HIP在應激適應建立中的生物學功能研究[D].北京:軍事醫學科學院，2005.