摘 要:生物信息學數據庫記錄了多種類型的基因組分析成果,其中疾病相關數據庫記錄了與疾病有關的基因組信息。由于疾病數據庫在內容和結構上存在較大差異,疾病相關數據無法整合到一起,給后續研究工作帶來不便。制定了五條標準篩選出疾病相關數據庫,通過擴展GFF3創建新的文件格式GDF對這些異構數據庫進行轉化融合。通過對記錄信息進行加權打分,得分高低表示該條記錄的可信程度,然后將文件加載到分析工具中,豐富知識展示體系,給研究者提供全面、便捷的參考。
關鍵詞:數據庫整合;加權打分;生物信息學
中圖分類號: TP39 文獻標識碼:A 文章編號:2095-2163(2013)04-
A Method for Integration of Disease-related Databases and Genome Browser based on Scoring
WANG Zhenxing,WANG Yadong
(School of Computer Science and Technology, Harbin Institute of Technology,
Harbin 150001, China)
Abstract:The bioinformatics databases store multiple types of genomic analysis results, including disease-related database recording genomic information related with diseases. But there are differences of contents and composition among them and that brings inconvenience in further research. This paper formulates five standards to filter out disease-related databases and then integrates them by GDF format which is created by extending the GFF3 format. The record is scored by weighting the factors and the score represented the credibility of the record. The paper loads the GDF files into data analyzer and forms an abundant knowledge system providing comprehensive and convenient reference to researchers.
Key words: Database Integration; Weighted Scoring; Bioinformatics
0 引言
新一代測序技術的不斷發展以及測序費用的不斷降低,加之千人基因組計劃的強勢推動,個人基因組數據如潮涌般大規模出現,各類生物信息學數據庫也隨之大量增加。很多數據庫同時包含序列、結構以及遺傳變異位點、疾病相關信息等注釋。新一代測序技術催生出的一大批高通量數據和芯片數據正迫切需要建立數據庫,對其進行有效管理,由此對于個人基因組數據的分析即成為重中之重,以及當務之急。
很多數據庫正在將基因組學從實驗運用到實際應用中,即利用基因組數據對人類疾病進行更加深入的理解和更加有效的治療。與疾病緊密相關的藥物也在生物信息學及計算機輔助設計的作用下獲得了新的發展。例如Online Mendelian Inheritance In Man(OMIM)[1]是一個全面、權威、且更新迅速及時的有關人類基因和遺傳疾病的知識庫,其紙質版自1966年以來已經印制了12版,記錄了每條染色體上與特定基因相關的遺傳位點和疾病等信息;GAD[2]則收集已發表過的人類遺傳關聯研究成果,提供一個全面公開的有關分子和臨床的數據庫,數據量要遠大于OMIM;GWASdb[3]收集與人類疾病有關的遺傳變異位點數據,包括基因組映射信息、調控影響、氨基酸的改變、基因表達以及疾病關聯等;PharmGKB[4]則記錄了包括遺傳變異、基因、蛋白質與藥理學信息、疾病的關系等數據。
很多的數據分析工具并不支持疾病藥物相關數據的整體瀏覽,原因是這些數據庫之間記錄的信息和描述模式不盡相同,沒有一個統一的文件格式整合存儲這些數據。研究者想要查看疾病相關數據就需要登陸不同的在線數據庫依次查找,給研究工作帶來不便。本文根據GFF3格式擴展出一種新的格式GDF,對各數據庫數據進行融合,并對記錄的因素進行加權打分得到其可信程度,便于對數據進行后續的應用分析。
1疾病數據庫發展現狀
生物醫學領域是生物信息數據庫另一個重要的應用領域,主要記錄臨床數據、表型數據、遺傳和多態性數據等。在線人類孟德爾遺傳(Online Mendelian Inheritance in Man,OMIM)已經是得到廣泛應用的一個著名知識庫。隨著全基因組范圍關聯研究(GWAS)的進展,已經確認了與很多人類常見疾病關聯的SNP位點,記錄這些研究成果的數據庫正在不斷建立,數據量也正逐漸增多,例如GWASdb。遺傳疾病還有可能是參與遺傳信息表達的其他組分表達異常導致,例如有調控作用的microRNA等。
針對越來越多生物信息學數據庫的出現,核酸研究(Nucleic Acids Research)專門設立了一個數據庫專題(正式開始于1993年7月),并創建了一個索引來對這些數據庫進行明確記錄,NAR數據庫近6年的增長情況如圖1所示。
從圖1中可以看出:近6年新增數據庫以及更新數據庫的數目比較穩定,總數目呈平穩增長趨勢。其中,劃分了15個目錄和41個子目錄,總共包括核苷酸序列數據庫、結構數據庫、人類基因和疾病、芯片數據及其他基因表達數據庫等。有關疾病數據庫的記錄也在逐年增長。但由于疾病數據庫之間數據質量參差不齊、在內容和結構上存在差異,有的數據庫并不提供下載,只能通過其網站瀏覽,這些原因導致了疾病數據庫整合的困難。
2 對疾病相關數據庫進行篩選融合
2.1 篩選數據庫
為了解決整合方面存在的困難,首先篩選有關數據庫。設定篩選范圍,選取了與人類基因組與疾病和藥物相關的數個子目錄,包括基因、系統、或疾病特異性數據庫(Gene-, system- or disease-specific databases);綜合多態性數據庫(General polymorphism databases); 藥物及藥物設計(Drugs and drug design)等,再加上較為熟知的幾個沒有在NAR上發表的數據庫,如遺傳關聯數據庫(The Genetic Association Database,GAD),發表在美國國家科學院院刊上的NHGRI GWAS Catalog[5]等。可將這些數據庫作為初選庫,再結合后面的標準進行下一步的篩選。
任務執行目標是尋找疾病和藥物相關數據庫,提取個人基因組信息與疾病和藥物相關信息。有的數據庫在發表之后停止更新或更新時間較久,就有可能存在錯誤數據并且無法提供最新研究成果,所以數據庫應該在最近時間內得到更新。數據需要保證其準確可靠,比如是從其他數據庫集成或是通過人工文獻搜集得到,不包含預測性數據,對數據的預測由用戶進行。需要注意,只有獲得數據之后才能對數據進行處理,并且數據量不能過小,否則數據密度或覆蓋度太小,瀏覽器顯示的信息將過于稀疏。
篩選標準歸納如下:
(1)記載與疾病或藥物有關;
(2)2011年以后有更新;
(3)數據可以下載;
(4)數據來源可靠;
(5)數據庫的詞條數量在1 000以上。
經過篩選,在近200個數據庫中篩選得到了符合上述標準的30多個數據庫,下載獲得的數據庫包括文本文件、關系數據庫等形式,經過結構化處理后,選取典型數據庫如表1所示。
2.2 數據融合
不同數據庫中記錄的內容不同,主要是由各數據庫記錄信息的側重不同、描述標識不同、以及數據描述模式的不同所導致,例如,GWAS Catalog中記錄的是加入到索引中的時間、PUBMED ID、第一作者、發表日期、期刊鏈接、研究簡要內容、疾病名稱或特有癥狀、染色體號、染色體上的位置、文章中提及到的基因、實際映射到的基因等31個域,而GAD則記錄了疾病名稱、染色體號、染色帶號、基因名、DNA起始位點、DNA結束位點、PUBMED ID等43個域。為了數據信息的一致及瀏覽器性能優化,就需要對這些數據庫內容完成融合,進行統一化處理。
本文采用建立新數據格式的方法,對數據使用統一格式,使之具有相同的組織形式有利于系統后臺對數據的處理,這些卻只需要編寫一個解析器就能加載這些數據。并且篩選得到的大部分數據均是以制表符分隔的文本文件,而此點也是有利于文件處理的一個顯著優勢。
考慮到數據格式的通用性,對GFF3格式進行擴展,創建了GDF格式。GFF3是GFF的版本之一,GFF(Generic Feature Format)是用來存儲常見特征的一種標準文件格式,并且已經成為數據交換和遺傳數據表示中常用的格式之一。依照GFF3格式,進行擴展創建了GDF格式,其代表為Generic Disease/Drug Format,即通用疾病/藥物格式。這兩種文件格式的對比結果如表2所示。
附加信息,也是“標簽=值”的形式
注:1-based表示1-based坐標系,與0-based坐標系的區別是1-based是從1開始計數,區域由閉區間表示;0-based是從0開始計數,區域由半閉半開區間表示。
根據GDF文件格式的規定,可設定流程將上述下載的數據庫數據轉化為GDF文件。轉化過程中需要結合其他基因組序列數據庫文件進行相應關聯,包括dbSNP135版本文件以及HGNC導出的相關基因文件。轉化過程中將濾掉數據庫中“預測性”的數據,以此確保在GDF文件中存儲的數據都是準確、具有參考價值的。
數據處理流程如圖2所示。
處理數據過程中濾掉了那些起始位點為空、結束位點為空、染色體號為空、疾病名稱為空、區域長度大于一百萬bp的記錄。對于沒有記錄區域位置信息的記錄, 比如OMIM數據,其中只記錄了基因名(Gene Symbol),需要在HGNC文件中查找相關基因所在的區域位置信息。
將與疾病相關的因素進行分析,得到如圖3的結果。從圖3中可看出疾病與SNV(單核苷酸變異)的關聯是最底層的,因為SNV有可能導致剪切位點發生變化及microRNA表達的異常,而剪切位點的變化則會導致基因剪切事件和LncRNA的改變,由此間接導致疾病的發生,這一過程體現了兩者之間的相互作用和層級關系。
GDF文件中第8列記錄了詞條的可信程度,是根據幾個因素進行加權打分得到的。首先對這些能引起疾病的因素進行層次分類,并對記錄本身是否有參考文獻也進行區分,將其設為一個因素。設SNV是第一層因素,Splice Site/ miRNA是第二層,LncRNA/Gene為第三層,可以這樣理解,將這幾個因素的相互關系表示為一棵樹,SNV的深度為1,Splice Site/ miRNA的深度為2,LncRNA/Gene的深度為3。將因素所在層級用表示,其權數設為:
具有參考文獻支持的詞條中,參考文獻這一個、因素的權值設為1,然后將上述所列的因素均歸并在一個集合中,其中的元素為,元素權重為。集合中的元素可以隨著數據庫種類的增多而即時添加。數據庫一個詞條中記錄的因素加入到一個集合中。
定義一個示性函數:
如此,可信程度打分為:
該得分小于2,得分較高表示該記錄可信程度較高。
3 結果展示
轉化融合后的GDF文件結果如圖4所示。通過分析工具與多種不同類型的基因組數據進行比較分析,直觀查看變異或者基因等在遺傳疾病上產生的影響,可以給研究者帶來更全方位和更深層次的知識支持,節省了查看多個不同數據庫的時間。
4 結束語
生物信息數據庫的種類和數量越來越多,結合各種分析工具對數據進行可視化瀏覽已成為科研工作者的主要輔助性方法。本文提出了一種通過創建通用格式GDF對疾病和藥物相關數據庫進行融合的方法,對多個數據庫的數據進行了融合,并依據其中記錄的致病因素對詞條進行可信程度打分,形成了一個新的存儲格式,再將其加載到各種分析工具中給研究者提供更豐富、便捷的參考。
參考文獻:
[1] AMBERGER J, BOCCHINI C A, SCOTT A F, et al. McKusick’s Online mendelian inheritance in Man (OMIM)[J]. Nucleic Acids Res ,2009, 37:D793–6.
[2] BECKER K G, BARNES K C, BRIGHT T J, et al. The genetic association database[J]. Nature Genetics, 2004, 36:431-432.
[3] LI M J, WANG Panwen, LIU Xiaorong ,et al. GWASdb: a database for human genetic variants identified by genome-wide association studies[J].Nucleic Acids Research,2012,40:D1047-54.
[4] HEWETT M, OLIVER D E, RUBIN D L, et al. PharmGKB: the Pharmacogenetics Knowledge Base[J]. Nucleic Acids Research, 2002, 30(1):163-165.
[5] HINDORFF L A, SETHUPATHY P, JUNKINS H A, et al. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits[J]. Proceedings of the National Academy of Sciences,2009, 106(23):9362-9367.
[6] JIANG Qinghua, WANG Yadong, HAO Yangyang, et al. miR2Disease: a manually curated database for microRNA deregulation in human disease[J]. Nucleic Acids Research,2009, 37(s1):D98-104.
[7] WANG Juan, ZHANG Jie, LI Kaibo, et al. SpliceDisease database: linking RNA splicing and disease[J]. Nucleic Acids Research,2012, 40(D1):D1055-1059.
[8] CHEN Geng, WANG Ziyun, WANG Dongqing, et al. LncRNADisease: a database for long-non-coding RNA-associated diseases[J]. Nucleic Acids Research,2013, 41(D1):D983-D986.
作者簡介:王振興(1988-),男,山東海陽人,碩士研究生,主要研究方向:生物信息學;
王亞東(1964-),男,遼寧錦州人,碩士,教授,博士生導師,主要研究方向:人工智能、機器學習、知識工程等。