趙友杰+曹涌+熊飛
摘要:針對林業生物信息學中的數據量大、存儲成本高、分析及利用技術門檻高等問題,該文提出一種基于林業大數據的生物信息云平臺的設計方案。該平臺擬整合多個國際數據庫中林業相關的基因組、轉錄組、表達和功能等常用數據,構建以林業為主的生物信息學大數據平臺,為林業研究人員提供綜合的生物信息數據服務(DaaS)。在該大數據基礎上,構建以現有計算機服務器為基礎的硬件服務平臺(IaaS),以網絡化linux操作系統為基礎的虛擬分析平臺(PaaS),以及以常用生物信息學分析軟件為基礎的個性化可定制軟件服務平臺(SaaS),最終為林業研究人員提供一站式的虛擬易用的生物信息學云服務。
關鍵詞:林業;生物信息學;大數據;云平臺
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)01-0023-03
Abstract: A scheme of forestry bioinformatics cloud was proposed for solving the problems of mega data, high storage cost and technology threshold in the forest research. The platform would intend to integrate multiple forestry genomes, transcriptome, expression and function data from international database. Bioinformatics big data platform was constructed to provide comprehensive bioinformatics data service (Data as a service, DAAS) for forestry research. Based on the bioinformatics big data, hardware service platform (Infrastructure as a Service, IAAS) was constructed to provide computing resource services, virtual operating system platform (Platform-as-a-Service, PAAS) was constructed to provide virtual linux computer environment services, and software analysis service platform (Software-as-a-Service, SaaS) was constructed to provide common bioinformatics analysis and customizable analysis services. Forestry bioinformatics cloud platform would provide one-stop virtual easy bioinformatics cloud services for forestry researchers.
Key words: Forestry; Bioinformatics; Big data; Cloud platform
1 概述
近年來,隨著新一代測序技術的發展[1],測序成本不斷減低,使得高通量測序逐漸成為生命科學研究的常規實驗。眾所周知,高通量測序產生的數據量巨大,單次測序量常常達到GB的級別,而一個實驗室研究一類物種,從基因組測序、轉錄組測序、小RNA測序以及其他個性化測序,往往積累的數據高達TB甚至PB級別。特別是林業相關物種,基因組龐大,數據量更是呈現指數級增長。以松屬物種為例,2014年完成的火炬送基因組項目顯示,松樹基因組高達27G,為目前基因組最大的物種之一。而為了實現分子進化及育種研究,一個課題組往往會對不同品種的基因組、轉錄組、小RNA等進行測序及比較,再結合國際公共數據庫中發布的十幾種松樹的轉錄組、表達及功能等不同類型的數據,一個松屬林業項目的相關生物信息數據就高達幾百GB甚至幾個TB。
面對如此海量種類繁多的林業生物信息(簡稱林業生物大數據),如何進行數據整合、存儲、分析,將成為生物學家和計算機學家面臨的重大課題。顯然個人計算機無法滿足存儲大數據,一般課題組是利用項目經費購買相應服務器或者集群,但由于在研究過程中,為了比較分析,經常需要從國際數據庫下載相關物種的數據信息,這會導致存儲空間不足。其次是數據分析,從linux服務器的搭建,到常用生物信息學分析軟件的安裝配置,以及個性化分析流程的創建,都需要專業的生物信息分析人員。而目前,僅從項目申請人參與的中國科學院、中國林業科學院以及高校的多個國家基金來看,硬件服務器配置不足,服務器管理及分析人員缺乏等問題嚴重,大部分項目只能將數據分析外包給專門的生物信息學公司來做,導致分析成本比測序成本都高。最嚴重的是生物學問題和數據分析的脫節,將導致生物學家拿到公司的分析結果后無法入手。
本研究將基于云計算平臺,構建以林業生物信息大數據為基礎數據服務云(DaaS),提供多個物種多種類型的林業生物信息的數據服務;構建以現有服務器為基礎的林業生物信息硬件資源云(IaaS),提供生物信息硬件資源服務;構建以linux服務器及常用開發環境為基礎的林業生物信息分析平臺云(PaaS),提供虛擬的網絡化的數據分析環境;構建以常用生物信息學軟件及個性化分析流程為基礎的林業生物信息軟件服務云(SaaS),提供在線的可定制的數據分析服務,最后實現“一站式”的林業生物信息云服務平臺。endprint
2 國內外現狀
云計算[2-4] 是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問, 進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,隨著高通量測序技術的快速發展,生物信息學進入組學時代,組學測序產生了海量的數據,引領著生物信息學步入大數據時代。海量生物數據的存儲和分析等問題亟待需要利用云的方式來解決[5-7]。
中科院基因組所章張等人[8]分析了現有生物信息學領域的云計算服務(簡稱:生物信息云),根據其服務特點首次提出分類方法:數據即服務(DaaS,Data as a Service)[9-11]、軟件即服務(SaaS,Software as a Service)、平臺即服務(PaaS,Platform as a Service)以及基礎設施即服務(IaaS,Infrastructure as a Service)。生物信息云從四個方面提供了海量生物數據的儲存、獲取、分析等相關需求的服務。同時,對云計算在生物信息學的應用進行了展望和討論,提出并分析了以下幾個亟需解決問題,即生物信息云應實現數據和軟件的云儲存,結合最新的高速傳輸、P2P、數據壓縮等技術支持大數據的傳輸,開發基于云的輕量型編程環境,以及建立開放的生物信息學云平臺。
華大基因作為國內測序巨頭,2011年在《自然》上闡述了生物云計算相關服務[12],希望為生命科學研究人員提供全面快捷的生物信息學云服務。最終目標希望用戶通過互聯網遠程調用云服務,實現測序數據的常規處理,隨時隨地獲取生物信息分析資源。在國際上,華大基因并不是唯一一個開展云計算服務的測序中心,但華大基因將測序服務與內部云計算相結合,突出了其“一站式”服務的優勢。希望為“組學”研究領域的科研人員提供快捷、準確和便于操作的高通量測序分析服務,從而更好地應對及解決海量生物信息數據的存儲、處理、計算和分析等問題。
由于當前基因組測序數據迅猛增加,使得生物產業對于計算與存儲的需求呈現指數級的增長速度(特別是林業數據)。這種由于不斷產生的信息洪流而形成的對存儲能力和計算能力超常規的增長,使得生物云計算[13-15]區別于其他行業,具有特征和對技術的更高要求,也使得越來越多的生物學家和計算機學家認識到生物信息云計算平臺建設的必要性和迫切性。
3 林業生物信息云平臺的設計
1) 林業生物信息數據的收集及清洗
林業生物信息源數據主要來源于公開的國際數據庫。考慮到國際數據庫更新較快,可以通過網頁解析技術,利用程序自動獲取“林業”相關的一級序列數據、二級基因功能及蛋白數據和三級結構數據,實現林業生物信息云平臺源數據的自動獲取及更新。大數據計算環境和傳統應用存在較大的區別,源數據獲取后需要通過適當的轉換和清洗,整理成可為大數據計算環境服務業務數據。
2) 林業生物信息的大數據服務(DaaS)的構建
針對林業研究中的常見問題,這里把林業生物信息數據按照基因組、轉錄組、基因功能、蛋白結構及其他零散數據等幾類來存儲[25]。大數據存儲技術需要針對全類型數據存儲和多樣化計算需求,使用中低端存儲設備,以分布式文件系統為基礎,綜合基于分布式文件系統的各類數據庫,實現高效低成本的大數據存儲。技術上使用Hadoop[16]大數據集成平臺Cloudera來構建,數據庫采用Oracle。大數據平臺主要涉及數據管理(HDFS)、數據操作系統(YARN)、數據訪問模塊集、數據治理與集成模塊集、安全模塊等。
3) 林業生物信息硬件資源服務(IaaS) 的構建
用戶租用云計算上的虛擬主機可以自己控制計算、存儲等硬件設備,建立需要的計算環境。并且大量的生物信息學工具可以打包為虛擬鏡像用于租用的云計算的虛擬主機上,可以很方便的進行多種數據分析。如CloVR[24]提供的一個包含預配置和自動的生物信息學流程的虛擬主機,可以運行在本地的計算機上也可以運行在云計算平臺上。此虛擬機以Ubuntu和BioLinu為基礎[23],安裝了Grid Engine和Hadoop作為作業調度。
這樣就為用戶提供了一個生物信息學分析的硬件虛擬環境及軟件開發環境,用戶可以使用自己的pc作為客戶端,連接生物信息云平臺的虛擬機,使用虛擬機強大的計算資源及內存(很多生物信息學分析需要大內存資源)。
4) 林業生物信息分析環境服務(PaaS)的構建
生物信息分析環境應該包含生物信息開發語言環境及常用的生物信息學軟件支持庫。目前生物信息學中常用的開發語言有C\C++、JAVA、perl、python等,并且這些語言大都有自己配套的生物信息學開發庫,例如Bioperl、Biojava等。為了后期的統計分析方便,可以把R語言的生物信息學庫Bioconductor安裝到云平臺上。常用的生物信息學軟件支持庫有Galaxy Cloudman和Eoulsan[22]等。Galaxy整合了一系列的簡單易用的工具,提供一個簡易的網頁用來分析數據。Galaxy Cloudman把Galaxy的軟件工具打包成一個鏡像,可以在AWS(Amazon Web Service)上應用[17]。用戶可以將其他安裝在Galaxy平臺上的軟件安裝到自己的云計算平臺上,甚至可以在Galaxy Cloudman上定義插件。通過添加額外的工具,可以擴展默認函數并測試和使用。從這個意義上說,Galaxy Cloudman可以看做PaaS。 Eoulsan整合了很多下一代基因數據分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一個框架內,同時,它也支持用戶自己開發的插件用于數據分析。
5) 林業生物信息分析軟件服務(SaaS)的構建endprint
目前大多數的生物信息學分析軟件都是開源的或者需要自主開發。很多傳統的生物信息學工具如BLAST、UCSC Genome Browser僅用瀏覽器就可以登錄到服務器使用相應的服務,它們也可以稱為SaaS。這些服務一般由軟件工具的開發者提供,伸縮性很差,需要進行進一步的并行及分布式計算的完善。序列匹配是指當前生物信息學分析中的重要應用,特別是高通量測序產生的大量短序列片段,需要匹配到基因或基因組上。隨著云計算及大數據的發展,為了提高分析效率,越來越多的軟件都向并行、分布式計算發展。CloudAligner[18],CloudBurst[19],SEAL[20]和Crossbow都是應用于云計算基于MapReduce的軟件[21],可以匹配高通量的測序大數據。
常用的分布式計算軟件配置在云平臺的虛擬機中,用戶登錄虛擬機后除了享受硬件服務還可以使用進行常規分析。特別是針對當前的二代測序,安裝配置一體化的組學分析流程,包含流行的基因組測序分析、轉錄組測序分析、宏基因分析等,使用戶在云平臺中不用關系硬軟件技術,能夠分析自己的數據,并支持可定制性分析。總之為用戶提供一個方便易用的分析及統計環境[26]。
4 結束語
生物信息云平臺的建設由于涉及的物種多、數據類型多、數據分析多樣化等問題,硬件成本高、工程量巨大,不是短期能夠見效的。但針對某一個行業的生物信息云平臺的建設,涉及的數據量及工程量都相對較小,并且云平臺的建設較容易看到成效。本文針對林業生物信息大數據,建立包含數據服務云(DaaS)、硬件資源云(IaaS)、分析平臺云(PaaS)和軟件服務云(SaaS)的專用林業生物信息云平臺,為林業相關生物學研究提供“一站式”的生物信息學數據服務、平臺服務和分析服務,使得研究人員能夠專注于自己的林學問題,不用受限于計算機硬件平臺和軟件分析的技術瓶頸。林業生物信息云平臺的建立,將可預見性在數據共享、硬件平臺和軟件分析方面的方便研究人員,使其直面自己關心的科研問題,極大的提高工作效率。
參考文獻:
[1] 張文力.高通量測序數據分析現狀與挑戰[J]. 集成技術,2012(3):20-24.
[2] 趙為民.云計算難掩十大優勢,2012年將遍地開花[J]. 網絡與信息,2012,26(3):14-15.
[3] 葉惠.云計算:讓服務觸手可及[J]. 通訊世界,2009(7):34-35.
[4] 趙為民.云計算何時遍地開花?十大難題亟待解決[J]. 網絡與信息,2012,26(3):44-45.
[5] 郝彤,馬紅武,趙學明.云計算在生物技術領域的應用[J].數學的實踐與認識,2012,24(17):117-123.
[6] 楊帥,胡宗倩,伯曉晨,等.云計算在生物醫學中的應用[J].中國科學:生命科學,2013,43(7):569-578.
[7] 崔振.云計算在高通量測序數據分析中的應用[J].基因組學與應用生物學,2014,33(2):467-471.
[8] Dai L, Gao X, Guo Y, Xiao J, Zhang Z. Bioinformatics clouds for big data manipulation. Biology Direct. 2012;7(1).endprint