基于云計算的代謝組學數據處理研究

2015-07-07 15:44:08孫海濤楊志強孫豐霞

實驗技術與管理 2015年4期

關鍵詞：數據處理研究

孫海濤,楊志強,耿越,孫豐霞

(1.山東師范大學信息技術管理處,山東濟南 250014;2.山東師范大學實驗室與設備管理處,山東濟南 250014;3.山東師范大學生命科學學院,山東濟南 250014)

基于云計算的代謝組學數據處理研究

孫海濤1,楊志強2,耿越3,孫豐霞3

(1.山東師范大學信息技術管理處,山東濟南 250014;2.山東師范大學實驗室與設備管理處,山東濟南 250014;3.山東師范大學生命科學學院,山東濟南 250014)

根據代謝組學數據處理的特點,提出基于云計算的代謝組學數據并行處理方法:云平臺提供多個安裝了開源數據處理軟件MZmine的計算資源,一個大規模的數據處理任務按照保留時間分散到多個計算資源上進行并行計算。作為實例,對來源于小鼠血清樣本的代謝組學數據進行處理。數據說明,基于云計算的數據處理方法能提高數據處理速度,節約計算成本。

云計算;代謝組學;保留時間;數據處理;并行處理

代謝組學是繼基因組學和蛋白質組學之后新發展的生命科學領域的一個分支,通過對生物體內所有代謝物進行定量或定性分析來尋找其與病理變化的關系[1-3]。Nature先后發表了多篇利用代謝組學對人類疾病進行研究的論文[4-5]。我國科研管理部門也發布了關于代謝組學的研究課題[6-7]。核磁共振光譜(NMR)和色譜-質譜(HPLC-GS或GC-MS)聯用是代謝組學研究中常用的兩種測量手段,每種測量手段都會產生大量的數據,處理、分析這些數據的工作量很大,并且需要專門的數學、統計和信息學工具[8]。

為處理代謝組學實驗生成的大量數據,研究者對數據處理和分析方法進行了大量研究,并開發了一些高效率的數據處理軟件。在數據預處理階段,針對不同的測量手段,研究人員做了深入的分析,如基于NMR的軟件開發[9]、液相色譜-質譜數據高性能分析研究[10]等;也有對數據的處理方式進行研究的,如開發單機版的代謝數據處理軟件[11]和在多核計算機上對數據并行處理的軟件[12]。對數據進行并行處理是提高數據處理速度的重要手段,例如質譜數據處理軟件X!Tandem實現并行以后,原來在單核計算機上需要處理20 h的數據,在40個核的并行環境下,只需要30 min,處理速度是原來的40倍[13]。

在實驗數據處理過程中,筆者發現:利用單機版的代謝組學數據處理軟件進行高通量計算需要耗費很長時間;而并行軟件又存在著費用高、硬件環境要求高、部署難度大的問題。為此,將云計算與成熟的開源數據處理軟件MZmine相結合,根據代謝組學數據處理特點,將一個數據處理任務分解為多個子任務,交由不同的計算資源進行并行計算,最后將結果匯總,既加快了數據處理速度,又從軟硬件兩方面節約了成本。

1 研究的理論基礎

1.1 代謝組學數據處理流程

代謝組學數據處理分為原始數據預處理和數據分析兩個步驟。

在數據預處理階段,樣品經過色譜-質譜聯用儀檢測后得到以譜圖的形式顯示的原始數據,然后由數據處理軟件對原始譜圖進行處理,得到樣品組分的數據表格。代謝組學數據在經過預處理以后,需要對得到的數據進行分析和挖掘,從而發現有價值的信息。

數據預處理是代謝組學研究的第一步,也是最關鍵的一步。在質譜檢測實驗中,質譜儀的高靈敏度產生了大量的原始數據,單個樣本文件就有幾百MB甚至幾GB,這些數據需要經過基線校正、譜峰識別、重疊峰解析、保留時間對齊等處理步驟,才能得到與組分有關的信息。這個過程既耗時,又有一定難度。

為高效而又準確地處理這些原始數據,一些儀器生產商和研究機構開發出多種代謝組學數據處理軟件,如Marker Lynx、ChromaTOF、Met Align、MZmine等。本研究選用的數據處理軟件MZmine是一款免費的開源軟件,能夠進行可視化數據處理和數據分析[11],而且具有準確數據處理的能力[14]和友好的用戶界面。

1.2 原始數據預處理并行化

并行計算是指同時使用多個計算資源解決計算問題。并行計算具有以下特征:計算任務能夠分解成多個部分解決,并行后計算速度有很大提高;由不同的計算資源同時執行多個任務[15]。利用云平臺提供的計算資源對代謝組學數據并行處理需要考慮任務的分解和并行的速度問題。

1.2.1 任務的并行分解

在色譜-質譜檢測中,被分離樣品成分從進樣開始到出現組分濃度極大值的時間稱為組分保留時間(retention time)。在一定的色譜操作條件下,保留時間被用來作為物質的定性依據,通常以分(min)為單位[16]。依據保留時間對樣品進行定性或定量分析是代謝組學數據預處理的重要手段。在不同保留時間段內檢出的物質成分和數量相差很大。有研究者曾經對按照保留時間分段的代謝數據分別進行處理,匯總結果證實:分段處理檢測出的成分與未分段處理相同[17]。

MZmine提供了對譜圖按照保留時間分段檢測的功能,參數Retention time可以設置為原始數據的整個保留時間段,如0～12,或者設置為0～3、3～6等不同的分段。隨后的數據處理將依據Retention time的設置進行。圖1是一個原始質譜圖按照保留時間平均劃分成4個時間段的示意圖。在實際計算中,這種劃分可以是隨意的,但為了保證檢測數據的完整性,要保證分段能覆蓋整個保留時間(圖1是12 min),同時要處理好保留時間重疊區域在計算完成后的數據去重問題。

圖1 質譜數據分段處理示意圖(t2為3.0～6.0)

1.2.2 并行速度

設定處理保留時間為t的原始質譜數據所耗費的時間為ts,則:

其中ti是兩個保留時間之間的時間段;n為計算資源的數目,如t2為3.0～6.0;在只有一個計算資源的情況下,t1＝t。(2)式的意思是:當數據并行處理以后,完成任務耗費的時間由所有計算中最長耗時決定。需要指出的是:(1)盡管ts＝f(t),但實際ts并非由保留時間t決定,而與檢測物的組成有關;(2)如果不考慮額外消耗問題,理論上參與的計算資源越多,單個計算資源所分配的任務就越少,花費的計算時間也越少,但這是在計算任務能夠均勻分配的前提下完成的。由于代謝組學數據分析的特殊性,要做到任務的均勻分解并不容易,因此并不能簡單地認為計算資源n越大,t′s就越小。

1.3 云計算

云計算的概念由IBM公司于2007年提出,是并行計算、分布式計算和網格計算的進一步發展,能夠給用戶提供可靠的、自定義的資源利用服務,是一種新的分布式計算模式[18-19]。云計算硬件架構在大規模廉價服務器集群之上,相比功能強大的大型機價格更低廉;通過多個廉價服務器的冗余,保證了系統的穩定性[20]。

利用服務器集群進行代謝組學數據處理是一種粗粒度的并行處理模式,該模式有2個主要優點。

(1)可以按需分配計算資源。在樣品的組分檢測出來之前,雖然可以預測其組成,但是最終耗時仍需計算決定,所以在固定的保留時間內,由于組分的差別,有的可能需要更多的計算資源。因此,可以在計算過程中根據計算進度,隨時提高計算資源的配置,如增加CPU或內存等;當一個計算任務完成后,可以釋放計算資源。

(2)計算資源的冗余配置能確保計算安全、高效地進行。在單一計算資源環境下,如果計算資源出現故障,則計算過程需重新開始(或從某個固定的時間點開始),而采用多計算資源并行計算,則只需對故障資源進行替換,重新計算部分數據即可。

將云計算與成熟的代謝組學處理軟件相結合以及實現數據處理的并行化,是由云計算與代謝組學數據特點共同決定的。首先是數據處理過程可以并行化,在提高處理效率的同時又不影響結果的準確性;其次是云計算架構在廉價的服務器集群上,集群中的每一個計算資源雖然單獨處理超大規模的數據有困難,但是卻能完成分解后的小規模的數據處理任務;再就是利用成熟的單機版數據處理軟件可以準確而迅速地完成分解后的任務,而且相比并行數據處理軟件更容易

當數據處理并行化以后,記數據處理時間為t′s,則:部署和掌握。

2 數據處理

對代謝組學數據進行并行化處理,目的是為了提高數據處理的速度,使一個計算規模很大的數據處理任務能在較短的時間內完成。這可以通過以下實驗得到驗證。

2.1 實驗數據與并行環境

并行處理的數據來源于小鼠血清樣本。經過UPLC-QTOF-MS檢測得到的原始譜圖數據,共有原始譜圖50個,數據保留時間都為12 min。從質譜儀得到的數據經過格式轉換后由Mzmine2軟件完成數據的預處理工作。為了便于比較并行時間,本次實驗所使用的計算資源是4個配置相同且滿足Mzmine2安裝要求的硬件平臺。

2.2 數據處理

為檢驗并行速度,首先要對樣本原始數據進行處理,得到數據處理時間,然后進行比較。數據處理主要分以下2個過程。

(1)基準時間tb的確定。為了便于討論,文中不以每次計算的具體時間做比較,而是設定一個基準時間,其余的實際計算時間與之對比得到相對計算時間,這就使計算結果比較直觀,并排除了樣品本身性質的影響,從而使處理結果具有普遍意義。本文的基準時間設定為tb＝1,是所有原始數據在一個計算資源上一次性計算完成所需要的時間(注:對上述樣本數據處理大約用了27 h);

(2)并行時間的確定。將原始數據按照保留時間分段,確定不同的分段規則并記錄所花費的時間,然后將計算時間進行歸一化處理。表1是對同一原始數據用不同的任務分解法所用計算時間的統計。

表1 同一數據按不同時間段分解所用計算時間

3 實驗結果分析

表1說明,第一次數據并行處理所需要的時間t′s＝0.47,第二次t′s＝0.27,第二次的并行速度更快一些,大約是單一計算資源完成整個數據處理時間的1/4左右。表1還說明,在數據并行處理過程中,不同的任務分解方法并行時間可能不同,按照保留時間平均分解處理任務,并行速度未必是最快;設想在極端的情況下,如果代謝物的組分集中在保留時間的最后一刻,而仍采取平均分配計算資源的方法,則結果是多計算資源并行時間與單機計算時間差不多,并行處理并未加快速度。

按保留時間平均分配計算任務,并行時間是由質譜儀的工作原理和譜圖的構成決定的,即在不同的保留時間段內,所檢測到的物質組成成分和數量都不相同,因此花費的處理時間也不同。如時間段t2(3～6) 與t1(0～3)相比,檢出的組分數目與所耗費的時間都要多。至此,基于云計算的代謝組學并行速度除了與計算資源的配置、數量有關外,更與任務的分解方式有關。在同樣的計算規模、同樣的計算資源條件下,計算式為

式中N為代謝物檢出的成分數目。

按照式(3)來分配計算資源,能使得并行速度最快,但問題是檢測結束之前N是未知的。實驗證實:根據譜峰和保留時間來進行任務分解,并行速度能得到很大提高;Par Jonsson等人的實驗即是按照譜峰劃分不同的時間窗口分別進行計算,從而提高了計算速度[17]。

4 結束語

隨著代謝組學研究的開展,高效而準確地處理實驗中產生的大量數據是一個艱難的任務。本文提出了基于云計算的代謝組學數據并行處理模式,將云計算與成熟的代謝組學數據處理軟件相結合。云計算可以按需提供大量的廉價計算資源,成熟的開源軟件既能保證數據得到準確的處理,又能降低研究費用。通過對并行任務的分解進行的討論可知,以保留時間作為參數,以譜圖的具體構成作為任務分解的依據,可使并行處理速度最快。實驗也證實,對高通量的代謝組學實驗數據,采用基于云計算的并行處理方式能顯著地提高計算速度。

References)

[1]亓云鵬,胡杰偉,柴逸峰,等.代謝組學數據處理研究的進展[J].計算機與應用化學,2008,25(9):1139-1142.

[2]董繼楊,徐樂,曹紅婷,等.代謝組學數據分析方法及在糖尿病研究中的應用[J].波譜學雜志,2007,24(4):381-393.

[3]張高勤,王玫,王媛,等.海洛因濫用大鼠尿液同體縱向對照模型的代謝組學研究[J].中國藥物依賴性雜志,2013,22(2):85-94.

[4]Clayton T A,Lindon J C,Cloarec O,et al.Pharmaco-metabonomic phenotyping and personalized drug treatment[J].Nature,2006,440 (7087):1073-1077.

[5]Holmes E,Loo R L,Stamler J,et al.Human metabolic phenotype diversity and its association with diet and blood pressure[J].Nature,2008,453(7193):396-400.

[6]許赟.美國空軍未來15年科技發展重點[J].航空科學技術,2014, 25(1):1-10.

[7]科技部.國家重點基礎研究發展計劃和重大科學研究計劃2014年重要支持方向[EB/OL].(2013-02-01)[2014-09-10].http:// www.most.gov.cn/tztg/201302/t20130201_99485.htm.

[8]want E J,Nordstr?m A,Morita H,et al.From exogenous to endogenous:the inevitable imprint of mass spectrometry in metabolomics[J].Journal of Proteome Research,2007,6(2):459-468.

[9]董繼揚,周玲,Cheng Kain-kai,等.Metaproc:一種基于NMR的代謝組學數據處理軟件[C]//第十七屆全國波譜學學術會議論文摘要集.2012:145-146.

[10]李靈巧.GC-MS數據高性能分析算法研究[D].桂林:桂林電子科技大學,2011.

[11]Pluskal T,Castillo S,Villar briones A,et al.MZmine 2:Modular framework for processing,visualizing,and analuzing mass spectrometry-based molecular profile data[J].BMC Bioinformatics, 2010,11(1):395-405.

[12]Lommen A,Kools H J.Met Align 3.0:performance enhancement by efficient use of advances in computer hardware[J].Metabolomics,2012,8(4):719-726.

[13]Dexter Duncan and Andrew Link,Vanderbilt University School of Medicine,Parallel Tandem[EB/OL].[2014-09-06].http:// www.thegpm.org/prallel/.

[14]Koh Y,Pasikanti K K,Yap C W,et al.Comparative evaluation of software for retention time alignment of gas chromatography/ time-of-flight mass spectrometry-based metabonomic data[J].Journal of chromatography:A,2010,1217(52):8308-8316.

[15]陳國良,孫廣中,徐云,等.并行計算的一體化研究現狀與發展趨勢[J].科學通報,2009,54(8):1043-1049.

[16]張良曉.氣相色譜-質譜定性定量分析新方法研究[D].長沙:中南大學,2011.

[17]Jonsson P,Gullberg J,Nordstrom A,et al.A strategy for identifying differences in large series of metabolomic samples analyzed by GC/MS[J].Anal ytical chem,2004,76(6):1738-1745.

[18]Sims K.IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing[EB/OL].[2014-09-06].http://www-03.ibm.com/press/us/en/pressrelease/22613.wss.

[19]李喬,鄭嘯.云計算研究現狀綜述[J].計算機科學,2011,38(4): 32-37.

[20]陳康,鄭緯民.云計算:系統實例與研究現狀[J].軟件學報,2009, 20(5):1337-1348.

Study on metabonomic data processing based on cloud computing

Sun Haitao1,Yang Zhiqiang2,Geng Yue3,Sun Fengxia3
(1.Information Management Department,Shandong Normal University,Jinan 250014,China; 2.Administrative Office of Laboratory and Equipment,Shandong Normal University,Jinan 250014,China; 3.School of Life Sciences,Shandong Normal University,Jinan 250014,China)

Metabonomics is a new study branch of life science research after genomics and proteomics.It is looking for the relationships between metabolites of a creature and its pathological changes.Data processing and analysis are the key link of the metabonomics study.According to the data processing characteristic of metabonomics,a new parallel data processing method based on cloud computing is proposed.A large computing task is divided into several small tasks according to the retention time.An open source software named MZmine is used to analyze these small tasks separately with the computing resources provided by the cloud computing platform.The method could improve the speed of data processing and save the cost.

cloud computing;metabonomics;retention time;data processing;parallel processing

TP393

1002-4956(2015)4-0171-04

2014-09-19

山東省高等學校科技計劃項目(J14LN56)

孫海濤(1979—),男,山東濟南,碩士,實驗師,主要研究方向為云計算、數據處理和支持向量機.

E-mail:sunht＠sdnu.edu.cn