黃文潔,吳紹文,劉 蕊,孔 謙,晏石娟
(1.廣東省農業科學院農業生物基因研究中心/廣東省農作物種質資源保存與利用重點實驗室,廣東 廣州 510640;2.梅州市農林科學院果樹研究所,廣東 梅州 514071)
自1999年Nichilson 等[1]首次提出“代謝組學”的概念后,代謝組學得到不斷發展,成為繼基因組學、轉錄組學和蛋白質組學技術之后的又一門新興組學技術。代謝組學研究旨在通過核磁共振技術(Nuclear magnetic resonance,NMR)、質譜技術(Mass spectrometry,MS)等分析手段對生物體內特定條件下的所有內源性代謝物(<1 000 u的小分子)進行全面定性和定量分析[2-3]。內源代謝物通常是生物反應的中間產物或最終產物,處于不斷變化的過程,因此,代謝組學比其他組學方法更能直接地反映細胞、組織或生物體的表型信息。
質譜分析技術可以實現對生物流體、細胞和組織中數千個代謝物的高通量檢測,具有分析速度快、靈敏度高、檢測代謝物種類覆蓋范圍廣等優點,且隨著高分辨質譜技術的迅速發展,高精確度的離子質量更有助于提高代謝物的鑒定能力,因此,該技術已成為代謝組研究中不可或缺的工具。其中,氣相色譜-質譜聯用(Gas chromatography-mass spectrometry,GC-MS)、液相色譜-質譜聯用(Liquid chromatography-mass spectrometry,LC-MS)技術是目前代謝組學研究中應用最廣泛的質譜分析技術[4]。GC-MS 適用于熱穩定、易揮發或經衍生化后具有揮發性的代謝物,如氨基酸、糖類、有機酸和脂肪酸等初級代謝物[5-8],且不受復雜樣品的基質效應干擾,在定性分析方面具有通用的質譜數據庫。LC-MS 具有更全面和強大的分析能力,結合不同的離子源、電離模式和色譜柱等條件進行分析,可以在不需要復雜的樣品預處理的情況下分離和鑒定樣品中更多種類的代謝物,適用于熱不穩定、不易揮發、相對分子質量較大的物質,如脂質、類黃酮、生物堿、類胡蘿卜素、苯丙素類等代謝物[6,9]。近年來,基于質譜的代謝組學研究被廣泛用于解決生物學研究中的重要問題,包括解析復雜生物合成途徑的代謝調控,探索控制農作物重要性狀形成的分子機制,解析包括進化和馴化綜合征在內的植物遺傳學,以及對生物或非生物應激的代謝反應等[10]。
基于質譜的代謝組學分析技術包括代謝組學樣本前處理、質譜數據采集、代謝組學數據預處理、代謝組學數據統計分析、代謝途徑富集分析以及未知代謝物鑒定等主要步驟。如何通過數據分析方法從采集到的質譜原始數據中提取代謝物離子、獲得代謝物的含量信息、提高代謝物鑒定效率,找出具有生物學意義的信息是代謝組學研究的關鍵環節[11]。前期我們圍繞基于質譜的代謝組學技術發展歷程、工作流程以及其在植物、腸道微生物研究中的應用進展進行了系統的闡述[12-15]。本文將重點圍繞基于質譜的代謝組學數據分析技術展開綜述,包括數據分析策略、數據分析軟件和算法、數據庫構建等方面。
原始質譜數據包含質荷比(Mass-to-charge ratios,m/z)、保留時間(Retention time,RT)和峰強度(Peak intensity)等多維數據[16],涵蓋了樣本中實際代謝物的信息、試劑中雜質和儀器殘留等噪音的質譜碎片特征。因此,對原始質譜數據進行預處理以獲取準確、可靠的代謝物特征的信息,消除隨機誤差(噪音)和其他干擾因素的影響,能夠保障下游數據分析和信息挖掘的準確性[17]。質譜數據預處理主要包括峰提取、峰對齊和歸一化等主要步驟。目前代謝組學研究群體常用的一些質譜數據預處理分析軟件及其功能介紹見表1。

表1 質譜數據預處理常用軟件Table 1 Common software for mass spectrometry data pre-processing
XCMS 是LC-MS 數據預處理最常用的軟件之一,它是基于R 語言開發的,針對不同類型的質譜數據建立了不同的特征峰檢測和峰對齊算法,也適合于GC-MS 數據預處理。XCMS 可以實現質譜數據過濾、峰識別、峰提取、峰對齊和定量等功能,但在分析大規模樣品時比較耗時。此外,XCMS 可以與其他R 包如ggplot2、prcomp 和heatmap2 等,整合進行多變量統計分析、聚類分析等[18]。最新開發的XCMS Online是XCMS 的網頁版本,支持多種實驗方案數據分析,還可進行單變量分析、多變量分析等統計分析以及代謝途徑富集分析[19]。Lommen[20]開發了MetAlign 軟件,可用于GC-MS 和LC-MS 數據預處理,支持數據格式自動轉換、計算精確的質量數、基線校正、峰提取、濾噪及超1 000 個數據集的峰對齊,該軟件的缺點也是在大規模數據分析中比較耗時。此外,還有不少軟件可同時兼顧GC-MS 和LC-MS 質譜數據的預處理,如Normalyzer[21]、RUV-2[22]、NOREVA[23]軟件可適用于GC-MS 和LC-MS 質譜數據的歸一化處理;MetTailor[24]、MetDIA[25]、TracMass 2[26]、MetFlow[27]、IP4M[28]、WiPP(Workflow for improved peak picking)[29]等軟件適用于濾噪、峰提取和峰對齊。
Pluskal 等[30]開發了一個基于Java 的開源LC-MS 質譜數據分析工具MZmine2,它可以實現數據的批處理和結果可視化,具有代謝組數據的峰提取、濾噪、解卷積、譜峰匹配和標準化等預處理功能。R?st 等[31]開發了一個基于C++編寫的開源軟件OpenMS,提供了185 個工具和現成的工作流程用于LC-MS 質譜數據處理、可視化和定量分析,該軟件為用戶提供了高度靈活和專業的軟件環境,以減少數據處理過程中出現潛在的錯誤分析。Tsugawa 等[32]開發了一款專門用于解決數據非依賴采集(Data independent acquisition,DIA)LC-MS 數據解卷積的軟件MS-DIAL,該軟件兼具有濾噪、峰提取、峰對齊、歸一化等功能。Delabriere 等[33]開發了一款用于分析大規模代謝組學和脂質組學LC-MS 數據的軟件SLAW,該軟件具有程序參數自動優化、峰提取、峰對齊、缺值填充、MS2 離子碎片信息提取和同位素模式識別等功能。Guo 等[34]開發了一個多功能的代謝組數據分析R 語言包JPA,提供全面系統的代謝物特征提取和注釋功能,其不僅可以直接從LC-MS原始數據中提取代謝物特征信息,而且還從其他數據處理軟件(如XCMS、MS-DIAL、MZmine 2)處理的結果中對代謝物特征信息做進一步的提取。由于背景噪音、重復峰或污染會導致前處理后的數據存在假陽性色譜峰,因此還有一些功能相對專一的軟件如ApLCMS[35]、質譜特征列表優化器(Mass Spectral Feature List Optimizer,MS-FLO)[36]、CPVA[37]被開發并應用于消除假陽性色譜峰,其中近期報道的Peakonly 是一種基于卷積神經網絡(CNN)的深度機器學習算法平臺,用于檢測LC-MS 原始質譜數據的真實陽性色譜峰,該算法在檢測或排除低強度噪聲峰值方面具有較高的靈活性,對真實陽性色譜峰的檢測精度非常高[38]。還有不少軟件被開發用于LC-MS 質譜數據的濾噪、峰提取、峰對齊等,如peakPantheR[39]、DecoID[40]、Galaxy-M[41]、SPICA[42]、MET-COFEI[43]等。
由于LC-MS 和GC-MS 兩種方法在電離模式、色譜分離、數據采集等方面都存在顯著差異,因此,也有一些專門適用于GC-MS 質譜數據分析的軟件。AMDIS 是GC-MS 質譜數據預處理最常用軟件之一。該軟件可以有效克服GC-MS 定性分析中基質效應和共洗脫效應的干擾,是一款功能強大的解卷積軟件,自動完成峰濾噪、峰提取并利用GC-MS 數據庫完成譜圖檢索匹配[44]。Hiller 等[45]開發了一款針對GC-MS 數據開展有效峰提取和峰鑒定的軟件MetaboliteDetector,該軟件提供了一個交互式用戶界面,以便沒有經驗的用戶也可以輕易使用;同時,該軟件還通過計算未知化合物的KI 與正構烷烴混合物的保留指數進行比對實現對未知化合物的準確定性。Ni等[46]開發了一個基于質譜碎片離子分層聚類的解卷積算法平臺ADAP-GC,具有峰提取、峰對齊等一系列數據處理功能,并且隨著該平臺的更新,最新版本ADAP-GC 4.0 對代謝物峰檢測的靈敏度、準確性和穩定性方面都有所提升[47]。Domingo-almenara 等[48]開發了一個集成的R 語言方法包eRah,它包含了一種基于盲源分離(blind source separation,BSS)的多變量技術的色譜解卷積方法,具有樣品峰提取、峰對齊、定量和利用譜圖數據庫實現代謝物的自動識別的功能。最近報道的QPMASS 軟件,可以適用于大批量的GC-MS數據分析的軟件,實現樣品分組、峰提取、峰對齊、定量離子選擇、缺失值過濾和填充等功能,使峰鑒定的假陽性和假陰性誤差大大降低,其誤差小于5%[49]。由于質譜檢測的代謝物的相對強度或濃度存在數量級的差異,為了消除極限值數據在統計分析過程中忽略具有重要生物學意義但含量較低的代謝物的情況,在數據分析過程中需要減少極限值造成的誤差。因此,在數據預處理后需要對數據進行歸一化處理(normalization)或標度化(scaling)和數據轉換等進一步的處理,系列軟件被專門開發用于數據歸一化處理,包括歸一化自動編碼器(Normalization Autoencoder,NormAE)[50]、MetTailor[24]、Normalyzer[21]、EigenMS[51]、MSPrep[52]等。此外還有很多軟件在被開發用于GC-MS 質譜數據的濾噪、峰提取、峰對齊等,如TagFinder[53]、MetaQuant[54]、PyMS[55]、MetaMS[56]、Maui-VIA[57]、GC2MS[58]等。
采集的質譜原始數據通過濾噪、解卷積、峰識別、峰提取、峰對齊,歸一化和缺失值填充等預處理后,形成的數據矩陣可用于進一步的數據統計分析。代謝組學數據統計分析主要分為單變量統計分析和多維統計分析,單變量統計分析包括相關性分析,例如皮爾森相關性系數、斯皮爾曼相關性系數、方差分析(ANOVA)和t-test 檢驗分析等;多維統計分析又可分為非監督模式識別方法和監督模式識別方法兩大類,非監督模式識別方法包括主成分分析(Principal component analysis,PCA)、自組織投影(Selforganizingmap,SOM)、聚類分析(Hierarchical cluster analysis,HCA),監督模式識別方法包括偏最小二乘法(Partial least squares,PLS)、偏最小二乘法-顯著性分析聯合法(Partial least squares-discriminant analysis,PLS-DA)、人工神經網絡(Artificial neural network,ANN)、線性判別分析法(Linear discrimination analysis,LDA)、隨機森林(Random forest,RF)和支持向量機法(Support vector machine,SVM)等[4,16],其中PCA 和PLS-DA 是目前代謝數據分析中使用最廣泛的方法。SIMCA-P 是一個功能強大、可實現多元變量統計分析的商業軟件,將數據轉換成可視化信息,并應用于鑒定生物標志物和尋找差異代謝物等[59]。CV-ANOVA 是基于交叉驗證預測殘差建立PLS 和OPLS 模型并進行方差分析,其優勢是可以將交互驗證的結果以統計學意義的p值展現出來,但該方法對于小樣本集的檢驗效果較差[60]。MetabR 使用線性混合模型對數據進行歸一化處理然后采用方差分析ANOVA 檢驗分析效果[61]。相比之下,種群模型分析-隨機森林(Model population analysis-random forest,MPA-RF)是將隨機森林與種群模型分析相結合,用于選擇差異代謝物信息[62]。Metabomxtr 通過建立混合分析模型處理代謝物缺失值的問題[63]。許多通用的統計軟件能夠執行常規的統計分析功能,但也有不少軟件將其他代謝組學數據分析功能整合到同一個工作流程中,如Metabololyzer[64]、metaPServer[65]、MSPrep[52]等。
富集分析是通過超幾何分布檢驗(Hypergeometric test)或 Fisher 精確概率法建立統計模型分析數據中差異代謝物在各個生物通路中的富集情況,以此來幫助識別和解釋其生物學功能。Xia 等[66]開發了第一個小分子富集分析軟件MSEA(Metabolite set enrichment analysis),它通過識別和解釋代謝產物濃度變化模式來幫助研究人員注釋代謝物的生物學意義,該方法的關鍵是通過構建分布于各個代謝途徑上的1 000種具有相關性的代謝物數據庫進行富集分析,MSEA 可為代謝組學研究提供過表達分析(Over representation analysis,ORA)、單樣本分析(Single sample profiling,SSP)和定量富集分析(Quantitative enrichment analysis,QEA)3 種不同的富集分析。由于MSEA 分析過程中常常對重疊代謝物集的權重分配不當而導致假陽性率較高,因此Deng 等[67]提出了一種偏最小二乘擴展模型,用于解決重疊代謝物集的富集分析假陽性高的問題,稱為ogPLS 分 析(Overlapping group PLS),將ogPLS模型的權重向量分解為代謝通路特異性子向量,從而再重新分配重疊代謝物的權重。以上兩種方法相比,ogPLS 方法具有較高的準確率、較低的假陽性率和更好的穩定性,適用于重疊代謝物集分析。Moreno 等[68]開發了一個基于ChEBI(Chemical entities of biological interest)實體小分子數據庫進行富集分析的工具BiNChE,該工具提供基于ChEBI 角色實體(ChEBI Role Ontology)或ChEBI 結構實體(ChEBI Structural Ontology)的簡單的加權和片段分析,有助于探索代謝組學或其他系統生物學研究背景下產生的大量小分子,分析結果以交互式圖形展示,并可導出為高分辨率圖像或網絡格式圖片。MetaboAnalyst4.0 經過近10 年的發展已經成為代謝組學分析中使用最廣泛的平臺(30 萬用戶)之一,支持LC-MS 原始質譜數據預處理、數據歸一化、統計分析、代謝通路富集分析等,旨在實現代謝組學的高通量分析,并縮小從原始數據到生物學見解之間的距離[69]。
2.3.1 基于數據庫檢索的代謝物鑒定 代謝物鑒定是基于質譜的代謝組學研究中最具挑戰性的步驟,代謝物鑒定的準確性在很大程度上取決于準確質量數、質譜譜圖、離子碎裂模式、保留時間等信息。基于數據庫檢索的代謝物鑒定方法是最傳統的方法,代謝物鑒定的常用數據庫見表2。

表2 代謝物鑒定常用數據庫Table 2 Common databases for metabolites identification
NIST 數據庫是譜庫檢索中應用最廣泛的質譜譜圖數據庫之一,可以用于譜庫檢索以識別GC-MS 和LC-MS 質譜中的未知化合物。NIST 數據庫包含有多個碰撞能級采集的二級(MS/MS)質譜圖、不同加合離子的質譜圖、化合物名稱、分子式和CAS 號等信息[70]。HMDB 包含關于人體小分子代謝物的詳細信息,截至2022 年9 月該數據庫包含220 945 個水溶性和脂溶性代謝物信息,同時還有DrugBank、T3DB、SMPDB 和Food DB 4 個子數據庫可應用于藥物、藥物代謝物、毒素、環境污染物、人類疾病相關代謝物和食物方面的研究[71]。GNPS 是一個利用分子網絡構建天然產物數據庫,具有代謝組學數據分析功能,其涵蓋了Massbank、HMDB、NIST 等第三方數據庫的信息,以及實驗室采集的化合物譜圖和全球多個科研社團提供的質譜數據庫,實現MS/MS 質譜數據共享功能[72]。METLIN 是另一個被廣泛使用的高分辨質譜數據庫,涵蓋了不同碰撞能級和正/負模式條件下采集的MS/MS 圖譜,可以找到代謝產物的碎片離子、其來自標準品及其穩定同位素標記的類似物生成的譜圖,在未知物的鑒定過程中起著關鍵作用[73]。MassBank 數據庫包含了來自不同實驗室、不同儀器型號以及不同質譜參數條件下采集的多級質譜數據用于代謝物鑒定代謝物,該數據庫可以通過化學名稱、質量數、質荷比m/z 和分子式進行搜索,截至2022 年9 月數據庫涵蓋了15 075 個代謝物的90 190 個質譜數據,其中有68 941 個二級質譜圖,對化合物鑒定非常有用[74]。GMD 是一個植物代謝物數據庫,含有大量的植物代謝產物的GC-MS圖譜(特別是衍生化后的),用戶可以導入樣品的GC-MS 數據進行搜索比對和鑒定。該數據庫僅收錄植物的代謝組,并含有部分代謝產物在植物中的濃度信息[75]。ReSpect 是另一個植物代謝物數據庫,包括文獻記錄以及真實標準品的MS/MS數據[76]。針對脂類物質,Lipid Maps 是一個包含生物相關脂質結構和注釋的數據庫,截至2022 年9 月包含了47 718 種獨特的脂質結構,是世界上最大的脂質公共數據庫。支持通過脂質類別、常用名、系統命名、分子量、InChIKey 命名或Lipid Map 編號進行檢索[77]。此外,還有一些常見的基于化合物譜庫(譜圖)信息建立的數據庫,如MetaboLights[78]、PubChem[79]、mzCloud[80]、Fiehn[81]、MoNA[82]、LipidIMMS Analyzer[83]等。
盡管從上述數據庫中通過圖譜匹配可以鑒定非常多的代謝物,但仍有許多代謝物由于缺乏標準品MS/MS 圖譜而難以鑒定出來。因此,基于代謝途徑而開發的數據庫應運而生。KEGG 是最重要的生物信息學數據庫之一,涵蓋了代謝通路和整合代謝、基因和蛋白通路的信息。截至2022年10 月9 日,KEGG 數據庫含有558 條代謝通路和18 991 個代謝產物和化學結構信息,通過對生物代謝物分子的相互作用和反應網絡實現對代謝物的注釋[84]。MetaCyc 是一個包含了初級和次級代謝物途徑的數據庫,其中收集了來自3 000 多種生物近2 800 個代謝通路[85]。PlantCyc 9.5 數據庫(https://plantcyc.org/databases/plantcyc/9.5)提供超過350 種植物和800 條代謝通路信息,包含代謝通路、催化的酶和基因,以及各種植物代謝物,同時整合了各種植物代謝通路數據庫,包括MetaCyc 數據庫中所有的植物代謝通路。WikiPathways 包含30 多個物種的代謝通路,如水稻(Oryza sativa)、玉米(Zea mays)等[86]。
2.3.2 基于分子網絡技術的代謝物鑒定 2012年,Watrous 等[87]首次開發了分子網絡方法用于代謝物鑒定,是基于質譜的代謝組學數據分析的一個突破性進展,這一方法通過MS/MS 譜圖對比,構建以譜圖為節點、譜圖相似性為邊線的網絡,從而進行代謝物的注釋。分子網絡方法能夠有效地利用已有數據,如GNPS 中集成的大規模代謝組學、分子網絡數據集,從而增強對代謝物的注釋能力[72]。目前,已有許多先進的分子網絡工具被開發并應用于LC-MS/MS 數據分析和代謝物的注釋。例如,在對復雜生物基質進行分析時,首先指認出提取物中的已知化合物(即去重復)被認為是未知代謝物鑒定的關鍵步驟。Allard等[88]提出了一種分子網絡和天然產物模擬MS/MS 碎片數據庫(in-silico MS/MS database,ISDB)相結合的去重復策略,并使用這一策略分析了植物和真菌提取物,結果表明模擬MS/MS 碎片數據庫能夠有效地幫助分子網絡中節點的注釋。基于結構相似性的分子網絡也被應用于提高模擬碎片峰預測的準確性,從而增強其注釋能力[89]。
針對天然產物的鑒定,Mohimani 等[90-91]使用去重復的策略開發了DEREPLICATOR和DEREPLICATOR+算法。這兩種算法中,DEREPLICATOR 通過將分子網絡用于多肽匹配譜圖的搜索,實現了已知多肽天然產物新變體的可變去重復,并允許對網絡中的譜圖所代表的多肽結構相關性提出假設。經測試,在GNPS分子網絡平臺中搜索近1 億個串聯質譜后,DEREPLICATOR 能夠鑒定的多肽天然產物及其新變體的數量相比于以往的去重復策略有數量級的提升[90]。由于這一方法只能鑒定多肽天然產物,作者又開發了DEREPLICATOR+算法,將上述策略拓展于聚酮化合物、萜烯、苯類、生物堿、類黃酮等天然產物的鑒定,在GNPS 分子網絡平臺中搜索近2 億個串聯質譜的結果顯示DEREPLICATOR+能夠鑒定的分子數相比于以往的方法提高了5 倍[91]。
上述分子網絡以及結合ISDB 的方法使用已知標準品或者模擬得到的碎片離子譜圖庫來鑒定代謝物,然而碎片離子譜圖包含的與生物化學特征相關的信息卻被忽略了。為此,Van der Hooft等[92]研究組開發了MS2LDA,一種無監督的分析方法,這一方法通過在碎片數據中提取生物化學相關的分子亞結構,并作為共同出現的分子片段和中性丟失碎片峰的集合(Mass2Motifs),然后使用分子共享的亞結構進行分組,再根據這些亞結構來推定新的結構注釋。使用MS2LDA 分析4 種啤酒提取物的結果表明,在沒有訓練數據的情況下,使用30 個結構表征的Mass2Motifs能夠注釋的分子數為傳統庫匹配方式的3 倍。為了整合分子網絡、生物化學特征和模擬碎片峰等多種來源的結構信息,以增強從不同數據集中提取化學信息的能力,Ernst 等[93]開發了MolNetEnhancer 以提供代謝組學數據的更全面的化學概述,并闡明每個碎片峰的結構細節,4 個植物和細菌的研究案例顯示MolNetEnhancer 能夠通過組合多個獨立的分析流程來幫助研究者解讀代謝組學數據。
此外,一些新的策略被整合到分子網絡分析中。例如,通過整合高分辨率同位素模式分析和碎片峰樹(Fragmentation trees),SIRIUS 4 能夠完成大型MS/MS 數據集的分子結構評估,并通過分子網絡傳播注釋[94]。結合貝葉斯統計和Gibbs采樣,Ludwig 等[95]建立了一種不依賴數據庫的分子式注釋方法ZODIAC,通過構建一個相對更小的相關化合物網絡,其運算速度提升了25 倍。基于代謝反應網絡的遞歸算法,Shen 等[96]開發了一種使用MS/MS 譜圖來表征初始種子代謝物,并利用其實驗得到的MS/MS 譜圖作為替代譜圖來注釋其反應配對的領近代謝物的方法MetDNA。Beauxis 等[97]則整合MS/MS 譜圖、GNPS 中的分子網絡、化學反應庫和MS/MS 譜圖預測等信息開發了MetWork。一個比較大的進步是基于特征的分子網絡方法(Feature-based molecular networking,FBMN)的開發,相比于傳統的方法,FBMN 整合了相對定量和離子淌度數據,從而實現了對同分異構體的分辨和分析[98]。另外,Tripathi 等[99]提出了一種從碎片峰譜圖預測分子指紋的分層組織策略Qemistree,這一方法可使用描述樣本信息的元數據和化學本體來表示質譜數據,通過將分子關系表示為樹,實現了使用基于系統發育的工具來分析代謝組學數據。
近年來,色譜和一級質譜信息(MS1)也被用于分子網絡分析,以進一步開發高效的代謝物注釋和鑒定方法。例如,Chen 等[100]開發了一種全局網絡優化方法NetID 來注釋非靶向代謝組學數據,這一方法根據對應于相關化學分子增減的MS1 質量差異和MS/MS 譜圖的相似性來進行網絡的全局優化。將此方法應用于酵母和小鼠數據的分析,作者鑒定到5 種以前未識別的代謝產物。另外,在電離過程中,分子通常會形成具有不同碎裂行為的多種離子,而在傳統的分子網絡中這些離子的碎片峰通常不相連,導致相同類別的化合物的分子網絡冗余且不相連。為了克服這一瓶頸,Schmid 等[101]開發了一種離子識別分子網絡算法(Ion identity molecular networking,IIMN),將色譜峰形狀的相關性分析整合到分子網絡中,以連接和折疊同一分子的不同離子種類。此外,Senan 等[102]還建立了一種復雜生物樣品和純化合物共洗脫曲線的相似性網絡結合計算得到的加合物形成的自然頻率,對冗余的MS1 特征進行注釋,從而為單個化合物提供準確注釋的方法CliqueMS。近期,Zhou 等[103]更是進一步開發了知識引導的多層網絡算法(Knowledge-guided multi-layer network,KGMN),KGMN 使用基于知識的代謝反應網絡、知識引導的MS/MS 相似性網絡和全局峰相關網絡,實現了未知代謝物的有效注釋。總的來說,通過多種實驗數據、計算方法和分子網絡算法的整合,實現了相對有效和準確的代謝物注釋,具有廣泛的應用前景。常見的用于分子網絡鑒定的軟件見表3。

表3 基于分子網絡的代謝物鑒定相關軟件Table 3 Software for molecular networking-based metabolite identification
2.3.3 基于其他技術的代謝物鑒定 盡管基于或整合分子網絡的工具在代謝組學數據分析方面非常流行、通用且高效,但構建的網絡依賴于分析參數,且沒有保留對譜圖相似性的全局分析。因此,一些基于降維和機器學習的分組方法被應用于質譜數據的分析,以提供分子網絡中無法獲得的信息,有望進一步提高代謝物注釋的能力。例如,Bittremieux 等[104]提出了一種快速譜圖相似性搜索方法Falcon,能夠對數百萬MS/MS 譜圖進行有效的聚類和分組。傳統的計算方法通常使用譜圖相似性作為分子結構相似性的度量,兩種指標的相關性制約了分析方法的有效性。為了解決這一問題,Huber 等[105]開發了一種孿生神經網絡算法MS2DeepScore,這一方法實現了根據兩個化學結構的MS/MS 譜圖來預測其結構相似性。Falcon 和MS2DeepScore 是兩種大規模MS/MS 譜圖比較和分析的強大工具,被認為在代謝組學數據分析和注釋方面具有較大潛力。此外,機器學習算法也被應用于預測色譜保留時間,以增強其在代謝物注釋中的可用性。García 等[106]將多種機器學習算法應用于預測色譜保留時間并整合到代謝物注釋的流程中,以獲得候選注釋的Z-cores,實驗測試結果顯示68%的正確注釋出現在按質量過濾并按Z-cores 排序的前3 個候選分子中,表明其對支持代謝物注釋的有效性。而針對模擬譜圖無法區分正確和錯誤注釋的問題,Hoffmann等[107]近期開發了一種模擬譜圖數據庫的生成、注釋和置信度評分相結合的方法COSMIC(Confidence of small molecule identifications),這一方法庫搜索的注釋錯誤率更低,并實現了多個未知結構的天然膽汁酸的準確注釋。
除了上述數據分析方法,全面、自動化和可重復的代謝組學分析流程對于準確有效的化合物注釋也至關重要。為此,Shen 等[108]首先開發了一個基于LC-MS 數據進行自動化合物注釋的R包metID。metID 結合了所有主要數據庫的信息,是一個靈活、簡單、強大的工具,可以安裝在所有平臺上。使用metID 分析一個已發表案例數據的結果顯示其不僅完成了發表論文中所有的463個代謝物的注釋,還注釋了479 個新的代謝物[98]。基于這一工具,作者又進一步開發了面向對象的計算框架TidyMass,實現了基于LC-MS 的非靶向代謝組學數據處理和分析的可追溯、可共享和可重復[109]。另外,Yu 等[110]提出了一種自動化的、全面且無統計模型的工作流程PMDDA(Paired mass distance-dependent analysis),這一流程根據MS1 的特征進行全面的MS/MS 數據采集,實現了更多化合物的注釋。
總的來說,目前已經研發了很多新的代謝組學數據分析和注釋工具,大大促進了這一領域的發展。同時,大量的新型工具也使得用戶很難判斷其適用性,盡管開發者通常會將其研發的工具與其他方法進行比較,但目前仍然缺少標準化的測試數據集來進行關鍵的性能評估和比較。建立適用于評估分析工具通用性、有效性和重復性的大量、隨機的數據集,不僅能夠幫助用戶選擇其需要的工具,也能促進方法開發的標準化,是未來值得探索的重要方向。
基于GC-MS 和LC-MS 等質譜系統的代謝組學數據分析主要包括質譜數據預處理、代謝組學數據統計分析、代謝途徑富集分析以及代謝物鑒定等步驟。過去十來年許多關于質譜數據預處理、多維變量統計分析、代謝途徑分析和代謝物數據庫的分析軟件被相繼開發和成功應用。特別是近年來計算代謝組學方法迅猛發展,極大地推動了代謝組學數據分析流程的自動化和規范化,為大規模代謝組學數據的充分挖掘打下堅實基礎。而分子網絡、機器學習等前沿方法也大大提高了代謝物的注釋和鑒定能力,顯著提升了代謝物特征信息提取的準確性以及代謝物鑒定的覆蓋范圍。然而,由于生物樣本的復雜性以及現有質譜分析技術的局限性,使得代謝組學所能檢測并注釋的代謝物數量遠遠少于生物體內源代謝物的數量,難以滿足現代研究發展的要求。因此,在未來的研究中,首先需要進一步發展高通量、高分辨率和高靈敏度的先進質譜數據采集技術,提高對低豐度代謝物的檢測能力,以實現對代謝組學原始數據更充分地采集,從而構建更全面的代謝物質譜數據庫。其次,深入開發更強大的計算代謝組學分析工具對于提高代謝物的鑒定和注釋能力也至關重要。已有研究顯示代謝物的生物化學特征、反應網絡等信息,能夠明顯提升分子網絡技術對代謝物的注釋能力;同一條代謝途徑常常受到相同遺傳位點的調控,因此,在已知生化反應和分子網絡分析的基礎上再整合代謝物合成的遺傳位點等信息,也有望進一步提高代謝物的鑒定數和準確度。此外,不斷優化代謝物注釋的算法必將極大地促進代謝組學研究的發展,也是未來代謝組學數據分析研究的重點。
我們相信,隨著高分辨質譜儀的更新迭代和不同代謝組數據分析方法的相繼開發,定會極大提高基于質譜的代謝組學技術分析能力,主要表現為代謝物的分析效率、鑒定數量、靈敏度和精準度得到不斷提升。在農業領域,基于質譜的代謝組學分析將助力于農業生物復雜性狀形成的機制探索,農業生物重要代謝途徑的解析、農作物生長發育與脅迫應答的代謝調控網絡研究,以及轉基因安全評估等不同學科領域。