李鵬輝, 鄧伶莉,2, 羅 嬌, 李 巍, 寧 晶, 丁健樺, 鄔小萍
(1. 東華理工大學江西省質譜科學與儀器重點實驗室, 南昌 330013;2. 東華理工大學信息工程學院, 南昌 330013; 3. 南昌大學第一附屬醫院, 南昌 330123)
?
多批次肝衰竭患者呼出氣體的電噴霧萃取電離質譜檢測及代謝組學數據分析
李鵬輝1, 鄧伶莉1,2, 羅 嬌3, 李 巍3, 寧 晶1, 丁健樺1, 鄔小萍3
(1. 東華理工大學江西省質譜科學與儀器重點實驗室, 南昌 330013;2. 東華理工大學信息工程學院, 南昌 330013; 3. 南昌大學第一附屬醫院, 南昌 330123)
采用高分辨電噴霧萃取電離質譜(EESI-MS)技術對肝衰竭患者和健康志愿者呼出氣體樣本進行快速檢測, 結合多塊偏最小二乘分析(MB-PLS)方法, 對多批次獲取的呼出氣體代謝數據進行統計建模分析, 并與傳統的PLS方法進行比較. 結果表明, MB-PLS方法能有效消除批次差異對統計建模的影響. 此外, 利用MB-PLS模型變量VIP值對變量進行篩選, 可降低數據的冗余, 消除無關變量對模型的影響, 從而有效提高了模型的性能.
呼出氣體; 代謝組學; 電噴霧萃取電離質譜; 多塊偏最小二乘分析
呼吸是人體基本的生命體征之一, 人體呼出氣體作為生物媒介攜帶了大量生理/病理信息, 有研究報道在健康人體呼出氣體中檢測出3000多種化合物[1]. 傳統的代謝組學方法主要分析生物體液[2~4](血清、 尿液、 唾液、 乳液和組織液等)和生物組織中代謝物水平[5]的變化規律, 實際上生物呼出氣體也可作為代謝組學的研究對象, 用于探索機體生理/病理狀態[6,7]. 近年來, 在基于代謝組學的疾病研究領域[8~10], 尤其是肝病相關領域, 呼出氣體因其安全、 采樣方便且非侵入性、 不涉及個人隱私問題以及攜帶大量代謝信息等特點而備受關注[11,12].
人體呼出氣體中代謝物含量極低[13], 因此對檢測儀器的靈敏度有很高的要求, 這一直是限制呼出氣體代謝組學發展的重要原因之一. 隨著現代分析技術的快速發展, 呼出氣體檢測技術也逐漸豐富, 如氣相色譜-質譜聯用(GC-MS)[1,12,14]、 離子分子反應質譜(IMR-MS)[15]、 電子鼻傳感技術(EN)[16,17]、 激光光譜(LS)[18]、 選擇離子流動管質譜(SIFT-MS)[19]和質子轉移反應質譜(PTR-MS)[20]等技術. 電噴霧萃取電離質譜(EESI-MS)技術是一種新型直接質譜分析方法[21,22], 可在無需樣品預處理條件下對復雜機體進行直接快速檢測, 其檢測靈敏度高、 響應速度快, 能夠實現呼出氣體中痕量揮發性有機化合物的原位、 實時、 在線分析[23~25]. 然而, 由于呼出氣體的有效存儲時間短, 難以在短時間內完成大量樣本的收集與檢測. 在數據統計分析方面, 為保證結果的可靠性, 通常對樣本量有一定要求. 多批次樣本雖然可以獲取足夠的數據量, 但由于人體呼出氣體受環境空氣影響較大, 不同批次(不同時間或地點)收集的樣本其檢測結果存在較大的差異. 若直接將不同批次樣本數據合并成一個大數據矩陣, 采用代謝組學中常用的主成分分析(PCA)[26]方法或偏最小二乘分析(PLS)[27]方法對其進行統計分析, 由于批次間差異信息的干擾, 通常很難準確提取出有用的特征信息.
代謝組學數據往往非常復雜, 因此數據處理已經成為代謝組學研究中的關鍵技術和瓶頸之一. 不同批次獲取的數據存在批次間的變異, 致使不同批次的數據難以集成. 雖然有一些樣本歸一化方法已經被開發來解決批次間差異的問題, 例如常數和歸一化法[28]、 內標法[29]、 質量控制法[30]和基于方差的歸一化法[31]等, 但是每種方法都有其優點和缺點. 多塊偏最小二乘分析(Multi-block PLS, MB-PLS)是近年來廣泛應用的一種基于監督的多塊數據分析方法[32], 該方法能利用數據塊之間的關聯性將數據塊進行有效整合, 并對數據中相關特征信息進行提取. 因其結果是由多個數據塊綜合分析得到, 故相比于單個數據塊的分析結果為更為全面、 準確. 本文利用EESI-MS技術獲取了4批次肝衰竭患者和健康志愿者呼出氣體的代謝組學數據, 根據各批次數據間“變量空間”一致的特點, 采用相應的MB-PLS方法對其進行整合建模, 并與傳統的PLS方法進行比較.

Fig.1 Two typical multi-block problems(A) The objects are in common, but the variables measured on these objects are different; (B) the variables are in common, but the objects are different.
代謝組學數據分析中的多塊數據問題通常包括2類: “樣本空間”相同但“變量空間”不同; “變量空間”相同但“樣本空間”不同(圖1). 對于采用EESI-MS技術獲取的各批次呼出氣體代謝組學數據, 雖然不同批次的樣本不同(即“樣本空間”不同), 但是所檢測的代謝物變量是一致的(即“變量空間”相同), 與圖1(B)描述問題相等.

(1)
在PLS模型中, 變量投影重要性指標VIP(Variableimportanceintheprojection)用于評估各變量在模型中的重要性. 對于K個成分的MB-PLS模型, 變量i在該模型中的投影重要性指標VIP定義如下:
(2)
2.1 儀器與試劑
EESI離子源(東華理工大學研制)[20,22];LTQ-Orbitrap-XL高分辨質譜儀(美國Finnigan公司), 配有Xcalibur數據處理系統;T2PV/L型5L-Tedlar?采樣袋(大連德霖氣體包裝有限公司); 甲醇(色譜純,SKChemicals公司).
2.2 研究對象與分組
在遵守醫學道德準則的相關規定下, 分4個批次收集就診于南昌大學第一附屬醫院感染科的共35例肝衰竭患者和35例健康志愿者的呼出氣體. 肝衰竭患者年齡均在38~65歲之間, 排除同時患有糖尿病、 脂肪肝、 酒精肝、 自身免疫性肝病、 腎病、 呼吸系統疾病、 未控制的精神病及活動性感染等疾病的患者; 健康志愿者均來自患者家屬和醫院醫務人員, 既往無肝病病史, 無煙酒嗜好, 年齡在28~55歲之間. 各批次樣本收集的具體信息如表1所示.

Table 1 Four batches of exhaled breath sample
2.3 質譜條件及呼出氣體的收集與檢測
高分辨質譜儀在正離子檢測模式下工作, 掃描范圍m/z50~700; 離子傳輸管溫度100 ℃; 噴霧電壓3.5 kV; 霧化氣(N2)壓力1.2 MPa; 萃取劑為純甲醇, 流速5 μL/min; 氣體樣品通過轉子流量計控制流速為800 mL/min; 其它條件由LTQ-Orbitrap-XL系統自動優化得到. EESI 離子源2個毛細管噴霧口之間距離1~2 mm, 夾角為60°, 到質譜進樣口的距離為5 mm, 詳細參見文獻[20,22]. 在高分辨質譜掃描模式下, 一級質譜質量分辨率R=60000.
用5L-Tedlar?采樣袋收集呼出氣體樣本, 采樣袋在使用前以純凈氮氣沖洗3次. 所有受試者在采樣前 10 h內禁食、 禁煙、 禁酒, 采樣前 24 h 內禁止食用辛辣物, 晨起后僅以清水漱口. 受試者在通風條件良好的環境下呼吸30 min以上, 靜息狀態下向采樣袋內深呼氣, 直至采樣袋充滿為止. 收集后在3 h內完成EESI-MS檢測, 并獲得相應的代謝指紋圖譜. 各個批次疾病組(肝衰竭患者)和對照組(健康志愿者)的代謝指紋圖譜如圖2所示.

Fig.2 EESI-MS spectra of exhaled breath from liver failure patients and healthy volunteers (A)—(D) MS data of exhaled breath from liver failure patients; (E)—(H) MS data of exhaled breath fromhealthy volunteers. Each row represents a batch.
3.1 數據預處理

3.2 數據統計分析與建模
設置類別矢量yb(b=1, 2, ……4), 其中“1”表示疾病組, “0”表示對照組. 采用MB-PLS方法對4個批次數據Xb(b=1,2,3,4)進行統計建模. 通過7-fold交叉驗證法確定MB-PLS模型的最優成分數為2個. 圖3(A)為MB-PLS模型前2個成分對應的得分圖. 圖中每1個點對應1個樣本, 不同批次樣本用不同的圖形進行區分(如, 圖形△代表第1批次樣本); 藍色和紅色分別表示疾病組與健康組樣本. 可見, 疾病組與對照組樣本之間存在明顯的分組趨勢, 根據公式X計算類別矢量的回歸值, 利用分類準確率(CA), 即正確分類的樣本數除以總樣本個數, 來描述樣本可分性, 計算結果CA=0.93. 圖3(A)中, 相同類別的不同批次樣本相互混疊, 無明顯分組趨勢, 表明模型中未提取出各批次數據塊之間的差異信息, 因此批次間的差異信息并未對該模型產生干擾.

Fig.3 Scores plot of MB-PLS model(A) and PLS model(B) by the four batches of data respectivelyThe batches labeled by different graphics, the hollow red graphics and solid blue graphics for the disease group and control group respectively.
為與傳統PLS方法進行對比, 將4個批次數據串聯成1個大的數據矩陣, 即X=(X1X2X3X4)T, 并采用PLS方法進行分析, 模型前2個成分的得分圖如圖3(B)所示. 在圖3(B)中, 雖然同一批次疾病組樣本與對照組樣本之間表現出一定的分組趨勢, 但是樣本間批次差異信息在模型中占絕對優勢, 嚴重干擾了與疾病相關的特征信息的提取. 在不同批次的樣本間, 疾病組樣本難以與對照組樣本區分開來, 分類準確率CA僅為0.77.

Fig.4 Model validation results of MB-PLS(○) andPLS(△) respectively
采用蒙特卡洛交叉驗證法(MCCV)[34]對MB-PLS模型進行了驗證. 在各批次樣本中隨機選取70%的樣本作為訓練集用于建立分類模型; 剩余的樣本作為測試集代入模型中, 計算測試樣本集的預測值. 重復上述過程100次, 計算測試集的平均分類準確率CAMCCV來評估模型的預測性能. 進一步對疾病組和對照組的MB-PLS模型進行置換檢驗(Permutation test)[35], 樣本類別被隨機打亂100次, 每次利用打亂后的類別矢量來建模, 并結合MCCV計算預測集的分類準確率CAMCCV, 結果見圖4. 圖4中, 橫坐標│r│為隨機打亂后的類別矢量與原類別矢量的相關系數的絕對值, 其中│r│=1對應的CAMCCV值為利用正確類別信息建立模型的分類準確率. 對于一個魯棒的模型, 當類別信息被打亂, 模型預測性能應該比正確類別信息建立的模型預測性能要差. 圖4中, 100次置換檢驗的結果相對正確類別計算得到的CAMCCV要低, 表明疾病組與對照組數據存在差異信息, MB-PLS模型中提取的差異信息是有效的. 此外, PLS模型由于受到批次差異信息的干擾, 模型的預測能力(CAMCCV=0.72±0.08)顯著低于MB-PLS模型(CAMCCV=0.84±0.06). 綜上所述, 利用MB-PLS對多批次數據進行分類建模, 能有效避免批次差異對模型的影響, 提取出數據中有用的特征信息.
3.3 變量篩選
在上述MB-PLS模型中, 變量具有很高的維數(1035個變量), 數據中只有少部分變量對建立分類模型有貢獻. 因此對變量進行了篩選, 以有效降低數據的冗余, 提高模型的性能.

Fig.5 VIP scores of MB-PLS model
由模型變量VIP的定義可知: 變量的VIP值越大, 該變量在模型中越重要. 利用式(2)計算得到了MB-PLS模型中各變量的VIP值(見圖5). 圖5中大部分變量對于該模型并不重要, 其對應的VIP值非常小(VIP<1.0), 故可以利用變量的VIP值對變量的重要性進行評估, 選擇VIP值大的變量來重新建立分類建模.
實驗中將變量按VIP值進行排序, 選取其中VIP值大于某一閾值的變量構成新的數據子集, 進行MB-PLS建模. 結合MCCV計算MB-PLS模型的分類準確率CAMCCV, 結果如圖6所示. 圖6中模型分類準確率CAMCCV隨著選取的VIP閾值總體表現出先增大后降低的變化趨勢. 當VIP閾值由0增加到0.8時, 大量冗余或者無用的變量被刪除, 模型的CAMCCV急劇增大; 當VIP閾值由0.8增加到2.2時, 由于VIP閾值在這一區域變量相對較少, 模型CAMCCV值變化相對緩慢, 盡管某一階段區域中CAMCCV值出現了小幅度的降低, 但總體變化趨勢仍是不斷增大; 當VIP閾值大于2.2時, 可能由于某些有意義的變量被刪除, 此時模型的 CAMCCV開始下降. 選取VIP閾值為2.2的9個變量用于MB-PLS建模, 此時模型的分類準確率CAMCCV由原來的0.84±0.06(1035個變量)提高到0.96±0.04.

Fig.6 Variation of the mean CAMCCV of MB-PLSmodel with the threshold of VIP

Fig.7 MS/MS spectrum and proposed structure of m/z 90 from the data of liver failure patients and healthy volunteers breath samples
3.4 差異變量分析

采用EESI-MS對肝衰竭患者和健康志愿者呼出氣體樣本進行快速檢測, 結合MB-PLS方法對多批次獲取的呼出氣體代謝數據進行分析, 并與傳統的PLS方法進行比較. 結果表明, MB-PLS方法能有效消除批次間差異對統計建模的影響, 建立區分疾病組與健康組的分類模型; 采用蒙特卡洛交叉驗證和排序測試對模型進行驗證, 發現肝衰竭患者與健康志愿者呼出氣體中存在顯著的代謝差異. 此外, 采用基于MB-PLS模型變量VIP值的篩選方法, 對變量進行篩選, 模型交叉驗證分類準確率由原來的0.84±0.06提高到了0.96±0.04, 利用該模型能有效區分肝衰竭患者與健康人群. 該項工作有望為不同分析平臺、 不同樣本源獲取的多批次代謝組學數據的處理提供一種新的途徑和依據. 由于部分差異變量及其與肝衰竭的相關性未能確定, 因此仍需要進一步研究.
[1] Phillips M., Herrera J., Krishnan S., Zain M., Greenberg J., Cataneo R. N.,J.Chromatogr.B, 1999, 729(1/2), 75—88
[2] Gieger C., Geistlinger L., Altmaier E., de Angelis M. H., Kronenberg F., Meitinger T., Mewes H. W., Wichmann H. E., Weinberger K. M., Adamski J., Illig T., Suhre K.,PlosGenet., 2008, 4(11), e1000282
[3] Want E. J., Wilson I. D., Gika H., Theodoridis G., Plumb R. S., Shockcor J., Holmes E., Nicholson J. K.,Nat.Protoc., 2010, 5(6), 1005—1018
[4] Sugimoto M., Wong D. T., Hirayama A., Soga T., Tomita M.,Metabolomics, 2010, 6(1), 78—95
[5] Yuan M., Breitkopf S. B., Yang X. M., Asara J. M.,Nat.Protoc., 2012, 7(5), 872—881
[6] Carraro S., Rezzi S., Reniero F., Héberger K., Giordano G., Zanconato S., Guillou C., Baraldi E.,Am.J.Respir.Crit.Care.Med., 2007, 175(10), 986—990
[7] Motta A., Paris D., Melck D., de Laurentiis G., Maniscalco M., Sofia M., Montuschi P.,Eur.Respir.J., 2012, 39(2), 498—500
[8] Gu H. W., Qi Y. P., Xu N., Ding J. H., An Y. B., Chen H. W.,ChineseJ.Anal.Chem., 2012, 40(12), 1933—1937(顧海威, 齊云鵬, 許寧, 丁健樺, 安艷波, 陳煥文. 分析化學, 2012, 40(12), 1933—1937 )
[9] Chen C., Deng L. L., Wei S. W., Gowda G. A. N., Gu H. W., Chiorean E. G., Abu Zaid M., Harrison M. L., Pekny J. F., Loehrer P. J.,J.ProteomeRes., 2015, 14(6), 2492—2499
[10] Gu H. W., Huang Y., Filgueira M., Carr P. W.,J.Chromatogr.A, 2011, 1218(38), 6675—6687
[11] Hanouneh I. A., Zein N. N., Cikach F., Dababneh L., Grove D., Alkhouri N., Lopez R., Dweik R. A.,Clin.Gastroenterol.H., 2014, 12(3), 516—523
[12] Van Den Velde S., Nevens F., Van Hee P., Van Steenberghe D., Quirynen M.,J.Chromatogr.B.Analyt.Technol.Biomed.LifeSci., 2008, 875(2), 344—348
[13] Krotoszynski B., Gabriel G., Oneill H., Claudio M. P. A.,J.Chromatogr.Sci., 1977, 15(7), 239—244
[14] Phillips M., Gleeson K., Hughes J. M. B., Greenberg J., Cataneo R. N., Baker L., McVay W. P.,Lancet, 1999, 353(9168), 1930—1933
[15] Netzer M., Millonig G., Osl M., Pfeifer B., Praun S., Villinger J., Vogel W., Baumgartner C.,Bioinformatics, 2009, 25(7), 941—947
[16] Casalinuovo I. A., Di Pierro D., Coletta M., Di Francesco P.,Sensors, 2006, 6(11), 1428—1439
[17] Roeck F., Barsan N., Weimar U.,Chem.Rev., 2008, 108(2), 705—725
[18] Skeldon K. D., Mcmillan L. C., Wyse C. A., Monk S. D., Gibson G., Patterson C., France T., Longbottom C., Padgett M. J.,Respir.Med., 2006, 100(2), 300—306
[19] Storer M., Dummer J., Sturney S., Epton M.,Curr.Anal.Chem., 2013, 9(4), 576—583
[20] Moser B., Bodrogi F., Eibl G., Lechner M., Rieder J., Lirk P.,Resp.Physiol.Neurobi., 2005, 145(2/3), 295—300
[21] Pan S. S., Zhao N., Ouyang Y. Z., Huang K. K., Ding J. H., Chen H. W., Yuan L., Wang X. X.,Chem.J.ChineseUniversities, 2013, 34(6), 1379—1384(潘素素, 趙娜, 歐陽永中, 黃科科, 丁健樺, 陳煥文, 袁龍, 王興祥. 高等學校化學學報, 2013, 34(6), 1379—1384 )
[22] Ding J. H., Wang X. X., Zhang H., Pan S. S., Luo M. B., Li J. Q., Chen H. W.,Chem.J.ChineseUniversities, 2011, 32(8), 1714—1719(丁健樺, 王興祥, 張慧, 潘素素, 羅明標, 李建強, 陳煥文. 高等學校化學學報, 2011, 32(8), 1714—1719)
[23] Chen H. W., Wortmann A., Zhang W. H., Zenobi R.,Angew.Chem.Int.Ed., 2007, 46(46), 580—583
[24] Pan S. S., Tian Y., Li M., Zhao J. Y., Zhu L. L., Zhang W., Gu H. W., Wang H. D., Shi J. B., Fang X., Li P. H., Chen H. W.,Sci.Rep., 2015, 5, 8725
[25] Ding J.H., Yang S. P., Liang D. P., Chen H. W., Wu Z. Z., Zhang L. L., Ren Y. L.,Analyst, 2009, 134(10), 2040—2050
[26] Wood C. C., Mccarthy G.,Electroencephalogr.Clin.Neurophysiol., 1984, 59(3), 249—260
[27] Frank I. E., Kowalski B. R.,Anal.Chim.Acta, 1984, 162, 241—251
[28] Wang W. X., Zhou H. H., Lin H., Roy S., Shaler T. A., Hill L. R., Norton S., Kumar P., Anderle M., Becker C. H.,Anal.Chem., 2003, 75(18), 4818—4826
[29] Redestig H., Fukushima A., Stenlund H., Moritz T., Arita M., Saito K., Kusano M.,Anal.Chem., 2009, 81(19), 7974—7960
[30] Jauhiainen A., Basetti M., Narita M., Narita M., Griffiths J., Tavare′ S.,BMCBioinformatics, 2014, 30(15), 2155—2161
[31] De Livera A. M., Dias D. A., De Souza D., Rupasinghe T., Pyke J., Tull D., Roessner U., McConville M., Speed T. P.,Anal.Chem., 2012, 84(24), 10768—10776
[32] Wangen L. E., Kowalski B. R.,J.Chemometr., 1989, 3(1), 3—20
[33] Beauchamp J., Herbig J., Gutmann R., Hansel A.,J.BreathRes., 2008, 2(4), 046001
[34] Picard R. R., Cook R. D.,J.Am.Stat.Assoc., 1984, 79(387), 575—583
[35] Lindgren F., Hansen B., Karcher W., Sjostrom M., Eriksson L.,J.Chemometr., 1996, 10(5/6), 521—532
[36] Levine M., Tarver H.,J.Biol.Chem., 1950, 184(2), 427—436
[37] Pilgeram L. O., Gal E. M., Sassenrath E. N., Greenberg D. M.,J.Biol.Chem., 1953, 204(1), 367—377
[38] Duvigneaud V., Chandler J. P., Simmonds S., Moyer A. W., Cohn M.,J.Biol.Chem., 1946, 164(2), 603—613
[39] Artom C., Crowder M.,Fed.Proc., 1949, 8(1), 180—181
(Ed.: D, K)
EESI-MS Detection and Statistical Analysis of Multi-batch of Exhaled Breath Metabolomics Data of Liver Failure Patients?
LI Penghui1, DENG Lingli1, 2, LUO Jiao3, LI Wei3, NING Jing1, DING Jianhua1, WU Xiaoping3*
(1.EastChinaUniversityofTechnology,JiangxiKeyLaboratoryforMassSpectrometryandInstrumentation,Nanchang330013,China;2.EastChinaUniversityofTechnology,InformationEngineeringCollege,Nanchang330013,China;3.TheFirstAffiliatedHospitalofNanChangUniversity,Nanchang330123,China)
In metabolomics studies, the number of samples should be enough to guarantee the reliability of data statistical analysis. The effective storage time of exhaled breath is short, and it is difficult to collect and detect a large number of breath samples in a short time. Combining multi batches of samples may obtain a large data, but usually there is a large variance between batches induced by ambient air varying. In this paper, the exhaled breath data of liver failure patients and healthy volunteers were obtained by high resolution extractive electrospray ionization mass spectrometry(EESI-MS) and then analyzed by multi-block partial least square(MB-PLS). The results were compared with traditional PLS method and showed its strength of removing the variance of batches for modeling. Moreover, we provided a variable selection strategy that based on variable importance in the projection(VIP) of MB-PLS to reduce the redundancy of data and eliminate the effect of non-information variables for modeling, and the performance of MB-PLS model had a great improvement.
Exhaled breath; Metabolomics; Extractive electrospray ionization mass spectrometry; Multi-block partial least square analysis
10.7503/cjcu20150826
2015-10-27;
日期: 2016-03-18.
江西省重大科技創新研究項目(批準號: 20124ACB00700)、 長江學者和創新團隊發展計劃項目(批準號: IRT13054)和國家自然科學基金(批準號: 21265002)資助.
O657.6
A
聯系人簡介: 鄔小萍, 女, 教授, 主要從事傳染病臨床研究. E-mail: wuxiaoping2823@aliyun.com
? Supported by the Jiangxi Major Scientific and Technological Innovation Research Project, China(No.2012ACB00700), the Program for Changjiang Scholars and Innovative Research Team in University, China(No. IRT13054) and the National Natural Science Foundation of China(No.21265002).