999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

代謝組學數據預處理譜峰對齊方法的研究現狀*

2015-01-27 12:28:51蔡富文劉美娜
中國衛生統計 2015年5期
關鍵詞:實驗

蔡富文 羅 瀟 謝 彪 劉美娜

哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)

代謝組學數據預處理譜峰對齊方法的研究現狀*

蔡富文 羅 瀟 謝 彪 劉美娜△

哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)

代謝組學(metabolomics/metabonomics)是繼基因組學、轉錄組學和蛋白質組學之后新近發展起來的一門學科,是目前組學研究領域的熱點之一。其概念最早是由英國學者Nicholson等[1]在1999年基于核磁共振(nuclear magnetic resonance,NMR)分析的基礎上提出的,通過對生物體液、組織和細胞提取物隨時間變化的代謝物運用核磁共振、色譜、質譜等分析技術進行檢測[2-3],結合有效的模式識別方法進行定性和定量分析,將獲得的代謝圖譜數據借助化學計量工具和模式識別軟件轉換成相應的信息,并將這些代謝產物信息與病理生理過程中的生物學事件關聯起來,了解機體生命活動的代謝過程。隨著研究的不斷深入,代謝組學技術已經應用于多種疾病的診斷、治療、預后[4-6]。

在實驗檢測過程中,由于多種因素的影響,代謝組學原始色譜圖容易出現譜峰漂移和一些系統偏倚,因此需要對原始色譜數據進行相應預處理,便于后續的統計分析。代謝組數據預處理方法眾多,本文主要介紹譜峰對齊算法。

代謝組學數據預處理

色譜、質譜(MS)和核磁共振(NMR)等高通量、高靈敏度、高分辨率的儀器是代謝組學常用的技術檢測手段[7],但是由于儀器設備的性能、樣本預處理中溶劑濃度和PH值、實驗溫度等因素的影響,原始色譜圖會產生一些譜峰漂移,并且原始色譜圖由于數據量大、數據點相關性高、基線畸變等因素的影響而不能直接拿來做多元數據統計分析。因此,通常需要對原始色譜數據進行預處理。代謝組數據預處理包括分段積分(binning)(主要針對NMR數據),歸一化(normalization),標度化(scaling),濾噪(filtering)和色譜峰對齊(alignment)等方法[8]。

譜峰對齊的重要性

從原子微觀角度分析,局部逆磁貢獻、局部順磁貢獻、分子內鄰近基團各向異性效應、環境效應、電場效應、溶劑或介質效應等因素都會影響代謝物的化學位移而產生譜峰漂移,如含有相似官能團的不同代謝物出現相似的保留時間。從實驗宏觀角度分析,樣本組成成分、溶劑pH值、溶液中離子濃度、實驗溫度、磁場穩定性等因素會導致譜圖上不同樣本之間同一代謝物的化學位移不一致,產生譜峰漂移。譜峰漂移使實際代謝譜圖變得復雜,導致變量與代謝物之間的對應關系變得混亂,給代謝物歸屬、定量和模式識別帶來困難,影響后續的生物標志物辨識,因此譜峰對齊成為代謝組學數據預處理過程中的一個關鍵步驟[9]。

譜峰對齊算法介紹

譜峰對齊算法主要分為三類。第一代算法,即輪廓對齊,只根據保留時間來進行對齊,如相關優化解纏法(correlation optimized warping,COW)[10-12]。輪廓對齊方法僅利用保留時間進行譜峰對齊,而具有相似化學官能團的化合物會出現相似的保留時間,損失掉化合物的相關信息會導致結果出現較高的假陽性率。第二代算法,是將樣本的原始數據轉變成化合物的峰值列表,每一個化合物都由它的保留時間、質譜和相關特征信息來進行描述。同時利用保留時間和化合物碎片離子的質譜信息進行譜峰對齊,能降低對齊算法的假陽性率,如光譜排序算法(mass spectrometry peak sorting algorithm,MSort)[13]、距離和頻譜相關優化對齊(distance and spectrum correlation optimization alignment,DISCO)[14]和多尺度譜峰對齊算法(multiscale peak alignment,mSPA)[15]等。第三代算法,是基于模型的譜峰對齊算法,能處理同質數據和異質數據,不需要進行任何形式的數據轉換,如基于經驗貝葉斯模型(empirical Bayes model,EBM)[16-18]的譜峰對齊算法等。

1.COW(correlation optimized warping,COW)

(1)將長度為LP的待對齊色譜圖分割成長度為m的N個部分:

N=Lp/m

(2)每一個部分通過卷積來進行縮小或延伸:

COW算法是將色譜圖分割成各個部分,進行分段對齊,每一個部分都被縮小或者延伸來與參考譜進行最佳擬合,利用動態規劃方法尋找全局最優的譜圖分割,利用相關系數最大法計算各段的漂移量。由于動態規劃的執行、相關系數的計算都較費時,因此COW算法的計算較復雜。Nielsen等人的研究指出COW適用于各種類型的色譜數據,在進行譜峰對齊過程中利用的是全色譜數據信息,是一種較精確的對齊算法,不需要任何形式的特征提取,對噪聲和時間基線變異不敏感。

2.MSort(massspectrometrypeaksorting,MSort)

MSort算法使用固定大小的用戶自定義保留時間窗口,但窗口大小影響著處理軟件的可靠性和有效性。具有相同化學官能團的不同代謝物會出現相似的保留時間,在進行譜峰對齊時容易出現較高的假陽性率,而MSort算法使用保留時間和碎片離子的質譜信息能降低譜峰對齊算法的假陽性率,但此算法不能對來自不同實驗條件的代謝組數據(異質數據)進行譜峰對齊,例如不同溫度梯度下得到的代謝組數據。Cheolhwan等人使用標準代謝產物的混合物、人類血清與標準代謝產物的混合物這兩種樣本數據來對此算法進行研究,結果表明MSort算法在這兩種類型的樣本數據中譜峰排序精確性都較高。

3.DISCO(distanceandspectrumcorrelationoptimization,DISCO)

(1)峰條目的峰值合并

其中Api為第i個待合并的峰條目的峰面積,k為待合并的峰條目的個數,RTpi為第i個待合并的峰條目的保留時間。

(2)尋找標志峰

對色譜中譜峰的保留時間進行Z值轉換,然后計算譜峰保留時間之間的歐幾里得距離,選取距離最小的譜峰再計算其質譜之間的相關系數,根據得到的相關系數值來選取標志峰。

對色譜中的保留時間進行如下的Z值轉換:

其中RT1z是經Z值轉換后的一維保留時間,RT1是原始的一維保留時間,RT1μ是原始峰值列表中一維保留時間的均值,RT1σ是原始峰值列表中一維保留時間的標準差。二維保留時間轉換公式中的字母符號與一維保留時間相同。

譜峰之間相關系數計算公式如下:

R(pc,p1)=

其中Ic和Il是兩個碎片離子譜中有相同荷質比(m/z)的碎片離子峰強度。

DISCO算法是對代謝產物的峰條目進行識別,將同一個代謝產物的多個峰條目合并成一個峰條目放入峰值列表中。在對代謝物的保留時間進行Z值轉換之后,通過計算所有樣本中保留時間和質譜碎片離子的Pearson相關系數來選擇標志峰。利用局部線性擬合方法來對非線性保留時間扭曲進行校正,最后通過保留時間地圖搜索方法來對所有樣本中代謝物的譜峰進行對齊。DISCO算法是MSort算法的改良版本,同MSort算法相似,同時利用保留時間和碎片離子的質譜信息進行對齊,降低了對齊算法的假陽性率。它可以對標志峰進行保留時間的自動切割,不需要對切割的長度和最大翹曲值進行設置,避免了參數選擇不恰當和樣本不一致性對結果的影響。在Z值轉換中,使用歐幾里得距離來進行標志峰的尋找,可以處理由不同實驗條件所造成的保留時間漂移。此算法使用局部線性擬合方法對保留時間進行校正,可以處理由實驗錯誤引起的非線性翹曲的保留時間漂移。Wang等人利用來自不同實驗條件下的樣本進行譜峰對齊來評估此算法的性能,研究指出DISCO所選擇的標志峰其覆蓋面所占比例更高,保證了對保留時間漂移進行校正和譜峰對齊的可靠性。DISCO算法可以有效地運用于進一步的數據分析之中,如模式識別和統計顯著性檢驗。

4.mSPA(multiscale peak alignment,mSPA)

(1)小波函數:

其中a是尺度參數,b是平移參數,ψ(t)是母波函數。

(2)波轉換公式:

其中s(t)是信號,C是波系數的二維矩陣。

mSPA算法利用譜峰檢測與合并,將譜圖劃分為多重峰(譜峰團簇)的組合,利用信息熵以譜峰團簇為單元對譜圖進行逐步細分,迭代實現多尺度譜峰對齊。mSPA算法的計算復雜度低,但對齊效果取決于譜峰團簇的劃分,算法的自適應不夠。并且mSPA算法只適用于代謝物保留時間漂移較小的同質數據,因此將代謝物的保留時間轉換為保留時間指數即標準化保留時間用于代謝物的譜峰對齊,其性能不是很好。Zhang等人的研究使用模擬數據和真實的色譜數據將mSPA與另外兩種譜峰對齊方法RAFF和COW進行比較,結果表明mSPA能較好地保持峰形的完整性,對于保留時間的非線性漂移處理性能較好,并且在峰對齊過程中有著較快運行速度。

5.EBM(empiricalBayesmodel,EBM)

EBM是一個分層統計模型,主要分為四層:

(1)參考譜中的化合物j出現在目標譜中的邊緣概率:

P(Yj=1)=ρ,j=1,2,…,N

其中N為參考譜中譜峰的個數。

(2)根據給出的Yj信息,可以估計代謝產物j與目標譜中化合物匹配的條件概率。根據Yj的值,存在兩種情形下的條件概率P[Zj=1|Yj=0]和P[Zj=1|Yj=1]。

(3)參考譜中化合物j出現在目標譜中,并且與目標譜中化合物匹配的條件下的概率:

P(Wjl=1|Yj=1,Zj=1)=τ,0<τ<1

(4)利用混合模型來描述混合相似性得分的分布,模型如下:

f(Sj|Wj)=ΠfT(Sjl;?T)WjlfF(Sjl;?F)(1-Wjl)

其中,f是混合密度;fT和fF分別表示正確匹配和錯誤匹配得分的分布;?T和?F是相關參數。

基于EBM的譜峰對齊方法主要包括峰匹配和保留時間調整這兩個部分。通過構建EBM分層統計模型,以后驗概率的形式來進行峰匹配,并計算峰匹配的置信度,選取具有較高匹配置信度的譜峰對,產生有代表性的標志峰,利用這些峰的保留時間制作網格,根據待對齊譜峰的保留時間是否位于網格內來對保留時間進行相應調整。基于EBM的譜峰對齊算法是在結合其他方法優點的基礎上,一種基于分層統計模型的算法,適用于同質數據和異質數據,在數據處理過程中不需要進行任何形式的數據轉換,能較好地處理實驗組間和組內的變異。Jeong等人使用標準代謝物混合物的實驗數據證實基于EBM的譜峰對齊算法比非模型算法DISCO、mSPA的性能好。mSPA只能處理同質數據,EBM和DISCO都適用于同質數據和異質數據,但是EBM在進行譜峰匹配時不需要對保留時間進行任何形式的數據轉換,而DISCO則需要對保留時間進行Z值轉換。

小 結

代謝組學的實驗結果通常存在著實驗間的變異和實驗內的變異,實驗間變異比實驗內變異的量級要高,特別是保留時間,主要取決于實驗性能的設置。代謝組學數據的預處理,尤其是峰對齊,是一項十分耗費時間的工作,是代謝組學數據預處理的一個難點。

近年來,代謝組學研究者提出了多種譜峰對齊算法[19],譜峰對齊自動算法也日趨完善,但這些算法中假設的模型都不能捕獲真實的信息,任何一個峰對齊預處理步驟都會導致信息的丟失和模型的偏倚。在對齊過程中需要考慮引起信號畸變程度及對齊的精細程度問題。有一些算法的復雜性和自定義參數的優化使得運行的時間較長,需要考慮計算速度和對計算機內存的需求。對于輸入參數的問題,涉及到數據處理能否自動化及對操作人員的專業和經驗要求。另外,有的算法需要進行成對的比較和選擇參考樣本,同樣使得算法比較耗費時間。目前所提出來的這些方法都缺少實證比較,沒有統一的標準來衡量哪一種算法的性能更好,研究者在算法的選擇方面依然存在著一定的困難。

通過研究,本文對譜峰對齊方法選擇提出以下建議:

1.在代謝組學的數據研究中,當獲得需要預處理的色譜數據為全色譜信息,并且沒有進行峰檢測、特征提取時可以考慮COW算法。該算法適用單一色譜數據,如標準氣相色譜法-火焰離子檢測的二維數據或高效液相色譜中單波長紫外檢測數據;多種色譜數據,如高效液相色譜聯合二級陣列管的三維數據或氣相色譜-傅里葉轉換紅外光譜數據。COW算法結果精確,但計算復雜、費時。

2.在實驗中由于各種實驗因素和代謝物中官能團的影響,不同代謝物可能會出現相同的保留時間,因此僅利用保留時間進行色譜峰對齊會出現較高的假陽性率。Msort算法和DISCO算法同時利用保留時間和碎片離子的質譜信息進行峰對齊,可以降低峰對齊算法的假陽性率。當數據具有異質性,不宜選用Msort算法;DISCO算法對非模擬的真實生物樣本數據,處理效果較好。另外,如果需要進行進一步的數據分析,宜選用DISCO算法,其峰對齊結果可以有效地運用于模式識別和統計顯著性檢驗中。

3.當數據是在相同實驗配置下獲得的同質數據,且代謝物保留時間漂移較小時,可以選擇計算復雜度較低的mSPA算法。但此算法對齊效果取決于譜峰團簇的劃分,自適應能力不強。當數據是在不同實驗配置下獲得的異質數據時,最好選擇基于分層統計模型的EBM算法。該算法不需要進行任何形式的數據轉換,能較好地處理實驗組間和組內的變異。

[1]Nicholson JK,Lindon JC,Holmes E.Metabonomics:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data.Xenobiotica,1999,29(11):1181-1189.

[2]Bollard ME,Stanley EG,Lindon JC,et al.NMR-based metabonomic approaches for evaluating physiological influences on biofluid composition.NMR Biomed,2005,18(3):143-162.

[3]Moolenaar SH,Engelke UFH,Wevers RA.Proton nuclear magnetic resonance spectroscopy of body fluids in the field of inborn errors of metabolism.Ann Clin Biochem,2003,40(1):16-24.

[4]Brindle JT,Antti H,Holmes E,et al.Rapid and noninvasive diagnosis of the presence and severity of coronary heart disease using 1H-NMR-based metabonomics.Nature Med,2002,8(12):1439-1444.

[5]隆琦,陳楠.代謝組學在疾病中的應用進展.醫學綜述,2010,16(9):100-1302.

[6]Zhao XJ,Fritsche J,Wang JS,et al.Metabonomic fingerprints of fasting plasma and spot urine reveal human pre-diabetic metabolic traits.Metabolomics,2010,6(3):362-374.

[7]趙維薇,許文濤,王龑,等.代謝組學研究技術及其應用.生物技術通報,2011(12):57-64.

[8]亓云鵬,胡杰偉,柴逸峰,等.代謝組學數據處理研究的進展.計算機與應用化學,2008,25(9):1139-1142.

[9]黃赫,鄧伶莉,周玲,等.一種新的核磁共振譜峰對齊算法.光電技術應用,2013,28(2):51-54.

[10]Nielsen NPV,Carstensen JM,Smedsgaard J.Aligning of single and multiple wavelength chromatographic profiles for chemometric data analysis using correlation optimized warping.Journal of Chromatography A,1998,805:17-35.

[11]Tomasi G,F van den Berg,Andersson C.Correlation optimized warping and dynamic time warping as preprocessing methods for chromatographic data.Journal of Chemometrics,2004,18(5):231-241.

[12]Christin C,Smilde AK,Hoefsloot HCJ,et al.Optimized time alignment algorithm for LC-MS data:correlation optimized warping using component detection algorithm-selected mass chromatograms.Anal Chem,2008,80(18):7012-7021.

[13]Cheolhwan Oh,Huang XD,Regnier FE,et al.Comprehensive two-dimensional gas chromatography/time-of-flight mass spectrometry peak sorting algorithm.Journal of Chromatography A,2008,1179(2):205-215.

[14]Wang B,Fang A,Heim J,et al.DISCO:distance and spectrum correlation optimization alignment for two-dimensional gas chromatogramphy time-of-flight mass spectrometry-based metabolomics.Anal Chem,2010,82(12):5069-5081.

[15]Zhang ZM,Liang YZ,Lu HM,et al.Multiscale peak alignment for chromatographic datasets.Journal of Chromatography A,2012,1223:93-106.

[16]Jeong J,Zhang X,Shi X,et al.An efficient post-hoc integration methods improving peak alignment of metabolomics data from GCxGC/TOF-MS.BMC Bioinformatics,2013,14(1):123.

[17]Jeong J,Shi X,Zhang X,et al.Model-based peak alignment of metabolomic profiling from comprehensive two-dimensional gas chromatography mass spectrometry.BMC Bioinformatics,2012,13:27.

[18]Jeong J,Shi X,Zhang X,et al.An empirical Bayes model using a competition score for metabolite identification in gas chromatography mass spectrometry.BMC Bioinformatics,2011,12:392.

[19]Smith R,Ventura D,Prince JT.LC-MS alignment in theory and practice:a comprehensive algorithmic review.Briefings in Bioinformatics,2013.

(責任編輯:郭海強)

黑龍江省自然科學基金項目(ZD201314)

△通信作者:劉美娜,Email:liumeina369@163.com

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 欧美综合在线观看| 成年av福利永久免费观看| 国产经典在线观看一区| 免费一级毛片完整版在线看| 国产精品片在线观看手机版| 日韩天堂网| 久久久久久尹人网香蕉| 1769国产精品免费视频| 麻豆国产精品一二三在线观看| 国产精品漂亮美女在线观看| 国产成人精品高清不卡在线 | 国产午夜福利片在线观看| 精品久久国产综合精麻豆| 在线亚洲小视频| 亚洲视频影院| 日本高清免费一本在线观看 | 日韩精品免费一线在线观看| 日韩 欧美 小说 综合网 另类| 日韩精品一区二区三区大桥未久| 成人免费视频一区| 亚洲精品福利网站| 无码人妻热线精品视频| 青青久久91| 亚洲色成人www在线观看| 999精品在线视频| 影音先锋丝袜制服| 超碰91免费人妻| 毛片视频网址| 97国产精品视频自在拍| 国产精品免费电影| 熟妇人妻无乱码中文字幕真矢织江| 99re这里只有国产中文精品国产精品| 91美女视频在线观看| 又爽又大又光又色的午夜视频| 一本综合久久| 白浆视频在线观看| 亚洲Av综合日韩精品久久久| 激情乱人伦| 五月天综合婷婷| 亚洲第一区欧美国产综合| 国产国产人在线成免费视频狼人色| 强奷白丝美女在线观看 | 小蝌蚪亚洲精品国产| 国产高清在线观看91精品| 亚洲v日韩v欧美在线观看| 中国国产一级毛片| 伊人激情久久综合中文字幕| 久爱午夜精品免费视频| 男人天堂伊人网| 日韩黄色在线| 亚洲精品在线91| 国产尤物在线播放| 国产a在视频线精品视频下载| 手机精品视频在线观看免费| 一级毛片免费播放视频| 中文字幕乱码中文乱码51精品| 久久99国产乱子伦精品免| 特黄日韩免费一区二区三区| 五月激情婷婷综合| 最新国产精品第1页| 午夜小视频在线| 国产美女无遮挡免费视频网站| 国产一级毛片在线| 国产亚洲精品在天天在线麻豆 | 99久久99这里只有免费的精品| 国产精品福利在线观看无码卡| 国产免费好大好硬视频| 国产91成人| 999国产精品永久免费视频精品久久 | 精品久久久久久久久久久| 亚洲黄色高清| 国产成人a毛片在线| 五月婷婷欧美| 超薄丝袜足j国产在线视频| 成人a免费α片在线视频网站| 国产精品污视频| 国产精品无码在线看| 色视频久久| 色综合久久久久8天国| 国产小视频网站| 伊人久久精品亚洲午夜| 久久久四虎成人永久免费网站|