999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

快 速 液 質 聯 用 數 據 峰 對 齊 算 法

2017-12-15 02:20:57
實驗室研究與探索 2017年11期
關鍵詞:檢測方法質量

孫 蕭 寒

(渭南師范學院 網絡安全與信息化學院, 陜西 渭南 714000)

快速液質聯用數據峰對齊算法

孫 蕭 寒

(渭南師范學院 網絡安全與信息化學院, 陜西 渭南 714000)

液質聯用(LC/MS)是一種將物理分離能力和質量分析能力相結合的技術,可用于檢測內源性小分子代謝物,近年來在代謝組學研究中被廣泛應用。然而該技術在輸出檢測出的離子峰數據時往往具有很強的噪聲,并且在保留時間上出現樣本間的非線性偏差,因此必須對LC/MS輸出的數據在各樣本間進行峰對齊。現有的LC/MS數據對齊方法由于結構復雜、參數設置較多而不適用于快速峰對齊。針對此問題提出快速LC/MS數據峰值對齊算法。該算法包括數據預處理、峰識別和峰匹配3個模塊,無需用戶選擇參數,時間復雜度低。

液質聯用; 峰對齊; 代謝譜

0 引 言

代謝組學(metabolomics)研究特定的分子過程所遺留的獨特化學標志,其研究對象為代謝物圖譜[1-2]。代謝組學需要檢測并收集大量的代謝物數據,目前用于檢測代謝物的主要技術是核磁共振波譜技術與質譜分析技術[3-4]。近年來,高效液相色譜分離技術與質譜檢測技術的結合(LC/MS),因其具有的高通量、軟電離和代謝物覆蓋全的特點已經成為代謝組學研究中檢測小分子化合物的主流平臺[5-6]。LC/MS數據包括3個維度:保留時間、質量電荷比(m/z)和離子峰強度。在某一質量電荷比下,離子峰強度曲線所形成的峰的部分即可能對應小分子化合物。

然而,由于實驗技術、實驗設備、實驗環境等因素的影響,不同樣本的離子峰強度曲線不盡相同,且峰的部分在保留時間上存在偏差,這種偏差會直接導致小分子化合物檢測與識別的錯誤[7]。此外,峰的偏差也表現在峰的形態(峰的高度,峰的寬度,峰的形狀)上,因此在進行小分子化合物分析前必須先將離子峰對齊。

現有的LC/MS數據對齊方法一般存在兩個問題[8-9]:① 需要選擇參數,并且峰對齊的結果對參數特別敏感;② 方法的時間復雜度高。以最主流的XCMS為例,不管是下載安裝R版本的軟件還是在線提交數據,當數據量較大時,往往需要幾天甚至更長的等待時間[10]。針對現有方法參數敏感和時間復雜度高問題,本文提出快速LC/MS數據峰對齊算法。

1 實驗方法

快速LC/MS數據峰對齊算法包括數據預處理、峰識別和峰對齊3個模塊(見圖1)。

圖1 流程圖

1.1 數據說明

本實驗數據采用Ralf Tautenhahn等公開的數據(http://msbi.ipb- halle.de/msbi/centwave/),包括121個樣本,每個樣本包括2 972個保留時間點(保留時間點作為保留時間的刻度),時間范圍從0.491~999.924 s(每個時間點間隔為0.336 s);每個樣本在每個保留時間點均檢測質量電荷比和對應的離子峰強度。其中檢測出的質量電荷比的范圍94~1 005,離子峰的強度10~15 231。

1.2 數據預處理

由于LC/MS技術檢測出的質量電荷比是一個精準數據,故可以選擇統一的質量電荷比步長(本文選擇0.5),取該質量電荷比步長范圍內每一個保留時間點上最大的離子峰強度數據作為該保留時間點上的離子峰強度數據[11]。

(1) 峰形態分析。觀察每一個質量電荷比數據,發現離子峰強度在保留時間的維度上呈Z字形狀(見圖2)[12],即離子峰強度在某一保留時間點很強,在下一保留時間很弱或為0(檢測不到),但在第3個保留時間又增強,依次變化。

如果觀察整個保留時間段內離子峰強度最大的質量電荷比,可以發現在一段保留時間點內,總是有2個具有最大離子峰強度的質量電荷比此消彼長。這種Z字形的離子峰強度數據應該是由于在同一質量電荷比、同一保留時間段內有不只一個小分子化合物被檢測到,但由于實驗設備或技術原因導致一個質量電荷比的離子峰強度被另一個所遮蔽。

圖2 離子峰強度Z字形態

(2) 數據降噪。由于原始離子峰強度數據的Z字形態并不符合自然情況,故使用離子峰強度與保留時間所形成的二維折線的面積代替原始的離子峰強度數據,并基于面積數據采用小波變換進一步降噪。

由于LC/MS數據的噪聲高且其噪聲特征未知,而小波降噪可以對信號去噪且能很好刻畫信號的非平穩特征,Salvatore等的實驗也證明基于非抽樣的離散小波變換更適合于LC/MS數據降噪[13]。本方法所采用的小波降噪的具體參數如下:多貝西小波(Daubechies Wavelet)db2、3層分解重構、最大重復離散小波轉換、軟閾值、根據每一層小波分解的噪聲水平估計進行調整。去噪后數據如圖3所示。

圖3 小波去噪曲線(質量電荷比:980.123~980.625)

1.3 峰識別

LC/MS數據的峰識別是要從離子峰強度中識別出由小分子化合物所引起的峰而過濾掉隨機噪聲。然而僅從離子峰強度很難區分豐度小的小分子化合物引起的峰與噪聲所引起的峰[14]。本文采用候選峰識別和候選峰過濾兩步方法進行峰識別。

(1) 候選峰識別。本方法采用

來定義峰:峰是由峰頭與峰尾所界定的一截保留時間段。峰頭是加速度由負值或0值變為正值的保留時間點;峰尾是加速度由正值變為負值或0值的保留時間點。

加速度的定義是基于離子峰強度所圍區域的面積,這意味如果一旦一個離子峰強度被抑制超過一個保留時間點就有很大的可能發生加速度符號的變化,此時一個完整的峰會被識別為兩個獨立的峰。為了將分離峰進行合并,本文設計了相鄰峰合并測度,

[25]胡奇馨:《宋代銀銅礦考》,載《福建社會》第二卷1、2期合刊;《福建經濟發展簡史》,第163頁,廈門大學出版社,1989年。

其中峰距=后峰峰頭-前峰峰尾。經多次實驗,選取經驗值MNP≥7時,合并相鄰峰。

(2) 候選峰過濾。僅由加速度所識別的候選峰含有由噪聲所引起的峰,為消除噪聲峰,本文基于降噪數據識別可能的峰頂點。由于LC/MS的各樣本的離子峰強度差異較大,所以根據降噪后數據單獨估計每一個樣本的經驗累積分布密度,選取累積分布密度≥95%的保留時間點。在這些保留時間點中選擇其離子峰強度高于其前一保留時間點及后一保留時間點的數據點作為峰頂點。對前一步得到的候選峰采用峰頂點進一步篩選,只有那些包含有峰頂點的候選峰才作為識別出的峰(見圖4)。

圖4 峰識別(質量電荷比:980.123~980.625)

1.4 峰對齊

(1) 峰匹配矩陣。基于每一個樣本所識別出的候選峰,對2個樣本間的候選峰兩兩進行匹配,并計算匹配值mv。首先根據LC/MS原始數據計算每一保留時間點的斜率和面積,并基于此計算2個樣本的候選峰之間匹配段的斜率余弦相似度和面積余弦相似度,以其和作為度量值,其中和最大的匹配段即為2個樣本間的匹配候選峰,

(hl+len-1),areaj_n(l1i+len-1))

(1)

式中:i,j是樣本號;m,n是候選峰號;k,l是候選峰中保留時間點;len是2個候選峰中較短的候選峰長度(len=min(leni_m,lenj_n))。由此,得到任意2個樣本間的候選峰匹配矩陣。

pvin,jn=abs(starl pvintpeaklm-start pointpeakjn+

(2)

式中,pv為最小的匹配段,即為兩樣本間的匹配峰。

此外,由于樣本間候選峰數也不一樣,存在某一個樣本的一個峰被匹配另一樣本多個不同的峰的可能性。此時,取峰匹配段距離最接近的峰作為匹配峰。

2 結果與分析

本方法是基于原始數據的形態(每一時間點的斜率和面積)及峰之間的距離進行樣本間離子峰對齊。對識別出的峰按過濾后的峰匹配矩陣移動各樣本中的峰,最終形成峰對齊曲線(見圖5)。

圖5 峰對齊曲線(質量電荷比:380.125~380.625,樣本數:20)

2.1 積聚峰的樣本數目

由于樣本噪聲及樣本間差異,多個樣本都能對齊的離子峰有更高的可能性對應于小分子化合物,表1列出了不同質量電荷比下對齊的離子峰樣本數(說明:質量電荷為780.125~780.625的20個樣本中的12沒有檢測出峰)。

表1 對齊的離子峰樣本數表(20個樣本)

2.2 離子峰再識別

在峰對齊曲線中,將聚積在同一保留時間段上的峰為同一個峰。此外,那些只有一個樣本所表現出來的峰應該是該樣本的特性而并不體現多樣本的共同對應的小分子化合物,因此對對齊后的峰進行進一步過濾,刪除單樣本峰,最終得到可能對應小分子化合物的離子峰。

3 結 論

LC/MS數據離子峰對齊是一個具有挑戰的問題,主要的難度包括:峰檢測、峰整合、降噪和標準化等[15]。流行的離子峰數據對齊方法,如XCMS(https://xcmsonline.scripps.edu/landing_page.php?pgcontent=mainPage),MetaboAnalyst(http://www.metaboanalyst.ca/)和MetAlign(https://www.wur.nl/en/show/MetAlign-1.htm)等,往往需要經過數據中心化、移去加合物、數據降噪、峰檢測、峰整合、窗口選擇等復雜的步驟,造成方法結構復雜、時間復雜度很高。本文提出的方法是一種快速計算LC/MS數據離子峰對齊的方法,該方法具有以下特點:

(1) 結構簡單。本方法只包含3個模塊:數據預處理、峰識別和峰對齊。

(2) 時間復雜度低。數據預處理階段時間復雜度為kmst(其中:m是質量電荷比數量;s是樣本數;t是保留時間點數;k是一個常數);峰檢測階段的時間復雜度為k1mst+k2msp,其中:p是候選峰數且p?t,因此本階段時間復雜度依然為kmst;峰對齊階段的時間復雜度為kms2p2,由于p?t,當樣本數目不大時,kms2p2

(3) 參數依賴少。本方法使用參數4個(已內置于算法中,不需要用戶選擇):在數據處理階段選擇質量電荷比的步長值為0.25;在降噪階段選擇小波去噪及選擇相應參數;在峰檢測階段使用合并參數MNP,本方法中選取經驗值7作為域值;在峰過濾階段以累積分布密度≥95%作為域值過濾候選峰。

[1] Daviss B. Growing pains for metabolomics [J]. Scientist, 2005, 19: 25-28.

[2] Fiehn O, Kopka J, Dormann P,etal. Metabolite profiling for plant functional genomics [J]. Nat Biotechnol, 2000, 18: 1157-1161.

[3] Wandy J, Daly R, Breitling R,etal. Incorporating peak grouping information for alignment of multiple liquid chromatography-mass spectrometry datasets [J]. Bioinformatics, 2015, 31: 1999-2006.

[4] Smith R, Ventura D, Prince J T. LC-MS alignment in theory and practice: a comprehensive algorithmic review [J]. Brief Bioinform, 2015, 16: 104-17.

[5] Tautenhahn R, Bottcher C, Neumann S. Highly sensitive feature detection for high resolution LC/MS [J]. BMC Bioinformatics, 2008, 9: 504.

[6] Zhou B, Xiao J F, Tuli L,etal. LC-MS-based metabolomics [J]. Mol Biosyst, 2012, 8: 470-481.

[7] Aberg K M, Alm E, Torgrip R J. The correspondence problem for metabonomics datasets [J]. Anal Bioanal Chem, 2009, 394: 151-162.

[8] Hoffmann N, Keck M, Neuweger H,etal. Combining peak- and chromatogram-based retention time alignment algorithms for multiple chromatography-mass spectrometry datasets [J]. BMC Bioinformatics, 2012, 13: 214.

[9] Lange E, Tautenhahn R, Neumann S,etal. Critical assessment of alignment procedures for LC-MS proteomics and metabolomics measurements [J]. BMC Bioinformatics, 2008, 9: 375.

[10] Smith C A, Want E J, O'maille G,etal. XCMS: Processing mass spectrometry data for metabolite profiling using Nonlinear peak alignment, matching, and identification [J]. Analytical Chemistry, 2006, 78: 779-787.

[11] Azizan K A, Ibrahim S, Ghani N H A,etal. LC-MS Based Metabolomics Analysis to Identify Potential Allelochemicals in Wedelia trilobata [J]. Records of Natural Products, 2016, 10: 788-793.

[12] Zhang W, Zhao P X. Quality evaluation of extracted ion chromatograms and chromatographic peaks in liquid chromatography/mass spectrometry-based metabolomics data [J]. BMC Bioinformatics, 2014, 15(Suppl 11): S5.

[13] Cappadona S, Levander F, Jansson M,etal. Wavelet-based method for noise characterization and rejection in high-performance liquid chromatography coupled to mass spectrometry [J]. Anal Chem, 2008, 80: 4960-4968.

[14] Zhang J, Gonzalez E, Hestilow T,etal. Review of peak detection algorithms in liquid-chromatography-mass spectrometry [J]. Curr Genomics, 2009, 10: 388-401.

[15] Zhang X, Asara J M, Adamec J,etal. Data pre-processing in liquid chromatography-mass spectrometry-based proteomics [J]. Bioinformatics, 2005, 21: 4054-4059.

QuickPeakAlignmentAlgorithmforLC/MS-basedData

SUNXiaohan

(School of Security and Informatization, Weinan Normal University, Weinan 714000, Shaanxi, China)

Liquid chromatography-mass spectrometry (LC/MS) is a technique combining the physical separation and mass analysis. This technique is wisely applied in the metabolomics studies sinceit can detect endogenous metabolites. However, the output data are often accompanied with high noise, and the retention times of ion peaks are nonlinear among samples.There fore it is a necessary step to align the peaks among these samples. The available alignment methods on LC/MS data are not suitable to fast alignment of ion peaks be cause they usually have complex structures and too many parameters to be set. A novel algorithm is proposed to perform fast peak alignment, itincludes three modules: data preprocessing, peak detection and peak alignment. The algorithm is simple in structure, has no parameters to be set by users and low time complexity.

liquid chromatography-mass spectrometry (LC/MS); peak alignment; metabolic profile

TP 311

A

1006-7167(2017)11-0020-04

2017-03-23

國家自然科學基金面上項目(61571341);中國國家留學基金資助項目(210508615092);陜西省自然科學基金(2017JM6036);渭南師范學院重點項目(16YKP002)

孫蕭寒(1979-),女,陜西耀縣人,副教授,現主要從事生物信息計算研究。

Tel.:15319118920; E-mail:sxhjpj@sina.com

猜你喜歡
檢測方法質量
“質量”知識鞏固
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
質量守恒定律考什么
做夢導致睡眠質量差嗎
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 香蕉伊思人视频| 欧美高清国产| 久久人搡人人玩人妻精品一| 国产在线观看高清不卡| 国产成人精品18| 久久黄色毛片| 欧美人与性动交a欧美精品| 国产成人精品一区二区免费看京| 伊人精品成人久久综合| 国内毛片视频| 国产无人区一区二区三区| 亚洲天堂网在线观看视频| 久久毛片免费基地| 婷婷五月在线| 天天婬欲婬香婬色婬视频播放| 国产在线91在线电影| 日本在线免费网站| 亚洲美女一级毛片| 久久9966精品国产免费| 草逼视频国产| 又大又硬又爽免费视频| 亚洲码一区二区三区| 亚洲一区国色天香| 成人免费黄色小视频| 九九九精品成人免费视频7| 性色在线视频精品| 亚洲国产精品VA在线看黑人| 亚洲第一香蕉视频| 深爱婷婷激情网| 精品午夜国产福利观看| 日本成人精品视频| 欧美一区二区精品久久久| 亚洲无码一区在线观看| 日本www色视频| 日本免费精品| 精品无码视频在线观看| 国产系列在线| 国产香蕉一区二区在线网站| 亚洲人成在线精品| 欧美a级在线| 欧美日韩精品一区二区在线线| 成人福利一区二区视频在线| 国产波多野结衣中文在线播放 | 久久男人视频| 谁有在线观看日韩亚洲最新视频| 毛片免费试看| 露脸国产精品自产在线播| a级毛片免费网站| 精品国产福利在线| 51国产偷自视频区视频手机观看| 欧美性爱精品一区二区三区 | 精品国产成人a在线观看| 国产黄色片在线看| 男人天堂伊人网| av色爱 天堂网| 91精品专区国产盗摄| 亚洲AⅤ永久无码精品毛片| 77777亚洲午夜久久多人| 亚洲av无码久久无遮挡| 国产迷奸在线看| 国产成人高清精品免费5388| 免费观看精品视频999| 国产自在线拍| 操国产美女| 成人午夜免费观看| 永久在线播放| 大香伊人久久| 国产精品所毛片视频| 国产精品密蕾丝视频| 她的性爱视频| 九九这里只有精品视频| 婷婷色在线视频| 国产视频 第一页| 91小视频在线观看| 亚洲男人在线| 91美女视频在线观看| 免费不卡视频| 91亚洲精选| 国产91小视频| 欧美特级AAAAAA视频免费观看| 中国一级特黄大片在线观看| 99无码中文字幕视频|