馬媛媛
摘要:文章是對多次重復液相質譜(LC-MS)實驗得到的蛋白質肽鏈生物數據進行時間校準建模分析,目的是校準匹配多次實驗中的肽鏈信號,為蛋白質量化提供準確信息。本項目研究一種基于時間特征的LC-MS生物實驗數據統計校準算法,解決了現在生物數據處理中的實際問題,具有現實意義。
Abstract: This paper is a modeling analysis of large biological data of protein peptide chains obtained by liquid chromatography-mass spectrometry (LC-MS) experiments. The purpose of this study was to align the signals of the same peptide in different datasets, in order to provide the accurate quantification information. This project, which provides a method for the alignment based on the time feature to solve the actual problem of biological data processing, has practical significance.
關鍵詞:蛋白質肽鏈;時間特征;統計建模
Key words: protein peptide chain;time feature;statistical modeling
中圖分類號:C37 文獻標識碼:A 文章編號:1006-4311(2018)21-0194-03
0 引言
隨著生物實驗技術的高速發展,生命科學研究獲得大量生物實驗數據,主要包括基因組學、蛋白質組學等生物學大數據,這些數據均具有4V的特性:①數據量大(Volume):目前基因組學中只需花費幾千美元幾個小時即可完成一個人基因組的解析,大量的物種得以測序解析,數據成爆炸性增長。②數據多樣化(Variety):生物信息學中兩大分類:基因組學和蛋白質組學中,實驗儀器種類繁多,產生的數據格式也各不相同。同時,利用不同的生物信息分析軟件或分析流程處理得到的結果也是千差萬別。③有價值(Value):隨著生物信息學的發展,越來越多有價值的信息從生物大數據中挖掘出來,這些價值不僅體現在其在生物科研領域,而且已應用于健康和醫學等領域。④高速(Velocity):不僅體現在數據采集量急劇增長,也表現在數據的多樣化和價值性上。
本項目處理的數據是由液相質譜(LC-MS)實驗得到的蛋白質肽鏈生物大數據。實驗的目的是為了確定蛋白質中生物標志物(biomarker)。這些標志物是可以標記系統、器官、組織、細胞及亞細胞結構或功能的改變或可能發生的改變的生化指標,可用于疾病診斷、判斷疾病分期或者用來評價新藥或新療法在目標人群中的安全性及有效性。目前尋找和發現有價值的生物標志物已經成為科學研究的一個重要熱點。本項目重點研究多次重復LC-MS實驗中的肽鏈信號匹配算法,目的是為尋找生物標志物提供準確的量化信息[1][2]。
1 LC-MS實驗簡介
在LC-MS實驗中,首先,將蛋白質切割成肽鏈,并放入容器中;其次,進入實驗的LC部分,用化學試劑將容器中肽鏈沖入到質譜儀,由于不同肽鏈具有不同的斥水性,因此進入質譜儀的時間便有所不同,形成三維譜圖中的時間軸(Time);再次,進入實驗的MS部分,肽鏈進入質譜儀后將隨機粘上電荷,根據質量和電荷比的不同打到檢測板上的位置就不同,這樣就形成三維譜圖中的質荷比軸(M/Z);最后,相同時間,相同質荷比的位置上基本由同一種肽鏈組成,個數越多強度越大形成三維譜圖中的強度軸(Intensity)。經過一次MS處理的數據稱為Level1數據,數據粗糙,但是全面。生物實驗中經過在LC-MS實驗后再進行一次MS實驗,得到Level2數據。Level2數據是從Level1數據中隨機抽取生成的,點數多但是覆蓋率不足,量化準確性不高,基本用來和肽鏈庫進行比對,確定Level1數據中的部分肽鏈組成,進而確定Level1數據中的蛋白質組成。
2 欲解決的問題
2.1 問題的提出
目前,在LC-MS生物大數據處理中的重要任務就是對各種檢測到的肽鏈進行量化分析,面臨的一個重要問題就是對相同樣本的多次重復實驗數據中肽鏈產生的信號進行校準識別,這項工作對于減少多次重復實驗產生量化誤差,提高量化準確性是至關重要的。但是進行相同樣本的多次重復實驗生物大數據的在特征檢測、校準識別、量化分析時,理論上在重復實驗條件完全一致的情況下,同一種肽鏈在不同重復實驗數據中的相對應位置(相同時間值,相同M/Z值)應該產生相同的特征峰值。實際中,由于各種誤差因素的存在,重復實驗數據的時間軸也會產生較大差異,這樣就無法對同一肽鏈在多組數據中進行相關峰值識別校準,進一步說就無法量化分析。這就需要我們對多次重復實驗數據進行校準。
2.2 方法思路
我們要處理重復實驗數據1和數據2,通過和ms2實驗產生的Level2數據比對,如圖1所示,數據1與數據2在ms2中共同檢測的肽鏈共有700個(即為交集部分,區域B),這些肽鏈都能分別在數據1和數據2中找到相應的信號區間。但是,通過ms2實驗的檢測,數據1中依然有1944個肽鏈沒有數據2中找到(區域A部分),數據2中依然有1603個肽鏈沒有在數據1中找到(區域C部分)。那么我們將通過數據1與數據2中共同檢測到的部分建立數學模型,然后對于區域A中的在數據2中找到匹配的肽信號區間,對于區域B中的在數據1中找到匹配的肽信號區間。
2.3 數據處理流程及算法思想(圖2)
2.3.1 步驟1:數據的預處理
①由實驗室獲取的生物大數據為mzxml格式的大數據文件,我們使用matlab中的mzxmlread函數讀取初始的mzxml文件,將mzxml實驗數據讀出生成原始的level1數據、level2數據、原始峰值信息、level1的時間信息,并保存,同時生成實驗數據三維譜圖如圖3。
②讀入ms2實驗數據生成的肽鏈信息總表和數據的level1信息,根據ms2數據總表中的肽鏈的質量值(mass)和電荷(charge state)計算出質荷比(m/z值),按照肽鏈m/z值前后選取20ppm寬度計算LC譜圖,以獲取該肽鏈在兩組數據中的XICs(用來確定肽鏈可能產生的LC峰)[3]。然后對XICs做區間檢測,我們使用肽鏈主峰位置檢測到高強度峰區域在背景噪聲的標準偏差的三倍作為閾值,高于閾值的區間被認為是候選LC峰區間。
③對于給定的肽,如果分別在數據1和數據2對應的XICs中,檢測出n、m個候選LC峰區間,則會有n*m候選LC峰區間對。然而,只有一對是給定的肽在兩個重復實驗數據中對應產生的[4]。我們再處理XICs選取候選區間過程中,首先區間中形成的波峰的點的個數要多于6個,然后按照每一個區間的最高信號值由高到低選出前10個區間,并保存區間時間的起始和結束位置。
2.3.2 步驟2:生成訓練數據和測試數據
對于訓練數據和測試數據我們應該選取有ms2時間點并檢測到包含時間點區間的肽鏈。這樣,我們再測試模型的時候才有真實值做比對,才能檢測模型的準確性。那么對數據1和數據2中在ms2檢測后重復的部分,即同時在數據1和數據2中檢測到ms2時間點的肽鏈,共700個。以這700個肽鏈為基礎,我們首先對區間檢測的結果和ms2時間進行比對,選出區間包含ms2時間的肽鏈,經過篩選有599個肽鏈符合條件。這樣我們隨機選取400個作為訓練序列訓練統計模型,剩下的199個作為測試序列測試模型準確性,重復5次,準確性取平均值。
2.3.3 步驟3:建立訓練模型
我們了解到產生時間偏移是隨機的,且有直方圖可以觀測到基本符合正態分布。因此,如果出現未確定的兩個區間的時間差Δt,我們需要根據已經得到的相關時間差樣本t1計算概率p(Δt|t1),我們需要根據已經得到的非相關時間差樣本t2計算概率p(Δt|t2)。我們可以根據相關概率p(Δt|t1)/p(Δt|t2)比值是否大于1來判斷是否為相關區間。我們知道正態分布的公式為:
2.3.4 步驟4:訓練模型并測試,得出模型匹配成功率
根據步驟3中用400個訓練序列訓練出來的匹配模型,我們將199個測試序列輸入模型輸出匹配結果。同時由于測試序列具有ms2的檢測結果,因此,我們將測試結果與ms2結果做比對,所謂匹配成功即為模型輸出數據1與數據2中的匹配區間對均能覆蓋數據1中該肽鏈的ms2時間和數據2中該肽鏈的ms2時間。通過對學習模型進行測試,得到模型檢測的準確率。重復進行5次隨機選取訓練和測試,平均準確率結果作為算法的準確率。
2.3.5 步驟5:對所有數據應用模型進行匹配校準
在對模型進行測試之后,我們將模型應用于圖1中數據1的A區域和數據2的C區域,應用過程是:以數據1的A區域中某一肽鏈為例,由于該肽鏈在數據1中被ms2檢測到,有m/z和時間信息等,但是并沒有在數據2中被ms2檢測到。因此,我們先分別在數據1與數據2中處理生成對應的XICs,然后進行區間檢測,那么在數據1中我們根據ms2檢測到的時間信息確定出準確區間,同時數據2中該肽鏈檢測到的區間均為候選區間。我們將數據2中的候選區間與數據1中的準確區間的時間差作為模型輸入,判斷相關性的概率值和非相關性的概率值的比值,如果大于1那么我們認為找到了該肽鏈在數據2中的區間。如果多個區間概率比值大于1,那么相關性概率值最大的就是我們要選擇的區間。這樣我們將可以將數據1區域A和數據2區域C中的肽鏈分別在數據2中和數據1中找到了匹配區間。
3 數據處理結果
我們對算法的驗證是通過對交集肽信號進行在有真實值條件下測試準確率和對待校準集合進行無真實值情況下完成匹配。
3.1 基于ms2檢測結果的模型測試結果
我們進行了5次測試,每次都是隨機選取400作為訓練、199作為測試,對測試結果以MS2時間點為真實值進行比對,得到區間匹配準確度結果如表1。
3.2 無ms2檢測結果的待校準集合匹配結果
數據1與數據2并集共4247個肽鏈,數據1中待校準匹配的個數為1944個,數據2中待校準匹配的個數為1603個。經過我們對數據1和數據2非交集中共3547個肽鏈信號進行算法匹配,最后得到區間結果的共3098對,校準匹配的覆蓋率達到87.34%。
這樣實現了對兩組數據大部分的肽鏈的匹配校準工作,且匹配成功的概率為96.32%,而且達到了比較高的匹配覆蓋率。
參考文獻:
[1]寧康,陳挺.生物醫學大數據的現狀與展望[J].北京:科學通報,2015,Z1.
[2]胡瑞峰,邢小燕,孫桂波,孫曉波.大數據時代下生物信息技術在生物醫藥領域的應用前景[J].北京:藥學學報,2014,11.
[3]Smith R, Ventura D, Prince J T. LC-MS alignment in theory and practice: a comprehensive algorithmic review.[J]. Briefings in Bioinformatics, 2015, 16(1):104.
[4]Bielow C, Mastrobuoni G, Kempa S. Proteomics Quality Control: Quality Control Software for MaxQuant Results[J]. Journal of Proteome Research, 2015, 15(3).