鄭乃仁+單亦初+鄧玉林+張玉奎
摘 要 等質量肽段末端標記(Isobaric peptide termini labeling,IPTL)是一種使用輕、重同位素分別對肽段的C端和N端進行等重標記的技術。在對使用這種標記技術得到的數據進行一級譜分析時,由于肽段的質量相同,不會增加樣本的復雜性,而在處理二級譜的數據時,可利用成對的b、y離子進行分析。本研究利用IPTL方法得到的實驗數據設計了一種新的打分算法: 全部離子打分算法(All ions scoring algorithm, AISA)。AISA在對數據進行處理時,可以同時得到定性和定量信息。在QExactive HeLa和HumanHCCHL數據集上的蛋白定量覆蓋率分別達到99%和100%。在QExactive HeLa 2D RPLC數據集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質分別比Morpheus高15%、26%和22%。在HumanHCCHL數據集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質分別比Morpheus高24%、39%和27%。在QExactive HeLa和HumanHCCHL數據集上蛋白質定量比值的平均值非常接近1,分別為1.18和0.90; 在0.5~2.0區間內的定量比值分別為91%和94%。
1 引 言
與幾乎處于靜態的基因組不同,細胞的蛋白質組會隨外部刺激及內部反應而持續變化[1,2]。使用基于穩定同位素稀釋技術的相對定量方法,可以對蛋白質表達譜的變化進行研究[3,4]。通過對細胞間差異進行蛋白質表達及修飾層面上的定量描述,能為理解復雜的生物現象提供關鍵信息[5,6]。為引入不同質量數的穩定同位素至肽段的特定位點,可采用多種方式,最常見的是化學標記、酶解標記和代謝標記3種方法[7~10]。使用質譜檢測輕、重穩定同位素標記的等量蛋白質,通過比較相應肽段的峰面積,即可對其進行相對定量研究[11]。
在采用鳥槍法(Shotgun)的蛋白質組學研究中,常使用數據依賴采集(Data dependent acquisition,DDA)模式來獲取二級質譜數據。其基本策略為: 選擇一級譜中豐度最高的母離子進行二級碎裂,并將其加入臨時排除名單,在一段時間內不再進行采集。如果共洗脫的母離子較多,將沒有足夠的時間對所有母離子進行二級碎裂,可檢測的動態范圍不可避免地受到限制,高豐度蛋白更容易被鑒定,而低豐度蛋白很難被鑒定。在常規的DDA模式鳥槍法蛋白質組學實驗中,只有約16%會被選取進行二級碎裂[12]。
樣本復雜性的增加是同位素標記方法的主要缺陷。通常,使用同位素標記的方法會使一級譜中峰的數量至少增加一倍,這也將進一步加劇對低豐度蛋白質母離子采樣不足的缺陷,降低蛋白質定量分析的精確性。使用等質量標記策略可以克服這一缺陷[9,13,14]。因為對等質量標記實驗的定量是在二級譜層面進行的,化學干擾影響降低,使其具有更高的信噪比。
等質量標記方法主要有相對與絕對定量等質量標簽(Isobaric tags for relative and absolute quantitation, iTRAQ)、串聯質量標簽(Tandem mass tags, TMT)、可裂解等質量標記親和標簽(Cleavable isobaric labeled affinity tag, CILAT)、N,N二甲基化亮氨酸(N,NDimethyl leucine, DiLeu)和等質量肽段末端標記(Isobaric peptide termini labeling, IPTL)等[15~20]。其中,iTRAQ、TMT、CILAT和DiLeu等都屬于基于報告離子的定量方法,報告基團、平衡基團和反應基團組合在一起形成標記試劑。其中,報告基團和平衡基團有多種質量,但是它們的質量總和相等。因此,當標記試劑通過化學反應與肽段連接后,不同樣品中相同蛋白質所對應的相同肽段的質量是相等的。但在進行二級譜分析時,報告基團會斷裂下來。因此,根據質量不同的報告基團的豐度,就可以對不同樣品中的蛋白質進行相對定量分析[21~24]。
IPTL方法采用蛋白內切酶LysC消化蛋白質,生成C端為賴氨酸的肽段; 分別使用含有輕、重同位素的試劑對這些賴氨酸殘基進行選擇性修飾; 進一步在N端使用含有輕、重同位素的試劑對肽段進行相反于C端的修飾,最終得到等質量的肽段混合物。同時對這些肽段進行質譜分析,在進行一級譜分析時,由于肽段的質量相同,不會增加樣本的復雜性。然而在處理二級譜的數據時,則可利用成對的b、y離子進行分析[9]。在AISA算法中,同時搜索成對離子與非成對離子的信息; 可以有更多的肽段被識別與利用,極大地改善了定量覆蓋度和定量結果的準確度。
IPTL方法在很大程度上增加了二級譜中的定量信息。Matrix Science公司的Mascot搜索引擎,在處理非同位素標記的肽段數據時可以獲得很好的匹配結果。但是由于Mascot在對肽段數據打分時,會考慮匹配到的肽段的峰強度。從而使用IPTL方法取得的二級數據中,有大量因使用了同位素對稱修飾而無法被Mascot匹配到的肽段存在,導致匹配到的肽段的相對峰強度降低,繼而影響了Mascot對相應肽段的打分及鑒定結果[25]。
專門針對高分辨率串聯質譜數據開發的數據庫搜索軟件Morpheus在一定程度上解決了Mascot所遇到的困難。Morpheus使用如下算法來計算肽段圖譜匹配(Peptide spectrum matches,PSMs)的得分: 將二級譜中匹配的離子數量之和作為得分的整數部分,而所有匹配的離子對應的圖譜豐度之和作為得分的小數部分。使用這種打分方式,雖然未被匹配的對稱同位素標記的肽段離子仍大量存在,但并不會對最終打分造成太大影響。由于對稱同位素標記的肽段離子信息未被有效利用,因此仍有部分肽段無法鑒定。如何有效利用這些信息,已成為一項新的需求。endprint
本研究專門針對IPTL方法的特點,為利用IPTL方法得到的實驗數據設計了一種新的打分算法: 全部離子打分算法(All ions scoring algorithm, AISA)。AISA在對使用IPTL方法得到的實驗數據進行處理時,可以同時得到定性和定量信息。通過對數據集進行處理分析,發現AISA算法能得到比Mascot和Morpheus更多的鑒定結果,且在QExactive HeLa和humanHCCHL數據集上的蛋白定量覆蓋率分別達到99%和100%。
2 實驗部分
2.1 儀器與試劑
利用Ultimate 3000色譜系統(美國Dionex公司)與QExactive質譜儀(美國賽默飛世爾公司)構建一維納升系統(1DnanoRPLCESIMS/MS); BioSpec Tissue Tearor組織勻漿儀(美國Biospec Products公司); CPX130超聲破碎儀(美國ColeParmer公司); CentriVap真空濃縮儀(美國LABCONCO公司)。
去除賴氨酸的DMEM培養基(美國Thermo公司); d(2),13C甲醛和d(0),12C甲醛(美國Cambridge Isotope公司); 蛋白內切酶LysC(日本WAKO公司); 尿素、蛋白酶抑制劑、甲酸(FA)、甲醛(38%水溶液)和o甲基異脲(美國SigmaAldrich公司); 碘乙酰銨(IAA)和二硫蘇糖醇(DTT)(美國Acros公司); BCA法蛋白濃度測定試劑盒(中國碧云天生物科技研究所); 乙腈(ACN)(色譜純,德國Merck公司); 實驗用水為經過MilliQ系統(美國Millipore公司)處理的超純水; 其它試劑均至少為分析純。Daiso C18填料(5 μm,120 ,日本Daiso公司); 熔融石英毛細管(75 μm i.d. × 375 μm o.d.; 150 μm i.d. × 375 μm o.d.,中國鑫諾光纖色譜有限公司); 人肝癌高低轉移株細胞株由復旦大學劉銀坤教授惠贈。
2.2 實驗方法
2.2.1 HeLa細胞樣品的制備 HeLa細胞樣品參考文獻[26]的方法制備。首先是代謝標記。先將HeLa細胞分為兩份,在37℃、5% CO2的環境下,分別使用加入13C6 L賴氨酸和12C6L賴氨酸的DMEM培養基進行培養,標記為第一代。每5天傳代一次,每份樣品傳5代。培養好的細胞加入適量1×磷酸鹽緩沖生理鹽水(Phosphate buffered saline,PBS)清洗,用胰蛋白酶消化。細胞從培養皿上脫離后,加入含有血清的培養基終止消化,收集細胞懸液,離心,收集細胞。
蛋白的提取和酶解: 分別將收集所得的兩份細胞懸浮在裂解液(含8 mol/L尿素和1%(V/V)蛋白酶抑制劑)中, 10000 r/min勻漿1 min,然后在冰浴中超聲破碎100 s, 25000 r/min離心40 min,取上清待用,并用BCA試劑盒分別測定兩份蛋白濃度。提取得到的兩份蛋白分別溶解于50 mmol/L NaHCO3(pH 7.5), 在90℃下熱變性20min,冷卻至室溫后還原(10 mmol/L DTT,56℃,2 h)并烷基化(25 mmol/L IAA,室溫避光,40 min),隨后以酶/蛋白質為1∶25 (w/w)的比例加入胞內蛋白酶賴氨酸C,并在37℃水浴中反應16 h。
肽段的等重標記: 先將賴氨酸胍基化: 向肽段中加入40 μL 2 mol/L o甲基異脲(溶解于100 mmol/L NaHCO3),然后用2 mol/L NaOH調節至pH 11,并在37℃下孵育2 h,接著加入10%三氟乙酸(Trifluoroacetic Acid,TFA)調節至pH 8終止反應。采用d(0)、12C甲醛和d(2)、13C甲醛分別還原代謝標記中重標和輕標的肽段: 先向胍基化的兩份肽段中分別加入16 μL 0.6 mol/L氰基硼氫化鈉,然后在振蕩條件下向代謝標記的重標肽段中加入16 μL d(0)、12C甲醛溶液(4%,V/V),向代謝標記的輕標肽段中加入16 mL d(2)、 13C甲醛溶液(4%,V/V)。將它們分別在37℃下孵育1 h。將兩部分肽段1∶1(w/w)混合, 待用。
2.2.2 HeLa細胞樣品的2D LCMS/MS分析 對HeLa細胞樣品的2D LCMS/MS實驗條件進行優化。混合的肽段首先進行高pH反相液相色譜分析,采用的分離體系由Agilent 1290 Infinity液相色譜系統(Santa Clara,CA,USA)結合ZORBAX ExtendedC18分離柱(50 mm×2.1 mm,1.8 μm,Agilent,USA)組成。流動相為A: 25 mmol/L HCOONH4,pH 10; B: 25 mmol/L HCOONH4溶于90% (V/V)ACN,pH 10。洗脫梯度為: 0~40 min,20% B; 40~50 min,30% B; 50~60 min,80% B。每3 min收集1個餾分,共收集20個餾分。再將20個餾分以等間距的收集時間混合成10份,例如餾分1與餾分11混合,餾分10與餾分20混合。將最終得到的10個樣品真空干燥,重溶在1% 甲酸(FA)中,
80℃保存待用。
第二維色譜分離系統為基于QExactive和Ultimate 3000液相色譜系統結合構建的nanoRPLCESIMS/MS分析系統。NanoRPLC的分離條件為: 流動相A: 97.9% H2O+2% ACN+ 0.1% FA; 流動相B: 97.9% ACN+2% H2O+0.1%FA; 首先用100% A在8 μL/min的流速下將樣品上樣到DaisoC18預柱(3 cm×150 μm i.d.)上,再在DaisoC18毛細管分離柱(15 cm×75 μm i.d.)上以350 nL/min的流速分離肽段,梯度洗脫程序為: 0~60 min,20% B; 60~75 min, 30% B; 75~90 min, 80% B; 90~95 min,80% B。endprint
QExactive質譜參數參考相關文獻的條件,優經化后的參數為: 正離子模式; 噴霧電壓為2.2 kV; MS掃描范圍為300~1850 amu,分辨率設為70,000,自動增益控制(Automatic gain control,AGC)設為1000000,離子最大累積時間設為120 ms。12個最強的母離子用高能碰撞碎裂模式(Higherenergy collisional dissociation, HCD)進行二級碎裂。MS/MS的分辨率設為35000,AGC設為500000,離子最大累積時間設為120 ms。動態排除功能開啟,母離子被選中一次即排除30 s,排除列表的大小為500。
2.2.3 人肝癌高低轉移細胞株的樣品制備 人肝癌高轉移細胞株(MHCC97H)和低轉移細胞株(MHCC97L)的樣品制備過程與HeLa細胞相同。高轉移細胞株在代謝標記時采用重標標記賴氨酸,在化學標記時采用輕標標記肽段的N末端; 低轉移細胞株在代謝標記時采用輕標標記賴氨酸,在化學標記時采用重標標記肽段的N末端。兩份肽段1∶1(V/V)混合備用。
2.2.4 人肝癌高低轉移細胞株樣品的2D LCMS/MS分析 HumanHCCH/L樣品的高pH分級實驗流程與HeLa細胞一致。對10個餾分采用基于TripleTOF 5600+的nanoRPLCESIMS/MS系統進行分析。優化的nanoRPLC的分離條件為流動相A: 97.9% H2O+2% ACN+0.1% FA; 流動相B: 97.9% ACN+2% H2O+0.1% FA; 首先用100% A在4 μL/min的流速下將樣品上樣到DaisoC18預柱(3 cm ×150 μm i.d.),然后在DaisoC18毛細管分離柱(15 cm×75 μm i.d.)上以300 nL/min的流速以如下梯度分離肽段: 0~45 min,5% B; 45~60 min,22% B; 60~65 min,35% B; 65~70 min,80% B。
參考相關文獻的實驗條件,經優化的TripleTOF 5600+的質譜參數為: 質譜分析在DDA的正離子模式下進行; 噴霧電壓為2.6 kV; MS的掃描范圍為350~1250 amu,考慮的價態為+2~+5價,cps>80,離子的累積時間0.25 s; 取最強的60個母離子做MS/MS碎裂,掃描范圍為100~1500 amu,離子的累積時間0.04 s; 動態排除功能開啟,母離子被選中一次就將其排除22 s。
2.2.5 數據庫搜索和搜庫結果的后處理 使用Morpheus和Mascot兩種數據庫搜索引擎與AISA算法進行對照。測試數據集為QExactive HeLa 2D RPLC和humanHCCH/F。并針對humanHCCH/F數據集尋找差異蛋白。采用的數據庫為IPI human (版本3.87)。3種搜索算法均會在搜索前將數據庫轉換為正反庫的形式。
HumanHCCH/L樣品數據在Triple TOF 5600 plus質譜儀上采集得到,其格式為.wiff。使用AB SCIEX MS Data Converter轉換為Mascot通用格式(Mascot Generic Format,MGF)文件。HeLa 2D RPLC樣品數據從QExactive質譜儀采集得到,其格式為.raw。使用Proteome Discoverer轉換為MGF文件。然后使用前述3種搜索算法進行搜庫。
搜庫時采用的通用參數如下: 酶切類型設為蛋白內切酶LysC特異性酶切; 允許最多2個漏切位點; 可變修飾設為甲硫氨酸的氧化(+16 Da); 固定修飾設為賴氨酸的胍基化(+42 Da)和半胱氨酸的烷基化(+57 Da); 因為在實驗結果存在干擾的情況下,被選取做二級檢測的母離子有可能是第一或第二同位素,而不是單同位素峰,所以,對于實驗結果中的母離子質量允許1或2 Da的單同位素質量偏離。
非通用參數為: 對QExactive HeLa 2D RPLC數據集,一級和二級的質量容忍度分別設置為20 ppm和0.01 Da; 對于HumanHCCH/L數據集,一級和二級的質量容忍度分別設置為20 ppm和0.025 Da。在使用AISA算法搜索時,需要設置2個可變修飾: 肽段N末端的重標二甲基化(+34 Da)和賴氨酸的13C0輕標。在使用Mascot或Morpheus搜索引擎時,需要設置3個可變修飾: 肽段N末端的輕標二甲基化(+28 Da)、肽段N末端的重標二甲基化(+34 Da)和賴氨酸的13C6重標。
所有搜索結果的PSM的錯誤發現率(False discovery rate,FDR)控制在1%以下。根據來源于正序列和反序列的PSM計數對每個PSM計算q值,q≤1%,則接受。
3 結果與討論
3.1 AISA算法的設計與實現
AISA算法中首先根據母離子的質量從蛋白質數據庫中檢索候選肽段,并根據相應的肽段序列生成理論的b離子和y離子,然后與實際的二級譜圖進行匹配。將匹配到的離子總數加上這些匹配到的離子的峰強度之和占所有離子峰強度之和的比值,作為AISA算法對一個肽段的打分值。
AISA算法的實現以Morpheus的源程序為基礎,添加了對Mascot通用格式(MGF)文件的讀取功能,并按照AISA算法重寫了其打分函數。整個系統開發在微軟Visual Studio Community 2015集成開發環境下完成。
測試使用的數據集分別是HeLa細胞和人肝癌高低轉移細胞株。首先使用細胞培養氨基酸穩定同位素標記(Stable isotope labelling by amino acid in cell culture,SILAC)方法和化學標記相結合對HeLa細胞進行等質量同位素標記,1∶1(V/V)混合后用高pH反相液相色譜分級,并用基于QExactive質譜構建的低pH RPLCMS/MS平臺進行分析。使用相同方法對人肝癌高低轉移細胞株進行處理,得到的數據分別命名為QExactive HeLa 2D RPLC和humanHCCH/L。endprint
3.2 不同算法對數據集的鑒定結果比較
使用AISA算法對QExactive HeLa 2D RPLC和humanHCCHL數據集進行鑒定時, PSM的FDR在1%以下。并與分別使用Mascot和Morpheus兩種搜庫方法所得到的鑒定結果進行對比,其差異分別如圖 1和圖2所示,縱坐標為3次平行實驗所得鑒定數量的平均值,誤差線為3次平行實驗所得鑒定數量的標準差。每個子圖中3個分組分別為鑒定到的PSM、唯一肽段數和蛋白質數量。
從圖1和圖2可見,對于兩個數據集,AISA算法鑒定所得的各項指標均高于Mascot或Morpheus。在QExactive HeLa 2D RPLC數據集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質分別比Morpheus高15%、26%和22%。在HumanHCCHL數據集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質分別比Morpheus高24%、39%和27%。
之間,在QExactive HeLa 2D RPLC數據集和HumanHCCHL數據集上,分別僅有182個和74個蛋白質的定量比值在此區間外,落在區間內的蛋白質定量比值分別約占總體的91%和94%。蛋白質定量比值的平均值在QExactive HeLa 2D RPLC數據集和humanHCCHL數據集上分別為1.18和0.90,均接近1,說明AISA算法的定量準確度非常好。在錯誤發現率<1%的條件下,AISA算法的打分最低值為16.1008,即每個鑒定到的PSM中至少含有16個碎片離子信息。由于所有鑒定到的PSM都有定量信息,使得算法的定量覆蓋率達到了100%。在此基礎上,因每個二級譜都包含不只一個定量比值,定量分析的準確度也得到了較大提升。
4 結 論
本研究設計的AISA算法可以對基于IPTL策略的實驗鑒定出比已有的商品化軟件Mascot和開源Morpheus軟件更多的蛋白質信息,同時通過識別成對出現的碎片離子強度,可以實現對IPTL策略數據的定量分析,定量覆蓋率在QExactive HeLa和HumanHCCHL數據集中分別達到了99%和100%。此功能將極大地拓寬其在相關領域的應用空間,使得對于復雜蛋白質組體系中特定蛋白質的定性與定量分析可同時完成,在蛋白質組學研究、疾病標志物的篩選等方面有著重要的潛在應用價值。endprint