劉洋,馮晉文,劉萬霖,秦鈞,丁琛,,賀福初
小鼠肝臟蛋白質組數據門戶
劉洋1,馮晉文2,劉萬霖3,秦鈞3,丁琛1,2,賀福初3
1 復旦大學 生物醫學研究院 上海 200032 2 復旦大學 生命科學學院 上海 200438 3 國家蛋白質科學中心·北京,北京 102206
肝臟是哺乳動物體內的代謝中樞,系統性研究肝臟蛋白質組在不同的生理和病理狀態下的表達情況有助于我們理解肝臟的功能機理。隨著高精度質譜技術的不斷發展,眾多小鼠肝臟生理病理研究產生了大量蛋白質組學數據。文中系統性整理了834例小鼠肝臟的蛋白質組學實驗,建立了小鼠肝臟蛋白質組數據門戶(Mouse Liver Portal, http://mouseliver.com),該門戶中包含了肝臟在不同生理和病理狀態下的蛋白質組學數據,如不同性別、年齡、晝夜節律、細胞類型和不同時間階段的部分肝切除、非酒精性脂肪肝等狀態。該門戶能夠提供肝臟在不同狀態下蛋白的表達變化情況、差異顯著的蛋白質和它們參與的生物學過程以及潛在的信號轉導和調控網絡。作為目前最全面的小鼠肝臟蛋白質組數據門戶,該數據庫能夠給肝臟生物學研究提供重要的資源和參考。
肝臟,蛋白質組學,數據庫
肝臟是脊椎動物體內最大的器官,它在維持代謝穩態、合成生物體必需的物質以及對外源物的解毒等方面起著非常關鍵的作用[1]。除了其生物學功能外,肝臟的生理學特征也很獨特,例如肝臟的再生功能[2]、節律特征[3]等。研究肝臟不同功能的分子機制對認識和治療肝臟疾病起著非常重要的作用。肝臟蛋白質組計劃(The Human Liver Proteome Project)[4]作為第一個在器官層面的蛋白質組工程在過去的十幾年中取得了很多的成果,越來越多的研究利用基于質譜的蛋白質組學技術[5-7]來描繪揭示肝臟在不同生理和病理條件下的蛋白質分子特征。
應用液相串聯質譜技術,劉明偉等在亞細胞蛋白質組學層面揭示了脂滴在肝臟脂肪代謝平衡中的作用[8];Azimifar等在細胞分辨率水平揭示了肝臟中不同細胞類型所承擔的功能[9];丁琛等進一步地揭示了它們通過信號傳遞來協作行使肝臟的各種生物學功能[10];王云之等和Wang等在晝夜節律中通過肝臟蛋白質組的動態變化揭示節律調控網絡和機制[11-12];劉曉偉等研究了在脂多糖(LPS) 刺激下肝損傷的形成機理[13];Hsieh等研究闡釋了在部分肝切除后組織再生的分子機理[14-15]。目前,針對小鼠肝臟的功能性研究已經積累了數千組高質量的蛋白質組數據。上述研究均是通過比較不同條件下小鼠肝臟蛋白質表達譜的變化,從而獲得和變化條件相關的蛋白質,然后去探究它們在不同條件下承擔的功能。但是這些蛋白質表達譜中仍然有很多知識和新發現等待進一步挖掘,然而目前還沒有可用的數據庫系統性地整理、分析和展示小鼠肝臟的蛋白質組數據。
因此,我們建立了首個小鼠肝臟蛋白質組學門戶,來呈現小鼠肝臟中的蛋白質在不同生理和病理狀態下的表達情況,分析出不同條件下表達有差異的蛋白質以及它們參與的生物學功能和信號通路,為研究者提供和不同條件存在潛在關聯的蛋白以供參考和驗證,并為實驗提供數據支持。
門戶網站共包含834組關于小鼠肝臟的蛋白質組實驗數據,其中60組為2010–2017年間已發表的小鼠肝臟的蛋白質組數據集,從文獻中篩選實驗數據的標準是:研究對象是小鼠肝臟的蛋白質組;蛋白質組分析技術是基于質譜儀器;定量方法采用非標定量[16]技術。774組實驗數據來自筆者的科研團隊。這些實驗包含464組蛋白全譜[17](Profiling)和310組轉錄因子DNA結合活性譜[18](catTFRE),catTFRE技術是利用轉錄因子可與序列特異性DNA元件結合的特點,合成了100種轉錄因子結合序列的串聯多拷貝雙鏈DNA結合元件,將其用生物素標記以包裝成DNA誘餌富集細胞中內源性轉錄因子,將被DNA誘餌捕獲的內源性轉錄因子利用串聯質譜技術進行定性和定量。定量方法同樣是非標定量。實驗的基本信息按照表1中提供的字段進行整理。

表1 實驗元數據和示例
對本實驗室產生的蛋白質組數據運算進行了嚴格的質量控制,利用Mascot[19]軟件對質譜產生的譜圖作鑒定,控制肽段和譜圖匹配的錯誤發現率(FDR) 小于1%,對匹配得到的肽段采用以基因為中心的蛋白定性和定量算法[20],用iBAQ[21]值作為基因在蛋白質層面的表達量。在這834組實驗中一共鑒定到11 471個基因產物。再根據以下兩個條件的:1) 基因表達產物至少被鑒定到2個唯一性肽段;2) 至少在5次實驗中被鑒定到;篩選得到10 595個高可信度的小鼠肝臟表達的蛋 白質。
從文獻中收集得到的數據則根據它提供的質譜數據處理流程和最終的數據表格進行統一的處理,對利用MaxQuant[22]軟件進行蛋白的定性和定量的實驗數據,利用蛋白表達量列表里的峰度值計算iBAQ,用唯一的肽段數篩選高可信度的蛋白,對同一個基因表達的多個蛋白計算總和作為基因的表達量。
由于這些數據來自的樣本不同、處理方式不同、檢測儀器不同,需要對所有實驗的蛋白質表達量進行標準化,834組實驗根據實驗策略和實驗材料分開進行數據的標準化。采用的標準化方法是分位數標準法[23],這一方法的假設前提是每組實驗蛋白質表達量的分布一致,所以對實驗策略一致并且實驗材料為同一細胞類型或者同一細胞系的所有實驗整合在一起對表達量iBAQ進行標準化,計算方法為:對整合在一起的實驗計算每組實驗的五分位數q=(q1,···,q)
根據所有實驗的每一個分位數值計算平 均值:

將每次實驗的5個五分位數值調整為所有實驗對應的五分位數的平均值,再根據每次實驗調整后的分位數值和原始值的倍數縮放每次實驗所有蛋白質的表達量。
最后根據國家生物技術信息中心(NCBI)的基因信息數據庫Entrez Gene[24],將數據集中采用不同數據庫(Ensemble、Uniprot)的基因名都轉換成Entrez Gene數據庫中的基因名,并把Entrez GeneID作為基因的唯一標識符。
基因集的功能分析方法是利用Gene Ontology[25](GO) 的生物學過程條目做富集分析[26]。該方法的輸入數據是需要功能分析的基因名集合,計算過程首先是計算該基因集與在GO層次關系中處于最底層的GO條目之間的富集程度,用Fisher精確檢驗的值來表征該富集程度,在計算上一層的GO條目時移除在子條目中出現的基因,然后再計算富集程度。最后挑選出富集程度較高的GO條目,作為基因集的功能。采用的程序來自R程序包topGO。
小鼠肝臟蛋白質組數據門戶從質譜數據中獲得了10 595個高可信度的小鼠肝臟蛋白質在不同生理和病理條件下的表達數據,在這些蛋白質中包含了660個轉錄因子。門戶網站也包含了細胞核、線粒體和脂滴這3種細胞系中的蛋白質組圖譜(圖1A)。根據GO的注釋將門戶網站中的小鼠肝臟蛋白質組作功能分析[27],發現這些蛋白質的功能主要集中在:生命體所需物質的代謝,如氨基酸和脂質的代謝、蛋白的成熟和降解、膜轉運和能量代謝;維持生命體正常運轉的功能,如細胞周期和凋亡;以及在免疫系統中起到一定的作用(圖1B)。

圖1 門戶概覽(A:小鼠肝臟中蛋白質鑒定情況;B:肝臟蛋白功能,每一塊多邊形代表一類蛋白的功能,多邊形的不同顏色代表不同的GO功能類別,多邊形大小代表蛋白承擔功能的比重)
2.2.1 比較功能
小鼠肝臟蛋白質組數據門戶提供了操作方便的比較功能。如圖2所示,用戶可以選擇兩種不同的條件,比較在這兩種不同條件下蛋白表達的變化情況。通過點擊基因搜索框右側的加號按鈕得到篩選不同條件的字段:Strain、Gender、Genotype、Gene、Cell Type、Organelle、Treatment、Time,通過選擇不同的條件信息生成兩種類型,然后點擊搜索便能得到在兩種條件下蛋白的表達情況。
比較結果頁面中會展示蛋白表達情況和功能分析結果,圖3展示了肝實質細胞和Kupffer細胞中蛋白質表達的比較情況,通過箱形圖形象地展示了同一蛋白質在兩種條件下表達的高低情況(表達量是標準化iBAQ值的log轉換),也能看到蛋白質表達量的平均值,可以用來比較不同蛋白質表達的高低情況。比較功能的結果頁還展示了在兩種不同條件下蛋白質的表達量在統計學上是否有顯著的差異,方法是對每個蛋白質表達量的兩組數據進行檢驗,對計算的作做多重假設檢驗的矯正,將FDR值小于0.05的作為有顯著差異的蛋白。

圖2 小鼠肝臟不同生理和病理狀態條件的選擇頁面
比較結果頁面還會提供表達量差異倍數在5倍以上并且該差異在統計上顯著的蛋白質功能,采用的是topGO基因集功能分析方法,圖4展示了Kupffer細胞中相較于肝實質細胞特異性高表達蛋白質的功能,這些蛋白質會參與免疫應答、呈遞抗原等功能。比較結果分析頁面還會展示潛在的轉錄因子和靶基因的調控作用網絡,如果用戶選擇的條件有采用catTFRE實驗策略產生的數據,門戶網站會篩選出catTFRE實驗中有差異的轉錄因子和profiling中有差異表達的蛋白,根據CellNet[28]提供的轉錄因子和靶基因的調控關系,展示這些變化的蛋白之間存在的調控網絡。
2.2.2 查詢功能
在網站的首頁用戶可以輸入感興趣的蛋白質,在結果展示頁面(圖5) 會顯示該蛋白質的基本信息,這些信息來自UniProt數據庫,頁面下方會展示該蛋白質在不同小鼠品系、不同性別、不同年齡階段、不同細胞類型、不同細胞系中的表達水平,以及它在高脂飲食、節律和部分肝切除實驗中不同時間點的表達水平。除了蛋白質在每個屬性不同條件下的表達高低情況,搜索結果頁面還提供了該蛋白表達量在每種屬性下不同條件的兩兩之間是否存在顯著差異,根據計算得到的值大小顯示不同深淺的紅色。從圖5中可以看到Hnf4a在細胞核提取物中的濃度要顯著高于它在全細胞中的濃度。

圖3 雄性C57小鼠肝臟的肝實質細胞和Kupffer細胞中蛋白質的表達情況和差異比較

圖4 Kupffer細胞中特異性高表達蛋白在GO生物學過程條目中富集得到的功能
用戶查詢的基因如果是轉錄因子并且該基因在我們推測的調控網絡中,那么除了基因在不同實驗條件下的表達情況,用戶還可以得到與該基因存在潛在調控關系的靶基因,靶基因的推測方法是Context likelihood of relatedness (CLR) 算法[29],該算法是基于相關性網絡,首先計算基因兩兩之間在所有實驗中表達量的相關性系數,將每個基因當作網絡中的節點,基因之間的相關性作為基因之間連接權重,刪除連接權重低于某一閾值的連接,從而生成基因之間的連接網絡。CLR在此基礎上利用基因之間的相關性計算了統計似然性作為背景分布,根據背景分布挑選相關性顯著高于其他基因之間的連接對,與轉錄因子存在高連接度的基因就是該轉錄因子的潛在靶基因,再結合ENCODE數據庫中轉錄因子和基因的結合信息作進一步篩選。采用CLR算法我們得到了肝臟中蛋白質之間潛在的調控關系,幫助用戶進一步認識小鼠肝臟中的轉錄調控網絡。

圖5 Hnf4a在不同條件下(兩種品系的小鼠、雌雄小鼠、多種細胞類型、多種細胞器和肝切除后多個時間點)的表達情況和差異顯著性
2.2.3 數據上傳和下載功能
門戶網站可以支持用戶將自己產生的關于小鼠肝臟蛋白質組數據上傳到數據庫中,現階段支持上傳已經完成數據庫搜索的質譜數據,用戶需要根據表1的字段填寫實驗的基本情況并且寫明數據庫搜索條件和質控情況以及對應產生的數據表,然后將實驗信息和數據表格打包成壓縮文件進行上傳,我們獲得數據后會根據質控流程將數據存入到數據庫中,這樣可以不斷提高數據庫的全面性。門戶網站同樣也支持用戶下載不同條件下的蛋白質表達數據以便用戶進行后續的處理和分析。
小鼠肝臟蛋白質組數據門戶為用戶提供了當前最全面的小鼠肝臟蛋白質組數據庫。該數據庫包含小鼠肝臟基因的蛋白產物的表達量和實驗條件的基本信息,并且支持用戶進行查看比較不同實驗條件下蛋白表達譜的變化情況和查詢自己感興趣的蛋白在不同實驗條件下的表達量以及和實驗條件的相關性。門戶網站還提供了差異蛋白的功能分析以及潛在的轉錄因子調控的作用網絡,為用戶提供可能的研究方向。例如在小鼠肝臟部分切除的實驗中,網站提供了在處理前后的不同時間點發生顯著變化的轉錄因子以及其下游發生顯著變化的靶基因和它們之間存在的相互作用以及它們富集出的生物學功能。
基于質譜的蛋白質組學已經越來越成熟,未來會有更多的研究產生大量關于小鼠肝臟的蛋白質組數據,該門戶網站會不斷地將發表的數據進行處理和質控后加入到數據庫中,同時用戶也可以將自己實驗室產生的數據提交給門戶網站。隨著數據庫中數據量的不斷增長,門戶網站可以提供更多的分析角度和更加可靠的分析結果。
[1] Falcón-Pérez JM, Lu SC, Mato JM. Sub-proteome approach to the knowledge of liver. Proteomics Clin Appl, 2010, 4(4): 407–415.
[2] Fausto N. Liver regeneration. J Hepatol, 2000, 32(S1): 19–31.
[3] Stokkan KA, Yamazaki S, Tei H, et al. Entrainment of the circadian clock in the liver by feeding. Science, 2001, 291(5503): 490–493.
[4] He FC. Human liver proteome project: plan, progress, and perspectives. Mol Cell Proteomics, 2005, 4(12): 1841–1848.
[5] Gillet LC, Leitner A, Aebersold R. Mass spectrometry applied to bottom-up proteomics: entering the high-throughput Era for hypothesis testing. Ann Rev Anal Chem, 2016, 9: 449–472.
[6] Aebersold R, Mann M. Mass-spectrometric exploration of proteome structure and function. Nature, 2016, 537(7620): 347–355.
[7] Sinitcyn P, Rudolph JD, Cox J. Computational methods for understanding mass spectrometry–based shotgun proteomics data. Ann Rev Biomed Data Sci, 2018, 1: 207–234.
[8] Liu MW, Ge R, Liu WL, et al. Differential proteomics profiling identifies LDPs and biological functions in high-fat diet-induced fatty livers. J Lipid Res, 2017, 58(4): 681–694.
[9] Azimifar SB, Nagaraj N, Cox J, et al. Cell-type-resolved quantitative proteomics of murine liver. Cell Metab, 2014, 20(6): 1076–1087.
[10] Ding C, Li YY, Guo FF, et al. A cell-type-resolved liver proteome. Mol Cell Proteomics, 2016, 15(10): 3190–3202.
[11] Wang JK, Mauvoisin D, Martin E, et al. Nuclear proteomics uncovers diurnal regulatory landscapes in mouse liver. Cell Metab, 2017, 25(1): 102–117.
[12] Wang YZ, Song L, Liu MW, et al. A proteomics landscape of circadian clock in mouse liver. Nat Commun, 2018, 9(1): 1553.
[13] Liu XW, Lu FG, Zhang GS, et al. Proteomics to display tissue repair opposing injury response to LPS-induced liver injury. World J Gastroenterol, 2004, 10(18): 2701–2705. DOI: 10.3748/wjg.v10.i18.2701.
[14] Hsieh HC, Chen YT, Li JM, et al. Protein profilings in mouse liver regeneration after partial hepatectomy using iTRAQ technology. J Proteome Res, 2009, 8(2): 1004–1013.
[15] Sun YW, Deng XY, Li WR, et al. Liver proteome analysis of adaptive response in rat immediately after partial hepatectomy. Proteomics, 2007, 7(23): 4398–4407.
[16] Cox J, Hein MY, Luber CA, et al. Accurate proteome-wide label-free quantification by delayed normalization and maximal peptide ratio extraction, termed MaxLFQ. Mol Cell Proteomics, 2014, 13(9): 2513–2526.
[17] Ding C, Jiang J, Wei JY, et al. A fast workflow for identification and quantification of proteomes. Mol Cell Proteomics, 2013, 12(8): 2370–2380.
[18] Ding C, Chan DW, Liu WL, et al. Proteome-wide profiling of activated transcription factors with a concatenated tandem array of transcription factor response elements. Proc Natl Acad Sci USA, 2013, 110(17): 6771–6776.
[19] Perkins DN, Pappin DJC, Creasy DM, et al. Probability-based protein identification by searching sequence databases using mass spectrometry data. Electrophoresis, 1999, 20(18): 3551–3567.
[20] Saltzman AB, Leng M, Bhatt B, et al. gpGrouper: a peptide grouping algorithm for gene-centric inference and quantitation of bottom-up proteomics data. Mol Cell Proteomics, 2018, 17(11): 2270–2283.
[21] Schwanh?usser B, Busse D, Li N, et al. Global quantification of mammalian gene expression control. Nature, 2011, 473(7347): 337–342.
[22] Cox J, Mann M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nat Biotechnol, 2008, 26(12): 1367–1372.
[23] Bolstad BM, Irizarry RA, ?strand M, et al. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics, 2003, 19(2): 185–193.
[24] Maglott D, Ostell J, Pruitt KD, et al. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Res, 2007, 35: D26–D31.
[25] Harris MA, Clark J, Ireland A, et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res, 2004, 32: D258–D261.
[26] Alexa A, Rahnenfuhrer J, Lengauer T. Improved scoring of functional groups from gene expression data by decorrelating GO graph structure. Bioinformatics, 2006, 22(13): 1600–1607.
[27] Liebermeister W, Noor E, Flamholz A, et al. Visual account of protein investment in cellular functions. Proc Natl Acad Sci USA, 2014, 111(23): 8488–8493.
[28] Cahan P, Li H, Morris SA, et al. CellNet: network biology applied to stem cell engineering. Cell, 2014, 158(4): 903–915.
[29] Faith JJ, Hayete B, Thaden JT, et al. Large-scale mapping and validation oftranscriptional regulation from a compendium of expression profiles. PLoS Biol, 2007, 5(1): e8.
Mouse liver proteome database
Yang Liu1, Jinwen Feng2, Wanlin Liu3, Jun Qin3, Chen Ding1,2, and Fuchu He3
1 Institutes of Biomedical Sciences, Fudan University, Shanghai 200032, China 2 School of Life Sciences, Fudan University, Shanghai 200438, China 3 National Center for Protein Sciences·Beijing, Beijing 102206, China
The liver is the metabolic center of mammalian body. Systematic study on liver’s proteome expression under different physiological and pathological conditions helps us understand the functional mechanisms of the liver. With the rapid development of liquid chromatography tandem mass spectrometry technique, numerous studies on liver physiology and pathology features produced a large number of proteomics data. In this paper, 834 proteomics experiments of mouse liver were systematically collected and the mouse liver proteome database (Mouse Liver Portal, http://mouseliver.com) was established. The Mouse Liver Portal contains the liver’s proteomics data under different physiology and pathology conditions, such as different gender, age, circadian rhythm, cell type and different phase of partial hepatectomy, non-alcoholic fatty liver. This portal provides the changes in proteins’ expression in different conditions of the liver, differently expressed proteins and the biological processes which they are involved in, potential signal transduction and regulatory networks. As the most comprehensive mouse liver proteome database, it can provide important resources and clues for liver biology research.
liver, proteomics, database
April 28, 2019;
June 21, 2019
Shanghai Municipal Science and Technology Major Project (No. 2017SHZDZX01).
Chen Ding. Tel: +86-21-51630742; E-mail: chend@fudan.edu.cn.
劉洋, 馮晉文, 劉萬霖, 等. 小鼠肝臟蛋白質組數據門戶. 生物工程學報, 2019, 35(9): 1715–1722.
Liu Y, Feng JW, Liu WL, et al. Mouse liver proteome database. Chin J Biotech, 2019, 35(9): 1715–1722.
上海市科技重大專項(No. 2017SHZDZX01) 資助。
(本文責編 郝麗芳)