基于色譜-質(zhì)譜聯(lián)用的暴露組學(xué)分析方法和研究范式的新進展

2024-02-20 04:04:46孫國皓劉心昱許國旺

色譜 2024年2期

由蕾, 孫國皓, 于迪, 劉心昱*, 許國旺

(1. 中國科學(xué)院大連化學(xué)物理研究所, 中國科學(xué)院分離分析化學(xué)重點實驗室, 遼寧省代謝組學(xué)重點實驗室,遼寧大連 116023; 2. 中國科學(xué)院大學(xué), 北京 100049)

人類的健康或疾病狀態(tài)受環(huán)境因素和遺傳因素的共同影響。全基因組關(guān)聯(lián)研究(genome wide association study, GWAS)表明,僅有10%～20%的疾病能夠由基因變異來解釋[1,2]。瑞典家庭癌癥數(shù)據(jù)庫數(shù)據(jù)顯示,在15種常見的癌癥中,僅有約10%的致癌風(fēng)險來自遺傳因素,而更多的風(fēng)險來自于環(huán)境暴露以及遺傳與環(huán)境暴露間的相互作用[1,3,4]。為了能夠更加深入地研究環(huán)境暴露與人類健康或疾病狀態(tài)之間的關(guān)系,研究者們提出了暴露組的概念。

暴露組是指一個人從出生至生命結(jié)束全過程中各種暴露的總和,其能從真正意義上探討污染暴露與人體健康和疾病之間的關(guān)系,并揭示這種關(guān)聯(lián)背后的內(nèi)在本質(zhì)。暴露組學(xué)關(guān)注個體一生中所有暴露因素的測量,以及這些暴露因素與疾病建立聯(lián)系的機制[5]。暴露組概念的提出促進了以組學(xué)為手段的暴露與疾病研究的發(fā)展,這類研究采用高通量的組學(xué)技術(shù)來分析血液和尿液等生物基質(zhì)中內(nèi)、外源性有害物質(zhì)的含量差異及變化趨勢,從而揭示這些物質(zhì)與疾病發(fā)生、發(fā)展之間的關(guān)系。

暴露組關(guān)聯(lián)研究(exposome wide association study, EWAS)是探究環(huán)境暴露與疾病發(fā)生、發(fā)展關(guān)系過程中所采用的一種重要的研究范式,其能夠?qū)ξ粗獥l件下的暴露情況進行評估。在進行EWAS時,需要確定暴露變量和結(jié)局,再根據(jù)多種暴露變量與疾病的相關(guān)性篩選出重要的暴露變量,從而實現(xiàn)關(guān)鍵暴露因子的識別[6]。在EWAS方法的基礎(chǔ)上,Rappaport等[7]利用兩階段方法來研究疾病相關(guān)的重要暴露因素:第一階段,比較疾病組與對照組血液/尿液中暴露組的差異,發(fā)現(xiàn)并鑒定特征性的化學(xué)物質(zhì),確定其與疾病的關(guān)聯(lián);第二階段,在大規(guī)模血液/尿液樣本中驗證這些化學(xué)物質(zhì)用作暴露標(biāo)志物或疾病惡化標(biāo)志物的可靠性。該方法能夠從眾多的內(nèi)、外源性物質(zhì)中發(fā)現(xiàn)重要的分析對象,有利于鎖定真正的風(fēng)險因子和有應(yīng)用前景的預(yù)警標(biāo)志物。

本文對基于色譜-質(zhì)譜聯(lián)用技術(shù)的暴露組學(xué)分析方法及研究范式的進展進行了介紹。首先綜述了基于色譜-質(zhì)譜的暴露組學(xué)分析方法進展,隨后圍繞環(huán)境因素導(dǎo)致的不良健康效應(yīng)問題,概括了以暴露組為核心的暴露組關(guān)聯(lián)研究、混合暴露研究及暴露組學(xué)與多組學(xué)(基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué))關(guān)聯(lián)研究等研究范式,最后對暴露組學(xué)分析方法及研究范式的未來發(fā)展進行了展望。

1 基于色譜-質(zhì)譜聯(lián)用的暴露組學(xué)分析方法

暴露物是指個體在其生命過程中所接觸到的各種物質(zhì),這些物質(zhì)可能來自于環(huán)境、食品、空氣、水等。暴露物的數(shù)量眾多,含量和理化性質(zhì)差異顯著,據(jù)估計,人體暴露在超過40萬種的化學(xué)物質(zhì)中,其中約有5 000種外源性化學(xué)物質(zhì)在體內(nèi)分散和積累[8,9],且它們在體內(nèi)的含量差異很大(含量差異可達5～6個數(shù)量級)。一般而言,環(huán)境污染物的含量為10-15～10-6mol/L,而內(nèi)源性代謝物的含量為10-9～10-3mol/L[10],不同物質(zhì)的巨大含量差異對分析儀器的靈敏度和動態(tài)范圍提出了巨大挑戰(zhàn)。

色譜-質(zhì)譜聯(lián)用技術(shù)兼具色譜的高效分離能力和質(zhì)譜的高分辨、高靈敏度特性,已廣泛用于暴露組學(xué)研究。暴露組學(xué)研究方法主要包括靶向定量分析、可疑物篩查和非靶向篩查,圖1顯示了這3種方法對外源性化學(xué)物質(zhì)的研究層次。靶向定量分析的研究對象被稱為“完全已知物”,即化學(xué)名稱和結(jié)構(gòu)是已知的且在樣本中存在的外源性化學(xué)物質(zhì);可疑物篩查的研究對象被稱為“已知的未知物”,即化學(xué)名稱和結(jié)構(gòu)已知、但不確定樣本中是否存在的外源性化學(xué)物質(zhì);非靶向篩查的研究對象被稱為“未知的未知物”,該方法用于發(fā)現(xiàn)新的外源性化學(xué)物質(zhì)[11]。靶向定量分析通常可以采用三重四極桿質(zhì)譜實現(xiàn),可疑物篩查和非靶向篩查則主要采用高分辨質(zhì)譜實現(xiàn)[11]。

圖 1 暴露組學(xué)分析方法組成Fig. 1 Composition of exposomics-analysis methods

1.1 基于色譜-三重四極桿質(zhì)譜的靶向定量分析

在人體內(nèi)暴露研究中,各種環(huán)境污染物在人體中的殘留情況是人們首要關(guān)注的。基于三重四極桿質(zhì)譜和多反應(yīng)監(jiān)測(MRM)模式的靶向定量分析是測量內(nèi)暴露最常用的方法。靶向定量分析需要先確定目標(biāo)分析物,再使用高選擇性的樣品制備方法以最大限度地去除基質(zhì)干擾[12],之后利用高特異性和高靈敏度的三重四極桿質(zhì)譜在MRM模式下對樣品中的目標(biāo)物進行準(zhǔn)確定量及風(fēng)險評估。靶向定量分析具有靈敏度高、準(zhǔn)確度高、通量高的優(yōu)點,主要體現(xiàn)在以下幾個方面:(1)基于三重四極桿質(zhì)譜結(jié)合MRM的靶向分析方法可以在最佳質(zhì)譜條件下對每一個目標(biāo)物進行分析,從而顯著提高檢測靈敏度;(2)該方法通過母離子和子離子的兩級離子選擇,排除了大量干擾離子,使質(zhì)譜的化學(xué)背景降低,能夠顯著提高目標(biāo)檢測物的信噪比,從而提高檢測的靈敏度;(3)該方法基于標(biāo)準(zhǔn)品建立,實際樣本的保留時間、母離子、子離子等多個分析特征已與標(biāo)準(zhǔn)品進行了匹配,檢測結(jié)果具有高準(zhǔn)確度;(4)隨著質(zhì)譜掃描速度的不斷加快和動態(tài)MRM技術(shù)的使用,靶向定量分析技術(shù)的通量也在不斷提高。

基于氣相色譜-串聯(lián)質(zhì)譜(GC-MS/MS)和液相色譜-串聯(lián)質(zhì)譜(LC-MS/MS)的暴露組學(xué)分析方法常被用于監(jiān)測人體血液(全血、血清或血漿)和尿液樣本中的有機污染物。GC-MS/MS方法可用于檢測多環(huán)芳烴、多氯聯(lián)苯、多溴聯(lián)苯醚、多溴聯(lián)苯、二惡英、多氯二苯并呋喃和一些農(nóng)藥(有機氯農(nóng)藥、有機磷農(nóng)藥、氨基甲酸酯農(nóng)藥和擬除蟲菊酯農(nóng)藥)[13-15];其中農(nóng)藥和多環(huán)芳烴在血液和尿液中均有檢出,但因其蓄積性較弱優(yōu)先選擇尿液作為生物樣本;而其他類別的污染物因蓄積性更強優(yōu)先選擇血液作為生物樣本。LC-MS/MS方法可用于檢測殺菌劑、煙草暴露標(biāo)志物、鄰苯二甲酸酯(PAEs)、環(huán)境酚、全氟化合物(PFASs)、有機磷酸酯(OPEs)、紫外線吸收劑、對羥基苯甲酸酯以及揮發(fā)性有機污染物(VOCs)和它們的代謝物等[16-18];其中,PAEs、環(huán)境酚、對羥基苯甲酸酯和VOCs在體內(nèi)代謝較快,通常以代謝物的形式在尿液中被檢出。PFASs作為近年來受到廣泛關(guān)注的持久性有機污染物,其在人體內(nèi)的蓄積性強,半衰期可達數(shù)十年之久[19],因此常采用血液樣本中的PFASs含量來表征人體對這類化合物的暴露情況。

目前,生物監(jiān)測方法集中于測量單一類別的外源性化學(xué)物質(zhì),例如鄰苯二甲酸酯代謝產(chǎn)物[20]、環(huán)境酚類化合物[21]、PFASs[17]以及有機磷酸酯[16]等。同一類別的外源性化學(xué)物質(zhì)具有相似的物理化學(xué)性質(zhì),與多類別外源性化學(xué)物質(zhì)同時檢測的方法相比,同類別外源性化學(xué)物質(zhì)的檢測方法更容易確定最佳提取和定量條件。然而,人類每時每刻都暴露在成千上萬種化學(xué)物質(zhì)之中,如果對這些化學(xué)物質(zhì)按照類別進行逐一分析,將會花費大量的時間和金錢,并且還可能會受限于樣本量而無法對人體暴露進行全面監(jiān)測,這一缺陷在基于大規(guī)模流行病學(xué)的EWAS研究中尤為明顯。為了解決這一問題,You等[22]和Wang等[23]將知識導(dǎo)向和基于實際樣品的可疑物篩查技術(shù)相結(jié)合,鎖定了與人體暴露相關(guān)的外源性化學(xué)物質(zhì),并建立了包含多類別化學(xué)殘留物的暴露組學(xué)精準(zhǔn)定量方法;該方法采用基于96孔除磷脂板的前處理技術(shù),在去除基質(zhì)效應(yīng)的同時提高了分析通量。另外,有研究[24]更加追求方法覆蓋度,在一個靶向方法中同時監(jiān)測1 000種以上的外源性化學(xué)殘留物,其主要關(guān)注的外源性化學(xué)物質(zhì)類別是生物毒素、殺蟲劑和獸藥等。上述方法均為研究暴露與疾病之間的關(guān)聯(lián)提供了有力支持。

圖 2 基于高分辨質(zhì)譜的可疑物篩查及非靶向篩查方法的工作流程[26]Fig. 2 Workflow of suspect and non-target screening approaches based on high resolution mass spectrometry[26]

1.2 基于色譜-高分辨質(zhì)譜的可疑物篩查分析

基于色譜-高分辨質(zhì)譜的暴露物篩查方法主要包括可疑物篩查和非靶向篩查。可疑物篩查是一種對可能存在的已知化合物進行篩查的方法,該方法的目的是大規(guī)模快速鑒定復(fù)雜混合物中的化合物成分,為進一步的靶向定量分析提供優(yōu)先監(jiān)測的化學(xué)物質(zhì)目錄[25]。可疑物篩查方法需要依賴參考數(shù)據(jù)庫進行定性分析,從而實現(xiàn)對可疑物的篩查[11]。以真菌毒素母體及其修飾產(chǎn)物的篩查為例,可疑物篩查方法的主要工作流程如圖2所示[26]。該方法主要通過比較樣品與標(biāo)準(zhǔn)品參考數(shù)據(jù)庫中已知真菌毒素母體及其修飾產(chǎn)物的前體離子質(zhì)量、保留時間、同位素分布和碎裂方式,從包含眾多特征的高分辨質(zhì)譜數(shù)據(jù)中篩選出可疑信號[26]。Wang等[27]通過自建數(shù)據(jù)庫中的母離子、二級特征碎片離子和保留時間信息,實現(xiàn)了對血清中1 210種農(nóng)、獸藥(包括部分人畜共用藥物)以及其他化學(xué)污染物和代謝物的高覆蓋篩查,所建立的方法穩(wěn)定、可靠,適用于大規(guī)模血液樣本的暴露組篩查,能夠在24個混合血清樣本的示例研究中篩查出58種外源性殘留物。相比于其他非靶向篩查方法,可疑物篩查被認(rèn)為是多類組分分析方法的延伸,其在分析過程中可以準(zhǔn)確地鑒定出部分代謝物,并根據(jù)靶向方法進行定量分析。

1.3 基于色譜-高分辨質(zhì)譜的非靶向篩查分析

在沒有明確研究對象的情況下,基于高分辨質(zhì)譜的非靶向篩查是人體內(nèi)暴露篩查和測量的重要手段。非靶向篩查是對未知化合物進行篩查的方法,其目的是發(fā)現(xiàn)完全未知的化合物,以進一步了解人類所暴露的化學(xué)物質(zhì)。基于色譜-高分辨質(zhì)譜的暴露物注釋結(jié)果可以分為5個等級[28],置信水平從高到低依次為(1)Level 1(確切的結(jié)構(gòu)):將實驗數(shù)據(jù)與化合物標(biāo)準(zhǔn)品的保留時間、一級與二級譜圖進行匹配,最終得到確切的結(jié)構(gòu);(2)Level 2(可能的結(jié)構(gòu)):包括Level 2a和Level 2b兩類,前者利用實驗所得譜圖與文獻或數(shù)據(jù)庫中的譜圖進行比較,從而得到可能的結(jié)構(gòu),而后者則通過將實驗數(shù)據(jù)與二級譜圖中的診斷離子、電離規(guī)律、前體化合物信息相結(jié)合,得到?jīng)]有標(biāo)準(zhǔn)品或文獻信息的可能的結(jié)構(gòu);(3)Level 3(初步候選物質(zhì)):利用實驗所得到的一級與二級譜圖,推斷出化合物可能存在的結(jié)構(gòu);(4)Level 4(確切的分子式):將化合物精確質(zhì)量與同位素及離子加合規(guī)律相結(jié)合,確定化合物的分子式;(5)Level 5(精確質(zhì)量):利用高分辨質(zhì)譜所得到的質(zhì)荷比數(shù)據(jù),直接獲得目標(biāo)化合物的精確質(zhì)量。如圖2所示,與可疑物篩查方法相似,非靶向篩查同樣采用了簡單的樣本預(yù)處理步驟,并利用高分辨質(zhì)譜全掃描模式來獲得包含成千上萬個特征離子的高分辨質(zhì)譜數(shù)據(jù);但二者在數(shù)據(jù)挖掘和分析方面有很大不同,非靶向篩查沒有預(yù)先設(shè)定的化合物標(biāo)準(zhǔn)品和列表,而是通過研究現(xiàn)有譜圖總結(jié)出化合物的碎裂特征,并根據(jù)碎裂特征、元素組成以及同位素分布模式對去除背景的樣品信號進行篩查,之后再通過數(shù)據(jù)庫及文獻檢索的方式進行組分鑒定,從而篩查出未知化合物。我們課題組[26,29-32]針對食品基質(zhì)中未知或不可預(yù)知的風(fēng)險物質(zhì),建立了一系列非靶向篩查技術(shù);其中,針對有空白對照的樣品,Fu等[29]建立了基于自建數(shù)據(jù)庫的非靶向篩查方法,同時結(jié)合特定物質(zhì)的特征結(jié)構(gòu)碎片,詳細(xì)解析了二級質(zhì)譜特征,實現(xiàn)了對自建數(shù)據(jù)庫中沒有覆蓋到的風(fēng)險物質(zhì)的識別;而針對無空白對照的樣品,Fu等[30]又提出了一種基于平均值偏差倍率計算及特征片段結(jié)構(gòu)檢索的潛在風(fēng)險物質(zhì)快速鎖定方法,并通過自編程序?qū)崿F(xiàn)了自動化的數(shù)據(jù)檢索和風(fēng)險化合物鎖定,該方法無需分組,可快速篩查、準(zhǔn)確測定食品中的潛在風(fēng)險物質(zhì)。考慮到風(fēng)險物質(zhì)在體內(nèi)的代謝過程,Liang等[31]開發(fā)了一種針對復(fù)雜食品基質(zhì)中已知和未知獸藥及其代謝物的非靶向篩查方法,構(gòu)建了包含3 710種獸藥及其相應(yīng)代謝物的質(zhì)譜數(shù)據(jù)庫,歸納了共有或獨有的質(zhì)譜碎裂特征,并基于質(zhì)譜碎裂特征及所開發(fā)的智能檢索程序,將其示范性地應(yīng)用在蛋類樣本的風(fēng)險物質(zhì)篩查中。南京大學(xué)韋斯團隊[33-35]提出了新污染物的非靶向智能分析新方法,構(gòu)建了基于多模態(tài)分子關(guān)系網(wǎng)絡(luò)的污染物篩查及基于深度學(xué)習(xí)的譜圖-分子結(jié)構(gòu)生成等新污染物分析技術(shù),實現(xiàn)了真實環(huán)境中新污染物的高通量精準(zhǔn)識別。

綜上所述,靶向定量分析、可疑物篩查和非靶向篩查是暴露組學(xué)分析中最主要的方法。靶向定量分析采用基于三重四極桿質(zhì)譜的MRM數(shù)據(jù)采集模式,可疑物篩查和非靶向篩查采用基于高分辨質(zhì)譜的數(shù)據(jù)依賴采集模式,且靶向定量分析在檢測靈敏度及定量準(zhǔn)確度方面優(yōu)于另外兩種方法;靶向定量分析可實現(xiàn)目標(biāo)化合物的精準(zhǔn)定量,且其數(shù)據(jù)處理過程更加簡單,而可疑物篩查與非靶向篩查均是基于高分辨質(zhì)譜的半定量數(shù)據(jù)。然而,相比于可疑物篩查和非靶向篩查方法,靶向定量分析的化學(xué)物質(zhì)覆蓋度有限,而基于高分辨質(zhì)譜及數(shù)據(jù)依賴采集模式獲得的數(shù)據(jù)可包含成千上萬個化學(xué)物質(zhì)特征。在定性分析方面,靶向定量分析依賴于標(biāo)準(zhǔn)品,只能針對已知目標(biāo)化合物進行分析,進一步限制了檢測覆蓋度;可疑物篩查依托于標(biāo)準(zhǔn)品數(shù)據(jù)庫,在保證定性準(zhǔn)確度的同時,進一步擴大了檢測覆蓋度;非靶向篩查則不依賴于標(biāo)準(zhǔn)品,它的數(shù)據(jù)處理方式相對復(fù)雜,不同篩查規(guī)則對定性結(jié)果的準(zhǔn)確度影響很大,但非靶向篩查能夠發(fā)現(xiàn)新的化合物,并提供更全面的化學(xué)暴露知識。總之,上述3種方法各有優(yōu)缺點,實際應(yīng)用中應(yīng)根據(jù)不同需求選擇合適的方法。

2 暴露組學(xué)研究范式

除了對個體所暴露的外源性化學(xué)物質(zhì)進行全面檢測外,對這些化學(xué)物質(zhì)與疾病風(fēng)險的關(guān)系進行評估是暴露組學(xué)研究的另一重要方向。因此,本文綜述了目前暴露組學(xué)的研究范式,包括暴露組關(guān)聯(lián)研究、混合暴露研究、暴露組學(xué)與多組學(xué)關(guān)聯(lián)研究。

2.1 暴露組關(guān)聯(lián)研究范式

EWAS是參照GWAS所提出的,是一種數(shù)據(jù)驅(qū)動的探索性研究范式,可用于發(fā)現(xiàn)與復(fù)雜疾病相關(guān)聯(lián)的環(huán)境因素。目前,暴露組關(guān)聯(lián)研究已成為環(huán)境與健康科學(xué)領(lǐng)域的重要研究方向[36]。通常將暴露組關(guān)聯(lián)研究與流行病學(xué)方法相結(jié)合,以人群隊列為基礎(chǔ),先根據(jù)已有研究確定暴露變量和疾病結(jié)局,再利用統(tǒng)計方法篩選出與疾病有顯著關(guān)系的暴露變量,從而在暴露變量中識別出重要的暴露因子。

目前暴露組關(guān)聯(lián)研究所涉及的大型隊列主要有美國營養(yǎng)與健康調(diào)查(NHANES)、加拿大健康測量調(diào)查(CHMS)、歐洲人類早期暴露計劃(HELIX)、韓國國民健康與營養(yǎng)調(diào)查(KoNEHS)隊列等[37]。研究過程中涉及的內(nèi)部暴露變量包括微量營養(yǎng)素(如維生素)、代謝物和蛋白質(zhì)(如脂肪酸和C-反應(yīng)蛋白等)、污染物(如重金屬、酚類化合物、持久性有機污染物、氟化物、有機磷農(nóng)藥和內(nèi)分泌干擾物(EDCs)等),這些暴露變量都是通過血液和尿液中的生物標(biāo)志物來測定的。暴露組關(guān)聯(lián)研究在關(guān)注上述內(nèi)部暴露變量對健康影響的同時,還揭示了生活方式、大氣環(huán)境、社會因素等外暴露因素與疾病存在的密切關(guān)系。研究過程中涉及的疾病,包括哮喘[38]、癌癥[39]、不良妊娠[40]和發(fā)育異常[41]等,都被證明與特定環(huán)境暴露密切相關(guān)。除此之外,一些慢性疾病也在暴露組學(xué)關(guān)聯(lián)研究中被關(guān)注,例如糖尿病、高血壓、高尿酸、高血脂、肥胖等[22]。在對實驗數(shù)據(jù)進行統(tǒng)計分析時,常采用廣義線性回歸模型,并根據(jù)結(jié)果變量進行回歸方法的選擇。當(dāng)結(jié)果變量為二分類變量時,采用邏輯回歸;當(dāng)結(jié)果變量為連續(xù)變量時,則采用線性回歸或加權(quán)線性回歸。此外,在統(tǒng)計分析過程中,常將協(xié)變量納入模型以對模型進行調(diào)整,同時為了控制結(jié)果的假陽性率,一般采用多重檢驗進行模型校正。

暴露組關(guān)聯(lián)研究可以評估多種環(huán)境因素與疾病之間的關(guān)系,為揭示環(huán)境因素對健康的影響提供了重要的科學(xué)依據(jù)。然而,該方法仍存在一些局限,其僅能表征暴露因素與不良結(jié)局之間的相關(guān)關(guān)系,而非因果關(guān)系,需要結(jié)合前瞻性隊列、毒理實驗以及基因組學(xué)、分子生物學(xué)等聯(lián)合分析來對因果關(guān)系進行進一步確認(rèn)。

2.2 混合暴露研究模型

暴露組關(guān)聯(lián)研究側(cè)重單一化學(xué)物質(zhì)或一組結(jié)構(gòu)類似化學(xué)物質(zhì)的健康影響分析,而很少關(guān)注化學(xué)混合物的“雞尾酒效應(yīng)(cocktail effects)”。但實際上,人體處于多種污染物的聯(lián)合暴露之中,為了解決這一難題,近年來已經(jīng)出現(xiàn)一些混合暴露研究模型,用于評估多個環(huán)境因素對健康的共同影響,并篩選出對健康結(jié)局具有顯著影響的因素;其中最具代表性的模型是有加權(quán)分位數(shù)和回歸模型(weighted quantile sum, WQS)[42]、分位數(shù)-G-計算模型(quantile g-computation, Q-gcomp)[43]、貝葉斯核機器回歸模型(Bayesian kernel machine regression, BKMR)[44,45]、最小絕對收縮和選擇模型(least absolute shrinkage and selection operator, LASSO)[46]以及刪除/替換/添加模型(deletion/substitution/addition, DSA)[47]。

WQS模型于2015年由Carrico等[42]開發(fā),該模型的基本原理是構(gòu)建一個加權(quán)指數(shù),用以估計所有預(yù)測變量對健康結(jié)果的混合效應(yīng),同時通過在回歸模型中構(gòu)建相關(guān)協(xié)變量來檢驗該指數(shù)與因變量或結(jié)果的關(guān)聯(lián)。相比于暴露組關(guān)聯(lián)研究,WQS模型不僅可以評估暴露混合物對健康的影響程度,還能在高度相關(guān)的外源性化學(xué)物質(zhì)中識別出對健康影響更大的變量[42]。Caporale等[48]利用WQS模型建立了混合暴露與兒童語言延遲之間的關(guān)聯(lián),選出了與健康具有顯著關(guān)聯(lián)的內(nèi)分泌干擾物,并對兒童性別、母親吸煙狀況、胎次、魚類消耗、母親受教育程度和肌酐濃度等潛在混雜因子進行了調(diào)控。

Q-gcomp模型是一種用于估計混合物聯(lián)合效應(yīng)的新方法,于2020年由Keil等[43]在WQS模型的基礎(chǔ)上開發(fā)。該模型結(jié)合了g計算(一種因果效應(yīng)估計方法),能夠進一步提高模型性能。Q-gcomp模型的基本原理是評估當(dāng)所有暴露變量的含量同時增加一個分位數(shù)時疾病風(fēng)險增加的比例。與WQS模型相比,Q-gcomp的計算速度更快,無需像WQS模型一樣對于正相關(guān)和負(fù)相關(guān)效應(yīng)進行分別計算,而且可以在一個模型中同時評估所有混合物的效應(yīng)。此外,對于小樣本數(shù)據(jù),Q-gcomp模型能夠展現(xiàn)出更強的魯棒性[43]。

BKMR模型于2015年由Bobb等[44]開發(fā),可用于估計混合物的健康效應(yīng),為了使該方法易于使用,該研究團隊又在2018年開發(fā)了基于R編程語言的開源軟件包[45]。BKMR模型將暴露變量作為自變量、健康結(jié)局作為因變量,通過建立平滑函數(shù)h來評估暴露因素對健康的影響,同時BKMR模型還支持混淆因素的調(diào)整。BKMR模型支持變量選擇功能,能夠確定組分對混合物健康效應(yīng)的貢獻大小;同時,該模型還支持層次變量選擇功能,即結(jié)合先驗知識對混合物進行分組,解決了混合物組分的共線性問題。因此,利用該模型,能夠獲得混合物的總體效應(yīng)、每個污染物的單獨效應(yīng)、每個或每組污染物的重要程度(PIPs)、每個污染物和健康結(jié)局的劑量-反應(yīng)曲線以及污染物之間的交互作用。

LASSO模型是一種用于篩選變量和降低模型復(fù)雜度的方法,該模型可用于確定對健康結(jié)局影響較大的一系列化學(xué)物質(zhì)。LASSO模型本質(zhì)上是一種廣義線性回歸模型,它的基本原理是在傳統(tǒng)線性回歸模型的損失函數(shù)中引入懲罰項(L1正則項),通過壓縮回歸模型中的變量系數(shù)來進行變量選擇。相比于將所有變量都納入模型的回歸分析,LASSO模型可以有選擇性地去除對結(jié)局影響較小的變量,從而降低模型的復(fù)雜程度,避免模型的過擬合現(xiàn)象。LASSO模型在暴露組學(xué)研究中已有應(yīng)用,Soomro等[49]在一項探究外源性化學(xué)物質(zhì)暴露與妊娠高血壓關(guān)系的前瞻性隊列中,利用LASSO回歸模型進行關(guān)鍵暴露變量的篩選,發(fā)現(xiàn)鄰苯二甲酸單乙基酯和全氟壬酸是與妊娠高血壓現(xiàn)象最相關(guān)的化學(xué)物質(zhì)。

DSA模型也是一種變量選擇模型,它通過迭代的方式來實現(xiàn)多種暴露變量的篩選,主要包括以下3個步驟[50]: (1)構(gòu)建模型空間,即在給定條件下,構(gòu)建由基礎(chǔ)模型線性組合而成的整個模型空間,利用最高階相互作用以及最大“冪和”來確定候選預(yù)測變量的基礎(chǔ)模型,同時指定出模型尺寸的最大值;(2)搜索模型空間,即從截距模型開始迭代搜索模型空間,并在每一輪迭代過程中進行預(yù)測變量的刪除、替換以及添加操作,直至模型尺寸超過設(shè)定的最大值;(3)基于交叉驗證選擇模型,即通過交叉驗證篩選出預(yù)測方程均方根誤差最小的模型及其所包含的預(yù)測變量,從而實現(xiàn)暴露變量的篩選。DSA方法于2004年由Sinisi和van der Laan提出,最初被應(yīng)用于基因組學(xué)研究中轉(zhuǎn)錄因子結(jié)合位點的尋找[51],之后也被用于涉及多種外源性化學(xué)物質(zhì)的環(huán)境研究中[50]。例如,Nieuwenhuijsen等[52]利用DSA模型在60個環(huán)境暴露因素中發(fā)現(xiàn)了公交路線、景觀多樣性和交通密度與嬰兒出生體重之間有顯著關(guān)聯(lián)。

上述混合暴露模型中,WQS、Q-gcomp、BKMR主要用于評估混合物對健康結(jié)局的綜合影響,LASSO和DSA模型側(cè)重尋找多個環(huán)境因素中對健康結(jié)局影響更大的環(huán)境因素。目前已有將多種模型結(jié)合用于聯(lián)合分析的案例,未來這些模型的不斷發(fā)展和改進將有利于更好地理解復(fù)雜環(huán)境混合物對健康的影響,并獲得更準(zhǔn)確和全面的科學(xué)依據(jù)。

2.3 暴露組學(xué)與多組學(xué)關(guān)聯(lián)研究范式

目前,研究者們已經(jīng)開發(fā)出了將暴露組學(xué)研究與基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等組學(xué)手段相結(jié)合的全新研究范式,其中基因組與暴露組的結(jié)合有助于揭示暴露因素對疾病風(fēng)險的因果關(guān)系。實現(xiàn)這種因果推斷的一個重要方法是孟德爾隨機化(Mendelian Randomization, MR),該方法將與暴露因素具有強相關(guān)的遺傳變異作為工具變量,以評估暴露因素與結(jié)局之間的因果關(guān)系[53]。應(yīng)用MR方法必須滿足以下三大假設(shè)[54]: (1)基因組變量的單核苷酸多態(tài)性(SNP)與所研究的暴露因素之間具有強相關(guān)性;(2)SNP與混雜因素?zé)o關(guān);(3)SNP只能通過暴露因素對結(jié)局產(chǎn)生作用。由于基因組與健康結(jié)局有明確的因果關(guān)系,因而在暴露組關(guān)聯(lián)研究中引入基因組可以有效地解決反向因果問題。MR方法已在近期研究中得到應(yīng)用,如Choi等[55]利用MR方法評估了106個環(huán)境因素與抑郁癥之間的潛在因果關(guān)系,結(jié)果發(fā)現(xiàn),社交、睡眠、媒體、飲食和運動相關(guān)領(lǐng)域的多種暴露因素與抑郁癥存在前瞻性關(guān)聯(lián)。Huang等[56]利用MR方法評估了砷暴露與慢性瘙癢癥之間的因果關(guān)系。

轉(zhuǎn)錄組與暴露組的結(jié)合有助于揭示環(huán)境因素對基因表達水平的影響,從而更好地理解暴露對特定基因表達影響的機制。隨著RNA測序技術(shù)的發(fā)展,通過一次測序得到千萬條以上序列的高通量分析已被實現(xiàn),根據(jù)定量基因表達數(shù)據(jù)又可以進一步實現(xiàn)差異表達基因的發(fā)現(xiàn)、富集分析和功能預(yù)測。轉(zhuǎn)錄組與暴露組的結(jié)合在探究環(huán)境暴露效應(yīng)方面已有應(yīng)用案例,Li等[57]以人類胚胎干細(xì)胞誘導(dǎo)分化的視網(wǎng)膜類器官為模型,利用暴露組和轉(zhuǎn)錄組技術(shù)揭示了低劑量多溴二苯醚暴露對人類早期視網(wǎng)膜發(fā)育的影響,其中通過轉(zhuǎn)錄組分析發(fā)現(xiàn)了類器官在經(jīng)過多溴二苯醚暴露后產(chǎn)生的一系列差異表達基因,從而確定蛋白質(zhì)消化吸收和細(xì)胞外基質(zhì)受體相互作用是受暴露因素影響的重要途徑。

蛋白質(zhì)組與暴露組的結(jié)合有助于明確與暴露因素相關(guān)的蛋白質(zhì)分子特征,從而揭示它們之間的潛在相互作用。蛋白質(zhì)組學(xué)研究包括蛋白質(zhì)表達水平、翻譯后修飾、蛋白質(zhì)結(jié)構(gòu)與功能、蛋白質(zhì)之間的相互作用等。質(zhì)譜技術(shù)是目前蛋白質(zhì)組學(xué)分析最常用的技術(shù),其可以高通量地定量蛋白質(zhì)組。Luminex技術(shù)是基于高通量微孔板的多重檢測抗體芯片技術(shù),也被用于蛋白質(zhì)的分析。Gao等[58]基于一個縱向人群隊列,利用液相色譜-高分辨質(zhì)譜聯(lián)用技術(shù)和Luminex技術(shù)分別開展了非靶向蛋白質(zhì)組學(xué)分析,同時利用液相色譜-串聯(lián)質(zhì)譜技術(shù)開展了暴露組學(xué)分析。隨后,研究人員通過關(guān)聯(lián)研究發(fā)現(xiàn)了與外源性化學(xué)殘留物顯著相關(guān)的蛋白質(zhì)和相關(guān)信號通路;其中免疫相關(guān)途徑是與暴露組最高度相關(guān)的信號通路之一,說明免疫系統(tǒng)在對外來化學(xué)物質(zhì)的應(yīng)答和調(diào)節(jié)中起到了重要作用。Maitre等[59]基于人類早期生命暴露組項目中由1 301對母子組成的多中心隊列展開多組學(xué)特征研究,并利用Luminex技術(shù)測定了血漿中36種細(xì)胞因子、載脂蛋白和脂肪因子,并通過探究這些蛋白質(zhì)與外源性化學(xué)殘留物之間的關(guān)聯(lián),發(fā)現(xiàn)了肥胖兒童血液中親脂性持久有機污染物與由脂肪組織產(chǎn)生的蛋白質(zhì)密切相關(guān)。

代謝組與暴露組的結(jié)合有助于揭示由環(huán)境因素引起的體內(nèi)代謝擾動機制。借助于質(zhì)譜技術(shù)的進步,代謝組學(xué)分析的通量不斷提高,在環(huán)境暴露與不良健康效應(yīng)關(guān)系研究中的應(yīng)用潛力也迅速增加[60]。將代謝組學(xué)方法應(yīng)用于暴露風(fēng)險分析,可以揭示生物體在受到環(huán)境因素影響后,其體內(nèi)代謝產(chǎn)物的組成、含量以及所處代謝通路的變化等信息。近年來,代謝組學(xué)方法已在基于人群隊列的污染物健康效應(yīng)研究中得到了廣泛應(yīng)用。Liang等[61]為了評估交通相關(guān)空氣污染暴露對人體分子通路造成的不良影響,對45名正常通勤者和患有哮喘通勤者的血液樣本進行了高分辨代謝組學(xué)分析,測定了27種空氣污染物的含量,并對這些污染物相關(guān)的代謝物進行了代謝通路分析;結(jié)果發(fā)現(xiàn),在患有哮喘的通勤者體內(nèi),幾種炎癥相關(guān)的代謝通路和氧化應(yīng)激相關(guān)的代謝通路均發(fā)生了改變,其中精氨酸、組氨酸和甲硫氨酸是與空氣污染相關(guān)的關(guān)鍵代謝物,這一發(fā)現(xiàn)更好地揭示了交通相關(guān)空氣污染物對哮喘病人的潛在不良影響。Alderete等[62]結(jié)合代謝組學(xué)方法和通路富集分析,揭示了與血漿中PFASs濃度相關(guān)的代謝紊亂;結(jié)果發(fā)現(xiàn),較高水平的PFASs暴露與幾種脂質(zhì)和氨基酸通路的代謝紊亂以及西班牙裔青少年血糖穩(wěn)態(tài)的長期變化之間存在緊密關(guān)系。在一個母嬰隊列中,Wu等[63]利用代謝組學(xué)分析結(jié)合中間相遇方法,發(fā)現(xiàn)了多種代謝物可以作為金屬或類金屬元素與妊娠糖尿病之間關(guān)聯(lián)的標(biāo)志物,這些代謝標(biāo)志物主要涉及脂質(zhì)代謝和腺苷酸/精氨酸/一氧化氮代謝途徑。You等[22]利用代謝組學(xué)和中間相遇方法分析了PFASs暴露與高尿酸血癥風(fēng)險正相關(guān)關(guān)系背后的代謝擾動,發(fā)現(xiàn)脂質(zhì)代謝物是介導(dǎo)該過程的重要代謝物。此外,Wang等[23]通過分析電子垃圾拆解地區(qū)及臨近非暴露地區(qū)的孕婦胎盤組織發(fā)現(xiàn),處于電子垃圾拆解地區(qū)的孕婦暴露了大量的多溴聯(lián)苯醚,而這些多溴聯(lián)苯醚與新生兒頭圍和1 min內(nèi)膚色、心率、對刺激的反應(yīng)、肌張力和呼吸綜合評分(appearance, pulse, grimace, activity, respiration score at 1 min, Apgar1)值的降低顯著相關(guān);其中參與該過程的代謝途徑有磷酸戊糖途徑、抗壞血酸代謝途徑、蘇氨酸代謝途徑、丁酸代謝途徑、脂質(zhì)代謝途徑和精氨酸生物合成等。總之,將代謝組與暴露組相結(jié)合,能夠系統(tǒng)性地揭示環(huán)境暴露后的機體代謝紊亂現(xiàn)象,為研究環(huán)境暴露引起的疾病機制提供額外的見解。

將暴露組學(xué)與基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等組學(xué)分析方法相結(jié)合,有助于在多個生物學(xué)層面揭示環(huán)境因素對生物體的影響機制。多組學(xué)整合分析能夠綜合利用高維分子測量與計算技術(shù),闡明生物體內(nèi)的復(fù)雜相互作用,幫助揭示環(huán)境因素引起的生物學(xué)變化,并進一步評估環(huán)境因素對健康的影響[64]。目前,已有不少研究利用多組學(xué)整合策略來研究環(huán)境因素對健康的影響。Chao等[65]通過測量胎盤組織中多種內(nèi)、外源性化學(xué)物質(zhì),結(jié)合表觀基因組和轉(zhuǎn)錄組,發(fā)現(xiàn)一些外源性化學(xué)物質(zhì)與子癇前期相關(guān)的分子特征有很強的相關(guān)性,這一結(jié)果表明外源性化學(xué)物質(zhì)可能影響表觀基因和轉(zhuǎn)錄過程,揭示了子癇前期的潛在發(fā)病機制。另一項研究[66]基于HELIX隊列探究了早期生活中的環(huán)境暴露對生命周期健康影響的分子表型;在研究過程中,研究人員將在妊娠期和兒童期暴露組學(xué)研究中發(fā)現(xiàn)的一百多種暴露因素(化學(xué)物質(zhì)、戶外、社會和生活方式)與兒童期的多組學(xué)特征(甲基化組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組)相關(guān)聯(lián),發(fā)現(xiàn)了多種暴露因素和分子特征之間存在顯著關(guān)聯(lián),揭示了早期生活環(huán)境暴露中潛在的生物反應(yīng)和暴露源。總之,通過整合分析多個不同層次的生物學(xué)信息,有助于深入了解不同分子層面的環(huán)境暴露與健康之間的關(guān)聯(lián),并為健康風(fēng)險評估提供更準(zhǔn)確和更全面的科學(xué)依據(jù)。

上述方法各有優(yōu)缺點,暴露組關(guān)聯(lián)研究的優(yōu)點是模型簡單,容易確定外源性化學(xué)物質(zhì)和結(jié)局的關(guān)系,是目前最常用的暴露組學(xué)研究方法,但目前相關(guān)研究大多是基于橫斷面人群隊列開展的,無法獲得暴露因素和結(jié)局之間的因果關(guān)系。此外,暴露組關(guān)聯(lián)研究不考慮化合物之間的相互作用,容易導(dǎo)致虛假關(guān)聯(lián)的產(chǎn)生。混合暴露研究的優(yōu)點是可獲得多種外源性化學(xué)物質(zhì)的聯(lián)合暴露效果,相比于單變量暴露研究,混合暴露研究更加接近真實世界的暴露場景。然而,目前的混合暴露模型有限,在納入變量較多的情況下很容易造成模型過擬合。暴露組與多組學(xué)關(guān)聯(lián)研究的優(yōu)點是可以發(fā)現(xiàn)外源性化學(xué)物質(zhì)與多種生物分子特征之間的關(guān)系,能夠更加深入地探究暴露因素對生物體的作用機制,但其技術(shù)門檻和實驗成本較高,開展難度大。目前混合暴露研究和暴露組與多組學(xué)關(guān)聯(lián)研究仍未得到廣泛應(yīng)用,但可以預(yù)見的是,隨著數(shù)據(jù)技術(shù)和分析方法的不斷進步,未來這些研究范式將在環(huán)境健康研究中發(fā)揮越來越重要的作用。

3 總結(jié)與展望

近年來,組學(xué)技術(shù)的進步為暴露組研究帶來了空前的發(fā)展,暴露組的內(nèi)涵和外延也得到了完善和更新。然而,在現(xiàn)有條件下仍然無法準(zhǔn)確定量一個人的暴露組,因此暴露組研究所采用的分析技術(shù)和方法仍需進一步完善。結(jié)合實驗室近期工作,對暴露組學(xué)的未來做出如下展望:(1)在方法學(xué)層面,暴露組學(xué)關(guān)注的是所有環(huán)境因素的總和,然而現(xiàn)有的研究著重于人體內(nèi)暴露,難以對暴露組進行全面表征。因而未來需要更高覆蓋度的方法來全面監(jiān)測人體內(nèi)、外暴露,并將二者結(jié)合用以全面闡明環(huán)境因素對人類健康的影響。(2)在暴露因素與不良健康效應(yīng)的關(guān)聯(lián)研究中,盡管利用大規(guī)模人群數(shù)據(jù)獲得了較穩(wěn)健的關(guān)聯(lián)結(jié)果,但仍然可能存在一些未被測量的混雜因素,導(dǎo)致關(guān)聯(lián)結(jié)果的準(zhǔn)確度受到影響。所以未來研究中應(yīng)考慮更多的混雜因素,在更大規(guī)模的人群研究中控制混雜因素,進一步提高關(guān)聯(lián)結(jié)果的穩(wěn)健性。(3)目前,橫斷面研究方法在暴露組學(xué)研究中被廣泛使用,然而這一方法不能提供暴露因素與不良健康效應(yīng)間的因果關(guān)系。因此,未來應(yīng)該開展大規(guī)模的前瞻性隊列研究,對已發(fā)現(xiàn)的暴露疾病風(fēng)險關(guān)聯(lián)結(jié)果進行因果關(guān)系驗證。(4)關(guān)于暴露因素對慢性疾病風(fēng)險的作用機制,需在基因組、蛋白質(zhì)組和代謝組等多層面上進行探究,才能窺見環(huán)境暴露對慢性疾病影響過程的全貌。結(jié)合系統(tǒng)生物學(xué)和環(huán)境毒理學(xué)等多學(xué)科,共同深入闡明暴露因素對慢性疾病發(fā)展風(fēng)險影響的具體作用機制是未來的發(fā)展趨勢。