朱騰義,陳 穎,程浩淼,孫 鳳,叢海兵
基于QSAR模型預測有機污染物在XAD與空氣中的分配系數
朱騰義,陳 穎,程浩淼,孫 鳳,叢海兵*
(揚州大學環境科學與工程學院,江蘇 揚州 225127)
基于定量構效關系(QSAR),運用線性(逐步多元回歸MLR)和非線性(支持向量機SVM)兩種計算方法開發了兩種可靠且高效預測聚苯乙烯二乙烯基苯樹脂(XAD)和空氣之間分配系數(XAD-A)的模型.構建模型的數據包含醇類(Alcohols),苯類(Benzenes),多氯聯苯(PCBs)和多環芳香烴(PAHs)等,共計70種有機污染物.兩個模型的決定系數2adj和外部驗證系數2ext均在0.930以上,同時所有物質均在定義的應用域內,結果表明兩種QSAR模型有較高的擬合度、穩健性和較為優秀的預測能力,且非線性(SVM)模型比線性(MLR)模型的擬合效果更好.
有機污染物;聚苯乙烯二乙烯基苯樹脂;分配系數;定量構效關系
大氣中有機污染物在食物鏈和遠距離運輸中存在生物蓄積問題,這會威脅人類和野生動物的健康[1-2].因此,精準測量有機污染物的濃度對于確定污染物的來源,準確地評估環境暴露程度具有相當重要的意義.被動采樣技術(PST)是一種通過被動吸附采集大氣中污染物的技術,由于此技術具有連續采樣、成本低、不受周圍環境因素(時間、突發污染事件等)影響等特點,被廣泛用于測量有機污染物濃度的基礎工作中.同時,被動采樣技術作為一種原位累積采樣方法,為之后實現對氣體中痕量污染物的采集,從而更好地評估污染物的生物累積效應[3-4],提供了良好的條件.
近年來,聚苯乙烯二乙烯基苯樹脂(XAD)膜以其化學惰性、寬孔徑分布和大比表面積的優勢被廣泛運用為被動空氣采樣裝置(PAS)的吸附劑[5-6].空氣介質中的有機污染物濃度可以通過XAD和空氣之間的分配系數(XAD-A)預測出來[7-8],分配系數是指污染物濃度在采樣器和空氣之間達到動態分配平衡的系數.在大多數野外觀測研究中,由于不同的環境外部因素影響(例如:濕度、溫度、風速和蒸汽壓),在不同位置測得的XAD-A值會有很大差異[9-10].在實驗室測量分配系數通常耗時、費力且昂貴[11-13],同時由于新型化學物質地不斷增長,這些物質中有很大一部分無法通過實驗進行及時測量[14].準確測量XAD-A的值并非易事,建立一種潛在的、可靠的、有效的預測XAD-A值的方法具有重要意義.
定量構效關系(QSAR)是指化合物分子結構與其自身的理化性質、在環境中遷移轉化行為和生態毒理學效應之間的內在聯系,以模型的形式表現.通過分析、測量或計算化合物的特征參數,即分子結構描述符,建立起其分子結構特征參數與其反應活性之間的相關性數學模型,是一種在最低計算成本下構建化學分子結構與其物理化學性質、環境行為參數和毒理學效應之間關系的方法.目前,已有許多利用QSAR模型對空氣中有機污染物的環境行為和毒理性質等進行研究的報道,例如CHAO等[15]運用QSAR模型對烷烴和芳烴在PDMS膜和空氣中的分配系數進行了預測.綜上,利用QSAR模型預測有機污染物的XAD與空氣中分配系數的研究方法,節省了大量實驗時間、人力和財力,可以為環境介質中污染物的濃度提供參考,從而更方便地獲取數據.
但是,現有的模型存在擬合度較低、泛化能力較差、物質結構單一、數據總量較少等問題.此外,在QSAR領域中,逐步多元回歸(MLR)是一種常規的線性回歸方式,但是MLR算法在某些條件下存在無法從數據中提取有用結構信息的問題,這導致其運用范圍受到一定限制.另一方面,影響化合物分配過程的因素很復雜,并非所有因素都與對數XAD-A呈線性相關,所以有必要引入非線性計算方法建模.而支持向量機(SVM)又是一種一個十分經典的非線性算法,它具有準確率高、無需依賴整個數據、泛化能力比較強,以及可以為避免過擬合提供很好的理論保證等優點.因此,本文以XAD為被動采樣器的吸附劑,收集了醇類(Alcohols),苯類(Benzenes),多氯聯苯(PCBs),多環芳香烴(PAHs)等12種不同類型的有機化合物,共計70個物質的XAD-A實驗值,基于QSAR,選用了MLR以及SVM這兩種具有代表性的算法對實驗數據進行擬合,建立了預測分配系數的模型,并達到了比較令人滿意的效果.
通過查閱文獻[9,16],搜集了70個不同物質的XAD-A實驗值,其中包括5種醇類,2種醛和酮,4種脂肪族和環烴,9種苯類,6種醚類,6種鹵代脂肪烴,3種單核芳烴,4種氮和硫化合物,11種PCBs,1種酚類化合物,8種PAHs和11種其他類型化合物.數據集中化合物的種類數量較為廣泛,所有數據均落在平均值()的標準偏差()的三倍之內,不包括嚴重誤差的異常值(圖1).因此,根據三個Sigma規則無需刪除數據[17],logXAD-A的數值在1.02到8.79之間,平均值為3.83.
此外,為了對建立的模型進行內部驗證和外部預測,將數據集按照一定比例分為訓練集和測試集.采用Y排序法,將logXAD-A值按升序排列,5個數據分為一組.每組的第五個數據放入測試集,其余數據組成訓練集[18].建立模型后,用訓練集(占全部數據80%,即56個)建立模型并進行內部驗證,測試集(占全部數據20%的,即14個)用來評價模型的外部預測能力.

圖1 實驗log KXAD-A數據集值的分布
在計算分子結構描述符前,數據集中所有化合物都需要經過ChemBio 3D Ultra 12.0軟件生成最初的分子結構;然后,利用軟件中Minimize Energy模塊將這些物質進行最小能量化;接著,通過MOPAC 2016中Mopac Interface PM7[19]算法將之前最小能量化之后的分子結構進行優化計算;最后用PaDEL- Descriptor[20]軟件計算出各個化合物的分子結構描述符.
利用SPSS20.0軟件對PaDEL-Descriptor軟件中計算出來的216個分子描述符進行逐步多元回歸線性(MLR)分析,在滿足顯著性水平<0.001和多重共線性VIF<10的條件下,選擇描述符數量最少,且2adj和2ext的最佳組合來建立性能最好的MLR預測模型.同時,利用逐步多元回歸得出的描述符通過支持向量機(SVM)的計算方法進行非線性回歸(通過R軟件)分析,用函數在限定核函數為高斯內積函數(kernel="radial")的條件下進行gamma()和cost()最優參數搜索,得到最優SVM模型.
本研究通過兩種參數對最優QSAR模型的擬合程度進行表征,分別為經自由度調整后的決定系數(2adj)和均方根誤差(RMSE),利用去一法交叉驗證系數(2LOO)以及自舉法交叉驗證系數(2BOOT)對模型的穩健性表征[21],模型的預測能力由驗證集決定系數(2ext)和外部驗證系數(2ext)表征.其中,部分參數的計算公式如下:




模型的應用域由Williams圖進行表征,標準殘差()和杠桿值()確定了適用化合物的范圍,所運用到的計算公式如下:





逐步多元線性(MLR)法建立的logXAD-A的QSAR模型為:
MLR模型的最優表達式為:
logXAD-A= 0.101HDz()+ 1.528WiA_D/Dt-0.098
tra=56,2adj=0.931,2LOO=0.926,2BOOT=0.930,
RMSEtra=0.598,<0.001;ext=14,2ext=0.938,
2ext=0.935, RMSEext=0.618.
支持向量機(SVM)法得到的非線性模型中:= 10,10.249 (圖2).相應的統計學參數:tra=56,2adj=0.977,2LOO=0.949,2BOOT= 0.971, RMSEtra= 0.349;ext=14,2ext=0.938,2ext=0.968, RMSEext= 0.435.

圖2 支持向量機模型的最優cost和gamma等值線

圖3 log KXAD-A實測值和預測值的擬合關系(MLR)
模型評價參數表明,兩個模型均具有良好的預測能力和穩健性.通過外部驗證表明模型具有良好的預測能力.2和2差值小于0.3,表明相關關系顯著,沒有過擬合的現象.對于MLR模型,VIF均小于10,說明模型的不存在多重共線性.描述符詳細的含義及、VIF值等見表1.MLR和SVM預測模型實驗值和預測值擬合效果如表2和圖3、圖4所示.

圖4 log KXAD-A實測值和預測值的擬合關系(SVM)
在OECD關于QSAR模型構建和驗證的準則中[22],明確了需要對建立的模型進行應用域表征,因為對于已證實具有穩健性和有效性的模型,也不能夠對所有的有機污染物做出準確的預測,所以需要給出模型所能應用的范圍.應用域區間是指標準殘差||£3,且杠桿值小于警戒值*的有機物的集合域.
兩種建模方法表征應用域的Williams圖如圖5,圖6所示,兩種方法中所有有機物均在集合域(||£3且*<0.161)內,說明模型中沒有離群點.因此這兩種建模的方法能夠預測應用域內其他類型的有機污染物的logXAD-A值.

圖5 QSAR模型的Williams圖(MLR)

圖6 QSAR模型的Williams圖(SVM)

表1 QSAR模型涉及的t檢驗(t)、統計顯著性(P)、方差膨脹因子(VIF)值和平均效應(MF)值

表2 有機污染物的log KXAD-A值
在MLR模型中,描述符H_Dz()對模型的貢獻性最大,其MF值為0.735.H_Dz()是極化率加權Barysz矩陣的類Harary指數,與極化率相關.同時,極化率值與化合物的疏水性和活性有關.與空氣相比,大分子往往處于較低的極性階段,且對于具有大極化率的化學物質,與XAD的相互作用更強.因此,隨著H_Dz()值的增加,化合物的logXAD-A值將會跟著增加.
模型中被篩選出來的另一個描述符WiA_D/Dt,其值為0.265,可以看出此描述符對模型的貢獻性較小.它表示距離或者繞行矩陣的平均類維納指數,屬于基于二維矩陣的描述符.WiA_D/Dt也是分子環度的一個指標,在同樣大小的圖中,WiA_D/Dt隨環度的增加而有規律地變化[23].因此,環度小(WiA_D/Dt的值小)的物質更容易被膜吸附.同時,該描述符的系數為正,可以看出WiA_D/Dt對有機污染物在XAD與空氣中的分配系數成正相關的關系.
在預測XAD與空氣中的分配系數方面,目前的研究比較少.Poole等[24]以及Hayward等[16]利用多參數線性自由能關系(pp-LFER)模型間接地分別構建了4種描述符(,,,)以及三種描述符(,,)與XAD-A的等式,雖然2與本文相當,但是在物質數量方面,本研究較多且涵蓋的物質更為廣泛.在利用QSAR預測吸附膜與空氣中分配系數的研究方面,現有的模型在性能和適用性方面存在一些問題, CHAO等[15]對26種烷烴進行PDMS和空氣間分配系數的預測,其2adj為0.632,未能達到OECD準則[22]中0.7的要求;Parnis等[25]對PUF和空氣間的分配系數進行預測,雖然其2adj達到0.807,但此預測只針對12種PAHs,模型存在物質結構單一、數據總量較少等問題.本文針對12種不同類型的有機污染物,基于定量構效關系,在常規使用的線性模型基礎上,探索使用了非線性模型,其中非線性模型(2adj=0.977,2LOO=0.949,2BOOT= 0.971)在擬合度和穩健性方面都優于線性模型(2adj=0.931,2LOO=0.926,2BOOT= 0.930).
3.1 采用定量結構活性關系,構建了70種有機污染物在XAD與空氣中分配系數的QSAR預測模型,建立了兩種穩健性良好,擬合度高且預測能力強的模型.
3.2 H_Dz()與WiA_D/Dt這兩種描述符與logXAD-A之間存在著很強的聯系,具有大極化率、小分子環度的化學物質更容易被XAD膜吸附.
3.3 兩種模型的2和2均超過標準值,且所有化合物都在給出的應用域范圍內,即標準殘差||£3,有機物的平均值小于警戒值=0.161,但用SVM方法所建立的模型(2adj=0.977)比用MLR方法建立的模型(2adj=0.931)更加優異.
[1] 劉明洋,李會茹,宋愛民,等.環境和人體中氯代/溴代多環芳烴的研究進展——污染來源、分析方法和污染特征 [J]. 中國環境科學, 2021,41(4):1842-1855.
Liu M Y, Li H R, Song A M, et al. A review of chlorinated/brominated polycylic aromatic hydrocarbons in the environment and human: Surces, analysis methods and polution characteristics [J]. China Environmental Science, 2021,41(4):1842-1855.
[2] Hung H, Macleod M, Guardans R, et al. Toward the next generation of air quality monitoring: Persistent organic pollutants [J]. Atmospheric environment, 2013,80(dec.):591-598.
[3] Weert J D, Smedes F, Beeltje H, et al. Time integrative sampling properties of Speedisk and silicone rubber passive samplers determined by chemical analysis and in vitro bioassay testing [J]. Chemosphere, 2020,259:127498.
[4] Taylor V F, Buckman K L, Burgess R M. Preliminary investigation of polymer-based in situ passive samplers for mercury and methylmercury [J]. Chemosphere, 2019,234(Nov.):806-814.
[5] Hearn J, Smelt P L, Wilkinson M C. Porosity in macroreticular resins [J]. Journal of Colloid & Interface Science, 1989,133(1):284-287.
[6] Okeme J O, Saini A, Yang C, et al. Calibration of polydimethylsiloxane and XAD-Pocket passive air samplers (PAS) for measuring gas-and particle-phase SVOCs [J]. Atmospheric Environment, 2016,143:202-208.
[7] Bartkow M, Booij K, Kennedy K, et al. Passive air sampling theory for semivolatile organic compounds [J]. Chemosphere, 2005,60(2): 170-176.
[8] Wania F, Shen L, Lei Y D, et al. Development and calibration of a resin-based passive sampling system for monitoring persistent organic pollutants in the atmosphere [J]. Environ.sci.technol, 2003,37(7): 1352-1359.
[9] Armitage J M, Hayward S J, Wania F. Modeling the uptake of neutral organic chemicals on XAD passive air samplers under variable temperatures, external wind speeds and ambient air concentrations (PAS-SIM) [J]. Environmental Science & Technology, 2013,47(23): 13546-13554.
[10] Kamprad I, Goss K U. Systematic investigation of the sorption properties of polyurethane foams for organic vapors [J]. Analytical Chemistry, 2007,79(11):6891.
[11] Chen D, Wang Q, Li Y, et al. A general linear free energy relationship for predicting partition coefficients of neutral organic compounds [J]. Chemosphere, 2020,247:125869.
[12] Endo S, Hale S E, Goss K U, et al. Equilibrium partition coefficients of diverse polar and nonpolar organic compounds to polyoxymethylene (POM) passive sampling devices [J]. Environmental Science & Technology, 2011,45(23):10124-10132.
[13] None. Response to comment on "assessment of PDMS-water partition coefficients: Implications for passive environmental sampling of hydrophobic Organic Compounds"[J]. Environ.sci. Technol., 2010,44 (22):8789-8789.
[14] Arp H, Endo S, Goss K U. Assessment of PDMS-water partition coefficients: implications for passive environmental sampling of hydrophobic organic compounds. [J]. Environmental Science & Technology, 2010,44(22):8787.
[15] Chao K P, Wang V S, Liu C W, et al. QSAR studies on partition coefficients of organic compounds for polydimethylsiloxane of solid-phase microextraction devices [J]. International Journal of Environmental Science and Technology, 2018,15:2141-2150.
[16] Hayward S J, Lei Y D, Wania F. Sorption of a diverse set of organic chemical vapors onto XAD-2resin: Measurement, prediction and implications for air sampling [J]. Atmospheric Environment, 2011, 45(2):296-302.
[17] Abudour A M, Mohammad S A, Robinson R L,et al. Generalized binary interaction parameters for the Peng–Robinson equation of state [J]. Fluid Phase Equilibria, 2014,383:156-173.
[18] Fatemi M H, Dorostkar F. QSAR prediction of D2receptor antagonistic activity of 6-methoxy benzamides [J]. European Journal of Medicinal Chemistry, 2010,45(11):4856-4862.
[19] Changho J, Keum H. Prediction of radical scavenging activities of anthocyanins applying adaptive neuro-fuzzy inference system (ANFIS) with quantum chemical descriptors [J]. International Journal of Molecular Sciences, 2014,15(8):14715.
[20] Yap C W. PaDEL-descriptor: an open source software to calculate molecular descriptors and fingerprints [J]. Journal of Computational Chemistry, 2011,32(7):1466-1474.
[21] Qin H, Chen J, Wang Y, Wang B, et al. Development and assessment of quantitative structure-activity relationship models for bioconcentration factors of organic pollutants [J]. Chinese Science Bulletin, 2009, 54(4):628-634.
[22] 陳 憲.基于OECD準則對QSAR/QSPR模型幾個重要問題的研究[D]. 長沙:中南大學, 2013.
Chen X. Studies on a few key problems of QSAR/QSPR modeling based on the OECD principles [D]. Changsha: Central South University, 2013.
[23] Yu X, Wang Y, Yang H, et al. Prediction of the binding affinity of aptamers against the influenza virus [J]. SAR and QSAR in Environmental Research, 2019,30(1):51.
[24] Poole S K, Poole C F. Sorption properties of styrene–divinylbenzene macroreticular porous polymers [J]. Analytical Communications, 1996,33(10):353-356.
[25] Parnis J M, Eng A, D Mackay, et al. Characterizing PUF disk passive air samplers for alkyl-substituted PAHs: Measured and modelled PUF-AIR partition coefficients with COSMO-RS [J]. Chemosphere, 2016,145(FEB.):360-364.
Prediction of organic pollutions partition coefficients between XAD and air based on QSAR models.
ZHU Teng-yi,CHEN Ying, CHENG Hao-miao, SUN Feng, CONG Hai-bing*
(College of Environmental Science and Engineering, Yangzhou University, Yangzhou 225127, China)., 2022,42(5):2269~2274
Based on quantitative structure-activity relationship (QSAR), two reliable and efficient models for predicting partition coefficients between polystyrene-divinylbenzene resin (XAD) and air (XAD-A) were developed by using linear (stepwise multiple regression, MLR) and nonlinear (support vector machine, SVM) methods. The data included alcohols, benzenes, polychlorinated biphenyls (PCBs), polycyclic aromatic hydrocarbons (PAHs), and a total of 70 organic pollutants. The determination coefficient (2adj) and external validation coefficient (2ext) of the two models are all above 0.930, and substances are all in the defined application domain. The QSAR models both have good robustness and excellent prediction ability. Moreover, the fitting effect of nonlinear (SVM) model is better than linear (MLR) model.
organic pollutants;polystyrene-divinylbenzene resin (XAD);partition coefficients;quantitative structure-activity relationship (QSAR)
X171.5
A 文章標號:1000-6923(2022)05-2269-06
朱騰義(1984-),男,山東東營人,副教授,博士,主要從事環境污染化學方面研究.發表論文20余篇.
2021-10-07
國家自然科學基金資助項目(42077331);江蘇省研究生科研與實踐創新計劃項目(SJCX21_1587)
* 責任作者, 教授, hbcong@yzu.edu.cn