摘要
[目的] 構建可靠的QSAR模型用于評價醇類化合物的毒性。[方法] 利用MLR、SLR和SVR 3種方法研究60種醇類化合物辛醇/水分配系數lgKow和水溶解度lgSw這兩個指標與mX的相關性。[結果] 模型評估結果顯示出MLR和SLR的建模能力與文獻方法一樣優異,SVR在具有合適核函數時其建模能力也能表現出優異的泛化推廣能力。[結論] 該研究可為QSAR模型的構建提供參考。
關鍵詞 醇;有機污染物;支持向量機;定量構效關系
中圖分類號 S181.3 "文獻標識碼 A "文章編號 0517-6611(2014)32-11470-03
The Evaluation of lgKow and lgSw of Alcohol Using Different Modeling Methods
LI Ran1,2, JIANG Peng1,2, HE Ying1,2, ZHOU Wei1,2,3* et al
(1.Hunan Provincial Key Laboratory for Biology and Control of Plant Diseases and Insect Pests, College of Plant Protection, Hunan Agricultural University, Changsha, Hunan 410128; 2. Hunan Provincial Engineering amp; Technology Research Center for Biopesticide and Formulation Processing, Hunan Agricultural University, Changsha, Hunan 410128; 3. Chenzhou Company of Hunan Tobacco Company, Chenzhou, Hunan 423000)
Abstract "[Objective] The research aimed to establish reliable QSAR model for the toxicity evaluation of alcohol.
[Method] The correlation between mX and two measures (octanol/water partition coefficient lgKow and solubility lgSw) of 60 alcohol compounds was studied using MLR, SLR and SVR. [Result] The results showed that, similar to the literature method, MLR and SLR had the excellent modeling capabilities, and SVR with an appropriate kernel function could also exhibit excellent generalization capability.[Conclusion] This study could provide references for the construction of QSAR model.
Key words "Alcohol; Organic pollutant; SVR; QSAR
隨著經濟的飛速發展,與化學品相關的環境問題日益突出[1]。因此,有關有機污染物的毒性風險評估顯得非常重要。醇類化合物是一類重要的環境毒性污染物,在湖泊和河流中都已檢測到,這類化合物在環境中的影響也是不可忽視的。由于這類化合物品種較多,完全進行試驗研究相當困難。定量構效關系(Quantitative Structure Activity Relationship,QSAR)相關性研究在化學研究領域得到了非常有效的應用,近年來,又被大量地應用于環境科學中[2],在環境污染物毒性等研究方面有重要的實用價值。 " "QSAR建模是一種用于研究醇類化合物分子結構與毒性關系的有效方法,它有助于解釋結構特征如何決定毒性[3]。有機污染物的水溶解度(lgSw)是評價有機物遷移轉化和毒性的主要參數,它和正辛醇/水分配系數(lgKow)一樣與土壤/沉積物吸附系數(Kow)、生物富集因子及致癌性、藥物的結構變化有密切關系[4]。因此,它們是評價有機污染物環境行為的重要基本參數,傳統的“搖瓶法”測定lgKow不僅費時、繁瑣,而且存在很多局限性。因此,采用QSAR研究模型來對lgKow及lgSw進行預測越來越受到學者的注意。
目前,分子連接性指數(mX)法已被廣泛地應用于有機物理化參數、環境參數以及生物毒性的預測中[5],通常有機物的理化性質取決于分子中疏水部分和親水部分的共同貢獻。對于疏水性物質,色散作用可能成為控制分子性質的主要因素[5];對親水性物質,它們和溶劑之間的色散作用和非色散作用共同決定了化合物的理化行為。所以,對于疏水性物質,簡單連接性指數與理化性質就存在較好的相關關系。如果化合物既有疏水性又有親水性時,相關性則不十分理想,簡單連接性指數就不能有效地反映相關關系。同時,化學毒性和相關特征之間的關系通常又是非線性的,構建線性模型從而顯得不合邏輯。因此,非線性特征篩選和非線性建模的模型一定會為化合物毒性的評估提供更有用的信息。為構建可靠的QSAR模型,筆者采用非線性支持向量回歸方法(Support Vector Regression,SVR)[6]。SVR是一類基于結構風險最小化原則的機器學習方法,它能克服小樣本問題、過擬合、維數災和局部極小的難題,廣泛應用于非線性建模的QASR研究中[7]。該研究利用兩種線性技術和一種非線性SVR技術對源自文獻的60個化合物的水溶解度lgSw和辛醇/水分配系數lgKow進行QSAR研究。
1 "材料與方法
1.1 數據集
根據文獻報道的60個試驗測定的醇類化合物辛醇/水分配系數lgKow和水溶解度lgSw,研究mX與lgSw和lgKow的相關性(表1)。為了獲得統計學魯棒的QSAR模型,筆者將數據集分成訓練集(前55個化合物)和測試集(后5個化合物),比較文獻的最小二乘法(Generalized Least Squares,GLS)與多元線性回歸(Multiple Linear Regression,MLR)、逐步線性回歸(Stepwise Multiple Linear Regression,SLR)和SVR的建模結果。訓練集用來構建QSAR模型,測試集用來驗證其獨立預測能力。
表1 "60個醇類有機污染物lgKow、lgSw和mX值[5]
醇lgKowlgSwmX
0X1X
醇lgKowlgSwmX
0X1X
1丁醇0.840-0.0267.4798.5764庚醇2.3101.39011.62515.600
2丁醇0.610-0.3907.3829.4692甲基2己醇1.8401.07011.47916.715
2甲基1丁醇0.610-0.0967.3829.0765甲基2己醇2.1901.38011.52815.968
1戊醇1.3400.5908.89310.5763甲基3己醇1.8700.98011.47916.957
3甲基1丁醇1.1400.5108.79711.0762甲基3己醇2.1901.32011.52816.201
2甲基1丁醇1.1400.4608.79711.2082,2二甲基1戊醇2.3901.52011.47916.233
2戊醇1.1400.2808.79711.4692,4二甲基1戊醇2.1901.60011.52815.707
3戊醇1.1400.2108.79711.6004,4二甲基1戊醇2.3901.55011.47915.991
3甲基2丁醇1.1400.2108.70012.0692,3二甲基2戊醇2.2700.91011.38217.532
2甲基2丁醇0.8900.2308.65012.7152,4二甲基2戊醇1.6700.93011.38217.214
2,2二甲基1丙醇1.3600.3008.65011.9913乙基3戊醇1.8700.83011.47917.200
1己醇1.8401.21010.30712.5762,2二甲基3戊醇2.2701.16011.38217.201
2己醇1.6100.87010.21113.4692,3二甲基3戊醇1.6700.84011.38217.643
3己醇1.6100.80010.21113.6002,4二甲基3戊醇2.3101.22011.43216.801
3甲基3戊醇1.3900.39010.06414.9571辛醇2.8402.35013.13616.576
2甲基2戊醇1.3900.51010.06414.7152辛醇2.8402.07013.03917.469
2甲基3戊醇1.6700.70010.11414.2012乙基1己醇2.8402.17013.03917.339
3甲基2戊醇1.6700.71010.11414.2011壬醇3.5703.00014.55018.576
2,2二甲基1丁醇1.5701.04010.06414.2332壬醇3.3602.74014.45319.469
3,3二甲基1丁醇1.5700.50010.06413.9913壬醇3.3602.66014.45319.600
2,3二甲基2丁醇1.1700.3709.96815.4004壬醇3.3602.59014.45319.600
3,3二甲基2丁醇1.1900.6409.96815.0695壬醇3.3602.49014.45319.600
2甲基1戊醇1.7801.05010.21113.2082,6-二甲基4庚醇3.1302.51014.26120.599
4甲基1戊醇1.7800.99010.21113.0761癸醇4.0103.70015.96420.576
4甲基2戊醇1.6700.81010.11413.9682十一醇4.4202.94017.28223.469
2乙基1丁醇1.7801.21010.21113.3391十二醇5.0604.80018.79224.576
環己醇1.4300.4209.30715.1621十四醇6.1104.52021.62128.576
1庚醇2.3401.81011.72114.5761十五醇6.6405.84023.03530.576
2-庚醇2.3101.55011.62515.4691十六醇7.1707.00024.44932.576
3庚醇2.3101.39011.62515.6001十八醇8.2208.40027.27836.576
1.2 描述符
該研究所用描述符來自文獻(表1),其描述符由能反映結構信息的原子的點價計算來得到[5]。
1.3 模型發展
基于文獻描述符,對兩個因變量(lgKow和 lgSw)和兩個自變量(0X和1X)分別使用SLR、MLR和SVR進行建模[6,8]。
1.4 模型評估
基于均方誤差(MSE)值,核函數參數的優化采用留一法交叉驗證[9-10]。模型的外部預測能力通過公式(1)和(2)的MSE和預測相關系數(R2pred)值進行評估:
MSE=∑(yi-yi)2n
(1)
R2pred=1-∑(yi-yi)2∑(yi-ytraining)2
(2)
式中,yi為測試集的試驗值;
y為測試集的預測值;
n為測試集的數目;
ytraining為訓練集的活性均值。
留一法是指依次從訓練集中取出一個樣本作為測試樣本,而將剩余樣本組成訓練集的一種較為客觀和嚴格的預測性能檢驗方法。一般認為,一個好的QSAR模型應該在獨立測試時具有更低的MSE值和更高的R2pred (至少gt;0.6)值[9-10]。
2 "結果與分析
2.1 利用MLR和SLR方法構建醇類有機污染物線性QSAR模型及其評估
文獻利用最小二乘法建立起簡單性連接指數mX與lgSw和lgKow兩組因變量QSAR模型,分別產生兩組獨立預測方程(表2)。基于文獻數據,該研究利用MLR和SLR兩種方法進行其他線性模型構建。結果表明:MLR和SLR兩種方法構建的線性模型評估值完全一致,SLR方法汰選掉任何自變量;MLR和SLR這兩個線性模型預測方程和評估值與文獻的GLS模型也完全一致,其R2pred值均非常高。對于研究中既定的數據,這3種線性建模方法的泛化推廣能力顯示出很大優勢。
2.2 利用SVR方法構建醇類有機污染物非線性QSAR模型及其評估
基于文獻數據,該研究進一步利用SVR進行非線性模型構建,所用核函數包括線性核函數(t=0)、多項式核函數(t=1, d=2;t=1, d=3)、徑向基核函數(t=2)和雙曲正切核函數(t=3)[11]。SVR建模結果表明(表3):不同的核函數產生的結果差異非常大,因此核函數尋優非常必要;對于正辛醇/水分配系數lgKow,SVR建模中的t=0、t=2和t=3結果都非常優秀,有效模型比率為60%;對于水溶解度lgSw,SVR建模中僅有t=0的模型結果非常優秀,有效模型比率僅為20%。SVR非線性建模結果支持線性核函數(t=0)為研究中既定數據的最優核函數。綜合上述線性模型結果的優良表現,該研究認為文獻計算出的簡單性連接指數mX與lgSw和lgKow之間存在明顯的線性關系,線性模型和具有合適核函數的非線性SVR模型均能很好地預測出其中的關聯信息。SVR能較好地解決小樣本、非線性、維數災和局極小等實際問題,其在一些與lgSw和lgKow間存在非線性關系的描述符的建模上是否更具優勢還有待進一步研究。
表2 3種線性方法預測結果比較
參數lgKow
GLS[5]MLRSLR
lgSw
GLS[5]MLRSLR
預測方程lgKow=0.5120X - 0.0951X - 2.220lgSw=0.6420X-0.1771X - 3.230
MSE0.0010.0010.0010.3570.3570.357
R2pred1.0001.0001.0000.9860.9860.986
表3 "SVR方法預測結果比較
參數lgKow
t=0t=1, d=2t=1, d=3t=2t=3
lgSw
t=0t=1, d=2t=1, d=3t=2t=3
MSE0.022173.114968.1021.4440.2240.416182.054913.24422.20350.152
R2pred0.999-6.643-41.7440.9360.9900.984-5.910-33.6620.157-0.904
3 結論
該研究運用MLR、SLR、SVR 3種方法研究文獻所給出的60種醇類化合物辛醇/水分配系數lgKow和水溶解度lgSw這兩個指標與mX的相關性。一系列模型評估結果表明,MLR、SLR和SVR(具有合適的核函數)的建模能力與文獻方法的建模能力一樣優異。
參考文獻
[1]
WANG H,YAN Z,LI H,et al.Progress of environmental management and risk assessment of industrial chemicals in China[J].Environ Pollut,2012,165(1):174-181.
[2] 譚顯勝,袁哲明,周鐵軍,等.Multi-KNN-SVR組合預測在含氟化合物QSAR研究中的應用[J].高等學校化學學報,2008,29(1):95-99.
[3] LI X L,WANG Z Y,LIU H L,et al.Quantitative structure-activity relationship for prediction of the toxicity of phenols on Photobacterium phosphoreum[J].Bull Environ Contam Toxicol,2012,89:27-31.
[4] 王連生.有機污染物化學[M].北京:科學出版社,1990:3-65.
[5] 堵錫華,蔡可迎.醇、醚類有機污染物的QSAR研究[J].福州大學學報,2004,32(2):224-227.
[6] VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:SpringerVerlag,1995.
[7] XIANG C S,ZHOU W,YUAN Z M,et al.A new parameters joint optimization method of chaotic time series prediction[J].Int J Phys Sci,2011,6:2565-2571.
[8] ZHOU "W,DAI "Z,CHEN Y,et al.Highdimensional descriptor selection and computational QSAR modeling for antitumor activity of ARC111 analogues based on support vector regression (SVR)[J].Int J Mol Sci,2012,13(1):1161-1172.
[9] 代志軍,周瑋,袁哲明.基于支持向量機的高維特征非線性快速篩選與肽QSAR建模[J].物理化學學報,2011,27(7):1654-1660.
[10] ZHOU W,DAI Z J,CHEN Y,et al.Computational QSAR models with high-dimensional descriptor selection improve antitumor activity design of ARC-111 analogues[J].Med Chem Sci,2013,22(1):278-286.
[11] 李巍巍,代志軍,譚顯勝,等.基于支持向量回歸的酚類化合物QSAR建模[J].現代生物醫學進展,2011(24):4857-4860.