韓寧娟 方歡樂 劉建利
1.西安培華學院醫學院,陜西西安 710125;2.西北大學生命科學院,陜西西安 710069
大葉鉤藤(Uncaria macrophylla)為茜草科,鉤藤屬大藤本植物,具有清熱安神、鎮靜息風等作用[1],在2000 年的《中醫大辭典》[2]成分補遺中記載大葉鉤藤的葉子中含有鉤藤堿、柯諾辛堿和柯諾辛堿B、非生物堿類烏索酸、表兒茶素等[3]。李春等[4]用丙酮萃取提取大葉鉤藤鉤莖中的揮發性成分,并用氣相色譜-質譜法分析分離鑒定出58 種化合物。定量結構-色譜保留關系研究對于預測化合物的色譜保留時間,選擇分離條件,協助鑒定化合物等具有重要意義[5]。在這方面,研究人員做了很多有意義的工作。廖立敏等[6]構建了飲用水中揮發性有機物結構和色譜保留時間的關系模型;何琴等[7]構建了香水百合香氣成分與色譜保留時間的關系模型;堵錫華等[8]構建了烏藥化學成分結構與色譜保留時間的關系模型,所建模型均有較好的穩定性和預測能力。本文對大葉鉤藤鉤莖的58 個揮發性成分結構用14 個描述符進行表征,并用多元線性回歸(MLR)和偏最小二乘回歸(PLS) 建立大葉鉤藤鉤莖的58 個揮發性成分的分子結構-色譜保留時間關系模型,預測色譜保留時間,采用“留一法”對模型的預測效果進行評價,為中草藥中有機化合物結構的定量結構-色譜保留關系研究提供了參考。
對文獻[4]中大葉鉤藤鉤莖中的58 個化合物進行
結構表征,可得到14 個描述符,將部分變量列于表1。
按參考文獻[9-10]的方法,根據直接連接的非氫原子和其他非氫原子的直接相連的數目,將非氫原子分為4 種,例如和1 個非氫原子連接的非氫原子屬第1 類非氫原子,依次類推,再根據用公式(1)算出化合物中非氫原子的參數化Zi 值。
其中ni是非氫原子i 的電子層數,qc是碳原子的電負性,qi是非氫原子i 的電負性,mi是非氫原子的價電子數i,hi是直接連接的氫原子數。
不同類型的非氫原子自身對化合物在色譜中保留時間的影響,數值x 按式(2)進行累加計算。

其中k 為非氫原子i 的原子類型。
化合物結構中非氫原子之間的關系對化合物色譜中保留時間的影響可以通過式(3)計算[11-13]。

若用n 和l 代表非氫原子的類型,rij 為兩個非氫原子之間的相對距離(即非氫原子的最短路徑鍵長之和與C-C 單鍵鍵長之比)。這樣,每個化合物結構最多可以有14 個描述符進行表征,包括不同類型的非氫原子自身4 個,非氫原子之間的關系10 個描述符。
MLR 是定量結構-色譜保留關系研究中最常用的一種方法,可以直觀、簡便地對一組數據進行最小二乘擬合處理,建立函數關系。主要過程包括:首先將計算出的化合物結構描述用SPSS 12.0 軟件進行逐步回歸篩選變量,并對變量進行偏F 檢驗,當有顯著性水平(P<0.05),則將變量作為候選變量,否則剔除,再將候選變量以相關系數(R)、標準偏差(SD)為指標[14-16],對候選變量進行逐步回歸分析,建立化合物結構描述符與保留時間的關系模型。
PLS 可以很好地解決變量缺失值和多重共線性等問題。以化合物的結構描述符為變量x,文獻[4]中實驗測得的保留時間值為因變量Y。用simca-P 11.5軟件建立大葉鉤藤中的58 種有機化合物結構描述符與氣相色譜保留時間的關系模型。變量重要性投影(VIP) 是一個能夠反映各變量對Y 解釋能力大小的重要指標,當VIP 值大于1 時,表明該自變量對Y 具有較大貢獻,有較強的解釋能力。
無論是MLR 模型還是PLS 模型,都要求模型有較好的擬合能力和預測能力[17-20]。因此,在選擇模型時不僅要選擇擬合能力較好的模型,還要選擇交互檢驗相關系數(Rcv)較大的模型。本文采用MLR 與PLS 分別進行建模分析,并用“留一法”對模型的預測能力進行檢驗。一般認為模型的R 在0.60~1.00,Rcv≥0.5,提示此模型擬合能力較好,預測能力強。建模的SD與樣本色譜保留時間的差值(樣本色譜保留時間的最大值-最小值)的比值<10%,則認為該模型具有良好預測準確性[21-24]。用方差膨脹因子衡量模型變量之間是否存在共線性,理想模型中所有變量的方差膨脹因子應≤10[25]。
最終得到5 個變量MLR 模型結果如式(4)所示:

“留一法”交互檢驗結果:Rcv=0.886,SDcv=5.862,Fcv=45.687。模型R 為0.949,SD 為2.862,58 個樣本色譜保留時間的差值為48.434,模型的SD 與樣本保留時間差值的比值為5.91%。
PLS 模型的相關系數與“留一法”交互檢驗的R和Rcv 分別為0.945 和0.867;SD 為2.678,模型的SD與樣本保留時間的差值的比值為5.53%。58 個樣本在PLS 前2 個主成分的得分散點圖見圖1,超過95%的樣本點落在95%置信度的Hotelling T2橢圓置信度范圍內。本研究建立的模型變量x1、x2 的VIP 值都大于1,說明這2 個變量對色譜保留時間Y 的解釋能力較大,該體系中第1 類原子和第2 類原子對化合物的色譜保留時間預測值關系密切。見圖2。

圖1 樣本在前2 個主成分得分分布散點圖

圖2 變量重要性投影圖
兩個模型的預測數據都落在45°對角線附近,且都有幾個點偏離對角線,兩個模型的整體擬合效果較好,但個別樣本的誤差較大,見圖3。兩個模型都有3 個樣品的模型預測值和實驗值之間的誤差略微超出2SD 范圍,但不到總樣品的6%,其余樣品產生的誤差不超過2SD 范圍,在可接受的誤差范圍內,兩個模型的質量相當。見圖4。
化合物定量結構-色譜保留關系是色譜學基礎理論研究的重要組成部分,研究化合物的分子結構與色譜保留時間的關聯,對色譜過程中保留值的預測、探索色譜保留機制等方面具有重要意義[26]。在化合物結構參數化表征過程中,不僅考慮了非氫原子的電子層數、最外層電子數、電負性等非氫原子自身的特性,還包含了非氫原子鍵合的氫原子個數、連接非氫原子的基團個數等非氫原子的成鍵環境因素,比較全面地揭示化合物結構中每個定點非氫原子的結構特征。

圖3 模型預測值與實驗值相關圖

圖4 預測誤差分布圖
但是,對化合物結構描述符的表達是基于二維平面結構得到的,分子立體結構的特征如順反異構體、旋光異構等不能區分,建模所采用的是保留時間,未能避免由設備、方法和色譜柱等因素帶來的保留時間的系統性差異,需要在今后的研究中予以克服。
需要進一步說明的是,本研究中個別樣本的預測誤差較大,可能是由于該樣品化合物的結構跨度較大,包括醇、酮、醛、酸、植物甾醇等化合物,含有氧、硫、磷、氯等雜原子,是一個復雜的樣本體系。也可能是因為實驗本身存在誤差。但是,對于這樣一個復雜的樣本系統,這兩個模型獲得的結果應該令人滿意。