王燕,李穎,葉樺珍,李泳寧,徐杰,林振宇
(1. 福建衛(wèi)生職業(yè)技術(shù)學(xué)院藥學(xué)院,福建 福州 350101; 2. 廈門海洋職業(yè)技術(shù)學(xué)院海洋生物學(xué)院,福建 廈門 361102; 3. 江蘇省食品藥品監(jiān)督檢驗(yàn)研究院,江蘇 南京 210019; 4. 福州大學(xué)食品安全與生物分析教育部重點(diǎn)實(shí)驗(yàn)室, 福建省食品安全分析與檢測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室,福建 福州 350108)
凌霄花原名紫葳,始載于《神農(nóng)本草經(jīng)》,為紫葳科植物凌霄或美洲凌霄的干燥花,具有活血通經(jīng)、涼血祛風(fēng)的功效,主要用于治療月經(jīng)不調(diào)、經(jīng)閉癥瘕、產(chǎn)后乳腫、風(fēng)疹發(fā)紅、皮膚瘙癢和痤瘡等[1]. 凌霄花作為我國(guó)傳統(tǒng)中藥,來源廣泛,主產(chǎn)于我國(guó)東部和中部省份. 不同產(chǎn)地的凌霄花化學(xué)成分存在顯著差異,對(duì)其質(zhì)量和藥效影響較大[2-4]. 因此,鑒別不同產(chǎn)地的凌霄花對(duì)其藥材的質(zhì)量控制具有重要意義.
目前, 凌霄花產(chǎn)地鑒別的方法主要有高效液相色譜法[5]、高效液相色譜-串聯(lián)三重四極桿質(zhì)譜[6]和膠束電動(dòng)毛細(xì)管色譜法[7]等理化分析法,但這些方法均需對(duì)樣品進(jìn)行破壞性處理, 檢測(cè)過程費(fèi)時(shí)費(fèi)力,且消耗試劑多. 近紅外光譜(near-infrared spectroscopy, NIRS)技術(shù)作為一種現(xiàn)代儀器分析方法,具有檢測(cè)快速、處理簡(jiǎn)便、對(duì)樣品無破壞和無需化學(xué)試劑等優(yōu)點(diǎn),已被廣泛應(yīng)用于中藥材的產(chǎn)地鑒定與質(zhì)量評(píng)價(jià)[8-12].
本研究通過采集6個(gè)不同產(chǎn)地凌霄花的近紅外光譜數(shù)據(jù),建立支持向量機(jī)(support vector machine,SVM)模型來鑒別不同產(chǎn)地凌霄花,并采用競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling,CARS)變量選擇方法篩選波長(zhǎng)變量,以期實(shí)現(xiàn)對(duì)不同產(chǎn)地凌霄花的快速鑒別分析.
凌霄花藥材采集于山東(45份)、江蘇(99份)、河南(25份)、河北(52份)、云南(22份)和廣西(28份)6個(gè)省,共計(jì)271個(gè)樣品,用作建模分析. 所有樣品經(jīng)福建中醫(yī)藥大學(xué)楊成梓教授鑒定,均為紫葳科植物凌霄的干燥花. 每個(gè)樣品利用超微粉碎機(jī)粉碎,過90 μm孔徑的篩網(wǎng),置于60 ℃的烘箱中烘干至恒重,編號(hào)并置于干燥器中密封保存.
實(shí)驗(yàn)采用Antaris Ⅱ型傅里葉變換近紅外光譜儀(美國(guó)Thermo Fisher公司),光譜分辨率為8 cm-1,掃描范圍為4 000~10 000 cm-1,共掃描32次. 以空氣作為檢測(cè)背景,采集環(huán)境為室溫25 ℃,空氣濕度為60%. 每個(gè)樣品采集3條光譜,運(yùn)用Matlab(R 2017a)編寫程序?qū)呙杷玫墓庾V數(shù)據(jù)進(jìn)行分析.
采用Kennard-Stone算法將樣本按9∶1的比例劃分為訓(xùn)練集樣本與測(cè)試集樣本,如表1所示. 訓(xùn)練集樣本用于建立凌霄花產(chǎn)地鑒別模型,測(cè)試集樣本用于驗(yàn)證模型對(duì)凌霄花樣品的預(yù)測(cè)能力.

表1 凌霄花產(chǎn)地來源及樣本集劃分
SVM是由Vapnik[13]提出的一種用于分類和回歸分析的監(jiān)督模式識(shí)別方法,具有良好的泛化性能和準(zhǔn)確的預(yù)測(cè)能力. SVM算法將訓(xùn)練數(shù)據(jù)映射到高維空間,在分類誤差最小的情況下尋找最優(yōu)超平面. 利用特征空間中種類分布邊緣的訓(xùn)練集樣本來定位最優(yōu)超平面,并定義最大邊界超平面的訓(xùn)練集樣本為支持向量, 而所有其他對(duì)超平面位置估計(jì)沒有貢獻(xiàn)的訓(xùn)練集樣本都可以丟棄. 因此,SVM通過使用少量的訓(xùn)練集樣本即可獲得較高的分類精度.
為實(shí)現(xiàn)原始數(shù)據(jù)到高維空間的映射,在SVM中引入核函數(shù). 核函數(shù)包括線性函數(shù)、徑向基函數(shù)(RBF)、多項(xiàng)式和S型函數(shù). 由于RBF在校準(zhǔn)過程有效且快速[14],本研究采用RBF作為SVM分類的核函數(shù). RBF核函數(shù)的公式如下:
其中:x和y分別表示不同樣本的測(cè)量數(shù)據(jù);σd表示徑向基核函數(shù)的寬度,其值需要在模型優(yōu)化過程中確定.
在建模的過程中,NIRS變量含有大量冗余信息,不僅增加模型的復(fù)雜程度,還降低模型預(yù)測(cè)的準(zhǔn)確性. 當(dāng)相關(guān)性不強(qiáng)的變量過多時(shí),從大量的光譜變量中提取出對(duì)建模有用的特征變量,可簡(jiǎn)化模型,提高模型的穩(wěn)定性與準(zhǔn)確性. CARS是一種提取特征變量的方法. 該方法模仿達(dá)爾文進(jìn)化理論中的“適者生存”原則,根據(jù)CARS技術(shù)搜尋與所測(cè)性質(zhì)相關(guān)的最優(yōu)波長(zhǎng)組合,從而達(dá)到簡(jiǎn)化模型、提高模型預(yù)測(cè)能力的目的[15].
圖1(a)為6個(gè)不同產(chǎn)地凌霄花在4 000~10 000 cm-1的近紅外平均光譜圖. 其中,4 400~4 800 cm-1的特征吸收峰是C—H伸縮振動(dòng)與彎曲振動(dòng)的組合頻、O—H伸縮振動(dòng)的倍頻,5 000~5 100 cm-1的特征吸收峰是O—H伸縮振動(dòng)與彎曲振動(dòng)的組合頻,5 800~6 000 cm-1的特征吸收峰是C—H伸縮振動(dòng)的倍頻,6 800~7 050 cm-1附近的特征吸收峰是O—H伸縮振動(dòng)的倍頻. 如圖所示,不同產(chǎn)地的凌霄花樣品的峰強(qiáng)度差異可能是由于不同產(chǎn)地的凌霄花樣品中所含的主要活性物質(zhì),如麥角甾苷、環(huán)烯醚萜、三萜和黃酮等含量不同而造成的,但總體相似性很高,因此需要進(jìn)一步建立模型進(jìn)行判別.
在建立模型之前,為消除樣品物理性質(zhì)和噪聲等因素對(duì)樣品光譜的影響,需要對(duì)光譜進(jìn)行一定的預(yù)處理. 本實(shí)驗(yàn)分別采用多元散射校正、一階導(dǎo)數(shù)、標(biāo)準(zhǔn)化、均值中心化、矢量歸一化和標(biāo)準(zhǔn)正態(tài)變量變換方法對(duì)樣本的原始光譜進(jìn)行預(yù)處理,最后選擇預(yù)處理效果最佳的一階導(dǎo)數(shù)作為光譜預(yù)處理方法,如圖1(b)所示.


圖1 凌霄花的光譜圖
圖2(a)為凌霄花樣品前兩個(gè)主成分(PC1和PC2)的得分聚類圖. 從圖中可以看出,訓(xùn)練集和測(cè)試集的樣本整體呈均勻分散狀態(tài),說明樣本集的劃分是比較合理的. 為觀察樣本是否可能聚類,對(duì)其進(jìn)行主成分分析,結(jié)果如圖2(b)所示. 前3個(gè)主成分(PC1、PC2和PC3)的累積方差貢獻(xiàn)率達(dá)99.43%,說明前3個(gè)主成分可以代表近紅外光譜中99.43%的化學(xué)信息. 從圖中可看出,不同產(chǎn)地的樣品之間存在粗略的分離,但重疊仍然很明顯,分類效果不是很理想. 因此,需要進(jìn)一步建立模型對(duì)凌霄花的產(chǎn)地進(jìn)行鑒別.


圖2 凌霄花樣本的聚類圖

圖3 參數(shù)C和g優(yōu)化結(jié)果的3D視圖Fig.3 3D view of the optimization results for parameters C and g
SVM的性能取決于懲罰參數(shù)C和RBF核函數(shù)參數(shù)g[14]. 本研究采用5折交叉驗(yàn)證結(jié)合網(wǎng)格搜索技術(shù)來確定最優(yōu)的C和g. 在5折交叉驗(yàn)證中,將訓(xùn)練集樣本平均分成5個(gè)子集. 然后隨機(jī)選取4個(gè)子集來構(gòu)建模型,剩下的子集用于驗(yàn)證. 因此,對(duì)每個(gè)實(shí)例進(jìn)行一次預(yù)測(cè),并以識(shí)別率來評(píng)價(jià)優(yōu)化結(jié)果. 網(wǎng)格全局搜索算法是將待優(yōu)化的參數(shù)先劃分為網(wǎng)格,通過遍歷網(wǎng)格上所有點(diǎn)對(duì)應(yīng)的目標(biāo)值,得出最優(yōu)的目標(biāo)值和最優(yōu)值對(duì)應(yīng)的參數(shù)值. 網(wǎng)格搜索優(yōu)化的精度與參數(shù)范圍和區(qū)間大小有關(guān). 增大參數(shù)范圍或者減小步長(zhǎng),都可以提高精度.C和g經(jīng)過2-10~210范圍內(nèi)的評(píng)估,設(shè)定步長(zhǎng)為20.2. 圖3為采用5折交叉驗(yàn)證結(jié)合網(wǎng)格搜索技術(shù)對(duì)參數(shù)C和g進(jìn)行優(yōu)化的三維視圖. 當(dāng)C為6.062 9,g為0.082 5時(shí),識(shí)別率最高. 以上述最優(yōu)參數(shù)構(gòu)建SVM模型,模型對(duì)6個(gè)產(chǎn)地凌霄花鑒別效果良好,其中訓(xùn)練集識(shí)別率為98.36%,預(yù)測(cè)識(shí)別率為96.30%.
為剔除冗余光譜變量,提高模型的穩(wěn)定性與準(zhǔn)確性,運(yùn)用CARS算法提取特征變量. CARS波長(zhǎng)選擇過程中的波長(zhǎng)變量個(gè)數(shù)、交叉驗(yàn)證均方根誤差(root mean square error of cross validation, RMSECV)與回歸系數(shù)路徑的變化情況分別如圖4所示. 隨著運(yùn)行次數(shù)的增加,RMSECV值開始下降,光譜中的冗余波長(zhǎng)變量個(gè)數(shù)在減少. 當(dāng)運(yùn)行次數(shù)為24時(shí),RMSECV達(dá)到最低點(diǎn),此時(shí)的波長(zhǎng)變量個(gè)數(shù)從1 557減少到52,達(dá)到最佳值. 以優(yōu)化后的特征波長(zhǎng)變量建立CARS-SVM模型,與SVM模型相比,訓(xùn)練集的識(shí)別率從98.36%提高到100%,測(cè)試集的識(shí)別率從96.30%提高到100%. 結(jié)果表明,通過CARS提取特征變量后,CARS-SVM模型比SVM模型具有更強(qiáng)的準(zhǔn)確性.

圖4 選定波長(zhǎng)變量個(gè)數(shù)、RMSECV、各波長(zhǎng)變量的回歸系數(shù)隨著運(yùn)行次數(shù)的變化Fig.4 Variation of the number of selected wavelength variables, RMSECV and the regression coefficient of each wavelength variable with the number of runs
為進(jìn)一步說明CARS-SVM模型的鑒別效果,以52個(gè)特征波長(zhǎng)為變量,分別構(gòu)建線性判別分析(linear discriminant analysis, LDA)、偏最小二乘法判別分析(partial least squares discriminant analysis, PLS-DA)和簇類獨(dú)立軟模式識(shí)別(soft independent modelling of class analogy, SIMCA)模型. 表2為不同模型對(duì)不同產(chǎn)地凌霄花的鑒別結(jié)果. 從表格中可以看出,無論是訓(xùn)練集還是測(cè)試集,CARS-SVM模型的鑒別效果均優(yōu)于其他4種模型. 經(jīng)分析,影響不同模型判別結(jié)果的因素可能如下:由于光譜數(shù)據(jù)的波長(zhǎng)變量之間存在很強(qiáng)的相關(guān)性,降低LDA的分類精度[16]; SIMCA是在主成分分析基礎(chǔ)上對(duì)未知樣本進(jìn)行識(shí)別,由于未知樣本雖然符合某種類型的主成分分析模型,但樣本可能會(huì)遠(yuǎn)離該類的訓(xùn)練集[17],從而使SIMCA模型的識(shí)別率偏低; CARS-PLS-DA模型的判別結(jié)果最差,因?yàn)镻LS-DA模型是一種線性判別方法,當(dāng)特征變量與分類目標(biāo)之間存在非線性關(guān)系時(shí),其識(shí)別率并不理想[18]; CARS-SVM模型的識(shí)別率優(yōu)于其他4種模型,在樣品數(shù)量較少的情況下也具有較強(qiáng)的泛化能力,且能適用于復(fù)雜非線性光譜的分析[19],是一種有效鑒別不同產(chǎn)地凌霄花的方法.

表2 不同建模結(jié)果的比較
本研究采用基于NIRS技術(shù)的SVM算法對(duì)不同產(chǎn)地凌霄花進(jìn)行有效判別. 為消除冗余光譜變量,對(duì)模型進(jìn)行簡(jiǎn)化,采用CARS提取特征波長(zhǎng),建立CARS-SVM模型. 將該CARS-SVM模型與其他3種分類模型(LDA、PLSDA和SIMCA)進(jìn)行比較,其判別準(zhǔn)確率達(dá)到100%,明顯優(yōu)于其他模型. 結(jié)果表明,與傳統(tǒng)的感官評(píng)價(jià)和理化試驗(yàn)的鑒定方法相比,NIRS技術(shù)結(jié)合CARS-SVM模型可快速準(zhǔn)確判別凌霄花的產(chǎn)地, 為凌霄花的真?zhèn)舞b別及質(zhì)量評(píng)價(jià)提供一種新的方法.