近紅外光譜和支持向量機(jī)用于凌霄花產(chǎn)地鑒別

2022-07-13 07:29:28王燕李穎葉樺珍李泳寧徐杰林振宇

福州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年4期

關(guān)鍵詞：模型

王燕，李穎，葉樺珍，李泳寧，徐杰，林振宇

(1. 福建衛(wèi)生職業(yè)技術(shù)學(xué)院藥學(xué)院，福建福州 350101; 2. 廈門海洋職業(yè)技術(shù)學(xué)院海洋生物學(xué)院，福建廈門 361102； 3. 江蘇省食品藥品監(jiān)督檢驗(yàn)研究院，江蘇南京 210019； 4. 福州大學(xué)食品安全與生物分析教育部重點(diǎn)實(shí)驗(yàn)室，福建省食品安全分析與檢測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室，福建福州 350108)

0 引言

凌霄花原名紫葳，始載于《神農(nóng)本草經(jīng)》，為紫葳科植物凌霄或美洲凌霄的干燥花，具有活血通經(jīng)、涼血祛風(fēng)的功效，主要用于治療月經(jīng)不調(diào)、經(jīng)閉癥瘕、產(chǎn)后乳腫、風(fēng)疹發(fā)紅、皮膚瘙癢和痤瘡等[1]. 凌霄花作為我國(guó)傳統(tǒng)中藥，來源廣泛，主產(chǎn)于我國(guó)東部和中部省份. 不同產(chǎn)地的凌霄花化學(xué)成分存在顯著差異，對(duì)其質(zhì)量和藥效影響較大[2-4]. 因此，鑒別不同產(chǎn)地的凌霄花對(duì)其藥材的質(zhì)量控制具有重要意義.

目前, 凌霄花產(chǎn)地鑒別的方法主要有高效液相色譜法[5]、高效液相色譜-串聯(lián)三重四極桿質(zhì)譜[6]和膠束電動(dòng)毛細(xì)管色譜法[7]等理化分析法，但這些方法均需對(duì)樣品進(jìn)行破壞性處理, 檢測(cè)過程費(fèi)時(shí)費(fèi)力，且消耗試劑多. 近紅外光譜(near-infrared spectroscopy, NIRS)技術(shù)作為一種現(xiàn)代儀器分析方法，具有檢測(cè)快速、處理簡(jiǎn)便、對(duì)樣品無破壞和無需化學(xué)試劑等優(yōu)點(diǎn)，已被廣泛應(yīng)用于中藥材的產(chǎn)地鑒定與質(zhì)量評(píng)價(jià)[8-12].

本研究通過采集6個(gè)不同產(chǎn)地凌霄花的近紅外光譜數(shù)據(jù)，建立支持向量機(jī)(support vector machine，SVM)模型來鑒別不同產(chǎn)地凌霄花，并采用競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling，CARS)變量選擇方法篩選波長(zhǎng)變量，以期實(shí)現(xiàn)對(duì)不同產(chǎn)地凌霄花的快速鑒別分析.

1 材料與方法

1.1 樣品的采集與制備

凌霄花藥材采集于山東(45份)、江蘇(99份)、河南(25份)、河北(52份)、云南(22份)和廣西(28份)6個(gè)省，共計(jì)271個(gè)樣品，用作建模分析. 所有樣品經(jīng)福建中醫(yī)藥大學(xué)楊成梓教授鑒定，均為紫葳科植物凌霄的干燥花. 每個(gè)樣品利用超微粉碎機(jī)粉碎，過90 μm孔徑的篩網(wǎng)，置于60 ℃的烘箱中烘干至恒重，編號(hào)并置于干燥器中密封保存.

1.2 光譜數(shù)據(jù)的采集

實(shí)驗(yàn)采用Antaris Ⅱ型傅里葉變換近紅外光譜儀(美國(guó)Thermo Fisher公司)，光譜分辨率為8 cm-1，掃描范圍為4 000～10 000 cm-1，共掃描32次. 以空氣作為檢測(cè)背景，采集環(huán)境為室溫25 ℃，空氣濕度為60%. 每個(gè)樣品采集3條光譜，運(yùn)用Matlab(R 2017a)編寫程序?qū)呙杷玫墓庾V數(shù)據(jù)進(jìn)行分析.

1.3 訓(xùn)練集和測(cè)試集的劃分

采用Kennard-Stone算法將樣本按9∶1的比例劃分為訓(xùn)練集樣本與測(cè)試集樣本，如表1所示. 訓(xùn)練集樣本用于建立凌霄花產(chǎn)地鑒別模型，測(cè)試集樣本用于驗(yàn)證模型對(duì)凌霄花樣品的預(yù)測(cè)能力.

表1 凌霄花產(chǎn)地來源及樣本集劃分

1.4 模型建立及特征變量篩選

SVM是由Vapnik[13]提出的一種用于分類和回歸分析的監(jiān)督模式識(shí)別方法，具有良好的泛化性能和準(zhǔn)確的預(yù)測(cè)能力. SVM算法將訓(xùn)練數(shù)據(jù)映射到高維空間，在分類誤差最小的情況下尋找最優(yōu)超平面. 利用特征空間中種類分布邊緣的訓(xùn)練集樣本來定位最優(yōu)超平面，并定義最大邊界超平面的訓(xùn)練集樣本為支持向量, 而所有其他對(duì)超平面位置估計(jì)沒有貢獻(xiàn)的訓(xùn)練集樣本都可以丟棄. 因此，SVM通過使用少量的訓(xùn)練集樣本即可獲得較高的分類精度.

為實(shí)現(xiàn)原始數(shù)據(jù)到高維空間的映射，在SVM中引入核函數(shù). 核函數(shù)包括線性函數(shù)、徑向基函數(shù)(RBF)、多項(xiàng)式和S型函數(shù). 由于RBF在校準(zhǔn)過程有效且快速[14]，本研究采用RBF作為SVM分類的核函數(shù). RBF核函數(shù)的公式如下：

其中：x和y分別表示不同樣本的測(cè)量數(shù)據(jù)；σd表示徑向基核函數(shù)的寬度，其值需要在模型優(yōu)化過程中確定.

在建模的過程中，NIRS變量含有大量冗余信息，不僅增加模型的復(fù)雜程度，還降低模型預(yù)測(cè)的準(zhǔn)確性. 當(dāng)相關(guān)性不強(qiáng)的變量過多時(shí)，從大量的光譜變量中提取出對(duì)建模有用的特征變量，可簡(jiǎn)化模型，提高模型的穩(wěn)定性與準(zhǔn)確性. CARS是一種提取特征變量的方法. 該方法模仿達(dá)爾文進(jìn)化理論中的“適者生存”原則，根據(jù)CARS技術(shù)搜尋與所測(cè)性質(zhì)相關(guān)的最優(yōu)波長(zhǎng)組合，從而達(dá)到簡(jiǎn)化模型、提高模型預(yù)測(cè)能力的目的[15].

2 實(shí)驗(yàn)結(jié)果與分析

2.1 光譜分析

圖1(a)為6個(gè)不同產(chǎn)地凌霄花在4 000～10 000 cm-1的近紅外平均光譜圖. 其中，4 400～4 800 cm-1的特征吸收峰是C—H伸縮振動(dòng)與彎曲振動(dòng)的組合頻、O—H伸縮振動(dòng)的倍頻，5 000～5 100 cm-1的特征吸收峰是O—H伸縮振動(dòng)與彎曲振動(dòng)的組合頻，5 800～6 000 cm-1的特征吸收峰是C—H伸縮振動(dòng)的倍頻，6 800～7 050 cm-1附近的特征吸收峰是O—H伸縮振動(dòng)的倍頻. 如圖所示，不同產(chǎn)地的凌霄花樣品的峰強(qiáng)度差異可能是由于不同產(chǎn)地的凌霄花樣品中所含的主要活性物質(zhì)，如麥角甾苷、環(huán)烯醚萜、三萜和黃酮等含量不同而造成的，但總體相似性很高，因此需要進(jìn)一步建立模型進(jìn)行判別.

2.2 光譜預(yù)處理

在建立模型之前，為消除樣品物理性質(zhì)和噪聲等因素對(duì)樣品光譜的影響，需要對(duì)光譜進(jìn)行一定的預(yù)處理. 本實(shí)驗(yàn)分別采用多元散射校正、一階導(dǎo)數(shù)、標(biāo)準(zhǔn)化、均值中心化、矢量歸一化和標(biāo)準(zhǔn)正態(tài)變量變換方法對(duì)樣本的原始光譜進(jìn)行預(yù)處理，最后選擇預(yù)處理效果最佳的一階導(dǎo)數(shù)作為光譜預(yù)處理方法，如圖1(b)所示.

圖1 凌霄花的光譜圖

2.3 主成分分析

圖2(a)為凌霄花樣品前兩個(gè)主成分(PC1和PC2)的得分聚類圖. 從圖中可以看出，訓(xùn)練集和測(cè)試集的樣本整體呈均勻分散狀態(tài)，說明樣本集的劃分是比較合理的. 為觀察樣本是否可能聚類，對(duì)其進(jìn)行主成分分析，結(jié)果如圖2(b)所示. 前3個(gè)主成分(PC1、PC2和PC3)的累積方差貢獻(xiàn)率達(dá)99.43%，說明前3個(gè)主成分可以代表近紅外光譜中99.43%的化學(xué)信息. 從圖中可看出，不同產(chǎn)地的樣品之間存在粗略的分離，但重疊仍然很明顯，分類效果不是很理想. 因此，需要進(jìn)一步建立模型對(duì)凌霄花的產(chǎn)地進(jìn)行鑒別.

圖2 凌霄花樣本的聚類圖

2.4 CARS-SVM模型構(gòu)建

圖3 參數(shù)C和g優(yōu)化結(jié)果的3D視圖Fig.3 3D view of the optimization results for parameters C and g

SVM的性能取決于懲罰參數(shù)C和RBF核函數(shù)參數(shù)g[14]. 本研究采用5折交叉驗(yàn)證結(jié)合網(wǎng)格搜索技術(shù)來確定最優(yōu)的C和g. 在5折交叉驗(yàn)證中，將訓(xùn)練集樣本平均分成5個(gè)子集. 然后隨機(jī)選取4個(gè)子集來構(gòu)建模型，剩下的子集用于驗(yàn)證. 因此，對(duì)每個(gè)實(shí)例進(jìn)行一次預(yù)測(cè)，并以識(shí)別率來評(píng)價(jià)優(yōu)化結(jié)果. 網(wǎng)格全局搜索算法是將待優(yōu)化的參數(shù)先劃分為網(wǎng)格，通過遍歷網(wǎng)格上所有點(diǎn)對(duì)應(yīng)的目標(biāo)值，得出最優(yōu)的目標(biāo)值和最優(yōu)值對(duì)應(yīng)的參數(shù)值. 網(wǎng)格搜索優(yōu)化的精度與參數(shù)范圍和區(qū)間大小有關(guān). 增大參數(shù)范圍或者減小步長(zhǎng)，都可以提高精度.C和g經(jīng)過2-10～210范圍內(nèi)的評(píng)估，設(shè)定步長(zhǎng)為20.2. 圖3為采用5折交叉驗(yàn)證結(jié)合網(wǎng)格搜索技術(shù)對(duì)參數(shù)C和g進(jìn)行優(yōu)化的三維視圖. 當(dāng)C為6.062 9，g為0.082 5時(shí)，識(shí)別率最高. 以上述最優(yōu)參數(shù)構(gòu)建SVM模型，模型對(duì)6個(gè)產(chǎn)地凌霄花鑒別效果良好，其中訓(xùn)練集識(shí)別率為98.36%，預(yù)測(cè)識(shí)別率為96.30%.

為剔除冗余光譜變量，提高模型的穩(wěn)定性與準(zhǔn)確性，運(yùn)用CARS算法提取特征變量. CARS波長(zhǎng)選擇過程中的波長(zhǎng)變量個(gè)數(shù)、交叉驗(yàn)證均方根誤差(root mean square error of cross validation, RMSECV)與回歸系數(shù)路徑的變化情況分別如圖4所示. 隨著運(yùn)行次數(shù)的增加，RMSECV值開始下降，光譜中的冗余波長(zhǎng)變量個(gè)數(shù)在減少. 當(dāng)運(yùn)行次數(shù)為24時(shí)，RMSECV達(dá)到最低點(diǎn)，此時(shí)的波長(zhǎng)變量個(gè)數(shù)從1 557減少到52，達(dá)到最佳值. 以優(yōu)化后的特征波長(zhǎng)變量建立CARS-SVM模型，與SVM模型相比，訓(xùn)練集的識(shí)別率從98.36%提高到100%，測(cè)試集的識(shí)別率從96.30%提高到100%. 結(jié)果表明，通過CARS提取特征變量后，CARS-SVM模型比SVM模型具有更強(qiáng)的準(zhǔn)確性.

圖4 選定波長(zhǎng)變量個(gè)數(shù)、RMSECV、各波長(zhǎng)變量的回歸系數(shù)隨著運(yùn)行次數(shù)的變化Fig.4 Variation of the number of selected wavelength variables, RMSECV and the regression coefficient of each wavelength variable with the number of runs

2.5 模型比較分析

為進(jìn)一步說明CARS-SVM模型的鑒別效果，以52個(gè)特征波長(zhǎng)為變量，分別構(gòu)建線性判別分析(linear discriminant analysis, LDA)、偏最小二乘法判別分析(partial least squares discriminant analysis, PLS-DA)和簇類獨(dú)立軟模式識(shí)別(soft independent modelling of class analogy, SIMCA)模型. 表2為不同模型對(duì)不同產(chǎn)地凌霄花的鑒別結(jié)果. 從表格中可以看出，無論是訓(xùn)練集還是測(cè)試集，CARS-SVM模型的鑒別效果均優(yōu)于其他4種模型. 經(jīng)分析，影響不同模型判別結(jié)果的因素可能如下：由于光譜數(shù)據(jù)的波長(zhǎng)變量之間存在很強(qiáng)的相關(guān)性，降低LDA的分類精度[16]； SIMCA是在主成分分析基礎(chǔ)上對(duì)未知樣本進(jìn)行識(shí)別，由于未知樣本雖然符合某種類型的主成分分析模型，但樣本可能會(huì)遠(yuǎn)離該類的訓(xùn)練集[17]，從而使SIMCA模型的識(shí)別率偏低； CARS-PLS-DA模型的判別結(jié)果最差，因?yàn)镻LS-DA模型是一種線性判別方法，當(dāng)特征變量與分類目標(biāo)之間存在非線性關(guān)系時(shí)，其識(shí)別率并不理想[18]； CARS-SVM模型的識(shí)別率優(yōu)于其他4種模型，在樣品數(shù)量較少的情況下也具有較強(qiáng)的泛化能力，且能適用于復(fù)雜非線性光譜的分析[19]，是一種有效鑒別不同產(chǎn)地凌霄花的方法.

表2 不同建模結(jié)果的比較

3 結(jié)語

本研究采用基于NIRS技術(shù)的SVM算法對(duì)不同產(chǎn)地凌霄花進(jìn)行有效判別. 為消除冗余光譜變量，對(duì)模型進(jìn)行簡(jiǎn)化，采用CARS提取特征波長(zhǎng)，建立CARS-SVM模型. 將該CARS-SVM模型與其他3種分類模型(LDA、PLSDA和SIMCA)進(jìn)行比較，其判別準(zhǔn)確率達(dá)到100%，明顯優(yōu)于其他模型. 結(jié)果表明，與傳統(tǒng)的感官評(píng)價(jià)和理化試驗(yàn)的鑒定方法相比，NIRS技術(shù)結(jié)合CARS-SVM模型可快速準(zhǔn)確判別凌霄花的產(chǎn)地, 為凌霄花的真?zhèn)舞b別及質(zhì)量評(píng)價(jià)提供一種新的方法.