劉燕德,徐 振,胡 軍,李茂鵬,崔惠楨
華東交通大學機電與車輛工程學院,江西 南昌 330013
貝母為多年生草本植物,其鱗莖部分常作藥用。《本草經集注》說:“形似聚貝子”,名為貝母,主治止咳化痰、清熱散結等。常將貝母類藥材分為:川貝母、浙貝母、平貝母、伊貝母、土貝母等,貝母品種不同藥效也略有差異,且極易混淆。川貝母是貝母中的珍品,藥用效果相對較高,生存環境脆弱,生長周期漫長,產量相對較低,市場需求較高,價格極高,易被冒充[1]。廣大群眾鑒別易混淆中草藥多基于傳統“一看、二聞、三嘗”的經驗鑒別,此方法需要積累豐富的經驗,且極易出錯、難以鑒別高仿。近年來基于理化分析的高效液相色譜法(high PerforMance liquid chromatography,HPLC)、薄層色譜法(thin layer chromatography,TLC)、氣相色譜法(gas chromatography,GC)、質譜法(mass spectrometry,MS)以及聯用技術等方法也被廣泛應用于測定中草藥的主要成分及鑒別種類[2-3]。但此類檢測手段需要復雜的樣品處理,以及專業人員的操作,費時費力[4]。因此有必要開發探索一種新的檢測手段來彌補傳統方法的缺陷。
太赫茲波頻率處于0.1~10 THz之間,具有能量低、頻譜寬、穿透強與吸收強的特征,基于太赫茲光譜的鑒別檢測技術具有識別率高、耗時短、操作簡單等優勢,是一種新穎的檢測手段。太赫茲光譜獨特的優勢,使其近些年在食品、生物、化工、材料和醫藥檢測等領域得到廣泛應用。中草藥的藥用成分結構復雜,其有機分子之間的弱相互作用和振動躍遷以及晶體中的低頻振動和吸收頻率大多數處于太赫茲波段范圍內。這些振動充分反映了中草藥的分子結構及相關信息,因此使得太赫茲光譜技術對中藥材檢測鑒別成為可能。
馬品等[5]使用太赫茲光譜檢測技術對天麻含水量進行檢測,表明太赫茲可以在測定中藥飲片含水量中得到應用。徐哲等[6]為對五種不同產地、不同批次的雞血藤和大血藤進行鑒別,采用太赫茲光譜技術結合光譜角算法對雞血藤與大血藤進行分類,效果較為理想,兩類中藥樣品總計100組數據的分類正確率達到 95%。Zhang等[7]先后對中藥中的添加劑、易混淆中草藥、有毒中草藥進行鑒別研究,效果均較為理想。李辰等[8]對正品與偽劣冬蟲夏草進行鑒別,發現冬蟲夏草正品存在1.01 THz和1.13 THz特征吸收峰,根據吸收峰實現對正偽冬蟲夏草的鑒別。楊少壯等[9]對陳皮的THz圖譜進行分析以判斷儲存年份,建立了基于主成分分析-支持向量機(PCA-SVM)的高效陳皮貯存年限預測模型, 其年限預測準確度可達94%以上。上述研究利用太赫茲光譜技術從不同的角度對中藥材的品質進行把控,為后續研究者提供了經驗借鑒。本研究將太赫茲光譜技術與多種化學計量學方法結合,對川貝母、平貝母、伊貝母、浙貝母四種不同品種的貝母進行定性鑒別,試圖探索一種快速無損的貝母品種鑒別方法。
實驗所用的THz-TDS系統由日本Advantest公司研制,系統使用兩個超短脈沖激光器(1.55 μm)分別作為偏置輸出(太赫茲波產生)和信號輸入(太赫茲波探測)的光源。飛秒激光脈沖輸出功率20 mW,中心波長1 550 nm,脈寬50 fs,重復頻率50 MHz。由于太赫茲波對水分比較敏感,為減少實驗誤差,將太赫茲電磁輻射通過的光路封閉在干燥箱內,并通入干燥空氣,在實驗過程中,濕度保持在10%的恒定值,溫度25 ℃。圖1為實驗所用設備的原理圖。

圖1 太赫茲設備原理圖
實驗所用4種貝母均采購于中藥房,首先將四種貝母樣品放入干燥箱中50 ℃,干燥2 h,磨成粉末再過200目篩,密封保存。每種樣品均按照同一比例(62.5%)加入高密度聚乙烯,用渦旋振蕩器震蕩3 min,以確保聚乙烯與樣品粉末充分混勻。壓片時每次稱取(0.1±0.005)g,設置壓力16 MPa,壓片控制時長2 min,使每個樣品片厚度維持在0.8 mm左右,放入密封袋保存。四種樣品各壓制25個待測樣品片,共計100個。每個樣品采集5個點,每個點采集2次。為保證采集環境的穩定性,將樣品放入樣品倉后,等待3 min后開始采集光譜,每類貝母的太赫茲時域光譜各250條,共采集到1 000條光譜。
所有測量均采用圖1所示的THz-TDS系統進行。依據Dorney等[10]和Dragoman等[11]提出的光學參數提取方法提取所需的光譜信息,參數包括透射率、折射率、吸收系數等,此類參數對具有厚度均勻且兩面平行固體樣品,在透射模式下的太赫茲光譜吸收特性進行描述。實驗記錄參考太赫茲時域信號Eref(t)和樣本的太赫茲時域信號Esam(t),利用快速傅里葉變換(fast Fourier transform,FFT)算法可以得到光譜。根據菲涅耳公式,大多數低損耗材料的THz振幅透射率T可以表示為
(1)
式(1)中,Eref(ω)和Esam(ω)分別為入射和透射的THz頻域譜;A和φ分別為基準信號和樣本信號的幅值比和相位差;N=N+ik為樣品的復折射率,k為消光系數;d為試樣厚度;ω是角頻率,c是真空中的光速。由式(2)和式(3)得到折射率n(ω)和吸收系數α(ω)。
(2)
(3)
獲取到的太赫茲光譜除包含其自身的物理化學信息外,還夾雜其他干擾信息,因此在使用化學計量學方法建模前,需要對原始光譜進行預處理,去除噪聲。同時由于樣品光譜數據量較大,還需要進行降維處理。采用K-S算法將光譜數據按3∶1隨機分為建模集和預測集,分別建立二分類和多分類模型。圖2為實驗具體過程圖。

圖2 貝母分類流程圖
預處理:實驗為尋求對貝母樣品光譜最優的預處理方法,主要用到移動平滑、S-G平滑、多元散射校正(multiplicative scatter correction,MSC)、標準正態變量變換(standard normal variable transformations,SNV)和基線偏移校正(Baseline offset)五種預處理方法,進行光譜預處理是為了消除光譜的冗余信息,提高模型穩定性與準確性。
主成分分析(principal component analysis,PCA)是常用在光譜分析中進行數據降維,以減少數據運算量,其基本原理是通過正交變換將相關變量轉換為線性不相關的變量,經過變換之后得到原始光譜的主成分,同時這些主成分基本能夠代替原始光譜的信息[12]。累計方差貢獻率決定主成分的個數,當累計方差貢獻率能夠提供原始變量的絕大部分信息時,即根據方差貢獻率與主成分數關系圖確定所需的主成分數。
偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)是一種基于偏最小二乘(PLS)的多變量分析方法,該方法將主成分分析與相關性分析結合,對光譜數據與分類變量進行線性擬合[13]。
隨機森林(random forest,RF)是基于決策樹的一種機器學習方法,其與自然界中由樹組成森林的概念類似,以決策樹作為基本組成單元,決策樹之間彼此獨立。根據若干個有差異性的樣本子集建立決策樹,再采用投票機制得到最終判斷。由于其具有優秀的預測精度和較小的運算量,隨機森林目前已經得到廣泛的關注[14]。
支持向量機(support vector machine,SVM)是一種基于結構風險最小化準則的模式識別方法,該方法對小樣本、非線性和高維度問題中優勢顯著。本實驗主要采用高斯核函數的SVM分類,此方法需要尋求懲罰因子C和核函數g兩個參數的最佳優化值,兩個參數對分類效果有著重要影響。
反向誤差傳輸神經網絡(back propagation neural network,BPNN)是一種前饋多層神經網絡,由非線性變換神經單元組成,可以實現輸入和輸出間的任意非線性映射,非線性映射逼近能力和泛化能力強大,在建立大樣本的非線性校正模型中被廣泛應用[15]。
圖3為四種貝母在0.6~3.0 THz波段的平均吸收曲線,未對光譜做任何預處理。可以看出四種樣品的光譜曲線趨勢較為相似,均無明顯的吸收峰,在低頻區域四種樣品的平均光譜曲線重疊較為嚴重:在高頻區域川貝母的吸收系數明顯低于其他三類貝母,且平貝母、伊貝母、浙貝母區分不夠明顯,這可能是由于四種貝母某些藥用成分含量不同造成的。

圖3 四種貝母的平均吸收光譜
2.2.1 貝母樣品的二分類鑒別
根據采集到的樣品原始光譜,建立PLS-DA定性分析模型對川貝母與其他三類貝母進行鑒別區分。每兩種樣品光譜數據各250組,共計500組樣品數據,隨機選取120組作為驗證集,380組光譜數據為建模集。表1為二分類PLS-DA判別模型正確率。

表1 PLS-DA模型分類正確率
共建立了6個二分類模型,其中川貝母-平貝母、川貝母-浙貝母、平貝母-伊貝母、伊貝母-浙貝母4個二分類模型正確率均為100%。川貝母-伊貝母二分類模型的整體正確率為93.333%,其中川貝母的正確分類率為91.667%,伊貝母的正確分類率為95%。平貝母-浙貝母二分類模型的整體正確率為98.333%,其中平貝母的正確分類率為96.923%,浙貝母的正確分類率為100%。二分類模型整體分類效果較好。
根據原始光譜數據建立PLS-DA模型進行預測時,其中川貝母-伊貝母鑒別時,5個川貝母被錯誤識別成伊貝母,3個伊貝母被錯誤識別成川貝母。進行平貝母-浙貝母鑒別時,2個平貝母被錯誤識別成浙貝母,其他貝母均無錯分現象,整體效果較好。圖4為各種PLS-DA二分類模型。

圖4 六種PLS-DA二分類模型
2.2.2 貝母樣品的多分類鑒別
當多種貝母摻雜在一起時,采用PLS-DA鑒別,結果精度較差,為尋求最佳解決貝母的多分類問題,在采用多種預處理方法多光譜數據進行預處理之后,利用主成分分析提取數據的主要特征,降低光譜數據的維度。圖5為四種貝母樣品的太赫茲光譜經過SNV預處理之后的主成分數與方差貢獻率關系圖,圖6為前三個主成分評分圖。當主成分大于13時,隨著主成分數的增加,方差貢獻率增幅趨于0,累積方差貢獻率達到95%。

圖5 主成分數與方差貢獻率關系圖

圖6 四種貝母的前3個主成分三維得分圖
由于貝母成分復雜,特征吸收峰不明顯,無法通過直接觀察進行分類,需借助機器學習算法,故在對主成分分析之后的數據分別建立RF,SVM和BPNN多分類模型。表2為各模型鑒別四種貝母產地的具體正確率。

表2 貝母多分類結果對比
其中BPNN類模型的效果最差,盡管結合多種預處理方法,但整體正確率均未超過80%。可能是由于BPNN可以對大量數據進行模型訓練,但其極易陷入模型訓練速度較慢的狀態。RF結合SNV建模時,效果較好,正確率為95.417%,共計11個貝母樣品被錯誤分類。綜合三類模型,SVM結合SNV建模效果最好,整體正確率高達97.490%,預測集剔除一個異常點之后共計239個樣本,被錯誤分類6列,其中川貝母4例,正確率為97.490%,浙貝母1例,正確率為96.552%,平貝母與伊貝母均無出錯。
以川貝母、平貝母、伊貝母、浙貝母四種貝母為例,介紹太赫茲時域光譜技術結合化學計量學方法在中藥材定性鑒別中的應用。對原始光譜預處理之后,采用主成分分析(PCA)提取主要特征,再建立二分類判別模型,其中川貝母-伊貝母二分類模型正確率為93.333%,平貝母-浙貝母二分類模型正確率為98.333%,其他二分類模型正確率均為100%,表明PLS-DA可以實現貝母的兩兩準確分類;最后分別建立隨機森林(RF)、支持向量機(SVM)、反向誤差神經網絡(BPNN)建立多分類模型并進行對比,SVM結合SNV預處理建模效果最好,整體正確率高達97.490%。這表明四種貝母樣品的太赫茲吸收光譜雖均無明顯的吸收峰,但經過光譜預處理結合合理的分類模型,可以實現相似貝母的準確區分。本研究對維護中藥材的安全以及中國傳統醫藥市場秩序具有重要的意義,也為后期利用太赫茲時域光譜技術對中藥材更深層次的研究提供理論借鑒。