孫成玉,焦 龍*,閆春華,王彩玲,王 薇,張晟瑞,王 芹
(1.西安石油大學 化學化工學院,西安 710065;2.西安石油大學 計算機學院,西安 710065;3. 陜西中醫藥大學 藥學院,咸陽 712046;4.陜西理工大學 化學與環境科學學院,漢中 723000)
丹參是目前治療心血管疾病的常用藥物,具有多種顯著的醫學作用[1-3],如抗氧化、抗動脈粥樣硬化、抗腫瘤、預防腦卒中、降低血糖等。不同來源的丹參因生長環境、栽培措施、采收時間、加工方法等各不相同而導致藥材質量差異較大。根據形態主觀判斷或進行活性成分含量對比是鑒定丹參來源的主要傳統方法,但丹參的形態或活性成分含量相似時,這些方法的準確度則會受到影響。此外,通過活性成分的差異鑒別,常需要經過復雜的樣品制備及預處理[4],效率不高。因此,需要構建一種鑒別不同來源丹參樣品的快速有效、準確可靠方法。
高光譜技術具有快速、實時、無損檢測等優點[5-7],可用于地質勘查[7]、工業過程分析[8]、科學考古[9]、醫學診斷[10]、農業及環境監測[11-12]等領域。高光譜技術已被成功應用于梔子、紅參、甘草等中藥材的分析鑒別(如產地鑒別等)[13-15]。人工神經網絡法(ANN)具有強大的輸入輸出非線性映射能力、自我適應能力和學習能力[16]。采用高光譜技術結合ANN[17]建模的定性分析,已被應用于諸如杭白菊、阿膠、纈草等中藥材的產地識別[18]、摻假鑒別[19]及元素檢測[20]等方面。
因此,本工作將反向傳播-人工神經網絡法(BP-ANN)與高光譜技術相結合,提出了不同來源丹參飲片的鑒別方法,并研究了不同光譜預處理方法對模型的影響。
9批不同來源的丹參飲片樣品,均以中藥飲片的形式從西安醫藥市場購買。其中,1#、2#樣本(Shandong A,Shandong B)產自山東省,3#~5#樣本(Hebei A,Hebei B,Hebei C)產自河北省,6#樣本(Henan)產自河南省,7#樣本(Shanxi)產自山西省,8#樣本(Shaanxi)產自陜西省,9#樣品(Anhui)產自安徽省。所有試驗樣品均由陜西中醫藥大學藥學院王薇教授鑒定為丹參(SalviaMiltiorrhizaRadix et Rhizoma)飲片。
使用FieldSpec4型便攜式地物光譜儀進行丹參樣品的高光譜采集。將丹參飲片置于地物光譜儀的樣品夾中并夾緊,保持樣品夾密閉,防止環境光干擾,并利用樣品夾中自帶的光源進行高光譜采集。測試之前,儀器先預熱30 min,然后使用標準白板對其進行校正;每個光譜數據的采集時間為0.2 s,波長范圍為350~2 500 nm,分辨率1 nm,共2 151個輸出波長。為提高光譜的穩定性,以平行采集3次的平均光譜作為樣品的光譜,從每批丹參飲片中選擇120個樣品進行光譜采集,共得到1 080組光譜。
BP-ANN是單向傳播的多層前向網絡,由輸入層、隱含層和輸出層組成,利用該網絡可以實現輸入-輸出的非線性映射。BP-ANN模型的學習過程由正向傳播和反向傳播組成,正向傳播計算如公式(1)、(2)所示:

(1)

(2)
式中:i、j、k分別表示輸入層、隱含層、輸出層的神經元個數;yh表示隱含層的輸出;f1表示輸入層到隱含層的Sigmoid傳遞函數;wij表示輸入層與隱含層間的權值;li表示輸入層的數值,即為丹參高光譜;Cj表示輸出層的輸出值,即為不同來源丹參飲片;f2表示隱含層到輸出層的線性傳遞函數;wjk表示隱含層與輸出層的權值。
反向傳播公式為
Ep=(tpj-ypj)2
(3)
式中:Ep表示輸出值的誤差;tpj表示期望輸出值,ypj表示實際輸出值。li通過f1的非線性變換處理,再經過線性變換傳入輸出層,如果輸出層沒有達到期望值,則把Ep反向傳播回去,以此對各層神經元之間的權值進行迭代調整,直至Ep減小到設定的范圍內,然后即可按照新的權值來完成神經網絡的測定。
BP-ANN建模采用Matlab(2019b)中的Neural Network Pattern Recognition工具箱。全部計算在配置為Intel(R) Core(TM) i7-6500U CPU的計算機中進行。
表1所示為說明分類模型準確度的混淆矩陣,其中TP表示真實正例樣本被正確分類為正例樣本的數目,TN表示真實負例樣本被正確分類為負例樣本的數目,FP表示真實負例樣本被錯誤分類為正例樣本的數目,FN表示真實正例樣本被錯誤分類為負例樣本的數目。

表1 混淆矩陣
準確率(記為A1)、真正率(S1)、命中率(P1)和特異度(S2)可分別表示為公式(4)~(7)。

(4)

(5)

(6)

(7)
圖1展示了代表性丹參飲片樣品的高光譜。通過對比圖1可以看出,不同來源丹參飲片的譜線強度存在著差異,這可能是由于不同來源丹參藥材的種植環境因素(如氣候、土壤、水和光照等)以及人為因素(如栽培技術、采收方法及時間、加工及炮制技術等)的影響,導致不同來源的丹參飲片樣品中各種元素含量存在一些差異,同時丹參中各種元素含量的差異也導致了丹參藥材的質量存在差異。通過以上分析可以看出,不同來源丹參飲片的高光譜確實存在差異,但是僅憑人眼很難區分這些樣品;同時,面對大量光譜數據集時,僅靠人力對于譜線進行區分工作量繁重。因此,有必要采用高光譜結合化學計量學方法對不同來源丹參飲片進行鑒別。

圖1 代表性丹參樣品的高光譜
對于高光譜數據,除了丹參樣品的特征信息外,還可能有光譜采集過程中產生的背景噪聲輻射以及信號轉換程中產生的附加噪聲[21]。通常需要使用光譜預處理方法來消除冗余信息,提高ANN模型的訓練效果。因此,分別采用最大最小歸一化(MMN)、均值中心化(MC)、標準正態變量變換(SNV)、Savitzky-Golay平滑濾波(SG)以及多元散射校正(MSC)等5種方法對高光譜進行預處理。5種預處理方法結合ANN建立分類模型,通過對比1.5節中的各項評價指標,選擇最佳預處理方法。
以丹參的9種不同來源為分類標簽,高光譜數據為輸入數據,建立BP-ANN模型。采用隨機劃分的方法,將高光譜數據集按70%…15%…15%的比例劃分為訓練集、驗證集和測試集。用測試集驗證BP-ANN模型的分類準確率。
基于丹參高光譜的特點,BP-ANN模型的輸入層為光譜數據,隱含層為神經網絡模型的神經元,輸出層為丹參分類標簽。使用Matlab中自帶的Scaled conjugate gradient backpropagation(Trainscg)算法對BP-ANN模型進行學習訓練。Trainscg算法根據縮放共軛梯度法更新權重和偏差值,同時占用更少的內存,適用于高光譜數據等一維數據,Trainscg算法中迭代次數(epoch)閾值為1 000,交叉熵損失值(performance)范圍為0~0.410,梯度(gradient)范圍為1.00×10-6~2.50,驗證檢查(validation check)的范圍為0~6。BP-ANN模型的訓練流程如圖2所示。

圖2 BP-ANN訓練流程圖
以10~20作為隱含層節點數變量選擇范圍,以原始光譜BP-ANN模型為例,探究不同隱含層節點數對BP-ANN模型分類準確率的影響,驗證集分類準確率如表2所示。

表2 隱含層節點數對ANN模型的影響
由表2可知,當隱含層節點數設置為17時,BP-ANN模型的性能達到最優,驗證集分類準確率為95.06%,且具有較少的迭代次數,即訓練時間較短,因此后續試驗選擇17作為BP-ANN模型的隱含層節點數。
結合2.2節中的5種不同預處理方法,建立BP-ANN模型,探究不同預處理方法對BP-ANN模型分類準確率的影響,隱含層節點數設置為17,測試集分類準確率如表3所示。此外,每種樣品的真正率、命中率和特異度也在表3中列出。

表3 不同預處理模型獲得的丹參樣品的判別結果
從表3中可以看出,原譜BP-ANN模型測試集分類準確率為94.44%,基于5種預處理方法所構建的ANN模型與原譜相比,測試集分類準確率均有不同程度的提升,MC-ANN模型取得最佳的判別效果,測試集分類準確率為98.77%。此外,與其他5種判別模型相比,MC-ANN模型對每種丹參樣品都取得了良好的判別結果,其中,1#~7#(Shandong A,Shandong B,Hebei A,Hebei B,Hebei C,Henan,Shanxi)等7種丹參樣品的判別結果最好,真正率、命中率和特異度均達到100.00%;其余兩種丹參樣品8#、9#(Shaanxi,Anhui)的真正率、命中率和特異度也不小于90.00%。
本工作采用高光譜儀對9種不同來源的丹參飲片樣品進行高光譜采集;分別使用MMN、MC、SNV、SG和MSC 5種光譜預處理方法,結合ANN建立了不同丹參飲片來源判別模型。MC-ANN模型判別效果顯著,測試集分類準確率為98.77%。由此可見,高光譜技術結合ANN應用于不同產地丹參飲片的判別具有良好的可行性,更加簡便、可靠,為中藥材定性分類研究提供了一種新的方法。