李四海,任 真
(甘肅中醫藥大學 信息工程學院, 蘭州 730000)
當歸為傘形科植物當歸的干燥根,是中藥材。主產于甘肅、四川、云南等地。其中,甘肅為主要產區。阿魏酸是當歸的主要活性成分之一,具有抗氧化和清除自由基、抗菌、抗病毒、降血脂等功效。目前,當歸中的阿魏酸含量一般通過HPLC法測定[1-2],但操作程序較為復雜,分析時間長。
近紅外光譜技術是一種新型的分析檢測技術。其主要特點是快速、簡單、無破壞性。已廣泛用于食品、藥品、農產品檢測,石油化工、中藥光譜定性及定量分析等領域。在中藥近紅外光譜定量分析方面,利用近紅外光譜儀快速掃描得到中藥材的近紅外光譜,運用高效液相色譜法測定中藥材中主要成分的含量,然后建立近紅外光譜和主要成分含量之間的定量分析模型,利用該模型就能夠對未知中藥材樣本中的主要成分含量進行快速檢測。近紅外光譜定量分析技術主要包括光譜預處理及定量分析模型的建立。在定量模型的建立方面,偏最小二乘回歸能夠有效解決光譜的多重共線性問題,被廣泛用于近紅外光譜的定量分析之中,其他常用的方法包括主成分回歸、人工神經網絡、支持向量機等[3]。
本文首先對當歸近紅外光譜進行導數運算和正交信號校正預處理,然后利用離散小波變換對預處理后的光譜信號進一步進行壓縮,研究分析了小波變換中的最優小波基及分解尺度;利用小波系數特征并結合偏最小二乘回歸方法建立了當歸中阿魏酸含量的定量分析模型,為當歸中阿魏酸含量的快速、無損檢測提供一種新的方法。
小波變換是在傅里葉分析的基礎上發展起來的。傅里葉變換將信號分解至正弦和余弦正交基空間,小波變換則將信號分解至具有不同尺度和頻率的小波空間,二者的不同之處在于采用的基函數不同。小波分析的基本思想是將任意信號表示為小波函數的線性組合,離散小波變換的基本原理如下[4]:
設信號f(t)在Vj空間中的離散采樣序列為f(k),k=0,1,2,…,n-1,則Mallat小波分解算法為:
其中cj,k和dj,k分別為信號的低頻和高頻部分,h(n)和g(n)分別為低通濾波器H和高通濾波器G的系數,且gn=(-1)nh1-n。
小波變換作為一種有效的時頻分析技術已被廣泛用于近紅外光譜的去噪、數據壓縮及特征提取中。選擇合適的母小波及分解層數,原始光譜信號可以用不同尺度上的小波系數來表征,這些小波系數可以有效區分低頻基線漂移、中頻有效信號及高頻噪聲信號[5-6]。
偏最小二乘回歸(PLSR)是一種多元統計分析方法,是主成分分析和典型相關分析的結合。由于PLSR能有效解決高維變量之間的多重共線性問題,因此在光譜變量選擇、光譜定量分析模型的建立方面得到廣泛應用[7-9]。

Qcum2=1.0-∏(PRESSa/SSa-1),a=1,2,…,k

77個當歸樣本分別采自甘肅岷縣及渭源縣。利用Nicolet-6700型近紅外光譜儀掃描得到77個樣本的近紅外光譜,測樣方式為積分球漫反射,分辨率為4cm-1,掃描范圍:4000 cm1-10000cm-1,掃描次數64次[10]。77個當歸樣本的近紅外光譜如圖2(a)所示。
當歸中阿魏酸含量通過高效液相色譜法(HPLC)測定,表1給出了訓練集及測試集樣本中阿魏酸含量的分布情況。

表1 訓練集和測試集中阿魏酸含量分布
由于掃描得到的近紅外光譜信號包含電噪聲、樣品背景及雜散光等較多的干擾信息,因此首先進行光譜信號的預處理,然后再建立光譜定量模型。目前常用的光譜預處理方法有:光譜平滑、導數光譜、多元散射校正(MSC)、正交信號校正(OSC)。其中,正交信號校正能夠濾除與成分含量正交的光譜信息,保留有用信息。導數光譜則能有效消除基線和其他背景的干擾,分辨重疊峰,提高分辨率和靈敏度。



圖1 光譜預處理方法對比
由于二階導數結合正交信號校正預處理后,近紅外光譜的維數并沒有減少,并且從圖2(b)-(c)可以直觀地看出,預處理后的光譜仍然包含有一些殘存的高頻噪聲信號。

圖2 (a)原始光譜 (b)二階導數光譜 (c)二階導數+正交信號校正(d) 二階導數+正交信號校正+cd4
為進一步對光譜進行壓縮并提取有效的光譜特征信息,將預處理后的光譜進行離散小波變換。常用的小波基有Daubechies、Haar、Symlets、Coiflets等,以上小波基均具有正交性、緊支撐性及近似對稱性。本文通過實驗,最終選用db4小波,分解層數為9。分別使用不同尺度上的小波系數建立阿魏酸含量的偏最小二乘定量分析模型,表2對比了不同尺度上的高頻系數所建立的模型性能,其中RMSEE和RMSEP分別為訓練集和測試集上的均方根誤差。

表2 不同尺度上小波系數的模型性能對比
以第4層的小波系數cd4作為當歸近紅外光譜特征,在57個訓練樣本上建立當歸阿魏酸含量的偏最小二乘定量模型。圖3給出了模型對訓練樣本的擬合效果。可以看出,模型在訓練集上的均方根誤差(RMSEE)為0.022,交叉驗證均方根誤差(RMSECV)為0.050,決定系數為0.9909,表明模型對訓練樣本的擬合效果良好。
使用建立的偏最小二乘模型對20個測試樣本中的阿魏酸含量進行預測,表4給出了模型對測試樣本的預測結果。從圖4可以看出,模型在測試集樣本上的決定系數為0.9877,接近于1,預測均方根誤差RMSEP為0.042,表明所建立的定量分析模型預測精度高,穩健性好,能夠實現當歸中阿魏酸含量的快速、準確檢測。

圖3 模型對訓練集的擬合效果 圖4 模型在測試集上的預測效果
近紅外光譜含有的低頻背景信號和高頻噪聲信號會對模型性能產生影響,利用正交信號校正及離散小波變換能夠有效剔除無關信號的干擾并實現光譜壓縮[12],為進一步去除光譜中的無關信號,提出了一種鏈式濾波預處理方法,首先對原始光譜進行二級導數運算,然后再進行正交信號校正及離散小波變換,研究分析了最優小波基及分解層數。根據本文提出的光譜預處理方法建立了當歸近紅外光譜和阿魏酸含量之間的偏最小二乘分析模型,結果表明,所建立的模型預測精度高、穩健性較好,能夠實現當歸中阿魏酸含量的快速、無損檢測。
參考文獻:
[1] 陳超超, 王艷, 梁超. 高效液相色譜法測定當歸中阿魏酸的含量[J]. 成都大學學報(自然科學版), 2008, 27(4):284-286.
[2] 申安. 高效液相色譜法測定不同產地當歸中阿魏酸的含量[J]. 中醫學報, 2015, 30(3):421-422.
[3] 褚小立, 陸婉珍. 近五年我國近紅外光譜分析技術研究與應用進展[J]. 光譜學與光譜分析, 2014, 34(10):2595-2605.
[4] 李四海, 魏邦龍, 李愛英. 基于小波神經網絡的空氣污染指數預報[J]. 長春大學學報, 2013, 23(2):146-148.
[5] Rossel R A V, Lark R M. Improved analysis and modelling of soil diffuse reflectance spectra using wavelets[J]. European Journal of Soil Science, 2009, 60(3):453-464.
[6] 田高友, 褚小立, 袁洪福. 小波變換-偏最小二乘法用于柴油近紅外光譜分析[J]. 計算機與應用化學, 2006, 23(10):000971-974.
[7] 張森,石為人,石欣,等.基于偏最小二乘回歸和SVM的水質預測[J].計算機工程與應用,2015,51(15):249-254.
[8] Geladi P, Kowalski B R. Partial least-squares regression: a tutorial[J]. Analytica Chimica Acta, 1986, 185(86):1-17.
[9] Mehmood T, Liland K H, Snipen L, et al. A review of variable selection methods in Partial Least Squares Regression[J]. Chemometrics & Intelligent Laboratory Systems, 2012, 118(16):62-69.
[10] 李四海, 陳建國, 任國瑾. 近紅外光譜技術快速測定當歸中藁本內酯含量[J]. 傳感器與微系統, 2017,36(12):114-117.
[11] 田高友, 袁洪福, 劉慧穎,等. 小波變換用于近紅外光譜性質分析[J]. 分析化學, 2004, 32(9):1125-1130.
[12] Tavassoli N, Tsai W, Bicho P, et al. Multivariate classification of pulp NIR spectra for end-product properties using discrete wavelet transform with orthogonal signal correction[J]. Analytical Methods, 2014, 6(22):8906-8914.