劉燕德,肖懷春,韓如冰,孫旭東,朱丹寧,曾體偉,李澤敏
(華東交通大學機電工程學院,江西 南昌 330013)
柑桔葉片可溶性糖近紅外檢測非線性模型研究
劉燕德,肖懷春,韓如冰,孫旭東,朱丹寧,曾體偉,李澤敏
(華東交通大學機電工程學院,江西 南昌 330013)
為了監督柑桔葉片是否缺乏營養元素,對葉片可溶性糖進行分析。采用近紅外光譜技術結合誤差反饋神經網絡(BPNN)和最小二乘支持向量機(LS-SVM)建立定量剖析非線性模型,運用主成分分析(PCA)進行數據壓縮、無信息變量消除算法(UVE)和連續投影算法(SPA)進行有效波段篩選的方法來優化模型的輸入變量,提高了模型檢測精度。同時,利用Savitzke-Golay平滑(S-G)、多元散色校正(MSC)、導數和基線校正(Baseline)等預處理方法進行數據變換,來確定最佳建模方法。結果表明:波長篩選能優化模型,并提高運算速度,其中PCA優化效果最為明顯,可溶性糖的相關系數Rp達到最大為0.91,均方根誤差RMSEP最小為4.82,顯著提高了模型的檢測精度和穩健性,經過優化的輸入變量所建模型,能夠滿足定量檢測的要求,具有一定的可行性。
可溶性糖;近紅外光譜技術;波段篩選;優化;預處理方法
柑桔果樹缺素會嚴重影響柑桔的質量和產量,從而影響柑桔業的生產[1]。柑桔缺素與否可通過葉片中可溶糖的含量來判定,傳統檢測柑桔缺素的方法大部分是線性的,且模型的復雜程度大[2]。目前柑桔葉片可溶性糖含量近紅外無損檢測精度不理想,可能是由于光譜數據眾多,呈現出過擬合現象,因輸入變量中含不相關的、冗余和噪聲信息,有效信息可能被隱藏其中,且大數據會導致模型復雜。因此選擇適當的輸入變量對柑桔葉片可溶性糖預測模型的精度至關重要,也能降低復雜程度[3-8]。
近年來,很多研究人員對輸入變量進行優化研究,以期提高模型的預測精度。溫珍才等[9]對壓榨和浸出山茶油樣本采集可見、近紅外光譜,用UVE結合偏最小二乘線性判別分析建立模型,對2類山茶油鑒定判別正確率達到100%。Sankaran等[10]對柑桔黃龍病的葉片近紅外光譜特征提取,使用選定光譜特征的SIMCA算法得到的柑桔黃龍病分類精度高于83%。可見,選擇一種合適輸入變量的可溶性糖近紅外檢測非線性模型具有重要的現實意義,能豐富柑桔果樹營養狀況,提高柑桔產量,促進柑桔產業發展。
本研究主要探討在近紅外光譜技術的基礎上,結合誤差反饋神經網絡和最小二乘支持向量機的模式識別算法,建立柑桔葉片可溶性糖的非線性定量分析模型,并對輸入變量進行優化,選用主成分分析進行數據壓縮、連續投影算法(SPA)和無信息變量消除算法(UVE)篩選波長變量,對結果進行對比分析,獲得最佳效果模型,以期找到柑桔葉片可溶性糖非線性模型輸入變量優化的最佳方法。
1.1 試驗材料
2015年7月4日在江西省某果園種植基地采集新鮮柑桔葉片作為樣品。隨機采集樹枝的末梢、枝尖的葉片,正常和缺素兩類果樹由園藝專家根據經驗判定。其中正常果樹4棵、每棵20片,缺素果樹9棵、每棵9片,共161片葉。在光譜采集前進行相應的處理,在整個過程中盡量保持樣品新鮮。
柑桔葉片的近紅外光譜采集用的設備是布魯克傅里葉變換的TENSOR37型近紅外光譜儀,波數范圍在12 000~4 000 cm-1,在樣品光譜采集的過程中光譜儀分辨率設置為8 cm-1,配有鍍金積分球、標準背景和InGaAs檢測器等附件。
1.2 試驗方法
1.2.1 近紅外光譜采集 實驗室環境保持溫度16~22℃、空氣濕度40%~50%。在光譜采集期間,應讓葉片平整置于載物臺上,以減少外部對光譜的影響,致使采集到的光譜不穩固。每次采集要避開葉脈位置,每片葉片隨機采集4條光譜,取平均吸光度的光譜,作為后續建模的原始光譜進行下一步分析,一段時間后要采集鍍金反射鏡參比光譜來進行校正。
1.2.2 真值的測量 取0.5~1.0 g新鮮葉片搗碎,與15 mL蒸餾水一同放入試管中,封口置于沸水中20 min,冷卻、過濾并定容作為待測液,取待測液1 mL、蒽酮試劑0.5 mL、濃硫酸5 mL混合入試管中一并加熱10 min,冷卻到室溫后,于620 nm波長下測定光吸收值作為可溶性糖的真值。
1.2.3 模型建立方法 采用最小二乘支持向量機(LS-SVM)和誤差反饋神經網絡[11-12](BPNN)建立柑桔葉片定量分析模型。輸入變量數直接影響LS-SVM和BPNN數學模型的性能,輸入變量越多,模型越復雜,穩健性越差。由于全譜數據量大,研究中進一步采用數據壓縮和特征變量篩選兩種不同策略進行輸入向量優化,以此作為LS-SVM和BPNN的輸入。
2.1 正常葉片和缺素葉片近紅外光譜特征分析
在12 000~4 000 cm-1范圍內采集臍橙葉片的近紅外光譜(圖1),由圖1可知,位于5 150、6 880 cm-1兩處光譜有明顯的吸收峰[13],前者是由官能團C-H、O-H的伸縮與變形振動組合頻產生的,后者是O-H伸縮振動的一級倍頻引起的;缺素葉片在5 150 cm-1處的吸收峰偏低可能是由于其營養元素缺失導致[14]。12 000~9 000 cm-1波段范圍內光譜接近于直線,是因為該范圍內葉片吸光度主要是官能團的3~4級倍頻,對光譜影響有限,因此除去該波段范圍。

圖1 正常葉片和缺素葉片的近紅外代表性光譜
2.2 葉片近紅外光譜預處理
在采集過程中光譜往往會受到各種外界環境的干擾,影響模型性能,因此在建立模型前對采集到的數據進行預處理,可以降低影響效果、減少各種負面干擾、提高模型的穩定性。本研究對數據采用Savitzke-Golay平滑(S-G)、多元散色校正(MSC)、基線校正(Baseline)、1階導、2階導等多種預處理方法,通過對比得出2階導數+3+平滑+3+MSC組合的預處理方法效果最好。MSC具有消除基線漂移和放大特征信息,但放大特征信息的同時也放大了高頻噪音,因此采用2階導消除高頻噪音,平滑能剔除噪聲干擾。圖2為處理后的正常葉片和缺素葉片的近紅外代表性光譜圖,可以看出兩類葉片在5 273 cm-1處的吸光度明顯不同,這可能是由于營養元素缺失導致。

圖2 正常葉片和缺素葉片預處理后的近紅外代表性光譜
在9 000~4 000 cm-1范圍內,采用不同預處理方法及組合后數據分別建立可溶性糖定量分析模型,結果(表1)表明,對可溶性糖指標用不同的預處理方法,2階+3+平滑+3+MSC組合的定量分析模型結果最好,相關系數RP最高為0.91,且均方根誤差RMSEP最低為4.93。

表1 可溶性糖預處理分析結果
2.3 葉片近紅外光譜有效波段篩選
2.3.1 連續投影算法(SPA)分析 連續投影算法(SPA)作為一種新式的、應用最廣泛的特征波長篩選算法,可用于多種樣品波長的選取,能有效降低模型的復雜度[15-16]。連續投影算法在光譜變量中尋求最低維數的向量組,使它們之間的共線性達到最小,從而起到提取特征波長的目的[17]。利用Matlab2010a軟件運行SPA算法對柑桔葉片近紅外光譜波段進行篩選,得到可溶性糖44個特征波長點為:4011、4027、4061、4100、4328、4343、4366、4389、4412、4443、4459、5138、5172、5195、5226、5265、5280、5303、5323、5342、5863、6954、7093、7105、7236、8208、8420、8536、8574、8624、8651、8663、8698、8721、8736、8782、8794、8833、8844、8883、8898、8917、8971、8987 nm。采用以上波長作為特征變量輸入結合對應的真值建立模型進行進一步分析,用SPA篩選的波長點如圖3所示。

圖3 通過SPA選擇可溶糖的特征波長
2.3.2 無信息變量消除算法(UVE) 無信息變量消除算法(UVE)是在偏最小二乘(PLS)回歸模型的基礎上,用來逐一剔除無光的信息變量,光譜λ與真值Y之間的線性關系為:

式中,βi是系數向量,b是誤差向量,即把同維數的隨機變量與光譜變量混合,通過交叉驗證建立偏最小二乘回歸模型,得到對應矩陣,結合系數向量βi進行分析,得到βi的平均值和標準偏差相除的商Ci來評價其穩定性,即:

式中,βi表示系數向量βi的平均值,S(βi)表示對應矩陣的標準偏差,根據Ci確定是否把對應的列向量用于PLS回歸模型中[18-19]。
對柑桔葉片的建模集樣本近紅外特征波段進行UVE變量篩選,結果見圖4,圖4中以垂直實線為界限,左邊為波長變量,右邊為噪聲變量;兩條水平虛線為穩定性的上下閾值,處于兩條虛線之間為無關信息變量,要剔除,而位于兩虛線外側的部分為有用信息變量,因此選擇此波段,得到可溶性糖指標有效信息的波長點數為392個。

圖4 通過UVE選擇可溶糖的特征波長
利用SPA與UVE篩選波長點的兩種方法中,SPA方法更優于UVE,得到的各個波長對應的吸收峰與官能團C-H、O-H、C=O等的關系以及倍頻、合頻、伸縮振動的方式,說明經過波長篩選后把無用信息變量都給予剔除,保留了主要或有用的吸收譜,可能是后一種方法中選擇的波長點包含的有用信息較小,從而造成數量多。為了進一步驗證方法效果,后續建立模型進行分析比較。
2.4 定量模型建立與驗證
樣品可溶性糖真值采集過程中有6片操作失誤,研究中予以剔除,其中包括正常葉片3片、缺素葉片3片。可溶性糖模型將155個樣品大概按3∶1的比例隨機劃分建模集和預測集,其中建模集樣品116片、預測集樣品39片。
首先在9 000~4 000 cm-1范圍內分別結合LS-SVM和BPNN建立全光譜定量模型,從模型的效果上看并不理想,復雜程度較高。為了降低模型的復雜程度,提高精度的同時增強穩健性,在前面預處理的基礎上,利用壓縮和篩選兩種方法選擇輸入變量,數據壓縮選擇主成分分析法對全光譜變量壓縮為20個主成分,特征變量篩選利用前面提及的兩種篩選方法,然后分別建立定量分析模型。
同時輸入變量數量變化會對BPNN模型產生影響,為了進行循環考察,按照以下公式對隱含層的節點數進行估算:

式中,I為輸入層節點數,從1開始循環;H為隱含層節點數;O為輸出層節點數,這里取1。
4種方法中輸入數量最小的是PCA,為了使模型更精確,輸入取最低值17,從而估計得到的隱含層節點數為7,對樣品從1~7進行訓練,結果如表2所示。從表2可以得出,采用BPNN建立的定量模型中,其輸入變量進行了優化,模型效果最好的是UVE篩選方法。雖然輸入數量不是最低的,但相關系數Rp最大為0.88,預測集均方根誤差RMSEP最小為6.09,對應的隱含層節點數為7;在選擇RBF_kernel作為核函數、σ2和γ為參數的LS-SVM建立定量模型中,輸入變量選擇與前一種模型相同方法進行優化,模型效果最好的輸入變量選擇方法是PCA數據降維,雖然參數γ較大(57.88),但是模型運行時間t短僅為1.81 s,另一參數σ2最小為4.64,篩選的輸入變量數也達到最小為前17個主成分,且相關系數Rp達到最高為0.91,預測集均方根誤差最低為4.82,此時選擇的最佳主成分因子數為5。

表2 可溶性糖定量模型驗證結果
柑桔葉片可溶性糖指標經PCA壓縮獲得矩陣作為輸入變量建立LS-SVM模型的預測集均方根誤差圖見圖5,可以看出在PC為5時RMSEP達到最小。
柑桔葉片可溶性糖指標利用PCA方法選擇輸入變量建立的LS-SVM模型預測散點圖見圖6。從圖6可以看出,該指標的實測值與預測值點呈45°分布,且二者之間無較大差異。

圖5 經PCA壓縮后可溶性糖LS-SVM模型的均方根誤差

圖6 經PCA壓縮后可溶性糖LS-SVM預測模型的散點分布
對上述兩種柑桔葉片可溶性糖近紅外檢測非線性定量模型的輸入變量進行優化后,輸入變量數有明顯的減少趨勢。其中,采用主成分分析方法對LS-SVM定量模型的輸入變量進行優化后效果更佳,這是因為輸入變量數更小,同時有效保留了主要的特征信息,使得模型復雜程度大大降低。
采用近紅外光譜技術對柑桔葉片可溶性糖這一理化指標進行定量檢測,對柑桔葉片近紅外光譜選擇不同的預處理方法進行處理,模型的預測精度不一。結果發現模型效果最佳的預處理方法組合是2階+3+平滑+3+MSC。采用不同輸入特征變量篩選方法建立模型,進一步提高了模型的預測精度和穩健性,證實了輸入變量優化對模型分析的重要性。本研究優勢在于建立了葉片非線性模型對柑桔果樹是否缺素進行預測。
本研究結果表明,合適的預處理方法能較好地消除基線漂移和噪音,在此基礎上通過UVE、SPA和PCA等3種輸入變量選擇方法,都能在不同程度上減少建模所用的向量數,有利于模型優化。其中,PCA數據壓縮的LS-SVM的模型效果更為理想,輸入顯著減少,既保留了柑桔葉片可溶性糖指標的有用信息,又有效降低了輸入向量的維數,Rp和RMSEP也呈現出較佳的預測精度,實現了輸入向量的優化目標,表明該方法可能適合本指標的定量檢測,同時為準確、實時監測柑桔葉片可溶性糖指標含量變化以及科學優化近紅外檢測非線性模型提供了一定的參考依據。
[1]南旭軍,趙保衛,馬鋒鋒,等. 施加生物炭對植物營養元素的遷移轉化和植物有效性的影響研究[J]. 環境科學與管理,2015,40(11):153-156.
[2]梅慧蘭,鄧小玲,洪添勝. 柑橘黃龍病高光譜早期鑒別及病情分級[J]. 農業工程學報,2014,30(9):140-148.
[3]Sankaran S,Maja J M,Buchanon S,et al. Huanglongbing(Citrus Greening) detection using Visible,Near Infrared and Thermal Imaging Techniques[J]. Sensors,2013,13:2117-2130.
[4]Pourreza A,Lee W S,Etxeberria E,et al. An evaluation of a vision-based sensor performance in Huanglongbing disease identification[J]. Biosystems Engineering,2015,130:13-22.
[5]Sankaran S,Ehsani R. Comparison of visiblenear infrared and mid-infrared spectroscopy for classification of Huanglongbing and Citrus Canker infected leaves[J]. Agric Eng Int:CIGR Journal,2013,15(3):75-80.
[6]Li X,Lee W S,Li M. Spectral difference analysis and airborne imaging classification for citrus greening infected trees[J]. Computers and Electronics in Agriculture,2012,83:32-46.
[7]馬淏,吉海彥,Lee W S. 基于Vis-NIR光譜的柑橘葉片黃龍病檢測及其光譜特性研究[J]. 光譜學與光譜分析,2014,34(10):2713-2718.
[8]李修華,李民贊,Lee W S,等. 柑桔黃龍病的可見-近紅外光譜特征[J]. 光譜學與光譜分析,2014,34(6):1553-1559.
[9]溫珍才,孫通,耿響,等. 可見/近紅外聯合UVE-PLS-LDA鑒別壓榨和浸出山茶油[J].光譜學與光譜分析,2013,33(9):2354-2358.
[10]Sankaran S,Ehsani R. Visible-near infrared spectroscopy based Citrus greening detection:Evaluation of spectral feature extraction techniques[J]. Crop Protection,2011,30(11):1508-1513.
[11]高洪智,盧啟鵬,丁海泉,等. 基于連續投影算法的土壤總氮近紅外特征波長的選取[J]. 光譜學與光譜分析,2009,29(11):2951-2955.
[12]張利華,馬鈞釗,勒國慶,等. 基于BP神經網絡的倉儲煙草霉變預測[J]. 華東交通大學學報,2013,30(6):71-76.
[13]黃亞偉,王加華,李曉云,等. 基于近紅外光譜的人參與西洋參的快速鑒別研究[J]. 光譜學與光譜分析,2010,30(11):2954-2957.
[14]Huang G Q,Han L J,Yang Z L,et al. Evaluation of the nutrient metal content in Chinese animal manure compost using Near Infrared Spectroscopy(NIRS)[J]. Bioresource Technology,2008,99(17):8164-8169.
[15]岳學軍,全東平,洪添勝,等. 柑橘葉片葉綠素含量高光譜無損檢測模[J]. 農業工程學報,2015,31(1):294-303.
[16]鄧小玲,鄭建寶,梅慧蘭,等. 基于高光譜成像技術的柑橘黃龍病病情診斷及分類[J]. 西北農林科技大學學報(自然科學版),2013,7(41):99-106.
[17]張筱蕾,劉飛,聶鵬. 高光譜成像技術的油菜葉片氮含量及分布快速檢測[J]. 光譜學與光譜分析,2014,34(9):2513-2518.
[18]吳迪,吳洪喜,蔡景波. 基于無信息變量消除法和連續投影算法的可見-近紅外光譜技術白蝦種分類方法研究[J]. 紅外與毫米波學報,2009,28(6):23-427.
[19]陳斌,陳蛋. 無信息變量消除法在近紅外光譜測定的應用[J]. 光譜儀器與分析,2005,24(4):26-30.
(責任編輯 張輝玲)
Study on NIR detection non-linear model of soluble sugar in citrus leaves
LIU Yan-de,XIAO Huai-chun,HAN Ru-bing,SUN Xu-dong,ZHU Dan-ning,ZENG Ti-wei,LI Ze-min
(School of Mechatronics Engineering,Eash China Jiaotong University,Nanchang 330013,China)
In order to supervise the nutrional elements of citrus leaves,the soluble sugars in the leaves of citrus were analyzed. Combined with back propagation neural network (BPNN) and least squares support vector machine(LS-SVM),quantitative analysis of the nonlinear model using near infrared spectroscopy was developed,at the same time,data were compressed using principal component analysis (PCA),the effective wavelength bands were screened by Uninformative variable elimination (UVE) algorithm and Successive projections algorithm (SPA). These methods were adopted to optimize the input variables of the model,which improved the detection accuracy. And spectra processing methods included Savitzke-Golay smoothing (S-G),multiple scatter correction (MSC),derivative and baseline correction (Baseline) and the combinations of these methods for data transformation,the best method for establishing models was determined. The MSC was adopted to eliminate baseline drift and amplify characteristic information,meanwhile amplify high frequency noise,which can be eliminated by 2th derivative. And smoothing was adopted to eliminate the interference noise and to make the spectrum smoother. It was concluded that the processing method was the best. The results showed that wavelength selection played an important role in optimization model,and improved the speed of computation. The effect of model optimization by the model PCAwas most obvious and the maximum of correlation coefficient (Rp) of soluble sugar reached 0.91,the minimum of the root mean square error of prediction (RMSEP) reached 4.82. The results showed that the model accuracy and robustness were significantly improved,the prediction model could meet the requirement of quantitative detection after optimizing the input variables. Therefore,the prediction model has certain feasibility.
soluble sugar;Near Infrared Spectroscopy (NIRS);band selection;optimization;pretreatment method
S682.2+64
A
1004-874X(2016)11-0043-07
2016-08-18
國家“863”計劃項目(SS2012AA101306);江西省科技支撐計劃項目(20121BBF60054);南方山地果園智能化管理技術與裝備2011協同創新中心(贛教高字[2014]60號);江西省優勢科技創新團隊(20153BCB24002)
劉燕德(1967-),女,博士,教授,E-mail:jxliuyd@163.com
劉燕德,肖懷春,韓如冰,等.柑桔葉片可溶性糖近紅外檢測非線性模型研究[J].廣東農業科學,2016,43(11):43-49.