汪紫陽,尹世逵,李 穎,李耀翔
(東北林業(yè)大學(xué) 工程技術(shù)學(xué)院,黑龍江 哈爾濱 150040)
隨著中國天然林全面禁伐,木材資源供給愈發(fā)緊張[1],這對木材高效識別與利用提出了更高的要求。木材識別能夠維護消費者的利益,同時在合理利用木材方面發(fā)揮著一定的作用。近幾年國內(nèi)外木材無損檢測技術(shù)主要有應(yīng)力波、阻抗儀、超聲波檢測和X射線檢測等方法。但是這些檢測手段主要用于檢測木材的材性和缺陷[2-7],在樹種識別方面應(yīng)用的較少。BARMPOUTIS等[8]利用木材橫斷面圖像結(jié)合多維紋理分析技術(shù)和支持向量機(SVM)進行分類,識別率達91.47%。但此方法需要獲取樹木木材樣本的橫斷面圖像,不能完全達到無損檢測的目的。ROJAS等[9]使用可聽范圍的應(yīng)力波對樹種進行了識別,這是一種無損識別方法,但儀器的布線、樣本點間的測距等前期準備工作需要一定時間,不能對大批量樣本的樹種檢測。可見/近紅外光譜技術(shù)是一項無損檢測技術(shù),采譜時無需對樣品進行預(yù)處理,可以達到無損檢測的目的,并且單次采譜時間非常短,可以實現(xiàn)野外實時檢測[10]。近幾年國內(nèi)近紅外光譜技術(shù)在石油和農(nóng)業(yè)上使用較多,對木材進行識別的研究還較少[11-12]。且木材樣本都是解析木,導(dǎo)致后期識別的未知樣本也需要相同規(guī)格的解析木。中國東北地區(qū)既有大、小興安嶺和長白山等茂密的天然林,又有東北各省各地區(qū)林場等密集的次生林[13]。本研究使用可見/近紅外光譜識別技術(shù),結(jié)合生長錐取樣的方法,通過S-G平滑濾波、導(dǎo)數(shù)、Norris導(dǎo)數(shù)濾波等方法對光譜進行預(yù)處理,使用距離法建立了木材識別模型,識別了東北地區(qū)14種常見樹種的木材。為可見/近紅外光譜識別技術(shù)的預(yù)處理方法選擇和平滑處理參數(shù)選擇提供參考,為快速、準確識別木材提供了一種新的無損檢測方法。
所用樣品均采自黑龍江省方正縣林業(yè)局星火林場(45°43′5.73″N, 129°13′34.37″E)。樣品由生長錐鉆取,鉆孔方位為由南向北穿過樹心,高度為距離地面1.3 m胸高處。從25塊樣地選擇14個樹種(表1)。采樣25株·種-1,共300個樣品。樣品直徑約5.15 mm。將樣品放在溫度為20℃,濕度為38%的室內(nèi)陰干1周,使其達到氣干狀態(tài)。從中部截斷樣品用于采集光譜,為得到較穩(wěn)定的模型,每個斷面用80目的砂紙打磨5次,使其表面粗糙度參數(shù)Ra接近12.5 μm。在建立木材識別模型時,表面粗糙度對模型影響很小[14]。

表1 木材樣品種類Table 1 Sample information
使用美國ASD公司生產(chǎn)的LabSpec光譜儀采集光譜,波長范圍為350~2 500 nm。其中350~780 nm為可見光波段,780~2 500 nm為近紅外波段,調(diào)整二分光纖端部距探頭口2 mm處固定。采譜前將探頭對準聚四氟乙烯白板進行校正,采譜過程中每15 min進行1次空白校正,以保證光譜的穩(wěn)定性。將木樣嵌入直徑為5 mm的探頭口中,光斑直徑為5 mm,覆蓋木樣的端面,即采譜面(圖1)。每個斷面采集1次光譜后旋轉(zhuǎn)一定角度采集第2次光譜,共采集3次光譜,采集完成一個樹種所有樣本光譜后,使用OMNIC 9.2打開這些光譜,對比光譜波形相似度,篩除異常光譜后將單個樣品的剩余光譜取平均光譜用于分析。用此方法采集的光譜為樹木胸徑處邊材弦切面的光譜。用光譜儀配套的軟件采集光譜并轉(zhuǎn)換成數(shù)據(jù)文件,使用OMNIC 9.2,Matlab和Excel完成對光譜的初篩、預(yù)處理和數(shù)據(jù)處理工作。
由于木材是復(fù)雜的天然物,屬于散射介質(zhì),采集光譜時需要用漫反射光譜分析樣品,相對于透射光譜測量方式要更加復(fù)雜[15]。樣品的可見/近紅外光譜還會存在光譜基線偏移、高頻噪音、斜坡背景等偏差,影響建模的準確性,使得可見/近紅外光譜的分析更加困難。所以利用可見/近紅外光譜建模時,需要對光譜進行預(yù)處理[16]。
可見/近紅外光譜預(yù)處理常用的方式就是數(shù)字濾波和導(dǎo)數(shù)處理。目前常用的數(shù)字濾波為平滑處理,光譜平滑可以降低噪音,一定程度上提升信噪比,但過度平滑會使光譜失真。最常用的平滑方式為移動窗口最小二乘多項式平滑(Savitzky-Golay smoothing,S-G平滑)。背景中的基線偏移和光譜旋轉(zhuǎn)可以通過對光譜求導(dǎo)處理進行校正,但是求導(dǎo)的過程中會放大光譜的噪音。如果原始光譜噪音比較大,則不適合直接對光譜進行求導(dǎo)處理。
本研究主要使用了導(dǎo)數(shù)和平滑2種光譜預(yù)處理方法。考察了原始光譜(raw spectra)、S-G平滑、一階導(dǎo)數(shù)(first derivative,1st Der),二階導(dǎo)數(shù)(second derivative,2nd Der), 三階導(dǎo)數(shù)(third derivative,3rd Der), 對數(shù)(lg), Norris 一階 導(dǎo)數(shù)濾波(Norris 1st derivative filter), Norris 二 階導(dǎo)數(shù)濾波(Norris 2nd derivative filter)及組合等11種光譜預(yù)處理方法對分類建模預(yù)測效果的比較。

圖1 生長錐樣品光譜采集方法Figure 1 Near infrared (NIR)collecting method for the increment core samples
采用距離法建立識別模型。每個樹種采集50個光譜,用SNEE[17]提出的新序貫法(the DUPLEX method)抽取其中30個樣品光譜作為校正集,以表征此樣品標準光譜。剩余20個樣品光譜作為驗證集,以驗證此方法的可靠性。首先利用每個樹種的30個校正集光譜,計算出該樹種的平均光譜和標準偏差光譜。
導(dǎo)數(shù)處理的實質(zhì)是將某一波段對應(yīng)的反射值轉(zhuǎn)變成該波段曲線的切線的斜率,原始光譜波峰與波谷值經(jīng)過一階導(dǎo)數(shù)處理后為0。所以導(dǎo)數(shù)處理可以凸顯原始光譜波峰與波谷的位置,同時可以減小光譜的基線偏移偏差。從表2還可以看出:一階導(dǎo)數(shù)處理后識別準確率較高,識別準確率可達96.79%。而二階導(dǎo)數(shù)與三階導(dǎo)數(shù)對識別準確率的提升沒有一階導(dǎo)數(shù)效果明顯,識別準確率分別為78.57%和75.00%。圖2以榆樹平均光譜為例,可以看出:導(dǎo)數(shù)能夠消除光譜的基線偏移的同時會增大噪聲,特別是高階導(dǎo)數(shù)的處理效果反而差強人意。

表2 各階導(dǎo)數(shù)處理后預(yù)測結(jié)果Table 2 Predicted results after different derivative processing

圖2 榆樹原始平均光譜與導(dǎo)數(shù)平均光譜Figure 2 Average spectrum of elm after derivative processing
S-G平滑即移動窗口最小二乘多項式平滑,這種平滑方式有2個參數(shù),平滑點數(shù)n(一般為大于1的奇數(shù))和擬合的多項式次數(shù)m。對于某一點的處理就是利用該點以及其前后(n-1)/2點,共n個點進行m次多項式的最小二乘擬合。
本研究對700個樣品的原始光譜進行各參數(shù)的S-G平滑處理,其中平滑點數(shù)為3~51點,多項式次數(shù)為1~6次,共150種不同的組合。準確率為總準確率,包括校正集的內(nèi)部交叉驗證的準確率和驗證集的預(yù)測準確率。S-G平滑濾波能降低光譜的噪音,但不會改變光譜的波形(在平滑波長小于半峰寬的情況下)。
由圖3可知:僅進行S-G平滑處理時,對模型識別準確率的提高效果微乎其微。一階導(dǎo)數(shù)光譜的各參數(shù)S-G平滑的效果都很好。其中一階導(dǎo)數(shù)與3次和4次多項式9點S-G平滑的效果最好,誤判個數(shù)低至7個,準確率高達97.43%。二階導(dǎo)數(shù)和三階導(dǎo)數(shù)處理后的低點數(shù)S-G平滑的預(yù)測效果略差,識別準確率低于80%。但是隨著平滑點數(shù)的增多,準確率也不斷提高,最終識別準確率穩(wěn)定在90%以上,其中二階導(dǎo)數(shù)配合1次、2次和3次多項式與21點、23點平滑和三階導(dǎo)數(shù)配合1次、2次和3次多項式與51點平滑的誤判個數(shù)低至5個,識別準確率高達98.42%。
隨著平滑點數(shù)在一定范圍內(nèi)增大,使用低次多項式S-G平滑的效果要好于高次多項式S-G平滑,低次多項式的識別準確率高于高次多項式10%以上,但是隨著平滑點數(shù)繼續(xù)增大,由于多項式次數(shù)和平滑點數(shù)開始逐漸匹配,這種差異慢慢減小,識別準確率都在95%以上,且不同多項式之間的差異小于1%。說明多項式次數(shù)和平滑點數(shù)要 “門當戶對”才能達到最好的預(yù)測效果,不恰當?shù)膮?shù)搭配還會使模型的預(yù)測準確率降低。同時,隨著導(dǎo)數(shù)處理的階數(shù)增大,例如三階導(dǎo)數(shù)處理時,達到最好預(yù)測效果所需要的S-G平滑點數(shù)也增大,說明高階導(dǎo)數(shù)需要配合大點數(shù)S-G平滑使用。

圖3 基于不同參數(shù)組合的4種光譜預(yù)處理方法識別結(jié)果Figure 3 Different predicted results for 4 spectral pretreatment methods (A)S-G soomthing (B)1st+S-G soomthing (C)2nd+S-G soomthing(D)3rd+S-G soomthing
Norris導(dǎo)數(shù)濾波是 “近紅外之父”NORRIS提出的一種光譜預(yù)處理方法。這種方法類似于移動窗口平均和卷積函數(shù)求導(dǎo),但是在窗口段長之間加入了段間距[18],同S-G平滑,窗口段長為1~51內(nèi)的奇數(shù),點數(shù)過高會使覆蓋波峰導(dǎo)致光譜失真,大點數(shù)設(shè)置將失去平滑意義。當段長設(shè)置為3時,則段內(nèi)每個數(shù)據(jù)點經(jīng)過濾波變成中心點和兩邊的點的平均值。段間距為2個連續(xù)窗口段長之間的距離,為0~20的自然數(shù),增大段間距可以增強被寬波段重疊的陡峭波段,大點數(shù)的間距將影響平滑效果。當段間距設(shè)置為3時,則2個連續(xù)段長之間的間距為3個波長上的點。S-G平滑濾波對于某一平滑點數(shù),其第1個中心點前的n個點和最后1個中心點的后n個點不能使用S-G平滑方法處理,使用Norris導(dǎo)數(shù)濾波可以克服這個問題。
本研究對700個樣品的原始光譜進行各參數(shù)的Norris導(dǎo)數(shù)濾波,其中段長為1~51,段間距為0~20,共546種組合。準確率為總準確率,包括校正集的內(nèi)部交互驗證的準確率和驗證集的預(yù)測準確率。
2.3.1 Norris一階導(dǎo)數(shù)濾波 由圖4可知:對于Norris一階導(dǎo)數(shù)濾波,隨著段長點數(shù)增大,模型的準確率降低,但是當間距為0 nm,段長大于33 nm時識別準確率低于80%。從整體上看,段長大于39 nm的濾波效果都不好,說明Norris一階導(dǎo)數(shù)濾波的段長選擇應(yīng)控制在1~19 nm之間。其中段長為1,段間距為4的一階導(dǎo)數(shù)Norris濾波效果最好,驗證集預(yù)測誤判個數(shù)為8個。
2.3.2 Norris二階導(dǎo)數(shù)濾波 對于Norris二階導(dǎo)數(shù)濾波(圖5),由于間距0~20 nm的各參數(shù)的結(jié)果不一樣,繪制成21個變量的折線圖效果不好。現(xiàn)將21種間距的各平滑點數(shù)準確率數(shù)據(jù)進行聚類分析,發(fā)現(xiàn)21組數(shù)據(jù)變化趨勢可分為2類:間距0~7 nm和間距8~20 nm,前者為準確率先增大再減小,后者準確率呈減小趨勢,如圖5所示。從整體上看,間距為8~20 nm時同Norris一階導(dǎo)數(shù)濾波,隨著段長點數(shù)變大,識別準確率從98%降低至90%左右。但在間距為0~4 nm時,段長為1 nm與3 nm的Norris導(dǎo)數(shù)濾波使模型的準確率低于90%,隨著段長點數(shù)增大,識別準確率也大幅上升,最高可達98.14%。說明段間距為0~5 nm和6~20 nm的Norris二階導(dǎo)數(shù)濾波的段長最佳選擇范圍分別為5~15 nm和1~7 nm。其中段長為3 nm和段間距為8 nm的Norris二階導(dǎo)數(shù)濾波效果最好,誤判個數(shù)低至5個,準確率高達98.21%。

圖4 基于不同參數(shù)組合(546種)的Norris一階導(dǎo)數(shù)濾波預(yù)測結(jié)果Figure 4 546 predicted results of different 1st+Norris derivative filtering parameter

圖5 基于不同參數(shù)組合(546種)的Norris二階導(dǎo)數(shù)濾波預(yù)測結(jié)果Figure 5 546 predicted results of different 2nd+Norris derivative filtering parameter
測試了這11種光譜預(yù)處理方法對識別模型準確率的影響,這11種方法中若涉及參數(shù)選擇問題,取準確率最高的參數(shù)組合(表3)。對數(shù)(lg),S-G平滑,對數(shù)(lg)與S-G平滑等3種處理方式的準確率與原始光譜的準確率一樣,說明單純使用對數(shù)(lg)和S-G平滑預(yù)處理方式不能提升模型的準確率,原因是對數(shù)和平滑處理沒有改變原始光譜的波形,只能使光譜更加平滑,不能提高光譜區(qū)分度。
可見/近紅外光譜技術(shù)能夠?qū)崿F(xiàn)生長錐取樣的木材識別。本研究采用距離法識別模型,使用未經(jīng)任何預(yù)處理的光譜識別木材準確率很低。使用S-G平滑處理或?qū)?shù)處理對光譜進行預(yù)處理不能提升識別準確率。一階導(dǎo)數(shù)預(yù)處理能明顯提升木材識別準確率。由于二階導(dǎo)數(shù)和三階導(dǎo)數(shù)會增大光譜的噪音,經(jīng)過二階導(dǎo)數(shù)或三階導(dǎo)數(shù)預(yù)處理的光譜識別準確率為沒有一階導(dǎo)數(shù)高。在利用可見/近紅外光譜進行樹種識別的過程中,二階導(dǎo)數(shù)預(yù)處理和三階導(dǎo)數(shù)預(yù)處理需與其他預(yù)處理方式配合使用,才能達到提升識別模型準確率的效果。

表3 11種預(yù)處理方法識別預(yù)測結(jié)果Table 3 Predicted results of 11 processing methods
S-G平滑處理能夠明顯降低二階導(dǎo)數(shù)和三階導(dǎo)數(shù)處理后的光譜的噪音,能夠極大程度地提升木材識別模型的準確率。使用Norris導(dǎo)數(shù)濾波能夠提升木材識別模型的準確率,在最優(yōu)的參數(shù)設(shè)置下,Norris導(dǎo)數(shù)濾波效果略好于S-G導(dǎo)數(shù)平滑,但差異不明顯。由于Norris導(dǎo)數(shù)濾波的特性,使得它能夠處理光譜波長兩端的若干個點,而S-G平滑不能對光譜波長兩端的若干個點進行處理。所以在選擇與導(dǎo)數(shù)處理相配合的預(yù)處理方式時,Norris導(dǎo)數(shù)濾波應(yīng)為首選。在使用這2種預(yù)處理方法時搭配二階導(dǎo)數(shù)的預(yù)處理效果最好。
參數(shù)的選擇對木材識別模型的準確率有一定影響,在使用過程中需要合理選擇各項參數(shù)。由于Norris導(dǎo)數(shù)濾波的可選參數(shù)組合要多于S-G平滑,所以在最優(yōu)參數(shù)選擇上,Norris導(dǎo)數(shù)濾波的工作量要大于S-G平滑。但是通過本試驗發(fā)現(xiàn),在控制某一個參數(shù)不變,另一個參數(shù)遞變時識別準確率的變化也呈現(xiàn)出遞增/遞減的規(guī)律,通過合理的參數(shù)選擇方案可以有效減少最優(yōu)參數(shù)確定的工作量。