苑迎春 周 毅 宋宇斐 徐 錚 王克儉
(1.河北農業大學信息科學與技術學院, 保定 071001; 2.河北省農業大數據重點實驗室, 保定 071001;3.石家莊學院計算機科學與工程學院, 石家莊 050035)
小麥是我國華北地區主要種植的谷物之一,其長勢、產量的準確預測對農業生產和區域經濟的發展具有重要意義[1]。葉綠素是反映作物氮素營養狀況的重要指標[2],其含量與作物的生長發育、光合作用能力、作物產量密切相關,準確、快速地估測小麥葉綠素含量具有重要的應用價值[3-4]。隨著圖像處理技術的日益成熟,運用圖像特征估測作物的葉綠素含量成為重要的技術手段之一。圖像特征指標的選擇是建立葉綠素含量預測模型的基礎,其選擇方法影響著葉綠素估測模型的準確性和穩定性,有效的圖像特征指標可以降低數據集的維度,提高估測模型的預測精度和運行效率。因此,有效提取圖像特征、構建有效的預測模型來保證葉綠素含量的預測效果是需要解決的關鍵問題。
利用數字圖像技術進行葉綠素含量的估測,國內外已有許多學者對此開展了研究。模型中選用的顏色特征指標大多來自于RGB顏色空間,除了紅(R)、綠(G)、藍(B)3個基本顏色特征以及一階矩(均值)和二階矩(方差)特征外,大量基于這3個特征構造的組合特征也表現出與葉綠素含量有很強的相關性[5-7]。近年來,構造與葉綠素相關性更強的復雜特征成為一個研究熱點[8-9],RGB顏色空間受光照強弱影響較大,消除光照影響的顏色特征也被相關學者研究[10],除RGB顏色空間外,顏色特征提取還擴展到HIS和La*b*2個顏色空間上[11-12]。顏色特征的構造研究有效提升了葉綠素預測模型的準確性,但也為顏色特征選取和模型的深入研究提出了挑戰。
在基于多特征的葉綠素估測建模研究中,現有文獻基本采用隨機挑選[13]、皮爾遜相關系數法[14]或主成分分析[15]選取與葉綠素相關性高的特征進行建模。在其它研究領域,已有學者運用信息熵的方法進行特征選擇,均取得較好的估測效果[16-17]。對于葉綠素估測模型的研究,基于統計回歸的模型受到大多數研究者的關注,多元線性回歸[18]、嶺回歸[19]等是比較常用的方法。隨著機器學習方法的應用,支持向量回歸模型也被提出,支持向量回歸模型具有很好的泛化性能,在處理小樣本和非線性問題上具有很好的效果[20-22]。
通過對現有研究方法分析,發現數字圖像處理技術能夠比較快速、準確地構建葉綠素預測模型,但對于目前提出的眾多顏色圖像特征指標,并沒有建立很好的特征選擇模型,基于皮爾遜相關系數選取的特征集充分考慮自變量和因變量之間的相關性,主成分分析方法則對考慮的評價特征指標集進行降維,為基于多特征的葉綠素預測建模提供了很好的支持。然而,這些特征之間存在的冗余問題仍會使模型的準確度、穩定性和效率受到影響。在模型構建的研究中,相比最小二乘、多元線性回歸等方法,逐步回歸、嶺回歸等方法在一定程度上解決了特征輸入的共線性問題,但模型的準確度和穩定性有待于進一步提高。
本文以小麥冠層圖像為研究對象,通過挖掘和分析多個常用顏色特征自身所含的信息量差異,并利用信息領域中的信息熵概念進行形式化定義和描述,從而擬提出一種顏色特征篩選方法,在該方法選取的特征集上,再進一步開展小麥冠層葉綠素含量的估測模型研究,以期提升預測模型精度和穩定性,實現小麥冠層圖像快速、準確的葉綠素估測。
數據獲取地點位于河北省保定市清苑區石橋鄉黃陀村河北農業大學示范田基地(38°46′24.90″N, 115°32′33.23″E)。試驗田劃分為15個樣區,設定5組不同施氮水平,分別為:不施氮肥(N0)、氮肥施用量100 kg/hm2(N100)、氮肥施用量180 kg/hm2(N180)、氮肥施用量255 kg/hm2(N255)、氮肥施用量330 kg/hm2(N330)。基地種植的小麥品種為濟麥22,該品種具有抗逆性強、產量高等優點。
數據采樣在小麥拔節期進行,拔節期是小麥生長發育的重要時期,此時小麥生長迅速,適合監測葉綠素含量。采集時間為2019年4月10日和2021年4月10日12:00左右,天氣多云無風。小麥葉綠素獲取采用SPAD-502PLUS型便攜式葉綠素儀。每個樣區拍攝6幅長勢均勻的小麥冠層圖像,在每幅小麥冠層圖像的拍攝區域內選取5株對整個樣區長勢具有代表性的小麥進行葉綠素含量測量,每株小麥上選取最上面的3片葉片的葉綠素含量,每個葉片分別測取葉尖、葉中和葉基部3個部位的葉綠素(SPAD值),將45次測量平均值作為該冠層圖像的SPAD值。樣本區共采集90幅小麥冠層圖像,對采樣進行分析,得出小麥SAPD值在32.4~52.1范圍內,平均值為43.8,分布差異明顯。SPAD值的分布情況如圖1所示。

圖1 小麥冠層SPAD值分布情況Fig.1 Distribution of wheat canopy SPAD value
小麥冠層圖像獲取設備采用索尼FDR-AXP35 4K型高清攝錄一體機,圖像采集時將相機固定在三腳架上,鏡頭距離小麥冠層1 m,垂直拍攝,圖像分辨率為4 288像素×2 408像素,部分圖像如圖2所示。

圖2 不同施氮水平小麥冠層圖像Fig.2 Wheat canopy images of different nitrogen levels
由于大田環境下小麥冠層圖像具有背景復雜、光照不均(如土壤、干草、葉片遮擋形成的陰影)等特點,為了提高冠層圖像顏色特征值的精確度,需要對采集的圖像進行分割處理,以便把小麥冠層圖像信息提取出來。
首先提取超綠特征[23](ExG),提高綠色通道的權重,增加綠色小麥冠層與背景(土壤、秸稈、雜草等)的對比度。結合超綠特征設計了基于閾值的小麥冠層分割方法,它按照圖像的灰度特性,將圖像分成背景和目標兩部分。為進一步提升小麥冠層圖像顏色特征值的精確度,又將圖像中黃色葉片區域去除,經反復測試,閾值設定為R>150,G>150,B<80,最終得到分割后的小麥冠層圖像如圖3所示。

圖3 分割后的小麥冠層圖像Fig.3 Wheat canopy images after segmentation
如前所述,盡管目前提出了很多與葉綠素相關的圖像顏色特征指標,但通常都采用隨機挑選或依據皮爾遜相關系數選擇幾個特征來構建預測模型。實際上,顏色特征的選擇是模型構建的重要環節,它決定著預測模型的精度。因此,本文首先根據現有文獻挑選一組具有代表性的候選顏色特征集,然后通過挖掘分析這些特征中所含信息量的差異,最終選出一組特征用于構建預測模型。
1.3.1顏色特征集

經過統計發現,選取的特征指標集中多數分布在RGB空間和HSI空間,La*b*空間中指標較少。為了比較全面地評估3個顏色空間的圖像特征,參照RGB特征組合方法,組合構造了La*b*空間的2個指標a*/b*和(a*+b*)/L。這樣,候選顏色特征集總共包含24個。
小麥冠層圖像經過分割處理后,只留下正常小麥葉片的色彩像素。對照每個特征,先計算圖像樣本中各個像素的顏色值,然后再求平均值作為每幅圖像的特征值。
1.3.2基于熵權法的特征選擇
小麥冠層圖像中的顏色特征盡管與葉綠素含量都有較強的相關性,但這些信息對預測葉綠素含量的貢獻程度并不相同。本文旨在通過信息熵描述這些特征中含有的信息量差異,以此得到每個特征的重要程度。
信息熵[30-31]最早由香農提出,常被用作一個系統信息含量的量化指標,作為系統函數優化的目標或者參數選擇的判斷依據,廣泛應用于通信和計算機等領域。香農定義信息熵H(x)公式為

(1)
式中c——常數
p(x)——隨機事件x發生的概率
n——樣本總數
香農的信息熵表示信息的不確定程度,它與事件的概率分布情況有關,概率分布越平均,信息熵就越大[32]。信息熵作為一種客觀賦權的方法,可以避免人為因素帶來的誤差[33]。基于香農的信息熵權重賦值思想,反觀小麥冠層圖像的顏色特征,如果一個顏色特征在所有樣本中的信息熵越大,則表明該特征在所有樣本中的分布越均衡,也就是說,該特征在所有樣本中的差異不明顯,則表明它對葉綠素評估的貢獻程度低。由此引入顏色特征信息熵(Color feature information entropy,CFIE)的定義。
定義1:顏色特征信息熵定義為該特征指標在所有樣本集上概率分布的數學期望值。
假設Aj(1≤j≤24)表示本文研究的任意一個顏色特征指標,它的顏色特征信息熵Info(Aj)計算式為

(2)
式中Pi(Aj)——第i幅圖像的顏色特征指標值為Aj的概率
m——顏色特征指標總數
為了便于計算,常數c記為1/lnn,這里n為圖像樣本總數。需要說明的是,Pi(Aj)是顏色特征信息熵的重要參數,其計算方法是特征指標Aj在所有樣本圖像中出現的概率,計算式為
(3)
式中xi(Aj)——特征Aj在第i幅圖像上的特征數值
為確保每個指標提取信息的合理性與準確性,對每個顏色指標進行了標準化處理,使所有顏色特征指標值分布在(0,1)區間。
根據定義1和熵權法思想,可以定義顏色特征信息權重系數(Information utility weight coefficient,IUWC),用來反映特征指標的區分能力。
定義2:顏色特征信息效用權重系數:給定任意一個顏色特征Aj,其信息效用權重系數定義為其信息效用值占全部顏色特征的信息效用值的百分比,計算式為
(4)
式中,1-Info(Aj)為顏色特征信息效用值,目的是使其與顏色特征指標的利用價值成正比。也就是說,一個顏色特征的信息效用權重系數越大,它的區分能力就越強,對于葉綠素估測的貢獻度就越大。
綜上,基于信息熵的特征選取方法流程用偽代碼表示為:
輸入:特征指標數據集D。
輸出:每個顏色特征值指標IUWC值并排序。
初始化特征指標個數為m、圖像樣本個數為n。
forj=1 tomdo
將j指標歸一化為(0,1)區間。
fori=1 tondo
根據式(2)、(3)計算j指標的顏色特征信息熵。
End for
根據式(4)計算j指標的信息效用權重系數。
End for
按照信息效用權重系數降序排序特征。
輸出排序結果。
采用多元線性回歸、嶺回歸、支持向量回歸3種算法建立小麥冠層葉綠素含量估測模型。多元線性回歸作為基礎的回歸預測方法,廣泛應用于數字圖像估測模型中,嶺回歸能在一定程度上解決圖像特征之間的多重共線性問題,支持向量回歸可解決特征指標與葉綠素含量間存在的非線性問題,故選用3種模型。
多元線性回歸(Multiple linear regression,MLR)是一種常用的回歸方法,其通過多個自變量表示因變量來獲取一條最佳擬合直線,常用的求解方法為最小二乘法。

支持向量機(Support vector regression,SVR)模型具有優異的全局優化性能,在維數較高且具備復雜非線性特點的小樣本回歸預測應用中展現出了較好的泛化能力。
選用決定系數(Coefficient of determination,R2)、均方根誤差 (Root mean square error,RMSE)進行模型精度的檢驗。模型的R2越接近1,說明其預測能力越好,相對應的RMSE越小,說明其可靠程度越高。
運用熵權法、皮爾遜法以及主成分分析法對24種特征的權重賦值結果進行對比,皮爾遜法是通過分析每個特征自變量與葉綠素的相關性得到一個相關系數。相關系數代表每個特征與目標因變量的相關程度,相關系數越大,表明該特征對估測葉綠素的重要程度越大。一般選取相關系數大于0.6,說明該特征與目標變量相關性較大。主成分分析(PCA)是通過降維技術將多個變量轉換為少數幾個主成分(綜合變量)的一種多元統計方法。它可以在信息丟失最小的前提下,實現多元數據的特征融合,在提取出主要特征的同時去除多元變量間的線性相關。通過提取最終的主成分特征變量完成對目標變量的預測。表1給出了24個特征的信息熵權重系數、SPAD的皮爾遜相關系數和主成分累計貢獻率的計算結果,按照信息權重系數降序顯示。
從表1可以看出,特征a*、R-G-B、R-G、(a*+b*)/L、a*/b*信息權重系數較高,達到10%以上。按相關程度來看,所有特征參數與SPAD相關系數都在0.6以上,并且都達到極顯著相關水平,其中(R-G-B)/(R+B)與SPAD的相關性最高,相關系數達到了0.801。按主成分分析來看,3個主成分的累計貢獻率便達到97.73%,選取12個主成分時累計貢獻率達到100%。對本文提出的a*/b*和(a*+b*)/L2個特征指標,信息權重系數和SPAD的相關系數均取得了較好效果。

表1 小麥冠層圖像特征與葉綠素含量信息權重、相關系數及成分累計貢獻率分析Tab.1 Analysis of weight, correlation coefficient and cumulative contribution rate of wheat canopy image features and chlorophyll content information
通過分析發現,按照熵權法得到信息權重系數最高的特征,其相關系數并不是最大的,而得到信息權重系數較低的特征,如G/(R+G+B)、G/R、R/(R+G+B)其相關系數并不是最小的,說明兩種“賦權”方法從不同角度對每個特征刻畫其“重要”程度。熵權法是通過分析特征集本身的數據分布得出的,一個特征如果在所有樣本上分布均勻,它的權重就越低,說明它對目標SPAD的貢獻程度不明顯。反之,一個特征如果在所有樣本上分布差異大,則表明它對于預測目標SPAD值特性貢獻程度有差異,其權重系數就越大。主成分分析降低了特征變量間的相關關系,由該方法降維后形成的主成分變量對SPAD值進行建模估測。而相關系數是直接刻畫特征自變量和因變量SPAD值的相關程度,相關系數越高,說明它對目標因變量SPAD值估測越重要。3種方法本質的區別在于:信息熵權重是分析自變量空間中特征變量之間重要程度的差異性,相關系數則是考慮自變量和因變量之間的相關程度,主成分分析最大程度降低了特征變量間的相關性。
顏色特征是模型構建的輸入參數,如何從一組特征中篩選出滿足模型預測精度,同時又能達到數據降維是研究小麥營養診斷模型的關鍵問題,采用逐步回歸模型對24種特征進行篩選試驗,特征以熵權法權重降序排序。逐步回歸首先選擇一個信息權重系數最高的指標作為輸入,構建線性模型,決定系數R2作為模型評價依據;然后在原有輸入參數基礎上再添加一個信息權重系數次高的指標作為模型輸入參數,再次構建逐步回歸模型。依次類推,直至全部指標均進入模型。同樣,皮爾遜法也是按照相關系數大小依次建立逐步回歸模型,作為特征選擇方法進行對比分析。


表2 小麥冠層葉綠素含量診斷模型Tab.2 Diagnostic model of chlorophyll content in wheat canopy
為進一步分析2種特征選擇過程中的預測精度變化趨勢,圖4給出了2種特征選擇方法構建逐步回歸模型得到的每一步R2的折線圖。從圖4看出,隨著輸入變量的增加,兩種特征選擇方法所構建的模型精度有大致相同的變化趨勢。前期,隨著輸入特征數的增加,決定系數R2均呈快速上升趨勢,達到了最高預測精度,隨后,隨著輸入變量的增加,2個模型趨于穩定,精度幾乎不再變化,基本與全特征輸入參數建立的模型相同。

圖4 小麥冠層葉綠素含量診斷模型折線圖Fig.4 Diagnostic model line chart of chlorophyll content in wheat canopy
從熵權法的逐步回歸模型預測精度曲線看,盡管初期建模精度很低,但隨著輸入變量的增加,其R2顯著提升,當輸入變量增加至9個時,R2達到最大值,隨后幾乎不再變化。而皮爾遜法的逐步回歸模型預測精度曲線初始預測精度較高,但隨著輸入特征變量數目的增加,其模型精度增長速度比較緩慢,最后達到最好預測精度時,特征參數為12個,比熵權法輸入的特征數量多3個。
本文以2.2節中熵權法選取的9個特征和皮爾遜方法選取的12個特征以及主成分分析的3個特征為自變量,分別使用多元線性回歸(MLR)、嶺回歸(RR)、支持向量回歸(SVR)構建小麥葉綠素含量估測模型。RR模型中,根據嶺跡分析,將嶺正則化參數α設置為0.1,來保證嶺回歸系數基本穩定。SVR模型中,核函數類型為高斯核函數,懲罰系數C和核函數參數σ的取值范圍分別為[0,100]、[0,10],分別以步長1和0.1為變化單位,每次試驗選取效果最佳的C、σ。使用十折交叉驗證方式來評估算法的泛化能力,即將樣本隨機分成10份,9份為訓練集,1份為測試集,用交叉驗證遍歷全部10份樣本。最終通過測試集的決定系數R2和均方根誤差RMSE來衡量回歸模型的預測能力,如圖5所示。

圖5 不同特征集、回歸模型下小麥冠層葉綠素含量的決定系數R2和均方根誤差RMSEFig.5 Determination coefficient and root mean square error of wheat canopy chlorophyll content under different regression models and feature sets
由圖5可知,從模型角度分析,3個特征集建立的SVR模型的R2均大于RR和MLR,RMSE小于RR和MLR,其中熵權法特征集SVR模型的R2和RMSE分別約為0.80、1.89,相較于MLR和RR模型,R2分別提升了約2.8%和1.1%,RMSE分別下降了約0.13和0.05,故3種回歸模型中SVR的預測能力最優。從特征集選取的角度分析,3個特征集在不同估測模型中R2相差不大,熵權法特征集的RMSE略小于皮爾遜特征集和主成分特征集,這說明熵權法特征集的泛化能力較優,模型預測精度較高。皮爾遜特征集可能仍存在特征變量數量過多的情況,特征間的冗余信息影響了試驗結果。而主成分分析的特征集由24個特征變量降維到3個,降維后的主成分特征在最大程度上降低了變量間的相關關系,但是一些有利于SPAD值預測的特征信息不能完全體現出來。主成分特征集的特征指標個數最少,在降低模型復雜度的同時有效提高了模型的運行效率。
進一步分析,由于RR在MLR的基礎上添加了偏差因子,其預測能力相較于MLR有所提高,但仍不能有效避免共線性問題。而SVM最終決策函數只由支持向量所確定,計算復雜性取決于支持向量的數目,而不是樣本中所有特征,這在某種意義上對特征進行了降維處理,在一定程度上減少了特征間的共線性,從而提高了模型預測能力。


圖6 支持向量回歸模型驗證數據集效果Fig.6 Validation data set effects of SVR
在利用圖像處理技術對大田作物進行葉綠素含量估測的研究中,對于顏色特征的定義和構造已經有許多成果,從目前已有的文獻研究成果中,發現構建的顏色特征參數至少有50多種。有不少學者利用皮爾遜相關系數和主成分分析進行特征選擇,然而借助信息熵進行特征選擇的相關研究還比較少。本文利用信息熵、皮爾遜和主成分分析特征選擇方法分別確定了最優特征集對小麥SPAD值進行預測,其中信息熵、皮爾遜特征集都包含的特征指標有4個,分別是(a*+b*)/L、a*/b*、(R-G)/(R+G+B)、(R-G)/(R+G),說明2個特征集有交集,而主成分特征集大幅度減少了變量維數,將3種特征選擇方法的結合使用還需要進一步探究。另外,本文構造的(a*+b*)/L、a*/b*2個特征對SPAD值預測起了積極促進的作用,接下來可以在La*b*空間上探索預測能力更好的特征。
從3種方法選取的最佳特征集看,熵權法選取的特征集在3個顏色空間中都有所分布,9個特征時得到了最優預測模型,皮爾遜特征集中的特征指標大都分布在RGB顏色空間,12個特征時出現了最優預測模型。這可能是由于不同顏色空間特征指標的相關性較小,來自多個空間的特征可以在一定程度上減少這些共線性,因此信息熵特征集所用指標個數較少便達到了最佳預測效果。可以進一步研究該特征選擇方法是否適用于小麥單葉片、其它大田作物SPAD值的預測。
小麥冠層圖像是在自然環境下采集的,受到光照、天氣的影響,對顏色特征參數的提取會造成一定的誤差,在圖像的分割算法上還需要進一步優化。建模方法的選擇對預測精度具有一定的影響,近年來,國內外學者開始利用機器學習算法進行大田作物SPAD值的預測,與應用較廣泛的MLR模型相比,機器學習回歸模型具有更佳的穩健性。本文建立的SVR相較于MLR和RR,擬合能力最優,但是其懲罰因子C和核函數參數σ的選擇還需要進一步探索。通過研究建模算法對預測效果的影響,來提高模型預測能力。
(1)引用信息熵思想提出了熵權法的特征選擇方法,確定了a*、R-G-B、R-G、(a*+b*)/L、a*/b*、(R-G)/(R+G+B)、(R-B)/(R+B)、H/S、(R-G)/(R+G)一組特征集,通過對比皮爾遜特征選擇方法,表明熵權法在選取較少的特征指標下建模便能達到較好的預測效果。
(2)構造了La*b*空間下(a*+b*)/L、a*/b*2個圖像特征指標,熵權法和皮爾遜特征選擇方法特征集均包含這2個特征指標,說明其對SPAD值預測起了積極促進作用。
(3)運用3個特征集分別建立了多元線性回歸、嶺回歸、支持向量回歸的小麥冠層葉綠素含量估測模型,在不同的模型上,熵權法選取的特征集均表現了較好的預測效果,從模型角度分析,支持向量回歸的預測能力和泛化能力最優,R2和RMSE分別約為0.80、1.89,相比于MLR和RR模型R2分別提升約2.8%、1.1%,RMSE分別下降了約0.13和0.05。