宋麗娟
(寧夏大學信息工程學院,寧夏銀川 750021)
枸杞在寧夏已有悠久的種植歷史。隨著經濟的發展,枸杞種植、加工、貿易己成為寧夏農林經濟發展與農民增收的重要組成部分,被自治區政府列為戰略性優勢主導產業,并決定將寧夏建設成全國乃至全世界枸杞及其制品生產、加工基地。枸杞病害的診斷和防治一直是枸杞生產和管理的主要工作內容之一,在枸杞生長季節的管理中,病害的診斷和防治占工作總量的33%以上。截至2015年底,寧夏回族自治區枸杞種植面積達到56 754.5 hm2,占全國枸杞種植面積的45%以上,形成了以中寧為核心,清水河流域和銀川以北為兩翼的區域布局。枸杞干果總產量達到8.8萬t,約占全國總產量的55%,年綜合產值超過80億元以上,出口量約占全國出口量的60%以上,出口創匯7 000萬美元以上。中國互聯網絡信息中心2015年5月發布的《農村互聯網發展狀況研究報告》顯示,截至2014年12月,我國農村網民規模達到1.78億,我國農民以手機上網為主,2014年寧夏回族自治區啟動“枸杞信息員”項目,農業移動信息化成為枸杞產業管理和發展的利器[1]。因此,將計算機圖像處理、計算機模式識別、移動網絡通信等多種現代通信技術引入農作物病害防治領域,探尋一種靈活、高效、實時、準確的病害識別和分類方式是切實可行的[2-5]。
枸杞及其產業是寧夏農業的“優勢產業”“主導產業”和“支柱產業”。枸杞產量的高低、質量的好壞,雖然與品種、肥料等有密切關系,但要實現安全、優質、高產的目標,關鍵在于病害的快速識別和防治水平。病害是影響枸杞產量、品質和市場的重要因素,病害的暴發會帶來大規模的減產、降質,所以將圖像識別技術應用于枸杞病害識別的研究具有重要的意義。在寧夏地區,枸杞病害不同時期、同一部位的病害病癥多變,客觀上存在很大的識別、預警困難,針對大田環境、復雜環境下的枸杞圖像,枸杞病害圖像的病斑背景的復雜程度高,枸杞病害葉片與健康枸杞葉片的灰度差異不大,枸杞病害的生理信息機理決定了病害種類的規律性和穩定性,因此,若要達到最好的病害分類效果,就需要針對不同的枸杞病害在不同病理時期的關鍵特征(顏色信息)設置參數,及時、準確地檢測識別出枸杞病害,才能有效采取防治措施,這將是亟需解決的問題。筆者基于自然圖像的稀疏表示理論在圖像分類中的應用,通過建立病害圖像顏色分布與病害類別的映射關系,構建枸杞病害分類和識別模型。
顏色特征是人眼視覺敏感的圖像信息,具有對圖像的旋轉、縮放不變性。顏色特征在各種數字圖像處理系統中經常涉及到,在圖像檢索、分類等應用與研究中具有重要作用。直方圖是顏色特征的主要表示方式,已被應用于許多的圖像檢索、圖像識別和分類系統中。圖像分類系統雖然也經常利用圖像的紋理、形狀等特征,但紋理依賴于圖像的分辨率和所選擇區域的大小、形狀特征與圖像中的目標區域選擇相關,這兩種特征的具體應用往往具有一定的針對性。Swain等[6]提出了顏色直方圖的較為經典的特征比較方法,但由于各個圖像所得到的顏色特征維數不一定相同,導致該方法較難應用于實際的圖像分類系統;Stricker等[7]提出的累計直方圖方式有效解決了圖像中噪聲點干擾問題,所表達圖像的顏色特征魯棒性更強。這些顏色特征表示方法大都以直方圖特征表示為基礎,而直方圖是對圖像中像素顏色頻度的統計,并沒有考慮到像素的空間位置特征,因此不同圖像可能具有相同的顏色統計特性,參考文獻[8]中的二維直方圖則利用了圖像的顏色和空間信息,但該方法中主觀顏色非均勻量化方法卻會導致圖像有效顏色信息的丟失。主顏色描述(Domain color descriptor,DCD)則利用圖像中的少數主要顏色值及其統計特性對圖像顏色特征進行描述,在已有的研究中已經被應用于基于底層特征的圖像分類中,并且DCD特征具有數據維數較低的優勢,因此選用該方法作為病害圖像的顏色特征描述子,并通過顏色空間的約束模糊聚類方法提取圖像的DCD特征。
1.1DCD圖像顏色特征圖像的DCD特征定義為[9]:C={pi,ci,vi,s},i=1,2,…,NDCD,其中NDCD表示圖像中主要顏色的種類數,pi表示在圖像中主顏色的頻度,ci表示主顏色,vi表示其他顏色與主顏色ci的方差,s為空間相關系數,用來表達圖像中主顏色之間的均勻性。
由于人的視覺對亮度的敏感程度遠高于對顏色濃淡的敏感程度,為了便于顏色處理和識別,人的視覺系統經常采用HSV顏色空間,它比RGB顏色空間更符合人的視覺特性。HSV顏色空間可以用一個圓錐空間模型來描述,如圖1所示。

圖1 HSV顏色空間模型Fig.1 HSV color space model

(1)
因為H和S都在0~1,cosx與sinx是連續函數,因此XM和YM的范圍為-1~1。對于MHSV顏色空間,如果XM、YM、ZM被劃分為LX、LY、LZ等級,則每個小塊的體積均為1/LXLYLZ,每個劃分小塊的體積是相同的,從而在MHSV顏色空間的基礎上建立圖像的顏色直方圖更為合理。
1.2空間約束模糊聚類模糊聚類算法在數據空間中進行搜索的性能目標函數為:
(2)
在該目標函數中,所聚類的模式被看作是互不關聯的元素,即聚類模式被視為完全獨立,并且某一個模式所在類的位置不會影響其他模式類的位置,但進行圖像的主顏色提取時,對于2個距離很近的像素或區域,從它們的類屬度來看,可以期望它們是潛在聯系在一起的,也就是說類的位置是潛在相似的。基于此,將圖像像素關于空間的信息融合到目標函數中,構成新的目標函數[10]:
(3)
在上述目標函數中,權值β≥0用于表示領域關系視為同一模式之間的差別,領域Ω被看作是相似的模式對,一般可以假設領域函數具有二值特征:
利用拉格朗日乘子法,對于被聚類的元素xt,得到目標函數:
(4)
式中,dij=‖xj-vi‖。
(5)

(6)
1.3DCD特征計算利用“1.2”的空間約束模糊聚類方法,進行圖像顏色的模糊聚類處理,計算圖像的代表色特征。根據參考文獻[9],主顏色數量設定為8較為合適,即進行模糊聚類處理時聚類類別設為8類,設定加權指數m=2,利用公式(5)、(6)迭代進行聚類處理,因為圖像的主要顏色可能少于8類,為避免因人為指定的類別數而造成圖像中相近顏色的過細劃分,在進行聚類處理后,將所得到的8種代表色進行最小誤差合并處理,利用最終合并結果進行主顏色特征計算。具體算法如下:
(1)初始化聚類類別數C,加權指數m,設定迭代停止閾值ε>0,以及算法的最多迭代次數;
(2)根據公式(5)和(6)進行迭代計算,得到模糊劃分矩陣U;
(3)對劃分矩陣U去模糊化,得到原圖像的初始8個聚類類別C1,C2,C3,…,C8;
(4)計算上述劃分結果中,每類的代表色ci,i=1,2,…,8,其中:
(7)
(5)對步驟(4)的結果進行最小誤差合并處理。由公式(7)計算所得代表顏色ci,cj(i≠j,i,j=1,2,…,8)。若dist(ci,cj)=‖ci-cj‖≤dertc,則將ci,cj所代表的類別合并處理。
(6)根據類別合并處理結果,計算圖像的最終代表顏色特征:C={pi,ci,vi,s},i=1,2,…,C≤8,其中:
(8)
表1列舉了病害圖像經過HSV顏色空間中的約束模糊聚類處理后結果,經過處理后圖像中部分對視覺效果影響較少的少數顏色被合并,整幅圖像顏色數減少為8種,根據這8種主要顏色的DCD分布,圖像所表達的場景含義以及整體視覺效果并沒有受到太大影響。

表1 病害圖像的DCD分布
1.4病害圖像的顏色特征碼本針對寧夏枸杞種植和病害特征的實際情況,采用圖像處理技術和模式識別技術快速、有效地進行枸杞病害診斷、識別和分類。將枸杞的葉部病害圖像分類后得到了“白粉病”“灰斑病”“炭疽病”和“癭螨病”4類枸杞病害。當將同類圖像放在一塊時,顏色視覺效果也呈現出了各自的一些特點,對病害圖像的顏色特征進行分析,得到病害圖像對應類別的特征碼本,利用稀疏表示理論建立病害圖像顏色特征分布與病害語義之間的映射關系。
利用病害樣本圖像,建立枸杞白粉病、枸杞灰斑病、枸杞炭疽病、枸杞癭螨病4類病害圖像的信息碼本,碼本中既包括該類圖像的一些主要特征與其分布規律,又包括該特征對某一類病害類別信息的影響因子。因此,利用上述樣本建立“白粉病”“灰斑病”“炭疽病”和“癭螨病”4類病害圖像的顏色信息碼本,碼本中包括該類圖像的一些代表性顏色與其分布規律。構建碼本的具體方法如下:


(9)

(10)
(11)
按照上述方法,得到每種病害樣本圖像的顏色特征字典,如圖2所示。

圖2 病害圖像的顏色特征碼本Fig.2 Color feature codebook of disease images
病害圖像的顏色分布有一定的規律性,與所建立的病害圖像樣本集中的顏色分布規律應該具有一定的相似特征。因此,可以尋找新病害圖像顏色空間分布與樣本集病害圖像顏色空間分布的關系,在待分類病害圖像與樣本圖像之間建立合理的映射關系,利用映射結果,進行新病害圖像的病害類別判斷。
由于圖像信號對于一些固定的基元信號而言具有天然的稀疏性,因此稀疏表示在圖像分類等方面得到了很好應用,而且一系列有效的凸優化貪婪算法可以被有效應用于信號稀疏表達的計算[11-12]。借鑒信號稀疏表示的思想與方法,對病害顏色信息碼本進行訓練[13],得到病害圖像顏色信息字典:
D=[D1,D2,…,DN]
式中,Di=[(di,1,ρi,1),(di,2,ρi,2),…,(di,Mi,ρi,Mi)],(di,j,ρi,j)為第i類病害顏色碼本的第j個基本元素,j=1,2,…,Mi。
對于待分類圖像Dnew,尋找在Dnew在D中的稀疏表達形式:
如果Dnew中的顏色信息符合第i類病害圖像顏色的基本規律,那么Dnew的顏色可以主要由Di中的基本元素組合得到,因此求解以下問題:
對于枸杞葉部的某幅圖像而言,可能包含多樣的病害類別,但對于由顏色所傳達的病害信息,會被圖像中數量較多的一些顏色決定,并且同一病害顏色系列中不同顏色所傳達的病害信息強弱也有所區別,因此當獲得Dnew的稀疏表示α后,結合上述因素對圖像可能傳遞的病害信息進行分析,最終決定圖像顏色所表達的病害類別。具體算法如下:
(1)對于新病害圖像Dnew,執行“1.3”部分的算法,獲得圖像主顏色Cnew,用Cnew代表圖像Dnew;
(2)計算Cnew在顏色信息碼本D中的稀疏表達αnew;
(3)按照公式Ck′=Dkαk,計算Ck′;
當農戶或采摘者看到某一病害枸杞植株時,可以用智能手機、數碼相機或田間攝像頭拍攝一幅或幾幅該枸杞植株的病害照片,并將這些圖片提交給枸杞病害識別系統,系統可以根據提交的病害照片識別出此類病害的名稱、防治措施和危害程度等相關信息。
枸杞病害圖像主要是通過實驗室采集、數碼相機、智能手機和田間攝像頭拍攝等多種方式采集枸杞葉片部位的不同病害的照片,以及結合互聯網上的枸杞圖像,建立了較大規模地區性的枸杞葉部病害圖像數據庫。
測試試驗中,利用枸杞病害圖像生成病害信息顏色碼本,按照該研究采用的方法對病害圖像進行識別,共收集圖像2 100幅,經過分類評估試驗,分別標注了725幅白粉病圖像、520幅灰斑病圖像、365幅炭疽病圖像、290幅癭螨病圖像和200幅無病害(健康)圖像。對標注結果進行主觀評價后發現,725幅白粉病類病害圖像中,553幅圖像被識別為白粉病,主觀評價正確率為76.38%;520幅灰斑病圖像中372幅被識別為 “灰斑病”類病害,主觀評價正確率為71.56%;365幅炭疽病圖像中有243幅被識別為“炭疽病”類病害,主觀評價正確率為66.82%;290幅癭螨病圖像中有177幅被識別為“癭螨病”類病害,主觀評價正確率為61.33%。
在對所建立的病害圖像數據進行測試時,按2∶1的比例對所有病害樣本圖像劃分為訓練圖像集和測試圖像集,隨機選擇樣本集中每類別中2/3的樣本圖像作為訓練圖像集,其余1/3作為測試圖像集。根據前文所述內容,利用空間約束模糊聚類提取訓練集圖像的顏色特征信息,建立各類別病害圖像的顏色信息碼本,連接構成病害圖像集的顏色信息編碼字典,利用第3節的圖像病害類別劃分算法,對測試集圖像進行病害分類測試。在測試過程中,對于稀疏表達時的字典大小K,不同值對最終信號正確表達的能力不同,因此該研究測試了不同大小的字典下本文所提出的分類方法的性能,性能標準被定義為誤分率,交叉試驗3次,測試結果見表2。
通過測試結果,當所訓練的顏色信息碼本大小在400以下時,系統的分類識別率誤差較大;當在顏色信息碼本長度在600以上,系統的分類識別率在70%以上;當在顏色信息碼本長度超過900時,系統的分類性能趨于穩定,其中“白粉病”類病害圖像誤識率為12%,“灰斑病”類病害圖像誤識率為13%,“炭疽病”類病害圖像誤識率達到36%,而“癭螨病”類病害圖像誤識率達到39%。上述結果也表明,病害圖像的病害類別與圖像的顏色分布有關,特別是病害程度較為強烈的病害,例如“白粉病”“灰斑病”“炭疽病”和“癭螨病”類病害,它們與顏色之間的關系更為緊密。因此,對于自然圖像所傳遞的顏色信息,不同田間場景下、植株背景下的顏色所能起到的作用大小不盡相同。

表2 不同字典大小病害圖像分類識別性能比較
該研究針對寧夏枸杞種植和枸杞病害特征的實際情況,采用圖像處理技術和稀疏表示方法快速、有效地進行枸杞病害圖像的分類[14]。首先對病害圖像的病害類別進行劃分,根據評估實驗建立“白粉病”“灰斑病”“炭疽病”和“癭螨病”4種病害類別的圖像樣本集,然后對樣本集各類別圖像的顏色特征進行分析,建立其對應病害類別的顏色特征碼本,利用信息稀疏表達理論的相關方法建立病害圖像類別與顏色特征之間的映射關系。試驗結果表明,該方法對病害圖像顏色信息所傳達的信息具有一定的解釋能力,具有較低的誤分率和較高的準確度。
[1] CNNIC.2014年農村互聯網發展狀況研究報告[R/OL].(2015-06-17)[2017-11-17].http://www.cnnic.cn/hlwfzyj/hlwxzbg/ncbg/201506/t20150617_52423.htm.
[2] 籍延寶.農業主要病蟲害監測預警系統通用平臺的開發及初步應用[D].北京:中國農業大學,2014.
[3] 胡秋霞.基于圖像分析的植物葉部病害識別方法研究[D].楊凌:西北農林科技大學,2013.
[4] BLASCO J,ALEIXOS N,MOLTE.Machine vision system for automatic quality grading of fruit[J].Biosystems engineering,2003,85(4):415-423.
[5] 汪京京,張武,劉連忠,等.農作物病蟲害圖像識別技術的研究綜述[J].計算機工程與科學,2014,36(7):1363-1370.
[6] SWAIN M J,BALLARD D H.Color indexing[J].Int J Compute Vision,1991,7:11-32.
[7] STRICKER M A,ORENGO M.Similarity of color images[C]//Proceedings of SPIE.San Jose,CA,USA:The International Society for Optical Engineering,1995:381-392.
[8] MIN R,CHENG H D.Effective image retrieval using dominant color descriptor and fuzzy support vector maching [J].Pattern recognition,2009,42(1):147-157.
[9] MANJUNATH B S,SALEMBIER P,SIKORA T.Introducton to MPEG-7:Multimedia Content Description Interface [M].Wiley:Chichester,2002.
[10] 呂澤華,金海,袁平鵬,等.基于Gauss分布函數的區間值數據的模糊聚類算法[J].電子學報,2010,38(2):295-300.
[11] GAO S,TSANG I W H,CHIA L T,et al.Local features are not lonely-laplacian sparse coding for image classification[C].San Francisco,CA,USA:IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2010:3555-3561.
[12] HSIAO J K,KANG L W,CHANG C L,et al.Learning sparse representation for leaf image recognition[C].Taiwan:IEEE International Conference on Consumer Electronics,2014:209-210.
[13] 徐健,常志國.基于聚類的自適應圖像稀疏表示算法及其應用[J].光子學報,2011,40(2):316-320.
[14] HUANG S,YANG Y,YANG D,et al.Class specific sparse representation for classification[J].Signal processing,2015,116:38-42.