摘要[目的]解決水稻害蟲傳統識別方法的低時效性問題。[方法]采用數字圖像處理方法對水稻害蟲進行圖像識別和分類,對水稻害蟲的蟲體面積、蟲體周長、偏心率、形狀參數、似圓度、葉狀性、球形性等幾何形狀特征進行提取和研究,并采用支持向量機(SVM)分類器對水稻害蟲二化螟、三化螟、稻飛虱、卷葉螟進行分類。[結果]利用所建立的6個特征判別函數對4種水稻害蟲進行判別分類,識別率達到96.67%,說明這6個經過篩選的特征具有很強的判別性。[結論]支持向量機分類器的識別方法很好地解決水稻害蟲傳統識別方法的低時效性問題。支持向量機以風險最小化為原則,兼顧訓練誤差與測試誤差的最小化,具體體現在分類模型的選擇和模型參數的選擇上。
關鍵詞圖像處理;特征提取;識別分類
中圖分類號S126文獻標識碼A文章編號0517-6611(2014)23-08043-03
作者簡介李文斌(1990- ),男,浙江溫州人,碩士研究生,研究方向:數字圖像處理。
收稿日期20140707水稻是我國最重要的糧食作物之一,因此提高水稻產量是當前水稻生產的重要目標。但是,由于生產設備和預防監控措施落后,尤其是農業生物災害又頻頻發生,對水稻生產造成了非常嚴重的影響。近年來。水稻害蟲危害逐年加重。因此,害蟲準確、及時地預測預報成為了水稻害蟲預防和治理的前提,而水稻害蟲預測預報的核心內容就是圖像識別和分類。
然而,以往的水稻害蟲識別方法都是依靠人為完成,通過大量的工作人員實地考查水稻害蟲的形狀、顏色等外部特征進行,需要較長的工作周期,并且實時性差,嚴重影響了水稻害蟲識別速度。基于此,筆者對水稻害蟲圖象自動識別技術進行研究。
1系統流程
圖像自動識別技術包括兩個方面:水稻害蟲圖像幾何特征提取和圖像識別分類。圖像幾何特征反映了水稻害蟲的一些基本特征,合理的幾何特征便于更好地獲得有效的害蟲形態特征信息,進而用于圖像識別分類。該研究通過對多種水稻害蟲的面積、周長、偏心率、形狀參數、似圓度、葉狀性、球形性等幾何形狀特征進行了提取和研究,并采用支持向量機分類器(SVM)對多種水稻害蟲進行了分類識別處理,解決了以往識別技術中時效性差的問題。系統流程圖如所示。
系統流程2圖像預處理
2.1圖像去噪及其灰度化基于ARM系統的COMS攝像頭獲得的圖像由于受到自身像素及其各種自然環境和拍攝角度的影響,往往圖片質量會較差,從而給后面的識別工作帶來困難,因此,需要對水稻害蟲初始圖像進行必要的預處理,以提高圖像質量。為了提高圖像質量,減少初始圖像中的噪聲,采取了圖像平滑處理來去除噪聲。常用的圖像平滑方法有均值濾波和中值濾波,該系統采用中值濾波的方法,這是因為在同等尺寸大小下,中值濾波具有更好的去噪能力和較低的模糊度[1]。
另一方面,通過COMS攝像頭獲取的圖像都是彩色圖像,然而彩色圖像包含較多的像素,因此會占用較大的計算時間,而圖像灰度化就是將彩色圖像轉換為灰度圖像的過程,這樣可以減少計算時間和減少內存占用,所以在進行圖像特征提取之前首先將圖像進行灰度化處理,處理結果如所示。
2.2圖像灰度閾值變換處理在圖像識別中,對直接拍攝得到的圖像直接進行分類是不科學的,這是因為沒經過處理的圖像數據占用很大的存儲空間,如果直接進行識別,則具有大量的計算量,降低效率;另外,直接拍攝得到的圖像有很多冗余的信息,如圖像的背景等一切與蟲體無關的信息量,因此,在提取水稻害蟲特征前必須先去除背景等無用信息,
原始圖像及處理后的灰度圖像突出蟲體有效信息。因此,采用灰度閾值變換處理,使得背景圖案和蟲體能夠很好地分離開來。
所謂灰度閾值變換就是將一幅灰度圖像轉換成黑白的二值圖像,設置一個灰度值,該灰度值起到分界線的作用。圖像中某像素的灰度值小于該灰度值,則將該像素的灰度值設置為0,否則設置為255,這個起到分界線作用的灰度值成為閾值。
在試驗中,得出將灰度閾值設置為180的時候的二值化圖像是最優的,基本上完整地描繪出了整個昆蟲圖像的輪廓。當設置為大于180的時候,圖像的輪廓會變得厚重圓滑,從而使得外形失真;當灰度閾值小于180的時候,圖像輪廓會有不同程度缺失,會使得大量數據丟失。試驗結果如所示。
灰度圖像及處理后的二值化后圖像3圖像特征提取
對于人類視覺而言,人們通常利用水稻害蟲的物理結構特征來進行識別處理,但這些特征對于機器識別是具有很大難度的[2]。所謂特征提取就是從水稻害蟲中提取出可以把蟲體種類區分開來的并能被機器所直接使用的數據量。要對水稻害蟲進行特征提取,首先要確定水稻害蟲有哪些蟲體特性參數。其次,要適當地選擇提取的特征參數,特征參數選擇的好壞直接影響到后面能否正確地識別出害蟲種類,因為有些蟲體原始特征對于分類器的識別分類影響不大。因此,需要從試驗的所有特征參數中挑選出效果最好的特征參數。該系統中,主要對水稻害蟲的面積、周長、偏心率、形狀參數、似圓度、葉狀性、球形性和孔洞數等形態學特征進行識別分類[3]。
3.1蟲體面積蟲體面積是一個能直接區分蟲體種類的特征參數,直接關系到蟲體的形狀和大小,是用來描述水稻害蟲大小的基本特性,圖像蟲體面積表示該圖像中蟲體在一定范圍內所占的像素點總數。蟲體面積表達式如下:
A=Mx=1My=1f(x,y)
3.2蟲體周長周長和面積一樣,是描述蟲體外圍形狀和輪廓的重要參數。水稻害蟲種類不同,它們的圖像所占區域的大小也相差很大;周長P=A-SUM(in),其中,A表示圖像區域面積,SUM(in)表示圖像的4鄰域范圍內的像素總數。
3.3偏心率偏心率的表達式為E=p/q,是一個用來描述蟲體緊湊性的一個參數,它在一定程度上表示水稻害蟲的蟲體形狀,體型狹窄度。一般情況下,偏心率越大,則蟲體就越狹窄;偏心率越小,則蟲體外形就越寬大。
3.4形狀參數形狀參數的表達式為C=P3/4πA,該參數描述了蟲體所占圖像區域的緊湊性,形狀參數這一特征可以有效地識別那些蟲體受損的水稻害蟲。一般情況下,當蟲體受損后,很難將其區分出來,而加入形狀參數后,這一缺陷得到了很好的改善。
3.5似圓度似圓度R=4A/πl2,其中,A是圖像面積,L是圖像橫軸長度。似圓度描述了圖像形狀的問題,是一個相對參數,可以用來描述水稻害蟲的形態特征。
3.6葉狀性葉狀性反映水稻害蟲的邊界幅度變化特性,定義為:B=R1/W,式中,B為葉狀性參數,R1為區域重心到邊界的最短距離,W為圖像的橫軸長度。
3.7球形性球形性SP=Ri/Rc,其中,Ri和Rc分別表示目標內切圓和外切圓的半徑,兩個圓的圓心都在區域的重心上。
3.8孔洞數將水稻害蟲圖像區域中無用的小區域定義為孔洞,對小區域進行標記并計數實現孔洞數的計算。
4圖像特征提取結果分析
選取50幅二化螟圖像、50幅三化螟圖像、50幅稻飛虱圖像、50幅卷葉螟圖像,測得上述8個特征數據如所示。從可以看出,二化螟圖像面積在3種水稻害蟲中最大,周長也最大;而卷葉螟圖像偏心率最大,是卷葉螟體型狹長、細窄的體現;稻飛虱、二化螟和三化螟展翅寬度較大,反映為偏心率較小。葉狀性反映了目標邊界的曲直變化頻率和幅度。在4種昆蟲中,卷葉螟圖像的葉狀性最大,是由于卷葉螟向外伸展使得圖像邊界幅度和方向變化很大,二化螟和稻飛虱的翅和體之間也有比較大的變化,其葉狀性小于卷葉螟而大于三化螟,根據似圓度,也可以判斷出卷葉螟似圓度最大。另一方面,根據球形性和孔洞數很難判斷出一個昆蟲的形狀特征和種類。
因此,運用逐個分析方法對上述特征進行篩選,得到6個特征,分別為區域面積、偏心率、形狀參數、周長、似圓度、葉狀性,剔除了孔洞數特征以及球形性。利用所建立的6個特征判別函數對以上4種昆蟲進行了判別分類,結果如所示,識別率達到96.67%,說明這6個經過篩選的特征具有很強的判別性。
圖像特征提取結果水稻害蟲蟲體面積蟲體周長形狀參數似圓度葉狀性偏心率球形性孔洞數二化螟10 393.54768.824.690.370.008 460.440.1526.44三化螟5 196.72521.324.350.350.001 800.310.1126.12卷葉螟2 846.29415.647.651.040.146 001.640.1322.04稻飛虱4 351.63498.326.590.980.009 400.420.1725.02
5支持向量機(SVM)分類器的設計
一般情況下,傳統意義上的識別技術都是通過分類器對訓練樣本的擬合情況進行蟲體識別,利用最小化訓練集上的分類器作為訓練目標,通過提供充足的樣本來提高分類器的識別率,然而,這個方法存在一個很嚴重的缺陷。當樣本數量嚴重不足的時候,不能保證一個很好地分類了訓練樣本的分類器也能夠很好地測試樣本,在缺乏代表性的小訓練集情況下,一味地降低訓練集上的分類錯誤就會導致過度擬合。
針對傳統識別模式中存在的缺點,采取支持向量機(SVM)分類器的識別方法,該方法很好地解決了這一問題。支持向量機以風險最小化為原則,即兼顧訓練誤差與測試誤差的最小化,具體體現在分類模型的選擇和模型參數的選擇上[4]。
該試驗中,將二化螟、三化螟、稻飛虱、卷葉螟4類水稻害蟲分別標記為A、B、C、D 4類樣本,將這4類樣本兩類兩類地組成訓練集,得到(A,B)、(A,C)、(A,D)、(B,C)、(B,D)、(C,D)。對于這4類樣本中的任意一類,就可以用相對應的分類器來識別,像A類樣本,可以組合成(A,B)、(A,C)、(A,D)這3類分類器來對害蟲進行分類識別,因此可以根據這些分類器的置信度來對這些二分器進行可靠性排列。一般情況下,置信度高的分類器得到的結果可靠性就高,置信度低的分類器出現誤判斷的機會就比較大。蟲體識別判別過程如下所示。
第1步:對不同分類器的置信度大小進行排列,依次為(A,C)、(A.B)、(A,D)、(B,D)、(C,D)、(B,C),并分別編號為第1類分類器、第2類分類器、第3類分類器、第4類分類器、第5類分類器、第6類分類器。
第2步:設被識別對象為未知昆蟲X,首先由第1類分類器進行識別操作,根據第1類分類器的判別函數的結果來判斷。當第1類分類器的判別函數的結果為正數時,則結果為類型A,所有關于類型C的判別函數均被淘汰;若結果為負數時,則結果為C,所有關于類型A的判別函數都被淘汰;若判別函數的結果為0,則表示拒絕判斷,這時選用第2類分類器進行識別;如果結果類型為C,則所剩判別函數為(B,D)、(C,D)、(B,C)。
第3步:被識別對象X再由第4類分類器進行識別,若判別函數結果為正數,淘汰所有關于D類的判別函數,則所剩下的判別函數為第6類分類器(B,C)。
第4步:被識別的樣本在由第6類判別函數進行識別,若得到結果為正數,則判定最終的分類器結果為B。
6分類識別結果
由可知,4種水稻害蟲的識別率分別為96%、94%、94%、90%。
4種水稻害蟲識別率
水稻害蟲識別數目識別率∥%二化螟4896三化螟4794稻飛虱4794卷葉螟4590注:參試水稻害蟲的數目均為50。
42卷23期李文斌水稻害蟲圖像識別技術研究7結論
該研究初步選擇8個水稻害蟲圖像特征,并根據試驗過程和結果挑選出6個具有實際判別意義的幾何特征,這些特征是相互獨立的,符合建立分類器要求特征之間具有相互獨立性的原則。該研究提取8種幾何形狀特征非常直觀并易于提取,能夠反映水稻害蟲特點,也能反映出昆蟲的體型結構以及形態特征。但如何提取更多能夠直接反映昆蟲形態特征和鑒別特征的特征及其設計更有效的分類器是今后努力的方向,也是完善昆蟲數學形態學理論的重要步驟之一。