張翔鶴 王曉麗,3 劉婷婷,3 胡 林 樊景超,3*
(1.中國農業科學院農業信息研究所,北京 100081;2.國家農業科學數據中心,北京 100081;3.農業農村部農業大數據重點實驗室北京 100081)

數據庫(集)基本信息簡介
我國是果業大國,隨著我國經濟結構的調整,果品產業已成為我國種植業的第三大產業。但是我國水果需求量仍然很大,根據國家統計局數據顯示,近幾年我國水果進口數量均大于出口數量。2020 年我國水果出口金額為68.32萬美元,進口金額為115.6萬美元。究其原因,是我國出口的水果達不到進口國的水果質量標準。近年來,人們對高質量產品的需求不斷提高,如何生產出高質量的綠色有機水果已經受到了社會各界的廣泛關注。對果園的治理包括疏花疏果、樹體保護、災害防治等措施,及時觀察、測報和隨時清理果園中的病蟲源是最為有效措施。果園蟲害輕則導致果園減產,重則導致果樹損毀。現階段,我國果園病蟲害造成投入成本高,病蟲害的發生造成的直接經濟成本約為總成本的十分之一以上。對病蟲害的防治成本約為總成本的百分之四十以上。果園病蟲害種類繁多,過去的果園病蟲害監測和防治已經很難滿足當前時間、空間和成本上的需求,而基于圖像識別技術對果園害蟲進行精準識別,能夠降低成本,精準治理果園,提高果實質量,增加收益。通過害蟲圖像對其種類進行精準識別,對果樹進行害蟲情況預測,進而針對具體害蟲進行精準用藥或者引入天敵生物等措施[1],達到精準治理病蟲害。由此看來,果園害蟲的分類識別對果園綜合治理至關重要[2-3]。本研究收集了果園中常見的六種害蟲的圖像數據,對開展果園害蟲的機器識別提供了基礎圖像數據。
隨著深度學習技術和計算機圖像處理水平的快速提升,諸多學者也采集了很多果園害蟲圖像數據用以機器的深度學習訓練。李文勇[4]設計了一套果樹害蟲采集系統,采集各種果樹害蟲的圖像數據,并以此研發了一種基于機器視覺的果園性誘害蟲在線識別與計數方法;程魯玉等[5]也依據果林害蟲的圖像數據,根據機器視覺方法提取害蟲圖像特征,從而實現了果林中果害蟲圖像特征高效分類識別,能夠為果林病蟲草害的診斷提供有力依據;田冉等[6]則將工業相機采集的果園害蟲圖像數據和紅外傳感器識別結果相結合,得到一種紅外傳感器與機器視覺融合的果樹害蟲識別和計數方法,可以一定程度上提高害蟲的識別準確率。
此外,對于有記載的可信度高的同類調查數據集,山東農業大學相關研究人員[7]對北京昌平等地蘋果園的蟲害進行調查,含有采集地、采集部位、采集人、采集單位等數據。當前我國果園病蟲害數據的收集,主要集中于對害蟲資源的發生危害信息,害蟲本身的圖像數據集較少。
本數據集通過網絡搜索引擎收集了果園常見的六種害蟲:桔小實蠅、金龜子、梨小食心蟲、青葉蟬、星天牛和柑桔大實蠅的原始圖像數據,并對模糊不清、分辨率低和尺寸不一的圖像進行篩選,最終得到可用于圖像識別技術的圖像1613 張。并提供其中三種害蟲的顯著度圖像,可用于進一步的害蟲分類研究。本數據集為果園害蟲相關研究提供了數據基礎。
本數據集的測試對象為果園害蟲,經過文獻調研和資料調查,選取六種最常見的害蟲圖像,通過網絡爬蟲和搜索引擎獲取。基于建立的模型,其適用度有所不同,考慮到一般的顯卡容量以及運行時間,對圖片尺寸的要求為100~300px之間[8]。收集到的圖像樣本數據量如表1所示。

表1 果園害蟲圖像樣本數據量Tab.1 Orchard pest image sample data
對于本數據集中的顯著圖圖像數據,由于圖像質量對模型的構建至關重要,并且決定了后續相關研究提取昆蟲特征的有效性,因此圖像處理方法至關重要。對于害蟲圖像的有效特征提取,有很多種方法,如蟻群優化算法等[9],本數據集采用反卷積方法,能夠選取最有效、最適合構建模型的原始圖像的樣本[10]。本數據集采用的實驗設備是一臺聯想Thinkstation圖形工作站,顯卡是Nivida Quadro K4000顯存3GB,GPU運算能力是3.0。
選定適量的測試集,預先對AlexNet 網絡模型進行訓練,達到一定效果后,對本數據集收集的害蟲圖像進行反卷積可視化[11-12],反卷積可視化方法可以有效遴選適合進行模型構建的原始圖像樣本[8]。通過所得圖像判斷當前圖像能否有效提取害蟲特征,第一層識別圖像不顯著,再對圖像進行第二層反卷積可視化。如此,便得到原始害蟲、低維特征、特征組合以及全局的高位特征圖像,如圖1所示。

圖1 害蟲圖像反卷積可視化Fig.1 Pest image deconvolution visualization
由此,通過反卷積過程提取到有效的害蟲的識別特征,將這些樣本遴選出來作為高質量的樣本集合。由于每一類害蟲的圖像數據樣本量不一致,分辨率高低不一致,訓練精度往往會因此降低。所以,將每一類害蟲的數據樣本量控制在一定范圍內,適量刪減其分辨率不一致的圖像,最終得到總樣本集合799 張顯著圖,這些高質量的樣本圖像數據便可以直接用于神經網絡的訓練和驗證。
每一類害蟲的圖像數據保存為一個文件夾,命名方式為“品種名稱”。該文件夾包含原始數據和兩層顯著圖數據,命名方式為“原始圖像”、“第一層識別圖像”和“第二層識別圖像”。內部文件命名方式為“品種名+序號”。部分樣本示例如圖2 所示。本數據集共收集保存桔小實蠅原始圖像372 張,第一層識別圖像372張,第二層識別圖像372張;柑橘大實蠅原始圖像217 張;金龜子原始圖像418 張,第一層識別圖像38 張;梨小食心蟲原始圖像497 張;青葉蟬原始圖像58 張,第一層識別圖像18 張;星天牛原始圖像54張。

圖2 桔小實蠅原始圖像、第一層識別圖像、第二層識別圖像Fig.2 The original image of Bactrocera dorsalis,the identification image of the first layer and the identification image of the second layer
在數據收集和整理過程中,原始圖像尺寸控制在100-300px 之間,并對原始樣本圖像數據進行機器識別,提取其特征。運用反卷積遴選方法,對提取出有效特征的樣本進行篩選,從而得到高質量的具有有效特征的樣本。再對這些提取出有效特征的樣本進行刪減,將分辨率控制224。最終得到高水平的數據集:顯著圖分辨率一致,并且均具備有效特征。
此外,在拍攝圖片的復雜背景下分割出害蟲圖像,從而提取有效的特征信息,是相對復雜的[13]。本研究采集的害蟲圖像背景簡單,也為分割圖像提取特征提供了方便。隨著現代圖像處理技術的發展,復雜圖像的識別分割將不會是難題。
本數據集是經過大量搜索提純后得到的高質量數據集,除了原始圖像數據集,對于擁有清晰昆蟲特征的圖像數據,提供機器識別后的顯著圖,包括神經網絡第一層和第二層的識別圖,可以直接用以相關研究,如研究建立昆蟲識別模型等[14-15]。
利用圖像數據,進行特征提取后,借助SVM 分類器等進行昆蟲種類的智能識別[16-17]。此外,使用數據集時可以直接對六種害蟲,分析其圖像特征,針對這些特征研究制定防范蟲害的措施等[18]。
數據作者分工職責
張翔鶴(1997—),女,山東青島人,碩士,研究生,主要從事農業科學數據管理與分析研究。主要承擔工作:數據匯總整理及論文撰寫。
王曉麗(1982—),女,河北欒城人,博士,助理研究員,主要從事農業科學數據管理與分析研究。主要承擔工作:數據整理與分類匯總。
劉婷婷(1985—),女,北京人,碩士,助理研究員,主要從事農業科學數據獲取與研究。主要承擔工作:數據集整合與處理。
胡林(1967—),男,內蒙古商都縣人,博士,研究員,主要從事科學數據管理相關研究。主要承擔工作:總體方案設計與組織實施。
樊景超(1980—),男,遼寧沈陽人,博士,副研究員,主要從事農業科學數據管理與分析研究。主要承擔工作:圖像數據采集,總體方案設計與組織實施。
引用數據
[1]張翔鶴,王曉麗,劉婷婷,等.桔小實蠅等六種常見果園害蟲圖像數據集[DB/OL].國家農業科學數據中心.DOI:10.12205/asda.j00003.00008.
Zhang X H,Wang X L,Liu T T,et al.Image data set of six common orchard pests such as Bactrocera dorsalis[DB/OL].National Agriculture Science Data Center.DOI:10.12205/asda.j00003.00008.