葉 婷,馬宏娟,盧 銳,徐雯潁,吳洪洪*
(1.武漢船舶職業技術學院 計算機信息技術學院,武漢 430050;2.華中農業大學 植物科學技術學院,武漢 430070)
農業是關系國計民生的基礎產業。目前我國的農業生產模式是高投入高產出,經濟效益相對較低,生態環境負擔大,可持續性不強。在此背景下,我國明確了農業4.0升級換代的政策導向。而智慧農業是農業4.0的重要研究方向之一。趙春江[1]院士指出:“智慧農業是以信息和知識為核心要素,通過互聯網、物聯網、大數據、人工智能和智能裝備等現代信息技術與農業跨界融合,實現農業生產全過程的信息感知、定量決策、智能控制、精準投入、個性化服務的全新農業生產方式,是農業信息化發展從數字化到網絡化再到智能化的高級階段”。毋庸置疑,智能化感知、智能化預警、智能化分析和智能化決策等都是智慧農業應用及實施中的重要組成部分。因此,智慧農業的實現離不開人工智能。
人工智能概念由約翰·麥肯錫在1956年首次提出,可分為通用人工智能(Artificial General Intelligence)和狹義人工智能(Artificial Narrow Intelligence)。通用人工智能也被稱為強人工智能,泛指能實現人類智能活動的一類系統,具有和人類相似的智能行為,包括決策、學習和交流,甚至看、聽和聞等能力。狹義人工智能也被稱為弱人工智能,泛指專注于某種特定問題或任務的一類系統,不具備自我認知能力或任何感知能力。從系統結構來看,人工智能系統是一個包括數據輸入、數據處理、學習模型和學習方法等組成部分的復雜功能系統。其中,數據挖掘和機器學習是人工智能系統的關鍵組成部分。因此,數據挖掘和機器學習是人工智能系統服務于智慧農業的重要抓手。本文將從農業數據挖掘的研究內容、數據挖掘過程和關鍵技術等方面介紹數據挖掘和機器學習服務于智慧農業的相關理論和進展。
如前所述,智慧農業的應用與實施離不開人工智能。而農業大數據則是人工智能中的重要一環。農業大數據是指基于大數據分析,利用大數據理念及技術方法,以解決農業及相關領域數據的采集和存儲,以及其后續的計算與應用等一系列問題[2]。與其他大數據技術相比,農業大數據有農業數據自身的特點,如涵蓋區域廣、數據采集復雜、干擾因素多、涉及領域和內容相對寬泛、受眾群體文化水平參差不齊,以及決策管理及落實難到位等特點[3]。譬如,狹義的農業生產包括糧食作物、經濟作物、飼料作物和綠肥等種植業生產。其農業數據采集涉及到播種前、生產中和收獲后等過程,如耕地整地、播種、澆水施肥、殺蟲除草、采收、儲存、加工制作與販賣銷售等農業生產、加工和銷售的各個環節。廣義的農業生產則包括種植業、林業、畜牧業、漁業和副業等多種產業形式[4]。毋庸置疑,其農業數據采集的復雜程度更高。
前人研究表明,相比結構化數據,非結構化數據已經在快速增長,且其數量也已遠超結構化數據[5]。譬如,相對于存儲于數據庫、基于二維表結構進行邏輯表達實現的結構化數據,農業數據則主要以非結構化數據為主。除圖表、文字、動畫、音頻/視頻及農業模型等內容外,農業數據還包括非數據化呈現的專家經驗和知識等。此外,農業生產過程中作物與環境互作程度高,易受環境因素變化和人工管理變量等因素的影響,因此農業數據采集具有一定的多樣性和異變性。上述因素都共同影響了農業數據的采集、挖掘與分析應用的難度。因此,如何有效挖掘農業數據價值、提高農業數據的分析應用能力并盡量減少數據垃圾且避免數據冗余,是將農業大數據有效應用于智慧農業的重要前提。
數據挖掘(Data Mining,DM)是指對大量的不完全或者雜亂無章的信息中具有隱性規律且有價值的數據進行有效挖掘,并將挖掘出的有效數據轉化為知識,從而進一步轉化為價值的過程[6]。數據挖掘技術不僅可挖掘多種不同類型的數據,如結構化數據和非結構化數據,同時其結果呈現的形式不僅僅局限于規則集、公式等,可為人們進行正確和科學的決策提供很大幫助。目前,數據挖掘已在眾多行業中得到了廣泛應用,并取得了良好的結果。當前運用到的數據挖掘主要通過大數據統計、機器學習和深度學習、知識庫和專家系統,以及模式識別等技術來完成相應目標,而這些都離不開計算機科學的關聯和支撐。
數據挖掘主要分為2個部分:描述和預測。前者通過對數據的收集和預處理,生成對數據集內部關系的相關描述;而后者則主要通過對數據集的潛在聯系進行研究,并以此構建學習模型,從而達到對既定維度數據進行相關預測的目的。當下,農業大數據挖掘的主要關注點有產量預測[7]、作物生長實時監測、農業專家系統[8]和農業氣象分析[9]等。其中產量預測和農業專家系統是農業數據挖掘中較為受到關注的2個維度,相關研究較多。其中,產量預測的關鍵在于相關的預測技術方法和模型的選擇。譬如,針對全國糧食產量預測這一重大戰略需求,中國科學院陳錫康教授首先在國際上提出并創立了投入占用產出技術這一新的方法。其特點是不僅針對經濟流量,研究了在某個時期經濟系統所發生的投入產出關系,而且還能把經濟系統在某個時間點上的存量情況進行相對恰當的體現。此方法更全面地反映了影響糧食產量的因素。同時,華中農業大學彭少兵教授團隊在產量差預測方面做了一些有益的探索,為制定和實施全國乃至全球的農業領域優先研究及發展策略提供了參考和新思路[10]。然而關于農業生產過程中的數據挖掘目前則相對研究不多。植物表型組技術相關的數據挖掘是其中一個主要代表。植物表型組技術研究的核心是獲取高質量、可重復的性狀數據,進而量化分析基因型和環境互作效應及其對產量、質量和抗逆等相關的主要性狀的影響[11]。譬如,華中農業大學楊萬能團隊利用高通量多重光學表型技術和GWAS分析技術剖析玉米群體復雜性狀的遺傳結構及其克隆耐旱性[12]。
此外,如何利用農業大數據挖掘結果,進一步優化產前干預(如智能育種、播期精準預測等)、產中管理(如水肥運籌、打頂減枝等)及產后溯源(如農產品存儲、銷售等)等全產業鏈過程,也是農業數據挖掘的研究內容。充分利用農業數據挖掘技術,不僅將有利于提高整個農業生產過程的精準化監測,而且有利于對其進行智能化決策、科學化管理和調控。
農業數據挖掘的相關流程主要有:①數據準備;②數據挖掘;③數據分析或預測(圖1)。目前農業大數據的獲取主要包括以下幾個方面。①農業生產環境的相關數據采集;②生命信息的相關智能感知;③農田變量相關信息的快速采集;④農業遙感相關數據的獲取;⑤農產品市場相關經濟數據的采集;⑥農業網絡相關數據的抓取等[13]。第一個環節是“數據準備”階段,其主要是通過利用各種相關終端采集設備(如移動終端、傳感器、溫濕度計和無人機等)來獲取不同的基礎農業數據,并搜索與業務對象有關聯的內、外部的相關數據信息,從中優化選擇出可用于數據挖掘應用的相關數據,對數據進行標準化、去噪等工作,并將目標數據集存儲到自己的數據庫或者數據倉庫中,方便后續挖掘工作的開展。而在“數據挖掘”階段,其主要任務是建立相關知識庫。第一步是明確數據挖掘的目的,然后則是優化選取不同的適用于該數據挖掘目的的算法,將產生的模型放入到知識庫中,方便后續相關操作。最后,在“數據分析和預測”階段,第一步應該解釋并評估結果,面對不同的應用場景用不同的技術或平臺來處理,通過數據建模、利用挖掘分析軟件進行深層次數據分析[14],最后通常會使用到可視化技術或其他相關知識表達技術,進一步把結果以用戶感興趣的方式呈現。

圖1 農業數據挖掘的相關流程
數據挖掘是一個人機交互、不斷重復的過程[15],在數據準備階段,搭建集多傳感器于一體的自動化農機設備是目前農業機械領域的研究熱點之一。這些安裝在農機上的傳感元件可以獲取聲吶、紅外和多光譜等多種特殊的農田信息,并且隨農業機械(無人機、智能農機車輛等)的快速移動實現對大面積農作物的表型等信息的快速掃描。Pedro等研究開發的同時攜帶了4套傳感器(聲吶傳感器、紅外輻射傳感器、GPS-RTK接收器、多光譜作物冠層傳感器)的田間表型動態性狀監測系統,能夠同時測量冠層高度、歸一化植被指數及溫度,從而對棉花的多個性狀進行快速準確測量。
植物信息中蘊含著大量的數據,但是不能直接利用,對這些數據進行篩選,提取有效信息排除“噪音”,優化機器學習算法,運用人工智能等方法對所捕獲的信息進行深度挖掘和分析,是大數據挖掘信息處理部分的研究重點。這些數據來自不同類型的傳感器設備,所產生的數據類型也不同,如數字數據、圖像數據和光譜數據等。通過數據挖掘與分析,可將不可直接利用的不同類型的數據通過適當算法轉換為可執行的決策。當前廣泛應用于農業、工業及商業等領域的深度學習算法雖然同屬于機器學習,但是與傳統機器學習有很大不同,深度學習是機器學習中具有深層結構的神經網絡算法[16]。傳統機器學習主要依賴人工進行特征提取,但是面對大量數據時效率較低,深度學習靠機器自動進行特征提取,在處理復雜數據時會有更好的表現,但可解釋性較差。深度學習中已經有很多成熟且高效的算法,如卷積神經網絡(Convolutional Neural Networks,CNN),循環神經網絡(Recurrent Neural Networks),遞歸神經網絡(Recursive Neural Networks)。CNN是前饋網絡,信息流在網絡中發生只有一個方向,從輸入到輸出,就像人工神經網絡(ANN)是受生物學啟發的,CNN也是受大腦的視覺皮層啟發的,由簡單細胞和復雜細胞交替組成[17]。通過信號采集、加權求和及導入激活函數這一流程模擬人腦中神經元傳遞信號的過程。在高光譜成像分析等智慧農業應用場景中卷積神經網絡展現出獨特的優勢,其通過卷積(Convolution)進行稀疏連接,通過激活函數(如ReLU)引入非線性函數,通過池化(Polling)減小維度特征提升效率,卷積神經網絡的應用極大提高了識別的準確率。
人工智能是智慧農業的基石之一。而數據準備和數據挖掘則是人工智能的前提條件之一。因此,分析農業數據準備和數據挖掘的當前研究內容和進展有利于促進人工智能在智慧農業中的應用。進一步優化數據采集和數據清洗,從紛雜和形式多樣的采集數據中獲取有效的農業數據,并進行優化、高效的農業數據挖掘,有利于加強智慧農業的智能決策及其相關的優化管理。