秦小立 葉露 李玉萍 劉燕群 梁偉紅
摘 要 熱帶農業存在信息量大、數字化水平低、關聯性強、涉及領域多、結構復雜等特點,大數據技術能可以進行資源整合、規律發現和價值數據挖掘,能很好地滿足熱帶農業發展的需求。綜述國內外農業大數據發展現狀及存在問題,結合國家“一帶一路”戰略需求,分析我國熱帶農業大數據應用平臺建設的重要性,然后提出熱帶農業大數據應用平臺的基礎設施層、數據層、平臺層、應用層4層架構,設計了數據采集、數據處理、數據儲存、數據分析挖掘、數據可視化和應用6個環節的技術架構,對6環節及技術架構進行了詳細描述,并分析熱帶農業大數據應用平臺的發展前景。
關鍵詞 熱帶農業 ;大數據應用平臺 ;資源整合 ;可視化
中圖分類號 S126 ;TP392 文獻標識碼 A Doi:10.12008/j.issn.1009-2196.2018.01.023
Abstract Tropical agriculture had a large amount of information, low level of digital, strong correlation, more areas and complex structure. Big Data technology had the advantage of promoting the development of tropical agriculture with integrate resources, law discovery and the value of data mining. The current situation and existing problems of agricultural data at home and abroad were summarized, the importance of the construction of big data application platform of tropical agriculture in China was analyzed with the national strategic needs of "the Belt and Road". Then, the four layers of big data application platform of tropical agriculture were proposed, including the infrastructure layer, data layer, platform layer and application layer. The data acquisition, data processing, data analysis and mining, data visualization and application were designed. The 5-tier architecture and five links were described in detail.The prospect of big data application platform of tropical agriculture was analyzed.
Keywords tropical agriculture ; big data application platform ; resource integration ; visualization
隨著云計算、大數據、物聯網等信息處理與采集技術的發展,其在農業上的應用也越來越多,技術也越來越成熟。當前,農業物聯網的數據采集技術已經基本滿足封閉半封閉環境下農田環境的采集需求,為農業數據的產生提供必要手段;云計算技術的發展推動互聯網的計算、存儲服務的模式變革,推動信息技術領域的飛速發展,為大數據技術的發展提供重要的服務基礎;大數據技術在電子商務、政務、工業、金融、醫療等領域的決策方面已有很好的進展和應用[1]。然而,立足于云服務條件下的農業大數據的決策和應用依然處于起步階段,熱帶農業的大數據條件建設和決策應用更是不足。因此,熱帶農業的發展和轉型升級,需要加快完善熱帶農業的云計算服務和物聯網采集等設施建設,同時亟待解決熱帶農業數據資源整合、共享服務和決策應用問題。以服務熱帶農業的發展為宗旨,設計以云計算為服務平臺、以農業物聯網為主要采集手段、以資源整合、數據共享和決策應用為目的的熱帶農業大數據應用平臺,為加快熱帶農業轉型升級、提高熱帶農業國際競爭力提供重要的信息化手段。
1 國內外農業大數據的發展現狀
1.1 農業大數據概述
農業大數據是指農業及涉農相關領域所產生的全樣本或多樣本的不同類型數據的集合,是大數據理念、技術和方法在農業領域的發展與應用[2-3]。農業涉及環境與資源、生產、市場、管理等環節,包括農資、育種、耕地、播種、灌溉、施肥、病蟲害、收獲、倉儲、加工、物流、銷售、畜牧業生產、養殖管理等內容,貫穿整個農業生產、管理、銷售、運輸、消費等過程中的各個環節都會產生大量的數字化信息[4]。此外,農業大數據還涉及跨行業、跨專業、跨領域的服務農業發展的數據。農業大數據智能采集主要是依托部署在農業生產、農產品運輸、儲藏過程中的各種傳感節點(環境溫濕度、土壤水分、二氧化碳含量、圖像等)及有線或無線通信網絡,完成農業數據采集、傳輸、存儲、處理等環節的數據管理,結合機器學習、深度學習等大數據分析處理與挖掘方法,最終實現農業生產、農產品運儲環境的智能感知、智能預警、智能決策、智能分析以及專家在線指導,為農業生產提供精準化種植、可視化管理、智能化決策,為農產品儲運環節提供合適的條件[5]。
1.2 國內農業大數據發展情況
在國內,楊波等[6]積累了多年農作物蟲害發生的數據,并在此基礎上利用SPSS統計分析軟件對氣象數據進行相關性分析,建立氣象數據與玉米螟害蟲發生關系的監測預警模型,取得較好的預測效果。這是農業大數據在蟲害發生預測方面一個具體應用,是農業大數據在農業生產上應用的一個體現。孟祥寶等[1]設計了一個涵蓋從服務、管理、應用、技術、資源等5個關鍵環節的農業大數據SMART應用體系架構,并詳細闡述了平臺的總體架構和功能設計,采用IAAS、PAAS、SAAS服務模式,在Hadoop、HBase、MapReduce架構基礎上實現農業大數據智能分析平臺的數據采集、分析等功能。山東農業大學建立農業大數據應用云平臺,包括數據資源、價格監測、專題分析等多個模塊,涵蓋全國的農業經濟數據統計分析,農業農村生產信息分析,漁業、畜牧業、林業等行業信息資源統計以及糧食專題數據和農產品貿易數據等數據統計、分析、處理功能。山東省主導建立了渤海糧倉科技示范工程大數據平臺,平臺體系主要包括數據采集、挖掘分析、監測預警和決策服務四大模塊,其中數據采集包括人工采集、自動采集、無人機數據、遙感數據、歷史數據五大數據來源,是大數據技術在農業應用方面的一個良好示范,采用了Hadoop基礎框架,并應用HDFS上的HBase、Hive數據存儲技術[7]。此外,云南農業大學等建設云南農業大數據中心,也采用hadoop技術框架。
1.3 國外農業大數據的應用情況
在國外,歐美國家的農業大數據發展水平較為成熟,在精準化、智能化等方面都取得了較好的應用,在降低農業生產成本和提高效率方面都有很好的利用價值。在美國,更加注重農業大數據應用的精準化和智能化,美國農業巨頭Monsanto公司收購和并購了Precision Planting和Climate Corporation公司,擁有全球最大的資源和海量產量數據,并與Climate公司的氣象數據相結合,依靠Hadoop架構進行氣候規律的分析預測,獲取更詳細的種植環境區劃和精細劃分的品種數據[8];種業巨頭Du Pont Pioneer公司依托其優質種質資源與研發技術,也已結合農業大數據推進精準農業技術;美國Trimble公司提供基于GIS的整套農機作業綜合解決方案“網絡農場系統”,該系統能夠通過無線模塊連接整個農場的軟件和硬件設備,從而使信息在室內電腦、農機車輛、其他終端間進行傳輸和處理[9]。目前,美國Deer公司的FramSight、Monsanto公司的ClimatePro或Field Scripts、Du Pont Pioneer公司的Field360等,都結合氣象數據、廣泛使用農業大數據系統,整合農機設備的種植和農場的產量數據,以及氣象、種植區劃等多樣數據,實現更精準的種植決策和農事生產精準化服務,幫助農民提高產量和利潤,已經應用于大部分農場并產生理想收益[8]。通過對農業生產全過程的精準化、智能化管理,可以最大程度地減少化肥、水資源、農藥等投入,提高作業質量,農業經營變得有序化,為農業的精準化、規模化經營服務。
1.4 我國農業大數據存在的共性問題
當前我國農業普遍存在的問題還很多,如農業的效率低、效益不好、效能不足等,導致這些問題的主要原因有生產要素耦合效應缺乏、產業關聯性低下、農業產銷等大循環系統性和協調性不夠,形成了我國粗放式的農業發展模式。此外,長期以來農業基準數據資源薄弱、數據結構不合理、數據細化程度不夠、數據標準化和規范化水平低等原因,這也我國農業生產智能化和精準化水平難以很好實施的重要原因[10]。然而農業大數據的發展在改善這些問題方面都有積極作用,開展農業大數據資源整合與分析應用是我國農業向高附加值產業發展的重要階段。
1.5 熱帶農業大數據發展的意義
熱帶農業是我國熱帶與亞熱帶地區的特色農業,我國熱區在農業生產、價格信息發布等方面也有一定的基礎,有農業環境監測、中國熱帶農業信息網、海南農產品流通公共信息服務平臺、病蟲害防治以及農產品電商平臺等多個系統平臺,采集農業監測信息與數據。然而這些數據資源的利用率極低,在大數據處理方面研究基礎十分薄弱,利用能力更低。如何充分利用物聯網采集的農業信息進行農業智能化生產,如何利用氣象環境信息預測給農業帶來的影響,如何利用農產品電子商務的銷售信息預測農產品價格和消費者的需求?而大數據技術在數據整合與決策方面的優勢是解決這些問題的一個重要手段[11]。
2017年5月,農業部、發改委、商務部、外交部四部委聯合發布《共同推進“一帶一路”建設農業合作的愿景與行動》,明確指出中國南部省區立足熱帶農業,與東南亞、南亞國家開展糧食、熱帶經濟作物等種植合作,發展態勢良好,勢頭強勁,均取得顯著成效。繼續推動熱帶農業“走出去”、加快整合包括東南亞、南亞國家的國外熱帶農業大數據資源、完善我國熱帶農業大數據資源庫,是完全符合當前我國“一帶一路”國際戰略,有利于深化與東南亞、南亞等熱帶國家的農業合作,有利于中國農業與世界農業的融合發展[12]。
因此,我國熱帶地區擁有較為豐富的農業科技資源、生產環境資源信息、價格監測信息、農業氣象信息等資源,且分布相對集中,同時擁有一定的東南亞、南亞國家的農業信息,對整合國內外熱帶農業數據資源和大數據分析應用具有良好的優勢。建設大數據處理云平臺,實現大數據的存儲、融合、分析處理,設計高效的大數據處理模型或算法是開展大數據應用的重要基礎,是進行農業大數據處理的條件。同時在服務熱帶農業產業發展和國家“一帶一路”戰略方面優勢突出。大數據技術為熱帶農業向智能化方向發展提供現實可行性,為熱帶農產品的銷售拓寬渠道,為熱帶農業資源整合提供手段,為熱帶農業提供開放式的農業科技共享服務,為強化熱帶農業的國際合作提供必要基礎。
2 熱帶農業大數據應用平臺
2.1 熱帶農業大數據應用平臺建設目標
針對熱區農業存在的基準數據資源薄弱、數據結構不合理、數據標準化水平差、農業內部信息流不暢等問題,充分運用大數據、云計算等先進技術和理念,加快推進熱區農業大數據應用平臺建設、海量數據積累和歷史數據清洗,逐步形成以大數據平臺為基礎、以大數據管理為核心、以大數據應用為主導、以大數據安全體系為保障的熱帶農業大數據發展總體框架,實現熱帶農業數據資源從粗放式、低效能分散建設向集約化、高績效協同發展模式轉變;以問題和需求為導向,逐步推進大數據在熱帶農業管理、決策和公共服務領域的廣泛應用,突破一批大數據關鍵技術,轉化一批大數據科研成果,形成一批大數據科研產品,有效推動熱區農業產業轉型升級和生產方式轉變。
2.2 熱帶農業大數據應用平臺架構設計
2.2.1 平臺總體架構
熱帶農業大數據應用平臺是在云計算架構運行的,既支持批處理,也支持流處理,是依托分布式處理、網格計算等技術,提供大規模數據的批量處理能力和小規模數據的實時響應能力,很好的滿足熱帶農業大數據的應用需求。云計算架構下的熱帶農業大數據應用平臺架構如圖1所示,具體分析如下。
基礎設施層:利用資源虛擬化技術,對計算設備、存儲設備和網絡設備進行虛擬化,實現資源的統一虛擬化資源池,并通過資源管理技術完成資源統一管理、任務分配等,并提供統一資源服務。
數據層:利用數據庫和云計算等技術,存儲熱帶農業國內外數據資源,具體數據資源模塊如圖2所示。價格數據是針對我國部分熱帶農產品價格波動較大的問題,開展市場價格預警預測;共享數據是為適應我國熱帶農業開展共享服務需求,設計支持權威數據的共享服務模式。
平臺層:在云計算的強大服務能力的基礎上,設計數據平臺和統一數據服務平臺。數據平臺主要提供支持熱帶農業大數據的匯總、挖掘、實時匯總和二次匯總的數值計算服務;統一數據服務平臺主要提供熱帶大數據平臺的后臺數據服務管理功能和用戶的多種數據應用請求服務,也包括這些服務任務的調度和監控功能。
應用層:應用層依然是在云服務的基礎上,設計的熱帶農業共性的應用服務或管理服務,包括數據資源、專題分析、熱區GIS服務、數據共享服務以及管理服務的用戶管理、日志管理、接口管理和數據安全。該層為終端應用提供基礎的應用服務和請求服務。
終端應用:支持PC/手機瀏覽器、移動APP、微信公眾平臺等終端的對熱帶農業大數據應用的請求服務,提供多終端的請求和接收服務。
2.2.2 平臺技術框架
熱帶農業大數據應用平臺有數據采集、數據預處理、數據存儲、數據分析挖掘、數據可視化以及應用六個環節組成,為涉農政府部門、科研機構、企業或個人提供必要的參考,同時,提供數據共享服務功能,為數據利用和平臺應用方面的擴張提供可行性。如圖3所示,具體分析如下。
2.2.2.1 數據采集
作為第一產業的熱帶農業受自然條件、地理環境的影響很大,農業大數據的獲取必然要采集地理、氣象、土壤等自然與環境數據,熱帶農業大數據采集內容還包括熱帶農業生產、農產品市場、價格、貿易以及政策和科技等數據,涉及的面很廣,完善的數據獲取難度大。目前主要的采集手段有:物聯網采集、互聯網共享、現有數據的標準化轉換以及人工調研采集等方法。涉及到互聯網采集、智能識別技術、定位技術、移動終端等服務技術。
物聯網采集:主要是利用傳感器、遙感、電子標簽、視頻等硬件技術采集熱帶生產、流通等過程產生的環境數據和信息。
互聯網采集:利用互聯網web技術,獲取互聯網共享的農業種植以及農產品生產、加工、銷售、消費、市場等信息。
現有數據標準化:對當前已有的氣象、土壤質量、地理環境以及已經建設的農業數據平臺的信息進行標準化,實現數據的共享。
人工采集:人工采集涉及面很廣,主要是針對上述幾種手段無法獲取或需要更新的信息。此外,還提供相對完善的數據源開放接口,為數據的共享輸入和輸出服務。
2.2.2.2 數據預處理
數據預處理包括數據的清洗(ETL)、數據融合、數據規約等處理方法。
數據清洗:針對熱帶農業大數據信息多類型、多數據源等問題,通過數據篩選、剔除、均值等方法,優化實際數據的多源化構成問題,提供開放式處理接口,為提供更好的數據質量和更精確分析結果打基礎。
數據融合:主要是針對非結構化的數據進行規范化處理、對已有數據的整理入庫、對多種數據類型數據的優化處理等,結合熱帶農業大數據標準規范體系,利用數據融合技術,包括多傳感器數據融合、遙感數據融合及基于XML數據融合3種方式,完成數據的處理工作。數據融合技術主要應用為:解決數據的語義沖突,建立數據之間關聯,實現農業生產環境信息多元融合。
數據規約:分為數值歸約和維度歸約。數據歸約也稱樣本歸約,在綜合考慮計算成本、存儲要求、精度及熱帶農業的特性,從數據集中選出一個有代表性的樣本子集。維度歸約與特征歸約相似,使用數據編碼或變換,剔除不重要或不相關的數據,或者通過重組減少源數據的維數,以便得到原數據的歸約或“壓縮”表示。
2.2.2.3 數據存儲
熱帶農業大數據存儲主要采用Hadoop架構的分布式存儲系統HDFS,利用MPP架構的數據庫系統NOSQL,實現海量數據的快速存儲、備份、轉換以及安全管理,保障數據的安全、穩定、可靠,維護各方的利益。提供熱帶農業大數據的高效、快速的存儲管理及服務,提供半開放式的存儲管理與安全服務接口。
2.2.2.4 數據分析挖掘
熱帶農業大數據的分析挖掘是建立在Storm架構上的實時處理數據分析挖掘系統,主要利用統計、回歸、主成分分析、神經網絡、支持向量機、聚類等機器學習和關聯分析方法,以及專業的數學模型等方法,實現大數據的決策預測與評價,為熱帶農業大數據應用提供分析挖掘功能,也為新型挖掘算法提供數據分析接口,提高熱帶農業大數據平臺的分析與挖掘能力。
2.2.2.5 數據可視化
熱帶農業大數據可視化主要對序列化數據進行二維可視化,實現大數據檢索和分析結果的直觀性展示。主要通過趨勢分析圖的生成,揭示規律,提供預測等,通過圖形化方法展示大數據檢索信息的圖形化規律,為人眼發現知識和規律提供條件。
2.2.2.6 應用
熱帶農業大數據應用平臺的終端應用主要是可視化展示預測預警結果和序列數據的變化趨勢,提供產量、價格、面積的預測以及病蟲害的預警功能,支持耕地質量評價與國外熱帶農業國家的動態變化查詢與監測,并支撐權威數據的共享服務,服務熱帶農業有關部門和個人。
熱帶農業大數據應用平臺提供多終端的應用,支持PC/手機瀏覽器、APP、微信公眾平臺等方式的瀏覽應用,提供直觀的可視化展示和信息推送服務。
3 熱帶農業大數據應用平臺的發展前景
當前,熱帶農業的發展需要大數據技術的支持推動產量和利潤的提高,是行業對大數據平臺的迫切需求。大數據技術在多個領域的應用成果也表明,其在推動熱帶農業發展方面具有很大的優勢。從大數據平臺架構的發展過程,大數據處理的主流架構有Hadoop、Spark、Storm,且它們各有優勢[13]:Hadoop的HDFS對農業的海量數據存儲與管理方面具有優勢;Spark是基于內存計算的大數據離線處理技術,處理速度優于Hadoop;而基于流計算的Storm在實時數據處理方面具有優勢,適合處理設施農業生產中的溫濕度、二氧化碳等實時數據,實時反饋給用戶,調節設施大棚的環境。依據熱帶農業發展的具體需求,一般以HDFS為農業大數據存儲和管理基礎架構,結合實際應用選擇與Spark或Storm架構結合使用,有時三種架構同時應用,且技術相對成熟,滿足農業生產的需求,也是當前最適合農業大數據發展的技術架構組合。以下從應用角度分析熱帶農業大數據應用平臺的發展前景。
3.1 熱帶農業大數據應用平臺具有資源整合的能力
熱帶農業數據歷史長、數量大、類型多,但長期存在信息資源分散、核心數據缺失、數據結構不一、質量不高、開發利用不足、共享程度低等問題,限制了熱帶農業信息化的發展。通過熱帶農業大數據標準化規范化,利用熱帶農業大數據應用平臺整合當前的熱帶農業數據資源,突破制約熱帶農業發展的瓶頸,實現熱帶農業數據共享服務。
3.2 熱帶農業大數據應用與服務
實現對國內外熱帶農業數據資源的獲取,保障渠道暢通,完善監測統計、分析預警、信息發布等信息監測預警數據,實現全產業鏈的信息服務,支撐熱帶農業生產智能化、資源環境精準監測、災害預測預報、病蟲害監測預警、質量安全追溯、產銷信息監測以及數據共享服務,同時為政府有關部門提供數據科學決策依據,滿足農業種植、農業市場、農業科研等經營者和參與者的信息需求和發布,加快推動熱帶農業的轉型升級,為熱帶農業的可持續發展提供基礎。
3.3 熱帶農業大數據應用平臺還提供監測國外熱帶農業發展情況
通過大數據平臺了解國外熱帶農業發展情況,有利于中國熱帶農業和國外熱帶農業的合作,為我國的涉農企業、機構提供國外農業發展的政策和動態,符合國家“一帶一路”戰略的發展。
參考文獻
[1] 孟祥寶,謝秋波,劉海峰,等. 農業大數據應用體系架構和平臺建設[J]. 廣東農業科學,2014,41(14):173-178.
[2] 溫孚江,宋長青. 農業大數據應用、研究與展望[J]. 農業網絡信息,2017(05):31-36.
[3] 溫孚江. 農業大數據研究的戰略意義與協同機制[J]. 高等農業教育,2013(11):3-6.
[4] 謝潤梅. 農業大數據的獲取與利用[J]. 安徽農業科學,2015,43(30):383-385.
[5] 計算機學會大數據專家委員會,中關村大數據產業聯盟. 中國計算機學會文集-中國大數據技術與產業發展報告(2014)/中國計算機學會文集[R]. 北京:機械工業出版社,2015:88-98.
[6] 楊 波,劉 勇,牟少敏,等. 大數據背景下山東省二代玉米螟發生程度預測模型的構建[J]. 計算機研究與發展,2014,51(S2):160-165.
[7] 柳平增. 農業大數據平臺在智慧農業中的應用——以渤海糧倉科技示范工程大數據平臺為例[J]. 高科技與產業化,2015(05):68-71.
[8] 中文互聯網數據資訊中心. 中美兩國農業大數據對比與思考[J]. 農業工程技術,2016,36(30):63-64.
[9] 王少農,王 熙. 美國天寶公司網絡農場系統[J]. 現代化農業,2015(02):59-60.
[10] 許世衛,王東杰,李哲敏. 大數據推動農業現代化應用研究[J]. 中國農業科學,2015,48(17):3 429-3 438.
[11] 秦小立,羅 微,李玉萍,等. 基于云計算的熱帶農業信息服務平臺設計[J]. 廣東農業科學,2014,41(19):188-193.
[12] 中華人民共和國農業部,中華人民共和國國家發展改革委員會,中華人民共和國商務部,等. 共同推進“一帶一路”建設農業合作的愿景與行動[N]. 農民日報,2017-05-12(01).
[13] 黎玲萍,毛克彪,付秀麗,等. 國內外農業大數據應用研究分析[J]. 高技術通訊,2016,26(04):414-422.