趙 星
(山西應用科技學院,山西 太原 030062)
隨著農業機械化水平的不斷提高,農機作業產生了大量詳實的過程數據[1],這些作業數據中蘊含著豐富的信息,對于科學指導農業生產意義重大。本文運用大數據技術,設計農機作業數據的挖掘與分析系統,以實現作業過程的智能決策支持。文章闡述了大數據技術的概念與特征,分析了農機作業數據挖掘應用現狀,提出了系統設計方案,包括數據采集、挖掘分析和決策支持三個模塊,并通過實證研究驗證所提方法的有效性。
大數據技術主要用于處理數據規模巨大、種類復雜、變化快速的海量數據集。從技術層面看,大數據系統的核心要求是需要構建一個高度可擴展、高性能、高速的分布式存儲和計算平臺[2]。具體來說,大數據的三大特征即體現在數據的規模、種類和速度上。從數據規模上看,大數據系統需要處理萬億級甚至更高數量級的數據集,存儲空間達到PB 級以上。為支持這一規模,大數據存儲系統采用分布式文件系統(如HDFS),將文件分片存儲在數千臺服務器上。計算系統則通過MapReduce 等分布式計算模型,將程序并行運行,利用集群的并行處理能力。從數據種類上看,大數據不僅包含結構化數據,還有各種半結構化和非結構化數據,如圖像、音頻、視頻、日志、文檔等多種內容豐富的數據類型,種類復雜。大數據系統采用各類NoSQL 數據庫(如HBase、MongoDB等)來支持這類多樣化數據的存儲。同時使用Spark Streaming、Storm 等技術進行實時流式處理[3]。從處理速度上看,大數據技術可以對數以億計的高速數據流進行準確實時分析,如網頁點擊流、傳感器數據等,反應速度要求達到秒級甚至毫秒級。這類應用依賴于Storm、Spark Streaming等流式處理組件來實現。此外,大數據運算結果也具有高速變化特點,需要使用增量計算不斷更新。
隨著農業機械化水平的快速提高,各類作業機械在農業生產中的應用不斷擴大,產生了大量的作業過程數據。這些龐大、復雜、多源異構的數據中蘊含了機械運行狀態、環境參數以及作業產量質量等深度信息。對這些數據進行有效分析,不僅可以指導科學種植,還可實現作業機械的精準調控。因此,農機作業數據的挖掘與決策已成為當前研究熱點[4]。目前,在大數據分析支持下,已經有一些應用取得進展。如John Deere等農機企業搭建了作業過程數據云存儲平臺,并開發了數據標準格式AgXML,可采集速度、位置、環境和作業質量數據;美國UC 戴維斯校區使用衛星數據、土壤檢測數據以及作物長勢數據,開發智能決策系統,指導灌溉和施肥;中國農科院利用多源異構農業數據,建立了“數字農業”大數據平臺,實現了作物長勢監測預警、土壤環境評估等功能[5]。盡管已有一些進展,但當前農機作業數據挖掘與分析仍面臨數據采集體系不完善、數據格式混亂、分析模型和方法簡單以及決策支持系統整合度低等問題。
本系統的數據源主要包括以下三類:
1)農機作業過程數據。通過ISOBUS 標準CAN總線采集,數據種類包括工況狀態(包括轉速、油門位置、工作狀態等)、作業速度(分辨率0.1 km/h)、能耗(當前電流、電壓、溫度,采樣頻率100 Hz)等參數,CAN總線通信速率設置為250 kbps;
2)環境參數數據。通過配置氣象站(Campbell Scientific CR300 型),采集溫濕度(測量范圍-50℃~+60 ℃,分辨率0.1 ℃)、光照強度(測量范圍0~3 000 W/m2)、土壤溫度(Pt100 探頭)、氣壓(分辨率0.01 kPa)等數據,采集頻率10 Hz;
3)土壤檢測數據。使用J o h n D e e r e F i e l d Analyzer(Hyper Zionist 4653 型)獲取土壤pH 值、深度、養分(氮、磷、鉀含量)等數據。
考慮到大數據實時處理需求,本系統采用流式處理架構。異構數據源先適配為Avro 格式數據,發布到Kafka 消息隊列(32 個分區,64 個副本)。Spark Streaming 從Kafka 消費數據,使用機器學習模型(隨機森林、XGBoost 等)實時分析數據,結果保存到HBase。監控指標寫入InfluxDB,通過Grafana展示實時曲線[6]。這種設計平衡了吞吐量、延遲和可擴展性,后續可基于此架構進行數據挖掘與分析算法研發。
在海量農機作業數據的支撐下,本系統的數據挖掘與分析模塊可以實現更深入的學習與決策。主要構建以下兩個核心子模塊。
3.2.1 數據挖掘模塊
該模塊基于Spark MLlib 等工具,利用機器學習和數據挖掘算法,對農機作業數據進行特征提取、模型訓練、知識發現等分析[7]。主要算法包括:1)LSTM 等深度學習模型,用于工況時間序列的特征學習,實現狀態評估預測;2)無監督聚類方法(如Kmeans、層次聚類),對運行參數進行分群分析;3)關聯規則挖掘算法,發現參數之間的關聯模式,預測關鍵部件異常。具體模型訓練采用5 折交叉驗證法,指標評估采用平均準確率、召回率和F1-score。
3.2.2 決策輔助模塊
該模塊主要采用規則推理和案例推理技術,輔助決策分析,提供精準決策支持。首先從大量歷史數據中總結出一批決策規則,如“當溫度低于35 ℃、轉速高于2 200 rpm 時,建議減載10%”,針對實時輸入情況,進行規則匹配查詢,給出處理建議。此外結合案例庫,當遇到無法確定規則的新問題時,提供最相似的案例參考,輔助判斷[8]。
智能決策支持系統以構建精準的作業過程數字孿生系統為基礎,進行多源異構數據融合,采用LSTM、RNN 等深度學習技術實時匹配最優決策指令,實現對作業過程的主動優化調控[9]。整體系統分為以下四層架構。
1)數據采集層:支持ISOBUS、CAN 總線、4G 等數據接口,采集轉速、油耗、工作狀態等數據;
2)數據處理層:使用Spark Streaming(100 個執行器)等技術清洗轉換數據,持久化到1 PB規模Hive數據倉庫;
3)決策服務層:基于TensorFlow構建多個LSTM及DNN 模型,訓練參數包括學習率0.01、迭代輪數1 000輪、命中率95%;
4)應用接口層:提供標準REST API,支持規則引擎配置,實現個性化決策。
系統優化目標是降低軟硬件故障停機時間,使之不超過100 h/年,同時降低每公頃作業燃油消耗5%以上,未來可支持更多類型設備(無人機、自動駕駛拖拉機等)連接,完善數字孿生閉環。
為驗證所提方法與系統的有效性,構建了農機作業決策分析實驗平臺。該平臺包含傳感數據采集系統、作業過程模擬系統、大數據存儲與處理系統三部分:
1)傳感數據采集系統。該系統搭建了拖拉機作業過程監測場景[10]。安裝GPS 定位模塊、溫濕度探頭、圖像采集攝像頭等傳感器,對作業過程中的速度、方向、環境溫度、地形圖像信息進行采集。傳感器采樣頻率100 Hz,網絡傳輸采用5G 通信模塊,保證數據實時性。
2)作業過程模擬系統。使用Unity 3D 游戲引擎,開發了一套模擬不同地形、速度條件的拖拉機作業過程虛擬仿真系統。可以動態改變作業地形(平原、灘涂等)、路線、作業工具(犁、播種器等)的參數,模擬多種工作條件。采集模擬過程中的狀態數據和圖像數據。
3)大數據分析系統。構建大數據平臺,使用Kafka、Zookeeper 等組件實時處理采集的結構化狀態數據和非結構化圖像數據。使用Flink、Spark Streaming 進行數據提取清洗、特征工程。訓練LSTM 深度學習模型,實現對作業狀態的評估預測。通過上述平臺驗證所設計分析算法效果,為下一步產業應用奠定基礎。
在實驗平臺積累的大規模農機作業數據支撐下,研究采用了深度學習與遷移學習相結合的分析技術對作業狀態進行評估與預測。首先,對采集的多時相圖像數據,采用Faster R-CNN模型進行特征提取與對象識別,輸出圖像中出現的拖拉機、土地、作物等實例框及分類結果。Faster R-CNN 在兩階段框架基礎上構建特征金字塔,采用區域歸一化機制,讓模型既保持高檢測精度,又加快檢測速度。具體設計如下:
其中,μ(x)和σ(x)分別是樣本x在各通道上的均值和標準差。然后,整合圖像識別結果,運用Seq2Seq 模型及注意力機制,實現狀態預測。為解決梯度消失問題,Seq2Seq 底層采用LSTM,并使用Luong 式注意機制,引入Δt時刻的上下文信息:
通過深度學習和遷移學習技術,模型可以快速適配不同的作業場景,輸出精確的作業狀態評估,為決策分析提供支持。
基于構建的大數據驅動農機作業決策分析平臺,開展了系統性的測試驗證。實驗過程中收集了大量農機狀態數據、作業參數以及計算性能統計指標,如表1所示。

表1 農機狀態數據
基于這些數據,運用深度學習Seq2Seq 模型以及注意力機制,建立數據驅動的狀態評估與故障預測模型。超參數配置為:編碼器/解碼器LSTM 隱層單元數分別為256/128,Batch_Size=32,學習率=0.01,迭代輪數100 輪。
實驗結果顯示,模型精度指標較高,平均檢測準確率達到92.3%;召回率為89.4%。可實現不同農機故障模式的識別與定位,RUL 剩余壽命預測誤差小于10%。除預測效果外,系統吞吐量280 條/s,滿足農機作業過程動態評估要求。上述結果驗證了所提出的大數據平臺、深度學習模型與系統的集成效能,可有效實施復雜農機作業過程的智能感知與調度優化。后續工作將進一步提高預測時間范圍與維護決策的價值。
本研究旨在利用大數據技術改進農機作業數據挖掘與決策分析過程,為農業提供智能支持。通過深入分析大數據技術特點和農機作業數據現狀,構建了完整的系統設計,包括數據采集、挖掘分析和智能決策支持。利用流式處理架構處理不同數據源,采用機器學習和數據挖掘算法深度分析農機作業數據,同時建立決策輔助模塊支持準確決策。通過實證研究驗證了該方法和系統的有效性,為農業生產提供了智能化管理方向。這項工作提供了全面的農機作業數據處理框架,為未來農業決策提供了重要思路。未來,將繼續優化系統性能,提升預測能力,以更好地滿足農業生產需求。