溫昌凱 謝 斌 李若晨 宋正河 韓建剛 劉江輝
(1.中國農業大學工學院, 北京 100083; 2.中國農業大學現代農業裝備優化設計北京市重點實驗室, 北京 100083;3.洛陽西苑車輛與動力檢驗所有限公司, 洛陽 471000)
農業與大數據良好結合是未來農業發展的必然趨勢。農業大數據涉及地區范圍廣、地形差別大、作物品種多、作業工況多,并且受限于各地區農業結構復雜、農耕環境以及氣候多樣等因素,因此,農業領域大數據具有高實時、多維度、離散化、難綜合分析等特點[1-3]。
隨著全球農業現代化、智能化、信息化的不斷推進,畜牧業、漁業、農產品加工、氣象等農業相關領域數據呈指數規律不斷積累[4-8]。但在農業機械領域,由于農業機械載荷復雜、測試成本較高以及數據平臺架構不易統一等問題,數據系統性積累與平臺規范化構建難以實現,農業數據測試以及積累研究相對滯后,基于大數據的農業機械數據融合與分析預測相對缺乏。
本文研究拖拉機作業載荷數據平臺系統構建和基于大數據的拖拉機田間旋耕作業質量評價與預測。探索拖拉機多傳感器車載測試終端分布格局、作業參數與結構體系;研究基于全國范圍田間作業試驗的拖拉機作業載荷數據平臺系統,并構建相應的數據庫結構;基于農機農藝要求,采用遺傳算法與BP神經網絡相融合的方法對數據平臺基礎作業載荷進行分類融合處理,預測評價拖拉機田間旋耕作業質量,以驗證平臺系統的可行性。
此次全國范圍的測試樣機布置以涵蓋水稻、小麥、玉米等優勢作物的全國農業戰略格局為出發點,主要考慮優勢主產區的作物差異性、地理環境差異性以及作業載荷差異性,在一定程度上兼顧其他具有代表性的地塊地域[9-11]。
因此,綜合考慮測試終端地區分配合理,兼顧各地區作物、地理、氣候等多個因素,測試樣機車載終端布置選擇主要集中在東北平原、黃淮海平原、長江流域、汾渭平原以及新疆地區,總計6輛測試樣機。
測試樣機車載終端硬件以基于 ARM335x 微處理器的 ARM 硬件開發平臺作為主控制器,使用分布式布置的傳感器,對拖拉機多地區、多工況、多載荷進行數據采集。田間作業載荷采集測試終端采用OK3355xD工業級開發板和FET335xD工業級核心板,配置LCD觸摸液晶屏、WiFi模塊、SD卡、USB鍵盤鼠標接口、多接口模塊,測試終端硬件結構設計如圖1所示。

圖1 測試終端硬件結構框圖Fig.1 Hardware structure design of test terminal
測試樣機車載終端的測試工況包括拖拉機犁耕作業、旋耕作業、深松作業以及聯合耕整作業,待測關鍵零部件包括發動機、實時地理位置、電液懸掛下拉桿、動力輸出軸、前萬向傳動軸、前轉向驅動橋、變速箱、后驅動橋、駕駛室等,測試參數以及配套傳感器如表1所示,傳感器布置位置如圖2所示。

表1 測試終端測試參數與傳感器Tab.1 Testing terminal test parameters and sensors

圖2 測試終端傳感器布置圖Fig.2 Sensor layout of test terminal
各測試樣機正常田間作業,測試終端開啟后可自動采集作業載荷,按照拖拉機作業載荷傳輸協議實時或分段工作數據打包等多種形式發送傳輸至作業載荷數據庫,實現拖拉機多樣工況、惡劣環境條件下的田間作業載荷數據的自動采集與傳輸。
參考國內外現有機械行業數據平臺,結合農業機械田間作業多工況、變環境、高載荷的特點,設計基于B/S網絡結構模式的拖拉機作業載荷數據庫系統。本系統包括系統管理機制、載荷數據庫基礎平臺、載荷數據實時采集系統以及拖拉機田間旋耕工況作業質量評價與預測模塊等部分,在此基礎上,形成的系統總體方案如圖3所示。

圖3 作業載荷數據平臺總體結構與方案Fig.3 Overall structure and scheme of work load data platform
系統管理機制包括用戶權限管理、試驗地信息管理、拖拉機信息管理、測試終端信息管理、作業信息管理以及平臺信息管理等功能。用戶權限管理包括對用戶的基本信息、登錄密碼、訪問權限級別進行管理。試驗地信息管理包括對作業試驗田的所屬地區、基本環境的管理。拖拉機信息管理包括對拖拉機基本參數、配套作業機具的管理。測試終端信息管理包括對采集設備以及工作狀態的管理。系統管理機制的有效運行可保證拖拉機作業載荷數據平臺的正常運行。
該數據平臺作業載荷實時采集系統主要由全國范圍內各主產區負責單位統籌管理,由主產區各試驗測試站分別負責執行試驗田以及測試樣機的管理以及作業運行,考慮到我國農業主產區地域差別大、農業機械作業載荷復雜,有必要全面監控從試驗地到測試終端的內在聯系,以獲得全國范圍內拖拉機田間作業載荷的全面基礎數據[12-15]。
作業載荷實時采集系統由各農業主產區管理單位、分布的各級試驗站(省、市、縣/區)和測試環節的基層測試站點構成。具體分層結構如圖4所示。

圖4 作業載荷實時采集系統分層結構Fig.4 Hierarchical structure of real-time load acquisition system

圖5 作業載荷數據庫系統功能結構Fig.5 Functional structure of work load database system
基于用戶群體需求導向,進一步完善拖拉機作業載荷數據庫系統結構,明確數據庫系統各模塊部分的功能以及結構,如圖5所示。平臺系統管理包括測試樣機管理、用戶權限管理以及作業資料管理。基礎載荷數據管理包括地區信息、環境信息、機具信息、試驗標準、測試方法、采集步驟、測試對象以及測試種類。實時載荷數據采集包括試驗地設置、樣機設置、實時載荷采集、載荷數據打包、載荷數據校驗以及載荷數據上傳。作業農藝預測評價包括所在地區檢索、作業種類檢索、工作狀態檢索以及牽引預測檢索。
基于數據平臺多樣性、包容性、全面性以及系統性特點需求,結合E-R概念設計的實體、屬性和聯系三要素,構建全國范圍拖拉機作業載荷數據平臺的概念模型。該數據庫包括4個實體、若干屬性以及各項必要的聯系。各實體環環相扣,構建了數據平臺的基本框架,各實體屬性以及聯系建立數據平臺潛在邏輯,進一步豐富數據平臺功能、提高可用性。E-R結構框圖如圖6所示。
根據作業載荷數據平臺系統需求,剖析拖拉機田間作業載荷測試、采集、傳輸以及入網的全過程。基于作業載荷數據庫E-R概念結構設計的數據字典,進行數據庫邏輯架構設計,數據庫系統主要由終端表、農機表、傳感器表、作業表、數據表等11個數據組成,其中主數據表與基礎數據表相關聯,以測試終端為主鍵,實時采集、傳輸、存儲測試基礎數據以及結果。形成的數據表關系如圖7所示。

圖6 作業載荷數據庫E-R概念結構框圖Fig.6 Design of E-R conceptual structure of work load database
基于作業載荷數據庫概念結構與邏輯結構,結合使用人員多樣性、操作級別多層次、終端節點分布廣以及作業環境復雜性等系統特點,進行數據平臺基本框架設計以及服務器軟件系統開發。
作業載荷數據庫系統基于Web2.0架構,采用微服務技術結構體系開發,前端部分采用HTML5/CSS3/JavaScript等技術開發,數據庫采用MY SQL 5.7.27.0版本,并且采用RESTful API架構作為方便前、后端通信的統一機制。
數據采集服務基于C#.NET技術開發,測試樣機車載終端與平臺服務器之間基于TCP傳輸方式,采用私有二進制協議即拖拉機機組作業載荷傳輸協議進行數據傳輸,關鍵數據采用RSA加密驗證機制保護,可確保高吞吐量和高安全性。
關聯數據庫結構設計采用基礎數據與不易變化數據結構化處理、易變化數據非結構化處理相結合的方式,可確保數據庫的穩定性、靈活性以及兼容性;針對系統傳感器多、數據量大以及采樣頻率范圍廣的特點采用分庫分表方式處理數據,即按照需求業務不同將數據分庫儲存,按照時間維度不同將低頻、高頻數據分表儲存。此外,通過數據庫約束機制保證數據完整性,通過數據校驗機制確保邏輯正確性,通過數據庫備份確保數據高可用性。
基于以上內容,完成拖拉機作業載荷數據平臺的設計與構建,田間試驗以及試驗數據等部分界面效果如圖8所示。
基于拖拉機作業載荷數據平臺以及農業大數據融合技術,結合農機農藝要求,篩選部分實測數據研究拖拉機田間旋耕工況作業質量評價與預測的智能算法,并驗證其可行性。
針對BP神經網絡預測模型連接權重隨機賦值導致收斂速度過慢和結構模式不確定導致訓練過擬合及學習能力不足的問題,本文提出基于遺傳算法的BP神經網絡算法,利用遺傳算法全局搜索最優特性對 BP 神經網絡進行優化,降低神經網絡陷入局部最優解而無法穩定準確預測的風險,提升網絡的收斂速度和系統預測精度,進一步提高BP神經網絡的可行性[16-19]。遺傳算法優化BP 神經網絡方法主要由BP 神經網絡結構確定、遺傳算法優化BP神經網絡權閾值權重矩陣、 BP 神經網絡預測3部分組成[20-22]。其核心是采用遺傳算法將神經網絡函數計算的損失誤差作為個體適應度,對權值、閾值進行選擇、交叉和變異操作,使個體適應度盡可能地小,從而得到最佳的神經網絡權值和閾值權重矩陣。基于遺傳算法的BP神經網絡算法流程如圖9所示。

圖7 作業載荷數據庫主要數據表關系Fig.7 Maindata table relations of job load database

圖8 拖拉機作業載荷數據平臺界面Fig.8 Interfaces of tractor working load data platform

圖9 基于遺傳算法的BP神經網絡算法流程圖Fig.9 Flow chart of BP neural network algorithm based on genetic algorithm
4.2.1BP神經網絡模型
BP神經網絡即誤差反向傳播神經網絡,一般由輸入層、隱含層和輸出層構成,可以有效地解決各個輸入指標之間的非線性關系,步驟如下:
(1)網絡拓撲結構選擇
拖拉機工作在土壤-機器-植物復雜系統,考慮其田間旋耕工況作業質量受到多因素耦合作用以及3層神經網絡可以完成任意n維到m維的映射,本文選擇3層BP神經網絡結構。
(2)輸入、輸出層參數確定
為了建立簡潔有效的BP神經網絡模型,基于農機農藝要求,本文所采用的BP神經網絡輸入層參數為拖拉機電液懸掛左、右下拉桿銷軸力,電液懸掛左、右下拉桿角度,動力輸出軸扭矩以及行駛速度,輸出層參數為優、中、差3種拖拉機田間旋耕工況作業質量水平。
本文神經網絡模型的輸入層參數存在量綱難以統一的問題,為減少拖拉機田間旋耕工況作業質量評價與預測的誤判概率,對輸入輸出層參數進行歸一化處理,即
(1)

pi——第i個原始特征值數據
pmax——原始特征值數據的最大值
pmin——原始特征值數據的最小值
(3)隱含層節點數確定
隱含層節點數作為BP神經網絡的重要組成部分,直接影響網絡的非線性映射能力。隱含層節點數計算公式為
(2)
式中n——輸入層節點數
m——輸出層節點數
計算可得該神經網絡隱含層節點數范圍為[3,13],對比多次試驗以及神經網絡訓練誤差,當隱含層節點數為10時,神經網絡預測性能最佳。
構建具有1個隱含層的3層BP神經網絡結構,隱含層節點數為10,具體BP神經網絡預測模型結構如圖10所示。

圖10 拖拉機旋耕作業性能預測的BP神經網絡模型Fig.10 BP neural network model for performance prediction of tractor rotary tillage
(4)網絡函數選擇
考慮到預測模型非線性特征明顯以及預測收斂快、誤差小等要求,BP神經網絡的隱含層傳遞函數選擇sigmoid函數,訓練函數選擇trainlm函數,學習函數選擇learngdm函數,網絡性能函數選擇mse函數,仿真函數選擇sim函數。
(5)權值閾值更新確定
權值閾值更新確定是BP神經網絡采用的誤差反向傳播算法的核心部分,其主要工作是依次計算隱含層輸出和輸出層輸出,進一步求得神經網絡輸出值與實際作業真實值之間的預測誤差,最后根據公式實時更新神經網絡隱含層與輸出層的權值閾值。神經網絡權值閾值更新確定過程包括隱含層輸出、輸出層輸出、誤差計算以及權閾值更新4個步驟,計算公式為
(3)
式中f(x)——隱含層激勵傳遞函數
x——輸入變量
Hj——隱含層輸出變量
wij——隱含層權值
aj——隱含層閾值
Ok——輸出層輸出變量,即預測值
bk——輸出層閾值
i——輸入層節點數
j——隱含層節點數
k——輸出層節點數
Yk——實際值
ek——神經網絡預測誤差
η——神經網絡學習速率
wjk——輸出層權值
4.2.2預測網絡模型的遺傳算法優化
基于遺傳算法的BP神經網絡模思想是:通過遺傳算法優化BP神經網絡的初始權值閾值,對初始值進行編碼和選擇、交叉和變異等操作,獲取最優參數并對神經網絡進行賦值與訓練,使優化后的神經網絡能提高網絡收斂速度以及預測準確性。基于遺傳算法的BP神經網絡模型實現過程主要包括種群初始化,適應度函數選擇以及選擇、交叉、變異操作[23-25]。
種群初始化主要采用浮點數編碼方式,編碼長度為神經網絡所有權值個數(nm+lm)和閾值個數(l+m)之和,計算可得此種群初始化編碼長度為61。
適應度函數選擇與計算是遺傳算法的核心部分,將BP神經網絡的預測輸出值與真實作業值之間的誤差平方和作為個體適應度,因此適應度函數為
(4)
式中n0——訓練樣本總數
yi——作業真實值
f(xi)——神經網絡預測值
選擇操作采用最優個體最優保存和其余個體輪盤賭法選擇的并存策略。交叉操作采用實數交叉法,變異操作采用實值變異法。其中因為涉及神經網絡收斂速度,基于適應度需求選取交叉概率與變異概率遺傳算子,計算公式為
(5)
(6)
式中pc——遺傳算法交叉概率
pch——遺傳算法交叉概率上限
pcl——遺傳算法交叉概率下限
pm——遺傳算法變異概率
pmh——遺傳算法變異概率上限
pml——遺傳算法變異概率下限
f′——交叉染色體較大適應度
favg——染色體平均適應度
fbest——染色體最佳適應度
因此,本文構建了基于遺傳算法的BP神經網絡預測模型,計算并設置遺傳算法參數:進化代數為200,種群規模為20,交叉概率為0.5,變異概率為0.1。并選取均方根誤差(RMSE)作為模型評價與預測性能的評價標準。
4.3.1田間作業試驗數據
作業載荷數據平臺可實時獲取多拖拉機、多工況、多地區的作業數據,但若考慮整個時間段、整個覆蓋范圍,數據總量會過大、不利于建模與分析。因此,基于2019年3月東北某區域某拖拉機某時間段內數據平臺的田間作業數據,平均隨機選取旋耕工況作業質量優、中、差3種情況,每種情況3 000組數據,總計9 000組數據作為訓練集,其他任意一段時間總計4 000組旋耕工況作業數據作為測試集。根據訓練集與測試集數據,對拖拉機旋耕工況作業質量性能進行評價與預測。
4.3.2評價預測結果分析
應用遺傳算法優化BP神經網絡初始權值閾值,其中適應度函數變化曲線如圖11所示。由圖11可知,當迭代次數不足20次時,即迭代前期平均適應度和最佳適應度均呈快速下降趨勢,隨著迭代次數的不斷增加至60次時,迭代后期整體趨于平緩,其中雖然略有波動,但整體起伏不大。表明遺傳算法迭代次數選擇合理,遺傳算法可以快速準確有效地優化神經網絡權值閾值。

圖11 遺傳算法適應度曲線Fig.11 Fitness curves of genetic algorithm
均方根誤差(RMSE)是衡量神經網絡性能的最常用參考標準,RMSE越小,表示此神經網絡預測性能越好。由圖12可知,隨著樣本訓練次數的不斷增加,均方根誤差由初始值0.6不斷減少,在樣本訓練次數達到10次時,均方根誤差已減至0.01,表明基于遺傳算法的BP神經網絡預測模型能夠準確快速擬合輸入數據,預測結果接近真實情況。

圖12 基于遺傳算法的BP神經網絡訓練誤差曲線Fig.12 BP neural network training error curve based on genetic algorithms
利用9 000組數據訓練的基于遺傳算法的BP神經網絡模型在預測4 000組測試數據時,正確組數為3 871,正確率為96.77%。由此可見,基于遺傳算法的BP神經網絡模型預測結果與實際作業情況基本一致,錯誤率為3.23%,可準確有效評價拖拉機田間旋耕工況作業質量。
(1)基于我國“七區二十三帶”農業戰略格局,建立了全國范圍的拖拉機測試終端布局,完成了測試終端硬件、測試工況以及測試系統功能架構。
(2)分析了拖拉機作業載荷數據庫系統需求、管理機制、網絡架構以及功能結構,設計并搭建了拖拉機作業載荷數據平臺系統,可實時獲取、存儲拖拉機各關鍵零部件的田間作業載荷數據。
(3)研究了神經網絡與遺傳算法的融合算法,并基于拖拉機作業載荷數據平臺對拖拉機田間旋耕作業質量進行實時預測與評價,預測精度達96.77%,均方根誤差(RMSE)小于0.01,說明采用基于遺傳算法的BP神經網絡算法的拖拉機作業載荷數據平臺預測評價拖拉機田間旋耕作業質量可行。