楊麗麗,田偉澤,徐媛媛,吳才聰
(中國農業大學信息與電氣工程學院,北京 100083)
車輛燃油消耗的研究在車輛使用成本分析,環境治理等方面具有重要意義[1-2]。影響車輛的燃油消耗的因素大致可以分為四類:車輛行駛工況(加速、減速、發動機工況等)、道路狀況、天氣、車輛自身特性[3-6]。
研究表明車輛不同的行駛工況會導致±25%燃油消耗差異[7]。目前在城市交通領域,基于行駛工況進行油耗預測的研究較多。候亞美等[8]基于平均速度、交叉口密度、停駛比等數據構建了后向反饋(Back Propagation, BP)神經網絡模型預測城市道路出租車油耗。趙曉華等[9]根據出租車在北京80個快速基礎路段上的平均速度及加速度衍生出16個指標,經過主成分分析,建立了BP神經網絡的城市快速路出租車油耗預測模型。Xu等[10]基于卡車在125個高速公路和主干道路段內的平均行駛速度及加速度,定義了能耗指標,描述了油耗與速度及加速度之間的動態關系。Wickramanayake等[11]根據上行下行時道路坡度相反的條件,分別構建了梯度增強樹、隨機森林、神經網絡的3種長途公交車油耗預測模型。張登等[12]根據多種車身靜態數據,包括車型、車長、質量、發動機最大功率等,建立了適用于多種車型的油耗預測模型。上述研究基本上是基于結構化道路對油耗與行駛工況的研究,然而無論是靜態數據預測出的標準油耗還是考慮了實際行駛工況的預測油耗,因模型中車型或者路況相對確定,都難以直接遷移到農機中。
相比于城市交通領域,車輛燃油消耗在非道路車輛領域特別是農用車輛,國內外研究較少。隨著中國農業機械化水平的不斷提高,農業機械的保有量在不斷的增加,根據國家統計局數據顯示2019年中國農機總動力為10.27億kW,總量近2億臺套[13]。農業機械對化石燃料的消耗也不斷增長。預估農機工作時的燃油消耗對于環境治理,農機合作社成本投入,機手駕駛技術評價,燃油監管等有著十分重要的實際意義[14]。農機工作環境移動通信網絡較差,GNSS數據回傳不及時,農機轉場時田間路況復雜多變,農機油耗存在和其所從事生產工作類型密不可分的問題。羅紅旗等[15]根據旋耕深度、旋耕寬幅、車輛前進速度3個因素構建了回歸方程用于玉米免耕播種機油耗預測,但收割作業相比于播種作業更加復雜,收割機作業時的發動機轉速、發動機扭矩、加速度、收割機負載等因素對燃油消耗均有影響,因此此方法并不適用于收割機。相比于城市道路車輛,影響農業車輛燃油消耗因素相對復雜,單純基于速度及加速度的行駛工況不能對車輛燃油消耗進行準確預測。
本文以2020年沃得4LB-150AA型號谷物聯合收割機為研究對象,采集田內連續工作時的收割機行駛工況數據、發動機工況數據,提取出與油耗相關的特征,基于隨機森林方法構建谷物聯合收割機實時作業油耗預測模型。試驗結果表明,模型輸出具有較高準確率。
農機實際工況下的數據采集是基于精準農業應用項目數據服務平臺的2020年22輛谷物聯合收割機全年工作數據,篩選農機型號為沃得半喂入式4LB-150AA型谷物聯合收割機的記錄。采樣平均間隔1.3 s,共計130 788條記錄。原始數據包括采集自CAN總線的發動機轉速、發動機扭矩、發動機機油壓力、瞬時油耗及同一時間采集自GNSS終端的瞬時速度、經度、緯度。
收割機短時間段內的行駛工況數據可以更好反映收割機作業狀況,因此本文將采集的數據按照20~60 s的時間步長進行隨機步長分組,共計320組。根據瞬時數據對農機工況進行統計如表1所示。

表1 農機工況統計量 Table 1 Statistics of agricultural machinery conditions
由表1可知,農機工作速度范圍在0~6.0 km/h,數據中存在扭矩和油耗為0的值,與數據采集時農機正在作業不相符,因此作為異常值進行處理。同時,各項數據范圍及單位不統一,建模之前需要對輸入特征進行無量綱化處理。本文定義以下數據預處理規則:
規則一:通過插值清除扭矩和油耗的異常值,見式(1):
式中lt為t時刻的異常值;lt+1為t+1時刻的正常值;lt-1為t-1時刻的正常值。
規則二:采取標準化對數據進行無量綱化。將數據按均值中心化后,再按照標準差進行縮放,使各項數據均滿足均值為0,標準差為1,服從正態分布。見式(2):
式中X′為無量綱化后的特征數據;X為原始特征數據;u為該特征均值;σ為該特征的標準差。
為區分采集原始數據集中的收割機工作省份,根據車輛工作時的經緯度坐標采用反向地理編碼計算,得到22輛收割機數據分別來自遼寧、吉林、山東、江蘇、湖北、浙江6個省份,對省份名稱標簽數字化。
影響收割機燃油消耗的因素眾多,參考國內外汽車工況的指標選取[16-19],本文基于采集的原始收割機瞬時工況,衍生出7個與油耗相關的指標。指標定義如下所示:
1)平均速度、發動機扭矩均值、發動機轉速均值:
式中Xi分別代表第i秒農機速度(km/h);發動機扭矩(N·m)和發動機轉速(r/min);T為單個組內的總時長,s;f(X)表示在Xi取值不同時分別對應的平均速度Vmean(km/h)、平均扭矩Nmean(N·m)和平均轉速Smean(r/min)。
2)加速度均值,減速度均值:
式中ai+為單個組內第i秒車輛加速度,m/s2;Ta+為單個組內加速時長,s;a+mean為單個組內加速度均值,m/s2;ai+為單個組內第i秒車輛減速度,m/s2;Ta-為單個組內減速時長,s;a-mean為單個組內減速度均值,m/s2。
3)加速度方差,減速度方差:
式中Sa+為單個組內加速度方差,m/s2;Sa-為單個組內減速度方差,m/s2;其他變量定義同式(4)。
2.1.1 影響因素分析方法
為了找出1.3中所定義的指標與收割機油耗之間的相關性,并剔除與油耗不相關的指標,先進行單一指標對油耗影響的分析,然后通過斯皮爾曼相關系數分析各個指標與油耗之間的相關性。
斯皮爾曼相關作為一種常見的基于濾波器的特征選擇方法,廣泛的應用于度量兩個變量之間的相關性[20],其計算方法如下所示:
式中rk為第k個指標與油耗的相關系數;n為樣本容量;dkj為第k個指標與油耗之間的等級差;j為第k個指標中的樣本下標。
2.1.2 油耗影響因素分析結果
1)單一指標對油耗的影響
收割機作業速度與該速度下對應的平均油耗關系如圖1所示。圖2統計了320組發動機工況及行駛工況與該工況下對應的油耗。
由圖1可知,當收割機作業速度在0~2 km/h范圍時,油耗隨著作業速度的增加增幅相對較小,當收割機作業速度從2 km/h升至5 km/h時,顯示油耗隨著作業速度上升急劇上升,車輛行駛時車速與發動機功率大致呈現三次方關系[21],此階段車速增加緩慢但是功率會迅速增大,進而導致油耗急速增加。圖中當車速大于5 km/h時油耗會隨著車速的增加略微下降,考慮到農作物的長勢對收割機作業速度的影響較大[22],通常農作物長勢稠密、植株高、產量高時收割機作業速度在3~5 km/h。收割機速度在5~6 km/h時,一般對應于2檔作業,此時往往在收獲比較干燥、稀疏的農作物,這時發動機負荷較低,燃油消耗較低。
由圖2可知,隨著發動機轉速和發動機扭矩的增加,收割機油耗也會隨之增加,其中扭矩數據雖然有一部分的離群點,但是總體上依舊具有較強的相關性,收割機在作業時較大的加速度與減速度也會增加燃油消耗,因此在收割作業時應盡量避免急加速、急減速或者盡量保持勻速作業會更加有利于節油降耗。
2) 區域收割機田間作業油耗差異分析
研究表明不同區域的農機作業方式及油耗存在較大差異[23-24],根據中國現有的農業區劃[25],結合地形地貌,本文將遼寧、吉林、山東、江蘇、湖北、浙江6個省份劃分為東北地區(遼寧、吉林)、平原地區(山東、江蘇,包括華北及長江中下游平原地區),丘陵地區(湖北、浙江)三個區域。數據量共計130 788條,其中各省份數據均不少于12 000條。參考國家統計局谷物單位面積產量數據[26],三個區域的平均油耗及谷物單位面積產量統計結果如圖3所示。
從圖3可以看出單位面積產量最高的東北地區收割機作業時平均油耗明顯高于其他兩個地區,隨著單位面積產量的下降,收割機平均油耗也呈現出下降趨勢。單位面積產量越高,收割機作業時發動機負荷越高,進而導致油耗偏高。單位面積產量和收割機平均油耗有一定的相關性。
3)各指標與油耗的相關性分析
各指標與油耗的相關系數如表2所示。

表2 指標與油耗之間的相關系數 Table 2 Correlation coefficient between index and fuel consumption
由表2數據可以看出本文中所選取的指標與油耗顯著相關(P<0.01),其中發動機平均扭矩、平均轉速、行駛平均速度與收割機油耗相關性較高,相關系數在0.6以上。其次是加速度均值、減速度均值、加速度方差、減速度方差這些與行駛工況相關的指標,相關系數在0.4以上。從相關系數的計算結果中也可以證明結合發動機工況數據對于預測收割機燃油消耗會更加準確。
本文基于Python3.7語言和Sklearn0.23.1機器學習庫構建了隨機森林模型,電腦運行內存為16G。將表2中的指標數據作為油耗預測模型的輸入特征,并將輸入特征及真實油耗y一同進行無量綱化處理,將320組數據按照8:2的比例分割為256個訓練數據樣本和64個測試數據樣本。為保證預測模型的準確性和穩定性,對訓練集做了10折交叉驗證,采用網格搜索的方法找出模型最優參數。
隨機森林是典型的集成學習算法,裝袋法的代表模型[27-28]。其弱學習器為 CART(Classification and Regression Trees)決策樹模型。
決策樹的數量對油耗預測精度的影響最大,決策樹數量太少,預測誤差會變大,決策樹數量太多,計算量會劇增,當決策樹到達一定數量后,預測精度提升會很少。基于隨機森林的油耗預測模型中決策樹的數量與模型平均絕對誤差及模型訓練時長的關系曲線如圖4所示。
從圖4可以看出當決策樹數量為150后,決策樹數量繼續增加,平均絕對誤差曲線趨于平緩,但模型訓練時長持續增加,因此決策樹數量為150較為合適。
基于隨機森林的油耗預測模型結構如圖5所示,通過對256個訓練集進行有放回的隨機采樣,構建出150個采樣集,每個隨機采樣集大約包含167個訓練樣本,基于150個采樣集構建150棵決策樹作為油耗預測模型的弱學習器,決策樹的每個結點包括n個樣本,進行分裂時隨機選擇k個樣本構成一個特征子集X′(對油耗有影響的特征向量),通過特征子集X′進行結點分裂,每個結點可以分裂為R1(q,s),R2(q,s)兩個新的結點。其中q為X′中影響油耗的指標,s為結點分裂閾值,s的目標函數為
式中yl為第l條記錄的真實油耗,L/h;xl為第l條記錄中影響油耗的特征向量;c1為R1結點中真實油耗的平均值,L/h;c2為R2結點中真實油耗的平均值,L/h。回歸決策樹通常會導致偏差較小,方差偏大,使得油耗預測模型在訓練集上產生過擬合現象,所以需要對建好的決策樹稍加控制。本文采用較為常見的控制策略,對樹的深度h、每個結點包含的最少樣本數N、分裂一個結點需要的最小樣本數m加以限制,通過網格搜索的方法找出h為21,N為2,m為2,相比于不加控制,油耗預測誤差降低了0.01。隨后對150棵決策樹的油耗預測結果求解算術平均值作為最終預測結果。
支撐向量機作為一種有監督的學習方法,在油耗預測研究中有較多應用,并且有較高的預測精度[29-31],因此為驗證通過發動機工況數據及行駛工況數據構建基于隨機森林的油耗預測模型的高效性,本文將基于支撐向量機的油耗預測模型[29-31]作為對比方案進行參考。
為了評價2種模型對油耗的預測準確性,本文比較了3種指標,分別為均方根誤差RMSE、平均絕對誤差MAE、決定系數R2,3種評價指標計算方式如下所示
式中yu′為測試樣本中第u個預測油耗,L/h;yu為測試樣本中第u個真實油耗,L/h;n為樣本數量;為真實油耗的平均值,L/h。
兩種模型的油耗預測輸出與真實油耗關系如圖6所示。其中A+B類型的點表示使用表2中全部指標進行油耗預測時模型的預測輸出,A類型的點表示單獨使用表2中A類指標對油耗進行預測時模型的預測輸出,從圖6可以看出加入發動機工況(B類)數據后,兩種模型的油耗預測值與真實值的數值相似,并且要比單獨使用A類數據進行油耗預測誤差更小。模型的3種指標計算結果如表3所示。

表3 基于不同模型和指標評估結果 Table 3 Results for model evaluation based on different models and indices
從表3中可以看出,支撐向量機和隨機森林兩種油耗預測模型在加入發動機工況數據訓練后,3種評價指標的數值均明顯變優,均方根誤差分別為0.15和0.14 L/h,平均絕對誤差分別為0.25和0.24 L/h,R2均大于0.5,R2最大值為0.84,說明兩種模型均可以準確預測收割機燃油消耗,但基于隨機森林的油耗預測模型無論是否使用發動機工況數據油耗預測誤差均是最小的。
本文根據谷物聯合收割機作業時的行駛工況數據及發動機工況數據,確定了與油耗相關的7個關鍵指標,基于斯皮爾曼相關系數分析了各個指標與油耗的相關性,其中平均轉速、平均扭矩、平均速度與油耗的相關性較高,其次是加速度均值、減速度均值、加速度方差、減速度方差。通過大量數據的統計分析發現不同區域收割機作業的燃油消耗存在差異,并且和區域單位面積產量相關性較高。
本文選取7個指標并結合省份信息構建基于隨機森林的油耗預測模型,并與支撐向量機模型進行對比。結果表明,兩種模型均能夠準確的預測燃油消耗,但基于隨機森林的油耗模型預測誤差更小,均方根誤差為0.14 L/h。
本文以谷物聯合收割機油耗為研究對象,在未來研究中,會考慮更多類型的農業機械,并將綜合考慮多種地形、多種天氣下的油耗,為農機的工況優化及精準油耗監管提供參考。