郭利進, 惠培奇, 許瑞偉
(天津工業大學控制科學與工程學院,天津 300387)
收稿日期:2022-07-07
第一作者:郭利進,男,1970年出生,教授,數據融合及復雜系統建模研究,Doctor_guo@tiangong.edu.cn
通信作者:惠培奇,男,1997年出生,碩士,數據融合及復雜系統建模研究,Huipeiqi_1507@163.com
稻谷作為我國主要糧食作物之一,其儲存品質直接關系我國糧食安全。由于目前糧食作物存儲的方式,糧倉內農作物質量檢查復雜繁瑣,一般糧倉的質量檢測往往每月1次,時間較長,及時檢測出稻谷的質量變化可以提前使企業采取措施防止稻谷產生霉變造成經濟損失和糧食浪費。因此,選擇適合的科學原理和預測方法對稻谷質量進行一定的預測,對穩定稻谷儲存、實現糧食安全目標具有重要意義。
目前稻谷存儲質量的檢測技術越來越成熟,但大都依賴傳感器的性能與監測位置。稻谷存儲發生品質變化不能僅由幾個數學關系進行表達,各個因素之間關聯密切,該過程模型特點是非線性、強耦合。針對這一特點,很多學者展開廣泛的研究,商志根等[1]采用Logistic回歸與決策樹的技術,根據現有數據構建糧食存儲品質預測模型,效果較好,在糧食品質預測領域具有參考意義。姜友軍等[2]通過支持向量機構建品質預測模型,預測誤差在可接受范圍內,表明機器學習在糧食品質預測是可行的。近年來,隨著計算機技術與大數據的發展,人工神經網絡(ANN)[3]處理非線性映射問題具有較高的能力而被廣泛應用到糧食儲藏領域[4]。蘭雪萍等[5]基于BP神經網絡算法對多種糧食作物的儲存品質進行預測,效果較好,但環境影響因素考慮較少。蔣華偉等[6]針對BP神經網絡收斂速度慢的問題,提出改進粒子群算法(PSO)優化BP預測模型,對小麥的預測結果較好;蔣華偉等[7]提出BroadAdaBoost機器學習算法,針對小麥品質的生物特性變化,實現對小麥品質的精準預測。鄧玉睿等[8]根據實驗數據利用BP神經網絡建立糧食霉變模型,并使用實際存儲數據進行驗證,效果較好。但這些方法采用的BP網絡參數眾多學習速率較慢[9],需要人為反復調試,使預測模型難以構建并且精度有較大差異。由于徑向基神經網絡(RBF)參數較少,泛化能力強[10],因此被廣泛使用。
研究針對稻谷在糧倉內存儲問題,充分考慮存儲環境的影響的同時采用互信息法則選擇影響品質較大的因素。針對傳統RBF算法易于陷入局部極小值的缺點,根據迭代次數動態改變PSO的學習因子與權重系數,利用改進后的PSO算法與RBF神經網絡構建一種存儲環境-存儲品質的預測模型,與傳統RBF算法和PSO-RBF相比,DPSO-RBF算法對于稻谷預測的精度最高。
研究對象為2016—2021年儲藏在天津某糧倉內的稻谷,共12個稻谷糧倉,數據采集時間跨度為1個月。數據主要包含倉外氣溫、倉外氣濕、倉內氣溫、倉內氣濕、糧溫、糧食水分、CO2、O2和質量評價指標脂肪酸值[11],9維共720條數據。
數據維度為9維,若全部作為人工神經網絡的輸入輸出不僅僅耗費大量時間,還會由于干擾變量對預測精度造成誤差。因此采用互信息法則(MI)對數據進行特征選取降維處理數據。互信息法是用來獲取每個特征與標簽之間的線性或非線性關系的過濾方法[12],得到每個特征對于標簽的相關度。對于連續型變量,互信息計算如式(1)所示:
(1)
式中:p(x,y)為x和y的聯合概率密度函數;p(x)和p(y)為邊際密度函數。
互信息量確定聯合分布與分解的邊際分布的乘積有多相似。使用基于K近鄰的無參數方法,選擇X和Y方向上的歐式距離最大值作為選擇最近鄰的標準,并進行統計計數和概率密度估計。使用MI法則計算環境特征與稻谷脂肪酸值之間的互信息值,選擇合適相關特征用于預測模型訓練與驗證。
徑向基神經網絡是用徑向基函數充當隱含層單元的“基”構成隱含層,使輸入層與隱含層之間實現非線性映射,隱含層與輸出層之間實現線性映射[10]。相比使用場合較多的BP神經網絡,RBF網絡在收斂速度上速度更快,解決非線性問題的能力更強。RBF由輸入層、隱含層和輸出層組成,典型RBF網絡拓撲結構如圖1所示。輸入層負責將輸入信號傳遞至網絡內部,設輸入層有m個節點;作為網絡的關鍵部位,隱含層對輸入信號進行非線性運算,其神經元數量與訓練數據相關,設隱含層有n個節點;隱含層與輸出層通過權值向量w連接。

圖1 RBF神經網絡拓撲結構
實際應用中常選擇任意空間內正定的高斯基函數作為 RBFNN 隱含層函數,如式(2)所示:
(2)
式中:pj為隱含層第j個神經元節點向量;x為神經網絡輸入樣本;cj為第j個隱藏層節點的中心矢量,其維數與輸入樣本相同;δj為第j個隱層節點的寬度。
RBF網絡輸出層的線性關系表達式如式(3)所示:
(3)
式中:y為神經網絡的計算輸出值;wj為隱含層第j個神經元與輸出層之間的權值向量;n為隱含層神經元節點數量。
雖然RBF神經網絡可以很好地處理非線性問題,但神經網絡的參數的確定與模型的輸出有密切關系。因此徑向基函數中心cj、標準化常數和隱含層到輸出層的加權系數wij等幾個參數的確定尤為重要。
粒子群算法其主要思想是模擬鳥群覓食的行為,每個粒子的位置代表一個解,每經過一次迭代后,各個粒子向個體歷史最優解靠攏。假設在M維空間內進行目標求解,xi=(xi1,xi2,…,xiM)、vi=(vi1,vi2,…,viM)和pi=(pi1,pi2,…,piM)分別代表整個群體中第i個粒子的空間位置、飛行速度和最好位置,整個粒子群的全局最優位置為g=(g1,g2,…,gM)。
該算法速度和位置的更新公式如式(4)、式(5)所示:
vμd(t+1)=w·vid(t)+c1·r1[pμd(t)-xit]+c2·r2[pgt(t)-xit(t)]
(4)
xid(t+1)=xid(t)+vid(t+1)
(5)
式中:vid∈[-vmax,vmax],vmax=k·xmax,d為種群的維數;i為種群規模;t為迭代次數;w為權重因子;c1和c2為學習因子;r1和r2為位處在(0,1)中間的隨機數;Vid為最大速度。
w、c1和c2的大小影響粒子速度與位置,直接影響到算法的全局搜索能力和收斂速度。文獻[13]證明在搜索初期較大的w可以在較大的搜索范圍進行尋優,后期較小的w可以實現在局部精準搜索。方國華等[14]提出一種隨著迭代次數線性變化的方法,但當迭代初期沒能搜索全局就線性減小慣性系數,后期容易陷入局部最優。如式(6)所示,研究設計一種分段的非線性遞減的方式。若自學習因子c1取值過大,會使粒子游動在局部范圍,全局搜索能力不足;若社會學習因子c2取值過小,會導致粒子過早收斂到局部。結合這些特性,如式(7)所示。將c1進行線性遞減,c2進行線性遞增。
(6)
其中,
式中:wmax為慣性權重的上限;wmin為慣性權重的下限,一般取wmax=0.9,wmin=0.4;ger為最大迭代次數,t為當前迭代次數。
該方法保證了粒子初步搜索時以較高的速度完成全局搜索,在中期進行非線性遞減,即保證后期的精細搜索,又改善了直接線性遞減無法保證全局搜索完成的缺點;同時在粒子非線性空間內利用非線性特性尋優,有利于跳出局部最優。由式(7)可得,在尋優過程中,搜索初期c1取較大值,c2取較小值,使得粒子在初期保證搜索速度充分搜索全局;在搜索后期c1變小,c2變大增強局部尋優能力。
(7)
式中:ci_max為第i個學習因子的最大值;ci_min為第i個學習因子的最小值。
DPSO優化RBF神經網絡的原理是將參數映射為PSO中粒子目標,利用PSO尋優功能找到最優解后返回到RBF神經網絡實現網絡模型的構建,在尋優的過程中,將均方誤差最小的作為適應度函數,當其最小時,權重最優。算法流程圖如圖2所示。

圖2 DPSO-RBF神經網絡模型圖
比較9種指標之間的相關度, MI數值越大代表序列之間的相關性越高。為減少不相關指標對模型精度的影響,排除倉外氣溫(0.294 3)和倉外氣濕度(0.368 4)2個指標,故選取倉內氣溫(0.592 6)、倉內氣濕(0.732 3)、糧溫(0.720 0)、糧食濕度(0.671 9)、O2(0.723 2)和CO2(0.563 6)6種指標作為模型中影響脂肪酸含量的特征變量。
因此將采集到的數據80%作為訓練集,剩余20%為測試集輸入到存儲環境-存儲品質的預測模型中,如圖3所示建立以倉內氣溫、倉內氣濕、糧溫、糧食濕度、O2和CO2作為輸入單元,稻谷脂肪酸含量為輸出,隱含層的參數由DPSO算法確定的六輸入單輸出的預測模型。

圖3 預測模型示意圖
數據采集時有丟失或有異常會造成預測誤差,采集到的數據首先要進行預處理。對于數據缺失值進行填補的方法主要利用缺失數據前后時間的均值進行填補,但是數據中若有長期缺失的數據為了防止人為填補造成誤差,需要將缺失值去掉;對于異常值的處理主要采用Pauta準則,如果輸入數據x∈(μ-3σ,μ+3σ),該數據為正常數據;若x不在該范圍,則該數據為異常數據將被剔除并被數據均值代替。隨機選取替換后的部分輸入輸出數據如表1所示。

表1 部分原始數據
由于影響脂肪酸含量的因素具有多個且不同的數據具有不同的范圍,為了消除量綱不同造成的影響,將各個數據采取歸一化處理:
(8)
式中:X為原始數據值;X#為歸一化后的取值;Xmax和Xmin分別為原始數據的最大值與最小值。
為驗證研究所提出的模型的性能,使用2個損失函數作為評價的標準,包括均方根誤差(RMSE)和平均絕對誤差(MAE)。具體計算公式見式(9)、式(10):
(9)
(10)

利用Matlab搭建DPSO-RBF神經網絡模型,將預處理后的數據輸入模型進行實驗。同時構建RBF神經網絡模型、PSO-RBF神經網絡模型與DPSO-RBF進行對比。算法參數設置為:RBF的隱含層節點取20,初始種群數目N=50,最大迭代次數M=100。標準PSO模型中慣性權重w=0.9、學習因子c1=2、c2=2;DPSO模型中慣性參數wmax=0.9,wmin=0.1;c1_max=c2_max=2,c1_min=c2_min=1。
為降低神經網絡尋優的偶然性造成的誤差,采用3次重復獨立實驗取均值,其預測結果如圖4所示,3種模型對于稻谷的脂肪酸含量都能較好的實現預測,但DPSO-RBF模型預測精度優于其余2種模型,并且從圖4可清晰看出預測曲線與實際曲線擬合最貼近,波動最小。

圖4 稻谷脂肪酸值實際值與預測值比較
為更直觀地對比模型的精度,比較3種預測模型的評價指標,如表2所示,傳統RBF由于參數設置有誤差,導致預測精度較差;在加入PSO算法進行參數尋優后,模型的預測精度有所提升,相比未加入PSO算法尋優的RMSE降低29.4%,MAE降低29.8%,但由于傳統PSO算法容易陷入局部最優,導致模型精度提升有限;將改進參數確定方法的DPSO算法加入后,在克服局部最優的同時,尋找到了最優權重,相比于PSO-RBF預測模型,RMSE降低38.1%,MAE降低37.8%,說明改進后的DPSO算法可以使模型精度提升較多,進一步驗證了該模型的可行性。

表2 模型評級指標
研究根據稻谷實際存儲的特點,構建出關于稻谷儲存過程中環境因素與內部脂肪酸含量的DPSO-RBF預測模型。利用PSO算法對RBF神經網絡隱含層中難以確定的參數進行全局尋優,同時針對PSO算法全局搜索不充分、易于陷入局部最優的缺點,提出一種改變參數確定方式的改進方法。DPSO-RBF模型根據儲存環境可以有效實現對稻谷存儲質量的有效預測,對稻谷存儲提供一定的實際參考。但該模型沒有考慮時間序列模型的影響,后續研究可以以此作為研究重點。