蔣敏蘭 吳沛倫 陳昊然



摘要:目前雞蛋產量預測模型大多使用單一影響特征或者平均考慮各特征進行建模,存在精度低、抗干擾能力差等缺點。針對上述問題,利用多層LSTM神經網絡結合日齡、最高舍溫、最低舍溫、體質量、飼料消耗量5項特征建立高精度海蘭褐蛋雞產蛋率回歸模型,并將得到的模型與傳統的SVM模型和單層LSTM模型結果進行對比。結果表明,本研究提出的利用多層LSTM模型預測雞蛋產量均方誤差更小,模型精度更高。
關鍵詞:多層LSTM;海蘭褐蛋雞;產蛋率;多特征模型
中圖分類號:S126文獻標志碼:A
文章編號:1002-1302(2020)22-0248-04
作者簡介:蔣敏蘭(1976—),女,浙江蘭溪人,博士,副教授,從事傳感器技術、智能信號處理等研究。E-mail:xx99@zjnu.cn。
通信作者:吳沛倫,碩士研究生,從事深度學習、機器學習研究。E-mail:761159319@qq.com。
雞蛋作為蛋類消費品的主導者,為人體提供豐富的蛋白質、脂肪、礦物質和各種維生素等,營養價值極高[1]。根據世界糧食與農業組織統計,近5年來,中國雞蛋產量位居世界第一。據國家蛋雞產業技術體系的調研數據顯示,中國蛋雞養殖的規模化程度已有較大提升,已達70%,蛋雞養殖正朝著規模化、標準化、集約化的道路發展[2]。
蛋雞產蛋率是一個受人為因素、環境因素、雞自身因素等多種因素綜合影響的變量,有著非線性的特點[3-4]。目前,對蛋雞產蛋率研究大多使用單一影響因素進行分析、回歸與建模,存在精度低、抗干擾能力差等缺點。近年來,隨著計算機技術的快速發展及對深度學習領域不斷地探索和研究,深度學習已經在語音識別[5]、圖像識別[6]、自然語言[7]、回歸預測等領域取得成功。相比于以概率統計學為理論基礎對時間序列進行分析的方法,深度學習具有高效的非線性計算的能力以及對原始數據特征提取能力等特點,利用深度學習建立的模型具有高效、高精度的特點。
由于蛋雞產蛋率具有明顯的時間序列特征,通過對歷史數據的分析,可以在一定程度上對長期或短期的未來數據進行精確預測,進而實現養雞場利益最大化的同時給市場提供可預期的、穩定的雞蛋供應,穩定市場。長短期記憶神經網絡(LSTM)是一種改進的循環神經網絡,在處理時序問題時有著明顯的優勢。根據以上特點,本研究利用蛋雞產蛋率及5項影響因素構建基于LSTM的蛋雞產蛋率預測模型。
[WTHZ]1多層LSTM
近年來,循環神經網絡(RNN)在處理具有時序特征的數據時有著較強的優勢,所有RNN神經網絡都具有一種重復神經網絡模塊的鏈式結構,從圖1可以看出,RNN的出現雖然解決了傳統神經網絡無法對時間序列建模的問題,但是存在長期依賴以及梯度消失的問題。LSTM是Hochreiter等提出的一種循環神經網絡的擴展模型[8],從圖2可以看出,通過引入遺忘門、輸出門、輸入門使得網絡結構上除了輸出[WTHX]h在隨時間的延長流動,細胞狀態C也隨時間的延長流動,Hochreiter等通過設計特殊的門結構解決了RNN網絡中存在長期依賴的問題。圖2中分別為LSTM的遺忘門、輸入門及輸出門。
如圖2所示,數據在LSTM結構單元中的處理流程為:
第1步,利用公式(1),即遺忘門[WTHX]ft丟棄不需要的信息:
2基于多層LSTM的蛋雞產蛋率預測模型
2.1數據源及其預處理
本試驗數據由浙江省金華市蘭溪禽盛蛋雞養殖場提供,記錄了2批共19666羽(每批次9833羽)海蘭褐蛋雞從開始產蛋直至蛋雞售出期間,蛋雞每天產蛋率以及各項影響產蛋率特征的數據,根據張厚臣等研究,選擇最高舍溫、最低舍溫、飼料消耗、體質量與日齡這5項特征來研究其與蛋雞產蛋率之間的關系[9-11],部分數據見表1。
試驗數據要先進行預處理,步驟如下:
(1)由于蛋雞體質量數據養殖場每周測量1次,本研究假設蛋雞每天勻速增長,以此來補全缺失數據。
(2)利用公式(6)將補充完全的數據Min-Max歸一化至[0,1]區間。
2.2多層LSTM產蛋率預測模型建立流程
多層LSTM蛋雞產蛋率預測模型建立流程見圖3,其主要流程為:(1)收集需要的數據并按“2.1”節所述對其進行預處理;(2)搭建LSTM網絡,選擇合適的模型參數并對其進行訓練;(3)根據設置的均方誤差獲得需要的預測模型;(4)輸入測試數據,獲得預測結果,檢驗模型的精度和可靠性。
2.3多層LSTM產蛋率預測模型
2.3.2模型結構及參數選擇建立合適的LSTM結構并設置合適的參數,對網絡訓練過程中訓練時間和精度起到關鍵性的作用。本研究建立的多層LSTM產蛋率預測模型結構參數見表2。
除表2所列結構參數外,網絡結構中還須要設置以下重要參數:(1)Timestep在本研究中設置為1,即每個預測結果只與當天輸入的最低室溫、最高室溫、飼料消耗、體質量、日齡5項特征相關聯;(2)BatchSize在本研究中設置為15,表示1次訓練的樣本數目為15個;(3)Optimizer在本研究中設置為Adam,表示使用Adam優化器來更新步長。
2.3.3評價指標均方誤差(MSE)是用來評估回歸模型擬合精度的重要指標,在深度學習中常采用MSE作為損失函數,本研究采用均方誤差作為多層LSTM預測模型的評價指標,為公式(6)。
綜上所述,本研究通過堆疊LSTM神經網絡層,選定合適的Timestep、BatchSize和Optimizer參數,并且在最后一層使用全連接層(FC)得到預測結果,建立1個9層的LSTM神經網絡產蛋率預測模型。
3預測結果與分析
本研究基于python3.7編程環境,所使用的深度學習框架為Keras框架,選擇當天的最高舍溫、最低舍溫、飼料消耗、體質量、日齡5項特征作為LSTM的輸入數據,產蛋率作為輸出數據,對當天蛋雞產蛋率進行預測,得到的回歸模型預測曲線見圖4,訓練時每1次MSE見圖5,預測時每1次MSE見圖6。
從圖5和圖6可見,模型迭代500次左右時基本收斂,迭代2700~3000次時,均方誤差保持不變,表示模型已經完全收斂。
從圖7可見,單層LSTM模型預測曲線在0~50d的擬合過程中存在較大的誤差,在150~200d內同樣有一定的波動。傳統的SVM模型預測曲線自始至終都有較大的波動,與實際產蛋率曲線差別較大。而多層LSTM模型預測效果較好,預測曲線和實際曲線擬合度較好。在預測初期,在0~150d內波動較小,在150~200d內波動稍大,產蛋率在90%~100%區間內擬合曲線與實際曲線略有波動,在大致趨勢上與實際曲線相似。利用SVM、單層LSTM和多層LSTM的預測均方誤差(MSE)見表3。
從表3可以看出,本研究建立的基于多參數的多層LSTM蛋雞產蛋率預測模型的MSE為0.2568×10-3,與傳統的SVM模型相比,降低3.5432×10-3,與單層LSTM比,降低3.2204×10-3。結果表明,利用本研究提出方法建立的模型精度更高,能更好地預測雞蛋產量。
4總結
雞蛋產量作為一個復雜、非線性系統,以往的研究中常常采用數學函數關系來進行描述,使得到的模型存在精度不高的缺陷。由于產蛋率與時間存在明顯的相關關系,本研究借助LSTM神經網絡對時序問題有良好的適應性特點,以影響蛋雞產蛋率的最低室溫、最高室溫、飼料消耗、體質量、日齡5項影響因素為輸入特征,產蛋率為輸出特征,建立預測模型,測試均方誤差到達2.568×10-4,預測結果與蛋雞產蛋情況基本相符,為更好地預測蛋雞產蛋率提供了參考。
參考文獻:
[1]劉瑩瑩,鐘南.基于圖像處理的雞蛋新鮮度預測模型研究[J].食品與機械,2017,33(12):103-109.
[2]朱寧,秦富.蛋雞產業發展的國際趨勢及中國展望[J].中國家禽,2016,38(20):1-5.
[3]李飛,蔣敏蘭.基于支持向量機回歸的蛋雞產蛋率預測模型[J].江蘇農業科學,2019,47(13):249-252.
[4]李飛,蔣敏蘭.基于極限學習機的蛋雞產蛋性能預測[J].中國家禽,2019,41(2):62-64.
[5]GravesA,Abdel-RahmanM,HintonG.Speechrecognitionwithdeeprecurrentneuralnetworks[C].IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,2013.
[6]KrizhevskyA,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C].AdvancesinNeuralInformationProcessingSystems,2012.
[7]YoungT,HazarikaD,PoriaS,etal.Recenttrendsindeeplearningbasednaturallanguageprocessing[J].IEEEComputationalIntelligenceMagazine,2018,13(3):55-75.
[8]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735-1780.
[9]張厚臣.冬季蛋雞產蛋率與環境因子的統計學分析[J].安徽農業科學,2007,35(15):4532-4533.
[10]朱建國.生物飼料對蛋雞生產性能影響的觀察[J].中國畜禽種業,2019,15(9):169-170.
[11]王海濤.蛋雞產蛋率影響因素及提高措施[J].畜禽業,2019,30(4):31.