郭建軍 韓鈐鈺 董佳琦 周 冰 徐龍琴 劉雙印
(1.仲愷農業工程學院廣州市農產品質量安全溯源信息技術重點實驗室, 廣州 510225; 2.仲愷農業工程學院信息科學與技術學院, 廣州 510225; 3.深圳信息職業技術學院數字媒體學院, 深圳 518172; 4.仲愷農業工程學院智慧農業創新研究院, 廣州 510225)
規模化肉羊養殖場是肉羊棲息地重要場所,羊舍濕度過高或過低直接威脅肉羊健康生長,導致肉羊疾病暴發甚至大批量死亡,造成巨大經濟損失[1-2]。而羊舍濕度具有大時滯、非線性和空間分布差異性的特點,且與多種環境參數相互作用,機理復雜、耦合性強,傳統的預測方法構建的濕度預測模型難以滿足規模化肉羊精準養殖的需要[3-4]。因此,采用新型人工智能算法對羊舍濕度精準預測,及時掌握濕度變化規律并提前調控是確保規模化肉羊在無應激環境下健康的關鍵[5-6]。
國內外專家學者已對相對濕度預測進行了多年研究,并在溫室、果園、土壤溫濕度、配電網環境等領域得到成功應用[7-13]。上述模型雖然取得一定的預測效果,但是仍存在訓練時間長、收斂速度慢、欠學習和過學習、易陷入局部最優等不足,難以滿足規模化肉羊養殖場濕度精準調控需要。
在線采集的規模化肉羊養殖場濕度數據具有時序性、非線性等特點。而作為深度學習典型方法之一的長短時記憶網絡(Long short-term memory,LSTM)具有通過提取歷史時序數據特征來挖掘未來數據變化趨勢的能力,使其在許多領域的時序數據預測中得到廣泛應用[14-16]。鑒于LSTM在復雜預測任務上的潛力,本文采用LSTM算法進行預測,以期提高精度。
LSTM其性能受參數的影響很大,如何選擇最佳參數組合以獲得更好的預測結果,是LSTM預測模型必須要解決的主要問題之一。粒子群優化(Particle swarm optimization,PSO)算法具有搜索速度快、效率高、魯棒性好、算法簡單、更容易收斂的優點,在現有的濕度預測模型中,被一些學者研究使用[17-19],且研究成果均證明粒子群優化算法在濕度預測模型中具有很好的優化效果,因此本文采用PSO進行組合參數的優化。
傳感器采集數據時,傳感器老化、電磁干擾等問題會造成數據存在噪聲,直接對數據進行預測則會影響預測精度。目前,很多學者利用奇異譜分析(Singular spectrum analysis,SSA)法進行預處理,達到了很好的降噪效果[20-22],證實奇異譜分析具有一定的研究價值。
因此,基于前人的研究成果,為解決單一LSTM模型訓練耗時長、泛化能力不足、難以處理大量級數據的問題,本文將奇異譜分析法、粒子群優化算法和長短期記憶網絡相結合,提出一種基于SSA-PSO-LSTM的新疆羊舍環境濕度組合預測模型,首先利用SSA分離出正常序列和噪聲序列,將原始序列轉化為平滑序列;其次通過PSO不斷迭代優化確定LSTM的最優參數,降低LSTM的訓練成本;最終依據優化參數建立組合預測模型分別對兩序列進行預測,模型結果之和為最終預測結果。采用從新疆瑪納斯新澳畜牧有限公司5號育種群母羊舍采集的系統數據,對不同時間間隔的濕度進行預測,以驗證該試驗模型的有效性。
本研究試驗數據區域為新疆維吾爾自治區昌吉回族自治州瑪納斯縣瑪納斯新澳畜牧有限責任公司基地(北緯44°27′18″,東經86°10′47″),總面積約1 367 m2、試驗(主體區域)面積約422 m2。該基地是一個集薩福克羊育種、種苗繁育、集約化養殖等多功能一體化的薩福克羊綜合養殖基地。本試驗選取的半封閉式薩福克羊養殖場按《畜禽養殖小區建設管理規范》進行設計,四面墻體均采用磚混結構,頂面采用鋼板結構,地面是泥土結構建造半封閉羊舍(長約33.75 m,寬約12.5 m)。羊舍結構分為主體區域(中間,日常休息區域)、遮陽區域(北側)、活動區域(南側,飲食區),主體區域與遮陽區域以及活動區域都有可關閉門通道。羊舍夏季采用自然通風以及北側的遮陽棚進行避暑,冬季在主體區域進行封閉式養殖,在主體區域安裝了溫度傳感器、濕度傳感器、噪聲傳感器、光照傳感器、PM2.5傳感器、PM10傳感器、TSP(總懸浮顆粒物體積比)傳感器、CO2傳感器、NH3傳感器以及H2S傳感器,傳感器分布在主體區域中心下檐,其中CO2傳感器和TSP傳感器距地面2.4 m,其余傳感器距地面3 m左右,其平面示意圖如圖1所示。

圖1 新疆羊舍監測平面示意圖Fig.1 Schematic of Xinjiang sheep house monitoring
以新疆瑪納斯新澳畜牧有限公司5號育種群母
羊舍相對濕度為研究對象,利用基于物聯網的禽舍養殖環境監測系統,每10 min采集一次數據,將采集的2021年3月17—27日的1 584條羊舍參數數據作為試驗數據,根據文獻[23-25]可知,噪聲過高易導致飼料利用率降低;氨氣濃度過高易導致綿羊質量降低;濕熱易導致羊的免疫功能下降;硫化氫濃度過高易阻礙動物呼吸中樞,甚至窒息死亡;二氧化碳濃度過高易導致動物缺氧,引發二氧化碳中毒;PM2.5指數、PM10指數、TSP過高易導致傳染病及呼吸道疾病的發生;光照強度過高時間過長易抑制動物體內褪黑素的分泌;溫度過高易對動物的繁殖能力以及飲水量和采食量產生不利影響。經過以上結果分析及畜牧業養殖專家指導建議,篩選影響因子包括空氣溫度、空氣濕度、二氧化碳濃度、PM2.5指數、PM10指數、光照強度、噪聲、TSP、氨氣濃度、硫化氫濃度等參數,來實現對未來10 min的羊舍濕度預測。采集的羊舍養殖環境部分原始數據如表1所示。

表1 2021年3月17—27日采集的部分原始數據Tab.1 Some original data collected from March 16 to March 26, 2021
由于羊舍環境中各參數量綱和數值量級相差過大,為了提高預測精度,應對各數據項進行歸一化處理,計算式為
(1)
式中Ymax——最大值Ymin——最小值
Yi——真實值Y′i——歸一化值
為評價本文提出的羊舍濕度預測模型性能,采用均方誤差(MSE)、平均絕對誤差(MAE)和決定系數R2作為預測結果的評價指標。
奇異譜分析[26]適用于分析具有潛在結構的時間序列,其主要思想是通過對時間序列的軌跡矩陣進行分解和重構,從中提取出長期趨勢信號、周期信號和噪聲信號[27]。該方法將原始序列轉化為平滑序列,通過消除噪聲進行精準預測,主要用于識別和提取數據的主成分。具體步驟如下:
(1)嵌入
將長度為N的一維時間序列F=(f1,f2,…,fN)轉化為d×K維的軌跡矩陣F。其中d=N-K+1,d為整數且1 (2) 式中K——窗口長度 N——樣本數量 (2)奇異值分解 對F進行奇異值分解,先對FFT進行特征分解,得到d個降序排列的非負特征值λ1≥λ2≥…≥λd≥0,U1,U2,…,Ud為對應的正交特征向量,p為非零特征值的個數,則 (3) (4) F=E1+E2+…+Ep (5) Vi——主成分 Ei——基本矩陣 (3)分組 將F=E1+E2+…+Ep分割成q個不同的組I1,I2,…,Iq,記作Ii={i1,i2,…,ip},將q個不相交矩陣相加得到F,則 FIi=Fi1+Fi2+…+Fip (6) F≈FI1+FI2+…+FIq (7) (8) 式中αi——每組貢獻率 (4)重構 (9) 粒子群優化算法[28]是一種全局隨機搜索算法,通過追隨當前搜索到的最優值來尋找全局最優,其基礎是信息的社會共享。PSO具有算法簡潔、易于實現、參數調整較少、不需要梯度信息的優點,可綜合3條簡單準則來構建這個行為:遠離最近的鄰居;向目標靠近;向群體的中心靠近。文獻[29]試驗結果顯示,采用 PSO 優化算法代替傳統 BPTT(基于時間的反向傳播)算法對 LSTM 網絡內部權值更新,進行軌跡預測,所需時間更短,能夠滿足在線預測的時間要求,精度也有所提高。具體步驟如下: (1)初始化參數 (2)個體極值與全局最優解 (3)更新速度和位置 令k=0,k←k+1,根據公式 (10) 式中r1、r2——[0,1]之間的隨機數 c1、c2——學習因子 w——慣性權重因子 (11) 長短時記憶網絡[30]是為了解決長期依賴而提出的一種特殊的RNN(循環神經網絡)變體,其在RNN的基礎上在隱藏層增加了記憶模塊,通過在網絡拓撲結構中引入門控單元,來控制記憶細胞刪減或添加信息,能夠有效解決反向傳播過程中存在的梯度消失和梯度爆炸的問題。 LSTM神經網絡由輸入層、輸出層和隱含層3部分組成,并由多個循環單元相互遞歸連接,每個神經元看作一個記憶細胞,每個記憶模塊由輸入門、輸出門和遺忘門構成,其基本結構[31]如圖2所示。 圖2 LSTM 結構圖Fig.2 LSTM structure diagram (1)輸入門 輸入門用于控制網絡當前輸入數據xt流入記憶單元的數量,也就是有多少可以保存在ct中,輸入門公式為 it=σ(Wi[ht-1,xt]+bi) (12) 式中σ——sigmoid函數 it——輸入門Wi——輸入門權重 bi——輸入門偏置 ht-1——上一時刻隱藏層單元的輸出 (2)遺忘門 遺忘門可以控制信息的選擇或遺忘,決定歷史信息中的哪些信息被丟棄,也就是判斷上一時刻記憶單元ct-1中的信息對當前記憶單元ct的影響程度,遺忘門公式為 ft=σ(Wf[ht-1,xt]+bf) (13) (14) (15) 式中Wc——候選向量權重 Wf——遺忘門權重 bf——遺忘門偏置 ft——遺忘門 bc——候選向量偏置 (3)輸出門 輸出門控制記憶單元ct對當前輸出值ht的影響,也就是記憶單元中的哪一部分會在t時刻輸出,輸出門公式為 ot=σ(Wo[ht-1,xt]+bo) (16) ht=ot⊙tanh(ct) (17) 式中ot——輸出門 Wo——輸出門權重 bo——輸出門偏置項 本文選取的樣本數據為新疆瑪納斯新澳畜牧有限公司5號育種群母羊舍2021年3月17—27日的養殖環境數據,每10 min記錄一次,共計1 584條。將空氣溫度、空氣濕度、二氧化碳含量、PM2.5指數、PM10指數、光照強度、噪聲、總懸浮顆粒物體積比、氨氣濃度、硫化氫體積比共10種環境參數作為輸入參數,用以預測10 min后濕度數據,采用前90%的數據作為訓練集,后10%數據作為驗證集,其羊舍原始濕度數據如圖3所示,據圖3可知,羊舍濕度數據呈現周期性、非線性的特點。 圖3 原始濕度變化曲線Fig.3 Raw humidity data chart 本試驗環境為:處理器Intel I5-5200U,CPU頻率2.2 GHz,內存8 GB,操作系統Windows 10,程序設計語言Python 3.7,集成開發環境Anaconda 3,編程語言為Python 3.6,試驗采用Keras和Sklearn來實現基于SSA-PSO-LSTM組合模型的羊舍空氣濕度預測。 為了提高濕度預測模型性能,將SSA、PSO和LSTM模型有機結合,構建基于SSA-PSO-LSTM的羊舍養殖環境濕度非線性組合預測模型,其基本思想:對羊舍養殖環境數據進行歸一化處理,將SSA作為長短時記憶神經網絡的前置預處理系統,根據公式設置嵌入維度分離出正常序列和噪聲序列,然后分別對正常序列和噪聲序列進行長短時記憶神經網絡預測。使用PSO優化算法對兩個模型中神經元個數進行調優,使其精度進一步提高,最后將兩個模型結果做和得出預測結果。具體步驟如圖4所示。 圖4 預測流程圖Fig.4 Forecast flow chart (1)將新疆羊舍濕度數據標準化處理,并劃分樣本訓練集和測試集。其中前90%用于訓練,后10%用于測試。 (2)采用奇異譜分析法(SSA)將訓練集數據分為i組,經SSA分解后全部分量組如圖5、6所示。對序列進行重構,將分量值超出[-0.5,0.5]的序列做和得到趨勢序列使其趨勢序列的貢獻度大于99%。剩余的序列做和得到噪聲序列。 圖5 SSA分量組1Fig.5 SSA component group 1 圖6 SSA分量組2Fig.6 SSA component group 2 (3)使用粒子群優化算法(PSO)對LSTM算法的迭代數及神經元個數進行調優,并分別對趨勢序列和噪聲序列進行預測,得到基于趨勢序列的PSO-LSTM模型和基于噪聲序列的PSO-LSTM模型。其中預設迭代數范圍為[0,10],神經元個數為[0,20],共尋優20輪,每輪5個粒子,以R2作為適應度,基于趨勢序列的PSO-LSTM模型尋優結果顯示,PSO在第2輪之后每代的最優適應度均大于0.985,在第15輪之后每代的最優適應度均大于0.99,已基本上滿足LSTM模型的精度要求。 (4)將基于趨勢序列的PSO-LSTM模型和基于噪聲序列的PSO-LSTM模型預測結果相加,得到最終結果。預測結果如圖7所示。 圖7 SSA-PSO-LSTM預測結果Fig.7 SSA-PSO-LSTM prediction results 為了驗證提出模型的預測性能,將本文所提出的SSA-PSO-LSTM預測模型同其他7個模型進行對比,包括支持向量回歸[32](Support vector regression,SVR)、極限學習機[33](Extreme learning machine, ELM)、SSA-PSO-ELM、LSTM、GA(遺傳算法)-LSTM、PSO-LSTM、EMD(經驗模態分解)-PSO-LSTM,試驗以相同數據源為基礎,采用訓練集對上述模型進行訓練,測試集對模型預測性能進行驗證,并采用均方誤差、平均絕對誤差和決定系數R2作為預測模型的評價指標,預測模型結果對比如圖8所示。 圖8 預測結果對比Fig.8 Comparison of prediction results 由圖8可知,不同預測模型預測結果的擬合曲線趨勢相同,但波動較大,易出現極值點,而本文所提出的SSA-PSO-LSTM的預測曲線與真實值曲線最為接近,能夠很好地擬合羊舍濕度非線性變化曲線,取得較好的預測效果。 本文所提出的SSA-PSO-LSTM預測模型以及7個對比模型的性能評價指標如表2所示。可以看出,本文提出的SSA-PSO-LSTM預測模型的均方誤差、平均絕對誤差和R2分別為1.127%2、0.803%和0.988,各項評價指標均優于其它預測模型,與傳統的SVR、ELM和LSTM相比,該算法的均方誤差分別降低了86.30%、78.41%和74.35%,表明僅靠單一模型自身訓練,不能達到最優效果,其預測效果不能滿足實際需求。與經過優化處理后的GA-LSTM、PSO-LSTM相比,本文提出的算法的均方誤差分別降低了53.14%和49.57%,表明采用優化算法能夠提高模型的預測精度,且粒子群優化算法的尋優效果優于遺傳算法,但原始數據由于存在噪聲干擾,僅通過優化后的模型預測效果不理想,而本文所提出的經過SSA降噪處理后的模型效果更優。同時將EMD-PSO-LSTM模型與本文所提模型對比,其MSE更是降低了87.35%,試驗結果表明SSA對羊舍非線性濕度序列中的非平穩特征提取具有優異效果。為了更好地說明該模型的優越性,避免模型的偶然性,將SSA-PSO模型算法應用于ELM算法上,同樣相比原模型擁有更好的預測準確率。結果表明,本文提出的SSA-PSO-LSTM預測模型具有更高的準確性與更好的擬合性,更有利于單一時間序列預測,實時性較好,具有較強記憶功能的LSTM網絡,能夠對歷史數據進行記憶,準確預測10 min后羊舍空氣濕度,為羊舍空氣濕度預測預警提供了強有力的決策依據。 表2 不同預測模型試驗結果對比Tab.2 Comparison of test results of different prediction models (1)SSA能夠提取時間序列中的不同成分序列,直接分離原始信號的趨勢、震蕩和噪聲信息,減少計算量,降低數據的復雜度,有效壓縮研究對象的時空信息,適用于非線性數據進行時頻分析。 (2)采用PSO算法對LSTM進行全局搜索,解決了依據經驗選取參數的弊端,對比GA算法具有更快的收斂速度,可以獲得更優參數來優化模型,使LSTM的R2從0.954升至0.976。 (3)試驗證明,本文提出的SSA-PSO-LSTM模型能夠有效地預測短時間羊舍空氣濕度變化趨勢,預測精度高于SVR、ELM等典型的預測模型,具有良好的泛化性、穩定性和收斂性,預測結果可對羊群生長環境改善提供重要支持,有利于羊群健康成長,為羊舍空氣濕度預警提供有力支撐。

2.2 粒子群優化算法(PSO)



2.3 長短時記憶網絡(LSTM)


3 試驗與結果分析
3.1 試驗數據

3.2 試驗環境
3.3 試驗過程




3.4 結果分析


4 結論