李繼東,王強輝
(1. 河南林業職業學院,河南洛陽,471000; 2. 河南農業大學,鄭州市,450046)
中國作為世界上最大的水禽生產消費國家[1],發展具有集約化、無害化、規模化等特點的現代養殖勢在必行[2]。溫度調控直接影響集約化養殖的成敗,如果不能準確掌握禽舍氣溫環境溫度變化趨勢,及時進行溫度調控,極有可能導致大量禽畜死亡,引發嚴重經濟損失。因此,研究高精度養殖禽舍溫度預測算法具有重要現實意義。
監督學習、無監督學習和半監督學習是目前主要的溫度預測方法,被廣泛應用于海洋環境、水產養殖等領域[3-4],學者們也相繼提出了一些研究成果,Xu等[5]將熱力機理模型和人工蜂群算法應用于水產養殖水溫預測;徐龍琴等[6]采用極限學習機實現對育苗水溫的預測分析;Graf等[7]在人工神經網絡和小波變換的基礎上構建了一種江河水溫控模型。這些研究成果大多涉及大規模數據處理,如何最大限度降低數據樣本之間冗余度和差異性對預測結果的影響,是值得深入研究的問題。特征提取作為一種高效的數據處理技術,其能夠在有效選取高分辨能力特征子集的同時,大幅度降低數據處理維度,提高溫度預測精度[8]。特征提取方法可分為單變量度量和多變量度量提取,常見的單變量度量提取方法有Wrapper模型、主成分分析法(PCA)、Filter模型等,這類方法由于基于單變量度量準則,因此選取的特征子集并不是最優[9]。多變量度量提取主要選用最大信息壓縮指數、最大信息系數、Pearson系數等作為度量準則,仇利克等[10]融合Pearson系數和信息增益度量,實現特征子集選取;孫廣路等[11]基于最大信息系數度量和對稱不確定性標準,并采用馬爾科夫毯方法算法進行特征子集選取。上述研究實現了特征子集的有效提取,但是還缺乏對特征冗余度與數據多樣性的論證分析。完成特征子集選取后,可以利用極端學習機、支持向量機、BP神經網絡等進行溫度預測分析,Teng等[12]搭建了采用BP神經網絡的預測模型;葉林等[13]設計了一種融合RBF神經網絡和GA預測算法;王昕等[14]給出了基于PCA、PNN和SVR預測方案。這些方法往往需要大規模數據集作支撐,存在數據樣本之間的差異對預測結果有較大影響、訓練學習容易陷入局部最優的缺陷。綜上所述,提取具有較高辨識度的特征子集以及降低數據差異性對預測結果的影響是提高養殖禽舍溫度預測效率和精度的關鍵。
為此,提出一種基于智能優化特征子集選取和模糊聚類改進SVR的溫度預測方法,通過構建最優特征子集選取模型,選取出最大限度保持原始數據辨識能力的特征子集;建立模糊聚類改進SVR預測機制,最大程度的降低樣本數據差異性對預測精度的影響。實驗仿真結果表明,本文提出的預測方法具有良好的溫度預測性能。
養殖禽舍環境溫度受相對濕度、光照強度、TSP(總懸浮顆粒物)等多種因素影響,如果把所有因素作為溫度預測輸入變量,不僅增加了數據處理復雜度,而且數據之間冗余度會影響預測精度[15],因此提出最優特征子集選取模型,以最大限度選取出保持原始數據辨識能力的特征子集。
對于具有N個樣本的數據集合D=(x1,x2,…,xN),樣本xi由M個特征進行描述,即
xi?Fei=(Fi1,Fi2,…,Fij,…,FiM)
(1)
式中:Fij——第j(j=1,…,M)個特征。
設定數據集按照一定規則可以被劃分為K個分類C(D)=(C1,C2,…,CK)。
(2)
(3)
式中:Ci——第i個分類;
Ni——Ci內數據個數。
特征提取即在Fei內選取具有m個特征的子集Fei′=(Fi1′,Fi2′,…,Fim′)(1≤m≤M),并且最大限度保持原始數據分類能力。定義特征子集選取向量P=(p1,p2,…,pM)。
pi=0or1
(4)
利用P=(p1,p2,…,pM)對xi進行特征選取

(5)
從式(4)~式(5)可以看出,P僅有m個非0元素,且當pi=1表示第i個特征被提取。當P確定具體表達形式后,其非0元素對應特征組成的集合即為特征子集Fei′,N個Fei′組成特征子集矩陣
(6)
為此,定義最優特征子集選取指標CIP(D),并證明當CIP(D)取最小值時,此時P對應的特征子集即為最優特征子集
(7)
其中,U=[χij]K×K為類間相似矩陣,且為常數矩陣,χij表示分類Ci與Cj之間相似度;RM×K=(PT,PT,…,PT)為特征子集選取矩陣;ΦN×M=(Fe1,Fe2,…,FeN)T為特征矩陣;ψ=(φij)N×K為相關性矩陣,φij∈[0,1]表示xi與Ci的相關程度,采用文獻[11]提出的最大信息系數法進行求解。
命題:CIP(D)取最優值時得到的特征子集,特征之間的冗余度最小,而且特征子集最大限度保持原始數據分類能力。
證明:假設Fei所有特征已中心標準化處理,即
為便于描述,令U′=N2U、G=ψT(ΦR)(ΦR)Tψ,對式(7)有

(8)



(9)



(10)

證畢。
特征子集提取過程如下。

最優特征子集評價指標CIP(D)求解過程屬于NP難題,本文采用灰狼算法(Grey Wolf Optimizer,GWO)[16]進行優化求解。GWO是近期才被提出的一種新型群智能啟發式計算技術,其通過模擬狼群進食行為,將種群分為3級層次結構,狼群在不斷學習進化中完成捕食行為,進而實現全局優化求解。因其具有參數簡單,尋優能力強等特點,越來越受到關注[17](GWO基本原理不再贅述)。設GWO種群規模為O,每頭狼的編碼Xi等效為特征子集選取向量P,即Xi=(p1,p2,…,pM)。目標函數f(Xi)選取為最優特征子集評價指標
(11)
由于Xi的編碼是離散的,如果仍采用GWO連續迭代更新機制,會產生大量不符合要求的解,為此提出離散灰狼算法(DGWO),重新定義種群迭代進化機制。
1) 編碼替換。設定Xi(t)與Xj(t)(i,j=1,…,O且i≠j)存在β個不同編碼位(1≤β≤M),定義“編碼替換”操作α?CR[Xi(t),Xj(t)]為Xi(t)隨機選取α個不同于Xj(t)的編碼位,來替換自身相對應的編碼位(0≤α≤β),即
(12)
式中:Tmax——最大迭代次數。
從式(12)可以看出,運算初期,個體選擇較多的不同編碼位進行替換,以提高收斂效率。
2) 編碼突變。定義“編碼突變”操作λ?CM[Xi(t)]為隨選取Xi(t)內λ個編碼位進行取反操作(1≤λ≤M),即
Xi(t+1)=Xi(t)+λ?CM[Xi(t)]
λ=[(M-1)(cos(tπ/Tmax)-η2(t/Tmax)2+1)]
(13)
圖1給出了編碼替換、編碼突變操作示意圖。

圖1 編碼替換與編碼突變操作示意圖
采用DGWO對最優特征子集選取過程中進行優化求解:進化初期,處于第2、3級的狼以頭狼為學習對象,執行編碼替換操作以提高收斂效率;當種群處于進化停滯狀態時,頭狼和第2級狼執行編碼突變操作,從而擴大搜索空間以提高收斂精度,最終得到最優特征子集選取向量Pbest,其相對應的特征集合即為最優特征子集。圖2給出了DGWO優化求解最優特征子集示意圖。

圖2 DGWO優化求解最優特征子集示意圖

(14)
對式(14)引入拉格朗日多項式,有
(15)

(16)



ωSΦS(x)-vi‖2
(17)

有

(18)
此時,定義核函數κk(xi,xi)=Hk(xi)THk(xi),當κk(xi,xi)符合Mercer條件時,只需要選取S個核函數,就可以通過式(17)、式(18)實現聚類分析。
對于養殖禽舍溫度預測問題,往往事先并不知道數據分類個數,而且式(21)~式(24)迭代計算過程需要消耗大量運算資源,為此采用GWO對聚類函數進行求解,定義GWO狼編碼為gi(t)為聚類中心V。
gi(t)=(v1,…,vC)
(19)
以肉鵝養殖為例,影響養殖禽舍溫度TAB的因素有相對濕度(HR)、光照強度(LI)、TSP(TP)、二氧化碳(CO2)、氨氣(AM)、硫化物(SU)、空氣流動速度(VA)等。利用溫度傳感器、光照傳感器等,每隔1 h進行數據采集,得到數據集合D={(xi,yi)}i=1toN:
xi=(HR,i,LI,i,TP,i,CO2,i,AM,i,SU,i,VA,i),
yi=TAB,i
(20)


圖3 肉鵝養殖禽舍溫度預測實現示意圖
分別對本文提出的最優特征子集選取、多度量核FCM和養殖禽舍溫度預測進行仿真試驗。
采用典型測試數據Ionosphere(ION)、Arrythmia(Ary)、Madelon、Dexter 4種真實數據對最優特征子集選取性能進行驗證,表1給出了4種數據具體參數情況。

表1 仿真具體參數設置Tab. 1 Specific parameter settings of simulation
評價指標設定為數據分類正確率Γ和分類精度Θ。

(21)
其中,Mj、Ej分別表示與xj異類樣本集合和同類樣本集合,|Mj|、|Nj|為集合規模。Θ反映了數據分類精度情況,取值越小分類效果越好。選取KNN(K-Nearest Neighbor)分類器,并采用文獻[11]提出的FCBF特征提取算法、文獻[19]提出的SPEC特征提取算法和經典的ReliefF特征提取算法進行對比試驗,每種算法獨立運行30次,取分類正確率、分類精度均值進行對比分析,對比結果如表2所示。

表2 不同特征提取算法對比結果Tab. 2 Comparison results of different feature extraction algorithms
從表2可以看出,對于4種典型測試數據,本文所提特征提取算法無論是在分類正確率上還是在分類精度上,都要優于其他算法,分類正確率提高約6.3%~23.5%,這表明本文所提算法選取出的特征子集具有更好的分類能力,分類正確率幾乎都在96%以上。
采用Adult、Nursery數據集和人工數據集驗證多度量核FCM性能,其中,Adult、Nursery數據集的分類個數已知,人工數據集的分類個數對聚類算法未知。選取文獻[13]的遺傳模糊FCM和文獻[20]的核主元熵FCM進行對比實驗,每種算法獨立運行30次。分別選取聚類正確率均值Λ和式(17)所示的J(U,V)對比值進行對比分析(J(U,V)取對比值),表3給出了對比結果。

表3 不同聚類算法聚類結果對比Tab. 3 Comparison of clustering results of different clustering algorithms
從表3可以看出,對于典型測試數據Adult、Nursery數據集,3種聚類算法的聚類正確率都達到了96%以上。但是,對于人工數據集,由于分類個數未知,導致遺傳模糊FCM和核主元熵FCM幾乎不能實現數據有效分類,而本文算法表現出了優秀的聚類性能,特別的,對于高維規模數據聚類問題,本文聚類正確率保持在95%左右,實驗結果驗證了多度量核FCM算法復雜聚類問題良好性能。

(22)


綜上仿真試驗結果,本文提出的基于優化特征子集選取和改進SVR的養殖禽舍溫度預測算法,采用了最優特征子集選取模型,最大限度了保持了原始數據分類識別能力;利用多度量核FCM對數據樣本進行聚類分析,降低了數據差異性對預測精度的影響,使得預測結果更具可信度,研究結果能夠為肉鵝等養殖環境溫度調控提供支撐。

(a) 3月18日溫度變化圖

(b) 8月23日溫度變化圖

表4 不同溫度預測算法評價指標Tab. 4 Evaluation indexes of different temperature prediction algorithms
提出了一種基于優化特征子集選取和改進SVR的養殖禽舍溫度預測算法,該算法融了特征子集提取、多核度量FCM和SVR預測等技術,很大程度地提高了禽畜養殖溫度預測的精度和可靠性,聚類正確率可以保持在95%左右,禽舍溫度預測均等系數可以達到0.96以上,具有較好的推廣應用價值。下一步將重點圍繞提高算法預測效率方面進行研究。