黃 堃,楊 文,丁孝華
(國電南瑞科技股份有限公司,江蘇 南京 211106)
目前,水泥生產作為我國國民經濟發展不可或缺的支柱產業,同時作為高能耗產業,水泥生產工藝流程的優化與節能環保的需求日益突出。而對水泥生產的能耗預測是減少電能消耗與污染物排放、提高水泥生產過程的品質和效率的前提條件[1-3]。國內外研究人員對構建水泥爐窯的能耗預測模型進行了研究,一般可分為基于機理建模和基于數據建模2類[4-5],但水泥爐窯煅燒涉及眾多環節與設備,參數具有變量多、關聯性強等特點。機理建模無法準確描述燒成系統主要參數與能耗的關系。因此數據建模是當前的主流研究方向,其主要是采用專家系統、自適應回歸、模糊系統、人工神經網絡等人工智能方法對水泥爐窯的能耗建模進行研究[6-8]。
馬爾科夫過程常被用于船舶交通流量、瓦斯濃度、需水量、股票走勢的預測。呂鵬飛等[9]利用BP神經網絡建立船舶交通量的預測模型,預測時結合馬爾科夫修正法有效提高了預測精度。韓婷婷等[10]采用馬爾科夫修正法修正灰色神經網絡模型預測值,使預測的瓦斯濃度變化趨勢更貼近實際瓦斯濃度的變化曲線。景亞平等[11]結合馬爾科夫修正法建立了灰色神經網絡的城市需水量預測模型,試驗表明其獲得了優于單一灰色神經網絡預測模型的預測效果。WANG等[12]建立了基于馬爾科夫過程的模糊神經網絡預測模型,較精準地預測了股票指數的走勢。
相關學者通常采用單個神經網絡建立水泥生產窯的能耗預測模型。為提高預測模型的精度,本文在數據預處理時采用平均影響值法篩選能耗敏感變量。建模時以RBF神經網絡為元學習器,結合集成算法的思想,建立精度較單個神經網絡更高的集成能耗模型。在基于集成模型預測能耗時采用馬爾科夫修正法,即依據歷史能耗預測值與實際值的殘差修正網絡輸出的能耗預測值,從而提高水泥生產的能耗預測精度。
水泥的生產過程主要包含生料制備、熟料煅燒和水泥磨粉3個階段[13-14](簡稱“兩磨一燒”),其主要生產過程如圖1所示。

圖1 水泥的生產過程Fig.1 Cement production process
水泥生料制備所用原材料包括石灰石、砂巖、黏土、鐵礦石、粉煤灰及煤碳等,其中石灰石是水泥生產的主要原材料,具有顆粒較大、硬度較高等特點,需經破碎機破碎處理,實現原料的均化;再將原料按一定比例混合,實現生料的調配;最后經生料磨沖擊磨粉的方式處理成細顆粒。
熟料煅燒是水泥生產中能耗最大的階段,主要包括預熱分解、燒成和熟料冷卻3個部分。將生料輸送至預熱器頂端的進料口,生料在預熱器內進行預熱和少量的預分解處理,而后在預熱器下端的分解爐內熱分解大部分生料,經過分解的生料進入回轉窯,在燒成反應下生成熟料,最后將熟料導入冷卻機冷卻。水泥磨粉階段,在剛出冷卻機的熟料內加入適量的石膏和礦渣,經水泥磨磨成細粉狀的水泥出廠。
綜上,水泥燒成系統能耗可能的依賴變量主要包括:喂煤量、CO體積分數、生料流量、冷卻劑鼓風管道壓力、入冷卻機空氣溫度、熟料流量、預熱器的出口壓力、預熱器廢水溫度、冷卻機出口熟料量、冷卻機出口熟料溫度、冷卻劑煙筒壓力、冷卻劑煙筒廢氣溫度、分解爐中段表面溫度、回轉爐中段表面溫度和環境溫度等。
從水泥窯分散控制系統(distributed control system,DCS)中按時間序列收集喂煤量、CO體積分數、生料流量、冷卻劑鼓風管道壓力、入冷卻機空氣溫度、熟料流量等變量值及對應電能消耗的實際數據,作為試驗樣本數據集。
在利用神經網絡進行能耗建模前,不能明確各輸入變量對輸出能耗結果的影響程度,選擇的變量較多時,影響較小的變量會使模型結構更復雜,甚至可能會降低能耗模型的精度。因此需通過合適的預處理方法篩選自變量,獲得對能耗輸出影響較大的變量作為神經網絡的輸入變量,本文選用平均影響值法選擇參數[15]。其具體實現步驟如下:
若原始訓練數據集含有一定數量的樣本,每個樣本包含n個屬性,即樣本集P={P1,P2,…,Pn},輸出為一個變量Y=[y1,y2,…,ym]。

Step3:對所有的輸出差值IVj求和并取平均值,得到第j個輸入變量的平均影響值 MIVj,本文輸出結果僅包含能耗值一項,所以IVj=MIVj。該值的正負號表示該輸入變量與輸出變量的相關方向,該輸入變量對輸出變量的影響程度由其絕對值大小表示。
Step4:對MIVj的絕對值按照降序排列,若排序后的前k個平均影響值MIV絕對值的累計貢獻率滿足
(1)
選擇對應的k個輸入變量代表全部輸入變量重新構建神經網絡建模,其中取η0=85%。
在建模階段,以RBF神經網絡為元學習器,結合集成算法的思想,集成學習本質是使用多個元學習器并行學習,并按照某種規則將多個學習結果進行組合,獲得一個強學習器,建立比單個模型精度更高的集成模型。神經網絡的集成學習算法由個體生成和結論組合2個步驟完成。集成學習算法用于回歸建模問題時,結論組合階段通常將各神經網絡的輸出經平均或加權平均處理后作為集成模型的輸出。個體學習器的數目和集成的效果無關,且個體分類器數量多會增加計算量,占用更多的計算機資源。因此選擇差異度大的個體神經網絡作為個體生成階段的重要內容。本文采用差異化訓練樣本的方式完成個體的生成,具體運行流程為
Step1:將預處理后的試驗樣本按時間段隨機分為T份(時間段間可交叉重疊)。
Step2:對每份樣本分別劃分訓練集和測試集,并分別訓練T個RBF神經網絡,訓練完成后得到T個能夠反映不同能耗特征的能耗模型。
Step3:分別用T個模型對同一測試集測試得到T個網絡輸出結果,對T個結果采用求平均值的方式得出最終的集成輸出結果。
集成神經網絡建立能耗模型的過程如圖2所示。

圖2 集成神經網絡建立能耗模型的過程示意Fig.2 Schematic diagram of the process of integrating neural networks to build energy consumption models
元學習器(RBF神經網絡)結構與學習過程如下:
RBF(Radial basis function)神經網絡,又稱徑向基神經網絡,是一種包括輸入層、單隱層、輸出層[16]的3層神經網絡。輸入空間經非線性變換到隱藏層空間,而隱層空間經線性變換到輸出層空間,其結構具體如圖3所示。

圖3 RBF神經網絡結構Fig.3 Diagram of RBF neural network structure
RBF網絡的基本思想是以RBF作為隱單元的基,從而構成隱層空間,將輸入矢量直接映射到隱空間,輸入層和隱藏層之間不需要對信號進行處理,只起到信號傳遞的作用,沒有通過權連接。這種映射關系在RBF的中心點確定后即可確定。隱層到輸出層通過權連接,即網絡輸出對可調參數權值而言是線性的。網絡的權可由梯度下降法修正獲得,RBF神經網絡學習速度快且無局部極小問題。理論上隱藏層節點數即中心點越多,RBF神經網絡的函數逼近性能越好。
采用高斯函數作為徑向基神經網絡隱藏層的激活函數,即
(2)
其中,X為p個維度為h的輸入向量;h為隱藏層中心點個數;βj為隱藏層的中心寬度;cj為第j個徑向基函數的中心點。‖X-cj‖2表示向量X-cj的歐幾里德范數平方,即為輸入樣本點與中心點的距離,當X到cj的距離達到最近時,‖X-cj‖2最小,R(X-cj)達到極大,此時函數被激活,神經網絡的輸出為
(3)
式中,y為輸出單元;b為隱藏層和輸出層之間的偏置;wj為隱藏層到輸出層的權值。
RBF神經網絡的訓練包括非監督學習和監督學習2個階段。在非監督學習階段使用K-means聚類算法確定RBF的中心點。具體訓練過程為
Step1:從輸入樣本集中隨機選取N個樣本作為初始的中心點,即c1,c2,c3,…,cN。
Step2:計算每一個輸入樣本與這N個中心點的歐式距離,即
dj=‖X-cj‖,j=1,2,3,4,…,N。
(4)
Step3:將每個樣本點依次劃分到與其距離dj最近的中心點所在的簇中。
Step4:計算各個簇中的樣本點均值,并將均值作為各簇新的中心點。
Step5:重復Step2~4,直至中心點不再有明顯變化,即達到訓練要求。
上述訓練完成后,各中心點的位置即被確定。
在監督學習階段使用梯度下降法修正隱藏層與輸出層間的權重。具體訓練過程為
Step1:初始化權值,并設定的準確率限值ε。
Step2:計算神經網絡輸出值,并求出誤差目標函數值E,即
(5)
其中,p為輸入訓練樣本的個數;ei為第i個樣本輸入后產生的誤差量。為使總誤差函數E達到最小值,權重的修正量應與其負梯度值成正比。
(6)
其中,G為高斯函數。更新權值wk+1=wk+Δw,然后轉向Step2。
上述訓練完成后,權值即可確定。RBF神經網絡的訓練過程如圖4所示。

圖4 RBF神經網絡的訓練過程流程Fig.4 Flow chart of the training process of RBF neural network
馬爾科夫鏈預測過程描述的是一個隨機時間序列的動態變化過程,該過程指在已知t0時刻狀態的情況下,系統或者過程在t(t>t0)時刻所處狀態的條件分布僅由時刻t0的狀態決定,而與t0之前的狀態無關[9-10]。馬爾科夫過程的處理對象是隨機波動性大的離散事件數據,可用數學形式表示為
P{Xk+1=ik|X1=i1,X2=i2,…,Xk=ik}
=P{Xk+1=ik+1|Xk=ik},
(7)
式中,P為條件概率;Xk為子事件;ik為Xk對應的狀態。
水泥生產過程的能耗值經采樣后得到的是一組按時間序列的離散數據,本文求出測試樣本集中的各樣本能耗實際值Y1與網絡輸出預測值Y2的相對殘差值,用馬爾科夫過程建立殘差修正模型,對集成模型輸出的能耗預測值修正,使當前預測值更接近真實值。其具體過程為
Step1:按時間序列將測試樣本集中的各樣本能耗實際值Y1與網絡輸出預測值Y2比較,求出兩者的相對殘差Z為
(8)
其中網絡輸出預測值Y2為4個能耗模型輸出的均值。將相對殘差值歸一化為
中國特色社會主義理論體系的內涵是隨著改革與發展的推進而不斷深化和豐富的。十八大報告指出“中國特色社會主義理論體系,就是包括鄧小平理論、‘三個代表’重要思想、科學發展觀在內的科學理論體系,是對馬克思列寧主義、毛澤東思想的堅持和發展。”[1]
(9)
式中,Zmin為序列中相對殘差的最小值;Zmax為序列中相對殘差的最大值;Z*為歸一化結果。

(10)
其中,Δ為黃金分割率0.618;s為任意整數;n為所劃分的區間個數。將相對殘差值按大小劃分出n個狀態E1,E2,E3,…,En。n個狀態對應的殘差區間為
Qi∈(a,b),i=1,2,…,n。
(11)
Step3:求出狀態Ei只經1步轉移到特定狀態Ej的概率,即
(12)
其中,mij為序列中狀態Ei轉移到狀態Ej的次數。1步狀態轉移概率矩陣由Pij組合形成,即
(13)
根據C-K方程求出k步狀態轉移概率矩陣為
(14)
Step4:建立馬爾科夫鏈預測模型為
pk+1=p0Ak,
(15)
其中,p0為初始時刻的概率分布;pk+1為k+1時刻的概率分布。由k+1時刻的概率分布可得該時刻對應的狀態和殘差區間Q∈(Q1,Q2),并根據式(16)修正模型預測值。
(16)

馬爾科夫修正法修正能耗預測值的過程如圖5所示。

圖5 馬爾科夫修正法修正能耗預測值的過程示意Fig.5 Schematic diagram of the process of Markov correction method to correct energy consumption forecast
為了建立水泥生產的集成能耗模型,需要大量的水泥生產過程中的樣本數據用于模型訓練,因此根據要求在某水泥廠生產現場以5 h作為每組數據的采樣間隔,從水泥窯分散控制系統(distributed control system,DCS)中隨機收集4個時間段的(時間段可交叉重疊)喂煤量、CO體積分數、生料流量、冷卻劑鼓風管道壓力、入冷卻機空氣溫度、熟料流量等變量值及對應電能消耗的實際數據,共采集2 100個實測數據組,作為試驗樣本數據集,按2.1節平均影響值算法步驟進行變量篩選,各變量參數及其 MIV 值見表1。

表1 各變量參數及其MIV值Table 1 Variable parameters and their MIV values
提取8個對生產能耗影響較大的關鍵特征參數,包括生料流量、分解爐喂煤量、窯頭喂煤量、高溫風機轉速、EP風機轉速、預熱器出口壓、解爐中段爐內溫度、環境溫度,將其作為神經網絡輸入的自變量,電能消耗作為輸出的因變量,其中部分數據見表2。

表2 水泥生產過程的部分樣本數據Table 2 Partial sample data of cement production process
以Matlab作為試驗平臺,將2 100個預處理后的數據使用randperm函數打亂順序,并從中隨機抽取100個作為測試集T-train,剩余2 000個數據建立4個訓練集T-test,每個包含500個數據樣本。 RBF神經網絡輸入層神的神經元個數設置為8,輸出層神經元個數為1。按2.2節RBF非監督學習階段的K-means聚類算法的步驟,經多次試驗后最終確定中心的個數為50個較合適,即可構成8-50-1的神經網絡結構。使用newrbe函數創建并訓練RBF神經網絡,訓練完成后得到4個能夠反映不同能耗特征的能耗模型,再組合為集成模型。使用sim函數仿真測試,以誤差值與決定系數R2作為評價指標。
(17)


圖6 集成模型的能耗預測結果Fig.6 Energy consumption prediction results of the integrated model

圖7 單個RBF神經網絡的能耗預測結果Fig.7 Energy consumption prediction results of a single RBF neural network

圖8 2種方法預測的相對殘差對比Fig.8 Comparison of relative residuals predicted by the two methods
仿真結果表明,集成模型的R2=0.924 93,單個神經網絡的R2為0.906,集成模型有更高的R2值,說明模型解釋性更好。
根據圖7兩種方法能耗預測與實際值相對殘差的比較,定義相對殘差均值為
(18)
其中,Zi為第i個樣本輸入后產生的相對殘差值,i=1,2,…,100。計算得到單神經網絡預測E=0.043,集成模型預測E=0.016,即集成模型的預測誤差的損失函數值更小,模型預測精度更高。
為提高預測精度,按時間序列求出測試樣本集中的各樣本能耗實際值與網絡輸出預測值的相對殘差值(表3),并歸一化至[0,1.00](表2的第5列),求出歸一后的相對殘差的平均值為0.55。根據黃金分割法(取s=1)的規則,將能耗值劃分為3個狀態E1、E2、E3,E1區間為[0,0.47) ,E2區間為[0.47,0.72],E3的區間為(0.72,1.00]。根據馬爾科夫修正過程的描述,第14個能耗值經1步轉移到第15個能耗值的1步狀態轉移概率矩陣為

表3 集成模型的能耗預測結果Table 3 Energy consumption prediction results of the integrated model
第13個能耗值經2步轉移到第15個能耗值的2步狀態轉移概率矩陣為
同理可求出k步狀態轉移概率矩陣。


則第15個能耗值處于狀態E2的概率較大,并對集成能耗模型的預測值進行馬爾科夫修正。

1)在利用神經網絡進行能耗建模前,采用平均影響值算法明確各輸入變量對輸出能耗結果的影響程度,并從12個變量中剔除對網絡輸出影響較小的6個,使神經網絡模型的結構更為簡單。
2)在建模中引入集成算法的思想后決定系數R2提高了0.019,預測值與真實值的相對殘差均值減少了0.027,說明能耗模型具有了更好的解釋性與更高的預測精度。
3)集成能耗模型預測的能耗值經馬爾科夫修正后的相對殘差從-0.6%降至-0.25%,說明經馬爾科夫修正后的水泥生產的能耗預測值更接近實際能耗值。