王夢柯 何利力



摘 要:由于制造業生產數據具有較強時段性,相關工藝蒸汽流量預測方法精確度不高,無法有效節能降耗。針對該問題,提出基于時間集分割的蒸汽流量預測模型。基于工藝生產情況及原始數據的時段性,將日生產工藝流量時間集劃分為工單穩定生產時段、工單啟動后/結束前時段、非工單時段,采用逐點回歸模型預測工單穩定生產時段,利用曲線補全模型預測工單啟動后/結束前時段。非工單時段無生產,因此無需進行預測。綜合逐點回歸—曲線補全預測結果,得出日工藝用蒸汽流量。實例研究表明,相較于傳統未分割時間集的單一預測模型,基于時間集分割的逐點回歸—曲線補全組合預測方法精確度達94%以上。基于時間集分割的組合模型不僅預測精度高且較穩定,可為蒸汽生產與實時調度提供決策依據。
關鍵詞:時段性;時間集劃分;逐點回歸;曲線補全
DOI:10. 11907/rjdk. 191885 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP306文獻標識碼:A 文章編號:1672-7800(2020)005-0088-06
0 引言
一個精確的工藝用流量預測模型對于蒸汽供應設備的調度優化與企業穩定生產具有重大意義。國內外現有流量預測方法可分為3類。
(1)基于數學分析的模型。如鄒伯賢等[1]將自回歸滑動平均模型(Autoregressive?Moving?Average Model,ARMA模型)應用到網絡流量預測中,取得了較好的預測結果,使網絡過載預警成為可能;劉艷麗等[2]提出一種改進的ARIMA預測模型,通過優化模型識別與參數調整提高了交通流量預測精度。
(2)人工智能模型。如吳海姬等[3]采用BP神經網絡建立主蒸汽流量預測模型,但神經網絡存在易陷入局部極小點、預測精度差等缺點;王雷等[4]針對實際生產過程中主蒸汽流量預測,提出一種基于支持向量機(Support Vector Machine,SVM)的主蒸汽流量回歸預測方法,然而該方法計算模型比較復雜,當數據規模較大時,耗時較長;Fu等[5]基于平均影響值和支持向量回歸,提出了一種新的主蒸汽流量預測模型,該方法可有效減少模型維數,提高預測精度。
(3)組合模型。如張維平等[6]提出一種基于粗糙集理論與最小二乘支持向量回歸算法相結合的主蒸汽流量預測方法,避免了常規最小二乘支持向量回歸算法根據經驗選取輸入參數的盲目性;Gao等[7]采用小波分析與人工神經網絡相結合的方法建立小波神經網絡短期交通流預測模型,取得了更好的預測精度與更快的收斂速度;Mouatadid等[8]首次提出復發長短記憶網絡與最大重疊離散小波變換及自舉技術相結合,并應用于農業灌溉流量預測,取得了準確的預測結果。
現有方法雖然在一定程度上提高了預測性能,但大多數方法不適用于預測制造企業生產工藝蒸汽流量,因為實際生產工藝流量數據具有較強時段性,若直接采取某種方法進行預測,結果往往不夠精準。因此本文提出一種逐點回歸——曲線補全的組合預測方法,根據不同時段數據特性和影響因素,先對時間集進行分割,再針對不同時段采用不同的預測方法,以提高預測性能,達到企業節能降耗的目的。
1 問題與數據描述
本文研究對象為某大型企業制絲線蒸汽流量預測及供能應用。根據次日計劃工單集合預測工藝用蒸汽流量,預測頻度為5分鐘/次。通過深入剖析工藝蒸汽歷史流量數據,充分考慮產品、工藝線、時間段等因素對流量的影響,利用最佳數學方法表示蒸汽變化規律,最后基于規律對次日工藝蒸汽流量進行預測。
該廠蒸汽由4臺蒸汽流量輸送大小不同的鍋爐進行供應,關于制絲生產工藝蒸汽流量的采集點位有100余個,數據采集頻率2次/分。工單數據集合[Wm,na][{order_id,t_s,t_e,b,d,a}],其中order_id表示工單編號且唯一,m表示第幾天,na表示工單生產次序,t_s表示工單生產開始時間、t_e表示工單生產結束時間、b表示生產產品、d表示生產工藝段、a表示生產工藝線。工單數據和流量數據融合后數據集合[o_m={(order_id,t_j,v_j,b,d,a)|][j=1,2,?2880}],其中o_m表示第幾天數據集,t_j表示采集時間點,v_j表示流量值。
本文從工藝蒸汽流量數據集中選取2018年1月8日至1月12日制絲A線烘絲段蒸汽流量數據進行可視化處理,繪制5日內蒸汽流量時間曲線圖。
由圖1可以看出,原始日蒸汽流量變化具有顯著的時段性,基本分為3類時段。結合業務調研及數據探索可知,流量處于平穩波動狀態的時段為工單穩定生產時刻,工單啟動/結束時段為穩定生產開始前一段時間段與穩定生產結束后一段時間段,非工單時間段即非生產時間段。
2 模型與方法
2.1 基本思路
實驗采用2017年6月1日到2018年12月31日蒸汽工單流量融合數據作為預測模型的訓練數據集,采用2019年1月7日到1月11日數據作為預測的校驗數據集,根據工廠日歷通過數據處理將非工作日剔除。
根據卷煙廠實際調研情況及大量數據可視化分析可知,工單正常生產時間段是蒸汽流量曲線波動較為穩定的時間段。在工單穩定生產前的一段時間,曲線波動主要處于管道預熱階段,預熱時間長度受生產產品、工藝線、工單次序影響,此外預熱階段蒸汽曲線還可能受人為操作影響;而工單穩定生產結束后的一段時間內,流量逐漸減少,最后趨于某一個值,為后續工單生產作準備。
為提高預測精確度,分析基于分割后的時間集數據特點,采用相應建模方式進行預測,即工單穩定生產時段采用逐點回歸模型,工單啟動/結束時段采用曲線補全模型,非工單時段分為工單間非生產時段和非工單間非生產時段,其中工單間時段流量用前一個工單末尾流量值填充,非工單非生產時段流量用0填充,故無需預測。綜上所述,預測天m時間點t處于的時間集不同,預測工藝蒸汽流量[x(m,t)]采用的預測方法也不同。主要包括工單穩定生產時刻蒸汽流量預測逐點回歸方法與工單啟動/結束蒸汽流量曲線補全方法,則蒸汽流量預測表達式為:
2.2 數據預處理
由于數據采集環節較多,實際收集的數據存在多種不連續、毛刺等問題,在建立預測模型之前需進行相應數據處理,還原數據連續性和真實性。
壞數據出現的位置和時間是未知的,具有很強的隨機性。其表現形式有多種,大致可劃分為3類:①單點空流量,該類壞數據主要是因為傳感器出現故障,沒有采集到數據或數據丟失;②單點毛刺流量,該種壞數據在整體數據中表現為急劇增大或急劇減小,與相鄰流量有明顯區分;③局部數據連續出現空流量,其表現為某個時間段內整體流量連續出現空值,與前后時間段內的流量曲線走勢明顯不同。
針對以上不同情況,采用不同處理方法處理數據。
(1)插值法。本文根據具體數據情況,采用插值法對缺失值進行補全。基本思路為:逐條檢查融合集合o_i中每個工單即order_id采集的流量值,如果是空值,則獲取其索引號[hi]及其前一個記錄的索引號[hi-1]和值[ri-1],然后繼續向后遍歷并保存每個遍歷值索引號,直到獲取后面一個非0的值[rn]及其索引號[hn],計算兩個非0數據之間的距離[hn]-[hi],用插值法將缺失的數據計算出來。
(2) 閾值法。通過對原始數據的可視化分析,可知毛刺數據均為單點毛刺且其值與前后點絕對差值均大于0.3t/h。故采用設置閾值法確定毛刺數據出現的位置,然后用插值法進行替換。
2.3 基于工作狀態的時間集劃分
通過實際業務調研及影響因子相關研究可知,時間點劃分受產品、工藝線、工單次序、工藝段影響。結合蒸汽數據特點,故提出基于特征點對訓練數據集中工藝日用蒸汽流量時間序列進行時間集分割,通過對大量訓練數據集中流量曲線特征點進行分類、分析,可標準化預測工單穩定時段、工單啟動/結束時段、非工單時段范圍[9]。特征點指日蒸汽時間序列中對其形態及整體趨勢變化影響較大的數據點。原始數據時間序列采集頻率2次/分,故日蒸汽時間序列[Y{yt1,yt2,?yti|i=1,2,?2 880}]的特征點獲取原則如下:
(1)根據生產計劃表剔除非工單時間段,假設取生產啟動時間為[t1],生產結束時間為[tm],故生產時間序列起始點和終止點為n=1或n=m。
具體流程包括:首先,由訓練數據集中工單蒸汽流量數據分析,可知特征點條件變量[R1]為1.2、[R2]為0.05;然后,遍歷訓練數據集,按照同工藝段、工藝線、產品、工單次序進行分類形成新的類別數據集[Fwm,na];第三,分別遍歷每一個[Fwm,na](其中[wm,na]表示m這天第na個工單)中的[wm,na],并根據設定特征點條件對其[ΔT1]和[ΔT2]進行統計并獲取特征點出現時對應的時間點,由統計結果分析可知同一個數據集[Fwm,na]中[ΔT1]和[ΔT2]的值基本穩定,故可通過統計結果標準化同工藝段、工藝線、產品、工單次序的工單啟動后時間段[ΔT1]與工單結束前時間段[ΔT2];最終把原訓練數據集按同產品、工藝段、工藝線、工單次序劃分為穩定生產時間段訓練數據集[Pwm,na(m,na=1,2?)]、工單啟動后訓練數據集[Swm,na(m,na=1,2?)]、工單結束前訓練數據集[Ewm,na(m,na=1,2?)]。以制絲A線烘絲段生產利群(新版)數據集[Fwm,1]部分統計結果為例進行統計說明,如表1所示。
2.4 基于穩定生產時段的逐點回歸
逐點回歸基本思路為:首先,依據已劃分的時間點可獲取每個預測工單用于逐點回歸預測的時間段I,并保存其預測點數量d,其中I可表示為[I(t0,t1,?td)];再者,從統計[Pwm,na]表中可以獲取每個訓練工單的穩定生產時間段J,根據每個預測工單預測點數量將其對應的訓練數據[Pwm,na]中所有訓練工單的穩定生產時間段J進行相同數量點d的的時間片切割,并獲得對應的蒸汽流量值。至此每個預測工單與其對應的訓練數據集中的工單有一致的相對時間點;最后,通過對歷史點位數據分析采用適當的預測方法,逐點建立回歸模型進行預測。本文分別采用均值擬合與時間序列的方法逐點建立工藝用蒸汽流量的預測模型。
時間點切割思路為:因為每個工單開始穩定生產時間和結束穩定生產時間及生產時長存在差異,所以需對工單進行相對時間切割,讓每個工單的點均基于工單穩定開始時間的相對點位,以此消除時間漂移問題。
2.4.1 均值擬合模型
分別對預測時間段I中每一個點位對應的歷史流量數據進行可視化分析。以2019年1月7日第一個工單預測時間段I中第一個相對時間點位[t0]對應的訓練數據集中相對時間點[t0]的流量值為例,進行可視化分析,時間點[t0]蒸汽流量密度—直方如圖3所示。
2.4.2 時間序列模型
時間序列分析是從一段時間上的一組屬性值數據中發現模式并預測未來值的過程。ARMA模型(自回歸滑動平均模型)是最常見用于擬合平穩序列的模型,本文某一時刻點對應的歷史蒸汽流量數據是一組平穩的時間序列,故可用ARMA模型逐點進行建模預測[11]。ARMA模型主要有3種基本形式:自回歸模型(AR)、移動平均模型(MA)與混合模型(ARMA)[12]。
對于任一零均值平穩時間序列[{x(m,t)}],若[x(m,t)]的取值不僅與其前p步的各個取值[x(m-1,t)],…,[x(m-p,t)]有關,還與前m步的隨機干擾[ε(m-1,t)],…,[ε(m-q,t)](p,q=1,2,…)有關,則可用p階自回歸—p階滑動平均混合時序模型描述該系統,記為ARMA(p,q),即參數p、q的ARMA模型預測方程[13]為:
利用平均絕對誤差度量模型預測誤差,通過計算得到平均絕對誤差為0.014 59。綜上,通過對兩種用于工單穩定時段的模型誤差對比分析,可知時間序列模型擬合效果優于均值擬合模型,故優先采用時間序列模型對工單穩定時間段進行逐點預測。
2.5 基于不穩定生產時段的曲線補全
工單啟動后/結束前時間段由于易受外界人為因素影響,致使生產工藝蒸汽流量時間序列形態較為復雜,故通過一種基于DTW相似度的AP聚類算法獲取預測時間段影響,用典型曲線補全該時間段流量曲線[15-17]。
由劃分時間點階段可獲得融合后的啟動后訓練數據集[Swm,na(m,na=1,2,?)]和結束前訓練數據集[Ewm,na(m,][na=1,2?)]。曲線補全基本思想包括:首先,依據預測工單信息獲取對應的訓練數據集;然后,通過計算得到訓練樣本兩兩之間的DTW矩陣,將該距離矩陣負值作為相似度矩陣并輸入到AP聚類,得到聚類結果;最后從樣本數量最多的類別中選擇時間點與預測曲線時間點基本吻合的曲線作為典型曲線進行補全[18-19]。
2.6 基于生產計劃的滾動預測
滾動預測機制的主要思想是保持數據長度不變,滾動地補充新數據,剔除舊數據,建立這樣的序列更能反映預測方法有效性[20]。為得到預測日工藝用流量曲線,當滾動輸入預測日工單信息時,需對相應的分割數據集進行不同新數據添加和舊數據剔除。
穩定時間段滾動預測:若當前預測點從[x(m,t)]變為[x(m+1,t)],訓練樣本序列則由原來的[X(x(m-1,t),][x(m-2,t),?x(m-i+1),x(m-i,t))]變成[X(x(m,t),][x(m-1,t),?x(m-i+2),x(m-i+1,t))],相比原來序列增加了[x(m,t)],去掉了[x(m-i+1,t)],進行逐點回歸得到預測值。由此體現出訓練樣本集[Pwm,na(m,na=1,2,?)]、預測樣本與預測結果的動態變化,從而實現穩定時間集流量滾動預測。
工單啟動/結束時間段:向相應數據集中添加新數據集,同時將聚類結果中樣本數量最少的類別中某個時間序列剔除,從而提高聚類速度,更快獲取對應的典型曲線。
3 結果分析
基于式(3)對上述各分割時間集預測結果進行拼接,最終獲取預測日完整工藝用流量預測曲線,預測結果如圖4、圖5所示。
4 結語
本文針對日工藝用蒸汽流量預測問題,提出了一種基于時間集分割的逐點回歸—曲線補全的組合預測方法,先利用特征點對時間集進行分割,再根據各時段影響因素采用不同方法進行預測,降低了數據時段性對預測結果的影響。采用基于時間集分割的預測方法可較精準地預測企業工藝用蒸汽流量,為企業蒸汽智能供應策略優化提供一定理論依據。
參考文獻:
[1] 鄒伯賢, 劉強. ?基于ARMA模型的網絡流量預測[J]. ?計算機研究與發展, 2002, 39(12): 1645-1652.
[2] 劉艷麗,趙卓峰,丁維龍,等. 基于高速收費大數據的短時交通流量預測方法[J]. 計算機與數字工程,2019,47(5):1164-1169+1188.
[3] 吳海姬,王雷,司風琪,等. 基于BP神經網絡的主蒸汽流量計算模型[J]. 汽輪機技術,2007(4):269-271+304.
[4] 王雷,張瑞青,肖增弘,等. ?基于SVM的主蒸汽流量回歸估計[J]. 華東電力,2008,36(12):89-92.
[5] FU Z G, MIN F F, YUAN J. Regression forecast of main steam flow based on mean impact value and support vector regression[C]. 2012 Asia-Pacific Power and Energy Engineering Conference,2012: 1-5.
[6] 張維平,趙文蕾,李國強,等. ?基于粗糙集與最小二乘支持向量回歸的汽輪機主蒸汽流量預測[J]. 計量學報,2015,36(1):43-47.
[7] GAO J W, LENG Z W, QIN Y,et al. Short-term traffic flow forecasting model based on wavelet neural network[C]. ?2013 25th Chinese Control and Decision Conference (CCDC), 2013:5081-5084.
[8] MOUTADID S, ADAMOWSKI J F, TIWARI M K,et al. Coupling the maximum overlap discrete wavelet transform and long short-term memory networks for irrigation flow forecasting[J]. Agricultural Water Management, 2019, 219(219):72-85.
[9] 楊艷林,葉楓,呂鑫,等. ?一種基于DTW聚類的水文時間序列相似性挖掘方法[J]. 計算機科學,2016,43(2):245-249.
[10] 崔智泉. 淺談高斯分布的原理和應用[J]. 中國校外教育,2018(16):63-64.
[11] 李靜,黃玲花. 《時間序列分析》課程教學改革探索[J]. 廣西師范學院學報(自然科學版), 2017,34(4):147-150.
[12] 黃榮庚,龍靜,潘志剛,等. 基于ARMA模型的地鐵站環控系統能耗預測[J]. 制冷學報,2019,40(1):88-93.
[13] 謝華為. 基于ARMA平穩時間序列的道路交通事故預測[J]. 寧德師范學院學報(自然科學版),2018,30(3):268-272.
[14] 蘇維均,楊飛,崔世杰,等. ?造紙企業工藝過程能源消耗預測仿真[J]. 計算機仿真,2016,33(8):438-442+447.
[15] 喬美英,劉宇翔,陶慧. 一種基于信息熵和DTW的多維時間序列相似性度量算法[J]. 中山大學學報(自然科學版),2019,58(2):1-8.
[16] GAO Y Y,JIANG B,ZHU Z W,et al. A fault diagnosis method based on DTW[C]. 2006 Chinese Control Conference,2006:1281-1284.
[17] 郭秀娟,陳瑩. AP聚類算法的分析與應用[J]. 吉林建筑大學學報,2013,30(4):58-61.
[18] YIN H, YANG S Q, SHAO D M et al. A novel parallel scheme for fast similarity search in large time series[J]. in?China Communications, 2015,12(2):129-140.
[19] 朱紅,丁世飛,許新征. 基于改進屬性約簡的細粒度并行AP聚類算法[J]. 計算機研究與發展,2012,49(12):2638-2644.
[20] KUSAKCI A O, AYVAZ B. Electrical energy consumption forecasting for Turkey using grey forecasting technics with rolling mechanism[C]. ?2015 2nd International Conference on Knowledge-Based Engineering and Innovation, 2015:8-13.
(責任編輯:江 艷)