張騰達,李 琦,陳 波
(內蒙古科技大學信息工程學院,內蒙古 包頭 014010)
區域供熱系統(District Heating System,DHS)的目標是利用局部熱源通過管道分布向建筑物供應熱量。由于我國北方地區的氣候原因,供熱面積巨大,因此改善區域供熱系統的運行對于節約能源有著重要意義。在熱負荷預測中,按照預測周期時間的長短,可分為超短期熱負荷預測、短期負荷預測、中期負荷預測以及長期負荷預測,其中短期熱負荷預測的目的是使供熱量與需求量相匹配。
由于區域供熱系統自身具有非線性、大滯后、多變量、強耦合的特點,隨著硬件能力的提升和機器學習的快速發展,為熱負荷預測的發展帶來了新契機。Fang等分析了芬蘭第二大城市埃斯波的熱需求和室外溫度對熱負荷預測的影響,并且結合線性回歸的SARIMA模型對熱負荷進行短期預測,獲得較高的精度,但不足的是該模型需要大量連續且充分的歷史數據。Zhao等提出一種負荷預測模糊控制策略,對空調系統進行前饋模糊控制,這種控制方法被認為是在保證室內舒適性的同時降低能耗的有效方法,以天津大學某地源熱泵系統為例,驗證了該控制策略的有效性。但是疏忽了控制過程中由于時滯原因導致的參數變化因素。王琎等提出一種基于DWT和特征選擇的熱負荷預測模型,與單一ETR和DNN 模型相比更能充分提取數據的非線性特征并且獲得更高的精度。姜平等利用T-S模糊神經網絡建立熱負荷的預測模型預測第二天的熱負荷,證明算法具有較好的擬合效果,由于訓練數據為過去48小時的144組數據,因此還需要大量數據檢驗其有效性。Izadyar N等提出了極限學習機的方法,并評估了人工神經網絡和遺傳編程的算法,得到極限學習機算法在區域供熱系統中熱負荷預測的優越性。李琦等在傳統的BP神經網絡基礎上采用改進的BP算法得到未來24小時的熱負荷預測值。劉鵬飛等通過灰色關聯法對影響熱負荷預測的因素做了相關性分析,得到影響熱負荷相關性最大的因素是供回水溫度、供水流量和室外溫度,同時選取一個月的數據采用灰色神經網絡模型預測熱負荷。近年來,由于深度學習的發展,神經網絡在其它方面也有長足的發展,孫海蓉等將改進的深度信念網絡(DBN)模型和支撐向量機回歸(SVR)模型相結合用來預測電力負荷,通過實際數據仿真證明其是一種有效的預測方法。孫瑞奇對LSTM模型進行了模型結構和算法的改進,挖掘出股票價格時間序列中的隱含規律,對股票價格實現短期預測。
基于以上研究內容,結合LSTM神經網絡精度高、有效克服“維數災”和泛化能力強的優點,首先收集整理一年供暖周期大量真實歷史數據,對數據進行歸一化處理,然后將室外溫度作為影響熱負荷變化的核心因素,將室外溫度序列和熱負荷序列之間的非線性關系進行LSTM建模,充分發現數據之間的客觀規律,為防止過擬合,在LSTM模型的隱層加入DropoutWrapper函數來提高模型的性能。此外,加入風力因素作為模型的輸入,與上述模型分別進行未來24小時熱負荷預測實驗,同時與支持向量機的3種不同核函數方法進行對比實驗,最后,驗證LSTM模型對處理時間序列問題的可行性和優越性。
區域性供熱系統由熱源、熱力站、熱用戶以及連接它們之間的管網構成。各部分之間裝有循環泵、過濾器、電動閥等各類測量儀表,形成了一個結構復雜的非線性控制系統。為了滿足不同區域熱用戶的供熱量,熱力站對不同區域熱用戶供熱量的需求對應不同的供給量。如圖1所示為區域供熱系統原理圖,其中由熱電廠與熱力站構成的為一次側,經熱力站分配給熱用戶熱量之間構成二次側,熱電廠將生產的熱量通過換熱器和水泵機組將熱量由一次側管網輸送到熱力站,熱力站再經二次側管網將熱量供給到熱用戶群。針對熱用戶熱量需求和熱量供給不平衡問題,本文對熱負荷預測采用不同方法進行介紹。

圖1 區域供熱系統原理圖
LSTM算法來源于循環神經網絡(Recurrent Neural Network,RNN),由于RNN激活函數為tanh,在反向傳播更新上一時刻參數的時候,若參數W初始化為小于1的數時,就會出現梯度消失的現象,只能具有短期記憶,鑒于此LSTM神經網絡利用門控單元將長、短期記憶結合起來,解決了梯度消失的難題。

圖2 LSTM神經網絡結構圖
LSTM網絡結構圖如圖2所示,該模型神經網絡由3個“門”組成:遺忘門、輸入門和輸出門,更新過程如式(1)-式(6)所示。
=([-1,]+)
(1)
=([-1,]+)
(2)

(3)

(4)
=([-1,]+)
(5)
=*tanh()
(6)
式中:和tanh 為激活函數,、、、和、、、分別是3個“門”對應相關的權重矩陣和偏置向量。在LSTM神經網絡更新過程中,輸入門是決定要將哪些信息更新到新細胞中,遺忘門是將和-1作為輸入,經過sigmoid函數再與上一時刻-1作乘積以決定哪些信息保留,最后輸出門根據輸出概率值得到輸出預測值。
總之,LSTM神經網絡通過“門”來選擇需要的信息,區別于傳統的神經網絡,通過sigmoid和tanh激活函數,使網絡降低了梯度消失和梯度爆炸問題出現的可能性,除此之外,LSTM神經網絡的優勢在于可以依據當前時刻的數據對下一時刻數據產生影響,同時挖掘到數據之間的關系,更適合處理基于時間序列的熱負荷預測問題。
熱負荷的預測是保障供熱系統“按需供熱”和熱用戶舒適安全的基礎,供熱系統本身的特點有三個:1、室外天氣因素方面:氣溫、光照強度、風速、空氣濕度以及紫外線強度,其中溫度是最大的影響因素;2、熱力公司方面:管網壓力、溫度和供熱流量等;3、非線性、時滯性、以及不同人群不同的生活方式,都會對熱負荷預測帶來一定的影響,因此,選取合適的熱負荷預測方案,建立恰當的熱負荷預測模型對于現場控制具有指導性意義。對于熱負荷預測的流程,首先通過熱力公司提供的歷史工況數據,對數據進行預處理,由于區域供熱系統具有明顯的時間序列特征,LSTM神經網絡對于時間序列的問題有獨特的優勢,因此選擇該模型并利用Python語言在Tensorflow庫下進行編程,同時對網絡參數不斷進行優化改進,預測下一時刻的熱負荷值,最終循環迭代預測下一天的24小時熱負荷序列。
本文數據來源于包頭某熱力公司的歷史供熱數據,由于數據在采集和存儲的時候難免會因為環境或者人為、硬件和軟件等因素存在不符合常規的數據,比如溫度短時間的驟變和數據的缺失等,LSTM神經網絡模型對于數據集的完整性和冗余性以及相關性都有一定要求,因此,干凈、簡潔有效的數據是模型對于發現數據之間客觀規律的重要保障。在整理數據過程中,天氣數據來源于中國天氣網,其準確性和可靠性較高,常用的離群點分析方法有簡單統計量分析:取數據的最大值和最小值范圍內的數據,范圍之外的數據稱為異常值;3σ原則:一組測定值中與平均值的偏差超過3倍標準差的值;箱線圖分析等。本文首先采用3σ原則發現異常值,由于前后時間差為1小時,所以利用前后各2個時間點數據的平均值作為該異常值的替代值,如圖3所示為熱負荷原始數據和處理之后的對比圖。

圖3 數據處理前后對比圖
如圖4所示為熱力站熱負荷預測模型結構圖,由于室外溫度會影響熱水在管網中傳遞時的熱量,因此室外溫度和熱負荷都在時間序列上對下一時刻的熱負荷會產生影響,將歷史的熱量值和與其對應的歷史溫度,以及未來時刻的溫度值作為神經網絡的輸入,預測未來時刻的熱負荷。模型數據以 24 小時為一個周期,輸入數據格式分別為batch_size:24,time_step:1,input_size:3,三個輸入變量分別為歷史室外溫度、熱負荷值和未來時刻室外溫度,每次訓練結束輸出一個輸出變量,為避免過擬合現象,在模型的隱層加入DropoutWrapper函數,當網絡中每個單元在每次有數據輸入時,都以一定的概率正常輸出,其它輸出為0。利用這種有效的正則化的方式,可以有效的防止過擬合,提高模型的性能,達到熱負荷預測的目標。

圖4 LSTM 的熱負荷預測模型
本次數據選用包頭市熱力公司2019年11月份至2020年2月份的供暖時間采集的數據,室外溫度數據來源于中國天氣網,每1小時采集一組數據,每天采集24組數據,共計采集120天的歷史數據,累計收集數據2880組數據,其中把最后一天的24組數據作為驗證集,用來驗證模型的泛化能力,剩余2856組數據按照4:1的比例分為訓練集和測試集。經處理后的數據如表1所示,根據多次預測比對試驗隱藏層設置為3層,節點個數為8,學習率為0.0002,循環迭代2000次時,預測效果最好,如圖5和圖6所示為經LSTM神經網絡訓練之后驗證未來24小時熱力站1的相對誤差和熱負荷預測結果。

圖5 熱力站1熱負荷預測相對誤差

表1 熱負荷預測數據

圖6 熱力站1熱負荷預測結果
為了驗證模型的泛化能力,另挑選同樣時間段的熱力站2作為實驗對象,在相同實驗環境下進行實驗,其相對誤差和預測結果如圖7和8所示。

圖7 熱力站2熱負荷預測相對誤差

圖8 熱力站2熱負荷預測結果
經過兩組實驗分析,熱力站1和熱力站2的最大相對誤差分別為4.4%和5.01%,平均相對誤差分別為1.24%和2.35%。可以發現,熱力站1的熱負荷值相比熱力站2要大一個數量級,這是因為不同熱力站在實際工況中會對應不同規模的熱用戶群體。基于LSTM的熱負荷預測模型誤差較小,基本滿足目標函數的需求。
除了室外溫度是影響熱負荷值的第一大因素外,風力因素也是一個重要的直接影響因素,在實際生活中,當上一時刻和下一時刻的檢測溫度相同的情況下,也有可能熱需求是大小不同的,因為較強的風速會導致熱需求的增加,特別是建筑物的老化程度不同也會使得熱負荷發生變化,所以在輸入端加入了風力因素,這樣對于基于時間序列的預測模型提供了一個約束條件,有利于模型精度的提高。因此,本文將風力因素作為一個新的輸入因素,對熱力站1和熱力站2在相同參數下實驗。如圖9-12所示為熱力站在有風力因素和無風、力因素的情況下的相對誤差和熱負荷預測結果圖。

圖9 熱力站1有無風力因素相對誤差對比圖

圖10 熱力站1有無風力熱負荷值對比圖

圖11 熱力站2有無風力因素相對誤差對比圖

圖12 熱力站2有無風力因素熱負荷值對比圖
根據實驗數據結果如表2所示。不難發現,在加入風力因素之后,熱力站1和熱力站2的平均相對誤差分別降低了0.03%和0.17%。通過驗證未來24小時的熱負荷值,可以看出來,熱負荷和氣溫基本呈反比的關系,熱負荷會隨著氣溫的降低而升高,特別是16時之后的熱負荷,尤其明顯,因為在0時-10時的階段,溫度變化基本在零下1℃到零上2℃階段變化,而11時-23時溫差變化明顯,因此熱負荷值也會產生較為明顯的變化,這也符合包頭市溫度變化趨勢。因此,這項實驗為熱負荷預測的準確提供了理論依據,并且精度滿足實驗要求。將該模型與SVM的三種核函數進行預測對比。SVM是針對二分類問題提出的一種算法,使得超平面距離最近的樣本點的距離最大,在處理類似區域供熱系統的問題時,常用核函數來解決訓練樣本線性不可分的問題,典型核函數包括線性核函數、多項式核函數和徑向基(Radial Basis Function,RBF)核函數,為了驗證SVM的預測性能,以熱力站1有風力因素數據為例,仿真過程采用與LSTM相同的環境條件和一致的輸入數據,驗證集同樣為最后一天的24組數據,如表3為其各項指標對比。對三種方法求相對誤差并可視化預測結果如圖13和14所示。

表2 有無風力因素對比結果

圖13 SVM三種核函數預測相對誤差

圖14 SVM三種核函數預測結果

表3 SVM模型預測與指標對比
三種核函數的預測結果中,均方誤差從大到小依次為,多項式>徑向基>線性核函數,但是從其相對誤差表現來看,表現最好的線性核函數最大相對誤差為4.79%,平均相對誤差為1.29%,相比于LSTM神經網絡,最大相對誤差高出了0.42%;徑向基核函數最大相對誤差(6.74%)比LSTM高出了2.37%,可見,對于時間序列的熱負荷預測模型而言,長短期記憶神經網絡更具有優勢。
為了進一步提高熱負荷預測精度,本文將深度學習框架LSTM神經網絡模型作為熱負荷的預測模型,算法研究表明:
1) LSTM模型可以更好的發掘歷史數據之間的規律,模型中隱含層加入DropoutWrapper函數能有效防止過擬合,對模型的預測精度起到了促進作用。
2) 通過考慮風力因素對熱負荷預測的影響,證明了其作為影響因素的重要性。
3) 采用大量真實歷史數據進行對比實驗,驗證模型的有效性,同時與三種不同的核函數方法做對比分析,證明了所提方法的有效性。
綜上,通過對熱負荷的預測,得到未來時刻的熱負荷值,這將為熱量的優化控制研究奠定基礎,有利于控制系統按照未來熱負荷的變化情況去控制供水流量或者溫度,對于按需供熱和節能減排有重要意義。