999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異常值識別的計量小區短期需水量預測

2022-07-05 09:14:38胡詩苑高金良郭文娟何軍軍王學森
哈爾濱工業大學學報 2022年8期
關鍵詞:特征模型

胡詩苑,高金良,鐘 丹,郭文娟, 何軍軍, 王學森

(1.哈爾濱工業大學 環境學院,哈爾濱 150090;2.北京首創股份有限公司,北京 100044;3.哈爾濱凱納科技股份有限公司,哈爾濱 150028)

需水量預測[1-3]主要包括長期預測、中期預測和短期預測,分別用于供水規劃、決策支持、運營管理[4-5]。其中,短期需水量波動性大,具有很強的隨機性,且易受多種因素影響(天氣、人口、地理位置、商業活動、工業生產、水價等),預測難度最大。對短期需水量預測問題進行研究,不僅有利于供水管網科學化管理,保障龍頭水水質,實現降低漏損、節能降耗、減少水資源及能源浪費的目標,還能為復雜不穩定系統的預測問題提供新的范式[6]。

早期的需水量預測主要采用線性回歸和時間序列分析的方法,但由于短期需水量的非線性和非平穩性,線性回歸和本質上捕捉線性關系的時間序列分析等方法受到限制,不能準確地模擬出需水量的隨機性波動[7-8]。近年來,隨著建模技術的發展,更為復雜的機器學習模型在需水量預測領域得到了廣泛的應用,為需水量預測帶來新的機遇[9]。其中,以人工神經網絡(artificial neural network,ANN)、支持向量機(support vector machine, SVM)和以它們為基礎的變種模型研究最多[10-13],也取得較好的成果。ANN和SVM常用作基準模型,來評價各類需水量預測模型的性能[7]。此外,基于決策樹的機器學習模型由于易于理解和實現,且效果良好,也逐漸應用于需水量預測領域[14-15]。LightGBM(light gradient boosting machine)是微軟公司提出的基于梯度提升決策樹的算法[16],在繼承了梯度提升決策樹類算法高精度的同時還具有較高的計算效率,已在很多領域得到應用[17-18],但在短期需水量預測領域的性能尚未得到驗證。

除了對預測模型進行改進,數據的預處理環節也對提高需水量預測的準確性至關重要。短期需水量數據不僅波動性大,呈現非線性、非平穩性的特點,還容易受到短期異常事件的影響,包括通訊傳輸異常和用水設備或行為異常等[19]。基于這些異常數據進行建模會影響需水量預測的準確性,在使用小時計量小區(district metered area,DMA)數據進行建模時,現象尤為明顯。因此,對短期需水量數據進行異常值預處理具有重要意義。本文采用局部離群因子(local outlier factor,LOF)異常值識別方法,并將其與LightGBM結合,提出LOF+LightGBM組合模型,改善需水量預測模型性能。

1 研究方法

1.1 異常值檢測算法LOF原理

異常值通常具備遠離正常數據的趨勢,因此,通過基于距離或密度的方式能有效地檢測異常值。LOF是基于密度的無監督異常值檢測算法,通過觀測數據分布的密度給出數據點得分,作為判斷該點是否為異常值的依據[20]。假設Nk(O)為點O的第k距離鄰域,即Nk(O)為點O的第k距離以內的所有點,包括第k距離點。對于點O,其局部可達密度ρk(O)可以表示為

(1)

式中:|Nk(O)|為點O第k距離鄰域點的個數;dk(O,P)為點P到點O的可達距離,取P點的第k距離dk(P)和P點到O點的實際距離中的最大值,如圖1所示。通過局部可達密度計算點P的局部離群因子,表示為

圖1 第k距離dk(P)、局部可達距離dk(O,P)示意

(2)

該式表示點O第k距離鄰域所有點的局部可達密度與點O局部可達密度的比的平均數。Fk(O)大于1時,越大則說明點O的密度相對其鄰域點越小,越有可能是異常點;當Fk(O)越接近于1,則說明點O與其鄰域點的密度相當,可能屬于同一簇。

1.2 LightGBM原理

(3)

含正則項的模型目標函數為

(4)

(5)

式中:Ω為模型的正則項,N為樹中葉子節點數,w為葉子節點權重,γ、λ為正則化系數。在每次迭代過程中向損失函數負梯度方向移動,使損失函數盡可能小,得到一棵較優樹。

除了采用直方圖算法,LightGBM還具有兩個重要的特點:一是結合了基于梯度的單側采樣算法,在數據和精度之間取得了良好的平衡,注意力更多地放在梯度較大的樣本上,只采用一部分小梯度樣本;二是LightGBM樹的生長采用leaf-wise策略,而非大多數梯度提升決策樹的level-wise按層生長的策略。leaf-wise策略選擇信息增益最大的葉進行生長,這意味著每層葉子的數量不總是相同的,如圖2所示,leaf-wise的樹生長策略有助于減少訓練量。總的來說,LightGBM有高效率、高精度、具備處理許多非線性關系問題的強大能力。因此,LightGBM在回歸預測領域中具有廣闊的應用前景。

圖2 決策樹生長策略示意

2 實例數據描述與模型構建

2.1 數據描述

使用江浙滬地區某市的真實DMA小時需水量數據分析提出的LOF+LightGBM模型的預測性能,包括不同規模的3個DMA居民住宅小區小時需水量數據,小區內包含少量商鋪用水戶。3個小區具有相差較大的需水量變化曲線(如圖3、4),DMA1需水量曲線波動大,高峰需水量與夜間需水量差別明顯;而DMA3需水量曲線波動小,每小時需水量分布密集;DMA2則在兩者之間。3個小區能夠代表不同的居民住宅小區的用水特點,驗證提出組合模型的普適性。DMA1數據集包含2016年4月23日—2016年7月1日的小時需水量數據,DMA2數據集包含2016年1月5日—2016年3月14日的小時需水量數據,DMA3數據集包含2016年5月14日—2016年7月22日的小時需水量數據。對于每個DMA,80%的數據用于訓練模型,剩余20%的數據作為測試集來評價提出模型性能及探究異常值處理對于需水量預測的影響。各DMA小區需水量數據基本特征如表1所示。DMA1與DMA3最小需水量均為0,但通常情況下,居民小區用水戶基數較大,且存在背景暗漏,出現小時需水量為0的可能性較低,更有可能是通訊信號干擾導致的數據丟失,或者是爆管、檢修等異常行為造成停水。3/4分位數與平均值比較接近,而需水量最大值與3/4分位數的差距懸殊,尤其是DMA1與DMA3,如DMA1的需水量3/4分位數為20.879 m3/h,而最大需水量高達123.844 m3/h。這很有可能是由通訊信號干擾、機械振動等導致的數據異常。由此可見,實際工程中異常值問題十分普遍,且異常值與正常值相差較大,對實際工程中需水量進行預測前進行異常值處理是十分必要的。

表1 DMA小區需水量數據基本特征

2.2 特征選擇

通過對模型的輸入特征進行選擇,保留強相關特征,篩出相關性弱的特征,有利于提高預測準確性,減少建模時間。可作為需水量預測模型的輸入特征包括歷史需水量數據、溫度、降雨量、經濟等[6]。對于水務企業,降雨量等氣候信息較難獲得,且以往研究表明,使用歷史需水量作為輸入足以建立準確的需水量預測模型[22],故采用歷史需水量數據作為組合模型的輸入。

參考Guo等[23]的特征輸入方案,考慮短期需水量的周期性,將需水量輸入特征分為3段,包括周周期相關特征、日周期相關特征和近期特征。周周期特征考慮預測時間一周前x(t-24×7)及其附近的需水量特征{x(t-24×7-i),…,x(t-24×7),…,x(t-24×7+i)},日周期特征考慮預測時間1 d前x(t-24)及其附近的需水量特征{x(t-24-j),…,x(t-24),…,x(t-24+j)},近期特征考慮預測時間x(t)前一段時間的需水量特征{x(t-k),…,x(t-1)},取i=j=k=10,具體見表2。將周周期特征、日周期特征和近期特征數據作為輸入,使用LightGBM對特征重要性進行排序,對于每個DMA選擇重要性前10特征進行后續需水量預測模型的建模,用來預測t時刻的需水量,特征選擇結果如表2所示。特征重要性前10的特征中周周期特征最少,說明較遠的數據對當前需水量的影響較小。而x(t-24×7),x(t-24)始終在重要性前10中,進一步驗證了需水量的強周期性。

表2 模型特征選擇范圍和結果

2.3 模型構建

2.3.1 LOF+LightGBM模型構建步驟

通過構建LOF+LightGBM組合模型進行需水量預測,包括異常值識別及校正步驟和需水量預測步驟。具體如下:

1)在異常值識別及校正步驟中,首先將需水量數據按小時分為24個子集,分別對每個子集構建LOF模型并識別每個子集中的異常值。使用每小時需水量的平均值校正當前小時子集中的異常值,之后將子集重新合并為一個數據集以供后續需水量預測。

2)在需水量預測步驟中,使用異常值校正后的需水量數據訓練LightGBM模型,先將需水量數據歸一化到0和1之間,輸入為經特征選擇后的特征,輸出為預測的需水量。最后,對測試集的需水量進行預測并評價模型性能。為了客觀評價所提出的模型,在需水量預測步驟中引入常用作基準模型的ANN和SVM中用于回歸的支持向量回歸模型(support vector regression,SVR)參與組合模型的構建與性能評價,其輸入與LightGBM模型相同。有關ANN和SVR的算法原理見Herrera[4]、Adamowski[24]、Bougadis等[25]的描述。

2.3.2 模型超參數調優

超參數的選擇決定了模型的性能,對于LOF,有兩個超參數需要進行優化,即數據中異常點的比例和樣本點的鄰域點數。由于LOF為非監督學習算法,數據集中異常點的比例未知,需要先通過試錯法確定各個DMA小區需水量數據中的異常點比例,再對樣本點的鄰域點數進行超參數調優,其中異常點的比例分別嘗試0.01、0.02、…、0.10,樣本點的鄰域點數分別嘗試10、20、30、40、50、60。

需水量預測模型通過5折交叉驗證及網格搜索進行超參數調優。對于ANN,采用3層前饋神經網絡進行需水量預測,其具有1個隱藏層,通過誤差反向傳播的方式確定神經網絡中的權重和偏置等。該神經網絡模型需要對隱藏層節點數和初始學習率進行超參數調節。分別設置隱藏層節點數為2、5、7、10、20、30、40、50、60、70、80和初始學習率為0.000 1、0.001、0.005、0.01、0.05、0.1進行網格搜索調參,即在66個超參數組合中尋優。

SVR模型選擇徑向基函數作為核函數,有兩個重要的超參數C和gamma需要優化。C是正則化超參數,可以調整預測誤差和模型復雜度的權重,gamma是徑向基函數的核系數。本研究嘗試了超參數C的e-2、e-1、e0、e1、e2、e3、e4、e5取值,超參數gamma的e-4、e-3、e-2、e-1、e0、e1取值,即SVR模型嘗試了超參數的48種不同組合。

控制LightGBM模型的超參數較多,分步通過網格搜索進行超參數的優化。

1)首先對Max_depth樹模型最大學習深度和Num_leaves構成每棵樹葉子的數量進行超參數優化,Max_depth分別取3、4、5、6,Num_leaves不宜設置過大,過大可能造成過擬合,故分別取5、15、25、35、45,總共20個組合。

2)隨后對Min_data_in_leaf一片葉子中最小數據量和Max_bin箱的最大數量進行優化,Min_data_in_leaf用于控制過擬合,分別取1、11、21、…、101,Max_bin分別取5、15、25、…、255,進行網格搜索調參。

3)再對Feature_fraction每次迭代過程隨機選擇特征占特征總數比、Bagging_fraction選擇的數據占總數據量的比和Bagging_freq子采樣頻率進行網格搜索超參數優化,Feature_fraction分別取0.6、0.7、0.8、0.9、1.0,Bagging_fraction分別取0.6、0.7、0.8、0.9、1.0,Bagging_freq 分別取0、10、20、…、80。

4)最后,對Lambda_l1和Lambda_l2正則化相關超參數進行優化,Lambda_l1分別取0.000 01、0.001、0.1、0、0.3、0.5、0.7、0.9、1.0,Lambda_l2分別取0.000 01、0.001、0.1、0、0.3、0.5、0.7、0.9、1.0。其他超參數如Boosting_type估計器的類型選擇默認的gbdt,為保證精度學習率選擇較低的0.01,n_estimators估計器數量選擇1 000棵樹。

2.4 模型性能評估指標

為了評估預測模型的性能,使用兩個絕對誤差評價指標和一個無量綱評價指標衡量預測值和實際值之間的誤差。絕對誤差評價指標為均方根誤差(root-mean-square error,ERMS)和平均絕對誤差(mean absolute error,EMA)。無量綱評價指標為納什效率系數(nash-sutcliffe model efficiency coefficient,ENS),常用于驗證水文和環境相關模型的準確性,具體表達如下:

(6)

(7)

(8)

3 結果與討論

3.1 LOF模型異常值識別效果分析

通過對3個DMA需水量數據進行異常值識別,探索LOF模型的有效性,異常值識別結果如圖3所示。不同DMA需水量數據及其異常值的分布呈現明顯的差異性,LOF均能較好地識別出需水量異常值。對于DMA1、DMA2(圖3(a)、(b)),每小時需水量數據分布較為分散,增加了異常值識別的難度,尤其是DMA2,為避免將正常需水量誤識別為異常值,僅將部分遠離集中數據的點識別為異常點,保留了部分接近集中數據的離散需水量點,為需水量預測模型提供盡可能多的數據信息。對于DMA3(圖3(c)),每小時數據分布集中,異常數據和正常數據能較好地區分開,LOF能夠很好地識別出離群異常值和丟失數據,為需水量預測模型提供較高質量的數據集。

3.2 LOF+LightGBM模型預測性能分析

為探究LOF模型、LightGBM模型及其組合模型LOF+LightGBM的性能,分別設置3個對比組進行實驗,第1組為ANN與LOF+ANN、SVR與LOF+SVR、LightGBM與LOF+LightGBM;第2組為ANN、SVR與LightGBM;第3組為LOF+LightGBM與ANN、SVR、LightGBM、LOF+ANN、LOF+SVR。各模型預測性能評價結果如表3所示。為直觀觀察各模型的預測結果,繪制各模型預測值和觀測值曲線,如圖4所示。

表3 各預測模型性能評價

在不同DMA的需水量數據分布下,基于LOF+預測模型的組合模型性能均得到了提升(表3),預測模型ERMS平均降低了10%,DMA3的ANN模型ERMS為1.321 m3/h,LOF+ANN模型的ERMS為1.055 m3/h,降低了近20%。通過對比DMA1(圖4(a))、DMA2(圖4(b))、DMA3(圖4(c))的預測模型和LOF+預測模型預測曲線可知,LOF+預測模型的需水量曲線明顯更貼合觀測曲線,尤其DMA1和DMA3中需水量較低時的預測性能改善更為明顯。結果表明,經過LOF進行異常值識別和校正后的數據集利于提升后續預測模型的準確性,這可能是因為在模型進行訓練的過程中會盡可能減少模型計算值和訓練數據之間的誤差,異常值的存在,尤其是需水量數據波動大、存在極端異常值的情況下,訓練模型偏離正常值,模型的準確性降低,而異常值校正后的數據集排除了異常數據的干擾,達到提升模型性能的目的。

由第2對比組ANN、SVR與LightGBM的模型性能結果(表3)可知,LightGBM具有強大的預測性能,對于所有DMA的需水量預測結果,LightGBM始終呈現最佳性能,不同數據集上的EMA比ANN和SVR平均降低了24.7%,DMA1中LightGBM的EMA相較SVR降低了41.8%,驗證了LightGBM在需水量預測領域的高精度和可行性。

而提出的組合模型LOF+LightGBM相較其他3個預測模型(ANN、SVR、LightGBM)和兩個組合模型(LOF+ANN、LOF+SVR),具有明顯的預測優勢,在絕大多數情況下均優于其他模型的預測性能。如表3可知,DMA2、DMA3中 LOF+LightGBM的ENS分別為0.951、0.942,預測精度高。DMA1由于需水量的波動性大(圖4(a)),預測難度最大,ANN、SVR、LOF+ANN、LOF+SVR均不能很好地捕捉到峰值的需水量,在需水量較低時,預測曲線也偏離觀測值較大,LOF+LightGBM不僅在峰值時最貼近觀測曲線,且在需水量較低時,也能捕捉到相對較小的需水量波動,預測精度較高。

圖4 觀測值與各預測模型預測值曲線

通過計算時間對模型訓練和預測的速度進行量化,結果見圖5。所有模型使用Python 3.6.9,計算機CPU為AMD Ryzen5 3600。由圖5可知,基于LightGBM的模型所使用的計算時間相比ANN和SVR模型長。這可能是研究中為了保障預測的精度,選取較低的學習率和較大的樹的數目,使得預測時間變長。整體上LOF+預測模型的計算時間更短。總的來說,所有模型的計算時間均小于0.7 s,計算效率高。

4 結 論

為了改善短期需水量預測模型的性能,提出了LOF異常值識別模型和高精度、高效率的LightGBM預測模型相結合的組合模型LOF+LightGBM。模型采用經過特征選擇的周周期、日周期和近期相關需水量特征作為輸入,使用江浙滬某市3個不同需水量分布的DMA數據實例,進行需水量預測模型性能測試,主要結論如下:

1)日周期和近期相關需水量數據對預測模型的影響較大,周周期相關數據的影響相對較小,x(t-24×7),x(t-24)對預測模型的重要性始終排在前10,驗證了需水量的強周期性。

2)異常值處理有利于提高預測模型的準確性,基于LOF的預測模型ERMS平均降低了10%。LightGBM預測模型在不同數據集上均表現出高精度,其EMA比ANN和SVR平均降低了24.7%。

3)LOF+LightGBM相比其他模型具有明顯的優勢,能較好地預測出需水量波動。無論是LOF模型、LightGBM模型還是LOF+LightGBM模型,均有利于提升需水量預測模型的預測準確性。

在今后的研究中,可以在識別異常值的基礎上,對異常值的產生進行歸因,有利于進行管網漏損檢測和事故預警。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产凹凸视频在线观看| 日韩在线播放欧美字幕| 免费观看男人免费桶女人视频| 国产国产人在线成免费视频狼人色| 国产男女免费视频| 9久久伊人精品综合| 日韩成人在线视频| 国产乱人伦精品一区二区| 日韩大乳视频中文字幕| 午夜精品区| 成人一级黄色毛片| 九一九色国产| 又粗又大又爽又紧免费视频| 亚洲一级毛片免费观看| 亚洲中文字幕久久精品无码一区| 国产97区一区二区三区无码| 中文字幕亚洲电影| 國產尤物AV尤物在線觀看| 亚洲精品视频免费观看| 精品偷拍一区二区| 国产精品13页| 91无码人妻精品一区二区蜜桃| 亚洲人成日本在线观看| 91在线精品免费免费播放| 亚洲一区二区三区中文字幕5566| 日韩免费毛片视频| 日本手机在线视频| 国产乱人伦精品一区二区| 这里只有精品在线播放| 99久久国产精品无码| 天天做天天爱夜夜爽毛片毛片| 澳门av无码| 国产黄色免费看| 午夜国产大片免费观看| 九九九久久国产精品| www亚洲天堂| 成人夜夜嗨| av在线5g无码天天| 日韩专区第一页| 思思热在线视频精品| 毛片免费网址| 久久黄色一级视频| 91精品国产综合久久香蕉922| 国产成人一区免费观看| 天天摸夜夜操| 99热这里只有精品免费| 国模私拍一区二区| 色综合久久综合网| 国产h视频在线观看视频| 亚洲精品国产综合99| 国产成本人片免费a∨短片| 伊人久久影视| 中字无码精油按摩中出视频| www.91在线播放| 91视频精品| 亚洲女同欧美在线| 欧美狠狠干| 99在线视频免费| 国产精品精品视频| 亚洲精品中文字幕无乱码| 欧美一级片在线| 久久亚洲中文字幕精品一区 | 国产麻豆福利av在线播放| 亚洲色图欧美一区| 色综合久久88色综合天天提莫| 亚洲日韩高清在线亚洲专区| 一级毛片免费观看不卡视频| 久久先锋资源| 91欧美亚洲国产五月天| 婷婷开心中文字幕| 国产精品欧美在线观看| 刘亦菲一区二区在线观看| 一级毛片基地| 久久青草精品一区二区三区| 亚洲天堂视频在线播放| 免费一级毛片完整版在线看| 亚洲精品国偷自产在线91正片| 日韩毛片基地| 成人一级免费视频| 成人福利视频网| 精品综合久久久久久97超人该| 福利一区三区|