黃 銳 李霄銘 余 翔 熊 軍 陳漢城
(國網福建省電力有限公司信息通信分公司,福建福州 350013)
環保作為實現碳達峰、碳中和的重要路徑,在“雙碳”政策背景下備受關注。目前,傳統的環保監測工作主要是通過在每條線末端設置各種傳感器進行化學檢測,來判斷企業是否違規排污[1]。然而,治污設備所處位置的周圍環境比較臟亂差,傳感器工作容易受外界環境干擾,產生偏差甚至失效。
而電力數據具有覆蓋度廣、價值密度高、實時準確性強等特點[2],利用電力數據進行環保監測工作實時性強,能從產污源頭進行環保監測。目前,大多數基于電力數據的環保監測工作,主要是對治污設備進行電力信息的采集與分析[3-4],當需要監測的治污設備數量眾多時,監測設備數量也隨之增加,環保監測成本會隨之升高,企業較難接受。
基于上述分析,本文研究提出了一種基于XGBoost的非侵入式污染企業環保工況識別方法,即記錄企業的生產工況,將企業生產工況與環保設備工況相結合得到企業環保工況,再將企業環保工況與用電數據輸入XGBoost中進行訓練,得到最終的模型。
需要對企業生產工況與環保設備工況一定的先驗數據進行訓練。對于環保工況的判斷方法如圖1所示,對于某一個時刻的環保工況,若企業生產正常,且環保設備為開啟狀態,那么環保工況即為正常,當環保設備關閉,則視為異常,其中,生產設備關閉時視為環保工況正常。這樣就得到了環保工況標簽。

圖1 環保工況判定流程
XGBoost(Xtreme Gradient Boosting)是一種高效的基于決策樹(CART)的分布式梯度提升算法,它可被應用到分類、回歸、排序等任務中。
預測值計算公式如下:
目標函數計算公式如下:
最小化目標函數,經過正則化項對算法學習權重的平滑,最終得到目標函數的最優解如下:
本文提出的環保工況異常識別方法主要流程如圖2所示,其主要步驟如下:

圖2 環保工況異常識別流程
(1)在監測點獲取電能質量監測數據,在選擇數據時包括電能質量監測數據與基本電氣數據;
(2)記錄企業生產工況與環保工況;
(3)將環保工況與電能質量的監測數據輸入到XGBoost模型中進行訓練;
(4)將企業后續電能質量監測數據輸入到XGBoost中進行測試,得到企業的環保工況,識別其中的異常環保工況。
為了驗證本文方案的實用性,搭建了模擬污染企業用電工況的仿真模型。考慮實際企業中各種設備的用電情況,如圖3所示,仿真將以一條10 kV的母線進行模擬,其中包含兩臺生產設備與兩臺環保設備,同時為了更好地模擬各種用電場景,加入了線性負荷、整流器及單相線性負荷。可以發現,在企業中生產設備多為線性負荷與變頻電機,例如變頻電機包括鋼廠用于軋鋼的大型電動機、水泵、壓縮機等,而環保設備如靜電除塵、增壓風機、袋式除塵器等運用了調頻、調速、升壓等相關電力電子技術,所以在這里用兩個變頻器進行模擬。

圖3 仿真電氣接線圖
參考非侵入式負荷監測,在10 kV進線處安裝一個模擬的電能質量監測裝置[5]。如表1所示,在實際監測中,一天24 h,每隔3 min進行一次數據采集,會得到480個點的監測數據,其中包括基本電氣量數據與電能質量監測數據。采用等比例縮放的方法,將一天24 h等比例縮放,仿真時間設置為960 s,每隔2 s進行一次數據采集。

表1 仿真數據說明
在算例中,為了更好地監測本方案的實用性,負荷1~5將采用生成隨機數的方法來控制負荷啟停,即隨機生成1~24內的兩個隨機數,隨機數中,前者為開啟時間,后者為關閉時間。不同于實際生產中設備的啟停具有一定的周期性與規律性,仿真模型中設備的不定時啟停,能更好地驗證變點檢測與聚類算法的實用性與準確性。對于負荷6~9,則一直處于運行狀態,來模擬企業工廠中不間斷運行的設備。
對于生產工況的分類,模型中共有兩個生產設備,針對不同的企業生產場景可能采用不同的生產設備,在這里設置兩個不同的生產用電場景。
場景1:負荷1運行時,視為企業正在正常生產,反之為停止生產。
場景2:負荷2運行時,視為企業正在正常生產,反之為停止生產。
劃分好生產工況,就可以結合環保設備的工況得到企業的環保工況是否異常。根據實際環保部門的監管規則,設置判定企業環保工況的規則,當企業正常生產時,僅當兩臺環保設備同時開啟時視為環保工況正常,反之則為異常。
對模型進行24天數據仿真,共11 520個樣本點,用前70%數據進行模型訓練,后30%數據進行測試。如表2所示,分別對兩個場景下前70%數據的環保工況進行統計。

表2 環保相關工況類別情況
這里引入混淆矩陣與機器學習模型評價指標[6]。如圖4所示,混淆矩陣是機器學習中總結分類模型預測結果的情形分析表。在本方案中,混淆矩陣表示的是模型判斷的環保工況正常與異常兩種情況與其真實值的對比情況,其中TP表示模型正確識別出環保工況異常情景下的數量,TN表示模型正確識別出環保工況正常情景下的數量,FN表示模型錯誤識別出環保工況異常情景下的數量,FP表示模型錯誤識別出環保工況正常情景下的數量。在預測性分類模型中,肯定希望模型能準確預測環保工況。那么對應到混淆矩陣中,TP與TN的數量越多,FP與FN數量越少,則該模型的擬合程度越高。

圖4 混淆矩陣示意圖
在混淆矩陣中統計的為真實值與預測值的數量,當測試的數據集很大的時候,采用百分比能更好地判斷模型的好壞。因此,在混淆矩陣統計結果的基礎上,又引入了如下3個指標,分別為準確率SACC、精確率SPRE、召回率SREC,下面給出這三個指標的定義。
準確率是預測環保工況正確的結果占總樣本的百分比,其表達式見式(4)。
精確率的含義為在被所有預測為環保工況異常的樣本中實際為環保工況異常樣本的概率,表達式見式(5)。
召回率的含義為在實際為環保工況異常的樣本中被預測為環保工況異常樣本的概率,其表達式見式(6)。
通過以上3個二級指標,就將混淆矩陣中的數量轉為0%~100%之間的百分數,其結果更加直觀。在有些場景中,需要同時考慮精確率和召回率,于是便產生了一個新的指標,它的計算公式見式(7)。
對兩個生產用電場景,根據環保規則得到環保工況類別。對24天共11 520個數據點,以時間為標準,取前70%數據作為訓練數據,后30%數據作為測試數據,其各項指標如表3所示。利用XGBoost模型對環保工況進行測試,在兩個生產場景下,SACC與SF1均能達到99%以上,具有較高的識別準確率。

表3 不同場景的分類結果與各項指標
針對企業環保監測問題,本文利用電能質量監測數據,根據環保規則,獲取環保工況先驗數據;然后將電能質量數據與環保工況輸入XGBoost中進行學習與訓練,實現異常環保工況識別。利用仿真算例對本文方案進行測試與分析,得到以下結論:
(1)利用XGBoost進行學習與訓練,對于仿真模型中的數據,在兩個生產場景下,SACC與SF1均能達到99%以上。
(2)相比于傳統的化學含量檢測與對設備一一進行監測,本文方案具有更好的實用性與便利性,減少了監測成本,不影響企業實際生產活動。同時,電力數據還可以在更多領域進行推廣應用。