李育發+閆慶慶
摘 要:由于CEMS系統工作在惡劣的環境下,監測到的煙塵煙氣數據會受到影響,由人工定位系統問題的話會耗費大量的時間和精力。為了方便系統問題的定位,通過對燃煤電廠的大數據進行挖掘,采用基于離群點的檢測算法,甄別出數據中的異常點,發現可能存在的問題。
關鍵詞:CEMS系統;離群點檢測;KNN;LOF;INFLO
中圖分類號:TM621.7 文獻標識碼:A 文章編號:1671-2064(2017)21-0153-03
隨著當前的生態環境不斷惡化,尤其是PM2.5日益嚴重,我國對燃煤電廠的排放物有了更加嚴格的要求,燃煤電廠向大氣排放的氣態(煙氣)污染物(二氧化硫、氮氧化物、一氧化碳等)和固體污染物(煙塵)需要控制在一定的范圍內。CEMS固定污染物源排放連續監測系統(Continuous Emissions Monitoring System)用于長期且連續監測固定污染物源排放的煙氣和煙塵,反映煙塵在某一段時間內的排放狀況。然而CEMS是一種工作在多塵、高濕、腐蝕性且流場不穩定環境中的系統,環境的惡劣、精密儀器的損壞都會造成系統采集污染物濃度數據的不準確性。良好的數據源能夠為電網對電廠污染物排放、脫硫脫硝設備運行監視提供數據指導,為電網節能發電調度與脫硫脫硝電量考核提供決策支持。因而,需要使用離群點檢測的方法將異常數據點甄別出來,發現CEMS系統中的問題設備。
1 CEMS系統
1.1 系統簡介
CEMS系統是一種大型的在線分析成套系統,大型燃煤電廠的鍋爐基本都安裝了煙氣脫硫裝置,在鍋爐的出口煙道上(即脫硫裝置的進口),CEMS通常監測SO2、O2、煙塵、壓力、溫度五個參數,而在脫硫裝置后的出口煙道上(即煙囪入口),CEMS通常監測SO2、NOX、CO、O2、煙塵、流量、濕度、壓力、溫度九個參數。通過數據采集與控制系統匯總實時數據,分析故障、自我校準、超時報警,實現系統的自診斷。
CEMS是燃煤電廠煙氣脫硫系統中不可或缺的一部分,是煙氣脫硫系統良好工作的保障。
1.2 系統工作流程
由采樣探頭在煙道上連續抽取煙氣,初步過濾后經加熱管線加熱至150℃保溫傳送。之后進入煙氣預處理裝置進行過濾、干燥和冷凝,將冷凝后煙氣中的腐蝕性廢液進行收集排放,而干燥后的潔凈煙氣進入CEMS氣體分析儀進行各氣體濃度參數的測量。同時,通過CEMS配置的PLC和工業控制計算機,對煙氣采樣探頭每天定時用壓縮空氣進行反吹掃,對煙氣的加熱、伴熱和冷凝裝置進行溫度控制,對煙氣預處理系統電磁閥進行邏輯控制,以及對煙氣成分分析儀的各個測量通道進行準確度標定。
2 影響CEMS數據不準確的可能因素
2.1 CEMS安裝位置過短
煙氣連續監測技術規范指出,安裝CEMS系統需要預留充足的空間,在實際的部署過程中,大多數電廠的直管煙道偏短,使得煙塵、流量的探頭無法安裝在合適的地方,這樣也就影響了采集和計量煙氣的數據的準確性。煙道太短,對氣態污染物無多大影響,即對二氧化硫、氮氧化合物的測量一般不會產生影響,但對在不同位置測量到的煙塵和流量數據會造成較大的影響,主要原因是煙道中的顆粒物分布不均勻,導致監測點不具有代表性,獲得的數據不能反映真實的情況。
2.2 煙囪入口處煙塵監測探頭被污染
將煙氣通過預處理裝置進行洗滌后,雖然使用除霧器除去了霧滴,但入口處的煙氣依然含有一定量的水分,二氧化硫、硫酸鹽等物質溶于水中,這樣的煙氣流經CEMS探頭時,煙氣中的水分可能形成液滴,對激光會產生折射和吸收,因此會影響測量結果。
目前,普遍存在燃煤發電廠中的CEMS監測儀表探頭被污染的現象,污染源為煙氣中所含的水分,在低溫條件下,水分會凝結成水珠,水珠中含有少量的二氧化硫和硫酸鹽等物質,這些物質在進入煙囪,通過探頭時,便會附著在探頭表面的過濾網上,物質過多時還會完全堵住過濾網,影響系統對煙氣中氣態污染物的監測準確性。
2.3 采樣管路泄漏或分析儀表維護不合理
在監測檢測中,有很多異常情況會影響儀表準確監測數據,比如管路泄露和后期維護的不合理。但是這些異常情況一般都可以從儀表的監測數據中分析出來,當發現監測地的儀表數據異常時,比如氧氣的測量值過高,二氧化硫的測量值過低,就能夠說明監測的的管路泄露,需要及時進行處理。
儀表在安裝完成后仍需要進行定時檢修,對儀表進行科學的維護可以有效保證儀表監測數據的準確性,定時檢修和監測條件的選擇可以改變儀表在監測數據是的精度。因此,為了確保監測數據的精準,安裝監測儀表前,要根據儀表的使用場景來規劃好維護方案,做到科學維護。
2.4 伴熱管線缺少報警
管道排除的煙氣含有大量水分,在遇到溫度較低環境時會放熱液化為水滴,當水滴附著在儀表上時,會使監測結果產生誤差。為了解決這個問題,用伴熱管來維持煙體溫度,這樣就會使煙體保持氣體形態,直到煙氣經過分析儀分析完成。如果在排送煙氣的環節中,伴熱管線存在故障,煙氣就會凝成水滴附著在儀表上,會腐蝕儀表。在沒有相關報警裝置時,工作人員就無法及時發現異常,隨著時間的推移,儀表腐蝕家中,嚴重影響檢測儀表的準確度。
要使伴熱管線在監測時發揮效果,就需要對伴熱管線持續加溫,因此要合理調控伴熱管線的加熱溫度,如果設置不當,會導致伴熱管線溫度不合適,不足以防止煙氣凝結成水滴;還可能導致繼電器的損壞,因此因此,合理的溫度控制邏輯可以直接影響到CEMS儀表的精度。
3 使用離群點檢測的方法對異常點進行甄別
所謂離群點,就是那些與眾不同的遠離常規數據對象的數據。由于離群點并不總是孤立出現,很可能以小群體的形式出現,即離群簇出現。在各類型檢測算法中,基于聚類的離群點檢測算法將不屬于任何聚類的點定義為離群點,對于離群檢測有較好的效果。endprint
3.1 使用KNN進行甄別
3.1.1 KNN
KNN是通過測量不同特征值之間的距離進行分類。它的思路是:如果一個樣本在特征空間中的K個最相似(即特征空間最鄰近)的樣本中的大多數屬于某一個類別,那么該樣本也屬于這個類別。K通常是不大于20的整數。KNN算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
3.1.2 實驗過程和結果
首先,將從燃煤電廠CEMS系統中獲取到的數據的前90%作為訓練集,后10%作為測試集。通過集成在Rapid Miner數據挖掘工具中的Est Anomaly Detection插件,計算測試集中每條數據的outlier值,并從中獲取前1000個最大outlier值的數據。每次抽取前100、200……1000條數據,判斷其中確實為異常值的個數,并繪制出如下的樣本檢測率曲線。從圖1中可以看出,隨著抽取數據條數的增加,異常點的檢測率逐漸提高。使用KNN算法求得的異常點檢測率在一定程度上達到了預期的效果,可以將絕大多數的異常點甄別出來,但也不排除誤報的情況。
3.2 使用LOF進行甄別
3.2.1 LOF
LOF算法即局部離群因子算法,該算法首先會計算每個對象與其他對象之間的歐幾里得距離,對歐幾里得距離進行排序后,計算每個對象的第k距離(距離該對象第k遠的對象的距離)以及第k鄰域(該對象第k距離以內的點的集合)。而后計算每個對象的可達密度(該對象的第k鄰域內的點到該對象的平均可達距離的倒數)。最后計算局部離群因子(該對象的鄰域點的局部可達密度與該對象的局部可達密度比值的平均數)。如果點p的局部離群因子趨近于1,說明p的鄰域點密度差不多,p可能與鄰域同屬一簇。如果局部離群因子越小于1,說明p的密度高于其鄰域點密度,p為密集點;如果局部離群因子越大于1,說明p的密度小于其鄰域點密度,p越可能是異常點。
3.2.2 實驗過程和結果
采用與在KNN算法中相同的數據源,通過集成在Rapid Miner數據挖掘工具中的Est Anomaly Detection插件,選擇LOF分析,計算測試集中每條數據的outlier值,并從中獲取到前1000個最大的outlier值的數據。每次抽取前100、200……1000條數據,判斷其中確實為異常值的個數,并繪制出如下的樣本檢測率曲線。從圖2中可以看出,隨著抽取數據條數的增加,異常點的檢測率呈現上升的趨勢,在選取不同k值的情況下,檢測率最多也只能達到75%。
3.3 使用INFLO進行甄別
3.3.1 INFLO
在計算數據點的離群因子時,INFLO會考察它的最近k鄰居,同時也會考察它的逆k鄰居。所謂逆k鄰居,即那些最近k鄰居包含該點的數據點。而數據點的鄰居和逆鄰居,構成了該數據點的影響空間。INFLO值為對象的影響空間中的所有點的局部密度的均值/對象的局部密度。如果INFLO的值趨近于1。則說明該數據點就可能是一個正常的點,如果值比較高,那么該點是異常點的概率極大。
3.3.2 實驗過程和結果
采用與在KNN算法中相同的數據源,通過集成在Rapid Miner數據挖掘工具中的Est Anomaly Detection插件,選擇INFLO分析,計算測試集中每條數據的outlier值。繪圖規則與3.2.2中規則相同。從圖3中可以看出,隨著抽取數據條數的增加,異常點的檢測率一直在提升,而且相比于等量樣本數的LOF算法的檢測率,INFLO的檢測率都比LOF的高。在多次嘗試不同k值,達到最優效果的檢測率也優于等量樣本數的KNN算法。
4 結語
通過分析影響CEMS系統中能夠產生數據異常的原因,并提供三種不同的離群檢測算法,對可能包含異常點的數據集進行甄別,三種算法均可以達到基本檢測出異常點的目的。但從效果來看,INFLO算法的效果最優。
參考文獻
[1]劉書志.基于密度的局部離群數據挖掘方法的研究和改進[D].重慶大學,2014.
[2]壽立新.臺州電廠煙氣脫硫CEMS異常分析與處理[J].浙江電力,2009,28(b07):58-59.
[3]張峻.CEMS測量準確率偏低的原因分析及解決措施[C].2011年電力環保學術年會論文集,2011.
[4]閆偉,張浩,陸劍鋒,袁磊.聚類分析理論研究及在流程企業中的應用[J].計算機工程,2006,32(17):19-21+27.endprint