基于IF-CM-LOF的尾礦壩位移監測數據離群值診斷

2022-12-05 05:08:30易思成康喜明胡少華

金屬礦山 2022年11期

關鍵詞：模型

易思成康喜明吳浩胡少華

(1.武漢理工大學安全科學與應急管理學院,湖北武漢 430070;2.國網內蒙古東部電力有限公司,內蒙古呼和浩特 010020;3.華中師范大學城市與環境科學學院,湖北武漢 430079;4.國家大壩安全工程技術研究中心,湖北武漢 430010)

尾礦庫是填筑廢棄礦渣的礦山設施,目前我國80%以上的尾礦庫采用上游法筑壩,其特點是在初期壩上采用分層填筑的方式形成后期子壩來增加庫容[1]。因此壩體位移是尾礦庫服役乃至閉庫后的一個關鍵監控指標,目前普遍采用GPS對其進行在線監測[2]。然而,GPS監測過程中由于數據采集頻次高且易受到雷擊、電壓等因素干擾,會在監測數據中出現各種誤差;同時尾礦庫在受到壩體增高加載、地震、洪水等因素的影響時,可能會出現壩體破壞失穩,發生潰壩事故,從而在監測數據中產生大量異常值(本研究將監測數據中的誤差與異常值統稱為離群值)。為提高尾礦壩位移監測數據的可靠性,有效發現尾礦壩運行過程中的異常現象,準確識別其位移監測數據中的離群值對于尾礦壩安全監控具有重要的意義[3-4]。

尾礦壩位移監測數據往往呈現非線性特征且難以使用概率分布模型描述,因此基于統計的離群值診斷方法往往適用性不理想[4-5]。孤立森林(IF)作為一種無監督檢測方法,對于離群值有著很好的識別能力[6]。張海龍等[7]采用IF算法對經小波變換扣除趨勢項的監測數據剩余量進行處理,實現了大壩監測數據離群值的識別;吳志強等[8]利用離散二進制粒子群算法改進IF算法,提升了算法的檢測精度和執行效率。該類研究均未能有效解決IF算法僅對于全局敏感、對局部位置識別不佳的問題[9]。CHENG等[10]將局部離群因子(LOF)算法與IF算法相結合,對IF算法處理效果不佳的數據邊界位置采用LOF算法進行二次診斷,實現了對局部位置數據的優化處理。然而,該方法仍然存在一定的不足:①IF算法沒有明確定義異常概念所對應的異常得分范圍;② 將IF與LOF算法結合使用時,對于邊界位置的選取具有主觀性。因此,如何合理地定義異常得分范圍以及選擇邊界數據仍值得進一步研究。

云模型(CM)是一種實現定量數據與定性概念相互轉化的有效方式,能夠完成知識與數據之間的不確定性認知轉換。部分學者將其運用于尾礦壩變形監測預警,實現了尾礦壩變形預警閾值的有效確定[11]。采用云模型計算復雜數據集的邊界范圍,并根據計算所得閾值提取候選集用于二次診斷,能有效提高診斷的準確率以及科學性。本研究在現有成果的基礎上,使用IF算法對數據集進行初步篩查,將IF計算所得的異常得分作為變量,引入CM對其進行處理,從而完成對異常區間以及數據邊界的確定,并由此提取二次診斷候選集,最后引入LOF算法對候選集進行處理。為驗證該模型的性能,結合工程實例進行離群值診斷,并與IF模型結果進行對比分析。

1 模型構建

1.1 問題描述

壩體位移GPS監測點及監測信號會不可避免地受到卸料、整平、碾壓等壩體施工過程、季節性降雨以及多山環境[12-14]等因素的影響,導致其在數據采集、傳輸過程中出現各種噪聲,從而使得監測數據中出現空白值、粗差和隨機誤差。空白值通常由傳感器失效引起,表現為監測數據的缺失;粗差是指含有粗大誤差、嚴重偏離真實值的數據,常常是由觀測過程中的操作疏忽和數據的記錄、復制和計算處理過程中的過失錯誤引起;隨機誤差則在數據序列中普遍存在,是由各種偶然因素造成的數據小幅度波動現象。當壩體由于滲流作用、洪水漫頂等因素[15]造成不同程度潰壩時,監測數據中也會出現反映這些真實事件的異常值。尾礦壩位移監測數據中的離群值如圖1所示。

圖1 監測數據離群值分類Fig.1 Outlier classification of monitoring data

IF算法在處理位于邊界部分的隨機誤差時通常效果不佳。本研究引入局部離群因子(LOF)對數據邊界位置進行二次診斷。然而數據邊界為抽象概念,沒有一個定量的指標用以確定復雜數據集的邊界范圍。因此,需要一種合理有效的方法來確定尾礦壩地表位移監測數據的邊界閾值。

1.2 IF基本原理

IF算法是一種基于樹的離群值檢測算法,其基本原理是不斷地對數據集進行分割,直至數據集中的每一個數據都成為孤立點,通過將各點被孤立時距離根節點的路徑長度與標準值進行比較,從而判斷是否為離群點[6]。IF算法的基本邏輯如圖2所示。

圖2 IF算法邏輯圖Fig.2 Logic diagram of IF algorithm

式中,E(h(x))為x的平均路徑長度期望值;c(n)為標準平均路徑長度。

判斷標準定義為

由于尾礦庫在線監測系統需要保證監測到整個尾礦壩全天候的運行情況,因此其監測范圍廣、測點布設較多、監測周期極短,從而導致數據量非常龐大。IF算法能夠通過子采樣建立局部模型,適用于尾礦庫的大規模監測數據。

1.3 CM-LOF局部優化診斷

IF算法雖然實現了對每個數據值賦予異常得分,然而式(2)中對于離群值的判斷只給出了一個模糊的概念,對得分處于(0.5,1)區間的數據點并沒有給出一個確定的閾值來評判其是否為離群值。因此,本研究引用CM算法確定(0.5,1)區間內的異常得分閾值,并根據計算結果選取候選集,采用LOF算法對候選集進行優化計算。

CM算法中逆向云發生器可以完成定量數據向定性概念的轉化,將IF算法得到的異常得分S(x,n)位于(0.5,1)區間內的值導入一維逆向云發生器進行建模后生成云模型,根據云數字特征值進行區間劃分從而確定異常閾值,云模型如圖3所示。

圖3 云模型示意Fig.3 Schematic of cloud model

圖3中,Ex,En,He分別代表期望、熵、超熵3個數字特征值。根據文獻[16]的相關計算結果,位于(Ex-3En,Ex-2En)和(Ex+2En,Ex+3En)區間中的云滴對“正常”概念的貢獻度僅有4.3%,落在區間外的云滴對表征的定性概念幾乎無貢獻。因此本研究選取(Ex+2En,1)區間為顯著異常區間,其中的數據點認定為IF算法識別的異常點;(Ex,Ex+2En)區間為不確定區間,將該區間內的數據作為候選集,引入LOF算法對其進行離群值優化診斷。LOF算法通過計算某樣本點x的局部離群因子(LOF值)來判斷該點是否為離群值,LOF值越大,表明該樣本點偏離局部中心的程度越多,越有可能為異常點[17]。LOF值定義為

式中,Nk(x)為x的第k距離;lrdk(x)為x的局部可達密度。

通過下式判斷x是否異常:

基于2017年河北省礦產資源開發利用基本情況與特點，對比全國礦產資源開發利用情況[5-8]，對2017年河北省礦產資源開發利用情況總結如下。

1.4 算法流程

LOF算法通過對數據集中的每個點進行計算而有著較高的準確率,但是其計算量十分龐大,需要的存儲空間及時間復雜度高,不適用于大規模數據的檢測。通過IF算法對尾礦庫位移監測數據進行整體篩查、采用CM算法確定邊界部分數據候選集后,再使用LOF算法對少量的候選集數據進行離群值診斷,不僅能有效降低算法計算量,還能夠提高邊界部分離群值的診斷率。IF-CM-LOF模型如圖4所示。

圖4 IF-CM-LOF模型示意Fig.4 Schematic of IF-CM-LOF model

具體操作步驟為:①導入尾礦壩位移監測數據,構造孤立樹及孤立森林,計算標準平均路徑長度c(n)及各樣本點的平均路徑長度期望E(h(x)),歸一化處理得到異常得分S(x,n);②根據式(1),導出S(x,n)位于(0.5,1)區間內的數據,采用CM算法構建云模型,并根據云模型數字特征值選取閾值,取(Ex,Ex+2En)區間內的數據作為離群值候選點;③運用LOF算法處理候選點,計算各點的LOF值,根據式(3)確定隨機誤差。IF-CM-LOF算法的詳細流程如圖5所示。

圖5 IF-CM-LOF算法流程Fig.5 Flow of IF-CM-LOF algorithm

2 工程應用

2.1 工程概況

湖北省某尾礦庫為山谷型尾礦庫,采用上游式筑壩方式。初期壩為透水堆石壩,壩長146.45 m,壩頂寬5 m,壩頂標高50 m。每級子壩高度為3 m,現已堆積至 15期子壩,堆積標高為 95 m,總庫容達1 469.34 m3。該尾礦庫于2014年完成了在線監測系統的投運,通過GPS技術對壩體表面位移進行在線監測,共布設了12個監測點。本研究選取該尾礦壩同高程GB-1、GD-2以及同截面GB-2、GB-3共4個監測點2017年1—6月的位移監測數據作為測試樣本,來驗證模型的性能。尾礦壩位移監測點分布如圖6所示。

圖6 某尾礦壩位移測點分布Fig.6 Distribution of displacement measuring points of a tailing dam

2.2 模型診斷

為驗證模型對離群值的診斷效果,本研究在4個測點的監測數據中分別設置部分數據為離群點,其類型、數量以及分布如表1、圖7所示。

表1 各測點的離群點類型及數量Table 1 Type and number of outliers at each measurement point

圖7 某尾礦壩各測點地表位移及離群值分布(2017年)Fig.7 Surface displacement and outlier distribution at each measuring point of a tailing dam (2017)

圖7(a)設置30個連續的空白值,用于模擬監測過程中由于斷電等因素引發的監測設備停止運行狀況;圖7(b)設置100個連續的真實異常值,用于模擬尾礦壩發生潰壩情況下的數據監測狀況;圖7(c)、圖7(d)為在全時間序列下設置的43個離散粗差以及90個隨機誤差,用于模擬監測設備在各種復雜環境條件下所產生的噪聲。

本研究使用IF算法對數據進行離群值診斷,由于算法給出的異常區間范圍不明確,因此本研究選擇異常得分范圍為(0.7,1)內的點為離群點,結果如圖8所示。

圖8 各測點IF診斷結果Fig.8 IF diagnosis results at each measurement point

由圖8(a)、圖8(c)可知:IF算法在處理空白值和粗差時有著良好的識別效果,體現了其對于全局敏感的特性。圖8(b)顯示在處理連續異常變化的真實異常值時,IF算法識別結果不完整,出現了大量的漏判現象。這是由于算法沒有準確地給出異常區間所對應的得分,因此僅憑經驗選取的異常得分范圍不夠合理,無法囊括全部異常點。圖8(d)反映了IF算法在處理邊界數據時,對于噪聲所帶來的隨機誤差會出現大量的漏判,這也是由于沒有合理選取異常區間范圍所致。此外,即使擴大異常得分范圍,也會出現大量的誤判現象。其原因是IF算法在處理一維監測數據時,會將異常數據的篩選問題抽象為數據出現的頻次問題[18],而不會考慮數據在時間序列上的分布情況,使得某一個位移數據對應的全時間序列下的數據點都被識別為離群點。因此,為準確判斷邊界部分的隨機誤差,需要對其進行二次診斷。

引入的CM模型能夠合理地選取邊界數據集,并解決IF算法異常區間的確定問題。提取IF算法異常得分處于模糊區間(0.5,1)內的數據并導入逆向云發生器,結果如圖9所示。

圖9 各測點IF得分云圖(2017年)Fig.9 IF score cloud diagram of each measuring point (2017)

由圖9可知:4個測點的期望值Ex均在0.6附近,說明IF得分處于0.6附近的點為該樣本集的集中部分。以Ex+2En作為異常得分閾值邊界點,選取(Ex,Ex+2En)區間作為二次診斷的候選區間,計算結果見表2。

表2 各測點CM特征值計算結果Table 2 Calculation results of CM characteristic values at each measuring point

候選集分布如圖10所示。

圖10 各測點候選集數據分布(2017年)Fig.10 Data distribution of candidate sets at each measuring point (2017)

由圖10可知:在引入CM對IF得分進行閾值計算后,根據云數字特征值選取的候選集區間能夠準確定位到復雜數據集的邊界,從而完成對邊界部分數據的提取,實現了定量的IF得分數據向定性的“邊界”概念轉化。

結合IF算法一次診斷結果,引入LOF算法對候選集進行離群值的二次診斷,實現對邊界部分數據中隨機誤差的識別,結果如圖11所示。

由圖11(a)、圖11(c)可知:該模型對空白值以及粗差的識別效果保留了IF算法本身所具有的優越性;圖11(b)反映出經過CM計算閾值后所確定的異常得分范圍相比經驗判斷的結果囊括了更多的真實異常值,體現出了該模型的科學性與合理性;圖11(d)體現出該模型對于邊界部分隨機誤差的識別效果較好。

分別計算分析了IF-CM-LOF模型與IF模型對于預先所設離群值的檢驗效果,結果見表3。

表3 兩種模型離群值診斷結果Table 3 Outlier diagnosis results of the two models

由表3可知:IF對空白值以及粗差的識別效果較好,識別率均達到100%,體現出該算法對于全局離群點敏感的特性;然而對于真實異常值以及隨機誤差,識別率僅有16.5%和22.2%,主要原因是IF得分異常區間不明確,使得僅憑經驗判斷的得分閾值無法覆蓋全部離群點,從而出現大量漏判。在引入CM對邊界數據進行定位提取并使用LOF對其進行二次診斷后,真實異常值和隨機誤差的識別率分別提高到至90%和61.1%,體現出CM對邊界范圍確定的可行性以及模型的整體優越性。

3 結論

(1)針對IF算法對于邊界位置數據異常識別結果的模糊性和不確定性問題,本研究通過逆向云變換將“邊界”這一抽象概念的定位問題轉化為邊界閾值的計算問題,實現了復雜數據集邊界位置的確定。通過進一步引入LOF算法對邊界部分數據離群值進行二次精確診斷,彌補了IF算法對于邊界位置處理的不足。

(2)工程實例驗證發現,IF-CM-LOF模型對于真實異常值以及隨機誤差的檢測率達到90%以及61.1%,明顯優于IF模型的16.5%和22.2%,反映出該模型的優越性。

(3)目前,IF-CM-LOF模型僅有助于提高對離群值的檢出率,無法判斷其所識別的離群值是否為噪聲或真實異常值,因此對于離群值的類型判定仍需進一步研究。