荀 曦 鄭 欣 于雁武 許開立
(1.東北大學資源與土木工程學院,遼寧 沈陽 110819; 2.中北大學環境與安全工程學院,山西 太原 030051)
經過選礦廠選出有價值的精礦后剩余的廢渣,稱作尾礦[1],這些尾礦堆存起來形成了尾礦庫。尾礦庫是礦山企業最大的危險源[2],工業發展的同時,尾礦庫數量日益增加,壩體也越來越高,嚴重威脅著企業和周圍居民的生命財產安全;尾礦庫同時也是最大的污染源,尾礦庫潰壩后大量的尾礦流入河流,造成土壤和水等環境污染,治理費用高,生態恢復困難。尾礦庫一旦發生潰壩將會造成難以逆轉的生態破壞和無法估計的財產損失。2022年3月27日山西省呂梁市的山西道爾鋁業有限公司一尾礦庫發生潰壩事故,致7.5畝喬木林地掩埋,200余米季節性溝渠、鄉村道路堵塞,相鄰企業部分圍墻沖毀。故需要對尾礦庫進行定期風險評價,及時掌握尾礦庫風險狀態,才能采取應對措施。
隨著信息時代的到來,人們開始借助于機器學習算法進行風險分級評價,機器學習中的分類算法,能學習已有數據分類規則對新輸入的數據進行分類,得到了廣泛使用。目前,很多專家學者利用機器學習算法進行尾礦庫風險評價,并取得了一定成果[3-7]。基于機器學習的風險評價類文章中構建的尾礦庫風險評價指標體系中的評價指標大多為可監測的指標,很少考慮非監測類的管理指標,由此評價得到的尾礦庫風險等級極易與現實存在差異;為保障模型的精度,需要足量的數據對模型進行訓練,尾礦庫數據受到技術、成本等的限制,獲取完整數據較為困難。
基于此,本研究從事故統計和管理方面對尾礦庫綜合分析,全面構建指標體系;針對尾礦庫指標體系中的指標數據難獲取、成本高的問題,本研究根據現有的尾礦庫等級比例,采用加權RAND()函數生成隨機數值作為尾礦庫風險評估的訓練數據庫。對生成的樣本數據采用博弈論法組合層次分析法(AHP)和熵值法確定評價指標權重,構建加權物元模型評估尾礦庫風險等級。采用改進鯨魚算法(BWOA)優化SVM對尾礦庫風險等級進行預測。鯨魚算法(WOA)提高模型分類準確性的同時改進SVM過擬合的問題。此時尾礦庫風險評價模型已經構建完成,將實際尾礦庫數據輸入構建好的模型中,即可得到對應的風險等級,本文采用山西東溝尾礦庫實際數據驗證模型。研究流程圖見圖1。
尾礦庫自身常見的危害類型有:洪水漫頂、壩體失穩、滲透破壞、結構破壞4種[8],同時尾礦庫的安全性還受到管理因素的影響。通過尾礦庫的事故統計和分析的結果,選取指標構建尾礦庫風險評價指標體系,見圖2。

圖2 尾礦庫風險等級評價指標體系Fig.2 Risk level evaluation index system of tailings pond
尾礦庫分為正常庫、病庫、險庫、危庫4個等級,因此將尾礦庫風險評價指標也分成4個級別,并結合現有標準資料和尾礦庫基礎數據庫,制定了尾礦庫風險評價指標的分級標準,見表1。
本研究以博弈論為基礎,將層次分析法和熵值法相結合,從主、客觀兩個方面確定評價指標權重,既考慮了評價指標內部關系,又考慮了數據量本身對權重的影響。
層次分析法是由美國運籌學家T.L.Saaty教授于上世紀70年代初期提出的評價方法[9],其在賦權得到權重向量的時候,主觀因素占比很大。
通過兩兩比較指標重要性,對重要程度按1~9賦值構建判斷矩陣,計算判斷矩陣特征向量、特征值,選取最大特征值,將對應特征向量歸一化作為權重,最后進行一致性檢驗,一致性檢驗通過說明判斷矩陣沒有邏輯錯誤。
在信息論中,熵是對不確定性或隨機性的一種度量,不確定性越大,熵值就越大,數據越離散,則包含的信息就越大,在確定權重的時候往往就越小。
熵值法確定權重步驟[10]如下:
(1)應用最大最小標準化方法對數據進行標準化操作。
(2)確定各指標的信息熵:
式中,n為數據量;pij=若Pij=0則=0。
(3)確定權重:
式中,m為指標數量。
博弈論的基本思想是在不同方法的權重之間尋求一致或妥協[11],即將層次分析法確定的主觀權重W1=(w11,w12,…w1j)和熵值法確定的客觀權重W2=(w21,w22,…w2j)與組合權重之間的偏差和最小。其實現步驟如下:
(1)W1和W2確定的組合權重W線性表達式為
W=λ1W1+λ2W2.
(2)尋求最優的λ1、λ2,使得偏差最小,目標函數為
min(‖W-W1‖+‖W-W2‖) =
min(‖λ1W1+λ2W2-W1‖+
‖λ1W1+λ2W2-W2‖).
(3)根據微積分原理,取得最小值的求導條件為
(4)對求得的系數λ1、λ2進行歸一化處理。
(5)最優組合權重為
本文采用加權物元模型確定尾礦庫對應的綜合風險等級。
物元可拓模型基于可拓學理論,將多指標決策問題轉變為單指標決策,定量得出評價結果。前文中介紹的尾礦庫風險評價指標記為評價因子cn(n=1,2,…,27),制定的尾礦庫風險等級標準記為N,評價因子對應的數據記為xn(n=1,2,…,27)。物元可拓模型實現步驟[12]如下。
3.1.1 建立物元可拓模型指標
物元模型最重要的3個指標叫做經典域、節域和待評物元。
(1)經典域。經典域R0表示給定尾礦庫風險評價等級Nj(j=1,2,3,4)時,xn對應于cn的取值范圍:
式中,Nn表示尾礦庫風險評價等級,m=1,2,3,4;cn表示評價指標;vij=(aij,bij)表示評價指標cn對應評價等級的取值區間,i、j=1,2,…,27。
(2)節域。對于4種尾礦庫風險等級N,xn對應于cn的所有取值區間叫節域,尾礦庫風險評價的節域Rp表示為
(3)待評物元。將待評尾礦庫的R中N和xi分別用確定的等級和實際數據表示出來即得到尾礦庫風險的待評物元,記作:
3.1.2 計算關聯系數及關聯度
待評物元Rk關于尾礦庫風險等級Nm的綜合關聯度為
式中,是博弈論綜合AHP和熵值法得出的權重(i=1,2,…,27);Kj(Nj)表示各評價指標關于等級j的關聯度;Kj(vjk)表示各評價指標關于等級j的單指標關聯度。
其中:
式中,b、a分別為評價指標區間的上下限。
依托matlab,編寫尾礦庫風險等級物元可拓評價模型代碼,借助編程來快速實現尾礦庫風險等級綜合評價。
運用物元可拓模型得出的尾礦庫等級比例存在嚴重不均衡的問題,直接送入分類模型中進行驗證會出現總體分類準確率高但某類等級準確率嚴重偏低的問題,因此需要對分類結果進行均衡化處理后再送入分類模型中,本文使用隨機過采樣的方法進行處理,該算法將少數樣本隨機復制達到樣本平衡[13]。
WOA算法是澳洲格里菲斯大學的教授Mitjalili等人通過觀察澳洲座頭鯨特殊的捕食活動于2016年提出的一種仿生啟發式優化算法。相比于其他優化算法如PSO粒子群算法、GA遺傳算法等,該算法具有計算步驟簡單、原理簡單、可調參數少的優點[14]。該算法實現步驟[15]如下:
(1)包圍收縮。鯨魚識別獵物位置并將其包圍,數學模型為
式中,t為迭代次數;X*(t)為目前為止鯨魚最有利位置;X(t)為當前鯨魚位置;r1、r2取值范圍為[0,1];a值從2到0線性遞減。
(2)螺旋更新。座頭鯨根據獵物位置螺旋式更新位置,數學表達式為
式中,b為決定螺旋形狀的常數;l∈[-1,1]。
(3)隨機搜索。當|A|>1時,鯨魚根據同類位置隨機搜索,表達式為
式中,Xrand(t)為隨機選取的同類位置。
WOA算法同PSO粒子群優化算法、GA遺傳算法一樣具有局部收斂、收斂速度慢等缺點[16],因此本研究采用混沌映射初始化種群和自適應調整搜索策略的方法對其進行優化,將優化后的算法記為BWOA算法。
(1)混沌初始化策略。傳統算法使用隨機方法初始化種群,不同映射方法使得種群空間分布不同,將直接影響算法性能。混沌映射具有遍歷性、周期性和初值敏感性等特點[17],作為隨機數生成器對優化算法進行改進,在隨機數生成方面具有很好的結果。本研究采用Chebyshev映射初始化種群,其迭代公式如下:
xk+1=cos(acos-1(xk)),
式中,a為Chebyshev的分形參數,a∈[0,5]。
(2)自適應調整搜索策略。為防止算法出現局部最優的問題,在搜索階段,根據概率閾值Q調整變量值[18],數學表達式為
式中,t表示迭代次數;tmax為最大迭代次數。任取q∈[0,1],當q<Q時,隨機變量Xj按上式更新,否則采用螺旋式更新。隨著不斷迭代更新,Q值減小,迭代次數自適應調整搜索策略,實現全局優化,表達式為
Xj=Xjmin+r(Xjmax-Xjmin),
式中,r∈[0,1];Xjmin、Xjmax分別為變量Xj的最小值和最大值。
SVM模型是一種基于統計學習理論的機器學習算法,在處理小樣本、高維度的數據上有著獨特優勢。實現步驟[19]為:
(1)將原始數據通過核函數映射到高維空間,本研究采用rbf核函數,數學表達式為
(2)在高維空間構造最優分類超平面,通過對懲罰因子C和核參數λ尋優,使得分類間隔最大,分類效果最好,SVM目標函數和約束條件為
式中,i=1,2,…,l;w為權重向量;ξi為松弛變量;xi為訓練集樣本;yi為分類標簽;w(xi)為核函數。
尾礦庫風險等級預測模型BWOA-SVM算法主要步驟如下:
(1)利用隨機過采樣算法對物元可拓模型得出的尾礦庫綜合等級進行均衡化處理。
(2)初始化BWOA算法參數,迭代得出最優的懲罰因子C和核參數σ。
(3)將得出的最優參數和均衡化處理后的歸一化數據送入SVM尾礦庫分類模型中進行訓練。
(4)給出算法模型準確率、召回率、F1(F1分數)、AUC(ROC曲線下面積)等性能參數。
尾礦庫評價指標一般大都選取浸潤線、壩體位移、干灘長度等監測指標,極少考慮管理因素,尾礦庫風險評價指標體系不全面。采用機器學習方法對尾礦庫進行風險評價需要足量的數據去訓練模型,而且監測數據存在獲取成本較高和測量設備測量局限等問題。總體來說,尾礦庫數據獲取困難、不全面、數據后續處理復雜,因此借助隨機數據生成模擬法可以解決該類問題。隨機函數RAND()采用線性同余法生成偽隨機數,數據獲取容易,數據量可人為選定,因此我們借助RAND()函數生成偽隨機數替代實測數據驗證模型效果。
根據劃定的取值范圍,采用隨機模擬技術生成數據[20],本研究將數據量設定為300條。
據不完全統計,2008年我國12 655座尾礦庫中,正常庫7 745座,病庫3 032座,險庫1 265座,危庫613座[21],即Ⅰ級庫占比61.2%,Ⅱ級庫占比24%,Ⅲ級庫占比10%,Ⅳ級庫占比4.8%。利用隨機模擬法生成尾礦庫風險評價數據時按照上述比例采用加權RAND()生成模擬數據用于模型訓練。
設第j個評價指標的第k個風險等級的取值下限和上限分別為ajk和bjk,保留m位小數,則數據樣本的隨機模擬公式為
式中,j取值范圍為[1,27];k取值范圍為[1,4];i表示數據容量,i取值范圍為[1,300]。
選取的評價指標中有些屬于定性指標,無法使用隨機模擬技術生成具體的數據,因此要將選取的定性指標轉化為定量指標。Ⅰ級取值區間為[7.5,10],Ⅱ級為[5,7.5],Ⅲ級為[2.5,5],Ⅳ級為 [0,2.5]。則定性指標的隨機模擬公式為
根據構建的指標體系,首先采用RAND()函數生成300條偽隨機數據,運用博弈論將層次分析法和熵值法組合得到指標權重,見表2。將生成的數據進行加權后利用構建的物元可拓模型得出風險等級,將風險等級和生成的偽隨機數據組合輸入BWOA-SVM模型中,利用BWOA算法得出C最優值為12.220 9,σ最優值為0.157 6,將最優取值輸入SVM中得出算法各評價指標的取值,與C、σ取默認值時的SVM算法分類性能進行比較,結果見表3。通過比較,BWOA優化的SVM算法在所有指標上效果均優于SVM算法,預測結果準確率提升了44.9%。同時計算出2種模型分別在尾礦庫4個等級上分類的準確率和ROC曲線,見圖3、圖4和圖5,可以得出BWOA-SVM算法在每個等級上分類的效果同樣也優于SVM算法。

表2 尾礦庫指標權重Table 2 Weights of tailings pond index

表3 算法評價指標Table 3 Algorithm performance index

圖3 BWOA-SVM與SVM算法預測正確個數和準確率比較圖Fig.3 Comparison of the correct number and accuracy of BWOA-SVM and SVM algorithms

圖4 SVM算法ROC曲線Fig.4 ROC curves of SVM algorithm

圖5 BWOA-SVM算法ROC曲線Fig.5 ROC curves of BWOA-SVM algorithm
山西宏偉礦業有限公司澤水溝東溝尾礦庫位于靈丘縣城北15 km處,以東溝尾礦庫為例驗證所提方法的可行性。該尾礦庫安全超高約0.943 m,24小時降雨量小于50 mm,排洪設施未出現裂縫和磨損,防洪標準500 a一遇,平均粒徑0.074 mm達到85%,下游坡比為1∶3,地形坡度16°,浸潤線在0.85~6.8 m,滲透坡降介于0.1~0.138 m,干灘長度約100 m,排滲設施完好,堆積密度1.4 t/m3,抗震能力7級,壩體未發現裂縫、變形,全員配備較簡單的個人防護裝備,有應急預案,應急準備、應急保障基本滿足尾礦庫重大險情保障,安全投入資金有限,培訓率100%,技術考核達標率>80%,建立了較為健全的安全管理機構,各級崗位責任較明確,制度和規程健全,安全記錄資料較齊全,有隱蔽性工程檔案、安全檢查檔案和隱患排查治理檔案,有監測設施,但不全面,缺少水位監測設施,每3年開展一次安全評價工作[22]。將這些數據代入訓練好的BWOA-SVM模型中,輸出該尾礦庫等級為Ⅱ級(病庫),該尾礦庫屬于帶病運行的尾礦庫,與實際情況相符。
(1)本文建立的風險評價指標體系既考慮了浸潤線、壩體位移、干灘長度等監測指標,又考慮了非監測類的管理類指標,同時給出了各指標風險分級評價的標準。
(2)采用機器學習方法需要大量數據構建模型,以隨機模擬法生成數值用于模型訓練解決了尾礦庫評價數據難以獲取、樣本量少的問題。
(3)采用博弈論法將層次分析法和熵值法結合起來確定指標權重,既考慮了評價指標間關系對權重的影響也考慮了數據量本身的影響,使權重確定更加科學合理。
(4)以我國尾礦庫中正常庫、病庫、險庫、危庫實際比例為依據,采用加權RAND()函數生成數據,比按照均分的方式生成的實驗數據更加貼近實際和準確。
(5)采用物元可拓模型確定風險等級,利用BWOA算法優化SVM對風險等級進行預測,克服了傳統SVM預測精度低、容易過擬合的問題,預測準確率、精確值、召回率、F1、AUC分別為0.98、0.98、0.98、0.98、0.99,總體的準確率提升了44.9%,4個等級上的分類效果同時優于SVM算法,模型可以應用到尾礦庫風險評價中,為企業和安監部門監管提供科學依據。