秦 楠 駱 俊 程小舟 劉自杰 孫 晨 張思涵徐瑞玲 陶 陶
(1.中鋼集團馬鞍山礦山研究總院股份有限公司;2.安徽工業大學計算機科學與技術學院;3.中鋼礦院(馬鞍山)智能應急科技有限公司)
在全球化的大背景下,礦產品的穩定供應對于國家經濟的安全和持續發展至關重要[1-2]。選礦是非煤礦山重要的組成部分,穩定選礦生產,提高生產效率,降低能耗,提高選礦生產指標尤為重要。選礦工藝流程主要包括破碎、篩分、磨礦分級、選別、尾礦濃縮等,磨礦分級起著承上啟下的作用。通過合理的磨礦分級,可以有效提高磨機的臺時處理能力,使有用礦物與脈石充分解離,為后續的選別作業提供合適的條件。
磨礦分級一般采用磨機與水力旋流器閉路流程,通過對磨機運行狀態的檢測與控制、工藝參數的檢測與控制、旋流器生產過程的控制,實現穩定溢流粒度、提高分級效率的目的。旋流器溢流粒度穩定在一定范圍內,是衡量磨礦分級效果的關鍵指標。現階段,溢流粒度的檢測主要通過人工取樣化驗和儀表檢測。人工取樣存在滯后性,生產無法實時調節,影響產品質量。儀表檢測投資成本高、易出現故障、維護量大,檢測精度不能滿足指標要求。為此,本文提出一種基于改進深度森林的機器學習方法,以實現溢流粒度分布的在線實時預測。
以某選礦廠一段磨礦分級環節為研究對象,預測一段磨礦流程中旋流器的溢流粒度分布,工藝流程見圖1。
原礦倉礦石通過下料設備進入給礦皮帶,經過給礦皮帶進入球磨機,利用皮帶秤計量礦石的礦量。球磨機中的磨礦濃度由礦量按比例加水間接控制,球磨機排出的礦漿經內部管道進入礦漿池,礦漿池加水調節礦漿濃度,經底流泵打入旋流器,旋流器溢流進入后續選別作業,旋流器返砂進入球磨機二次球磨[3]。設備包括給礦皮帶、球磨機、礦漿池、底流泵、旋流器等生產設備,液位計、流量計、皮帶秤、壓力計、濃度計、粒度計等在線檢測設備。工藝參數包括磨機給礦量、磨機給水量、磨機濃度、礦漿池液位、補加水流量、旋流器給礦壓力、給礦流量、給礦濃度、溢流濃度、溢流粒度、返砂比。

磨礦過程是一個機理復雜、影響因素多、非線性、大滯后的時變系統,生產設備眾多,難以建立所有控制參數的數學模型,且礦石硬度和粒度對球磨機運行特性有較大影響,各環節相互作用,相互影響。因此,磨礦分級作業控制要求在保證產品質量的前提下,最大限度地提高球磨機的處理能力,降低能耗。
深度森林模型是由南京大學周志華課題組提出的一種基于隨機森林[4]的深度學習模型。深度森林算法所需參數較少、魯棒性強、可自動調整復雜度,對于高維、大量、復雜的數據處理問題,可以提高模型的預測能力和泛化能力,從而有效地提高數據處理效率和質量。本試驗基于深度森林算法建立了回歸模型,預測溢流粒度分布,深度森林模型建立流程見圖2。

本文選取某選礦廠的實際生產數據,時間長度為120 d,數據采樣率為1 min1 次,總樣本數量為172 800,單樣本包含19 個特征屬性。試驗模型基于深度森林模型進行改進,添加了特征提取層以提升模型輸入質量和訓練速度,改進多粒度掃描過程以增強深度森林的特征學習能力,模型整體運行流程如下。
(1)數據預處理。使用Python 讀取數據集D,對數據集中的缺失值使用線性擬合法進行填補,針對異常值使用均值濾波進行值替換,之后將數據集D按7∶3的比例劃分為訓練集D1和測試集T1,D1∈Rl×m,其中l表示訓練集D1的樣本數大小,m表示特征變量的個數。
(2)輸入特征提取。對訓練集D1中的單個樣本,隨機打亂n次并保存為一個二維矩陣,所有樣本對應產生二維矩陣的集合Matrix。使用二維矩陣集合Matrix訓練單個一維卷積神經網絡Conv 和其連接的線性層Linear。其中Conv 的輸入通道數即為打亂次數n次,輸出通道數設為1,調整卷積的核大小和步長使之輸出向量大小為m/2,其連接的線性層Linear 的輸出為1,即下一時刻的溢流粒度。當卷積神經網絡Conv和線性層Linear訓練完成后,僅使用預訓練的卷積神經網絡Conv 產生的中間向量,其包含的m/2 個特征作為改進深度森林模型的輸入。
(3)設定訓練參數。設定深度森林回歸模型中的一些初始參數,如每個森林中決策樹的數目n,滑動窗的大小di,對應窗口大小的步長stepi和滑動次數上限limiti等。與傳統過程不同,對多粒度窗口滑動過程進行人為限制,減少了深度森林生成的時空復雜度,避免了內存溢出問題,具體設置見表1。

?
(4)多粒度窗口滑動。使用大小為di的滑動窗,分別對訓練集D1進行拆分,生成不同大小的特征向量gvi。對滑動窗di提取出來的特征向量gvi分別用于訓練隨機森林模型和完全隨機森林模型,生成2個不同的局部特征向量并連結,最終生成特征向量gi。
(5)模型生成。將上一階段中生成的特征向量gi用于訓練級聯森林,gi經過級聯森林的第ni級產生一個增廣特征向量agni,將agni和最初的特征向量連結為第i個滑動窗第n級的特征向量gni。計算特征向量gni的訓練誤差,隨著誤差逐漸降低,將當前的特征向量作為下一層聯合森林的輸入,當誤差連續3層不再降低,則終止訓練過程,確定級聯森林級數。
(6)產生預測結果。級聯森林最后一層作為評估層,計算所有森林預測的平均值,即為最終深度森林回歸預測的結果y?。
該模型對多粒度掃描的過程進行了改進。傳統深度森林對多粒度掃描產生的子樣本的全部結果進行拼接作為其輸出,針對這部分輸出,本研究利用不同的評價指標評估子樣本的預測性能,選擇性能最優的前85%子樣本拼接,作為改進的輸出結果(圖3)。改進的多粒度掃描方法可有效提高模型的預測準確性,在增強深度森林的特征學習能力的同時,避免性能較差的子樣本對模型結果造成負面影響[5]。

深度森林模型的復雜度可根據檢驗集的情況自動調整,通過設置較少的超參數,模型便可在不同規模數據集上具有優異的預測性能和較高的準確性。選擇不同的森林模型(本試驗采用隨機森林模型和完全隨機森林模型各2個),增加基模型的多樣性,提高集成學習效果。試驗中利用訓練集D1,分別對每個森林中決策樹數量(n_trees)和深度森林模型中決策樹的最大深度(max_depth)2個參數調優,具體參數取值見表2。不同決策樹的最大深度下,均方誤差MSE 隨決策樹數量變化的曲線見圖4。

?

由圖4 可見,n_trees 在0~50 時,MSE 下降速度較快;n_trees 在50~100 時,下降變緩;n_trees 大于150 時,MSE 趨 于 平 緩;綜 上,取n_trees 為150,max_depth為15時,MSE 結果較好。
改進深度森林回歸模型預測溢流粒度的初始參數設置見表3,訓練好的改進深度森林模型用來預測測試集數據。

?
在改進深度森林算法預測溢流粒度的回歸模型中,max_depth 取15,n_trees 取150,作為改進深度森林模型的初始參數。改進深度森林模型對溢流粒度分布預測的試驗結果顯示,訓練集均方誤差為0.009 71,決定系數為0.940 51,測試集均方誤差為0.010 53,決定系數為0.929 64。測試集取前100條數據,其溢流粒度分布的真實值和預測值的比較結果見圖5。

統一試驗條件下,利用決策樹、隨機森林、深度森林、改進深度森林這4種以樹結構為基礎的預測模型訓練樣本數據,并對測試集T1進行測試,預測結果見表4,預測溢流粒度絕對誤差對比見圖6。

?
使用改進深度森林算法,在深度森林的基礎上,對輸入特征進行精練,改進多粒度掃描過程,增加基模型的多樣性,提高集成學習效果。最終改進深度森林的訓練集的R2達0.940 51,MSE 為0.009 71,測試集的R2為0.929 64,MSE 為0.010 53,改進深度森林模型比決策樹、隨機森林和深度森林模型訓練集損失分別降低了23.1%、15.4%和9.51%,測試集損失分別降低了23.5%、12.8%和6.4%,預測性能較好,準確性較高。

由圖6 可見,統一試驗條件,選擇測試集前50 條數據,和決策樹、隨機森林及傳統深度森林模型相比,改進深度森林模型預測溢流粒度的絕對誤差總體較低,顯示出改進深度森林算法預測溢流粒度分布情況準確性較高。
為驗證改進模型對比其他方法的效果,試驗選取了傳統的數學模型和主流的序列預測模型,在相同的試驗條件下對比改進深度森林算法與ARIMA算法、指數平滑算法、LSTM 模型、RNN模型、Transformer模型的預測效果。預測結果見表5,預測溢流粒度絕對誤差對比見圖7。

?

由表5和圖7可知,對比數學預測方法ARIMA和指數平滑,改進深度森林模型具有較好的預測性能,而對比主流的序列預測模型,改進深度森林模型也具有一定的領先優勢。總的來說,改進深度森林算法對本身的結構過程進行了一定的優化,在多領域算法試驗對比上驗證了模型在溢流粒度預測方面的有效性。
針對礦業生產中溢流粒度的預測問題,將特征提取層引入深度森林模型中,對深度森林的多粒度窗口滑動過程進行調整,改進了多粒度掃描的過程。通過選取某選礦廠的真實生產數據進行驗證,將改進模型與多領域的傳統算法進行對比,通過試驗驗證了所提出的改進深度森林模型在溢流粒度預測方面的優異性。