包國強,顧維根,穆維國,周 南,崔 森,李志強,,李妍嬌,周恩會,,4,趙躍民,,4,董 良,,4
(1.國家能源集團 新疆能源有限責任公司,新疆 烏魯木齊 830002;2.中國礦業大學 人工智能研究院,江蘇 徐州 221116;3.中國礦業大學 化工學院, 江蘇 徐州 221116;4.煤炭加工與高效潔凈利用教育部重點實驗室(中國礦業大學),江蘇 徐州 221116)
氣固流化床由于其傳熱、傳質效率高,床層穩定性好等特點,已被廣泛應用于煤化工、煤燃燒和煤炭分選等工業領域[1-3]。其中最小流化速度是流化床運行最重要參數之一。作為固定床向流化床變化的轉折點,最小流化速度是流態化領域研究的熱點。其中ERGUN和ORNING[4]提出的床層壓降方程用于預測最小流化速度應用較為普遍。
由于機器學習[5-6]預測精度較高,在學術界和工業界影響逐漸增大,并在化工領域也得到了廣泛的應用。機器學習可大幅降低模型復雜性,提高預測精度,并得到更為完善且更適用的模型[7]。在機器學習中,決策樹是一種決策支持工具,是利用樹狀圖形或模型來輔助決策[8]。隨機森林是一種相對較新的數據挖掘方法,是在分類和決策樹的基礎上發展起來,用于處理變量之間的非線性關系[9]。隨機森林算法實現簡單、精度高、抗過擬合能力強,當面對非線性數據時,適于作為基準模型[10]。
針對最小流化速度,由于實際過程中很難獲得顆粒的球形度以及床層的最小空隙率,因此,各國學者對ERGUN的方法進行了簡化處理,建立了許多經典模型[11-22]。經典模型雖能在一定程度上對最小流化速度進行預測,但模型通常是根據幾個影響因素的幾個試驗點開發,模型預測精度存在較大誤差。因此,有必要通過機器學習和數據挖掘方法,從顆粒性質(密度、粒度)與設備條件等方面綜合考慮,研究氣固流化床的最小流化速度,以系統評估對最小流化速度的綜合影響。筆者采用隨機森林驗證了其預測最小流化速度的可行性,并考察了設備參數、顆粒密度和顆粒粒度共3個影響因素在預測最小流化速度時的相對重要性。隨機森林模型的準確預測和模型背后的新見解為最小流化速度提供了全面的理解,并為流態化理論計算以及工業放大提供了指導。
諸多學者在理論分析和試驗測定的基礎上,建立了許多經驗或半經驗的關聯式計算最小流態化速度,見表1。

表1 氣固流化床中最小流化速度模型
K1、K2為學者基于最小流化速度公式Remf=
(K2+K2Ar)1/2-K1(其中,Remf和Ar分別為最小流化氣速條件下的雷諾數和阿基米德數,根據顆粒形狀和顆粒間堆積空隙率對其修正所得到的參數)。但由于研究所采用的物料不同,得到的關聯式在預測的準確性和適用性方面也不盡相同。通過整理相關文獻,考察了顆粒性質(密度、粒度)與設備條件(床體直徑)對最小流化速度的影響。最小流化速度的試驗數據見表2。由表2可得到26個輸入變量、最小流化速度的上下限,并通過箱線圖得到了特征數據的統計分布。任何2個變量之間的線性相關性由皮爾遜相關系數衡量。

表2 Geldart A類顆粒最小流化速度的試驗結果
皮爾遜相關系數r定義為
(1)

數據規范化(歸一化)處理是數據挖掘的一項基礎工作。不同評價指標往往具有不同的量綱,數值間的差別可能很大,不處理可能會影響數據分析結果。為了消除指標之間的量綱和取值范圍差異的影響,需要進行標準化處理,將數據按照比例縮放,使之落入一個特定的區域,便于進行綜合分析。作為輸入的影響因素的數據首先通過公式(2)進行數據歸一化處理:
(2)

應用隨機森林對氣固流化床的預測模型進行訓練和優化。隨機森林的實施分為以下3個子步驟[7]:① 隨機采樣,將數據集替換為多個子樣本;② 用不同的子樣本訓練決策樹,其中每棵樹根據訓練數據的自舉復制盡可能地生長,每個葉子節點輸出節點中所有標簽值的平均值;③ 最后通過對所有樹的性能進行平均,獲得最終估計值。將全部數據隨機分為訓練組和測試組,比例為70∶30。隨機森林模型的5個調諧參數包括決策樹的數量、尋找最佳分割時要考慮的特征數量、樹的最大深度、分割內部節點所需的最小樣本數量以及位于葉節點所需的最小樣本數量。決定系數也稱為擬合優度,用于評價擬合的好壞,決定系數越高,代表可以被解釋的程度越高,回歸模型的效果越好。使用決定系數[30-31]可在測試集上評估模型的性能。
決定系數定義為
(3)

超參數是用訓練組的數據通過網格搜索算法確定的。對決策樹的數量應用循環語句,通過10倍交叉驗證找到最佳超參數,衡量指標是決定系數,然后使用最佳參數重新訓練模型,并用剩余的30%數據進行測試。通過網格搜索算法,分割最小數量、樹的最大深度、節點內最小樣本數量、最小子葉節點數分別為2、10、2、1。決策樹的數量取每10個數作為一個階段,來觀察決定系數的變化,通過運行網格搜索算法,結果如圖1所示,當決策樹的數量達到151時,決定系數最高。

圖1 決定系數與決策樹數量關系Fig.1 Relation diagram between decisioncoefficient and decision tree quantity
部分相關圖和相對重要性分數用于解釋影響變量的重要性。FRIEDMAN[32]為了理解預測對每個影響變量的依賴性質,引入了部分依賴圖。通過選擇影響變量的多個值,使用其他影響變量的所有情況下的每個值預測輸出,然后計算所有情況下的平均輸出,可以獲得部分相關圖。單個隨機森林中影響變量的相對重要性分數可以通過由該影響變量確定的所有分割平方改進總和來獲得[33]。
根據收集的數據集,獲得了特征數據的箱線圖統計分布,如圖2所示。設備條件(床體直徑)、顆粒性質(密度、粒度)以及最小流化速度的數值分布變化范圍和離散幅度較大,且不同特征變量的數量級相差較大。其中,床體直徑變化在3.5~20.0 cm;顆粒密度變化在1 150~4 600 g/cm3;顆粒粒度變化在20~143 μm;最小流化速度變化在0.10~0.87 cm/s。綜上可知,各變量數據值極差較高,對預測模型的魯棒性具有一定的挑戰。為了進一步分析收集的數據集各個特征變量間的相互關系,對各個變量進行了皮爾遜相關系數分析,相關系數R的絕對值越大,特征之間的相關性越大。收集特征變量間相關性矩陣熱圖如圖3所示。由圖3可知,最小流化速度與顆粒粒徑、顆粒密度和床體直徑均呈正相關,相關系數分別為0.79、0.31、0.14。顆粒粒徑對其影響最大,顆粒粒徑增大,最小流化速度也隨之增大。應用機器學習方法建立了一個高質量的預測模型,并探討了各影響因素的相對重要性以及輸入變量之間的相互作用。

圖2 收集特征變量的箱線圖Fig.2 Box plot for collecting characteristic variables

圖3 收集特征變量間相關性矩陣熱圖Fig.3 Collect the heat map of correlation matrixbetween characteristic variables
隨機森林算法的超參數與最佳模型相對應,通過10倍交叉驗證,分別用于對不同輸入變量的最小流化速度預測模型的再訓練。開發模型的性能如圖4所示。圖4(a)顯示了最佳隨機森林模型在測試集上預測的最小流化速度預測值與試驗值的對比結果,圖4(b)顯示了最佳隨機森林模型在測試上獲得了最大決定系數0.875,實現了較低的損失和較高的決定系數。因此,最佳隨機森林模型可以很好地推廣到測試集上,最佳隨機森林模型在預測最小流化速度方面較為準確。

圖4 測試集上最佳隨機森林模型的性能Fig.4 Performance of the optimal random forest model on the test set
床層直徑、顆粒密度和顆粒粒度的數值作為因素特征用于最小流化速度預測,評估了各因素對最小流化速度的相對重要性。如圖5所示,所有重要性分數的總和被定標為1,各特征因素的重要性由大到小依次為:顆粒粒徑、顆粒密度和床體直徑。該排序與文中各個變量的皮爾遜相關系數分析的相關性結果一致。顆粒粒徑的重要性得分為0.783,成為最小流化速度最敏感的變量,超過了顆粒密度的權重,遠超過了床體直徑的權重。床體直徑的重要性得分為0.018 78,對最小流化速度的影響較小。顆粒粒度對最小流化速度的影響最大,而床體直徑影響最小,該結論與付芝杰[34]的研究結論相符。

圖5 影響變量的重要性得分Fig.5 Importance score of the influencing variables
在確定了每個輸入特征變量的相對重要性之后,需要更好地理解輸入變量和輸出變量之間的依賴關系。一般來說,當一個影響變量發生變化時,輸出響應越大,該影響變量就越顯著。此外,通過分析輸出隨該影響變量的變化,可以觀察到影響變量和輸出變量之間呈正相關或負相關。通過對所有特征的值進行平均,部分相關圖被用于可視化某1個或2個特征對最小流化速度的總體影響趨勢。單向部分依賴性的結果如圖6所示,其中x軸上的刻度表示目標特征值的分形,反映了數密度。由圖6可知,顆粒粒度對最小流化速度的影響呈近似線性上升,但斜率隨著粒徑的升高而逐漸減小,如圖6(a)所示。顆粒密度對最小流化速度的整體影響線性上升波動較低,顆粒密度在1 150~4 600 g/cm3時,斜率隨著密度的升高而幾乎保持不變,如圖6(b)所示。床體直徑對最小流化速度的影響最小,其依賴性為近似水平的直線,如圖6(c)所示。部分相關圖和影響變量的相對重要性分數揭示了重要的發現,并指出最小流化速度預測的研究潛力。

圖6 預測最小流化速度的最佳隨機森林模型中特征變量的部分相關圖Fig.6 Partial correlation diagram of characteristic variables in an optimal random forest model for predicting the minimum fluidization rate
1)利用隨機森林的機器學習方法,從床層直徑、顆粒密度和顆粒粒度3個方面預測了氣固流化床的最小流化速度。最小流化速度與顆粒粒徑、顆粒密度和床體直徑均呈正相關,皮爾遜相關系數分別為0.79、0.31、0.14,顆粒粒徑與最小流化速度相關性最強。
2)通過網格搜索算法,得到了最佳隨機森林模型,并在測試上獲得了最大決定系數0.875,實現了較低的損失和較高的決定系數。
3)通過部分相關圖和影響變量的相對重要性分數分析,得知顆粒粒徑對氣固流化床的最小流化速度的變化起主要作用。同時,得到了各特征因素對最小流化速度的影響方式,同時驗證了收集特征變量間的皮爾遜相關系數分析的正確性。