郭龍,郭文文
(1.浙江浙能富興燃料有限公司,浙江 杭州 310023;2.浙江科技學院機械與能源工程學院,浙江 杭州 310023)
近年來,全球能源短缺問題日益嚴重,燃煤電廠仍將在我國的電力供應領域發揮基礎作用。2021年,中國燃煤發電量創下歷史新高,增長了8%,滿足了一半以上的電力需求[1]。結合超低排放和碳捕獲利用與儲存(CCUS)技術[2],燃煤電廠仍將提供更加低碳和環保的電力[3]。在煤炭貿易領域,發熱量是作為煤炭交易定價不可或缺的指標。高位發熱量(HHV)是動力煤最具代表性的特征之一,該定義是給定質量的煤炭在標況下完全燃燒時釋放的熱量。煤的HHV由絕熱或等溫氧彈量熱儀系統測定反應物和產物之間的焓變化來計算[4]。
自杜龍公式以來,有許多研究嘗試通過易獲取的煤炭指標來預測煤炭發熱量。然而,大多數相關研究基于對特定種類煤炭的元素分析數據得出,由于煤階和巖相成分各不相同,杜龍公式只能準確預測有限的發熱量范圍。Hosokai等人[5]對杜龍公式進行了修正,對406種具有識別結構的標準氣態有機化合物的發熱量進行了預測。Singh和Kakati[6]基于來自160個印度煤炭樣本的數據集,建立了C/H/O原子比率與HHV之間的關系模型,獲得的平均誤差在0.9%以內。Neavel等人[7]提出了一個基于66個北美煤源煤樣的經驗公式,這些相同產地煤的平均絕對誤差達0.45%。Channiwala和Parikh[8]開發了一個統一的模型,根據元素組成預測固體、液體和氣體燃料的高位發熱量,提供1.45%的平均絕對誤差。Parikh等人[9]基于工業分析,建立了相關性模型來預測煤炭發熱量,得到的平均絕對誤差為3.74%。Majumder等人[10]從印度煤的工業分析成分中獲得了HHV模型:灰分、水分、揮發份和固定碳。該模型在預測特定印度煤炭樣本集方面具有較低的平均絕對誤差,約1.46%。Komilis等人[11]根據工業和元素分析數據建立了固體廢物發熱量模型并評估了模型的性能,獲得了0.852的決定系數。
傳統的線性模型可以揭示HHV與工業分析和元素分析數據的聯系。然而,由于不同地區煤的巖相結構不盡相同,很難獲得適用于各種煤的通用模型。為了提高預測模型的準確性和泛化能力,研究人員在煤HHV建模過程中采用了新型的統計學習方法。大多數統計學習模型都是非線性模型,對大量特定輸入數據具有更好的擬合能力和預測精度。Tan等人[12]基于兩個單獨的中國和美國煤炭數據集構建了一個支持向量回歸(SVR)模型。中國和美國煤炭HHV的平均絕對誤差分別為2.16%和2.42%。Yi等人[13]提出了一系列相關性模型來預測煤炭成分,使用最小二乘回歸(LR)的廣義方法,對不同等級的煤炭進行建模分析。Ghosh等人[14]采用人工神經網絡算法(ANN)根據印度煤田原煤檢測數據訓練多層網絡,并進一步使用預測的發熱量對該煤田的煤層進行分級。
考慮到工業分析相對于元素分析的易獲得性,本研究的主要目的是利用兩種不同的統計學習算法(SVR和隨機森林)建立回歸模型,并評估它們在揭示中國典型動力煤HHV與工業分析關系的能力。目前還沒有關于隨機森林模型預測國內動力煤高位發熱量HHV的研究報道。在許多已發表的研究中,輸入數據集是從不同測量精度、不同測試環境、不同來源收集的。數據收集中的不一致會對模型精度造成一定影響。而在本工作中,數據集是從5700個煤炭樣本的統一標準測量中獲取。對采用SVR和隨機森林法的模型進行了詳細構建和測試,以評估其性能。
支持向量機(SVM)首先由Cortes和Vapnik提出[15],基于雙組分類的 SVM,將輸入向量非線性映射到高維特征空間。為了擴大SVM的應用范圍,Boser等人[16]提出了核技巧的概念,Drucker等人[17]改進了回歸問題中的算法。SVR的基本思想是找到一個分離的超平面,在數據點之間創建邊界。SVR 模型中的分離超平面必須正確分離具有最大幾何邊距的數據集,分離超平面不僅可以很好地處理高確定性的訓練數據,還可以很好地處理未知數據。如圖 1所示,考慮到非線性映射函數?(x)很難直接獲取,輸入向量空間可以通過核技巧K(x,z)=?(x)·?(z)隱式轉換為更高維空間。支持向量是距邊距邊界內分離超平面距離最近的樣本。該模型是通過用±ε(稱為ε管)懲罰分離超平面區域之外的偏差來訓練模型。給定Xi的訓練向量,回歸問題可以轉換為以下最小化問題:
約束條件:
式中:C是限制區間ε之外向量的懲罰系數。

圖1 支持向量回歸求解框架圖
ξi和ξi*是引入的松弛變量,以允許每個訓練向量的松弛大于ε。表示來自訓練數據的經驗風險。w和b分別是超平面的法向量和截距。
為了求解上述方程描述的原始優化問題,引入了拉格朗日乘子向量αi=(α1,α2,...,αN)T≥0。拉格朗日函數可以按如下方式獲得:
在Karush-Kuhn-Tucker條件下,可表示為:
求解上述對偶問題,可以得到SVR預測函數:
其中α*表示對偶問題的解,w* 和b* 表示原始問題的解。K(xi,xj)是核函數[18]。K(xi,xj)作為SVR的關鍵,使模型能夠求解非線性問題。SVR 模型中使用的內核函數表示如下:
線性核函數:
多項式核函數:
高斯核函數(RBF):
Sigmoid 核函數:
式中:γ、r和p是描述內核函數的相應參數。調查中使用的參數描述和值空間顯示在表 1 中。LSVR、PSVR、RSVR 和 SSVR 表示具有不同內核函數的 SVR 模型:即線性 SVR、多項式SVR、RBF SVR 和 sigmoid SVR。

表1 SVR模型參數描述
隨機森林是由Breiman等人[19]開發的一種集成統計學習技術,作為CART算法(分類和回歸樹算法)[20]的改進。與傳統的決策樹算法和神經網絡算法相比,RF回歸具有計算資源相對較少、預測精度更高的優勢。RF模型被認為在處理分類和回歸問題時具有較高的魯棒性和抗過擬合性,因為它可以調用數千棵CART樹[21]。
隨機森林回歸算法被視為一組回歸樹的集合。圖2顯示了RF模型預測的構建框架。如圖 2所示,一個回歸樹表示一組規則,這些規則可以從根節點連續應用于輸入數據的葉節點。隨機選擇一組輸入變量,并從原始數據集中替換以形成回歸樹。每棵樹都根據選擇分割變量 j 和平方誤差最小的分割點 s 的標準進行分割:

圖2 基于隨機森林的煤炭高位發熱量構建框架
其中y表示數據集的輸出變量。R1和R2是根據分裂變量j和分裂點s定義的兩個區域:
重復以上分割過程,直到樹停止生長。得到回歸樹模型的解是:
其中I(x∈Ri)i是索引函數:
通過組合這些樹并對每棵樹的預測求平均值,可以獲得最終預測值。
為了確定HHV預測模型參數,采用holdout交叉驗證和五折交叉驗證方法相結合。將工業分析和HHV測量實驗的數據集隨機分為訓練集和測試集。訓練集占整個數據集的65%,測試集占35%。隨后,將訓練集隨機分為5個大小相同的互不相交子集。五個子集中的一個被選為驗證集,選擇過程重復五次,并計算總平均誤差。
使用以下統計指標評估SVR和RF模型。平均絕對誤差MAE和均方誤差的計算公式[22]為:
一些國有企業會計人員職業道德意識薄弱,不能夠遵守職業規范,不能堅持原則,在利益的驅動下、在外部的壓力下采用偽造、變造、篡改、毀損會計資料,編制虛假會計賬簿、會計報表等,幫助企業、幫助經營者向外提供虛假的會計信息和經濟指標。
其中ti是測量的 HHV,yi是相應模型的預測HHV。
為了比較不同模型之間的百分比誤差,研究中還使用了平均絕對百分比誤差(MAPE):
在交叉驗證和網格搜索過程中,決定系數(R2)也用于評估模型預測的準確性:
為了了解工業分析和HHV范圍,數據集的數據分布顯示在圖3中:灰分(Ad)含量為4.17%~36.48%,揮發份(Vd)含量為21.84%~42.35%,固定碳(FCd)含量為37.41%~66.95%,HHVd為20.74 MJ/kg~31.02 MJ/kg。

圖3 工業分析及高位發熱量實測數據集分布圖
揮發份是動力煤重要的燃用指標之一。由于測量方便,在中國煤分類標準GB/T5751中,干燥無灰基揮發分(即Vdaf)與黏結指數和膠質層最大厚度等其他參數一起作為煤等級的主要指標[23]。工業分析結果的分布顯示,數據集中的動力煤的Vd含量主要集中在28%~34%的范圍內(Vdaf33%~40%),表明大多數被測煤樣品具有相似的煤炭分類。數據集中的動力煤主要為不粘煤和長焰煤,其灰分和固定碳含量的波動范圍相對較大。很明顯,灰分和固定碳(FC)含量對煤樣的高位發熱量都有顯著影響。較低的灰分和較高的固定碳含量代表較高的HHV。然而,HHV與工業分析數據之間的更深層次關聯還與煤等級及其他物理化學特性密切相關。
表2顯示了用于預測高位發熱量的SVR和RF模型的整體性能。對于測試數據集,所有構建模型的MAPE值都小于1.5%。決定系數是識別模型準確性的最常用指標之一。用于測試數據集的 R2值越大通常意味著更好的預測能力。在所有五種模型預測結果中,RF模型均表現出最佳性能,MAPE為0.96%,R2為0.943。同時,RSVR在4種SVR模型中表現出最佳的HHV預測能力,MAPE為0.97%,R2為0.943。


表2 SVR及RF模型高位發熱量預測結果統計分析
RSVR和RF模型的估計結果如圖4所示。藍色實線表示每個HHV預測的零誤差,而綠色和紅色虛線分別標識5% 和10% 的誤差線。從圖4可以明顯看出,估計結果與測量數據一致,訓練和測試數據的估計結果緊密分布在零誤差線周圍,幾乎所有數據點都位于所有模型和數據集的10% 誤差線范圍內。

圖4 不同模型動力煤高位發熱量預測結果誤差圖
對于RF模型的預測結果,測試數據點分布在零誤差線周圍的狹窄區域,這意味著它能夠更好地預測工業分析與HHV結果之間的關系。為進一步體現模型的預測能力,在測試數據誤差圖右下角繪制了測試集數據的殘差圖。在26.00~28.00 MJ/kg 的HHVd范圍內,殘差圖在零誤差線周圍顯示出更好的隨機性,這意味著該范圍內的模型可以描述有關煤炭 HHV 的大部分可預測信息。在兩側范圍內,殘差圖圍繞零誤差線不對稱,表明這些范圍內的預測能力相對較差,這可能是由于該范圍內煤樣的數據不完整和理化特征差異造成的。
如表2所示,將LSVR、PSVR、RSVR、SSVR和RF模型的性能估計與Majumder[10]和Parikh[9]提出的預測方法進行了比較。由于工業分析數據不能反映煤HHV的所有影響因素,因此HHV與工業分析結果的相關性通常對燃料來源具有更高的精度。為了進一步提高Majumder和Parikh腐蝕對中國煤炭的預測精度,Tan等人[12]修正了與中國煤炭數據集的相關性參數,提高了預測能力。改進后的Majumder和Parikh列示如下:
修正后的Majumder和Parikh的5700個國內煤炭數據的MAPE分別為2.26%和2.22%,比RSVR和RF模型高出約2.5倍;相比之下,RSVR和RF模型的R2要高得多,表明這兩種模型具有更出色的高位發熱量預測能力。
從上述性能估計來看,給定動力煤數據集,RSVR和RF模型僅通過給定工業分析數據即可較準確地預測HHV,特別是在HHVd26.00~28.00 MJ/kg和28%~34% Vd(對應Vdaf33%~40%)附近。
在ISO 11760標準:煤的分類[24]中,煤的分類方法基于三種煤特性:平均隨機鏡質組反射率以劃分煤階,無礦物質基鏡質體含量以表征煤炭巖相組成,以及灰分產量以表征煤中無機物含量,通過綜合指標可以精確地描述煤的理化性質。然而,在工業應用中,Vdaf是對煤進行分類的更加快速便捷的指標[22]。圖5顯示了中國煤炭測得的HHV百分比絕對誤差(來自Tan等人[12]的數據)與SVR和RF模型的預測之間的百分比絕對誤差的比較。值得注意的是,RSVR和RF模型在Vdaf范圍內的絕對誤差百分比都非常低,為28%~42%。在10%~28%(主要是貧煤和焦煤)和42%~58%的范圍內,該模型的絕對誤差要高得多。RF模型對各類煤的適應性和穩定性優于RSVR模型,在Vdaf=28%~42%范圍預測誤差曲線較低,這可能由于大規模訓練數據減少了測量中的偶然誤差,并盡可能地提高了預測的準確性。

圖5 SVR和RF模型對國內煤炭高位發熱量預測值與測量值誤差對比
選取澳大利亞、印度等其他地區煤源的動力煤,驗證了該模型的可用性和適用范圍。澳大利亞、印度煤炭樣本數據來自Aich等人[25](圖6)。結果還表明,RF模型在預測動力煤的HHV方面表現出色(Vdaf=33%~40%)。

圖6 SVR和RF模型對澳大利亞和印度煤炭高位發熱量預測值與測量值誤差對比
本研究對5700份動力煤樣品進行了工業分析和高位發熱量測定試驗,探討了兩者之間的關系。基于實驗數據集,構建并利用5種模型(LSVR、PSVR、RSVR、SSVR和RF)尋找最優超參數和預測模型。此外,還結合不同煤源的煤炭高位發熱量預測情況進行了比較分析,并進一步驗證了所建立模型的高位發熱量預測性能,得出以下結論:
1)從預測結果來看,RSVR和RF模型利用動力煤的數據集可以準確預測HHV,特別是在HHVd范圍為26.00~28.00 MJ/kg,Vd范圍為28%~34%(對應Vdaf33%~40%)。RSVR和RF模型在測試數據集中的平均百分比誤差分別為0.97%和0.96%。
2)所構建的模型在預測動力煤的HHV方面均表現良好(Vdaf= 33%~40%)。在無煙煤(Vdaf=0~10%)、褐煤(Vdaf=42%~60%)和貧瘦煤、焦煤(Vdaf=10%~28%)范圍內,SVR和RF模型的絕對誤差相對較高。
3)通過絕對百分比誤差比較,可以看出RF模型總體上比SVR模型表現出更好的適應性和穩定性,表明隨機森林法在預測動力煤高位發熱量方面具有廣闊的應用前景。