李盛冬 倪明輝 許 斐 韋 祎 李 燕*
(1.國能南京煤炭質量監督檢驗有限公司,南京 210031;2.南京理工大學 化學與化工學院,南京 210094)
煤炭在未來相當長一段時間內仍將是我國使用量最大的燃料能源,煤炭的清潔高效利用是中國低碳經濟的關鍵,快速煤質分析技術則是保障煤炭資源有效利用的必要前提。傳統的煤質分析主要靠離線實驗室化驗分析,過程耗時較長,滯后性嚴重,不利于對鍋爐燃燒提供實時指導。而已有的快速檢測技術存在種種問題而不實用,如:X射線熒光光譜法不能檢測原子序數小于11的輕元素,γ射線中子活化法存在中子輻射危害,嚴重影響操作人員的健康,且維護成本高等問題。激光誘導擊穿光譜(Laser-Induced Breakdown Spectroscopy,LIBS)技術具有無需制樣、對樣品損傷小、多元素同時分析、檢測速度快等優點[1-2],在煤中元素含量和工業指標分析中受到了廣泛關注[3]。
偏最小二乘回歸(Partial Least Square Regression,PLSR)是LIBS定量分析中應用較為廣泛的一種建模方法,在LIBS光譜煤元素含量分析和工業指標分析中得到了廣泛重視[4-5]。該算法相比于其他多元線性回歸方法,很好地解決了由于樣本點數過少導致的回歸難題或變量之間存在多重相關性的問題。因此,本文選擇PLSR用于煤的LIBS光譜定量分析,綜合考慮了以下兩點因素:1)基體效應、隨機噪聲、光譜干擾和自吸收的影響,可以在光譜矩陣分解提取中得到消除;2)PLSR適合于樣本數量較少的情況[6]。
由于受到實驗儀器性能波動和環境因素的影響,實際測得的光譜數據通常會有較大的波動,甚至出現一些異常值,影響光譜數據的穩定性。此外,LIBS系統實驗參數的不穩定性,樣品表面形態的不規則,采樣時間延遲等因素的存在,不可避免地導致LIBS光譜中產生連續背景噪聲,從而引起基線漂移,嚴重影響光譜定量分析的精度。因此,本文研究了基于馬氏距離(Mahalanobis Distance,MD)的異常值剔除算法和基于稀疏矩陣技術的基線估計與降噪算法(Baseline Estimation And Denoising using Sparsity,BEADS)在改善光譜信號質量中的作用,該方法在一定程度上提高了PLSR模型的預測性能。
激光誘導擊穿光譜的工作原理是使用高能量的激光光源聚焦后打在煤餅表面,形成高溫、高密度的等離子體,等離子體以光的形式向外輻射能量,通過光譜儀即可采集到包含多種元素特征譜線的光譜信號。理論上來說,元素的特征譜線強度與其含量成正比,而煤的熱值、灰分、揮發分等工業指標與特定元素的含量也具有相關性,因此利用數學分析模型進行光譜數據的分析處理,即可實現煤質工業指標的快速檢測。
圖1所示為LIBS測量裝置示意圖,該系統主要由高能脈沖激光器、多通道光纖光譜儀、光學組件、樣品承載平臺和計算機等組成。其中,激光器的脈寬6 ns,工作波長為1 064 nm,激光能量0~100 mJ可調,激光工作頻率為1~10 Hz,激光聚焦斑點直徑為50~800 μm;多通道光纖光譜儀的最小積分時間為1.05 ms,延遲時間可調。樣品置于自動控制的樣品步進位移平臺上,通過計算機設置好運動軌跡,可使激光每次打在樣品表面的不同位置處,一定程度上消除背景噪聲的影響。等離子體光信號通過側向45 °布置的光纖探頭收光,再傳輸到多通道光譜儀,光譜數據通過USB傳輸至計算機。

圖1 LIBS煤質分析測量裝置示意圖Figure 1 Schematic diagram of the LIBS coal analysis instrument.
綜合考慮信噪比、光譜強度等對實驗參數進行了優化,優化的實驗參數為:激光能量100 mJ,延遲時間1 μs,激光工作頻率3.3 Hz,聚焦斑點直徑500 μm。對于每個樣品,共采集324個點的光譜數據,并將其平均后光譜作為該樣品的原始光譜數據。
共測試20個煤樣,分別將煤樣研磨為200 μm粒徑的煤粉,將約3 g粒徑為200 μm的煤粉放入直徑為30 mm的模具中,利用電動液壓壓片機在277 MPa下壓制成煤餅,使樣品表面平整。所用煤樣的灰分含量如表1所示。將20個煤樣分為訓練集和測試集兩組,選取#15、#16、#17、#18、#19、#20這六個樣品作為測試集,其余14個樣品為訓練集。

表1 20種煤樣品的灰分含量Table 1 Ash content of 20 coal samples
采用以下指標評估PLSR模型性能:1)擬合度(R2);2)均方根誤差(RMSE);3)預測均方根誤差(RMSEP),這是從整理上評價模型的性能;4)平均絕對誤差(MAE);5)平均相對誤差(MRE),這是從單次測量上評價模型預測的精度。計算公式見式(1)~(5):
(1)
(2)
(3)
(4)
(5)

在LIBS分析中,通過多次測量數據的平均處理時較為常用和簡便的手段和方式,但均值處理只能削弱異常值的干擾,且次數過多會增加測量的成本和時間,通過異常值剔除可以有效提高數據的穩定性。馬氏距離(MD)基于多元正態分布理論,考慮了多種因素的相互作用,不受量綱、單位的影響,是進行異常值剔除的一種有效方法[7-8]。
馬氏距離計算公式如式(6)所示:
(6)
式中,d為各次激發光譜Y與樣品平均光譜μ的馬氏距離;Y為單次激發的光譜數據矩陣;μ為參考光譜平均值,本實驗以自身多次激發的光譜為參考;Σ為參考光譜的協方差矩陣。
通常光譜去噪算法也可用于實現光譜的基線校正,如小波變換法、多項式擬合法、中值濾波法等,但這些基線校正算法原理都較為復雜,計算量大,且受到參數影響較大。本文采用NING等[9]提出的一種基于稀疏矩陣技術的基線估計與降噪算法(BEADS)進行基線校正處理。該算法計算效率高,適用于范圍較廣的光譜數據。
BEADS算法將信號Y同時分解為三種貢獻[10]:
Y=[y1,y1,…,yn]=c+b+e
其中c、b、e參考了BEADS計算得到的稀疏光譜圖、基線向量和噪聲向量,它們依賴于一組工作參數p。工作參數是指截止頻率(fc,由基線和其他貢獻之間的邊界構成)、不對稱(r,懲罰負值)和正則化參數(λ0,λ1和λ2,控制向量c的稀疏性)。另一個參數是振幅(A),它乘以正則化參數;因此,正則化參數實際上是A×λi,這使得λi參數之間的比率與它們的大小無關。BEADS計算系統提供結果的質量在很大程度上取決于工作參數的正確選擇,特別是截止頻率,它對返回基線有重大影響。
煤的灰分是一項在煤質特性分析和研究中起到重要作用的指標,其含量越高,有效碳的含量就越低[11]。煤的灰分構成較為復雜,主要由礦物質構成,通常以氧化物的形式表示,如Al2O3、SiO2、Na2O、K2O、CaO、MgO、Fe2O3,因此在對灰分進行定量分析時選擇與灰分相關的礦物元素的特征譜線作為灰分含量定標模型的輸入變量。最終選定Si、Al、Fe、Na、Mg、K、Ca、Ti、Li這9種元素的譜線強度對煤中灰分進行回歸分析。通過與美國國家標準與技術研究院(NIST)的原子光譜數據庫(ASD)進行譜線波長的比對,對以上元素的特征譜線進行選擇,如表2所示。

表2 煤中元素特征譜線Table 2 Characteristic spectral lines of coal elements
首先使用馬氏距離剔除異常數據。分別計算各樣品的單次激發光譜與樣品平均光譜之間的馬氏距離,通過馬氏距離的大小判斷與總體情況差異較大的數據,同時考慮避免過度剔除造成信號失真,設置閾值將后100個數據予以剔除,保留70%的數據。分別計算特征譜線的絕對強度值在多次測量中的相對標準偏差(RSD)和平均絕對強度的變化情況。
圖2所示為Fe(259.939 6 nm)譜線在異常值剔除前后的相對標準偏差RSD。可見,在利用馬氏距離法進行異常值剔除后,譜線的RSD大大降低。

圖2 異常數據剔除前后Fe(259.939 6 nm)譜線強度RSD比較Figure 2 RSD comparison of Fe(259.939 6 nm) spectral line intensity before and after removing abnormal data.
將馬氏距離應用于其他譜線的異常數據剔除,結果如圖3所示。

圖3 #3煤樣數據剔除前后各譜線強度RSD比較Figure 3 RSD comparison of spectral line intensity before and after data elimination of #3 coal sample.
從圖2可以看出,Fe的特征譜線強度RSD的均值從22.63%降低至11.48%。圖3也顯示出,經過馬氏距離剔除異常數據后,#3煤樣的23條元素譜線強度RSD都大幅度下降,平均降低幅度為6.29%,這說明經過馬氏距離剔除異常數據后,元素特征譜線強度的穩定性有了很大的提高。
之后使用BEADS算法對煤樣光譜圖進行基線修正和降噪處理,結果如圖4所示。可見,經基線修正后,明顯改善了多通道光譜儀中不同通道光譜信號的基線漂移情況。

圖4 #1煤樣光譜基線校正前后對比Figure 4 Comparison of #1 coal spectra before and after spectral baseline correction.
分別將20個煤樣的光譜數據直接作均值處理和上述的預處理,之后選擇上述的23條特征譜線的強度作為自變量矩陣,相應的灰分含量作為因變量矩陣。
主成分個數的選取對于偏最小二乘回歸模型的效果有著關鍵影響,如果選擇的主成分個數過少,就不能充分利用樣品信息,導致擬合效果較差;若是選擇的個數過多,則會將一些噪聲信息加入到模型中,造成過擬合問題,使得模型的預測性能大大降低。本文采用留一交叉驗證法(Leave One Out Cross Validation,LOO-CV)來檢驗模型內部穩健性和擬合效果,利用交叉驗證均方根誤差(Root Mean Square Error of Cross Validation,RMSECV)確立最優主成分個數,RMSECV越小,表明PLSR模型對訓練集數據的擬合效果越好,計算公式見式(7):
圖5為原始數據和預處理后數據得到的RMSECV結果,從圖中可知最佳主成分個數分別為7和8。

圖5 交叉驗證均方根誤差與主成分個數關系Figure 5 Relationship between RMSECV and the number of principal components.
根據最佳主成分個數建立偏最小二乘模型。圖6和圖7分別是對原始數據和作預處理后數據的偏最小二乘回歸預測結果,從中可以看出,通過馬氏距離剔除和基線校正,訓練集的擬合度(R2)從0.974 0提高到0.984 1,均方根誤差(RMSE)從0.961 3降低到了0.752 7,這表明基于數據預處理可以一定程度地提高偏最小二乘擬合結果的準確性。分別用其模型預測測試集的煤樣灰分值,預測均方根誤差(RMSEP)從2.273 1降到2.001 7,模型的預測性能得到了一定的提升;同時平均絕對誤差(MAE)和平均相對誤差分別從1.974 7和0.109 4降低到1.557 2和0.075 7,表明單次測量精度也有所提高。

圖6 基于原始數據的PLSR灰分預測模型Figure 6 Ash prediction results from PLSR based on raw data.

圖7 基于預處理后數據的PLSR灰分預測模型Figure 7 Ash prediction results from PLSR based on pre-processed data.
灰分含量是影響煤炭質量的關鍵工業指標,灰分的準確檢測對煤炭的清潔高效利用具有重要意義。采用LIBS技術結合PLSR回歸模型,應用于煤中灰分的快速準確檢測是一種快速實時的檢測手段。然而,對于多幅光譜數據,常用的均值處理方法不能完全降低譜線強度的波動性,本文通過使用馬氏距離進行異常數據剔除后,再結合基于稀疏矩陣技術的基線估計與降噪算法進行譜圖降噪處理,可以有效去除光譜中的噪聲和異常值,提高譜線強度的穩定性。經過處理后,定標樣品的擬合度(R2)從0.974 0提高到0.984 1,均方根誤差(RMSE)從0.961 3降低到了0.752 7,預測均方根誤差(RMSEP)從2.273 1降到2.001 7,模型的總體性能得到了一定的提升;同時平均絕對誤差(MAE)和平均相對誤差亦都降低,表明單次測量精度也有所提高。作為一種有效的數據預處理方法,此算法可用于復雜光譜數據的異常值剔除和光譜降噪,有利于提高定量分析模型的預測精度。