李敬巖, 褚小立, 陳 瀑, 田松柏
(中國石化 石油化工科學研究院, 北京 100083)
?
光譜自動檢索算法在快速建立汽油光譜數據庫中的應用
李敬巖, 褚小立, 陳 瀑, 田松柏
(中國石化 石油化工科學研究院, 北京 100083)
首先采用聚類分析方法將某石油化工企業(yè)汽油樣本進行適當分類,然后采用光譜庫自動檢索算法,從RIPP汽油庫中有針對性地找到一定量的汽油樣本作為校正集,建立汽油重要性質的分析模型。近紅外分析方法結合偏最小二乘法具有測量快速、操作簡單、無需預處理、重復性好等優(yōu)點。建立的校正模型對該石油化工企業(yè)汽油樣本的辛烷值、烯烴含量和芳烴含量的預測標準偏差分別為0.3、1.6%和1.0%,滿足快速分析要求。
汽油; 偏最小二乘(PLS); 近紅外光譜(NIR); 庫檢索; 聚類分析
光譜定量分析是一種新興的、快速的分析技術,將其與化學計量學和計算機技術結合,可以對研究對象進行快速定量。近年來,紅外、近紅外光譜(NIR)技術與多元分析方法的結合在各個領域[1-2]都取得了長足發(fā)展。石油及石油化工產品以烴類為主,產品的性質大多取決于其組成,這是紅外光譜分析技術可以用于石油及石油化工產品性質預測的基礎。紅外、近紅外光譜技術具有操作簡單、精密度高、分析速度快等優(yōu)點,非常適合原油及油品的定量和定性分析[3],如汽油辛烷值[4]、烴族組成、生物柴油主要成分[5]等。采用該技術進行油品快速分析的核心是建立穩(wěn)健的定量校正模型。建模常用的線性校正方法有多元線性回歸[6](MLR)、偏最小二乘(PLS)[7-9]等。
國外許多煉油廠均采用汽油管道調合優(yōu)化技術,并取得了明顯的經濟效益。而所有的在線分析技術中近紅外光譜技術是應用最廣泛的一種[10-11],只有極少數采用了在線拉曼或在線核磁技術。據統(tǒng)計,有95%以上的汽油調合裝置采用近紅外光譜技術。中國石化石油化工科學研究院(簡稱RIPP)汽油庫中汽油樣本數量多,有近千個,直接用來建立汽油性質校正模型不一定適合特定的石油化工企業(yè),需要建立與石油化工企業(yè)汽油樣本特征類似的小型樣本庫,以達到針對性建模的目的。筆者利用庫檢索算法從RIPP汽油數據庫中尋找與某石油化工企業(yè)類似的汽油樣本,建立小庫并研究了樣本庫大小即校正集樣本數量對預測結果的影響,從而快速建立汽油評價模型,得到一種簡捷的優(yōu)化生產決策及時獲得評價數據的方法。
檢索相似樣本的策略可以是以某石油化工企業(yè)汽油樣本為目標進行逐個檢索,但檢索速度慢,且不一定具有代表性。從大庫進行檢索計算之前首先將石油化工企業(yè)汽油樣本進行聚類分析,進而以此類中心檢索大庫中的相似樣本,這樣可保證檢索出來的RIPP大庫樣本的類別與某石油化工企業(yè)汽油樣本的類別相似。
1.1 汽油樣本
收集了905個成品汽油,其中90#汽油223個,93#汽油405個,97#汽油277個,有研究法辛烷值(RON)數據的樣本905個,有抗爆指數數據的樣本670個,有烯烴和芳烴組成數據的樣本668個。研究法辛烷值數據是扣除添加劑影響后的結果。成品汽油樣本的收集時間為2007年10月~2015年10月。
某石油化工企業(yè)需使用近紅外光譜儀進行數據庫的建立和預測汽油性質的工作。因此從該石油化工企業(yè)收集兩個批次,共計36個典型汽油樣本,辛烷值范圍92.2~98.6,收集時間為2013年7月~2014年9月。
1.2 儀器及光譜采集
采用Thermo Antais Ⅱ傅里葉變換近紅外光譜儀采集汽油樣本的近紅外光譜。測量附件包括透射樣品室,帶聚乙烯塞一次性透明1 mL圓筒玻璃小瓶(35 mm×7.8 mm)、光程6.5 mm。用空玻璃小瓶進行背景測量;光譜分辨率8 cm-1,累計掃描128次,光譜采集范圍3500~10000 cm-1。
1.3 數據處理
將采用標準方法測得的汽油紅外光譜及其辛烷值、烯烴含量和芳烴含量數據通過“RIPP化學計量學軟件3.0”進行編輯,生成標準矩陣式光譜數據庫。所用的庫檢索、定量校正等化學計量學方法均采用MATLAB 8.0編寫,程序運行平臺為ThinkPad T440p,i5(2.50 GHz),4 GB RAM。
1.4 PLS算法原理
偏最小二乘方法在分解光譜陣X時考慮到濃度陣Y的影響,因此對X陣和Y陣同時進行分解,分別得到對應的得分矩陣T和U以及載荷矩陣P和Q,然后將T和U進行回歸,B為回歸系數矩陣,表達式如式(1)、(2)所示。
U=TB
(1)
B=(TTT)-1TTY
(2)
在預測時,首先得到待測樣品光譜陣Xun的得分Tun,然后根據式(3)得到其預測值。
Yun=TunBQ
(3)
汽油樣本將被分為校正集和預測集,所得到的模型通過校正標準偏差(SECV)和預測標準偏差(SEP)來評價。校正標準偏差和預測標準偏差由式(4)、(5)計算。
(4)
(5)
式(4)、(5)中,m、n分別為預測集和校正集的樣本數;yi,predicted為交互驗證預測值;yi,actual、yj,actual分別為采用標準方法得到的校正集樣本和預測集樣本的實測值,yj,predicted為近紅外光譜預測值。
1.5 聚類分析原理
聚類分析(Clustering analysis)是一種典型的無監(jiān)督模式識別方法,利用多維空間中相似的樣本彼此的距離小、不相似的樣本間的距離大的原理,將相似的樣本“聚”在一起,從而達到分類的目的。在眾多的聚類分析算法中,K-均值聚類方法需要事先確定類數k,將待聚類的樣本分為k類,使所要聚類的所有樣本到其聚類中心的距離平方和最小。
1.6 光譜檢索方法
光譜檢索的目標是,對于待測樣本的光譜x,使用一定的算法和規(guī)則,從光譜庫R中找出與x最相近的一個或多個樣本。為了得到滿意的檢索結果,在檢索前往往需要對光譜進行必要的預處理和特征選擇。預處理方法包括矢量歸一化、導數、標準化、傅里葉變換等,特征選擇可根據數學方法或化學知識找出信噪比高、特征性強、受外界影響小的一段光譜區(qū)間或多段區(qū)間的組合[12]。
本研究采用距離算法。這種算法的基本原理是兩個樣本的光譜越相近,則兩者之間的距離越短。光譜之間的距離有多種形式,其中最常用的是歐氏距離,也稱為最小二乘距離。待測樣本光譜x與光譜庫中第j個樣本光譜rj之間的歐氏距離可由式(6)表示。
(6)
2.1 光譜預處理及參數選擇
建立校正模型前,需要選擇特征性強、重復性好的光譜區(qū)間,剔除因為吸收過高、非線性現象嚴重而無法利用的光譜區(qū)間。經優(yōu)化后最終選擇波數范圍為6150~8850 cm-1的區(qū)間作為最終建模選擇的光譜范圍。在建立校正模型前需要對光譜進行預處理,一般使用微分處理以消除溫度、樣品顏色、基線漂移等因素的影響,并經歸一化處理,從而實現離散波長光譜的基線漂移校正。
校正集的光譜經預處理后采用偏最小二乘方法分別建立研究法辛烷值、烯烴含量和芳烴含量的校正模型, 由留一法交互驗證所得的預測殘差平方和(PRESS值)確定PLS所用的最佳主因子數。
2.2 聚類分析
2.2.1 樣本的空間分布
將RIPP汽油庫樣本與某石油化工公司汽油樣本進行主成分分析,取前2個主因子作圖,第1主因子為橫坐標,第2主因子為縱坐標,如圖1所示,圖1中紅色數據點為RIPP汽油庫樣本的,藍色數據點為某石油化工公司汽油樣本的。從圖1可以看出,RIPP汽油樣本可明顯分為3類,距離某石油化工公司汽油樣本較遠的RIPP汽油樣本不宜作為建模的樣本。得到樣本的分類后,還需將某石油化工公司汽油樣本進行聚類分析,得到合適的類中心,以此作為選擇RIPP庫樣本的依據。
2.2.2 未知樣本的分類
依據樣本間聚類進行分類,分類算法為K-mean方法,該方法分類前需指定分類數。通過高斯混合模型法給出最優(yōu)分類數為4。
某石油化工企業(yè)汽油樣本按4分類結果如圖2所示,縱坐標為分類數,橫坐標為分類效果,其值越高說明分類效果越好。從圖2可以看出,該石油化工企業(yè)的汽油樣本可以很好地分為4類。得到分類結果后,將以此4類的類中心為目標檢索出相似的RIPP汽油樣本。

圖1 RIPP汽油庫樣本與某石油化工公司汽油樣本的空間分布Fig.1 Space distribution of gasoline samples from RIPP and the petrochemical enterprise RIPP sample; The petrochemical enterprise

圖2 某石油化工公司汽油樣本4分類結果Fig.2 Classification of four types for gasoline samples from the petrochemical enterprise
2.3 相似樣本檢索
得到某石油化工公司汽油樣本分類結果后,計算每類的中心,再計算RIPP汽油庫中的樣本與這4個類中心的歐式距離;每類取最相近的N個樣本并剔除重復樣本,最終檢索出M個汽油樣本,如圖3所示。圖3中紅色數據點為N=100時檢索出的RIPP汽油庫相似樣本,藍色數據點為某石油化工企業(yè)汽油樣本。檢索出的RIPP汽油樣本將作為校正集分別建立汽油辛烷值、烯烴含量和芳烴含量的校正模型。按不同N值檢索出4組樣本,每組樣本的數量列于表1,4#庫包含了RIPP汽油庫的所有樣本。由表1可見,1#庫最小,只有185個樣本。
2.4 校正集樣本的訓練
將經過變量選擇后的光譜區(qū)間進行一階微分處理,處理后的光譜數據形成吸光度矩陣(X),相應汽油樣本用標準方法測定辛烷值、烯烴含量和芳烴含量等分別構成濃度矩陣(Y),然后用PLS法分別建立汽油物性的校正模型。筆者采用交互驗證選取最佳主因子數,交互驗證采用留一法,通過交互驗證的預測殘差平方和與主因子數作圖即通過PRESS圖確定最佳主因子并建立校正模型。偏最小二乘建模參數列于表2。由表2可見,對于2#樣本庫,當主因子數為7時,RON模型PLS交互驗證SECV達到最小并趨于穩(wěn)定,因此通過交互驗證所得的預測殘差平方和確定辛烷值PLS模型最佳主因子數為7,R2為決定系數,其絕對值越接近1說明預測結果越好。從汽油辛烷值的模型結果可以得出,相關系數R2為0.96,交互驗證得到的校正標準偏差(SECV)為0.3;汽油烯烴含量的校正標準偏差為1.2%,相關系數R2為0.98;汽油芳烴含量的校正標準偏差為1.0%,相關系數R2為0.96,基本滿足了快速分析和過程分析的要求。

圖3 RIPP汽油樣本庫中與某石油化工企業(yè) 汽油樣本相似的樣本Fig.3 The gasoline samples from RIPP similar to the gasoline samples of the petrochemical enterprise RIPP sample; The petrochemical enterprise表1 RIPP不同汽油樣本庫大小Table 1 Gasoline samples scale in different sets from RIPP

No.NSamplingscale1#501852#1003563#2006284#—905
N—Number of samples retrieved per class

表2 表1中2#樣本庫PLS模型參數Table 2 PLS model parameters for 2# set in Table 1
2#庫汽油辛烷值、烯烴含量和芳烴含量的訓練結果如圖4所示,其中橫坐標為實測值,縱坐標為近紅外方法預測值。從圖4可以看出,辛烷值、烯烴含量和芳烴含量的實測值和近紅外方法預測值有很好的相關性。

圖4 汽油辛烷值、烯烴質量分數和芳烴質量分數的 NIR預測值與實際值Fig.4 Experimental values and NIR prediction values for RON, mass fraction of olefin and aromatics of gasoline samples NIR—By NIR prediction; Ref—By reference method(a) RON; (b) Mass fraction of olefin; (c) Mass fraction of aromatics
4個含有不同數量RIPP汽油樣本的數據庫建立校正模型的建模效果如圖5所示。從圖5可以看出,當選擇2#庫即校正集樣本數量為356時,模型的SECV最小;以2#庫為校正集建模預測某石油化工企業(yè)汽油樣本的SEP也是最小,因此2#庫為最具有針對性的樣本庫。1#庫和3#庫建模效果都不佳,原因是1#庫樣本較少,缺乏代表性,3#庫樣本量過多,含有與某石油化工企業(yè)汽油樣本差異大的樣本。
2.5 預測分析
為了驗證NIR方法測量汽油辛烷值、烯烴含量和芳烴含量的準確性,以某石油化工企業(yè)36個汽油含量樣本作為驗證集,用建立的校正模型對驗證集的36個樣本的辛烷值,烯烴含量和芳烴含量進行預測,結果列于表3。由表3可見,汽油辛烷值,烯烴含量、芳烴含量的預測標準偏差(SEP)分別為0.3、1.6%、1.0%。因此,使用PLS算法結合NIR自動檢索算法建立小庫預測汽油辛烷值、烯烴含量和芳烴含量完全可行,預測結果基本滿足了快速分析和過程分析的要求。

圖5 表1中4個汽油樣品庫的建模效果Fig.5 Effect of modeling for 4 gasoline sample sets in Table 1(a) SECV; (b) SEP表3 NIR方法與標準方法測定的汽油辛烷值、烯烴質量分數和芳烴質量分數結果對比Table 3 Comparison between NIR prediction values and reference values of RON, mass fractions of olefin and aromatics of gasoline

SampleIDRONNIRRONRefDeviationw(Olefin)NIR/%w(Olefin)Ref/%Deviation/%w(Aromatics)NIR/%w(Aromatics)Ref/%Deviation/%192.792.40.310.710.7037.337.8-0.5296.296.00.29.78.41.339.740.6-0.9392.993.6-0.712.612.30.336.536.10.4495.795.709.211.6-2.437.638.0-0.4595.695.7-0.19.211.6-2.437.738.0-0.3696.095.70.39.88.61.239.139.00.1798.698.9-0.37.87.70.139.339.10.2892.892.40.410.611.1-0.537.838.5-0.7992.792.40.310.711.1-0.437.238.5-1.31092.892.70.110.611.4-0.837.737.9-0.21195.595.8-0.38.47.41.038.836.22.61293.093.0010.012.2-2.238.638.601392.692.7-0.110.68.12.536.637.3-0.71498.098.7-0.76.57.6-1.139.739.50.21595.595.8-0.3——————1692.392.00.39.87.12.735.836.7-0.91792.292.00.29.97.12.835.636.7-1.11895.395.6-0.3——————1994.794.8-0.18.36.32.035.136.2-1.1

續(xù)表3
(1)可通過向RIPP汽油庫檢索足夠的樣本的方式,針對具體石油化工企業(yè)汽油樣品建模,用于汽油辛烷值、烯烴含量和芳烴含量的預測。
(2)使用類中心的檢索策略可大大縮短建模所耗時間。
(3)用來建模的樣本數量需要優(yōu)化,本研究中使用含356個樣本的小庫建模效果最佳。
(4)P LS方法可以準確預測汽油辛烷值、烯烴含量和芳烴含量,校正標準偏差分別為0.3、1.2%和1.0%,預測標準差分別為0.3、1.6%和1.0%,均接近于標準方法的誤差要求,且測量快速、操作簡便,在一定場合可以替代標準方法用于汽油的快速分析。
[1] LIU F, ZHANG F, JIN Z L, et al. Determination of acetolactate synthase activity and protein content of oilseed rape (Brassica napus L.) leaves using visible/near infrared spectroscopy[J].Analytica Chimica Acta, 2008, 629(1-2): 56-65.
[2] KEMENY G J. Handbook of Near-Infrared Analysis[M]. New York: Marcel Dekker, 2001: 1-6.
[3] 褚小立, 許育鵬, 陸婉珍. 用于近紅外光譜分析的化學計量學方法研究與應用進展[J].分析化學, 2008, 36(5): 702-709. (CHU Xiaoli, XU Yupeng, LU Wanzhen. Research and application progress of chemometrics methods in near infrared spectroscopic analysis[J].Chinese Journal of Analytical Chemistry, 2008, 36(5): 702-709.)
[4] KELLYJ J, CALLIS J B. Nondestructive analytical procedure for simultaneous estimation of the major classes of hydrocarbon constituents finished gasolines[J].Analytical Chemistry, 1990, 62(14): 1444-1451.
[5] PIMENTELA M F, RIBEIROB M G S, ROSENIRA S, et al. Determination of biodiesel content when blended with mineral diesel fuel using infrared spectroscopy and multivariate calibration[J].Microchemical Journal, 2006, 82(2): 201-206.
[6] ANDREAS A K, NIKOS P. Autoregressive modeling of near-IR spectra and MLR to predict RON values of gasolines[J]. Fuel, 2010, (89): 158-161.
[7] DU Y P, LIANG Y Z, JIANG J H, et al. Spectral regions selection to improve prediction ability of PLS models by changeable size moving window partial least squares and searching combination moving window partial least squares[J]. Analytica Chimica Acta, 2004, 501(2): 183-191.
[8] 褚小立, 許育鵬, 陸婉珍. 偏最小二乘法方法在光譜定性分析中的應用研究[J].現代儀器, 2007, (5): 13-15. (CHU Xiaoli, XU Yupeng, LU Wanzhen. The study of use of partial least squares in spectroscopy qualitative analysis[J].Petroleum Processing and Petrochemicals, 2007, (5): 13-15.)
[9] MARCELO M S, RONEI J P. N-way PLS applied to simultaneous spectrophotometric determination of acetylsalicylic acid, paracetamol and caffeine[J].Journal of Pharmaceutical and Biomedical Analysis, 2004, (34): 27-34.
[10] LANG Q A. NIRs monitor critical gasoline parameter[J]. Hydrocarbon Processing, 1994, 73(2): 69-71.
[11] LAMBERT D, DESCALED B, ESPINOSA A, et al. NIR online advanced control system for gasoline blender[J].Analusis, 1995, 23(4): 20-25.
[12] 褚小立, 袁洪福, 陸婉珍. 近紅外分析中光譜預處理及波長選擇方法進展與應用[J]. 化學進展, 2004, 16(4): 528-542. (CHU Xiaoli, YUAN Hongfu, LU Wanzhen. Progress and application of spectral data pretreatment and wavelength selection methods in NIR analytical technique[J].Progress in Chemistry, 2004, 16(4): 528-542.)
Application of Spectral Automatic Retrieval Algorithm onthe Rapid Establishment of Gasoline Spectral Database
LI Jingyan, CHU Xiaoli, CHEN Pu, TIAN Songbai
(ResearchInstituteofPetroleumProcessing,SINOPEC,Beijing100083,China)
The petrochemical enterprise gasoline samples were properly classified by cluster analysis method, then the spectral library automatic retrieval algorithm was employed to find a certain amount of gasoline samples as calibration sets from RIPP gasoline library to establish the analysis model for the properties of gasoline. The calibration models of research octane number (RON), olefin and aromatics content had been established by Partial least square (PLS). The standard error of prediction (SEP) of the petrochemical enterprise gasoline samples on gasoline RON, olefin and aromatics mass fraction were 0.3, 1.6% and 1.0%, respectively. The results predicted by this method were very close to those determined by standard methods. Compared with standards, PLS combined with near infra-red (NIR) method was provided with advantages such as high-speed, simplicity, no-pretreatment and good-repeatability.
gasoline; Partial least square (PLS); near infra-red (NIR); library retrieval; cluster analysis
2016-04-12
李敬巖,男,高級工程師,博士,從事光譜分析與原油快速評價方面的研究
褚小立,男,教授級高級工程師,博士,從事光譜分析與原油快速評價方面的研究;Tel:010-82368342;E-mail:chuxl.ripp@sinopec.com
1001-8719(2017)01-0131-07
O657.33
A
10.3969/j.issn.1001-8719.2017.01.018