李敬巖, 褚小立
(中國石化 石油化工科學研究院, 北京 100083)
中國石化石油化工科學研究院(簡稱石科院)開發的劣質LCO(輕循環油)轉化為催化裂化汽油或輕質芳烴技術(LCO to aromatics and gasoline,LTAG),將低價值的LCO轉化成為高附加值的高辛烷值車用汽油或芳烴[1]。LTAG將LCO中多環芳烴,尤其是大量的雙環芳烴,選擇性加氫飽和為單環芳烴。這一反應結果的好壞可以通過LCO加氫前后單環和多環(特別是雙環)芳烴的含量變化來確定。因此,對LTAG加氫單元中LCO原料和產品的性質監控,尤其是對其族組成的監控,有利于及時調整加氫及催化裂化的工況,降低能耗并優化最終產品質量。
對LCO原料和產品性質的分析,特別是對其中芳烴組成的測定,目前主要分析方法是質譜法[2],能給出柴油的詳細族組成信息,包括鏈烷烴、不同環數環烷烴以及不同環數芳烴的組成分布等,但該方法需要對樣品進行預分離,將樣品分離為飽和烴和芳烴后再分別進行質譜分析,分析時間較長。近紅外光譜(NIR)分析技術是目前最有前景且應用最廣泛的快速分析方法之一,近紅外光譜主要反映含氫基團X—H(X=C、N、O)合頻和倍頻的振動[3-4],含有豐富的組成和結構信息, 非常適合于分析原油及油品[5-8]。
國外一些大型石化企業以及知名儀器公司都有自己的油品近紅外光譜數據庫,在先進過程控制和優化控制等方面發揮著重要的作用。石科院也開展了初步的探索工作,但尚未進行系統的研究和開發。近紅外光譜快速測量油品組成以及物性是一種比較成熟的分析方法,但需建立較復雜的分析模型(也稱光譜數據庫),才能得到可靠的測量結果[9-10]。經典的多元校正方法有偏最小二乘(PLS)法,本課題組針對LTAG原料與產物也建立了PLS模型[11]。但限制近紅外快速分析技術推廣的一個難點是定量校正模型需要維護,當有待測樣本的物性超出模型范圍時,預測結果將出現較大偏差。本研究中,筆者提出一種根據已有的LTAG原料與產物近紅外光譜數據庫,通過產生虛擬樣本的方式,對原有的LTAG原料與產物近紅外數據庫進行密化處理的方法,得到虛擬LTAG原料與產物庫。將待測LTAG原料、產物樣本和虛擬LTAG原料與產物庫進行比對識別,找到最相似樣本進而得到評價數據。該方法無需模型維護,只需要不斷加入新樣本更新數據庫,是開放性的、可擴展樣品數量的數據庫技術。隨著使用過程校正集樣本數量的不斷增加,其適用范圍將越來越寬,分析準確性和穩健性也將越來越高。
從石科院以及各大煉油廠收集LTAG原料與產物總計468個,性質數據包括鏈烷烴、環烷烴、烷基苯、茚滿或四氫萘、單環芳烴、雙環芳烴、三環芳烴等詳細烴組成。LTAG原料與產物樣本的收集時間為2016年6月至2017年12月。所有樣本用20 mL 密封小瓶封裝,放置于冰柜中保存。LTAG原料與產物烴族組成由質譜法測定。其性質和組成分布情況的統計數據見表1。

表1 LTAG原料與產物烴組成統計結果Table 1 Hydrocarbon composition of raw materials and products of LTAG
使用Thermo Antaris II傅里葉變換型近紅外光譜儀采集近紅外光譜數據庫。選用一次性玻璃小瓶(帶聚乙烯塞一次性透明0.7 mL圓筒玻璃小瓶,35 mm×7.8 mm,光程6.5 mm)和透射方式采集LTAG原料與產物近紅外光譜,在光譜采集過程中,以空樣品瓶做參比,消除一次性玻璃小瓶在材質和尺寸上存在的微小差異。相比于傳統的比色皿采樣方式,其具有如下技術優勢:不用清洗,測量方便;樣品用量小,且環境污染小;小瓶密封性好,有利于提高光譜測量重復性。
采集近紅外光譜參數如下:光譜分辨率:8 cm-1;累計掃描次數:128次;光譜范圍:3800~10000 cm-1。典型LTAG原料與產物的近紅外光譜見圖1。

圖1 LTAG原料與產物的近紅外光譜Fig.1 Near infrared spectra of raw materials andproducts of LTAG
儀器采集的近紅外光譜信號除樣品信息外,還包含來自各方面的噪聲。光譜預處理的目的是濾去噪聲,提取有用信息,方便后續處理。常用的光譜預處理方法有小波變換、平滑、歸一化和微分等。其中微分是一種常用的光譜預處理方法,可以有效消除樣本顏色、基線和其他背景干擾,分辨重疊峰,提高分辨率和靈敏度。本研究采用二階微分處理,以解決LTAG原料與產物樣品在顏色上的差別引起的光譜基線偏移和漂移問題。圖2為LTAG原料與產物的二階微分光譜。

圖2 LTAG原料與產物的二階微分譜Fig.2 Second-order differential spectra ofLTAG raw materials and products
采用石科院“化學計量學光譜分析軟件3.0”,對樣品光譜和標準方法測得的LTAG原料與產物烴組成數據進行編輯,生成標準矩陣式數據庫。程序運行平臺:ThinkPad T440p,i5(2.50 GHz),4 GB RAM。
本研究所采用的偏最小二乘(PLS)定量校正方法基本模型為:
Y=UQt+EY
(1)
X=TPt+EX
(2)
式(1)和(2)中,X為光譜矩陣;Y為烴組成矩陣;t為轉置;T和U分別是X和Y矩陣的得分矩陣;P和Q分別是X和Y矩陣的載荷矩陣;EX和EY分別是X和Y矩陣的PLS擬合殘差矩陣。將T和U作線性回歸:
U=TB
(3)
B=(TtT)-1TtY
(4)
式(3)和(4)中,B為回歸系數。在預測時,首先根據P求出未知樣品光譜陣Xun的得分Tun,然后根據式(5)得到濃度預測值Yun:
Yun=TunBQ
(5)
本研究建立的油品近紅外光譜數據庫所采用的無監督模式識別方法為移動窗口相關系數法[12-13],其原理如下:在特征光譜區間,從波數最低的采樣點選擇一個移動窗口的寬度w,計算該窗口內的待識別LTAG原料、產物樣品與數據庫中每個樣品的吸光度的相關系數,然后將移動窗口向波數高的方向移動若干個采樣點,作為下一個移動窗口,計算此移動窗口內的待識別LTAG原料、產物樣品與數據庫中每個樣品的吸光度的相關系數,方法原理如圖3所示。按上述方法連續移動窗口,計算每個移動窗口內待識別LTAG原料、產物樣品與數據庫中每個樣品的吸光度的相關系數。將得到的相關系數值與對應移動窗口的起始位置作圖,即得到移動相關系數圖。從移動相關系數圖中可以方便地看出兩個光譜之間的相似程度。若兩個光譜完全相同,則在整個光譜范圍內的移動相關系數值都為1;若兩個光譜只是在某一區間存在差異,則該區間的相關系數值將明顯下降。

圖3移動窗口相關系數方法原理
Fig.3Principleofmovingwindowcorrelationcoefficientmethod
利用上述的識別參數進行LTAG原料與產物種類識別的方法為:計算光譜數據庫所有樣品、待識別LTAG原料與產物樣品的移動相關系數;將所有移動窗口的相關系數相加,得到每個數據庫樣品的識別參數Qi;將Qi與閾值Qt相比較,如果所有的Qi都不大于閾值Qt,說明數據庫中不含待測LTAG原料與產物樣本的種類。
用于識別的虛擬樣本采用蒙特卡洛方法實現,首先用數學遞推公式的方法產生一組隨機數符合(0,1)上的均勻分布。蒙特卡洛虛擬光譜識別方法的具體過程為:首先使用移動窗口相關系數法從校正集中識別出與待測樣本最相似的N個樣本;采用蒙特卡洛方法通過最相似的N個樣本在待測樣本周圍生成M個虛擬樣本;然后從這些虛擬樣本中識別出與待測原油一致的一組樣本,結合LTAG原料和產物性質與烴組成數據庫可快速給出待測樣本的烴組成。
在本文中,采用蒙特卡洛方法,首先產生一組隨機數矩陣(N×M),矩陣大小為(10×10000),符合(0,1)上的均勻分布。方法是用數學遞推公式產生,按列進行歸一化處理。將識別出來的10個最相似樣本疊成標準光譜矩陣,與隨機數矩陣相乘即得到虛擬光譜矩陣,虛擬光譜數量為10000條。同理可得到虛擬光譜的性質與烴組成數據矩陣,即通過線性加和的方式得到虛擬光譜的烴族組成數據。
在不同波長范圍的近紅外光譜所含的信息量不同。要建立穩健的校正模型需要選擇與具體性質相關的譜區,因為如果沒有顯著吸收特征峰與其他官能團吸收峰重疊的光譜區間,將會降低校正模型的預測能力。以辛烷值為例,考察不同波長范圍與辛烷值的相關性。通過比較,7000~7400 cm-1和8100~8600 cm-1范圍內光譜與辛烷值具有較高的相關性,可以作為建模的區間。選擇最有用的光譜信息建立校正模型,不但可以提高模型預測能力,而且由于剔除了信息弱的光譜區域,減少了光譜數據量,也能夠提高計算速率。
采用石科院“化學計量學光譜分析軟件3.0”中的偏最小二乘(PLS)方法建立校正模型。模型建立前,首先從LTAG原料與產物庫中選取其中68個LTAG原料與產物樣本作為驗證集樣本,剩余400個樣本構成校正集。所有樣本均在常溫下采集光譜。光譜首先經二階微分處理,以消除樣品顏色、溫度及基線漂移等因素的影響,選擇近紅外光譜波段區間(7000~7400 cm-1和8100~8600 cm-1)作為特征譜區,將特征譜區內的吸光度與標準方法測定的烴族組成相關聯,建立LTAG原料與產物烴族組成的校正模型。光譜最佳主因子數采用交互驗證所得的預測殘差平方和(PRESS)確定。模型通過校正標準偏差(SECV)和預測標準偏差(SEP)來評價。表2為LTAG原料與產物驗證集樣本的預測統計結果。

表2 PLS方法模型統計Table 2 Model parameters of PLS method
從表2可以看出,驗證集的預測標準偏差與校正標準偏差基本吻合,說明所建PLS校正模型可以對LTAG原料與產物樣本的辛烷值以及烴族組成進行快速準確的預測分析。
校正集與驗證集樣本選取方法同2.1節,首先從校正集中識別出與每個驗證集待測樣本最相似的N個樣本,然后通過該N個樣本在待測樣本周圍生成M個虛擬樣本。如果從校正集中識別出的相似樣本太少,產生的虛擬樣本差異性很小,識別效果差;若識別出的相似樣本過多,會把與待測樣本差異性較大的樣本選進來,同樣會導致評價結果變差。綜合考察后選擇N=10。一組10個待測樣本和從校正集中識別出的10個與其最相似樣本通過主成分分析提取前3個主因子在三維空間分布見圖4,圖中PC1、PC2、PC3分別為前3個主因子。對某待測樣本,識別出的校正集樣本序號見表3,表3中距離表示10個最相似樣本與某待測樣本在三維空間中的距離。
使用移動窗口相關系數法,從10000條虛擬光譜中找到與待測樣本最相似的一組虛擬樣本30個,經主成分分析提取前兩個主因子,其空間分布如圖5所示,圖中PC1、PC2分別為前兩個主因子。以該組虛擬光譜的均值譜作為待測樣本的最臨近光譜,其評價數據作為待測樣本的性質與烴組成預測值。

表3 與某待測樣本最相似的10個校正集樣本Table 3 Ten samples in the database most similarto the measured sample

圖4 10個待測樣本與校正集最臨近樣本的空間分布Fig.4 Spatial distribution of 10 unknown samples andtheir 10 nearest samples in calibration set

圖5 10個待測樣本與最臨近虛擬樣本的空間分布Fig.5 Spatial distribution of 10 unknown samples andtheir 30 nearest virtual samples
待測樣本與最臨近虛擬樣本光譜在6200~10000 cm-1范圍內的對比見圖6所示。從圖6可以看出,待測樣本與最臨近虛擬樣本光譜幾乎無差異。

圖6 某待測樣本與最臨近虛擬樣本的近紅外光譜對比Fig.6 Near infrared spectra comparison of an unknownsample with its nearest virtual sample
同理得到預測集所有樣本的預測值,模型統計參數見表4。對比表2可以發現,蒙特卡洛虛擬光譜識別方法的預測標準偏差均小于PLS,但差異較小,基本處于同一水平。蒙特卡洛虛擬光譜識別方法是一種定性方法,無需像PLS一樣建立復雜的校正模型,操作人員無需掌握建模以及模型維護知識,只需向數據庫中添加新的樣本即可達到模型維護的目的。該方法產生的虛擬光譜是隨機的,表5是對同一個待測樣本連續5次重復測量的結果。從表5 可以看出該方法極大地滿足了測量重復性的要求。
本研究建立了LTAG原料與產物包含468個樣本的數據庫,基于近紅外光譜分析方法開發了通過模式識別方法預測分析LTAG原料與產物烴族組成的方法。
研究結果表明,傳統的PLS方法建立LTAG原料與產物性質和烴族組成的定量校正模型,可以得到準確的預測結果,對LTAG原料與產物樣本鏈烷烴、環烷烴、烷基苯、茚滿或四氫萘、單環芳烴、雙環芳烴、三環芳烴的預測標準偏差分別為2.4%、2.1%、1.3%、1.1%、1.9%、1.4%和0.6%。但模型維護始終是PLS定量方法推廣的障礙。

表4 蒙特卡洛虛擬光譜識別方法的模型參數統計Table 4 SEP of Monte Carlo virtual spectrum identification methods

表5 蒙特卡洛虛擬光譜識別方法的重復性Table 5 Repeatability of Monte Carlo virtual spectrum identification method
同時開發了基于蒙特卡洛方法的虛擬樣本識別方法,該方法對LTAG原料與產物樣本鏈烷烴、環烷烴、烷基苯、茚滿或四氫萘、單環芳烴、雙環芳烴、三環芳烴的預測標準偏差分別為1.5%、1.4%、0.9%、0.8%、1.3%、0.8%和0.5%,預測準確性高于PLS方法,基本達到了標準方法(SH/T 0606中間餾分烴類組成測定法)的再現性要求。本方法節約了建模成本,減少了數據庫維護的工作量。