聊城大學數學科學學院 孫夢迪 孫忠貴
在催化裂化汽油精制過程中,降低硫含量保持辛烷值,對提高汽油的動力經濟性有著重要意義。但這一過程中涉及的操作變量較多,難以調控。本文借助相關性分析,稀疏PCA和神經網絡對操作變量進行逐級降維,建立辛烷值損失預測模型,并采用遺傳算法進行決策尋優。訓練數據集上調控與預測結果充分表明了所建模型的合理性。
由汽油燃燒產生的汽車尾氣嚴重污染了大氣環境,這對汽油清潔化提出了越來越高的要求。汽油清潔化的重點是在盡最大可能保持汽油中辛烷值的基礎上降低其硫、烯烴含量[1]。由于含硫和高硫原油占絕大多數,為滿足汽油質量標準必須對其催化裂化獲得的汽油進行精制處理。辛烷值是表示汽車發動機燃料(汽油)的抗爆性能好壞的一項重要指標。汽油的辛烷值越高,抗爆性就越好,發動機就可以用更高的壓縮比。現有技術在煉油工藝過程一個主要目標就是保持汽油的辛烷值達標,因此建立汽油辛烷值損失預測模型非常重要的[2-4]。本文針對某石化企業催化裂化汽油精制脫硫裝置4年的歷史數據。通過對367個變量進行降維處理,篩選出建模的主要變量,來建立汽油辛烷值損失模型,進一步優化主要變量的操作策略。
在原始數據中,大部分變量數據正常,但由于裝置本身限制或數據采集不準確等客觀原因,導致部分變量均存在問題:部分變量只含有部分時間段的數據,部分變量的數據全部為空值或部分數據為空值。因此,我們需要對原始數據進行預處理。步驟如下:
(1)刪除數據中全部為空值或空值過多無法補充的操作變量,對于只有部分空缺數據的位點,用此位點前后2h內的平均值填充;
(2)刪除325個樣本數據全部為空值的變量,求出各操作變量的取值范圍,采用最大最小的限幅方法剔除數據不在此范圍內的相應操作變量所對應的樣本;
(3)利用3σ準則[5]去除操作變量里含有較大誤差的異常值,設被測變量為x1,x2,…,xn,我們需要根據

算出算術平均值,根據

算出剩余誤差,根據貝塞爾公式

算出標準誤差σ;
(4)最后對285號和313號這兩個樣本前后2h內的數據取平均值,得到與辛烷值測量時間相對應的各個操作變量的數據,其中285號樣本數據可用,而313號樣本數據未能通過檢,故只將285號樣本數據加入到原始數據,取代相應數據。
由于煉油工藝過程復雜,可調整的操作變量(控制變量)具有高度非線性和相互強耦聯性,建立辛烷值(RON)損失預測模型涉及13個非操作變量和354個操作變量(共計367個變量),本文篩選出具有代表性和獨立性的30個以下主要變量來建立辛烷值損失預測模型。由于非操作變量屬于固有屬性,對汽油辛烷值的影響極其重要,我們僅需對可操作變量進行處理。我們的降維方法總結為逐步遞進的三個步驟:
(1)利用相關性分析[6]去除高度線性相關的操作變量;(2)利用稀疏PCA[7-9]降維篩選出重要程度較大的操作變量;(3)利用神經網絡[10]去除非線性強相關的變量。相應流程如圖1所示:

圖1 逐步降維流程圖Fig.1 Stepwise dimension reduction flowchart
1.2.1 相關性分析去除高度線性相關操作變量
首先根據各操作變量之間的相關系數,選出相關系數較大,即具有明顯線性相關的操作變量進行聚類,并用與聚類中心最近的個體代表所有類成員,對具有高度線性相關的操作變量進行剔除,從而實現第一步降維。
首先根據

求得354個操作變量兩兩之間的相關系數,其中x,y表示兩個不同操作變量,xi或yi代表同一操作變量不同樣本的測量值,相關系數矩陣的圖像表示如圖2所示。
由圖2可知,大量相關性系數較高,這表明原操作變量之間存在較強的線性關系。我們以0.90為相應閾值進行聚類,篩選出相關系數在0.90~1.00之間的類別,并用與類中心最近的個體代表所有類成員,從而去除具有高度線性相關的操作變量。將操作變量總數由354降至207。

圖2 相關系數矩陣圖像表示Fig. 2 Image representation of correlation coefficient matrix
1.2.2 稀疏PCA降維篩選重要操作變量
需注意的是,通過第一步降維(第1.2.1節),盡管我們去除了大量高度線性相關的操作變量,剩余變量在數據表示上往往具有不同的重要程度。稀疏主成分分析(SPCA)通過增加主成分載荷中零元素個數,使得主成分可以用最少且最有代表性的變量的線性組合來表示。本文借鑒文獻[11]的硬閾值法,首先對原始數據進行PCA降維操作,然后將主成分載荷中絕對值小于給定閾值的元素截斷為0,達到剔除非重要操作變量的目的。步驟如下:
(1)設原始p個操作變量x=(x1,x2,…,xp)T的n次觀測數據為xi=(xi1,xi2,…,xip)T,i=1,2,…,n,樣本數據矩陣為:

對樣本數據矩陣進行如下標準化變換:

(2)對標準化矩陣Z求相關系數矩陣R,R=(rij)p×p,其中,

(3)求解相關系數矩陣R的特征方程det(R-λE)=0,得到p個特征根λ1,λ2,…,λp,
(5)計算m個主成分相應的單位特征向量:

(6)計算主成分:

(7)稀疏主成分:

對Vk求期望和方差δk,將小于βk<ε的主成分載荷置零,即將相應操作變量xk剔除。在具體實現時,根據拉依達準則,我們取通過此步降維,我們進一步將操作變量由上一步的207個降至172。
1.2.3 神經網絡去除非線性強相關變量
通過前兩步降維(第1.2.1和1.2.2節),盡管可操作變量已經由354降至172,其與降至30個以下的目標依然相差甚遠。我們注意到,無論是第一步所用的相關系數處理還是第二步用的稀疏PCA操作,都屬線性分析范疇。而這眾多變量之間還存在大量非線性關系,神經網絡則是刻畫非線性關系的強有力工具[12]。
如圖3所示,為去除非線性強相關的變量,本文采用一個3層神經網絡,隱藏層的神經單元數量均設置為3。其基本動機是:一個變量能被其他變量所表示,將意味著其不具備很好的獨立性,從而被剔除,達到特征降維的目的。具體實現時,選擇樣本數據的80%作為訓練集,20%作為測試集。輸出變量xk若能被其他變量(非操作變量與剩余操作變量)通過神經網絡進行較好的表示(相對誤差小于閾值0.80),則將其剔除,否則保留。經過此步操作,主要變量降至17維,其中操作變量6維。

圖3 用于去除非線性強相關變量的網絡結構Fig.3 Network architecture for removing nonlinear strongly correlated variables
考慮到煉油工藝的復雜性,本文采用相對復雜的神經網絡學習辛烷值預測模型。如圖4所示,其中4個隱藏層的結點數量均為13,輸入變量為降維后的17個特征,輸出變量為辛烷值和硫含量。依然選取樣本數據的80%作為訓練集,20%作為測試集。訓練出各主要操作變量與辛烷值和硫含量的模型。

圖4 用于辛烷值損失預測的網絡結構Fig. 4 Network architecture for octane loss prediction
在調整優化過程中,由于變量過多,使用傳統的迭代優化算法容易陷入局部極小值的陷阱而出現“死循環”的現象[13],使得迭代算法無法進行。而遺傳算法[14]全局優化算法具有良好的全局搜索能力,可以快速地將解空間中的全體解搜索出,而不會陷入局部最優解的快速下降陷阱;并且利用它的內在并行性,可以方便地進行分布式計算,加快求解速度。
遺傳算法的主要步驟如下:
(1)采用上一步的神經網絡,在搜索空間U上定義一個適應度函數f(x),在硫含量不大于5μg/g,辛烷值越大和硫含量越小,適應度越強,給定種群規模N=30,變異率Pm=70%,代數T=50;
(2)我們將樣本數據設為初始個體,并在其附近產生N-1個個體s1,s2,…sN-1,組成初始種群S={s1,s2,…sN-1},置代數計數器為t=1;
(3)交叉變異;
(4)依據適應度函數產生新的種群;
(5)t=t+1,若t (6)算法結束。 辛烷值和硫含量在測試集上表現如圖5所示。其中辛烷值的預測表現較好,而對硫含量的預測也基本穩定。這表明,在變量維數由367降為17后,通過神經網絡訓練,依然能夠對上述兩個化工指標能較好地表示。這為后續操作方案的進一步優化奠定了基礎。 圖5 辛烷值和硫含量在測試集上的預測效果Fig. 5 Predictive results of octane value and sulfur content on test sets 對于具體133號樣本,同樣采用上述方案,在硫含量滿足不大于5的前提下,得到辛烷值的預測值為88.50,辛烷值損失降幅大于30%。具體調整方案為:汽油產品去氣分流量(833.98)、閉鎖料斗氧含量(5)、補充氫壓縮機出口返回管流量(0)、緊急氫氣去R-101流量(39.38)、循環氫至閉鎖料斗料腿流量(0.86)、D121頂去放火炬流量(283.16)。 優點: 逐步降維:根據變量關系的不同類型,采用逐步遞進的降維方式,有效克服了維數災難; 用神經網絡刻畫復雜的非線性關系:淺層網絡刻畫操作變量關系,深層網絡刻畫化工過程,符合實際; 智能尋優:用遺傳算法進行操作方案的優化,加速調控過程。 缺點: 沒有考慮不同方案的調控成本; 建模過程中的隨機性因素可能會導致調控過程的穩定性不夠; 數據整定策略可進一步改進。 本文對操作變量的重要性是通過經典PCA中相應系數的大小順序來刻畫的,考慮到各變量之間關系的復雜性,將其映射到高維空間,采用核PCA或許能夠對這種關系進行更為合理的描述[15-18]。此外,本文建模主要依賴數據驅動,缺少機理分析。面對實際問題,將機理分析與數據驅動相結合往往更有助于調控決策。 本文首先依次借助相關性聚類分析,稀疏PCA和神經網絡對操作變量進行逐級降維;其次,采用神經網絡對辛烷值損失建立預測模型;最后,利用遺傳算法進行調控決策尋優。基于上述模型所獲得的調控策略,訓練數據集上的預測結果充分表明了所建模型的合理性。 引用 [1] 龍夢舒,閔超,趙偉,等.基于機器學習的汽油加氫裂化辛烷值損失預測和脫硫優化[J].科學技術與工程,2022,22(3):1076-1084. [2] 陳亞麗,茍苗苗,邵露娟,等.基于RF-XGBoost算法的汽油辛烷值損失預測模型[J]. 煉油技術與工程,2021,51(12):49-53. [3] 楚慶玲,平振東,于明加,等.基于RBF神經網絡的辛烷值損失預測模型[J].物聯網技術,2021,11(11):104-107. [4] 趙林,李希,謝永芳,等.基于自適應變量加權的汽油辛烷值預測方法[J/OL].控制與決策:1-7[2022-02-01]. [5] Friedrich Pukelsheim.The Three Sigma Rule[J].The American Statistician,1994,48(2):88-91. [6] 李云燕.仿真數據相關性分析方法研究[D].哈爾濱:哈爾濱工業大學,2011. [7] 黎明.稀疏主成分分析算法研究與應用[D].合肥:中國科學技術大學,2021. [8] 楊欣.稀疏主成分分析的兩階段法[J].應用數學進展,2017,6(9):1174-1181. [9] CADIMA J,JOLLIFE I T.Loading and Correlations in the Interpretation of Principal Components[J].Journal of Applied Statistics,1995(22):203-214. [10] Aston Zhang,Mu Li,Zachary CLipton,et al.動手學深度學習[M].北京:人民郵電出版社,2019. [11] 張良均,楊坦,肖剛,等.MATLAB數據分析與挖掘實戰[M].北京:機械工業出版社,2015. [12] 司守奎, 孫兆亮.數學建模算法與應用[M].北京:國防工業出版社,2015. [13] 張會芳.凸優化問題最小范數解的迭代算法及應用研究[D].天津:中國民航大學,2018. [14] 楊超.基于多目標優化的反饋多智能體遺傳算法研究[D].天津:天津職業技術師范大學,2021. [15] 孫永科,周開來.核PCA神經網絡集成算法在文本識別中的應用[J].科技通報,2013,29(8):124-126. [16] 李慶震,祝小平.基于核PCA的智能圖像分析算法[J].彈箭與制導學報,2007(5):189-192. [17] 張國云,彭仕玉.核PCA支持向量機算法研究[J].湖南理工學院學報(自然科學版),2006(4):23-26. [18] 周志華.機器學習[M].北京:清華大學出版社,2016.2 模型求解

3 模型的評價與討論
3.1 模型優缺點
3.2 模型的進一步討論
4 結論