楊杰
(青島科技大學 數理學院,山東 青島 266100)
C4烯烴是重要的化工原料,常被用來合成橡膠原料、制作潤滑油添加劑、生產有機物等[1]。以乙醇為原料制備C4烯烴具有清潔低耗的特點,然而溫度和催化劑組合往往會對C4烯烴的選擇性和收率產生影響。確定乙醇偶合制備C4烯烴的最佳工藝條件,使得烯烴收率最大化,有利于我國化工產業與石油工業進一步發展。
近年來,乙醇偶合制備烯烴工藝的參數優化領域涌現大量研究成果。李艷春[2]采用傳統控制變量優化法及對照實驗矩陣,通過交叉對比得到使C4烯烴收率盡可能高的工藝條件;任濤等人[3]基于方差分析與隨機森林算法篩選影響因子,并通過L-M算法與粒子群算法得到烯烴收率最優值;張中城等人[4]采用控制變量及逐步回歸分析,建立規劃模型求得最優解,并對目標函數進行擬合效果評估,驗證結果合理性;Wang等人[5]利用Logistic模型分析了溫度與乙醇轉化率和烯烴選擇性的關系,然后通過構建神經網絡逼近催化劑組合與溫度對C4烯烴收率的非線性關系,訓練模型預測烯烴產率的最大值。
由已有成果可知,常用的優化方式主要為多元回歸后建立單目標優化模型或采用各啟發式算法,實際中,兩類方法都存在許多難點。優化效率很大程度取決于輸入反應物劑量與表型關系的模型建立是否準確,目前對于現有的多種模型選擇和建立方法在不同應用條件下系統性的優劣研究比較不足。基于催化劑組合作用曲面往往為非線性且非多項式的曲面,如建立的回歸模型精度不高,則難以準確擬合,不利于進一步參數優化。啟發式算法有時無法有效處理約束條件,表現不穩定易陷入局部最優解,導致搜索精度降低。同時,在大多數化工系統中,設計尋求條件最優解實驗時往往忽略了系統過程的目標最大化,使得所建立的模型與實際系統有偏差。
本文的研究方法主要為將回歸預測數學模型與搜索算法相結合,可在一定程度上互相彌補缺點,提高優化效率。具體工作可表示為基于反應過程性能數據,利用多元回歸與BP神經網絡模型擬合一定數量的輸入輸出變量,分別建立預測模型,近似地反映工藝參數與烯烴收率之間的關系,分析對比模型預測誤差,基于精度更高的模型進行下一步優化。考慮乙醇轉化率與烯烴收率同時最大為目標函數建立雙目標優化模型,采用NSGA-II求解多目標優化模型的Pareto最優集,并結合BP網絡模型進一步預測最優集工藝參數對應的烯烴收率,確定最優方案。
本文應用的數據集為某化工實驗室針對不同催化劑在不同溫度下做的一系列乙醇偶合制備C4烯烴實驗的化學反應性能(包括催化劑組合、溫度、乙醇轉化率、C4烯烴及其他附加生成物選擇性)數據,根據催化劑組合的不同可分為13組,每一組又包含在若干不同溫度下的多組實驗數據,總計69組,部分樣本信息如表1所示。

表1 反應性能數據樣本信息
已知烯烴收率計算公式為乙醇轉化率與C4烯烴選擇性的乘積,則可計算出任一組反應數據對應的烯烴收率值。催化劑組合包含Co負載量、Co/SiO2和HAP裝料比及乙醇濃度,由于本文主要目的為探究乙醇偶合制備C4烯烴的最優催化劑組合與溫度條件,裝料比以比值形式存在不利于數據處理,則為了利于后續分析計算,將催化劑組合拆開,得到Co/SiO2的質量、HAP質量、Co負載量與乙醇單位時間進量四個指標,與溫度一起共同作為影響烯烴收率的5個自變量。
多元回歸分析是一種用來研究隨機變量間相關性的統計學方法。在對變量的實際觀測進行分析和計算的過程中,對模型的參數進行確定,構建出一個變量與另一組變量之間的量化關系,即所謂的回歸方程。在經過了統計測試被認定為具有明顯的回歸效果之后,可被用來對因變量的變化趨勢進行預測和控制,所構建的數學模型就是所謂的回歸模型[6]。
基于數據預處理后的數據,建立反應條件與烯烴收率的多元回歸模型。設定Co/SiO2的質量、HAP質量、Co負載量與乙醇單位時間進量,溫度分別為x1、x2、x3、x4、x5,C4烯烴收率y作為因變量,選取數據集中前12組不同催化劑組合下共59條數據作為訓練集,其余數據作為試驗集,以備后續回歸預測檢驗。表2給出了相關數據集所做回歸方程的回歸參數,其回歸方程如下:

表2 回歸方程模型參數
(1)
由表2可知,決策系數R2為0.92,調整后為0.897>0.7,可認為催化劑組合溫度條件與烯烴收率擬合效果較好,各助劑條件與溫度可解釋烯烴收率變化情況的92%,自變量與因變量間相關性程度高,模型可信。德賓-沃森檢驗值接近于2,可認為回歸模型各解釋變量數據相互獨立,不存在自相關性,可以進行線性回歸分析。此外,表3進一步給出上述回歸方程的方差分析及顯著性檢驗結果。

表3 回歸方程模型方差分析
由表3可知,F=54.781>F0.05=2.61,P=0.000<0.05,則回歸方程模型有統計學意義,且在0.05水平上,該模型有顯著意義,故可認為該多元非線性回歸方程有效,可用來模擬催化劑組合條件與溫度對烯烴收率的影響關系。
BP(Back Propagation,即反向傳播)網絡主要分正向傳播與反向計算誤差兩個過程。正向傳播中根據權重wi和閾值bj對輸入值加權求和計算,最終經Sigmoid函數映射到(0,1)區間得到輸出值。逆誤差計算則是通過計算輸出值與目標值之間的平方損失函數,對各層神經元連接權進行鏈式求導,更新權值并不斷迭代傳播過程,直至損失函數計算所得誤差最小,學習訓練次數使用完畢。
2.2.1 參數設置
本文主要采用三層BP神經網絡構建模型,輸入層為催化劑組合與溫度,隱藏層為多個神經元,輸出層為烯烴的產率,最終預測結果為輸入不同的催化劑組合和溫度條件,輸出網絡模型下與目標值間誤差最小的烯烴收率預測值。將提出的BP神經網絡模型的參數初始化如下:確定輸入層節點為5,隱含層網絡層數為1,隱含節點數為5,輸出層節點為1,學習率為0.01,誤差閾值為0.000 001,迭代次數為1 000次。
2.2.2 迭代計算
首先對13組不同催化劑組合實驗數據集進行劃分,總計69組實驗數據中,采用48條數據用于訓練樣本,11條數據用于驗證,10條數據用于測試。利用Matlab神經網絡工具箱編程進行數據訓練與測試,烯烴預測結果如圖1、2所示,圖3進一步展示了BP網絡對三個數據集非線性回歸擬合的效果。

圖1 訓練集預測結果對比

圖2 測試集預測結果對比

圖3 訓練、驗證和測試的結果圖
由圖1、2可知,訓練集預測結果中兩條折線高度重合且均方根誤差為298.377 6,可認為BP神經網絡對前59組實驗數據回歸預測效果較好。在測試集預測結果對比圖中,可觀察到測試集中除4號和5號樣本外,其余樣本預測值皆與真實值差距較小,可認為BP網絡對測試集數據對應的工藝參數具有精度較高的烯烴收率預測結果。
由圖3可知,實線與虛線接近重合,樣本數據經BP網絡訓練后的輸出值與目標值擬合情況較好,且R值都在0.9以上表明神經網絡對數據集訓練充分,網絡具有良好的性能。
經多元回歸與BP網絡模型對實驗數據集回歸預測,分別得到測試集的10組數據集在兩類模型下的烯烴收率預測值,其與真實值的對比結果如表4所示。同時,本文選取3個評價指標進一步分析比較兩類模型對測試集的預測精度(表5所示),這三個指標包括平均絕對誤差(MAE)、平均偏差誤差(MBE)和均方根誤差(RMSE),其計算公式如下:

表4 模型預測結果對比

表5 測試集預測結果誤差對比
(2)
(3)
(4)
MAE與RMSE的范圍為[0,+∞),當預測值與真實值完全吻合時等于0,即完美模型;誤差越大,兩個值越大,值越小,說明預測模型擁有更好的精確度。MBE可確定模型存在正偏差還是負偏差。
從表4和表5可以看出,通過對比兩種預測模型的烯烴收率預測結果以及各指標數值,可知經BP網絡模型得到的烯烴收率預測值的誤差整體上要明顯小于多元非線性回歸模型,表明BP神經網絡在當前數據的情況下,對烯烴收率的預測值有較高的精準度。BP神經網絡更適用于處理復雜的非線性系統,受樣本分布影響較小。通過逆誤差傳播算法不斷調整內部權重,提高網絡優化效果[7]。相比多元回歸模型,BP神經網絡在預測烯烴收率方面精度更高,應用范圍更廣。
NSGA-II(Non-dominated Sorting Genetic Algorithm-II,即非支配排序遺傳算法)是在NSGA基礎上改進的一種基于支配的多目標優化算法,這是一種基于Pareto最優概念的遺傳算法。其擁有一系列智能優化算法的優勢,魯棒性高,計算高效,被廣泛用來解決多目標優化問題,具有極強的適用性。利用非支配排序技術,其能確保搜索所得解更接近真實Pareto前沿,同時引入擁擠度距離,使得非支配解的多樣性顯著提高。精英化策略給出最優當前解的前提下保留了最優父代解,提高了算法收斂性[8-9]。
多目標優化問題通常由決策變量、約束條件及目標函數組成。在該類問題中,滿足各目標的最優解一般不同,即在實際問題中各目標互相制約,不存在單個最優解[10]。因此,采用NSGA-II算法求解多目標優化問題有利于得到各目標函數與期望值偏離最小的Pareto最優解。基于上文多元回歸與BP神經網絡模型對烯烴收率回歸預測誤差的分析比較結果,選用BP神經網絡模型作為求解多目標優化模型最優集工藝參數對應烯烴收率的預測模型,有助于提高預測精度并確定誤差最小的最優方案。
在乙醇催化偶合制備C4烯烴實驗過程中,首要目標是使烯烴收率達到最大。同時考慮化學反應過程的具體情況,生成物中除C4烯烴外還存在大量副產物,如乙烯、乙醛、脂肪醇等其他有機物,此類雜質的存在將大大影響目標產物的選擇性與收率。在化學反應過程中,隨著時間的推移化學反應將逐漸達到化學平衡,即反應物消耗速率等于生成物生成速率,當生成物濃度增加到一定值時化學反應會逆向移動,導致反應物消耗減少、化學產物降低。因此,在建立模型求解優化目標時,應同時重視化學反應實際系統的動態過程與模型預測系統輸出的能力,從實際生產的角度出發,使得底物轉化率與目標產物同時最大化。結合乙醇偶合制備烯烴化學反應過程與相關數據,本文建立以下多目標優化模型:
1)決策變量:依據反應條件信息,將Co/SiO2的質量、HAP質量、Co負載量與乙醇單位時間進量、溫度作為五個決策變量,分別為x1、x2、x3、x4、x5。
2)約束條件:依據反應過程相關數據,可知各決策變量邊界范圍如下:
(5)
3)目標函數:分別設乙醇轉化率為γ、烯烴收率為δ,乙醇轉化率定義為乙醇在偶合制備C4烯烴實驗過程中的消耗質量比率,與催化劑組合與溫度條件存在緊密聯系;烯烴收率定義為乙醇轉化率與C4烯烴選擇性的乘積,乙醇轉化率與C4烯烴選擇性皆隨反應條件的變化而波動,則烯烴收率也直接受其影響。考慮到應保證化學反應過程中底物轉化率及目標產物收率盡量高,據此給出下列雙目標函數:
(6)
采用NSGA-II求解上述多目標優化模型可由如下具體步驟實現[11-13]:
1)染色體編碼:實際問題中五個決策變量的一組排列組合信息皆位于一條染色體上,分別占據一個基因位,采用二進制編碼進行數據處理。
2)初始化種群與適應度計算:隨機生成初始種群,并將目標函數乙醇轉化率與烯烴收率最大取相反數轉換成求最小值,作為適應度函數,對新生成的種群與父代一同進行快速非支配排序,多次迭代得Pareto前沿。
3)精英策略選擇:通過非支配排序與擁擠度計算,選擇個體生成新代種群,進行交叉變異。
4)迭代終止:達到設定最大迭代次數時算法終止,輸出結果。
在進行計算時,算法相關參數設置為:初始種群大小N=69,交叉概率Pc=0.7,變異概率Pm=0.3,最大迭代次數M=100。采用Matlab 2016b編程實現NSGA-II,在軟件中運行算法程序可得圖4示二維Pareto前沿。

圖4 Pareto前沿解集
由圖4可知,該算法具有良好的收斂性,可以得到分布均勻的Pareto最優解集。本文多目標優化模型為兩個目標函數,則其Pareto前沿呈一條線,可看出乙醇轉化率與烯烴收率存在相互制約關系,一方數值增長必然存在另一方數值下降。分別從Pareto前沿解集中隨機選取5個最優解,其對應的催化劑組合、溫度條件與對應的乙醇轉化率和烯烴收率結果見表6。

表6 NSGA-II最優結果
對于NSGA-II算法求得的Pareto最優解集,還需要進一步驗證結果的可靠性。圖5展示了五組數據集的BP網絡預測迭代情況。基于BP網絡模型強大的非線性映射能力,將上文求得的Pareto最優集組合作為輸入參數代入BP網絡模型進行烯烴收率預測,最終預測精度最高的解集將作為最佳催化劑溫度組合。同時,將所得到的結果進一步與經典遺傳算法優化 BP網絡(GABP)方法得到的預測結果進行比較分析,來驗證NSGA-II算法的精確度與卓越性。將選出的五組Pareto最優集數據中五個決策變量首先進行歸一化處理,并利用BP網絡模型迭代訓練,得到預測及誤差結果如表7所示。

圖5 Pareto最優集BP網絡預測迭代過程

表7 Pareto最優集BP網絡預測結果
由圖5可知,BP網絡模型迭代10次,誤差曲線呈階梯形變化,整個迭代過程是穩健的,計算過程逐步逼近最優解。總誤差為0.000 01,有效性檢查為6,學習效果良好,表明對五組Pareto最優解數據所預測的結果為全局最優解,可作為有效結果進行誤差分析從而篩選最優解。
由表7可知,第二組工藝參數經BP網絡映射后輸出的烯烴收率預測值與目標值誤差最小,精度最高。因此,該組解集對應的催化劑與溫度條件可作為乙醇偶合制備烯烴的最佳方案。結果表明,當Co/SiO2質量為33 mg,HAP質量為168.28 mg,Co負載量為0.5%,乙醇進量為0.3 mL/min,溫度為400 ℃,乙醇轉化率與烯烴收率可達最大,分別為64.67%,35.921%。
為進一步比較NSGA-II和經典遺傳算法分別優化BP網絡模型獲得的烯烴收率預測誤差,將五組Pareto最優集數據分別運用BP與GABP算法進行烯烴收率的回歸預測,兩類方法預測對比結果如圖6所示。表8進一步展示了最優方案工藝參數在兩類算法下對應的烯烴收率誤差情況。由對比結果可知,NSGA-II結合BP算法的輸出值與目標值間均方根誤差小于GABP,對烯烴收率的預測值更符合實際,可認為本文所運用的算法具有良好的適用性與精確度。

圖6 Pareto最優集預測結果對比

表8 兩種預測方法結果對比
基于乙醇偶合制備C4烯烴實驗性能數據,建立了回歸預測與多目標優化模型,得到實現乙醇轉化率與烯烴收率最大的工藝條件,可實現較高的生產收率。采用NSGA-II算法與BP網絡模型相結合的方法,有助于提高反應變量間映射關系及預測的準確性,確保在全局中搜索最優解。后續將對該模型算法進一步完備參數設定處理與仿真驗證,提高實際應用效果。