焦 敏 張 湜 李麗娟 李 霜 黃 和
(南京工業大學自動化與電氣工程學院1,江蘇 南京 211816;南京工業大學生物與制藥工程學院2,江蘇 南京 211816)
花生四烯酸發酵過程的建模方法研究
焦 敏1張 湜1李麗娟1李 霜2黃 和2
(南京工業大學自動化與電氣工程學院1,江蘇 南京 211816;南京工業大學生物與制藥工程學院2,江蘇 南京 211816)
對發酵法生產花生四烯酸的建模方法進行了初步研究,并基于四種溫度下的試驗數據,建立了發酵過程模型。比較分析了最小二乘支持向量機(LS-SVM)和廣義回歸神經網絡(GRNN)這兩種方法的特點。結果表明,這兩種方法均能較好地建立該發酵過程的模型,LS-SVM建模的預測能力稍優于GRNN,為后續花生四烯酸發酵過程的優化及控制的研究奠定了基礎。
發酵過程 最小二乘支持向量機 廣義回歸神經網絡 建模 Matlab
花生四烯酸(arachidonic acid,AA或ARA)是一種重要的人體多不飽和高級脂肪酸,它對人體的免疫系統及心血管系統具有十分重要的作用[1]。迄今為止,花生四烯酸已經在醫藥、化工、保健食品、化妝品等領域得到廣泛應用[2]。使用傳統方法制備ARA不僅價格昂貴,而且不能滿足大量的市場需求[3]。本文利用微生物發酵的方法。與傳統方制備法相比,采用該方法不僅ARA產量大,而且綠色環保[4-5],這也和國家現在大力提倡的低碳經濟不謀而合。
本研究以實驗室中高山被孢霉發酵生產ARA為研究背景,針對實驗數據樣本小的特點,選擇最小二乘支持向量機(LS-SVM)與廣義回歸神經網絡(generalized regression neural network,GRNN)的方法建立ARA產量的模型,并通過均方差(MSE)和平均絕對誤差(MAE)兩個性能指標來評判模型的優劣性,最后對結果進行了分析與比較。
最小二乘支持向量機由Suyken等人提出,它的訓練過程用等式約束替代了傳統的不等式約束,并且用誤差平方和損失函數作為訓練集的經驗損失,將解二次規劃問題轉化為求解線性方程組問題,大大提高了求解問題的計算速度。
首先假設訓練樣本集為(x1,y1),…,(xi,yi)(i為樣本的數量),用一個非線性映射ψ(·)將原樣本空間Rn映射到特征空間φ(xi),在高維特征空間中建立最優決策函數:
式中:ω∈Rn(原樣本空間),為權重向量;b為偏置。
利用結構風險最小化原則,最小二乘支持向量機可轉化為在一定約束條件下求解最小化泛函的問題:

約束條件為:

式中:ωT、ω為控制模型的復雜度;c為正規化參數;ξi為松弛因子,i=1,2,...,l。
用拉格朗日法求解這個優化問題,即:

式中:ω為權重向量;b為偏置;ξi為松弛因子;αi為拉格朗日算子。
由Karush-Kuhn-Tucker(KKT)最優條件,通過對ω、b、ξi和α求偏微導并令各式等于0,聯立可得:

求解上式可得LS-SVM非線性回歸函數為:

式中:K(xi,xj)=φT(xi)φ(xj)為核函數。
常用的核函數主要分為以下幾種[6]。
①多項式核函數

式中:q∈N;c>0。
②徑向基核函數(RBF)

式中:σ為核函數的參數,它定義了從原始空間到高維特征空間的非線性映射。
③Sigmoid核函數

式中:b、c為常數。
由此可見,LS-SVM模型主要是對式(5)進行求解。核函數的引入避免了高維空間容易造成的“維數災難”,并解決了大量的計算問題[7]。研究表明,徑向基核函數RBF的效果較好,故本文采用RBF核函數的LS-SVM。
由于生物發酵過程是一個緩慢的過程,相鄰采樣點的數據一般不會發生突變,因此,本文采用三次平滑樣條插值的擬合方法。具體實現方法是通過調用Matlab中的spline函數實現。
本文以高山被孢霉發酵生產花生四烯酸ARA為研究對象,選擇15℃、20℃和25℃時的三組溫度下的試驗數據作為建模使用,28℃時數據作外推使用。具體實現方法是將每組數據中的時間、溫度、pH作為輸入變量,將花生四烯酸的產量作為輸出變量,采用LSSVM以及廣義回歸神經網絡GRNN來建立模型[8]。
首先將LS-SVM lab1.5工具箱添加到Matlab中的toolbox,其使用方法可參見相關的資料,主要程序代碼如下。


其中,LS-SVM中gam和sig2為兩個可調整的參數,前者是正則化參數,決定了適應誤差的最小化和平滑程度;后者是RBF核函數的參數。其中classification用于分類,function estimation用作函數回歸使用。P、T分別為訓練網絡的輸入和輸出。
通過仿真,LS-SVM擬合及外推效果如圖1所示。其中:“﹡”線表示產物花生四烯酸(ARA)產量的試驗測量值;實線表示LS-SVM模型的計算值;縱坐標X為細胞干重。

圖1 LS-SVM擬合及外推效果Fig.1 The results of LS-SVM fitting and extrapolation
為了評判LS-SVM建模效果的優劣[9],在此引入均方差性能指標(MSE)和平均絕對誤差性能指標(MAE),LS-SVM的性能指標如表1所示。

表1 LS-SVM的性能指標Tab.1 The performance indexes of LS-SVM
廣義回歸神經網絡(GRNN)是徑向基網絡的一種變化形式,它的特點是訓練速度快、非線性映射能力強,適合于進行曲線逼近擬合。為了與上述LS-SVM的建模方法進行比較,現擬用廣義回歸神經網絡GRNN進行建模。
GRNN建模的具體方法如下:針對同一批數據使用GRNN神經網絡進行建模,同樣計算所建立模型的擬合誤差和外推誤差,并與LS-SVM進行比較。GRNN神經網絡的創建是調用Matlab函數庫中的newgrnn函數,具體調用格式為:net=newgrnn(P,T,spread)。其中:P為R×Q維的輸入向量;T為S×Q維的輸出向量;spread為散步常數,它的選取是關鍵,數值越大,代表需要的神經元就越少,但同時精度會下降,本網絡中選取的散步常數為0.1。
通過仿真,得到GRNN模擬擬合及外推效果曲線如圖2所示。其中:“﹡”線表示產物花生四烯酸(ARA)產量的試驗測量值;實線表示GRNN模型的計算值。

圖2 GRNN擬合及外推效果曲線Fig.2 The results curves of GRNN fitting and extrapolation
GRNN的性能指標如表2所示。

表2 GRNN的性能指標Tab.2 The performance indexes of GRNN
為了便于分析與比較上述兩種建模方法的優劣性,將表1和表2聯立,得到LS-SVM與GRNN的性能比較,具體如表3所示。

表3LS-SVM與GRNN性能比較Tab.3 Performance comparison of LS-SVM and GRNN
由表3可以看出,GRNN神經網絡的訓練集性能指標(即擬合精度)較LS-SVM要好,但LS-SVM的測試集性能(即預測精度)卻略優于GRNN神經網絡。究其原因,主要是由于ARA發酵過程中的數據量較小,對于小樣本數據,神經網絡容易出現“過擬合”現象,外推能力得不到最優化;而LS-SVM模型則可以防止此類現象的出現,預測能力較神經網絡GRNN好。
本文使用了最小二乘支持向量機和廣義回歸神經網絡兩種方法建立了花生四烯酸發酵過程的模型。通過仿真結果表明:這兩種方法相差不大,均能較好地建立該發酵過程的模型,但LS-SVM建模的預測能力稍優于GRNN。這為后續花生四烯酸發酵過程的優化及調控奠定了基礎。
本文所使用的兩種建模方法的預測精度均受到模型參數(如GRNN中的散步常數spread,LS-SVM中的gam和sig2)的影響,未來研究的主要方向可集中在對模型參數的優化以及算法的改進等方面。
[1]姚昕,秦文,齊春梅,等.花生四烯酸的生理活性及其應用[J].糧油加工與食品機械,2004,10(5):57-59.
[2]楊朝霞,張麗,李朝陽.花生四烯酸的營養保健功能[J].食品與藥品,2005,7(1A):69-71.
[3] Singh A,Word O P.Production of high yield of arachidonic acid in a fed batch system by mortieralla alpina ATCC 32222 [J].Appl Microbiol Biotechnol,1997,48(7):1-5.
[4]周蓬蓬,余龍江,吳元喜,等.高山被孢霉產花生四烯酸發酵條件的研究[J].工業微生物,2003(2):414-415.
[5]歐陽平凱,韋萍,姚忠.生物化工研究現狀與發展趨勢[J].化工進展,2003,22(1):1-7.
[6]閻威武,朱宏棟,邵惠鶴.基于最小二乘支持向量機的軟測量建模[J].系統仿真學報,2003,15(10):1494-1496.
[7]閻威武,邵惠鶴.支持向量機和最小二乘支持向量機的比較及應用研究[J].控制與決策,2003,18(3):358-360.
[8]陳文略,王子羊.三次樣條插值在工程擬合中的應用[J].華中師范大學學報:自然科學版,2004,38(4):418-422.
[9]袁安平,張湜,姜珉,等.丁二酸發酵過程軟測量模型的參數優化研究[J].化工自動化及儀表,2009,36(5):13-17.
Study on the Modeling Methods for Fermentation Process of Arachidonic Acid
The modeling method for fermentation process of arachidonic acid is studied preliminary,and on the basis of the test data under four of the temperatures,the model of fermentation process is setup.The features of two methods,i.e.least square support vector machine(LS-SVM)and generalized regression neural network(GRNN)are compared and analyzed.The result indicates that both these two methods are good to establish the model,while LS-SVM is better than GRNN on prediction capability.This builds foundation for researching the optimization and control of the fermentation process of arachidonic acid.
Fermentation process Least square support vector machine Generalized regression neural network Modeling Matlab
TP183
A
南京工業大學基金資助項目(編號:39710005)。
修改稿收到日期:2011-04-11。
焦敏,男,1985年生,現為南京工業大學控制理論與控制工程專業在讀碩士研究生;主要從事生化工程建模、優化、控制方面的研究。