岳向陽,趙忠蓋,劉 飛
(1.江南大學 輕工過程先進控制教育部重點實驗室,江蘇 無錫 214122;2.江南大學自動化研究所,江蘇 無錫 214122)
發(fā)酵過程中的生化反應十分復雜,過程中的非線性、不確定性嚴重[1],缺乏對重要生物學參數(shù)的在線監(jiān)測設備,導致發(fā)酵過程的自動化水平遠不如其它工業(yè)生產(chǎn)過程[2]。對發(fā)酵過程進行建模不僅能夠揭示過程信息間的關聯(lián),實現(xiàn)對難以實時監(jiān)測變量的預測,而且精確有效的數(shù)學模型是進一步實施發(fā)酵過程自動控制和優(yōu)化的前提。
目前,常用的發(fā)酵過程建模方法可分為機理建模和數(shù)據(jù)建模。Trelea等人對啤酒發(fā)酵過程的機理模型進行研究[3],張玲玲則構(gòu)建了諾西肽發(fā)酵過程的機理模型[4]。機理建模涉及對微生物復雜生長代謝活動的分析,常需進行簡化,從而導致模型泛化能力不足。伴隨智能控制技術(shù)的發(fā)展,數(shù)據(jù)建模方法在發(fā)酵過程建模中得到廣泛應用,如支持向量機(support vector machine,SVM)和人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)。Dach等人使用傳統(tǒng)ANN成功預測漿液發(fā)酵中甲烷排放的水平[5],Zhong等人使用SVM構(gòu)建了抗生素發(fā)酵模型[6]。盡管ANN和SVM在發(fā)酵過程建模中得到應用,但傳統(tǒng)ANN中隨機初始化權(quán)值的策略容易陷入局部最優(yōu)或梯度消失,SVM則屬于淺層的神經(jīng)網(wǎng)絡[7],非線性表示性能較弱,而且計算復雜度隨訓練樣本數(shù)量呈指數(shù)增長。另外,SVM和ANN在發(fā)酵過程建模中的不足之處是二者均為有監(jiān)督學習策略,只能利用發(fā)酵過程中的標簽數(shù)據(jù)進行數(shù)據(jù)建模,未挖掘無標簽數(shù)據(jù)中可能含有的豐富過程信息。
隨著計算機硬件和神經(jīng)科學的突破,深度學習技術(shù)在語音、圖像識別等領域得到成功的應用,其表示性能超過了SVM、淺層ANN等,其標志性突破是Hinton提出深度學習概念[8],即先利用無標簽數(shù)據(jù)對深度信念網(wǎng)絡進行的逐層預訓練,然后利用標簽數(shù)據(jù)對模型進行微調(diào),這種半監(jiān)督學習策略可以充分挖掘過程中所有數(shù)據(jù)的信息,Erhan等人通過大量基準實驗說明了無監(jiān)督預訓練的有效性[9]。隨后,Shang等人利用深度信念網(wǎng)絡方法對粗蒸餾裝置的重柴油95%切點進行估計[10],并與偏最小二乘等方法進行比較,證明其有效性。Gopakumar等人采用半監(jiān)督學習策略來分別對鏈激酶和青霉素發(fā)酵過程進行建模[11],并與傳統(tǒng)ANN和支持向量回歸方法進行對比試驗,取得了更好的預測性能。雖然上述深度學習方法充分利用了發(fā)酵過程中所有的原始數(shù)據(jù),但實際發(fā)酵生產(chǎn)過程中,由于測量設備性能退化等原因,往往會使測量數(shù)據(jù)含有噪聲[12],會造成模型預測性能顯著下降,這要求發(fā)酵過程模型要有一定的噪聲適應性。Vincent等人在自編碼器(autoencoder,AE)基礎上提出降噪自編碼器(denoising autoencoder,DAE)[13],該方法通過對原始數(shù)據(jù)加入隨機噪聲,使得模型提取到的特征具有一定的魯棒性,而且多個DAE逐層堆疊而構(gòu)成的棧式降噪自編碼器(stacked denoising autoencoder,SDAE)能夠提取出更深層次的特征,從而提升模型的泛化能力[14],SDAE已在故障診斷、圖像分類等領域得到了成功的應用[15-16]。
發(fā)酵過程具有非線性特征、變量間存在多采樣率以及數(shù)據(jù)含噪聲的特點,而SDAE方法不僅可以有效擬合發(fā)酵過程的非線性,半監(jiān)督的學習策略也能夠充分利用發(fā)酵過程的所有數(shù)據(jù)信息,此外模型還能夠提取出具有魯棒性的深層特征,從而對過程噪聲具有一定的適應性。因此本文將SDAE方法應用到發(fā)酵過程回歸建模,通過青霉素仿真對比實驗說明基于SDAE的發(fā)酵過程回歸模型能夠更好地預測關鍵生物學參數(shù),可以用于進一步的發(fā)酵過程控制和優(yōu)化。
青霉素發(fā)酵過程中由于菌體生長繁殖等都將產(chǎn)生一定的熱能,而溫度會對酶特性、發(fā)酵液物理性質(zhì)等產(chǎn)生顯著影響,因此需要實時改變熱水或冷水流量,使發(fā)酵罐環(huán)境保持在最適發(fā)酵溫度。另外,菌體的生長代謝會影響培養(yǎng)基的氫離子平衡,從而改變發(fā)酵液pH,而發(fā)酵液不同的pH會導致菌體細胞膜的通透性等產(chǎn)生明顯差異,通過實時調(diào)節(jié)酸液或堿液流加速率能夠使發(fā)酵液pH穩(wěn)定在最適的范圍。而且,溶氧濃度會影響產(chǎn)物合成以及與菌體呼吸鏈有關的能量代謝,通過不斷調(diào)整無菌空氣流量和攪拌功率可以滿足菌體在不同生長階段對溶氧濃度的要求。
青霉素發(fā)酵生產(chǎn)工藝中需要檢測的參數(shù)分為三類:物理參數(shù)、化學參數(shù)和生物學參數(shù)。物理參數(shù)包括溫度、攪拌功率、底物流加速率等。化學參數(shù)包括pH、溶氧溶度和二氧化碳等。這些物理和化學參數(shù)都能在線準確測量和控制。為控制菌體的生長、能量代謝等,需要對菌體濃度等生物學參數(shù)進行監(jiān)測,然而生物學參數(shù)常要人工取樣后離線檢測,所得數(shù)據(jù)無法用于實時控制、優(yōu)化[17]。為能夠?qū)崟r獲取青霉素發(fā)酵過程中的生物學參數(shù),需要建立青霉素發(fā)酵過程的回歸模型。
發(fā)酵過程的本質(zhì)是微生物在生命周期內(nèi)的一系列代謝活動,其一般分為4個生長階段,即遲滯期、對數(shù)生長期、穩(wěn)定期和凋亡期,而細胞生長代謝狀態(tài)會在不同生長階段隨著自身特性和培養(yǎng)環(huán)境的變化而變化,具有顯著的非線性過程特征。另外,由于發(fā)酵過程中物理或化學參數(shù)和生物學參數(shù)的測量形式不同,會產(chǎn)生大量的無標簽數(shù)據(jù),其中很可能蘊含豐富的過程信息。同時,用于監(jiān)測發(fā)酵過程物理和化學參數(shù)的傳感器會出現(xiàn)性能失準,如傳感器探頭老化、探頭敏感部位被反應液堵塞等現(xiàn)象,導致過程數(shù)據(jù)中含有噪聲。
2.1.1 自編碼器
AE本質(zhì)是一個試圖還原初始輸入的系統(tǒng),它的神經(jīng)網(wǎng)絡結(jié)構(gòu)形式如圖1,由輸入層、隱含層和輸出層組成。訓練過程使用無標簽數(shù)據(jù),使得AE能去充分挖掘無標簽數(shù)據(jù)中的過程信息。

圖1 自編碼器(神經(jīng)網(wǎng)絡形式)
輸入向量x經(jīng)過編碼可以獲得隱含層向量z,該過程表示如下:
z=f(W(1)x+b(1))
(1)
其中:x∈Rn×1為輸入向量,W(1)∈Rm×n為權(quán)值矩陣,b(1)∈Rm×1為輸入偏置,z∈Rm×1為隱含層向量,f(·)是激活函數(shù)。

(2)

(3)
定義代價函數(shù)為:
(4)
其中:N為樣本的數(shù)量,x(i)代表第i個樣本,最優(yōu)(W(1),W(2),b(1),b(2))可以通過誤差反向傳播算法得到。
AE通過神經(jīng)網(wǎng)絡來學習每個樣本的唯一抽象表示,但是當神經(jīng)網(wǎng)絡的參數(shù)復雜到一定程度時AE很容易存在過擬合的風險。
2.1.2 降噪自編碼器
DAE是先對輸入向量隨機地加入噪聲,然后對其進行編碼、解碼,使提取到的特征具有一定的魯棒性,其基本結(jié)構(gòu)如圖2所示。

圖2 降噪自編碼器

(5)
定義代價函數(shù)為:
(6)
目前加噪聲的方式分為兩種,一種是添加服從特定分布的隨機噪聲,另一種是隨機將特定比例的輸入節(jié)點置為零。
2.1.3 棧式降噪自編碼器
將多個DAE逐層堆疊構(gòu)成SDAE,其深度模型結(jié)構(gòu)如圖3所示。

圖3 棧式降噪自編碼器
深度模型具有更強大的近似復雜函數(shù)的能力,且經(jīng)過多層提取得到的特征更具有表示性。首先對網(wǎng)絡前n層采用逐層貪婪學習算法進行無監(jiān)督預訓練,即使用DAE算法訓練第一層編碼器,記錄該層參數(shù),將第一層得到的隱含層輸出作為第二層輸入,訓練第二層編碼器后繼續(xù)記錄參數(shù),直到第n層編碼器訓練完畢,然后將前n層記錄好的參數(shù)作為整體網(wǎng)絡的初始參數(shù),最后對整體網(wǎng)絡進行有監(jiān)督地微調(diào)。
基于SDAE的發(fā)酵過程回歸建模流程描述如下:
1)采集發(fā)酵過程樣本數(shù)據(jù)。
2)對過程數(shù)據(jù)進行數(shù)據(jù)預處理。將數(shù)據(jù)分為預訓練集、微調(diào)集、驗證集和測試集四部分。
3)利用預訓練集、微調(diào)集和驗證集建立SDAE模型。預訓練集用來對SDAE進行逐層貪婪訓練,獲得初始參數(shù)。隨后加一層神經(jīng)網(wǎng)絡作為輸出層構(gòu)成SDAE-NN,使用微調(diào)集對SDAE-NN的參數(shù)進行微調(diào)。驗證集是在微調(diào)過程中監(jiān)控模型性能,可以有效防止過擬合。
4)利用測試集評估模型性能。
青霉素發(fā)酵過程是已知的用于分批補料反應器建模的基準工藝[18]。青霉素發(fā)酵過程仿真平臺PenSim以Birol機理模型為內(nèi)核[19],可以在不同的操作模式下運行,得到了廣泛的應用。
3.1.1 PenSim產(chǎn)生數(shù)據(jù)
青霉素發(fā)酵過程在不同批次間會存在特性差異,本文則利用計算機模擬來隨機設定PenSim平臺的初始條件,共產(chǎn)生50批青霉素發(fā)酵過程數(shù)據(jù),其中每批發(fā)酵總時長均為400 h,采樣間隔為0.5 h。
青霉素發(fā)酵過程模型輸入變量中的通風率和攪拌功率可以調(diào)控溶氧,底物流加速率用于控制基質(zhì)濃度,底物流加溫度、發(fā)酵罐溫度和pH則影響發(fā)酵液的物理性質(zhì)。輸出變量中的青霉素濃度是實際發(fā)酵生產(chǎn)水平的主要體現(xiàn),而基質(zhì)濃度會影響生產(chǎn)效率,過低會導致菌體營養(yǎng)不良,但過高又會使得菌體耗氧增加,降低青霉素產(chǎn)率。
3.1.2 數(shù)據(jù)預處理
青霉素發(fā)酵過程數(shù)據(jù)通常具有不同的量綱,這會對建模產(chǎn)生不利影響并減緩算法收斂速度,因此需要將數(shù)據(jù)歸一化。本文使用Z-score標準化方法,其變換形式為:
(7)

3.1.3 數(shù)據(jù)劃分
劃分數(shù)據(jù)的方式是影響青霉素發(fā)酵過程模型性能的一個重要因素。一方面,訓練集應包含多樣的過程信息,否則模型將學習不到訓練集中不存在的信息,這將會對模型預測性能產(chǎn)生影響。另一方面,測試數(shù)據(jù)集中不應覆蓋近似的過程信息,否則模型性能會隨著過程特性變化而出現(xiàn)顯著差異。
本文首先將生成的50批數(shù)據(jù)中,40批用作訓練集,5批用作驗證集,5批用作測試集,然后隨機刪去訓練集中40%數(shù)據(jù)點的目標向量,從而將訓練數(shù)據(jù)進一步分為預訓練集(無標簽數(shù)據(jù))和微調(diào)集(標簽數(shù)據(jù))。預訓練集來用于進行無監(jiān)督的預訓練,微調(diào)集是用于進行有監(jiān)督的微調(diào),驗證集既用于選擇模型中的超參數(shù),也可以在訓練過程中監(jiān)控模型性能變化從而避免過擬合,測試集是用于測試模型泛化性能。
本文采用均方誤差σRMSE和最大絕對值誤差σMAXE評價指標來分析回歸模型的估計性能,指標定義如下:
(8)
(9)

通過實驗分析不同SDAE模型在驗證集上的性能,確定SDAE-NN網(wǎng)絡結(jié)構(gòu)為6-5-5-4-3-2。為驗證SDAE方法的有效性,將該方法與傳統(tǒng)多層ANN與SAE(Stacked Autoencoder)進行比較,3種方法采用的網(wǎng)絡結(jié)構(gòu)保持一致,傳統(tǒng)ANN采用隨機初始化權(quán)值的策略進行模型訓練,SAE相較于SDAE則是在逐層貪婪預訓練階段中沒有對輸入數(shù)據(jù)添加隨機噪聲。
為模擬現(xiàn)實過程中存在一些儀器和測量噪聲的情況,在保證樣本數(shù)據(jù)不失真的情況下,把原始樣本數(shù)據(jù)中的過程變量加入5%~10%的高斯噪聲,得到含有噪聲的樣本數(shù)據(jù)。實驗過程中利用原始樣本和加噪樣本兩組數(shù)據(jù),來分別測試模型性能。
以其中一批青霉素濃度為例,3種模型的預測性能見圖4(上為原始樣本,下為加噪樣本),表1則定量地列出兩組樣本在各個模型測試集上的性能指標。

圖4 3種模型的測試集預測性能
結(jié)合圖4和表1分析可得,一方面,對于原始樣本或加噪樣本,SDAE的均方誤差σRMSE和最大絕對值誤差σMAXE都是最小的,另一方面,對原始樣本加噪后,雖然ANN、SAE、SDAE模型的泛化能力都有所下降,但SDAE模型對于加噪樣本仍然具有很好的預測性能,由此說明基于SDAE的發(fā)酵過程回歸模型不僅具有更強的非線性擬合能力,而且對于含噪聲數(shù)據(jù)具有更好的泛化性。

表1 3種模型的性能指標
本文提出基于SDAE的發(fā)酵過程回歸建模方法,該策略的多層神經(jīng)網(wǎng)絡結(jié)構(gòu)可以有效擬合發(fā)酵過程的非線性,而且半監(jiān)督的學習策略能夠充分挖掘發(fā)酵過程的無標簽數(shù)據(jù)信息,同時能夠提取出發(fā)酵過程數(shù)據(jù)中深層次的魯棒特征,使模型具有一定的噪聲適應性,進而提升模型的泛化性能。最后利用PenSim仿真數(shù)據(jù)進行多組對比試驗,通過σRMSE和σMAXE兩項性能指標說明SDAE與ANN、SAE模型相比,預測性能更好,這對發(fā)酵過程的生物學參數(shù)在線監(jiān)測、控制、優(yōu)化有重要的理論和應用價值。