李祥宇,隋璘,熊偉麗,2
(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院, 江蘇 無(wú)錫 214122; 2.江南大學(xué) 輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室, 江蘇 無(wú)錫 214122)
現(xiàn)代工業(yè)過(guò)程中,關(guān)鍵質(zhì)量和參數(shù)的準(zhǔn)確監(jiān)測(cè),對(duì)確保生產(chǎn)過(guò)程安全可靠及產(chǎn)品質(zhì)量滿足生產(chǎn)要求至關(guān)重要。然而實(shí)際生產(chǎn)過(guò)程中存在大量難以直接或?qū)崟r(shí)測(cè)量的過(guò)程變量,導(dǎo)致過(guò)程控制中難以通過(guò)閉環(huán)實(shí)時(shí)反饋信號(hào),造成反饋控制失控[1-2]。
軟測(cè)量技術(shù)通過(guò)挖掘易測(cè)輔助變量與難測(cè)主導(dǎo)變量間的關(guān)系建立數(shù)學(xué)模型,以實(shí)現(xiàn)對(duì)關(guān)鍵質(zhì)量變量的監(jiān)測(cè)[3-4]。軟測(cè)量建模一般可分為兩類:基于機(jī)理分析建模與基于數(shù)據(jù)驅(qū)動(dòng)建模。基于機(jī)理分析建模是通過(guò)對(duì)生產(chǎn)過(guò)程中工藝機(jī)理進(jìn)行分析以建立數(shù)學(xué)模型,建模過(guò)程復(fù)雜且難度較大。基于數(shù)據(jù)驅(qū)動(dòng)建模則無(wú)須對(duì)工藝機(jī)理有深刻理解,只需要對(duì)生產(chǎn)過(guò)程中所采集的數(shù)據(jù)進(jìn)行分析建模。常用的數(shù)據(jù)驅(qū)動(dòng)建模方法有主成分回歸[5]、偏最小二乘回歸[6]、高斯過(guò)程回歸[7]、支持向量機(jī)[8]及人工神經(jīng)網(wǎng)絡(luò)[9]等機(jī)器學(xué)習(xí)模型。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,在面對(duì)大數(shù)據(jù)量、深層特征信息時(shí)具有更出色的數(shù)據(jù)解析能力,其在數(shù)據(jù)驅(qū)動(dòng)軟測(cè)量中也擁有高度適應(yīng)性[10-11]。Hochreiter 等[12]提出一種長(zhǎng)短時(shí)記憶(long short-term memory, LSTM)網(wǎng)絡(luò),其作為一種常見(jiàn)的深度學(xué)習(xí)模型,在處理時(shí)間序列信息及提取時(shí)序特征問(wèn)題時(shí)有著良好的建模性能。Yuan等[13]提出一種有監(jiān)督LSTM,并將其應(yīng)用于青霉素發(fā)酵過(guò)程,可有效提取過(guò)程變量間的非線性動(dòng)態(tài)特征。此外,為提高LSTM 預(yù)測(cè)性能,研究者將其與其他算法模型相結(jié)合,組成混合預(yù)測(cè)模型。Zheng 等[14]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)與LSTM 相結(jié)合并應(yīng)用于青霉素發(fā)酵軟測(cè)量建模中,有效提升了模型對(duì)樣本間相關(guān)特征的發(fā)掘能力。常樹(shù)超等[15]提出一種時(shí)空協(xié)同的圖卷積LSTM 網(wǎng)絡(luò),兼顧過(guò)程變量時(shí)序關(guān)系及質(zhì)量變量空間關(guān)系,采用多通道獨(dú)立學(xué)習(xí)方法對(duì)輸入變量時(shí)空特征關(guān)系處理分析。孫凱等[16]將非負(fù)絞殺算法與LSTM 網(wǎng)絡(luò)相結(jié)合,辨識(shí)過(guò)程變量的冗余信息,對(duì)網(wǎng)絡(luò)輸入權(quán)重進(jìn)行壓縮,剔除冗余變量,從而提高模型預(yù)測(cè)精度。
另一方面,為了更好地處理各種采樣數(shù)據(jù)特征信息,研究者在提升LSTM 相關(guān)模型性能的同時(shí),對(duì)LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)也進(jìn)行不斷改進(jìn)。Lui 等[17]提出一種有監(jiān)督雙向LSTM 網(wǎng)絡(luò),通過(guò)雙向架構(gòu)更深層地挖據(jù)過(guò)程變量與質(zhì)量變量間的非線性特征信息。Xie 等[18]提出一種雙流λ門(mén)控循環(huán)單元(gated recurrent unit, GRU)網(wǎng)絡(luò)模型,通過(guò)雙流結(jié)構(gòu),融合時(shí)間和動(dòng)態(tài)因果流,更高效地提取學(xué)習(xí)特征。Shen 等[19]通過(guò)對(duì)LSTM 內(nèi)部隱藏層神經(jīng)元進(jìn)行重要性排序,提出一種有序神經(jīng)元長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(ordered neurons long short-term memory,ONLSTM),并將其運(yùn)用于自然語(yǔ)言處理和圖像處理中。在軟測(cè)量建模中,不同輔助變量對(duì)預(yù)測(cè)結(jié)果影響不同,因此保留高影響性關(guān)鍵特征便尤為重要,而ONLSTM 所引入的層級(jí)概念能夠很好地滿足所提要求。Shi 等[20]將ONLSTM 網(wǎng)絡(luò)運(yùn)用于工業(yè)故障檢測(cè)中,有效解決了高速銑削過(guò)程中頻繁發(fā)生的自激振動(dòng)問(wèn)題。
盡管在解決時(shí)間序列長(zhǎng)期依賴的問(wèn)題上,相關(guān)LSTM 模型具備良好的應(yīng)用效果,但是其難以高效專注于不同時(shí)間步長(zhǎng)下的輸入變量。針對(duì)這一問(wèn)題,Bahdanau 等[21]提出一種基于注意力機(jī)制的編碼器-解碼器網(wǎng)絡(luò),在序列建模中有著良好的應(yīng)用性能,但面對(duì)長(zhǎng)時(shí)間序列時(shí),會(huì)造成重要信息丟失,導(dǎo)致模型性能隨著時(shí)間序列的增長(zhǎng)而下降。因此,將編碼器-解碼器模型替換為L(zhǎng)STM網(wǎng)絡(luò)可以有效解決長(zhǎng)期依賴的問(wèn)題。當(dāng)將LSTM網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合時(shí),可以有效處理數(shù)據(jù)樣本之間的動(dòng)態(tài)性和相關(guān)性。Yuan 等[22]提出一種時(shí)空注意力長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型,不僅可以自適應(yīng)處理輸入特征,同時(shí)對(duì)數(shù)據(jù)動(dòng)態(tài)特性也有很好的適用性。Li 等[23]提出一種自注意力(self-attention, SA)機(jī)制與 GRU 網(wǎng)絡(luò)的軟測(cè)量建模方法,根據(jù)輸入變量間依賴關(guān)系分配注意力權(quán)重,減少外部信息的影響,從而提高模型預(yù)測(cè)精度。
本文設(shè)計(jì)了一種結(jié)合自注意力機(jī)制的卷積有序神經(jīng)元長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(SA-CNN-ONLSTM)混合軟測(cè)量模型,并將其運(yùn)用于青霉素發(fā)酵過(guò)程。所提模型首先利用CNN 對(duì)輸入變量進(jìn)行局部特征提取并降維;然后將所提取特征輸入多層ONLSTM網(wǎng)絡(luò)進(jìn)行時(shí)序特征提取,并通過(guò)層級(jí)判斷輸入變量的重要程度,過(guò)濾特征變量冗余信息;最后結(jié)合自注意力機(jī)制動(dòng)態(tài)調(diào)整特征權(quán)重,利用變量間內(nèi)部依賴關(guān)系,對(duì)高相關(guān)性變量賦予高權(quán)重,同時(shí)優(yōu)化全連接層激活函數(shù),以提高模型預(yù)測(cè)性能。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,由于傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)存在梯度消失問(wèn)題,所以提出一種改進(jìn)型RNN,即LSTM 網(wǎng)絡(luò)。LSTM 在RNN 基礎(chǔ)上對(duì)其隱藏層神經(jīng)元結(jié)構(gòu)進(jìn)行改進(jìn),通過(guò)引入門(mén)結(jié)構(gòu)和記憶細(xì)胞,使得模型能夠更好地處理時(shí)序過(guò)程中長(zhǎng)期依賴的問(wèn)題,從而有效解決RNN 中梯度消失或爆炸的缺陷。LSTM 單元結(jié)構(gòu)如圖1 所示。

圖1 LSTM 結(jié)構(gòu)圖Fig.1 Structure of LSTM
在LSTM 網(wǎng)絡(luò)結(jié)構(gòu)中神經(jīng)元包含3 個(gè)門(mén)結(jié)構(gòu)和1 個(gè)記憶細(xì)胞,3 個(gè)門(mén)分別為遺忘門(mén)、輸入門(mén)和輸出門(mén),其在LSTM 網(wǎng)絡(luò)中起到判斷輸入信息重要程度的作用,通過(guò)門(mén)的開(kāi)關(guān)實(shí)現(xiàn)對(duì)時(shí)序信息的記憶,從而防止梯度消失。對(duì)于一個(gè)LSTM 神經(jīng)元,其外部輸入為前一時(shí)刻的細(xì)胞狀態(tài)Ct-1、前一時(shí)刻的隱藏狀態(tài)ht-1和當(dāng)前時(shí)刻輸入過(guò)程變量xt。3 個(gè)門(mén)控制計(jì)算過(guò)程為
式中:ft、it、ot分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)的輸出,σ為激活函數(shù),本文選用Sigmoid 函數(shù),Wf*、Wi*、Wo*和bf、bi、bo分別為不同門(mén)所對(duì)應(yīng)的權(quán)重和偏置值。
記憶細(xì)胞作為L(zhǎng)STM 神經(jīng)元中的重要組成部分,能夠?qū)r(shí)序處理過(guò)程中相關(guān)信息的遺忘與記憶關(guān)系進(jìn)行學(xué)習(xí),將篩選出的重要信息不斷傳遞下去,從而發(fā)揮挖掘樣本時(shí)序特征的作用。記憶細(xì)胞的計(jì)算過(guò)程為
在LSTM 中對(duì)隱含狀態(tài)和細(xì)胞狀態(tài)的更新計(jì)算過(guò)程為
式中:Ct和ht為更新后當(dāng)前時(shí)刻的細(xì)胞狀態(tài)和隱含狀態(tài), °為矩陣相應(yīng)元素乘積運(yùn)算。
ONLSTM 網(wǎng)絡(luò)在傳統(tǒng)LSTM 網(wǎng)絡(luò)基礎(chǔ)上對(duì)隱藏層神經(jīng)元順序信息進(jìn)行運(yùn)算排序。相較于傳統(tǒng)LSTM 中神經(jīng)元對(duì)所傳遞信息重要程度的判斷不足,ONLSTM 通過(guò)引入信息層級(jí)概念,構(gòu)建信息重要性評(píng)價(jià)指標(biāo),并按照信息層級(jí)的高低,采用分區(qū)更新的方式對(duì)輸入信息進(jìn)行取舍,從而提高網(wǎng)絡(luò)模型對(duì)信息重要性的判斷能力。
ONLSTM 單元結(jié)構(gòu)如圖2 所示。圖中橙色、黃色和藍(lán)色部分為對(duì)傳統(tǒng)LSTM 網(wǎng)絡(luò)的改進(jìn)部分,分別表示主遺忘門(mén)通路、主輸入門(mén)通路以及信息重疊部分通路,ONLSTM 的輸入門(mén)、輸出門(mén)和遺忘門(mén)的計(jì)算公式同傳統(tǒng)LSTM 網(wǎng)絡(luò)計(jì)算公式相同,不同之處在于對(duì)細(xì)胞狀態(tài)Ct的更新函數(shù)進(jìn)行了改進(jìn)。

圖2 ONLSTM 結(jié)構(gòu)Fig.2 Structure of ONLSTM
為了更準(zhǔn)確地提取信息的分層結(jié)構(gòu),在神經(jīng)元中引入了新的激活函數(shù):
式中: cumax()表示累計(jì)和函數(shù),在此基礎(chǔ)上在隱藏層神經(jīng)元中引入“主遺忘門(mén)”和“主輸入門(mén)”,計(jì)算公式為
式中:Wf?*、W?i*和bf?、b?i分別為主遺忘門(mén)和主輸入門(mén)所對(duì)應(yīng)的權(quán)重和偏置值。激活函數(shù)將細(xì)胞狀態(tài)轉(zhuǎn)換為二進(jìn)制形式。在加入主遺忘門(mén)和主輸入門(mén)后,改進(jìn)后的神經(jīng)元內(nèi)的細(xì)胞狀態(tài)的更新規(guī)則為
其中 ωt為主遺忘門(mén)和主輸入門(mén)重疊部分。
自注意力機(jī)制在序列建模中具有良好應(yīng)用性能,其利用軟測(cè)量建模中時(shí)序信息的特征自身相關(guān)性,直接計(jì)算特征內(nèi)部依賴關(guān)系,自適應(yīng)確定輸入特征權(quán)重的大小[24],同時(shí)與LSTM 相結(jié)合,對(duì)隱藏層輸出特征進(jìn)行優(yōu)化,使模型在長(zhǎng)期依賴問(wèn)題上有更好的性能表現(xiàn)。
自注意力機(jī)制中確定權(quán)重系數(shù)的計(jì)算過(guò)程為
式中:W表示權(quán)重矩陣,ht表示當(dāng)前時(shí)刻前一LSTM模型隱藏層輸出,b表示偏置值,ua表示輸入隱藏層非線性變換層,ur表示輸入序列向量,θ表示自注意力特征權(quán)重,st表示所賦不同概率注意力特征權(quán)重與各隱藏層輸出相積之和。
本文所提SA-CNN-ONLSTM 預(yù)測(cè)模型主要包括4 層,分別為CNN 層、ONLSTM 層、自注意力層和全連接層。考慮發(fā)酵過(guò)程具有動(dòng)態(tài)性和非線性的特點(diǎn),首先選擇引入CNN 層,通過(guò)卷積運(yùn)算對(duì)輸入樣本數(shù)據(jù)局部特征提取并降維;再在CNN層后疊入多層ONLSTM 層,利用其能夠有效解決時(shí)序特征長(zhǎng)期依賴問(wèn)題的優(yōu)點(diǎn),進(jìn)一步提取樣本時(shí)序特征,解決發(fā)酵過(guò)程動(dòng)態(tài)性的問(wèn)題,同時(shí)舍棄訓(xùn)練過(guò)程中冗余信息,減小其對(duì)預(yù)測(cè)結(jié)果的影響;進(jìn)一步引入自注意力機(jī)制層,通過(guò)自注意力機(jī)制,更新特征權(quán)重,調(diào)節(jié)ONLSTM 神經(jīng)元內(nèi)隱藏層輸出;最后改進(jìn)全連接層的激活函數(shù),減小數(shù)據(jù)非線性的影響,提取整個(gè)模型的特征輸出。所提模型結(jié)構(gòu)如圖3 所示。

圖3 SA-CNN-ONLSTM 模型結(jié)構(gòu)Fig.3 SA-CNN-ONLSTM model structure
在處理時(shí)序特征問(wèn)題時(shí),由于傳統(tǒng)LSTM 在參數(shù)更新過(guò)程中沒(méi)有考慮神經(jīng)元的順序信息,所以在判斷神經(jīng)元間信息重要程度關(guān)系上準(zhǔn)確性不足,使得后續(xù)神經(jīng)元參數(shù)更新時(shí)對(duì)包含重要信息的神經(jīng)元保留時(shí)間不足,對(duì)包含次要信息的神經(jīng)元保留時(shí)間又過(guò)長(zhǎng)。
所提混合模型的ONLSTM 層對(duì)LSTM 隱藏層神經(jīng)元內(nèi)部結(jié)構(gòu)進(jìn)行改進(jìn),引入層級(jí)概念來(lái)表示輸入時(shí)序信息的重要程度。當(dāng)面對(duì)輸入樣本具有數(shù)據(jù)量大且強(qiáng)非線性特征時(shí),變量間具有較高的關(guān)聯(lián)性,同時(shí)由于大數(shù)據(jù)量使得輸入樣本中存在著冗余變量影響著模型預(yù)測(cè)精度。而ONLSTM模型中引入層級(jí)的概念,能夠有效提取輸入數(shù)據(jù)中的重要信息,從而剔除冗余信息。層級(jí)在ONLSTM單元內(nèi)部通過(guò)運(yùn)算得到,通過(guò)引入主遺忘門(mén)和主輸入門(mén)的方式,將輸入到隱藏層神經(jīng)元的時(shí)序特征信息于兩個(gè)門(mén)內(nèi)通過(guò)運(yùn)算篩選分類,采用分區(qū)更新的方式將不同層級(jí)的信息傳遞到ONLSTM模型中的不同通道,從而對(duì)不同重要性的信息賦予相應(yīng)的權(quán)值,將包含高重要性信息的神經(jīng)元保留并傳遞下去。
所提模型中的ONLSTM 層將多層ONLSTM相疊加,通過(guò)堆疊多層ONLSTM,將前一層ONLSTM 層的輸出傳遞到后一層ONLSTM 層,使其作為該ONLSTM 的輸入從而建立堆棧式ONLSTM 層,利用堆疊多層ONLSTM 層能夠進(jìn)一步提取輸入變量的深層特征,與單層ONLSTM模型相比,堆棧式ONLSTM 模型結(jié)構(gòu)對(duì)輸入時(shí)序特征的非線性特征具有更強(qiáng)的擬合能力,模型具有更強(qiáng)的穩(wěn)健性。
注意力機(jī)制的核心是通過(guò)輸入特征與權(quán)重加權(quán)求和,判斷輸入特征對(duì)預(yù)測(cè)目標(biāo)的重要程度。軟測(cè)量建模中由于無(wú)法像自然語(yǔ)言處理任務(wù)中有額外信息,所以標(biāo)準(zhǔn)注意力機(jī)制在解決軟測(cè)量建模的回歸預(yù)測(cè)問(wèn)題時(shí)仍有不足。因此改進(jìn)標(biāo)準(zhǔn)注意力機(jī)制,得到自注意力機(jī)制,即所提混合模型中的自注意力機(jī)制層。
自注意力機(jī)制層在整個(gè)模型中起著輸出特征優(yōu)化作用。自注意力機(jī)制輸入為前一ONLSTM 層的隱藏層神經(jīng)元輸出,將自注意力機(jī)制與ONLSTM網(wǎng)絡(luò)模型相結(jié)合,依據(jù)輸入變量之間的內(nèi)部依賴關(guān)系,對(duì)ONLSTM 層的輸出進(jìn)行動(dòng)態(tài)加權(quán),對(duì)關(guān)鍵特征變量賦以高權(quán)重,表示該特征對(duì)模型預(yù)測(cè)結(jié)果的影響較大。自注意力機(jī)制以特征相關(guān)性為標(biāo)準(zhǔn),對(duì)特征信息進(jìn)行篩選,并將模型的預(yù)測(cè)重點(diǎn)聚焦于關(guān)鍵特征上。
設(shè)定輸入樣本集為X={x1,x2,…,xn},輸出樣本集為Y={y1,y2,…,yn},基于SA-CNN-ONLSTM 的軟測(cè)量建模步驟如下:
1) 利用Pensim 仿真平臺(tái)采集輔助變量與主導(dǎo)變量,并對(duì)采集數(shù)據(jù)進(jìn)行預(yù)處理;
2) 將預(yù)處理后的數(shù)據(jù)集劃分為訓(xùn)練集Xtrain、Ytrain和Xtest、Ytest;
3) 利用訓(xùn)練輸入樣本Xtrain輸入到CNN層提取樣本局部特征d,再將d代入堆棧式ONLSTM層,并得到ONLSTM 隱藏層輸出htrain;
4) 將步驟3 訓(xùn)練得到的htrain代入自注意力機(jī)制層,提取相關(guān)特征信息,并更新訓(xùn)練權(quán)重系數(shù);
5)Ytrain作為訓(xùn)練輸出樣本集,利用Adam 算法對(duì)模型參數(shù)尋優(yōu),訓(xùn)練SA-CNN-ONLSTM 模型;
6) 將測(cè)試輸入樣本集Xtest和測(cè)試輸出樣本集Ytest代入到已經(jīng)訓(xùn)練好的SA-CNN-ONLSTM模型中,對(duì)青霉素濃度進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果為Ypre-dictt,并根據(jù)相應(yīng)的評(píng)價(jià)指標(biāo)評(píng)估模型預(yù)測(cè)性能。
青霉素發(fā)酵過(guò)程是一個(gè)復(fù)雜的生化反應(yīng)過(guò)程,準(zhǔn)確地預(yù)測(cè)青霉素濃度對(duì)整個(gè)發(fā)酵過(guò)程的優(yōu)化控制具有重要意義[25]。本文以青霉素發(fā)酵過(guò)程為案例,驗(yàn)證所提算法應(yīng)用于軟測(cè)量建模的優(yōu)越性。青霉素發(fā)酵基本流程如圖4 所示。

圖4 青霉素發(fā)酵過(guò)程流程Fig.4 Flow of penicillin fermentation process
本文中的數(shù)據(jù)通過(guò)Pensim 仿真平臺(tái)得到。該平臺(tái)由Cinar 教授針對(duì)實(shí)際青霉素發(fā)酵過(guò)程開(kāi)發(fā)的仿真平臺(tái)。通過(guò)該平臺(tái)采集樣本數(shù)據(jù)前,設(shè)定采樣時(shí)間為400 h,間隔時(shí)間為0.2 h,即總共采樣20 000 組樣本數(shù)據(jù),其余設(shè)定值均采用平臺(tái)默認(rèn)設(shè)定值。本文選取曝氣速率、CO2濃度、pH 值、發(fā)酵罐溫度等11 個(gè)變量作為輔助變量,青霉素濃度作為關(guān)鍵質(zhì)量變量。采樣變量及設(shè)定值見(jiàn)表1。

表1 Pensim 采樣變量及設(shè)定值Table 1 Pensim sampling variables and set values
在青霉素發(fā)酵過(guò)程仿真實(shí)驗(yàn)中,訓(xùn)練集和測(cè)試集分別取5 000 組和1 000 組數(shù)據(jù)。本文中采用SA-CNN-ONLSTM 模型作為青霉素濃度預(yù)測(cè)模型,在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,模型的參數(shù)對(duì)網(wǎng)絡(luò)的性能起到至關(guān)重要的作用,所以設(shè)置合適的網(wǎng)絡(luò)模型參數(shù)能夠有效提高模型的預(yù)測(cè)精度。本文通過(guò)試驗(yàn)法不斷調(diào)整模型的參數(shù),從而選取實(shí)驗(yàn)效果最為理想的模型參數(shù)用于預(yù)測(cè)青霉素濃度。
本文中模型預(yù)測(cè)的評(píng)價(jià)指標(biāo)選擇均方根誤差RMSE(ERMSE),平均絕對(duì)誤差MAE(EMAE)以及相關(guān)指數(shù)R2(ER2)。其計(jì)算公式如下:
在SA-CNN-ONLSTM 模型的ONLSTM 層中,時(shí)間步長(zhǎng)決定著每個(gè)輸入滑動(dòng)子窗口的序列長(zhǎng)度,影響著模型預(yù)測(cè)精度,本文選取時(shí)間步長(zhǎng)候選集{3,4,5,6,7,8,9,10},不同時(shí)間步長(zhǎng)下模型預(yù)測(cè)的RMSE 如圖5 所示。當(dāng)時(shí)間步長(zhǎng)為6 時(shí),模型預(yù)測(cè)精度最高。其余參數(shù)通過(guò)多次實(shí)驗(yàn)確定,各層參數(shù)設(shè)置見(jiàn)表2,當(dāng)設(shè)定CNN 部分的基本參數(shù)過(guò)濾器個(gè)數(shù)filters 為10,層數(shù)為1,ONLSTM 部分每層ONLSTM 的隱藏層神經(jīng)元個(gè)數(shù)為100 和50,層數(shù)為2 時(shí),預(yù)測(cè)青霉素濃度的結(jié)果最優(yōu)。

表2 SA-CNN-ONLSTM 模型參數(shù)設(shè)定值Table 2 SA-CNN-ONLSTM model parameter settings

圖5 各時(shí)間步長(zhǎng)下SA-CNN-ONLSTM 模型的RMSEFig.5 RMSE of SA-CNN-ONLSTM model at each time step
由于青霉素發(fā)酵過(guò)程具有非線性特點(diǎn),而激活函數(shù)將非線性特性引入到神經(jīng)網(wǎng)絡(luò)之中,通過(guò)對(duì)神經(jīng)元加以非線性特性,可使神經(jīng)網(wǎng)絡(luò)模型更好地逼近非線性特征函數(shù)。選取合適的全連接層激活函數(shù)可有效篩選重要輸入神經(jīng)元信息,以提高模型預(yù)測(cè)精度。全連接層中較為常見(jiàn)的激活函數(shù)為:Sigmoid、ReLU、Elu、Leaky ReLU 和Selu,將其分別代入模型全連接層中,選擇性能最優(yōu)的作為全連接層激活函數(shù)。表3 為幾種常見(jiàn)激活函數(shù)的性能對(duì)比,根據(jù)評(píng)價(jià)指標(biāo)結(jié)果,本文選用Selu作為全連接層激活函數(shù),模型預(yù)測(cè)效果最優(yōu)。

表3 不同激活函數(shù)對(duì)模型性能的評(píng)價(jià)指標(biāo)Table 3 Evaluation index of model performance by different activation functions
自注意力機(jī)制作為一種特殊的注意力機(jī)制形式,其旨在根據(jù)輸入變量自身內(nèi)部特征相關(guān)性對(duì)輸入變量進(jìn)行加權(quán)賦值,高相關(guān)度的輸入變量將被賦予高權(quán)重。在本文SA-CNN-ONLSTM 模型中以自注意力層的形式對(duì)ONLSTM 層的隱藏層輸出加權(quán)。在青霉素發(fā)酵過(guò)程仿真實(shí)驗(yàn)中,設(shè)置自注意力層神經(jīng)元數(shù)量與輔助變量維度相等。實(shí)驗(yàn)中,自注意力層各輸入樣本自注意力權(quán)重如圖6所示,在不同神經(jīng)元下的輸入變量所賦權(quán)重動(dòng)態(tài)調(diào)整,通過(guò)對(duì)權(quán)重取平均值,得出不同神經(jīng)元下輸入變量所賦權(quán)重占比,結(jié)果如圖7 所示。輸入變量5 的自注意力權(quán)重占比最低,而輸入變量4、6、7 占比較高,即輸入變量5 對(duì)青霉素濃度的預(yù)測(cè)結(jié)果影響最小,而輸入變量4、6、7 影響較大。

圖6 自注意力層各輸入樣本自注意力權(quán)重Fig.6 Self attention weight of each input sample in the self attention layer

圖7 自注意力層各樣本自注意力權(quán)重占比Fig.7 Proportion of self attention weight of each sample in the self attention layer
為了更好地驗(yàn)證所提SA-CNN-ONLSTM 算法在青霉素濃度預(yù)測(cè)中的性能優(yōu)越性,本文將該算法分別與LSTM、CNN-LSTM、CNN-ONLSTM、AT-CNN-ONLSTM 和SA-CNN-ONLSTM 算法模型進(jìn)行對(duì)比,比較5 種算法模型對(duì)青霉素濃度的預(yù)測(cè)效果,實(shí)驗(yàn)結(jié)果如圖8、9、10 和表4 所示。由圖8 可知,SA-CNN-ONLSTM 算法模型隨著訓(xùn)練次數(shù)的增加,損失值下降速度最快,即模型收斂性最優(yōu)。

表4 各網(wǎng)絡(luò)模型對(duì)青霉素濃度預(yù)測(cè)結(jié)果Table 4 Prediction results of penicillin concentration by various network models

圖8 各網(wǎng)絡(luò)模型損失值變化曲線Fig.8 Change curves of loss value of each network model

圖9 不同模型下青霉素濃度預(yù)測(cè)擬合曲線Fig.9 Penicillin concentration prediction curve under different models

圖10 各網(wǎng)絡(luò)模型對(duì)青霉素濃度預(yù)測(cè)誤差箱線圖Fig.10 Box chart of prediction error of penicillin concentration by each network model
根據(jù)實(shí)驗(yàn)仿真結(jié)果可知,當(dāng)將LSTM 與CNN結(jié)合時(shí),利用CNN 對(duì)過(guò)程變量的局部依賴關(guān)系進(jìn)行處理,提取局部特征后可提高模型預(yù)測(cè)精度。在此基礎(chǔ)上通過(guò)改變LSTM 神經(jīng)元內(nèi)部結(jié)構(gòu),利用層級(jí)對(duì)隱藏層神經(jīng)元進(jìn)行運(yùn)算排序并分區(qū)更新,構(gòu)成ONLSTM 算法,可有效剔除時(shí)序特征中的冗余特征,并將高重要度的神經(jīng)元信息長(zhǎng)時(shí)間保留,從而進(jìn)一步提高預(yù)測(cè)精度。
以上3 種模型驗(yàn)證了采用卷積ONLSTM 能夠減小冗余變量對(duì)模型預(yù)測(cè)性能的影響,在此基礎(chǔ)上引入注意力機(jī)制。通過(guò)該機(jī)制能有效提取CNN-LSTM 所提取信息中的重要特征,提高該特征所賦權(quán)重,從而增強(qiáng)此特征對(duì)預(yù)測(cè)結(jié)果的影響。實(shí)驗(yàn)結(jié)果顯示,采用AT-CNN-ONLSTM 算法模型的RMSE 為0.019 74,高于前面3 種神經(jīng)網(wǎng)絡(luò)算法模型。而當(dāng)應(yīng)用自注意力機(jī)制,對(duì)輸入特征的相關(guān)性進(jìn)行處理,更加準(zhǔn)確地對(duì)相關(guān)特征加權(quán),實(shí)驗(yàn)結(jié)果表明,采用SA-CNN-ONLSTM 模型進(jìn)行預(yù)測(cè)時(shí),RMSE 為0.015 51,為5 種算法模型中最小,預(yù)測(cè)精度達(dá)到最高。
本文提出一種自注意力機(jī)制與卷積ONLSTM相結(jié)合的混合預(yù)測(cè)模型,以青霉素發(fā)酵過(guò)程為案例進(jìn)行軟測(cè)量建模,解決實(shí)際工業(yè)過(guò)程中非線性動(dòng)態(tài)建模問(wèn)題。所提模型通過(guò)CNN 對(duì)樣本數(shù)據(jù)的局部特征進(jìn)行特征提取和降維,并利用ONLSTM網(wǎng)絡(luò)提取樣本數(shù)據(jù)時(shí)序特征,根據(jù)層級(jí)重要性評(píng)價(jià)指標(biāo)過(guò)濾冗余信息。另一方面,通過(guò)引入自注意力機(jī)制動(dòng)態(tài)調(diào)節(jié)權(quán)重系數(shù),以提高重要變量特征權(quán)重,增強(qiáng)模型預(yù)測(cè)性能。實(shí)驗(yàn)結(jié)果表明,與其他深度學(xué)習(xí)模型相比,所提模型能有效降低輸入冗余信息對(duì)模型的影響,具有更高的預(yù)測(cè)精度,可為實(shí)際工業(yè)過(guò)程的優(yōu)化控制提供有力的技術(shù)支撐。