黃永紅,吳紅生,虞永勝
(1.江蘇大學 電氣信息工程學院,鎮江212013;2.江蘇弗洛瑞生物工程設備有限公司,鎮江212200)
近年來,隨著現代生物技術的不斷發展,動物細胞體外懸浮培養技術備受關注,已廣泛應用于各類生物制品以及獸用疫苗的生產研究過程中[1]。我國是農業大國,同時也是畜牧養殖業大國,動物傳染病的暴發流行對我國國民經濟影響較大[2]。禽流感病毒AIV(avian influenza virus)是動物界常見的一種急性傳染病,目前全世界每年約有(25~50)萬人死于AIV[3]。我國現階段預防AIV 的主要方法是采用滅活疫苗免疫接種,當前,大多數的禽流感滅活疫苗均通過禽流感疫苗細胞體外懸浮培養的方式進行病毒抗原的大量生產。該方法具有活細胞密度高、空間利用率大、工藝條件穩定等優點。
禽流感疫苗MDCK 細胞體外懸浮培養是一個高度復雜的非線性過程,培養過程包含許多難以實時在線測量的關鍵狀態變量,如基質濃度(主要為葡萄糖)、代謝產物(主要是乳酸)和活細胞密度等。這些變量直接影響著MDCK 細胞的產量和質量,所以實現懸浮培養過程的實時在線監測和控制、優化培養條件,從而使細胞達到最佳生長狀態是大量高效制備禽流感疫苗的前提[4]。
軟測量技術,利用易在線測量的量來預測難以實時在線測量的量,是合理解決以上弊端的主流方式。傳統的軟件測量建模方法,例如多元線形回歸法和基于時間序列的分析法,無法獲取最佳的預測結果。
人工神經網絡算法在非線性計算方面優勢顯著,并在工業建模和模型優化方面得到普遍推廣,人工神經網絡結果的建立具有較強的主觀性特點,且在具體學習階段弊端顯著。文獻[5]采用灰色關聯度分析法GRA 法建立人工神經網絡系統,并對糧食產量進行科學預測,在前期對輸入變量的篩選剔除主觀性影響,提升了BP 網絡的自適應能力和預測精度。文獻[6]基于幾種典型的預測模型的精度及魯棒性特點,提出了模糊聚類分析法FCM 的多模型結構特點。
文獻[7]選用最小二乘法支持向量模型,并將其應用在草酸鈷粒度的測試實踐中,獲取了最終單一化最小二乘支持向量模型的高精度預測結果。然而,在具體的工業生產實踐中,該預測模型存在一定的滯后性,例如:系統的數據存儲單元在工作時存在延時性,導致數據傳輸出現延時,而靜態軟測定建模技術尚未分析滯后因素,致使變量和主變量之間的關系出現異常,最終導致建模結果精度降低。
文獻[8]將動態軟測量應用到BHK-21 細胞懸浮培養的活細胞密度、乳酸濃度和葡萄糖濃度的軟測量上,提出了一種動態關聯向量機DRVM 軟測量。關聯向量機RVM(relevance vector machine)具有支持向量機SVM(support vector machine)的所有優點,與SVM 相比,RVM 更稀疏、 更適用于在線檢測,并且動態軟測量更符合實際工業生產。然而,DRVM模型也存在一些問題,如模型的預測時間長,其泛化能力受實際生產中數據缺失等的影響嚴重。
綜上所述,在此提出一種基于灰色關聯分析和核模糊聚類的動態關聯向量機GRA-KFCM-DRVM的測試建模技術。
設給定樣本集{vi,ti},其中:i=1,2,…,n;vi∈Rd,vi為輸入樣本;ti∈R,ti為輸出采 樣值;n 為樣本總數。通過對樣本的學習,其回歸模型與SVM 相同,即

式中:{ωi}為權值向量;K(v,vi)為核函數,一般取高斯徑向基RBF(radial basis function)核函數,即

假設,vi與ti都屬于獨立分布,且噪聲εi服從均值為零方差為σ2的高斯分布,則其輸出為

若目標值ti獨立同分布,訓練樣本集的似然函數為

其中

式中:Φ 為核函數組成的n×(n+1)階矩陣,即

其中

為了防止在評價ω 極大似然估計時過學習問題的出現,并進一步提高模型的泛化能力,RVM 定義的每個權值的高斯先驗概率分布為

其中

式中:a 為決定權值ω 的先驗分布的超參數。
RVM 算法推理過程的流程如圖1 所示。

圖1 RVM 算法流程Fig.1 RVM algorithm flow chart
通常采用{x(k),y(k)}的形式進行軟測量建模,這是當前測試實踐中普遍使用的靜態測量建模技術。該技術采用靜態測量模式,并將滯后及延時因素考慮在內。與穩態技術相比,在工業生產實踐中,很多流程處于動態過程中,實際的工業測量難以保證其始終處于工作區域內。換言之,在k 值影響下的輸出變量不僅是k 時刻的數據輸入x(k),還包括過渡階段的x(k-1),x(k-2),…,x(k-m+1),其中m為數據長度。考慮實際生產過程的動態因素,動態關聯向量機DRVM 軟測量模型的原理如圖2 所示。

圖2 DRVM 軟測量原理Fig.2 DRVM soft sensing schematic
在圖2 中經過動態加權后新的輸入變量為

式中:n 為輔助變量的個數;m 為數據長度;d 為人為測量造成的純時延;wj為動態權值。則DRVM 的預測輸出為

取自現場工業生產現場的樣本尚未降噪,而且在生產實踐中依照現場調度情況進行的生產調整,會造成很多孤立點的存在和數據的遺失,這些都會不同程度地影響動態關聯條件下向量模型的數據訓練效果,且DRVM 模型對于訓練集合中的數據降噪要求及孤立點敏感性較高[9]。為了切實克服這一弊端,建立了滿足這種不完整數據且存在噪音的模糊核聚類算法,實現輸入數據的智能化遴選,降低奇異點對支持向量機的模型影響。
聚類分析是將一組已經給定的未知樣本數據依照類型劃分,使得相同類型樣本的相似度較高,且不同類型的樣本相似度低,聚類分析的目的是深度描繪數據的內在結構形式。其中,模糊c-均值聚類分析算法FCMA(fuzzy c-means algorithm)將模糊數學基本理論與聚類分析相結合,是當前主要使用的聚類分析法之一[10]。使用核函數并將其添加到FCM內,建立模糊矩陣,通過數據輸入空間引導一類核函數的依賴距離測定,并將FCM 在歐拉坐標下的距離標準推廣到相同空間內的不同距離聚類測量中,提升不完整數據及噪音數據的魯棒性和精度指標。
模糊核函數距離算法的目標函數[11]為

式中:xj為樣本集;vi為聚類中心;隸屬度值uij應滿足以下3 個條件:

定義核函數K(x,y),滿足

將式(9)展開并代入核函數,在式(10)的約束下優化,得到

最終,把樣本分成N 個子類,并對不同的子空間建立相應的關聯隨機向量模型,依照樣本的時間、空間特點和分布情況,對不同類型的樣本賦值不同的隸屬度指標uj,采用加權計算法得到的輸出結果為

MDCK 細胞體外懸浮培養過程中營養物質的耗竭和大量代謝副產物的積累是限制活細胞生長密度、影響培養過程的主要因素,而細胞生長過程中主要的營養物質是葡萄糖,此外還有8 種必需的氨基酸及其他非必需氨基酸。
葡萄糖為MDCK 細胞生長提供主要的碳源,是最重要的能源來源之一,葡萄糖通過分解產生乳酸。分析葡萄糖的濃度值和乳酸濃度值的高低,對MDCK 細胞體外懸浮培養生產禽流感疫苗的過程影響顯著。此外,活細胞的濃度指標是禽流感疫苗生產效率的重要表征,參數值預測的目的是為了能夠更加精準地測定并控制活細胞的濃度,為生產疫苗做儲備。故在此選定葡萄糖濃度、乳酸濃度、活細胞濃度作為DRVM 測量模型的主變量。
影響DRVM 模型主導變量的因素有很多。所選擇的輸入變量過多會加大模型的復雜度,增加模型預測時間;選擇不當還會影響模型預測精度。
灰色關聯分析(GRA)屬于一類相對性的序列排布分析法[12]。它可以測定系統內不同因素的關聯度,進而為確定細胞濃度等因素的重要性奠定基礎。GRA 理論的核心思想是基于空間結合圖形外形相似度的關聯度評價[13]。其計算流程如下:
步驟1計算表征行為特點的輸出序列及影響行為系統的輸入序列的標準化處理方式。
步驟2關聯度的計算。在t=n 時,輸入序列{xi(n)}和輸出序列{xo(n)}的關聯指標為

式中:λ 為分辨系數,且0<λ<1;Δmin為第二最小差值;Δmax為兩級的最大差值;Δio(n)為不同輸入序列的{xi(n)}曲線對應的輸出序列{xo(n)}中的不同點的差值絕對值。
步驟3關聯度τio的計算。輸入及輸出序列的關聯度標準計算為

步驟4關聯度的序列排布。計算關聯度指標的序列值。采用灰色關聯度計算法,定量分析不同因素對測試軟件及模型的影響程度[14]。從原理層面分析,得到影響主導變量的環境變量有:溫度T(X1),pH 值(X2),O2溶解量DO(X3),O2分壓PO2(X4),CO2分壓PCO2(X5),體積V(X6),壓力P(X7)。進一步對所得變量做灰色關聯分析,計算出每個變量與主導變量葡萄糖濃度(Y1)、乳酸濃度(Y2)、活細胞密度(Y3)的關聯度; 選擇1 個培養批次的數據作為樣本,取分辨系數λ=0.5,計算結果見表1。

表1 環境變量與主導變量的關聯度Tab.1 Relevance between environmental variables and dominant variables
根據表1 關聯度指標計算結果,分析不同環節的變量之間的相互關聯度指標,然后按照綜合關聯度的大小進行排序,得到:A2>A6>A3>A1>A4>A5>A7(其中A 為各環境變量與主導變量的綜合關聯度)。此外,PO2,PCO2及P 與主導變量的關聯度均低于0.5,表明這3 個變量對主導變量的影響不大。因此最終選擇T,pH,DO,V 這4 個環境變量作為輔助變量。軟測量模型結構如圖3 所示。

圖3 DRVM 軟測量模型結構Fig.3 DRVM soft sensing model structure
試驗中共采集5 個培養批次的數據,對樣本數據進行歸一化處理分析,并將歸一化后的數據(不同批次數據含有58 個樣本,不同樣本中含有7 個變量,分別為軟測試變量模型的輔助變量和主體變量)拆分為2 批次,一批次為訓練樣本,用于訓練人工神經網絡(前4 批次,含232 樣本),另一批次為測試樣本集合(另5 個批次,58 個樣本)。
根據樣本的數據特點,把232 個樣本分為16類,并對不同的子類型建立動態化的關聯向量機模型,依照樣本在時空上的分布特點,對不同的樣本賦值不同的隸屬度指標ui,借助加權計算法得到輸出結果。軟測試建模分析流程如圖4 所示。

圖4 基于GRA-KFCM-DRVM 軟測量建模Fig.4 Soft sensing modeling based on GRA-KFCM-DRVM
基于MDCK 細胞懸浮培養生產禽流感疫苗階段的技術要求,將反應器內的溫度保持在36.5 ℃左右,pH 值控制在7.0~7.2,勻速攪拌速率控制在30 r/min,氧氣溶解量控制在40%~45%。
為驗證GRA-KFCM-DRVM 模型的預測精度,將其與DRVM 軟測量模型預測結果做對比。在MatLab 環境下進行仿真,仿真結果如圖5,圖6 和圖7 所示;誤差如圖8,圖9 和圖10 所示。
由圖5,圖6 和圖7 可見,與DRVM 模型的預測效果相比,GRA-KFCM-DRVM 模型的預測結果更接近參數的真實值,同時GRA-KFCM-DRVM 的確定系數R2更接近于1。說明GRA-KFCM-DRVM 的預測精度較高于DRVM。

圖5 葡萄糖濃度預測趨勢曲線Fig.5 Trend curve for predicting glucose concentration

圖6 乳酸濃度預測趨勢曲線Fig.6 Predictive trend curve of lactic acid concentration

圖7 活細胞密度預測趨勢曲線Fig.7 Trend curve for predicting living cell density
葡萄糖濃度預測誤差曲線如圖8 所示。由圖可見,DRVM 模型的最大誤差為7.7%;GRA-KFCMDRVM 模型的最大誤差為3.6%。結果表明,GRAKFCM-DRVM 模型的預測精度更高; 由圖形的走勢可見,GRA-KFCM-DRVM 波動更小、更加穩定。
乳酸濃度預測誤差曲線如圖9 所示。由圖可見,DRVM 模型的最大誤差為6.6%;GRA-KFCMDRVM 模型的最大誤差為4.9%,小于DRVM 模型的預測誤差,且隨著樣本量的增加GRA-KFCMDRVM 模型的預測誤差越來越穩定。DRVM 模型和GRA-KFCM-DRVM 模型的活細胞密度預測誤差曲線如圖10 所示。由2 個模型的走勢可見,GRA-KFCM-DRVM 模型的預測精度更高且更穩定。

圖8 葡萄糖濃度預測誤差Fig.8 Prediction error of glucose concentration

圖9 乳酸濃度預測誤差曲線Fig.9 Error curve of lactic acid concentration prediction

圖10 活細胞密度預測誤差Fig.10 Prediction error of living cell density
為了更直觀地說明GRA-KFCM-DRVM 模型的優勢,利用最大誤差eMSE,決定系數R2和預測時間3個性能評價指標來反映其優越性(見表2)。由表可知,GRA-KFCM-DRVM 模型的誤差更低,R2更接近1;DRVM 模型的預測時間更短,但與GRA-KFCMDRVM 模型相差不大,且GRA-KFCM-DRVM 模型的預測時間在合理的范圍內。結果表明GRAKFCM-DRVM 模型性能更好。

表2 模型的性能比較Tab.2 Performance comparison of model
在動態關聯向量機的基礎上,提出基于灰色關聯分析的模糊核聚類DRVM 軟測試建模技術,并對通過灰色關聯度遴選的樣本進行模糊核聚類分析,降低或者直接剔除缺失數據和噪音數據對動態關聯向量機模型的影響程度。選用真實數據的論證結果表明,基于靜態軟測試模型基礎而建立的動態軟測量模型,相較于一般靜態模型,能夠深刻反映工業生產階段的動態化本質特點;通過灰色關聯分析確定了與主導變量密切關聯的輔助變量,減少了計算維度,利用模糊核聚類對新樣本進行聚類,增強了模型魯棒性,提高了模型的泛化能力;通過仿真驗證分析,與原有的DRVM 模型相比,GRA-KFCMDRVM 模型的預測精度更高、更穩定。