姜 暉,肖 迪
(南京工業大學 自動化與電氣工程學院,江蘇 南京211816)
SMB通過周期性切換進出料口的位置來模擬固定相和流動相的對流運動[1],是一個連續操作和間歇操作的混雜非線性系統。由于SMB吸附分離技術具有連續、高效、無污染、低能耗等優點,其在吸附分離過程中備受青睞。由于SMB機理模型[2]復雜、分離參數眾多,建立生產過程的智能模型用于操作管理和指導生產有著極其重要的現實意義。模擬移動床智能模型主要集中在使用神經網絡或支持向量機等方法建立模擬移動床各操作參數與分離性能或者產品純度之間的關系。Klatt等使用人工神經網絡對SMB非線性模型進行了辨識,為了減少過程之間的耦合性,采用與各進出口流量相關的4個因子作為網絡輸入,自定義的某時刻動態濃度曲線與循環穩態濃度曲線之間所夾的4個區域面積為網絡輸出,模擬SMB 動態特性。Song等[3]也采用4-4輸入、輸出的MIMO 子空間辨識方法建立經驗模型,不同的是其直接采用四區流量比作為輸入,而輸出量分別為抽取液純度、抽取液純度,生產率倒數及溶劑消耗量。Fu等[4]為了克服一般的軟測量模型難以適應與過程變化,采用FCMISVM (模糊C 均值增量支持向量機)建立了PX 吸附分離裝置中各區流量、流速比、溫度、壓強和最終產品純度之間的智能模型。Chen等[5]采用偏最小二乘方法建立模擬移動床的MIMO 模型,基于Klatt和Song的模型缺乏過程參數變化的更新機制,提出以一個周期到下一個周期的動態窗口之家的過程數據作為驅動,辨識模型顯示了很好的精度。李凌等[6]采用RBF神經網絡和遺傳算法相結合的混合建模方法建立SMB色譜分離過程4區流量與組分純度的軟測量模型,但是該方法僅僅是對線性驅動力模型模擬數據上加一定的擾動得到的樣本數據進行的訓練,對實際工作情況考慮不足,難以實際應用。本文將Ncut聚類和增量學習支持向量機相結合的方法建立模擬移動床的智能模型,采用Ncut方法對數據樣本進行聚類,得到樣本的聚類結果;其次將聚類后的樣本數據按反復記憶增強機制輸入向量機進行增強-增量學習訓練;最后將原始測試樣本輸入到訓練好的模型中進行檢驗,從而建立了模擬移動床的智能模型。
Ncut聚類是一種無監督的機器學習方法,Shi J等提出Ncut分割方法[7]。Ncut聚類是一種無監督的機器學習方法,Ncut聚類的思想是從Ncut分割方法中的圖像分割理論演變而來的,首先求出樣本數據相似度的無向帶權圖:G =(V,E),從而將數據聚類的問題轉化為圖的劃分問題。
給定一個圖G=(V,E),假設將圖分為不相交的兩個部分A1和A2(A1∪A2=V),A1和A2之間的相似度用式(1)表示

其中,權重ω(i,j)表示節點i和節點j 之間的相似度。但是這種劃分易偏向小區域劃分,在Shi J等提出了正則化劃分準則[8]即Ncut準則



當y 取實數值時,則式 (3)約簡為求矩陣方程的解

求取出式 (4)的第二小值對應的特征向量,該特征向量就是最優分割值,利用該特征向量對數據進行聚類。
傳統的聚類方法:K-means和EM (expectation maximization)算法,這些方法均是建立在凸球形的樣本空間上,易陷入局部最優解,實時性差。而Ncut聚類最大的優點是不需要訓練數據樣本,以及不需要預處理數據,最終可以在不同形狀的樣本空間上得到一個最優解。
增量學習支持向量機是在支持向量機的基礎之上進行的改進:當新的樣本出現時,判斷、訓練以及學習新增樣本,需要不斷的更新樣本集和模型,逐步提高模型的精度,增量學習支持向量機比支持向量機需要的內存少且耗時短。
當新增新樣本加入時,支持向量機需要對新增樣本進行判斷和學習,此時就需要數學中尋優的一個重要定理即KKT (karush-Kuhn-tucker)條件,它在求解凸二次規劃時起著重要的作用。
定理1 KKT 條件[9]:
對樣本集訓練得到分類決策函數

其中,ω和b 為待求參數,K(xi·x)為核函數,C 為常數,αi為Lagrange乘子是支持向量機KKT 條件的關鍵因素:①αi=0→f(xi)≥1或者f(xi)≤-1,對應的樣本位于分類間隔之外;②0<αi<C →f(xi)=1或者f(xi)=-1,對應的樣本位于分類間隔之上;③αi=C →-1≤f(xi)≤1,對應的樣本位于分類間隔之中。
總結以上三點,滿足KKT 條件的樣本是在分類間隔之外且可以被正確分類的支持向量和樣本。
當新增樣本(xi,yi)加入時,若新增樣本滿足KKT 條件的樣本則不會影響向量集,而那些不滿足KKT 條件的樣本則可能會發生以下3種變化:
(1)若新增樣本(xi,yi)位于分類間隔內,與本類樣本在分類邊界的同側,則可以被原始分類器正確分類,0 ≤yif(xi)≤1。
(2)若新增樣本(xi,yi)位于分類間隔內,與本類樣本在分類邊界的同側,則被原始分類器錯誤分類,-1 ≤yif(xi)≤0。
(3)若新增樣本(xi,yi)位于分類間隔外,與本類分類樣本在分類邊界的異側,則被原始分類器錯誤分類,yif(xi)<-1。
假設初始樣本集為W0,W0經過訓練得到分類器Ω0,W0上的支持向量集為;W1為新增樣本,此時訓練樣本集W0∪W1所得的分類器Ω1,對應的新增支持向量集。
定理2 若新增樣本W1滿足Ω0的KKT 條件,則W1∩=,即W1中不存在新的支持向量,則學習結束;相反,若W1中有樣本違背了Ω0的KKT 條件,則W1∩≠,即W1中一定存在部分或者全部轉化為新增樣本[10]。
以圖1為例,詳細的描述一下新增樣本加入時發生的變化,圖中V1、V2、V3、V4、V5表示初始支持向量,新增樣本X1、X2、X3加入,初始樣本集的最優分類超平面為f(x)=0,訓練新增樣本后得到的最優分類超平面為y(x)=0。Z1為初始樣本集中的非向量集,加入新增樣本訓練后的支持向量集為V1、X3、Z1。從圖中可以發現新增樣本X2、X3是被錯分的樣本,違背了Ω0的KKT 條件。X3在訓練后轉化成支持向量,原來的樣本集只有V1是支持向量,而V2、V3、V4、V5都轉化為滿足KKT 條件的樣本。Z1滿足KKT 條件,在訓練后轉化成支持向量。

圖1 增加樣本后訓練集可能發生的變化
增強學習是一種機器學習[11],支持向量機采取在線學習的方法,訓練樣本按c1、c2,....ci(i表示類別數)次序排列進行學習。
為了抑制向量機的遺忘機制,將數據按不同的類的次序輸入,向量機不斷地對各個類的數據進行增強記憶的學習和訓練,抑制了一類數據同時輸入時對其它類數據的遺忘。如此反復的學習,提高了向量機的學習能力。
(1)采用Ncut聚類算法對樣本數據進行聚類,算法首先建立各個樣本數據之間的相似度矩陣,隨后求出相似度矩陣的特征向量并且選擇合適的特征向量,從而實現了對樣本數據的聚類。
(2)為了增強向量機的學習過程將聚類得到的i類樣本按c1、c2,....ci(i表示類別數)次序排列進行學習并建立模型,這種增強記憶的學習方法能夠更好的訓練模型并提高模型的精度。
(3)采用網格搜索[12]和交叉驗證為模型搜索最優的參數徑向基核函數參數sig2和控制對錯分樣本懲罰程度的可調參數gam。
(4)當有新增樣本加入時,首先判斷新增樣本是否滿足KKT 條件,若滿足KKT 條件則不存在新的支持向量,結束學習;若不滿足條件則新增樣本中一定存在新的支持向量,需對新增樣本進行訓練學習并更新模型。
(5)當新增樣本學習結束,為了回歸預測的擬合效果更好,在此引入閾值T,根據每個測試樣本的回歸預測值,比較測試數據真實值與預測值之間的差值,若差值大于T,則將此數據加入到訓練集重新學習,若小于T,則結束學習。
基于模擬移動床吸附分離過程的工作原理[13]和分離過程現場的工藝操作經驗及生產過程檢測到的信息,可以發現與組分純度關系較為密切的參數有4 個區的流量,而4個區的流量是很難直接檢測的內部流量。所以轉而考慮用外部易測流量來替代這些內部流量發揮其同樣的作用,重要的外部流量有:進料液流量QF、抽取液流量QE、解析劑流量QD及固相流量QS。
采集某工廠在分離對二甲苯達到周期穩態時QF、QE、QD及QS的70組數據樣本作為模型的輸入,產品在其條件下的對應抽取液純度Pur_E、抽余液純度Pur_R 作為樣本的輸出。確定了樣本數據之后,需要對樣本數據進行一些預處理和Ncut聚類,將數據分為3組,一組用于訓練支持向量。一組用于模型的預測樣本。一組作為增量數據集。
通過增強-增量的學習訓練,建立了模擬移動床在達到穩態時吸附分離過程的軟測量模型,其抽取液純度和抽余液純度的變化曲線如圖2和圖3所示。

圖2 抽取液純度變化曲線
圖2和圖3分別是抽取液純度和抽余液濃度的變化曲線,在圖中共有4根曲線,其中一條曲線是測試值,其余3條曲線分別是在向量機、增量型向量機、Ncut和增量型向量機的結合這3種情況下的曲線,增量型向量機的訓練數據按照相同類別一起輸入的方式,而Ncut和增量型向量機相結合的方式采取不同類別間隔輸入的順序。

圖3 抽余液純度變化曲線
為了衡量基于Ncut聚類的增量支持向量機模型和增量支持向量機以及普通向量機的預測性能,采用均方誤差作為衡量指標,均方誤差越小說明擬合效果越好。
從表1中不難發現,均方誤差的值越來越小則擬合程度越來越好,基于Ncut聚類的增量支持向量機模型的均方誤差值最小擬合效果最好。這是因為先采用聚類效果較好的Ncut聚類,為了增強向量機的學習能力,將聚好類的數據反復記憶增強機制輸入向量機進行增強-增量學習訓練,同時采取增量型支持向量機來建立模型,其預測精度明顯高于普通的支持向量機。

表1 抽取液和抽余液的均方誤差
由于模擬移動床復雜的吸附分離過程,使得很難在線測得輸出各組分的純度變化。本文在支持向量機的基礎上,提出了基于Ncut聚類的增量支持向量機模型的建立,首先采用Ncut方法對離線采集的數據樣本進行聚類,得到訓練樣本的聚類結果;其次將聚類后的樣本數據按反復記憶增強機制輸入向量機進行增強-增量學習訓練;最后將原始測試樣本輸入到訓練好的模型中進行檢驗。研究結果表明,通過與普通向量機和增量型向量機的比較,采用基于Ncut聚類的增量支持向量機的模型具有更好的預測精度,驗證了該方法的有效性和優越性。
[1]CHEN Chuanchuan,BAO Leyun,RUAN Xiaobo.Modeling and numerical analysis of simulated moving bed chromatography linear separation process [J].Chemical Engineering and Equipment,2010,7:15-17 (in Chinese). [陳川川,鮑樂云,阮小波.模擬移動床色譜線性分離過程的建模和數值分析[J].化學工程與裝備,2010,7:15-17.]
[2]XUE Tao,WANG Jianhong,WANG Jingde.Dynamic simulation of simulated moving bed in parex process[J].Computer Simulation,2011,28 (5):391-394 (in Chinese). [薛燾,王建紅,王璟德.模擬移動床分離過程的動態仿真 [J].計算機仿真,2011,28 (5):391-394.]
[3]Song IH,Lee SB,Rhee HK,et al.Optimization-based predictive control of a simulated moving bed process using an identified model [J].Chemical Engineering Science,2007,61:6165-6179.
[4]Fu YF,Su HY,Zhang Y,et al.Adaptive soft-sensor modeling algorithm based on FCMISVM and its application in PX adsorption separation process [J].Chinese Journal of Chemical Engineering,2008,16 (5):746-751.
[5]Chen Junghui,Kai-Ting Hsieh.PLS data-driven based approach to design of a simulated moving bed process[J].Separation and Purification Technology,2009,65 (2):173-183.
[6]LI Ling,YUAN Decheng.Modeling of simulated moving bed process based on data driven [J].Chinese Journal of Scientific Instrument,2009,30 (6):622-624 (in Chinese). [李凌,袁德成.基于數據驅動的模擬移動床過程建模 [J].儀器儀表學報,2009,30 (6):622-624.]
[7]XIE Hongmei,LIAN Yu,PENG Jinye.Ncut-based segmentation and SVM classifier for medical image classification [J].Journal of Data Acquisition & Processing,2009,24 (6):734-737 (in Chinese). [謝紅梅,連宇,彭進業.基于Ncut分割和SVM 分類器的醫學圖像分類算法 [J].數據采集與處理,2009,24 (6):734-737.]
[8]ZHANG Yun,LIU Jianping.A estimating separate line algorithm for overlapping gastric adenocarcinoma cell image [J].China Journal of Image and Graphics,2007,12 (11):2058-2061 (in Chinese).[張云,劉建平.一種重疊胃腺癌細胞分離線估計算法 [J].中國圖象圖形學報,2007,12 (11):2058-2061.]
[9]WEN Bo,SHAN Ganlin,DUAN Xiusheng.Research of incremental learning algorithm based on KKT conditions and hull vectors[J].Computer Science,2013,40 (3):256-258 (in Chinese).[文波,單甘霖,段修生.基于KKT 條件與殼向量的增量學習算法研究[J].計算機科學,2013,40 (3):256-258.]
[10]CHEN Yuantao,XU Weihong,WU Jiaying.Incremental vector support vector machine learning algorithm [J].Journal of Nanjing University of Science and Technology,2012,36 (5):873-878 (in Chinese).[陳沅濤,徐蔚鴻,吳佳英.一種增量向量支持向量機學習算法 [J].南京理工大學學報,2012,36 (5):873-878.]
[11]WANG Xuening,CHEN Wei.A survey of direct policy search methods in reinforcement learning [J].CAAI Transactions on Intelligent Systems,2007,2 (1):16-24 (in Chinese).[王學寧,陳偉.增強學習中的直接策略搜索方法綜述 [J].智能系統學報,2007,2 (1):16-24.]
[12]NI Lin,ZHENG Hongying.Research of intrusion detection based on and SVM [J].Computer Applications,2007,27(10):2440-2443 (in Chinese). [倪霖,鄭洪英.基于聚類和支持向量機的入侵檢測研究 [J].計算機應用,2007,27(10):2440-2443.]
[13]LI Ling,JING Yuanwei,YUAN Decheng.Simulated moving bed adsorption separation technology and its applications[J].Computers and Applied Chemistry,2007,24 (4):441-444(in Chinese).[李凌,井元偉,袁德成.模擬移動床吸附分離技術及其應用 [J].計算機與應用化學,2007,24 (4):441-444.]