999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聯(lián)合樣本輸出與特征空間的半監(jiān)督概念漂移檢測(cè)法及其應(yīng)用

2022-06-18 10:37:20孫子健喬俊飛
自動(dòng)化學(xué)報(bào) 2022年5期
關(guān)鍵詞:概念特征測(cè)量

孫子健 湯 健 喬俊飛

城市固廢(Municipal solid waste,MSW)的全球年增長(zhǎng)率隨城鎮(zhèn)人口增加和居民消費(fèi)水平提高而不斷增加[1],我國(guó)部分城市甚至陷入 “垃圾圍城”困境[2].該現(xiàn)象直接危害環(huán)境衛(wèi)生和生態(tài)平衡,因此MSW 處理成為亟待解決的全球性問(wèn)題.具有無(wú)害化、減量化和資源化等特點(diǎn)的MSW 焚燒(Municipal solid waste incineration,MSWI)是世界范圍內(nèi)廣泛采用的措施[3],但該過(guò)程的排放尾氣中含有氮氧化物、二噁英等難以檢測(cè)的有害污染物.目前,MSWI 企業(yè)主要通過(guò)控制焚燒運(yùn)行參數(shù)實(shí)現(xiàn)污染物排放濃度的控制.顯然,實(shí)現(xiàn)MSWI 過(guò)程污染物排放最小化的關(guān)鍵之一是實(shí)時(shí)、精準(zhǔn)地測(cè)量這些難測(cè)參數(shù)的排放濃度[4].對(duì)此,軟測(cè)量模型因具有經(jīng)濟(jì)性和快速性等優(yōu)點(diǎn)而成為當(dāng)前最為常見(jiàn)的實(shí)時(shí)測(cè)量策略[5].但是,由于工業(yè)過(guò)程多具有復(fù)雜性、隨機(jī)性和時(shí)變性等特征,這使得基于歷史數(shù)據(jù)構(gòu)建的軟測(cè)量模型因不能覆蓋新樣本所表征的數(shù)據(jù)分布而導(dǎo)致泛化性能惡化,導(dǎo)致這一現(xiàn)象的本質(zhì)原因是概念漂移[6].

概念漂移可表述為數(shù)據(jù)分布隨時(shí)間發(fā)生變化,從軟測(cè)量模型的視角可理解為樣本輸出空間與特征空間的映射關(guān)系發(fā)生了改變[7].該現(xiàn)象是由難以預(yù)知的工業(yè)生產(chǎn)環(huán)境改變、物料成分波動(dòng)和設(shè)備磨損與維護(hù)等因素引起,并難以避免地導(dǎo)致模型測(cè)量精度顯著降低[6].例如,MSWI 過(guò)程中的爐膛溫度變化可使煙氣污染物生成關(guān)系改變,MSW 含水率的差異會(huì)導(dǎo)致?tīng)t內(nèi)燃燒狀態(tài)的變化[3],這些現(xiàn)象均會(huì)引起概念漂移,進(jìn)而使得基于歷史數(shù)據(jù)構(gòu)建的污染物濃度測(cè)量模型的精度下降[8].因此,如何采用漂移檢測(cè)方法有效識(shí)別能夠表征新概念的漂移樣本并將其用于軟測(cè)量模型的更新,是提高模型泛化性能需要解決的首要問(wèn)題[9].

有監(jiān)督型漂移檢測(cè)的代表性算法是漂移檢測(cè)法(Drift detection method,DDM)[10?11],其根據(jù)新樣本測(cè)量性能定義警告與漂移等級(jí).當(dāng)測(cè)量誤差超過(guò)警告等級(jí)時(shí),存儲(chǔ)新樣本;當(dāng)超過(guò)漂移等級(jí)時(shí),采用存儲(chǔ)的新樣本及歷史樣本構(gòu)建新模型以代替舊模型.類似地,文獻(xiàn)[12]計(jì)算模型在總體樣本和最近樣本中獲得可接受測(cè)量誤差的概率,采用Hoeffding 不等式判斷概率差異后確認(rèn)是否發(fā)生漂移;文獻(xiàn)[13]通過(guò)比較模型更新前后輸出權(quán)重值的變化程度表征漂移;文獻(xiàn)[14?15]分別采用指數(shù)加權(quán)移動(dòng)平均和Page-Hinkley 檢測(cè)法確認(rèn)模型測(cè)量精度的變化,以判斷是否發(fā)生了概念漂移.由上可知,難測(cè)參數(shù)的測(cè)量誤差變化能夠表征概念漂移對(duì)測(cè)量模型的直接影響,該類方法具有計(jì)算過(guò)程簡(jiǎn)便高效的優(yōu)點(diǎn);但面向?qū)嶋H工業(yè)過(guò)程,上述算法忽視了難測(cè)參數(shù)真值無(wú)法全部獲取的實(shí)際現(xiàn)狀.例如,在MSWI過(guò)程中,氮氧化物的排放濃度采用人工采樣分析方法時(shí)其真值獲取周期過(guò)長(zhǎng),采用煙氣傳感器檢測(cè)時(shí)其易受惡劣工況影響而導(dǎo)致測(cè)量失真[16];二噁英的排放濃度因其采樣與化驗(yàn)分析的復(fù)雜性導(dǎo)致其真值標(biāo)注周期長(zhǎng)且成本高昂[3].因此,上述有監(jiān)督型漂移檢測(cè)方法難以在實(shí)際工業(yè)過(guò)程中直接使用.

無(wú)監(jiān)督型漂移檢測(cè)的代表性算法有:文獻(xiàn)[17?19]基于多元統(tǒng)計(jì)策略分別采用近似線性依靠(Approximate linear dependence,ALD)條件、主成分分析(Principal component analysis,PCA)和角度優(yōu)化全局降維算法(Angle optimized global embedding,AOGE)分析樣本特征空間的分布變化;文獻(xiàn)[20?21]基于距離度量策略采用馬氏距離和領(lǐng)域熵度量特征空間的概念變化;文獻(xiàn)[22?23]基于假設(shè)檢驗(yàn)策略提出基于重采樣和累計(jì)區(qū)域密度的檢測(cè)方法.該類算法的特點(diǎn)是在漂移檢測(cè)階段不依賴難測(cè)參數(shù)真值,但在模型更新階段仍需采用標(biāo)注真值的樣本,因此難以在短期內(nèi)使得模型具有對(duì)漂移的適應(yīng)能力[24].

此外,復(fù)雜工業(yè)過(guò)程中概念漂移的影響會(huì)同時(shí)體現(xiàn)為模型測(cè)量誤差和樣本特征空間的綜合變化.因此,僅基于樣本特征空間的分布差異難以有效表征概念漂移現(xiàn)象[10].針對(duì)上述問(wèn)題,面向分類任務(wù),文獻(xiàn)[25]提出半監(jiān)督漂移學(xué)習(xí)框架,通過(guò)監(jiān)視分類器置信度變化初步篩選漂移樣本,再根據(jù)置信度得分估計(jì)漂移樣本的偽標(biāo)簽,最后進(jìn)行模型更新.類似地,文獻(xiàn)[26]提出基于密度估計(jì)的半監(jiān)督漂移檢測(cè),在少量有標(biāo)注樣本前提下采用增量估計(jì)器標(biāo)注其余樣本的標(biāo)簽而實(shí)現(xiàn)漂移檢測(cè).但目前為止,面向復(fù)雜工業(yè)過(guò)程回歸建模領(lǐng)域的半監(jiān)督概念漂移檢測(cè)方法鮮有報(bào)道.由于分類任務(wù)常具有明確且有限的類別標(biāo)簽用于劃分樣本概念,其算法設(shè)計(jì)方式不適用于連續(xù)型變量,因此上述方法難以直接用于回歸建模領(lǐng)域[27].

綜上,本文充分考慮MSWI 過(guò)程中的概念漂移現(xiàn)象和難測(cè)參數(shù)真值無(wú)法及時(shí)獲取的問(wèn)題,提出聯(lián)合樣本輸出與特征空間的半監(jiān)督漂移檢測(cè)方法.首先,采用高斯過(guò)程回歸(Gaussian process regression,GPR)依據(jù)歷史樣本構(gòu)建離線測(cè)量模型;然后,采用基于PCA 的無(wú)監(jiān)督機(jī)制檢測(cè)特征空間漂移的樣本并將其記錄在待標(biāo)注緩存窗口;接著,在樣本輸出空間中采用基于時(shí)間差分(Temporal-difference,TD)學(xué)習(xí)的半監(jiān)督機(jī)制對(duì)上述緩存窗口內(nèi)的樣本進(jìn)行偽真值標(biāo)注,并采用Page-Hinkley 檢測(cè)法確認(rèn)能夠表征概念漂移的新樣本;最后,采用新樣本與歷史樣本更新軟測(cè)量模型.

1 城市固廢焚燒(MSWI)過(guò)程概念漂移問(wèn)題描述

1.1 城市固廢焚燒過(guò)程描述

MSWI 過(guò)程主要由固廢儲(chǔ)運(yùn)、固廢焚燒、蒸汽發(fā)電、煙氣處理和煙氣排放等系統(tǒng)組成,其工藝流程如圖1 所示.

結(jié)合圖1,針對(duì)固廢焚燒階段可描述如下[3].

MSW 由抓斗投放至進(jìn)料器并送入爐排式焚燒爐.經(jīng)干燥爐排預(yù)熱后,MSW 通過(guò)一次風(fēng)機(jī)輸送的助燃空氣在燃燒爐排中著火燃燒,在燃燼爐排內(nèi)燃燒完畢,產(chǎn)生的煙氣經(jīng)二次風(fēng)機(jī)產(chǎn)生的高度湍流分解后進(jìn)入煙氣管道.該階段中,難測(cè)參數(shù)氮氧化物的生成原因主要包括[28]:1) MSW 本身含有的有機(jī)和無(wú)機(jī)含氮化合物在焚燒過(guò)程中與氧氣發(fā)生化學(xué)反應(yīng);2) 一次風(fēng)和二次風(fēng)中的氮?dú)飧邷匮趸?3) 助燃燃料(汽油等)高溫裂解.因此,爐膛溫度、爐膛含氧量、煙氣停留時(shí)間與湍流程度等因素改變均會(huì)使氮氧化物生成關(guān)系變化并產(chǎn)生概念漂移.

傳統(tǒng)MSWI 過(guò)程常通過(guò)人工化驗(yàn)和煙氣自動(dòng)監(jiān)控系統(tǒng)(Continuous emission monitoring system,CEMS)測(cè)定氮氧化物排放濃度.其中,人工化驗(yàn)主要包括在線采樣和離線化驗(yàn),該方式測(cè)定周期較長(zhǎng)且遠(yuǎn)滯后于實(shí)際過(guò)程,因此無(wú)法向測(cè)量模型及時(shí)提供真值[3];CEMS 常通過(guò)完全抽取或稀釋抽取進(jìn)行測(cè)量,前者在正壓環(huán)境或抽氣量過(guò)大時(shí)易發(fā)生抽氣口堵塞,后者測(cè)量響應(yīng)時(shí)間過(guò)長(zhǎng)且對(duì)干燥壓縮空氣純度要求高,此外CEMS 需要有資質(zhì)的技術(shù)人員定期維護(hù)[16].上述方式均導(dǎo)致難測(cè)參數(shù)的真值獲取困難.因此,需通過(guò)標(biāo)注難測(cè)參數(shù)的偽真值,以在無(wú)法獲取全部真值的情況下分析過(guò)程中存在的概念漂移現(xiàn)象.

1.2 概念漂移問(wèn)題描述

工業(yè)過(guò)程中通常根據(jù)概念漂移的產(chǎn)生原因?qū)⑵浞譃檫^(guò)程漂移和傳感器漂移[29].其中,過(guò)程漂移包括過(guò)程內(nèi)部結(jié)構(gòu)變化(機(jī)械元件磨損等)和過(guò)程外部條件變化(氣候與工藝要求等);傳感器漂移常由傳感器等硬件設(shè)施的測(cè)量精度改變導(dǎo)致,不反映運(yùn)行過(guò)程的真實(shí)參數(shù)變化.本文主要研究MSWI 過(guò)程中常見(jiàn)的概念漂移形式,即由過(guò)程外部條件變化引起的過(guò)程漂移.

結(jié)合文獻(xiàn)[30]中定義,此處對(duì)工業(yè)過(guò)程中概念漂移問(wèn)題描述如下:

根據(jù)描述,常見(jiàn)概念漂移處理方式如圖2 所示.

圖2 中,虛線框表示該部分內(nèi)容并非始終可用(樣本真值);分布信息提取指通過(guò)測(cè)量誤差、多元統(tǒng)計(jì)或假設(shè)檢驗(yàn)等方式收集可表征樣本分布特性的關(guān)鍵信息;分布差異檢測(cè)是針對(duì)已提取信息通過(guò)預(yù)設(shè)規(guī)則進(jìn)行相似度量;依據(jù)檢測(cè)結(jié)果,最終由具體算法判斷新樣本是否用于更新或舍棄[11].

圖2 常見(jiàn)概念漂移處理方式Fig.2 The common way to deal with concept drift

2 概念漂移檢測(cè)算法策略

依據(jù)上文分析,本文提出聯(lián)合樣本輸出與特征空間的半監(jiān)督概念漂移檢測(cè)算法,其策略如圖3所示.

圖3 中各模塊功能描述如下:

圖3 本文算法策略Fig.3 The strategy of the proposed algorithm

1) 軟測(cè)量模型構(gòu)建.采用歷史樣本構(gòu)建基礎(chǔ)軟測(cè)量模型,并依據(jù)新樣本的特征空間輸出測(cè)量值.

2) 特征空間檢測(cè).采用PCA 對(duì)新樣本的特征空間進(jìn)行漂移檢測(cè),當(dāng)檢測(cè)值超過(guò)PCA 控制限時(shí)認(rèn)為樣本具有漂移可能性,此時(shí)將該樣本存入待標(biāo)注緩存窗口,當(dāng)窗口內(nèi)樣本數(shù)量達(dá)到預(yù)設(shè)窗口容量時(shí)將這些樣本送入輸出空間檢測(cè)模塊.

3) 輸出空間檢測(cè).基于TD 學(xué)習(xí)對(duì)待標(biāo)注緩存窗口內(nèi)樣本的偽真值進(jìn)行標(biāo)注,再采用Page-Hinkley檢測(cè)法分析樣本的偽真值與模型測(cè)量值差異,以確認(rèn)樣本是否漂移.

4) 測(cè)量模型更新.確認(rèn)當(dāng)前緩存窗口內(nèi)樣本發(fā)生概念漂移后,將其結(jié)合歷史樣本共同構(gòu)造為新訓(xùn)練集重新訓(xùn)練軟測(cè)量模型,同時(shí)重置待標(biāo)注緩存窗口.

3 概念漂移檢測(cè)算法實(shí)現(xiàn)

3.1 軟測(cè)量模型構(gòu)建模塊

本文采用GPR 構(gòu)建基礎(chǔ)軟測(cè)量模型.GPR 通過(guò)貝葉斯推理確定樣本復(fù)雜性水平并建立特征空間與輸出空間的映射關(guān)系,現(xiàn)已廣泛應(yīng)用于多種工業(yè)領(lǐng)域[32].

3.2 特征空間檢測(cè)模塊

3.3 輸出空間檢測(cè)模塊

3.3.1 基于時(shí)間差分(TD)學(xué)習(xí)的偽真值標(biāo)注

偽真值標(biāo)注是實(shí)現(xiàn)半監(jiān)督漂移檢測(cè)的前提.現(xiàn)有研究中,文獻(xiàn)[36?37]證明TD 學(xué)習(xí)對(duì)特征空間漂移的樣本具有良好的測(cè)量性能.TD 學(xué)習(xí)通過(guò)分析樣本輸出與特征空間的一階差分量變化實(shí)現(xiàn)新樣本測(cè)量[38],其思路描述如下.

具體標(biāo)注策略為:根據(jù)式(7)、式(8),計(jì)算歷史樣本輸出與特征空間的一階差分量集合分別為?ytrain和 ?Xtrain,并請(qǐng)求現(xiàn)場(chǎng)人員標(biāo)注窗口內(nèi)第一個(gè)樣本的真值.原因是:1) 實(shí)際工業(yè)過(guò)程存在成本高昂、檢測(cè)延遲和維護(hù)困難等問(wèn)題,導(dǎo)致難以對(duì)全部樣本進(jìn)行真值標(biāo)注;2) 新樣本發(fā)生概念漂移時(shí),其輸入輸出關(guān)系相較歷史樣本有較大改變,此時(shí)僅依據(jù)歷史樣本難以推斷漂移樣本的偽真值.綜上,僅標(biāo)注窗口內(nèi)第一個(gè)樣本的真值,可在縮減標(biāo)注成本的同時(shí)提高后續(xù)偽真值標(biāo)注工作的準(zhǔn)確性.據(jù)此,構(gòu)建新一階差分量集合為:

3.3.2 基于Page-Hinkley 檢測(cè)法的漂移樣本確認(rèn)

合理分析樣本偽真值和測(cè)量值間的差異,是確認(rèn)樣本最終概念漂移情況的關(guān)鍵.現(xiàn)有研究表明,基于累積和思想推導(dǎo)的Page-Hinkley 檢測(cè)法具有對(duì)分布漂移敏感、計(jì)算簡(jiǎn)便等特點(diǎn),因此可有效用于輸出空間漂移檢測(cè)[24].該方法中,給定一系列觀測(cè)值 [l1,l2,···,lm],計(jì)算備擇假設(shè)(觀測(cè)值中存在漂移點(diǎn)θ,即 1<θ m)的似然比統(tǒng)計(jì)量為[39]:服從數(shù)學(xué)期望為δ的正態(tài)分布.

式(20)以對(duì)數(shù)表示為:

據(jù)此,備擇假設(shè)(有漂移) 對(duì)原假設(shè)(無(wú)漂移)的對(duì)數(shù)似然比統(tǒng)計(jì)量為:

通過(guò)設(shè)置閾值與Zm進(jìn)行比較,即可判斷當(dāng)前系列觀測(cè)值內(nèi)是否存在概念漂移.

當(dāng)待標(biāo)注緩存窗口內(nèi)樣本均完成偽真值標(biāo)注后,本文采用Page-Hinkley 檢測(cè)法對(duì)這些樣本的輸出空間進(jìn)行概念漂移檢測(cè).以T時(shí)刻的觀測(cè)值Obs(T)為例,檢測(cè)流程如下[24].

首先,計(jì)算關(guān)于Obs(T)的累計(jì)變量φT:

其中,ObsT ?1表示此前T?1 時(shí)刻所有歷史觀測(cè)值的均值;累計(jì)變量φT表示當(dāng)前觀測(cè)值Obs(T)與歷史觀測(cè)值均值之差.

然后,通過(guò)計(jì)算變化指標(biāo)PHT判斷當(dāng)前觀測(cè)值Obs(T)是否異常:

式中,?T表示當(dāng)前所有時(shí)刻中記錄的最小累計(jì)變量值;PHT表示當(dāng)前T時(shí)刻累計(jì)變量φT與最小累計(jì)變量值之差.當(dāng)滿足條件PHT >λ時(shí),認(rèn)為觀測(cè)值Obs(T)異常,其中λ是經(jīng)驗(yàn)閾值.

在此基礎(chǔ)上,本文將觀測(cè)值Obs(T)選取為窗口第n次填滿時(shí)窗口內(nèi)樣本的累積平均測(cè)量誤差,即:

此時(shí),累計(jì)變量φT表示當(dāng)前累計(jì)平均測(cè)量誤差與歷史累計(jì)平均測(cè)量誤差均值之差;?T表示當(dāng)前記錄的最小φT值.

此外,根據(jù)式(26),緩存窗口第一次被填滿即n=1 時(shí),?T=φT,此時(shí)樣本輸出空間中缺乏漂移判斷依據(jù),因此本文將?T表示為:

式中,?0為基準(zhǔn)累計(jì)平均測(cè)量誤差,將依據(jù)驗(yàn)證樣本平均測(cè)量誤差獲得.同時(shí),本文設(shè)置λ=0,即當(dāng)φT >?T,代表當(dāng)次窗口內(nèi)累計(jì)平均測(cè)量誤差相較歷史樣本明顯升高時(shí),認(rèn)為窗口內(nèi)樣本可表征概念漂移,并將其用于構(gòu)建新訓(xùn)練集.

3.4 測(cè)量模型更新模塊

當(dāng)緩存窗口內(nèi)樣本被確認(rèn)漂移后,本文根據(jù)歷史樣本和當(dāng)前窗口內(nèi)樣本共同構(gòu)建新訓(xùn)練集對(duì)測(cè)量模型進(jìn)行更新.以緩存窗口被第n次填滿時(shí)窗口內(nèi)樣本為例,構(gòu)造新訓(xùn)練集如下:

4 仿真分析

4.1 數(shù)據(jù)集

本文采用合成數(shù)據(jù)集驗(yàn)證所提方法的有效性,并通過(guò)真實(shí)MSWI 過(guò)程數(shù)據(jù)集驗(yàn)證其實(shí)際應(yīng)用效果.

1) 合成數(shù)據(jù)集

合成數(shù)據(jù)集采用文獻(xiàn)[40]所提方法構(gòu)建.正常樣本生成依據(jù)為:

式中,x1、x2、x3、x4和x5均服從[0,1]區(qū)間內(nèi)均勻分布,σ(0,1) 是服從正態(tài)分布的隨機(jī)數(shù).

漂移樣本生成依據(jù)為:

式中,各特征取值范圍滿足:

合成數(shù)據(jù)集共有樣本1 500個(gè),其中前1 000個(gè)為正常樣本,后500個(gè)為漂移樣本.在正常樣本中,又劃分前500個(gè)為建模樣本,后500個(gè)為驗(yàn)證樣本.驗(yàn)證樣本設(shè)置目的是獲得式(29)中基準(zhǔn)累計(jì)平均測(cè)量誤差?0值.

2) MSWI 過(guò)程數(shù)據(jù)集

MSWI 過(guò)程數(shù)據(jù)來(lái)自北京市某MSWI 發(fā)電廠,數(shù)據(jù)中包含的缺失值和異常值均根據(jù)現(xiàn)場(chǎng)經(jīng)驗(yàn)以人工方式去除.實(shí)驗(yàn)中選擇氮氧化物的排放濃度作為測(cè)量目標(biāo),考慮其生成和吸收過(guò)程,選取爐膛溫度、一次風(fēng)量、二次風(fēng)量、爐膛剩余氧量、尿素噴入量等相關(guān)性較強(qiáng)的18個(gè)變量作為樣本特征.過(guò)程數(shù)據(jù)集中具有樣本1 500個(gè),其中前1 000個(gè)為正常樣本,后500個(gè)為漂移樣本.在正常樣本中,又劃分前500個(gè)為建模樣本,后500個(gè)為驗(yàn)證樣本.其中,正常樣本在爐膛溫度為900 ℃~950 ℃時(shí)的對(duì)應(yīng)工況中采集;漂移樣本在爐膛溫度為950 ℃~1000 ℃時(shí)的對(duì)應(yīng)工況中采集.

上述數(shù)據(jù)集的詳細(xì)參數(shù)及各特征在概念漂移環(huán)境中的變化情況,如表1 和圖4 所示.

表1 各數(shù)據(jù)集參數(shù)介紹Table 1 Detailed introduction of each data set

由圖4 可知,兩數(shù)據(jù)集中建模樣本與漂移樣本間的特征空間分布情況具有明顯差異,間接反映了數(shù)據(jù)集中存在的概念漂移現(xiàn)象.

圖4 各特征在概念漂移環(huán)境中的變化情況Fig.4 Changes of each feature in the concept drift environment

4.2 仿真結(jié)果

實(shí)驗(yàn)中各參數(shù)設(shè)置如表2 所示.其中,ConfSPE和ConfT2分別為PCA 統(tǒng)計(jì)量控制限SPE 和T2的置信度;?0為驗(yàn)證樣本平均測(cè)量誤差.上述參數(shù)通過(guò)實(shí)驗(yàn)確定.

表2 仿真參數(shù)設(shè)置Table 2 Simulation parameter setting

原始測(cè)量模型在各數(shù)據(jù)集中的測(cè)量結(jié)果如圖5所示.由圖5 可知,原始測(cè)量模型在兩個(gè)數(shù)據(jù)集的漂移發(fā)生時(shí)刻(第500個(gè)樣本)均產(chǎn)生較大的測(cè)量誤差,并對(duì)此后的漂移樣本均無(wú)法有效擬合.

圖5 原始模型測(cè)量結(jié)果Fig.5 Measurement results of the original model

1) 特征空間漂移檢測(cè)

針對(duì)數(shù)據(jù)集中存在的概念漂移現(xiàn)象,采用PCA對(duì)驗(yàn)證樣本和漂移樣本特征空間的漂移檢測(cè)結(jié)果如圖6 所示.圖中實(shí)線代表PCA 統(tǒng)計(jì)量,虛線代表統(tǒng)計(jì)量控制限.

圖6 顯示了驗(yàn)證樣本和漂移樣本特征空間的PCA 統(tǒng)計(jì)量與PCA 統(tǒng)計(jì)量控制限的大小關(guān)系.其中,在合成數(shù)據(jù)集中共測(cè)得特征空間漂移樣本400個(gè);在過(guò)程數(shù)據(jù)集中共測(cè)得特征空間漂移樣本450個(gè).從圖6 可看出,過(guò)程數(shù)據(jù)集中樣本特征空間分布對(duì)工況變化較為敏感,因此采用PCA 可有效測(cè)出漂移時(shí)刻對(duì)應(yīng)樣本.

圖6 針對(duì)特征空間的漂移檢測(cè)結(jié)果Fig.6 Drift detection results in the feature space

2) 基于TD 學(xué)習(xí)的偽真值標(biāo)注

針對(duì)特征空間漂移的樣本,基于TD 學(xué)習(xí)對(duì)其偽真值標(biāo)注結(jié)果與實(shí)際真值的比較如圖7 所示.其中,在合成數(shù)據(jù)集中共標(biāo)注偽真值350個(gè),偽真值與真值間平均誤差為3.2760 (實(shí)際真值標(biāo)準(zhǔn)差為2.2606);在過(guò)程數(shù)據(jù)集中共標(biāo)注偽真值441個(gè),偽真值與真值間平均誤差為35.9429 (實(shí)際真值標(biāo)準(zhǔn)差為36.3831),兩個(gè)數(shù)據(jù)集中偽真值平均標(biāo)注誤差與實(shí)際真值自身離散程度相似.此外,從圖7 可看出,偽真值變化趨勢(shì)與樣本真值相近,因此在樣本真值難以完全獲取時(shí)可采用偽真值對(duì)樣本輸出空間漂移情況近似分析.

圖7 針對(duì)特征空間漂移樣本的偽真值標(biāo)注結(jié)果Fig.7 Pseudo-true value labeling results for samples with concept drift in the feature space

3) 輸出空間檢測(cè)結(jié)果

對(duì)特征空間漂移的樣本完成偽真值標(biāo)注后,采用Page-Hinkley 檢測(cè)法對(duì)樣本輸出空間的漂移檢測(cè)結(jié)果如圖8 所示.

圖8 為每次待標(biāo)注緩存窗口被填滿且其中樣本均被標(biāo)注偽真值后,窗口內(nèi)樣本累計(jì)平均測(cè)量誤差的變化情況.其中,在合成數(shù)據(jù)集中待標(biāo)注緩存窗口填滿50 次;在過(guò)程數(shù)據(jù)集中待標(biāo)注緩存窗口填滿9 次.從圖8 可看出,窗口內(nèi)樣本累計(jì)平均測(cè)量誤差在漂移發(fā)生時(shí)刻明顯升高,隨模型不斷更新而趨于平穩(wěn),表明所提算法可有效檢測(cè)樣本輸出空間中存在的概念變化.

圖8 針對(duì)輸出空間的漂移檢測(cè)結(jié)果Fig.8 Drift detection results in the output space

4) 測(cè)量模型更新

依據(jù)上述檢測(cè)結(jié)果,模型采用由概念漂移樣本和歷史樣本組成的新訓(xùn)練集更新后,在各數(shù)據(jù)集中的測(cè)量性能變化如圖9 所示.

由圖9 可知,測(cè)量模型采用所提漂移檢測(cè)算法后,其測(cè)量誤差相較原始模型明顯下降,詳細(xì)更新信息及模型均方根測(cè)量誤差(Root mean squared error,RMSE)變化情況如表3 所示.

圖9 采用所提漂移檢測(cè)算法后模型測(cè)量誤差變化Fig.9 Changes of model measurement error after adopting the proposed drift detection algorithm

由表3 可知:1) 合成數(shù)據(jù)集中,算法在500個(gè)漂移樣本環(huán)境下,共標(biāo)注樣本偽真值350個(gè),更新后使模型RMSE 降低66.2%,相較原始模型真值需求量降低99.2%;2) 過(guò)程數(shù)據(jù)集中,算法在500個(gè)漂移樣本環(huán)境下,共標(biāo)注樣本偽真值441個(gè),更新后使模型RMSE 降低45.5%,相較原始模型真值需求量降低98.2%.上述結(jié)果表明:所提算法可在大部分漂移樣本真值未標(biāo)注情況下,顯著提升模型面對(duì)概念漂移樣本的測(cè)量性能,可有效提高M(jìn)SWI 過(guò)程氮氧化物濃度軟測(cè)量模型在漂移環(huán)境中的測(cè)量精度.

表3 所提算法檢測(cè)信息Table 3 Detection information of the proposed algorithm

4.3 方法比較

1) 漂移檢測(cè)性能比較

為驗(yàn)證所提漂移檢測(cè)算法具有優(yōu)于已有方法的性能,此處與僅基于特征空間的無(wú)監(jiān)督型算法和僅基于輸出空間的有監(jiān)督型算法進(jìn)行比較,前者基于PCA 檢測(cè)樣本特征空間漂移狀況[19],后者采用模型測(cè)量誤差檢測(cè)樣本輸出空間漂移狀況[41].比較結(jié)果如表4 和圖10 所示.

圖10 采用不同算法時(shí)模型測(cè)量誤差變化Fig.10 Changes in model measurement errors when using different algorithms

表4 不同算法檢測(cè)性能比較Table 4 Comparison of detection performance of different algorithms

由上述結(jié)果分析可知:1) 相較無(wú)監(jiān)督型算法,本文算法在兩個(gè)數(shù)據(jù)集中均使模型更新后具有更低的測(cè)量RMSE 值,更新過(guò)程中真值需求量縮減50.5%(合成)、98.0% (過(guò)程);2) 相較有監(jiān)督型算法,本文算法具有更低的更新次數(shù),且在真值需求量分別縮減55.6%和98.0%的情況下,仍使模型更新后具有與其接近的測(cè)量RMSE 值.綜上表明:所提算法可有效提升無(wú)監(jiān)督型算法的更新效率,并在僅少量真值標(biāo)注情況下保持與有監(jiān)督型算法相近的更新性能.

2) 建模策略比較

為驗(yàn)證GPR 模型的高效測(cè)量性能,此處與兩種常用機(jī)器學(xué)習(xí)模型:支持向量回歸(Support vec-tor regression,SVR)和回歸樹(shù)(Regression tree,RT)進(jìn)行比較.除模型外其余參數(shù)均與上文實(shí)驗(yàn)中保持一致,比較結(jié)果如表5 所示.

由表5 分析可知,上述模型均取最優(yōu)測(cè)量結(jié)果時(shí),GPR 表現(xiàn)仍優(yōu)于其他模型.在合成數(shù)據(jù)集中,GPR 具有最優(yōu)的訓(xùn)練RMSE、R2和測(cè)量RMSE(分別為0.1899、0.96 和2.5840);在過(guò)程數(shù)據(jù)集中,GPR 在訓(xùn)練階段的擬合效果與SVR 相近(分別為0.1348 和0.98),但在測(cè)量階段具有最優(yōu)泛化性能(28.8785).

表5 不同模型測(cè)量性能比較Table 5 Comparison of measurement performance of different models

3) 近鄰規(guī)則比較

為驗(yàn)證基于TD 學(xué)習(xí)的偽真值標(biāo)注過(guò)程中歐氏距離作為近鄰規(guī)則的有效性,此處與兩種常用的相似性度量方式:曼哈頓距離與切比雪夫距離進(jìn)行比較.比較過(guò)程中參數(shù)設(shè)置與實(shí)驗(yàn)部分保持一致,其結(jié)果如表6 所示.

由表6 分析可知,相較其他度量方式,歐氏距離能夠體現(xiàn)特征空間數(shù)值上的絕對(duì)差異,而概念漂移樣本相較歷史樣本常具有差異較大的特征值.因此,模型采用歐氏距離作為近鄰規(guī)則時(shí)可較好捕獲樣本的相似性,并在各數(shù)據(jù)集中均具有最優(yōu)測(cè)量性能(分別為2.5840 和28.8785).

表6 不同距離函數(shù)對(duì)模型更新性能影響Table 6 The influence of different distance functions on model updating performance

4.4 參數(shù)分析

仿真過(guò)程中固定參數(shù)(軟測(cè)量模型核函數(shù)類型、核函數(shù)寬度、特征長(zhǎng)度及基準(zhǔn)累計(jì)平均測(cè)量誤差?0)根據(jù)模型最小訓(xùn)練誤差與最小驗(yàn)證樣本測(cè)試誤差選取,可變參數(shù)(待標(biāo)注緩存窗口容量w、PCA 控制限置信度ConfSPE、ConfT2及TD 學(xué)習(xí)最近鄰數(shù)量ε)由實(shí)際仿真分析后選取.以過(guò)程數(shù)據(jù)集為例,不同可變參數(shù)對(duì)算法性能影響的分析結(jié)果如表7 所示.

由表7 可知:

表7 不同可變參數(shù)對(duì)應(yīng)算法性能變化Table 7 Algorithm performance changes corresponding to different variable parameters

1) 待標(biāo)注緩存窗口容量w變化改變偽真值標(biāo)注次數(shù)與模型更新次數(shù),進(jìn)而對(duì)更新后模型RMSE產(chǎn)生影響.當(dāng)w偏小時(shí)緩存窗口易被填滿,更多樣本被檢測(cè)為特征空間異常并被確認(rèn)漂移,因此偽真值標(biāo)注量與模型更新次數(shù)增加,但由于單次更新模型的漂移樣本數(shù)過(guò)少導(dǎo)致模型無(wú)法在每次更新時(shí)充分學(xué)習(xí)漂移特征,易使更新后模型RMSE 偏大.當(dāng)w偏大時(shí)緩存窗口難以填滿,偽真值標(biāo)注量與模型更新次數(shù)隨之降低,但其較長(zhǎng)的樣本檢索時(shí)間導(dǎo)致模型無(wú)法及時(shí)適應(yīng)概念漂移,同樣易使更新后模型RMSE 偏大.

2) TD 學(xué)習(xí)中最近鄰數(shù)量ε變化改變偽真值標(biāo)注精度,進(jìn)而對(duì)更新后模型RMSE 產(chǎn)生影響.當(dāng)ε偏小時(shí)被用于標(biāo)注偽真值的歷史樣本數(shù)減少,因此算法無(wú)法獲取充足的歷史差分量變化信息,導(dǎo)致難以準(zhǔn)確輸出偽真值并易使更新后模型RMSE 偏大.當(dāng)ε偏大時(shí)被用于標(biāo)注偽真值的歷史樣本數(shù)增多,此時(shí)算法易受相似度較低的歷史差分量變化信息干擾,同樣導(dǎo)致更新后模型RMSE 偏大.

3) 特征空間漂移檢測(cè)過(guò)程中PCA 控制限(ConfSPE與ConfT2)的變化將改變算法在輸出空間的檢測(cè)樣本數(shù)量,進(jìn)而使待標(biāo)注緩存窗口填滿次數(shù)、偽真值標(biāo)注次數(shù)、模型更新次數(shù)及偽真值標(biāo)注精度變化,并對(duì)更新后模型RMSE 產(chǎn)生影響.其影響方式與可變參數(shù)w、ε變化所產(chǎn)生的影響相似,即改變模型對(duì)漂移的學(xué)習(xí)程度與其更新效率.

上述分析表明,可變參數(shù)的設(shè)置方式對(duì)軟測(cè)量模型的最終性能具有一定影響.在選擇參數(shù)時(shí)需結(jié)合實(shí)際應(yīng)用背景,具體為:1) 新樣本概念變化緩慢或?qū)δP蜏y(cè)量影響程度較小時(shí),應(yīng)設(shè)置較大緩存樣本窗口容量以充分學(xué)習(xí)漂移特征,從而獲取最優(yōu)測(cè)量性能;反之則應(yīng)設(shè)置較小緩存樣本窗口容量以及時(shí)避免測(cè)量性能快速惡化;2) 當(dāng)新樣本的特征空間分布與歷史樣本接近時(shí),應(yīng)設(shè)置較小的最近鄰數(shù)量以避免提取冗余差分量信息,同時(shí)設(shè)置較低的PCA控制限有利于在輸出空間區(qū)分新概念樣本;反之則應(yīng)設(shè)置較大的最近鄰數(shù)量和PCA 控制限,從而準(zhǔn)確標(biāo)注新樣本偽真值并提前將其在特征空間中與歷史樣本區(qū)分,提高輸出空間檢測(cè)效率.實(shí)際上,更新后模型RMSE 變化不僅由算法中單一可變參數(shù)改變引起,還體現(xiàn)為上述參數(shù)的綜合變化.因此,所提漂移檢測(cè)算法應(yīng)用于工業(yè)過(guò)程時(shí),應(yīng)設(shè)置可供交互的數(shù)據(jù)界面窗口,實(shí)時(shí)調(diào)整可變參數(shù)以獲取最優(yōu)檢測(cè)及模型更新效果.

5 結(jié)語(yǔ)

針對(duì)復(fù)雜工業(yè)過(guò)程存在概念漂移、部分難測(cè)參數(shù)的真值難以及時(shí)獲取問(wèn)題,文中提出一種聯(lián)合樣本輸出與特征空間的半監(jiān)督概念漂移檢測(cè)方法.其策略是:通過(guò)PCA 篩選特征空間內(nèi)存在概念漂移的樣本后,再結(jié)合TD 學(xué)習(xí)算法和Page-Hinkley 檢測(cè)法,在樣本輸出空間進(jìn)行偽真值標(biāo)注并識(shí)別能夠表征概念漂移的新樣本.本文所提方法的創(chuàng)新性表現(xiàn)在:1) 采用聯(lián)合PCA 和Page-Hinkley 檢測(cè)法的策略充分反映新樣本在特征空間和樣本輸出空間的概念漂移行為;2) 將基于TD 學(xué)習(xí)的半監(jiān)督機(jī)制用于特征空間漂移樣本的偽真值標(biāo)注,為面向工業(yè)回歸問(wèn)題的半監(jiān)督概念漂移檢測(cè)提供了新方法;3) 采用真實(shí)MSWI 過(guò)程數(shù)據(jù)集驗(yàn)證了所提方法在實(shí)際應(yīng)用中的可行性,并表明其具有優(yōu)于已有方法的性能.

目前,面向工業(yè)回歸測(cè)量領(lǐng)域的半監(jiān)督漂移檢測(cè)研究尚處于探索階段.進(jìn)一步的研究方向包括:1)為避免憑借人工經(jīng)驗(yàn)設(shè)定模型參數(shù)導(dǎo)致漂移檢測(cè)過(guò)程的隨意性和差異性,研究模型參數(shù)的自適應(yīng)選擇算法;2)為提高標(biāo)注的準(zhǔn)確度,對(duì)偽真值標(biāo)注算法進(jìn)行改進(jìn);3)為提高概念漂移檢測(cè)算法的適應(yīng)性,研究針對(duì)實(shí)際工業(yè)過(guò)程的漂移理解和漂移處理策略.

猜你喜歡
概念特征測(cè)量
Birdie Cup Coffee豐盛里概念店
幾樣概念店
如何表達(dá)“特征”
把握四個(gè)“三” 測(cè)量變簡(jiǎn)單
不忠誠(chéng)的四個(gè)特征
滑動(dòng)摩擦力的測(cè)量和計(jì)算
學(xué)習(xí)集合概念『四步走』
滑動(dòng)摩擦力的測(cè)量與計(jì)算
聚焦集合的概念及應(yīng)用
抓住特征巧觀察
主站蜘蛛池模板: 伊伊人成亚洲综合人网7777| 国产精品林美惠子在线播放| 97久久超碰极品视觉盛宴| 蜜臀AV在线播放| 欧美一区日韩一区中文字幕页| 激情综合网激情综合| 久久国产精品夜色| 亚洲AV无码乱码在线观看裸奔 | 欧美日韩综合网| 乱人伦99久久| 亚洲成人免费看| 很黄的网站在线观看| 精品国产免费观看一区| 亚洲全网成人资源在线观看| 嫩草国产在线| 成人国产精品网站在线看| 国产素人在线| 亚洲第一成年网| 亚洲色图欧美| www.youjizz.com久久| 麻豆精品视频在线原创| 永久免费无码日韩视频| 精品少妇人妻av无码久久| 久久国产高潮流白浆免费观看| 色婷婷在线影院| 91久久国产成人免费观看| 久久99热这里只有精品免费看| 黄色不卡视频| 国产精品视频a| 真人免费一级毛片一区二区| 久久中文无码精品| 国产欧美又粗又猛又爽老| 99热这里只有精品国产99| 天天躁夜夜躁狠狠躁躁88| 国产香蕉在线| 久久99蜜桃精品久久久久小说| 欧美一区精品| 亚洲最猛黑人xxxx黑人猛交| 亚洲妓女综合网995久久| 亚洲精品波多野结衣| 亚洲日韩精品无码专区97| 婷婷亚洲视频| 久久综合色视频| 国产乱子伦手机在线| 亚洲AV无码久久精品色欲| 97人妻精品专区久久久久| 久久精品91麻豆| 久久大香香蕉国产免费网站| 国产成人亚洲精品色欲AV| 国产免费黄| 精品国产网| 丁香六月激情综合| 国产色图在线观看| 国产免费久久精品99re丫丫一| 欧美成人免费| 性69交片免费看| 亚洲一区二区精品无码久久久| 91视频免费观看网站| 国产毛片久久国产| 国产美女精品一区二区| 久久久久久久久久国产精品| 亚洲一级毛片在线播放| 啪啪免费视频一区二区| 免费国产无遮挡又黄又爽| 国产精品黄色片| 亚洲成人播放| 91网站国产| 久久网欧美| 尤物精品视频一区二区三区| 国产精品无码制服丝袜| 最近最新中文字幕在线第一页| 国产成人精品视频一区视频二区| 久草视频福利在线观看| 国产白浆在线观看| 97色婷婷成人综合在线观看| 日韩AV无码一区| 97久久免费视频| 久久久久九九精品影院| 成人国产精品一级毛片天堂| 久久精品人人做人人综合试看| 中国美女**毛片录像在线| 伊人久久大香线蕉影院|