999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于核系數樣本選擇算法的光譜模型更新

2024-01-02 10:43:56賀忠海曹功偉張曉芳
分析測試學報 2023年12期
關鍵詞:方法模型

賀忠海,曹功偉,賈 瓊,張曉芳

(1.東北大學秦皇島分校 控制工程學院,河北 秦皇島 066004;2.河北省微納傳感重點實驗室,河北 秦皇島 066004;3.北京理工大學 光電學院,北京 100081)

紅外光譜測量數據必須與多元回歸模型結合才能得到被測物濃度,在建立模型過程中需要采集一定數量的樣本才能進行,從而提出了模型應用域(Application domain)[1]的概念,即用于預測的新樣本必須位于建模過程中所用的標定舊樣本的區間內才能得到正確的預測結果[2]。如果新樣本超出應用域,需對模型進行更新才能適用于新樣本[3]。此時,舊樣本中雖有部分信息發生改變,但仍有很多信息具有利用價值,因而建立包含新的化學或儀器變化的額外標定樣本的新模型即可適用于新環境,無需丟棄所有舊樣本重新建模[4]。

當檢測到新穎樣本,通常希望盡快更新模型以使模型能適應新變化,但此時新樣本的量通常占比較少,其新特性無法很快體現在模型中。為解決此問題,Stork 和Kowalski[5]提出了一種基于杠桿值的準則為新樣本賦予合適的權重,以改善新舊樣本間的不平衡。Capron和Walczak[6]發現選擇有代表性的新樣本有利于模型更新。由于模型更新的加權方法等同于對樣本進行多次重復采樣,導致樣本中包含的噪聲也被重復和放大,從而導致樣本集中的噪聲分布不再符合正態分布,影響建模效果。隨著正則化技術的廣泛應用,出現了把新樣本預測誤差作為正則化項進行優化的模型更新方法[7-8],其本質等同于新樣本加權。

為進一步加快模型對新環境的適應,需對舊樣本進行選擇以減少舊樣本的數量。如無監督方法KS方法[9]、有監督選擇方法SPXY[10]、基于基準值選擇(YR)[11],以及基于主動學習的樣本選擇方法[12]。但這種距離最大化的選擇方法并不能保證所選擇的樣本有最大的模型貢獻度。現有的對設計矩陣(自變量矩陣X)進行選擇的工作通常以波長作為自變量,也誕生了很多依據自變量系數進行變量選擇的方法[13],但此類方法無法判斷每個樣本對建模的貢獻。要判斷各樣本對建模的貢獻度,仍 需尋找按樣本分配回歸權重的方法。

本文基于核函數系數,其中樣本對應核函數系數的絕對值越大則樣本越重要。通過在全部舊樣本中選擇部分系數絕對值大的樣本,在選擇部分舊樣本基礎上加入新樣本。這種樣本選擇方法既考慮了特定分析物,又充分提取了舊樣本包含的有用信息。通過將新舊樣本組成混合的訓練集,重新建立更新后的模型,從而快速獲得所需實驗結果。

1 建模方法的理論基礎

現有的建模方法可以分為兩大類,基于非相似性的建模(例如多元線性回歸(MLR)、PLS 等)和基于相似性的建模(例如k近鄰、支持向量機(SVM))。在通常的應用中,兩類模型有不同的計算方法。非相似性方法(以PLS 為代表)的目的是找到每個變量對應的回歸系數,相似性方法(以SVM 為代表)的目的是找到每個支持向量(部分樣本)的權重。兩類方法分別對應于建立以變量為基的模型和以樣本為基的模型,也就是分別對設計矩陣(自變量空間X)進行針對列的變換和針對行的變換。由于根本處理對象的不同(行或列),雖然二者具有相同的優化目標函數,但兩種方法并無共用的案例。

1.1 PLS

PLS中x和y之間的關系是線性關系,目標函數可表示為[14]:

1.2 核模型

核模型是以訓練樣本為基,基于待測樣本與訓練樣本相似性建立的回歸模型。用n個樣本構成的核模型如式(3)所示:

將訓練樣本xi代入式(3)可得其預測值,則n個樣本的預測值y?=Kθ,式中K為將n個訓練樣本代入核函數求得的核矩陣:

核模型的θ值可通過最小化求得 ,即θ=K+y,式中K+為核矩陣的偽逆,通過奇異值分解(SVD)得到,y為n個訓練樣本的標定值。

1.3 核模型與PLS的對等關系

PLS與核模型是從不同角度建立的回歸模型,在機器學習中任何統計模型均可表示如下[15]:

PLS 和核模型的建模方法等價。從而將基于非相似性的PLS 建模方法和基于相似性的核建模方法統一,用兩種方法建立的擬合函數是同一個回歸模型。基于這樣的統一,即可利用標定樣本前的系數θi確定每個樣本的重要程度,從而克服PLS 無法對樣本重要性進行判斷的缺點,同時保留PLS 模型易計算的優點。因此,基于相似性建模的核模型系數選擇的重要樣本,同樣也是基于非相似性建模的PLS模型的重要樣本,利用核系數選擇的重要舊樣本可用于PLS模型的更新。

2 利用核系數選擇部分舊樣本更新PLS模型

選擇部分舊樣本用于模型更新的方法包括兩個步驟:(1)所有舊樣本建立一個高斯核模型,利用每個樣本對應的核函數系數確定樣本的重要程度和選擇部分舊樣本,這種樣本選擇方法稱為核系數選擇(Kernel Coefficient Selection,KCS);(2)在選擇的部分舊樣本基礎上加入新樣本更新PLS 模型。模型更新方法的流程圖如圖1所示[16-18]。

3 實 驗

為驗證本文選擇樣本方法的有效性,分別設計在模擬數據集和真實數據集上進行樣本選擇后更新模型。常見的數據偏移類型有協變量偏移、條件偏移和先驗偏移3種[19]。本實驗采用模擬光譜驗證條件偏移的情況,采用實際數據驗證先驗偏移的情況。

3.1 模擬數據

光譜的吸收峰用正態概率密度函數代表,不同位置處的峰代表不同的成分。通過對舊樣本中添加新成分產生條件偏移性質的光譜。新舊樣本的模擬光譜分別表示如下:

表1 新舊樣本集的參數值Table 1 Parameter values of the old and new sample sets

共模擬了200個舊樣本和150個新樣本,不同類型的光譜如圖2所示。從圖2可看出舊樣本與新樣本光譜有明顯差異,在加入新成分后新樣本的光譜多了1個特征峰。

圖2 不同樣品數據集的光譜圖Fig.2 Spectra of the simulated data with different samples

3.2 真實數據

為驗證所提方法的性能,在豆粕數據集上進行實驗研究。以2021年收集的200個樣本作為舊樣本,2 0 2 2年收集的1 5 0個樣本作為新樣本,總共收集了3 5 0個豆粕樣本,使用二極管陣列分析儀在9 5 0 ~1 650 nm 的近紅外區域以5 nm 的增量通過反射進行測量。采用蛋白質作為特定分析物建模,采用GB 5009.5-2010中規定的凱氏定氮法[20]對其含量測量,儀器為NYK6160分析儀(上海億宏分析儀器有限公司)。豆粕數據集的可視化如圖3 所示。從圖3A 可以看出舊樣本與新樣本間的光譜差異較大,圖3B 顯示舊樣本和新樣本的蛋白質濃度(Y)分布不同。

圖3 真實數據集的光譜(A)和蛋白質濃度(B)分布Fig.3 Spectra(A) and protein concentration(B) distributions of the real data

3.3 評估策略

從200個舊樣本中隨機挑選60個樣本作為舊樣本的驗證集,剩下140個樣本作為校正集。從150個新樣本中隨機挑選45 個樣本作為新樣本的驗證集,剩下105 個樣本作為模型更新時新樣本的候選集。分別用RS、KS、KCS在全部校正集里選出部分校正集建立模型并用全部校正集(TOTAL)建立模型,在舊樣本的驗證集上測試以評估RS、KS、KCS選擇樣本的性能。

用標準差(SD)反映不同樣本集含信息量的多少,SD越大的樣本集包含的信息越多。預測均方根誤差(RMSEP)則作為模型的評價指標用于比較所建模型的預測效果,為進一步評價不同方法選擇樣本的建模效率,提出了預測均方根誤差的相對偏差:

式中,I表示RS、KS、KCS樣本選擇方法,rI值越小表明該方法選用部分訓練集建立的模型預測精度與全部訓練集建立的模型預測精度越接近。

使用軟件MATLAB R2018a在計算機上進行實驗,實驗所用的數據集和利用核系數選擇部分舊樣本的程序可在Github(https://github.com/nandemihu/KCS.git)上獲得。

4 結果與討論

4.1 KCS方法選擇部分舊樣本的建模效果

表2列出了全部校正集和選擇50個校正樣本分別建立模型,用舊樣本驗證集進行測試的實驗結果。可以看出全部校正集建立模型的預測均方根誤差最小,這是由于全部校正集包含的有用信息最多。KCS 法選擇部分校正集的SD 值接近全部校正集的SD 值,表明能夠包含全部校正集里的大部分有用信息,KCS法選擇部分校正集的RMSEP 與全部校正集的RMSEP 的相對偏差(rI)最小,表明模型的預測精度接近。因此采用KCS法選擇部分校正集用于后續的模型更新。

表2 未加入新樣本時部分校正集或全部校正集的建模預測結果Table 2 Modeling predictions for part or all of the correction set when no new samples are added

4.2 模型更新后對新樣本的預測能力

圖4 顯示了KCS 選擇部分校正集和全部校正集的基礎上逐步添加新樣本進行模型更新后,對新樣本驗證集的預測結果。結果顯示,隨著新樣本的加入,新樣本在校正集中的比例越來越大,RMSEP不斷下降。其中TOTAL的RMSEP的下降速度慢于KCS,這是由于使用全部校正集用于模型更新可減弱新樣本對模型的影響,而選擇一部分校正集用于模型更新可使新樣本占有更大的比重,有利于加快模型更新的速度。表3列出了模型更新前和加入20個新樣本更新后對新樣本驗證集的RMSEP,可看出模型更新后的預測精度大幅提高,且用KCS 選擇部分校正集后加入新樣本更新后,模型精度提高更加顯著。

表3 模型更新前后對新樣本驗證集的預測結果Table 3 Prediction results of the new sample validation set before and after the model update

4.3 模型更新后對舊樣本的預測能力

圖5 顯示了在KCS 選擇部分校正集和全部校正集的基礎上逐步添加新樣本進行模型更新后,對舊樣本驗證集的預測結果,可以看出隨著新樣本的加入,RMSEP 上升的比較平緩。表4 列出了模型更新前和加入20個新樣本更新后對舊樣本驗證集的RMSEP,可看出模型更新后對舊樣本驗證集的預測精度有所下降,但仍有較強的預測能力,說明模型更新后對舊樣本的預測能力影響較小。

表4 模型更新前后對舊樣本驗證集的預測結果Table 4 Prediction results of the old sample validation set before and after the model update

圖5 逐步更新模型后對舊樣本驗證集的結果Fig.5 The results of the validation set on a old samples after the model is gradually updated

5 結 論

為解決模型更新中大量舊樣本和少量新樣本不能快速更新PLS 模型的問題,本文提出了一種基于高斯核系數的樣本選擇方法,用舊的校正集建立高斯核模型,再將每個樣本所對應的高斯函數系數的絕對值從大到小排序,將排序靠前的部分校正集用于后續的模型更新。在部分校正集的基礎上加入新樣本重新訓練模型,采用模擬數據集和真實數據集進行實驗。用 KCS 選擇部分校正集建立模型與RS、KS、TOTAL 進行對比實驗,驗證了KCS 選擇的部分校正集的建模效果好、樣本選擇代表性強。再將KCS選擇的部分校正集用于模型更新,結果顯示,RMSEP 下降快,預測精度高。用更新后的模型預測舊樣本的驗證集仍可保持較好的預測精度。因此,這種基于高斯核系數的樣本選擇算法可用于大量的舊樣本里選擇部分舊樣本更新,使模型快速地適應新環境。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 女人天堂av免费| 久久精品女人天堂aaa| 国产极品粉嫩小泬免费看| 夜精品a一区二区三区| 在线网站18禁| 欧美成人国产| 欧美日韩一区二区三区在线视频| 国产一区二区人大臿蕉香蕉| 91香蕉视频下载网站| 亚洲国产精品不卡在线| 亚洲三级电影在线播放| 成人在线不卡| 在线观看无码av五月花| 国产精品成人观看视频国产| 国内熟女少妇一线天| 少妇被粗大的猛烈进出免费视频| 她的性爱视频| 久久亚洲精少妇毛片午夜无码| 日本午夜网站| 久久免费视频播放| 亚洲av无码牛牛影视在线二区| 久久婷婷色综合老司机| 欧美日韩国产在线人| 精品国产免费观看| 国产男女XX00免费观看| 亚卅精品无码久久毛片乌克兰| 国语少妇高潮| 欧美成人日韩| 最新国产网站| 高潮爽到爆的喷水女主播视频| 欧美www在线观看| 欧美高清视频一区二区三区| 午夜电影在线观看国产1区| 91麻豆国产在线| 国产成人亚洲无码淙合青草| 亚洲男人的天堂久久香蕉| 日韩专区第一页| av在线5g无码天天| 岛国精品一区免费视频在线观看| 国产成年女人特黄特色大片免费| 国产精品嫩草影院av| 日韩免费毛片| 久久国产高潮流白浆免费观看| 九九视频免费看| 国产香蕉97碰碰视频VA碰碰看| 国产成人盗摄精品| 亚洲日韩久久综合中文字幕| 91视频首页| 激情无码字幕综合| 亚洲国产成人在线| 亚洲人成网站色7777| 国产主播一区二区三区| 久久精品娱乐亚洲领先| 国产成人高清在线精品| 精品夜恋影院亚洲欧洲| 一区二区日韩国产精久久| 青青青国产视频手机| 一级片一区| 日韩第一页在线| 日韩精品亚洲一区中文字幕| 国产91av在线| 2021国产精品自产拍在线| 国产在线精彩视频论坛| 一级毛片中文字幕| 直接黄91麻豆网站| 在线看片免费人成视久网下载| 国产手机在线观看| 国产午夜一级淫片| 97se亚洲| 美女无遮挡被啪啪到高潮免费| 一级毛片免费播放视频| 久久精品人人做人人爽电影蜜月| 天天色天天综合网| 高清无码手机在线观看| 亚欧成人无码AV在线播放| 免费a在线观看播放| 日韩在线第三页| 亚洲AV免费一区二区三区| 综合五月天网| 激情国产精品一区| 亚洲人成影院在线观看| 欧美激情第一欧美在线|