999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

平均分布差異最小化的NIR標定遷移方法研究

2021-10-17 01:39:20趙煜輝蘆鵬程羅昱博
光譜學與光譜分析 2021年10期
關鍵詞:標準差異方法

趙煜輝, 蘆鵬程, 羅昱博, 單 鵬

東北大學秦皇島分校, 河北 秦皇島 066000

引 言

近紅外光譜(NIR)分析技術具備操作簡單、 分析數據速度快、 成本較低、 不污染樣品等優勢, 已在各領域得到廣泛應用, 如農產品生產、 化工產品生產、 食品生產以及環境監測領域[1-4]。 近紅外光譜技術在定性分析和快速物質成分定量分析以及實現在線檢測方面具有獨特優勢[5]。 建立多元校正模型是近紅外光譜分析技術的重要內容。 即通過一定的數學分析方法, 對近紅外光譜數據進行分析建模, 從而達到對一些指標進行預測的目的, 這是一種根據已有樣本總結出規律生成模型的方法。 但實際的工業生產中, 測量儀器、 環境和場景通常并不一致, 依據已有近紅外光譜數據建立的模型往往并不適用新的儀器采集的數據, 原有模型失效, 并且在測量環境或其他條件變化后, 也需更新模型。

標定遷移是指在不同測量儀器或測量狀態下的多元標定模型遷移方法, 通過將從光譜數據遷移到主光譜數據空間, 進而實現主光譜數據模型對從光譜數據模型的預測, 避免重復建模[6-7]。

已有標定遷移方法[8-9], 主要是通過一組標準樣品構建遷移模型, 它需要在主儀器和從儀器上分別測量一組標準樣本, 通過一組標準樣本來糾正主儀器和從儀器之間光譜的差異。 分段直接標準化(piecewise direct standardization, PDS), 主儀器的每個波長與從儀器的波長窗口相關, 基于每個窗口間回歸系數形成帶狀遷移矩陣。 實驗結果與假設是一致的, 即在各種遷移方法中, 主儀器和從儀器之間的頻譜相關性被限制在較小的區域。 PDS的關鍵是窗口大小的選擇和標準樣本數目的確定。 在偏差斜率校正(slope and bias correction, SBC)[10]中, 假設不同儀器的預測值之間存在線性關系, 先計算光譜和響應值之間的回歸系數; 并用該系數分別計算主儀器和從儀器的預測值; 最后, 在預測值之間進行線性擬合。 SBC算法為一種單變量方法, 因此在測量儀器和測量條件變化引起系統化的光譜差異的情況下, 才能取得較好的效果。 現實生活中, 光譜差異往往比較復雜, 此時它的預測能力是不確定的。 Liang等提出了基于典型相關分析(canonical correlation analysis, CCA)的標定遷移方法成功地校正了不同光譜之間的差異。 首先, 使用主儀器的標定集構建PLS模型; 選取主儀器和從儀器的標定集的一部分作為標準樣本; 通過典型相關分析分別提取特征[11]。

標準樣本要求主從儀器在相同的環境及條件下測量同一組樣本。 工業應用中, 由于標樣組分的揮發性及可變性, 使保持標準樣品的完整性很難實現[12], 為此, 需建立標準樣本自由的標定遷移模型[13]。

Bouveresse等提出的多元散射校正(multiplicative scatter/signal correction, MSC)[14]是一種信號預處理方法。 MSC計算校準集的平均光譜作為參考光譜, 并在每個光譜和參考光譜之間找到線性關系, 得到斜率和偏差, 利用斜率和偏差來校正從光譜, 雖然不需要標準樣本, 但難以處理復雜情況, 且模型性能多數情況較差。

遷移成分回歸(transfer component regression, TCR)也是一種無標準的遷移方法[13], 它結合了遷移成分分析(transfer component analysis, TCA)[15]和普通最小二乘法(ordinary least square, OLS)。 TCA的基本思想是在再生希爾伯特空間中投影兩個儀器的數據, 在這個空間中, 主儀器和從儀器的數據分布盡可能的接近, 同時保留原始數據的關鍵屬性。 TCR是一個具有良好泛化能力的穩健模型, 但無法實現更準確的預測。

針對標準樣本難以獲得和保存, 現有的標準樣本自由的標定遷移方法預測能力相對一般的情況, 提出了一種標準樣本自由的基于最小化平均分布差異的NIR偏最小二乘標定遷移方法(minimizing mean distribution discrepancy Calibration Transfer for NIR, MCT)。 此方法在不考慮從儀器標準樣本的情況下, 為去光譜數據的多重共線性, 首先假設存在一個適用于主從儀器的偏最小二乘子空間, 該子空間通過后續優化主從儀器在此空間中的分布差異獲得, 接著將主從儀器光譜數據分別投影到該假設的公共子空間; 然后引入平均分布差異最小化算法, 即分別給出主從光譜數據在子空間的平均分布(中心點)表示函數, 最小化兩個光譜平均分布(中心點)的差異, 并最大化投影后主儀器光譜的協方差, 目的是使主儀器投影后的數據具有最大相關性, 推導求解出最佳子空間; 最后, 將主光譜樣本和從光譜預測樣本分別投影到該子空間中, 利用主光譜數據得到回歸模型, 通過此回歸系數計算出從光譜預測濃度。 該方法無需標準樣本的獲取, 便能縮小主從儀器數據間的分布差異, 同時對比現有標準自由遷移方法, 更加簡單高效, 并具有更好的預測性能。 本文使用玉米數據集和小麥數據集, 將MCT的性能與SBC, PDS, CCACT, TCR和MSC進行比較。

1 理論知識

1.1 定義符號

1.2 偏最小二乘法

在化學計量學中, 偏最小二乘算法(partial least square, PLS)是一種很有效的多元標定方法。 PLS算法結合了多元線性回歸、 主成分分析、 典型相關分析的優點, 被廣泛用于建立輸入空間和響應空間之間的關系。 PLS通過分數向量建立輸入空間和響應空間之間的關系。 PLS模型的目的是確保最佳的潛變量數量。 潛變量是原始變量的線性組合。 它包含了關于X和y之間關系的最大相關信息。 在數學上, 由式(1)表示目標函數

subject to ‖w‖2=1

(1)

其中w代表權重向量。 該目標函數是在一個約束下的最大化問題, 可以通過拉格朗日乘數法進行求解。

在這個算法中, 第一個權重向量必須是矩陣XTyyTX的主要的特征向量。 從第二個潛變量開始, 它要求接下來的潛變量與前面的潛變量正交(不相關)。 因此, 接下來的權重向量也是矩陣的主要特征向量, 重復這一系列步驟直到收斂。 模型被構建通過如下等式

其中T是得分矩陣,P和Q分別代表X的載荷矩陣和y的載荷矩陣向量;E和F分別表示殘差矩陣;A是PLS模型潛變量的最佳數量。

最后, 模型的回歸系數β可寫如式(2)

β=W(PTW)-1QT

(2)

式(2)中,W=[w1,w2, ……,wA]為權重矩陣。

1.3 模型建立

(3)

令T=PTX, 最小化問題式(3)可以重新表示為

(4)

為了學習得到這樣一個能使式(4)中的平均分布差異最小化的基變換矩陣P, 還應確保投影后的源數據XS與源數據濃度yS之間的關系具有最大相關信息。 因此, 對于源域的數據, 合理的做法是將以下項最大化

(5)

在求解式(5)時可以看出, 源域數據的協方差在新學習的子空間中已經被最大化, 那么在這一過程中就保留了盡可能多的可用信息。

結合式(4)和式(5), 可以得到以下優化目標

(6)

(7)

在式(7)的最大化問題中,P有許多的可能解(即并非唯一解), 為了保證解的唯一性, 式(7)施加了一個等式約束, 這樣就可以寫成

s.t.Tr(PT(μS-μT)(μS-μT)TP)=η

(8)

其中η是一個常數。

為了解出式(8), 將其改為拉格朗日函數, 見式(9)

γ(Tr(PT(μS-μT)(μS-μT)TP)-η)

(9)

其中γ表示拉格朗日乘子系數。

接下來, 將L(P,γ)對P求偏導, 令其偏導數為0, 就得到

AP=γP

(10)

由此得出, 最優子空間P*表示矩陣A特征值分解后的前k個最大特征值所對應的特征向量, 而γ表示是一個對角矩陣, 對角線上的值分別為前k個最大特征值。

為了便于實現, 將所提出的MCT算法歸納到下列算法描述中。

1.4 MCT的算法描述

輸出: 回歸系數β。

(2) 計算矩陣A

(3) 根據公式AP=γP對A進行特征值分解。

(4) 得最優子空間P*=[p1,p2, …,pk]

(5) 計算投影到子空間后的矩陣

(6) 計算回歸系數

MCT算法到此結束。

(7) 預測

2 實驗部分

為了驗證算法的準確性和實用性, 使用玉米數據集和小麥數據集作為實驗對象, 對數據集進行了數據分析, 來檢驗MCT方法的性能。

2.1 數據集介紹

第一個數據集是在三個近紅外光譜儀(M5, MP5和MP6)上測量含有80個樣本的玉米數據集。 每個樣品含有四種成分: 水分, 油, 蛋白質和淀粉。 波長范圍為1 100~2 498 nm, 間隔為2 nm(700個通道)。 該數據集可以從http://www.eigenvector.com/Data/Corn/下載。 使用這三個近紅外光譜儀和玉米數據集成分中的水分進行研究討論。 儀器M5和儀器MP5之間的光譜差異如圖1(a)所示; 儀器M5和儀器MP6之間的光譜差異如圖1(c)所示; 儀器MP5和儀器MP6之間的光譜差異如圖1(e)所示。 其中橫軸表示波長, 縱軸表示吸光度差異, 曲線表示光譜樣本。

圖1 不同儀器之間的光譜差異

小麥數據集由制造商A的三個儀器(A1, A2和A3)測量的248個樣本組成。 數據集只提供蛋白質參考值。 波長范圍為730~1 100 nm, 間隔為0.5 nm。 可在http://www.idrc-chambersburg.org/獲取。 使用了三個近紅外光譜儀和蛋白質含量進行研究討論。 儀器A1和儀器A2之間的光譜差異如圖1(b)所示; 儀器A1和儀器A3之間的光譜差異如圖1(d)所示; 儀器A2和儀器A3之間的光譜差異如圖1(f)所示。 其中橫軸表示波長, 縱軸表示吸光度差異, 曲線表示光譜樣本。

2.2 數據處理

通過Kennard-Stone算法將玉米數據集的80個樣本分成兩組: 80%用做標定集樣本, 20%用做測試集樣本; 將小麥數據集的248個樣本分成兩組: 80%用作標定集樣本, 20%用作測試集樣本。 對于有遷移標準的遷移方法, 使用Kennard-Stone算法在標定樣本上選擇若干個標準樣品。

2.3 性能評估

在該實驗中, 均方根誤差(root mean square error, RMSE)被用作參數選擇和模型評估的指標。 此外, RMSEC表示標定集的訓練誤差, RMSEP表示測試集的預測誤差。 RMSE計算方法寫為

(11)

文中RMSEP代表從儀器測試集。

3 結果與討論

選用玉米和小麥光譜數據集檢驗模型的性能。 使用SBC, PDS, CCACT, MSC和TCR五種方法進行對比實驗。 對于SBC, PDS, CCACT和MSC算法均采用PLS算法作為主體算法, 使用主儀器的光譜數據建立多元標定模型作為參考模型, 用于對從儀器的待測樣本進行預測。 實驗結果主要包含兩個部分: (1) MCT和對比方法的RMSEC和RMSEP比較; (2) MCT和對比方法預測結果的擬合能力示意圖。

MCT和其他五種標定遷移方法的標定誤差和預測誤差被展示在表1和表2中。

表1 SBC, PDS, TCR, CCACT, MSC和MCT六種遷移方法在玉米數據集下的RMSEC, RMSEP

表2 SBC, PDS, TCR, CCACT, MSC和MCT六種遷移方法在小麥數據集下的RMSEC, RMSEP

玉米數據集實驗結果分析如下:

對于儀器MP5到儀器M5的標定遷移, MCT的RMSEP小于TCR和MSC這兩種標準樣本自由的方法, 同時也小于SBC, PDS和CCACT這三種有標樣的RMSEP, 并且MCT的RMSEC也低于其他五種遷移方法。 對于儀器MP6到儀器M5的標定遷移, 由SBC, PDS, CCACT, TCR和MSC獲得的最低RMSEP分別為0.36, 0.40, 0.41, 0.47和1.92。 表1中列出的結果清楚地表明MCT具有比其他五種方法更低的RMSEP和RMSEC。 對于從MP6到MP5的標定遷移, MCT再一次達到了最小的RMSEP和RMSEC。

小麥數據集實驗結果分析如下:

對于儀器A1到A2的遷移, 當標準樣品數為35, 25和35時, SBC, PDS和CCACT分別取到最小值。 從表2中能夠看出方法MCT的RMSEC和RMSEP都小于其他五種方法的最佳結果。 對于儀器A2到A3的遷移, 當標準樣品數為35時, SBC, PDS和CCACT均取到最小值, 由表看出MCT的RMSEP均小于其余五種方法。 對于儀器A3到A2的遷移, MCT再一次達到了最小RMSEP和RMSEC。

這六組對比實驗可以看出, MCT模型在通常情況下能夠取得最優的預測效果, 并具有更好的魯棒性。

圖2—圖4和圖5, 圖6分別顯示了在玉米集和小麥集中, 六種不同的標定遷移方法的預測值與測量值的關系圖。 預測濃度和測量濃度之間的零差異, 將會使得樣本點在直線上。 對于有標準樣本的標定遷移方法, 選取預測性能最優時的數據用于比較, 以便更加充分的體現出MCT能夠取得良好的預測性能。 表3是六種遷移方法的預測值與測量值曲線擬合斜率表。

圖2 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器M5和儀器MP5之間預測結果的散點圖

圖3 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器M5和儀器MP6之間預測結果的散點圖

圖4 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器MP5和儀器MP6之間預測結果的散點圖

圖5 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器A2和儀器A1之間預測結果的散點圖

對于玉米數據集表, 圖2—圖4顯示MCT方法的預測結果相比其他五種遷移方法具有更好的預測性。 根據表3中的數據也可證明MCT相比其他方法更加接近直線。 通過上面的陳述, 可以得到結論: MCT能夠在玉米集所有模型中實現最佳的預測性能, 同時具有更好的泛化能力。

對于小麥數據集, 圖5—圖7及表3中均可以看出, MCT的樣本點更加接近直線, 相比其他五種方法, 其能夠達到更好的預測效果。 通過上述對比, 可以很容易地得到結論: MCT在小麥集的所有模型中能夠實現最佳的預測性能, 同時具有更好的泛化能力。

圖7 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器A2和儀器A3之間預測結果的散點圖

表3 SBC, PDS, TCR, CCACT, MSC和MCT六種遷移方法預測結果斜率對比表

3 結 論

提出了一種基于最小化平均分布差異的標準樣本自由NIR偏最小二乘標定遷移方法。 該方法學習了如何找到能夠使主從儀器數據投影后, 兩域平均分布差異最小的同時, 還能使主光譜投影后的數據相關性最大的一個公共子空間。 在該子空間中, 主從儀器的數據分布得到了極大的校正, 能夠使從儀器共用主儀器模型, 實現標定遷移。

在玉米和小麥數據集中, 使用SBC, PDS, CCACT, TCR和MSC作為對比實驗來檢驗MCT方法的性能, 并且所提出的方法(MCT)通常實現了最佳的RMSEC和RMSEP。 結果清楚地表明, MCT能夠成功地用于校正在不同儀器上測量的光譜之間的差異。 對于SBC, PDS和CCACT這三種遷移方法, 它們需要標準樣品建立遷移模型。 在TCR中, 從儀器樣品還需要少量的參考值。 這兩個條件在實際應用中, 都會產生很昂貴的代價, 甚至無法滿足這一條件。 因此, 當標準樣品在實際應用中不可獲得時, 同時對比現有標準樣本自由方法, MCT是一種有效的標定遷移方法。

猜你喜歡
標準差異方法
2022 年3 月實施的工程建設標準
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
找句子差異
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
生物為什么會有差異?
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲无码高清免费视频亚洲 | 中文字幕无线码一区| 亚洲一区二区三区在线视频| 国产高潮视频在线观看| 亚洲h视频在线| 中文字幕久久波多野结衣 | 亚洲中文字幕日产无码2021| 一个色综合久久| 亚洲人成网站在线观看播放不卡| 中文字幕第4页| 免费人成网站在线观看欧美| 波多野结衣一区二区三区四区视频| 国产玖玖玖精品视频| 亚洲区欧美区| 国产第一页免费浮力影院| 国产一区二区网站| 国产精品尤物铁牛tv| 99手机在线视频| 美女内射视频WWW网站午夜| 伊人久久久久久久久久| 久草青青在线视频| 午夜国产不卡在线观看视频| 男女精品视频| 日韩在线2020专区| 午夜福利亚洲精品| 亚洲中文字幕无码mv| 97综合久久| 国产系列在线| 91精品伊人久久大香线蕉| 女人天堂av免费| 国产波多野结衣中文在线播放| 熟妇丰满人妻| 欧美 亚洲 日韩 国产| 国产免费羞羞视频| 亚洲欧洲日韩综合| 国产成人欧美| 亚洲国产中文精品va在线播放| 亚洲欧美日韩另类| 日韩天堂在线观看| 狠狠做深爱婷婷久久一区| 久久久精品无码一区二区三区| 亚洲一区二区三区国产精华液| 亚洲欧美激情另类| 99热这里只有成人精品国产| 狠狠色香婷婷久久亚洲精品| 色成人亚洲| 亚洲中文字幕在线精品一区| 久草中文网| 国内精品一区二区在线观看| 国产在线一区二区视频| 日本少妇又色又爽又高潮| 91无码视频在线观看| 亚洲一级毛片免费观看| www.日韩三级| 99成人在线观看| 欧美精品v欧洲精品| 免费全部高H视频无码无遮掩| 日本伊人色综合网| 欧美精品xx| 久久亚洲日本不卡一区二区| 日韩高清在线观看不卡一区二区| 日韩精品亚洲人旧成在线| 久久久久国色AV免费观看性色| 日韩欧美网址| 搞黄网站免费观看| 国产9191精品免费观看| 一级成人a毛片免费播放| 国产精品一区在线麻豆| 亚洲精品国偷自产在线91正片| 成人另类稀缺在线观看| 全免费a级毛片免费看不卡| 国内精品九九久久久精品| 国产九九精品视频| 高潮爽到爆的喷水女主播视频| 国产人成在线观看| 蜜桃视频一区| 欧美成a人片在线观看| 香蕉在线视频网站| 五月婷婷综合在线视频| 欧美激情一区二区三区成人| 美女无遮挡免费视频网站| 成人精品亚洲|