趙煜輝, 蘆鵬程, 羅昱博, 單 鵬
東北大學秦皇島分校, 河北 秦皇島 066000
近紅外光譜(NIR)分析技術具備操作簡單、 分析數據速度快、 成本較低、 不污染樣品等優勢, 已在各領域得到廣泛應用, 如農產品生產、 化工產品生產、 食品生產以及環境監測領域[1-4]。 近紅外光譜技術在定性分析和快速物質成分定量分析以及實現在線檢測方面具有獨特優勢[5]。 建立多元校正模型是近紅外光譜分析技術的重要內容。 即通過一定的數學分析方法, 對近紅外光譜數據進行分析建模, 從而達到對一些指標進行預測的目的, 這是一種根據已有樣本總結出規律生成模型的方法。 但實際的工業生產中, 測量儀器、 環境和場景通常并不一致, 依據已有近紅外光譜數據建立的模型往往并不適用新的儀器采集的數據, 原有模型失效, 并且在測量環境或其他條件變化后, 也需更新模型。
標定遷移是指在不同測量儀器或測量狀態下的多元標定模型遷移方法, 通過將從光譜數據遷移到主光譜數據空間, 進而實現主光譜數據模型對從光譜數據模型的預測, 避免重復建模[6-7]。
已有標定遷移方法[8-9], 主要是通過一組標準樣品構建遷移模型, 它需要在主儀器和從儀器上分別測量一組標準樣本, 通過一組標準樣本來糾正主儀器和從儀器之間光譜的差異。 分段直接標準化(piecewise direct standardization, PDS), 主儀器的每個波長與從儀器的波長窗口相關, 基于每個窗口間回歸系數形成帶狀遷移矩陣。 實驗結果與假設是一致的, 即在各種遷移方法中, 主儀器和從儀器之間的頻譜相關性被限制在較小的區域。 PDS的關鍵是窗口大小的選擇和標準樣本數目的確定。 在偏差斜率校正(slope and bias correction, SBC)[10]中, 假設不同儀器的預測值之間存在線性關系, 先計算光譜和響應值之間的回歸系數; 并用該系數分別計算主儀器和從儀器的預測值; 最后, 在預測值之間進行線性擬合。 SBC算法為一種單變量方法, 因此在測量儀器和測量條件變化引起系統化的光譜差異的情況下, 才能取得較好的效果。 現實生活中, 光譜差異往往比較復雜, 此時它的預測能力是不確定的。 Liang等提出了基于典型相關分析(canonical correlation analysis, CCA)的標定遷移方法成功地校正了不同光譜之間的差異。 首先, 使用主儀器的標定集構建PLS模型; 選取主儀器和從儀器的標定集的一部分作為標準樣本; 通過典型相關分析分別提取特征[11]。
標準樣本要求主從儀器在相同的環境及條件下測量同一組樣本。 工業應用中, 由于標樣組分的揮發性及可變性, 使保持標準樣品的完整性很難實現[12], 為此, 需建立標準樣本自由的標定遷移模型[13]。
Bouveresse等提出的多元散射校正(multiplicative scatter/signal correction, MSC)[14]是一種信號預處理方法。 MSC計算校準集的平均光譜作為參考光譜, 并在每個光譜和參考光譜之間找到線性關系, 得到斜率和偏差, 利用斜率和偏差來校正從光譜, 雖然不需要標準樣本, 但難以處理復雜情況, 且模型性能多數情況較差。
遷移成分回歸(transfer component regression, TCR)也是一種無標準的遷移方法[13], 它結合了遷移成分分析(transfer component analysis, TCA)[15]和普通最小二乘法(ordinary least square, OLS)。 TCA的基本思想是在再生希爾伯特空間中投影兩個儀器的數據, 在這個空間中, 主儀器和從儀器的數據分布盡可能的接近, 同時保留原始數據的關鍵屬性。 TCR是一個具有良好泛化能力的穩健模型, 但無法實現更準確的預測。
針對標準樣本難以獲得和保存, 現有的標準樣本自由的標定遷移方法預測能力相對一般的情況, 提出了一種標準樣本自由的基于最小化平均分布差異的NIR偏最小二乘標定遷移方法(minimizing mean distribution discrepancy Calibration Transfer for NIR, MCT)。 此方法在不考慮從儀器標準樣本的情況下, 為去光譜數據的多重共線性, 首先假設存在一個適用于主從儀器的偏最小二乘子空間, 該子空間通過后續優化主從儀器在此空間中的分布差異獲得, 接著將主從儀器光譜數據分別投影到該假設的公共子空間; 然后引入平均分布差異最小化算法, 即分別給出主從光譜數據在子空間的平均分布(中心點)表示函數, 最小化兩個光譜平均分布(中心點)的差異, 并最大化投影后主儀器光譜的協方差, 目的是使主儀器投影后的數據具有最大相關性, 推導求解出最佳子空間; 最后, 將主光譜樣本和從光譜預測樣本分別投影到該子空間中, 利用主光譜數據得到回歸模型, 通過此回歸系數計算出從光譜預測濃度。 該方法無需標準樣本的獲取, 便能縮小主從儀器數據間的分布差異, 同時對比現有標準自由遷移方法, 更加簡單高效, 并具有更好的預測性能。 本文使用玉米數據集和小麥數據集, 將MCT的性能與SBC, PDS, CCACT, TCR和MSC進行比較。

在化學計量學中, 偏最小二乘算法(partial least square, PLS)是一種很有效的多元標定方法。 PLS算法結合了多元線性回歸、 主成分分析、 典型相關分析的優點, 被廣泛用于建立輸入空間和響應空間之間的關系。 PLS通過分數向量建立輸入空間和響應空間之間的關系。 PLS模型的目的是確保最佳的潛變量數量。 潛變量是原始變量的線性組合。 它包含了關于X和y之間關系的最大相關信息。 在數學上, 由式(1)表示目標函數

subject to ‖w‖2=1
(1)
其中w代表權重向量。 該目標函數是在一個約束下的最大化問題, 可以通過拉格朗日乘數法進行求解。
在這個算法中, 第一個權重向量必須是矩陣XTyyTX的主要的特征向量。 從第二個潛變量開始, 它要求接下來的潛變量與前面的潛變量正交(不相關)。 因此, 接下來的權重向量也是矩陣的主要特征向量, 重復這一系列步驟直到收斂。 模型被構建通過如下等式
其中T是得分矩陣,P和Q分別代表X的載荷矩陣和y的載荷矩陣向量;E和F分別表示殘差矩陣;A是PLS模型潛變量的最佳數量。
最后, 模型的回歸系數β可寫如式(2)
β=W(PTW)-1QT
(2)
式(2)中,W=[w1,w2, ……,wA]為權重矩陣。

(3)

令T=PTX, 最小化問題式(3)可以重新表示為
(4)
為了學習得到這樣一個能使式(4)中的平均分布差異最小化的基變換矩陣P, 還應確保投影后的源數據XS與源數據濃度yS之間的關系具有最大相關信息。 因此, 對于源域的數據, 合理的做法是將以下項最大化
(5)
在求解式(5)時可以看出, 源域數據的協方差在新學習的子空間中已經被最大化, 那么在這一過程中就保留了盡可能多的可用信息。
結合式(4)和式(5), 可以得到以下優化目標
(6)

(7)
在式(7)的最大化問題中,P有許多的可能解(即并非唯一解), 為了保證解的唯一性, 式(7)施加了一個等式約束, 這樣就可以寫成
s.t.Tr(PT(μS-μT)(μS-μT)TP)=η
(8)
其中η是一個常數。
為了解出式(8), 將其改為拉格朗日函數, 見式(9)
γ(Tr(PT(μS-μT)(μS-μT)TP)-η)
(9)
其中γ表示拉格朗日乘子系數。
接下來, 將L(P,γ)對P求偏導, 令其偏導數為0, 就得到
AP=γP
(10)

由此得出, 最優子空間P*表示矩陣A特征值分解后的前k個最大特征值所對應的特征向量, 而γ表示是一個對角矩陣, 對角線上的值分別為前k個最大特征值。
為了便于實現, 將所提出的MCT算法歸納到下列算法描述中。
輸出: 回歸系數β。
(2) 計算矩陣A
(3) 根據公式AP=γP對A進行特征值分解。
(4) 得最優子空間P*=[p1,p2, …,pk]
(5) 計算投影到子空間后的矩陣
(6) 計算回歸系數
MCT算法到此結束。
(7) 預測
為了驗證算法的準確性和實用性, 使用玉米數據集和小麥數據集作為實驗對象, 對數據集進行了數據分析, 來檢驗MCT方法的性能。
第一個數據集是在三個近紅外光譜儀(M5, MP5和MP6)上測量含有80個樣本的玉米數據集。 每個樣品含有四種成分: 水分, 油, 蛋白質和淀粉。 波長范圍為1 100~2 498 nm, 間隔為2 nm(700個通道)。 該數據集可以從http://www.eigenvector.com/Data/Corn/下載。 使用這三個近紅外光譜儀和玉米數據集成分中的水分進行研究討論。 儀器M5和儀器MP5之間的光譜差異如圖1(a)所示; 儀器M5和儀器MP6之間的光譜差異如圖1(c)所示; 儀器MP5和儀器MP6之間的光譜差異如圖1(e)所示。 其中橫軸表示波長, 縱軸表示吸光度差異, 曲線表示光譜樣本。

圖1 不同儀器之間的光譜差異
小麥數據集由制造商A的三個儀器(A1, A2和A3)測量的248個樣本組成。 數據集只提供蛋白質參考值。 波長范圍為730~1 100 nm, 間隔為0.5 nm。 可在http://www.idrc-chambersburg.org/獲取。 使用了三個近紅外光譜儀和蛋白質含量進行研究討論。 儀器A1和儀器A2之間的光譜差異如圖1(b)所示; 儀器A1和儀器A3之間的光譜差異如圖1(d)所示; 儀器A2和儀器A3之間的光譜差異如圖1(f)所示。 其中橫軸表示波長, 縱軸表示吸光度差異, 曲線表示光譜樣本。
通過Kennard-Stone算法將玉米數據集的80個樣本分成兩組: 80%用做標定集樣本, 20%用做測試集樣本; 將小麥數據集的248個樣本分成兩組: 80%用作標定集樣本, 20%用作測試集樣本。 對于有遷移標準的遷移方法, 使用Kennard-Stone算法在標定樣本上選擇若干個標準樣品。
在該實驗中, 均方根誤差(root mean square error, RMSE)被用作參數選擇和模型評估的指標。 此外, RMSEC表示標定集的訓練誤差, RMSEP表示測試集的預測誤差。 RMSE計算方法寫為
(11)
文中RMSEP代表從儀器測試集。
選用玉米和小麥光譜數據集檢驗模型的性能。 使用SBC, PDS, CCACT, MSC和TCR五種方法進行對比實驗。 對于SBC, PDS, CCACT和MSC算法均采用PLS算法作為主體算法, 使用主儀器的光譜數據建立多元標定模型作為參考模型, 用于對從儀器的待測樣本進行預測。 實驗結果主要包含兩個部分: (1) MCT和對比方法的RMSEC和RMSEP比較; (2) MCT和對比方法預測結果的擬合能力示意圖。
MCT和其他五種標定遷移方法的標定誤差和預測誤差被展示在表1和表2中。

表1 SBC, PDS, TCR, CCACT, MSC和MCT六種遷移方法在玉米數據集下的RMSEC, RMSEP

表2 SBC, PDS, TCR, CCACT, MSC和MCT六種遷移方法在小麥數據集下的RMSEC, RMSEP
玉米數據集實驗結果分析如下:
對于儀器MP5到儀器M5的標定遷移, MCT的RMSEP小于TCR和MSC這兩種標準樣本自由的方法, 同時也小于SBC, PDS和CCACT這三種有標樣的RMSEP, 并且MCT的RMSEC也低于其他五種遷移方法。 對于儀器MP6到儀器M5的標定遷移, 由SBC, PDS, CCACT, TCR和MSC獲得的最低RMSEP分別為0.36, 0.40, 0.41, 0.47和1.92。 表1中列出的結果清楚地表明MCT具有比其他五種方法更低的RMSEP和RMSEC。 對于從MP6到MP5的標定遷移, MCT再一次達到了最小的RMSEP和RMSEC。
小麥數據集實驗結果分析如下:
對于儀器A1到A2的遷移, 當標準樣品數為35, 25和35時, SBC, PDS和CCACT分別取到最小值。 從表2中能夠看出方法MCT的RMSEC和RMSEP都小于其他五種方法的最佳結果。 對于儀器A2到A3的遷移, 當標準樣品數為35時, SBC, PDS和CCACT均取到最小值, 由表看出MCT的RMSEP均小于其余五種方法。 對于儀器A3到A2的遷移, MCT再一次達到了最小RMSEP和RMSEC。
這六組對比實驗可以看出, MCT模型在通常情況下能夠取得最優的預測效果, 并具有更好的魯棒性。
圖2—圖4和圖5, 圖6分別顯示了在玉米集和小麥集中, 六種不同的標定遷移方法的預測值與測量值的關系圖。 預測濃度和測量濃度之間的零差異, 將會使得樣本點在直線上。 對于有標準樣本的標定遷移方法, 選取預測性能最優時的數據用于比較, 以便更加充分的體現出MCT能夠取得良好的預測性能。 表3是六種遷移方法的預測值與測量值曲線擬合斜率表。

圖2 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器M5和儀器MP5之間預測結果的散點圖

圖3 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器M5和儀器MP6之間預測結果的散點圖

圖4 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器MP5和儀器MP6之間預測結果的散點圖

圖5 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器A2和儀器A1之間預測結果的散點圖
對于玉米數據集表, 圖2—圖4顯示MCT方法的預測結果相比其他五種遷移方法具有更好的預測性。 根據表3中的數據也可證明MCT相比其他方法更加接近直線。 通過上面的陳述, 可以得到結論: MCT能夠在玉米集所有模型中實現最佳的預測性能, 同時具有更好的泛化能力。
對于小麥數據集, 圖5—圖7及表3中均可以看出, MCT的樣本點更加接近直線, 相比其他五種方法, 其能夠達到更好的預測效果。 通過上述對比, 可以很容易地得到結論: MCT在小麥集的所有模型中能夠實現最佳的預測性能, 同時具有更好的泛化能力。

圖7 SBC, PDS, CCACT, TCR, MSC和MCT六種方法在儀器A2和儀器A3之間預測結果的散點圖

表3 SBC, PDS, TCR, CCACT, MSC和MCT六種遷移方法預測結果斜率對比表
提出了一種基于最小化平均分布差異的標準樣本自由NIR偏最小二乘標定遷移方法。 該方法學習了如何找到能夠使主從儀器數據投影后, 兩域平均分布差異最小的同時, 還能使主光譜投影后的數據相關性最大的一個公共子空間。 在該子空間中, 主從儀器的數據分布得到了極大的校正, 能夠使從儀器共用主儀器模型, 實現標定遷移。
在玉米和小麥數據集中, 使用SBC, PDS, CCACT, TCR和MSC作為對比實驗來檢驗MCT方法的性能, 并且所提出的方法(MCT)通常實現了最佳的RMSEC和RMSEP。 結果清楚地表明, MCT能夠成功地用于校正在不同儀器上測量的光譜之間的差異。 對于SBC, PDS和CCACT這三種遷移方法, 它們需要標準樣品建立遷移模型。 在TCR中, 從儀器樣品還需要少量的參考值。 這兩個條件在實際應用中, 都會產生很昂貴的代價, 甚至無法滿足這一條件。 因此, 當標準樣品在實際應用中不可獲得時, 同時對比現有標準樣本自由方法, MCT是一種有效的標定遷移方法。