王玉田, 趙 煦, 潘 釗, 苑媛媛
(燕山大學 河北省測試計量技術及儀器重點實驗室, 河北 秦皇島 066004)
?
基于熒光光譜的五維數據處理方法
王玉田, 趙 煦, 潘 釗*, 苑媛媛
(燕山大學 河北省測試計量技術及儀器重點實驗室, 河北 秦皇島 066004)
石油是一種成分復雜的混合物,通過常規的檢測方法很難對其進行定性識別。本文用汽、煤、柴油的混合物來模擬環境中的油類污染物。汽、煤、柴油在特定波長范圍的激發下可以發出含有物質自身信息的熒光,根據朗伯-比爾定律可知熒光強度與物質濃度成正比,利用該性質對特定物質進行識別。通過FS920穩態熒光光譜儀對樣本進行測量,將實驗所得的三維數據拓展為五維數據,提出了一種將展開偏最小二乘耦合到殘差四線性的五維數據處理方法,同時采用五維平行因子法和該算法分解數據,實現了對汽、煤油的定量分析,并恢復出了其激發和發射光譜。結果表明,展開偏最小二乘法的分析效果更好。
定性識別; 五維數據; 展開偏最小二乘法; 平行因子法
隨著先進儀器的發展,我們可以獲取多樣的含有分析物信息的數據。如何對數據進行有效的提取是科研人員一直努力研究的方向[1-6]。近年來,在該方向的研究已取得不少成就。其中多維校正分析是被研究最多的一種方法。目前出現的多維校正分析包括二階校正法和三階校正法。二階校正在文章中被描述的比較多,主要有平行因子法、多維偏最小二乘法等。三階校正是二階校正的拓展,主要針對三階數據。
三階數據可以通過許多不同的方法來獲取。一種常見的方法是記錄單樣本三維熒光光譜動力學演化。三階校正包括一個相似的二階優勢,也就是說,在未校干擾物存在時,該組分可以被量化。根據相關文章[7]我們了解到,它還有許多其他的優點,如單個樣本的三階數組分解、改進了針對共線數據算法的精度、提高了靈敏度和分離度等。然而在提高靈敏度和分離度方面并沒有達成普遍的共識。
三階數據通常通過平行因子法進行處理。三線性偏最小二乘與殘差三線性相結合作為一種新的算法被提出來處理四維數據[8],在復雜樣本中證明了其有效性[9-10]。其他基于使用潛在變量的方法也被提出來處理三階數據,如多維偏最小二乘和展開偏最小二乘方法,它們都缺乏二階優勢。然而當展開偏最小二乘和多維偏最小二乘耦合到單獨的過程殘差三線性時,它們也可以達到二階優勢。基于矩陣的方法也可以應用于三階數據,首先把它們展開成矩陣,再將多元曲線分辨耦合到交替最小二乘實現。只有在少數情況下,三階數據被記錄并用于構造定量校正模型同時開發分析方法。
四階數據相對于二階和三階數據擁有更加全面的樣本信息。針對干擾和基體效應,該方法更穩定。在外界環境干擾下,四階數據不容易發生微小的變化,預測精度得到改進。雖然如今已經有四階數據出現,但關于四階數據分析應用的報道還較少。
本文描述了兩種四階多元校正模型。一種為將展開偏最小二乘耦合到殘差四線性的方法,另一種為五維平行因子法。將新提出的方法與拓展的平行因子法相比較,根據分析結果判定其優勢。這種新的多維校正方法理論為解決應用中的復雜分析問題提供了一種新的思路。
2.1 平行因子法
本文將平行因子法[11-12]模型拓展至五維,可以得出更多優勢,如精確度高、低背景干擾等。首先使每個Ical組成的矩陣Xi,cal與未知樣本的矩陣Xu結合成一個五維數組X(大小(Ical+1)×J×K×L×M)。此時的X遵循一個四線性平行因子模型,它可以用5個相應的向量形式來描述,分別為an、bn、cn、dn和fn,收集相對應的濃度(Ical+1)×1分別來確定組分數n和各向量(J×1,K×1,L×1,M×1)。給定元素X的特定表達式為:
(1)
其中N是組分總數,ain是組分為n時第i個樣本的相關濃度,bjn、ckn、dln和fmn分別是j、k、l和m方向上的相關強度,eijklm的值是矩陣E中的元素,E是與X維度相同的剩余誤差項。列向量an被收集到相關的得分矩陣A,向量bn、cn、dn和fn被收集到載荷矩陣B、C、D和F。無論其化學含量是已知還是未知,都可以通過最小二乘法對X進行分解,求出(Ical+1)混合物中每個組分的相對濃度A。這構成了二階優勢的基礎。
關于平行因子模型在五維數據校正中的應用有幾個相干問題:(1)初始化算法;(2)應用受限制的最小二乘擬合;(3)建立相應組件數量;(4)從模型和所提供的信息中識別特定的組件;(5)校準模型以獲取未知樣本中特定成分的絕對濃度。
采用初始化平行因子法來研究五維數組,在平行因子中可以通過使用以下幾種方式來實現:(1)奇異值分解(SVD)向量;(2)隨機正交值;(3)幾次迭代后選出最佳擬合模型。本文采用第一種方法。
平行因子法擬合中的限制條件被用來在所有的維度中獲取物理識別的對應向量。然而,在目前情況下這種限制是沒有必要的。
組分數N可以通過幾種方法估算出來,比較常用的一種是核一致診斷法。考慮到平行因子內部參數的診斷手段被稱為核一致性。另一種方法考慮的是平行因子法的誤差平方和(SSE),也就是矩陣E中元素的平方和:
(2)
該參數隨著N的增加而減小,直到穩定在一個值,此時N對應于最佳組分數。
通過對各個方向矩陣的評估實現化學成分的識別,得到主要的激發和發射光譜,讓它們與標準的分析物濃度相比較。根據它們對整個光譜方差的貢獻,將分解X獲得的組件分類。當未知樣本改變時,這個分類順序也會改變。
五維數組分解值提供的是相對的值A,校準后得到的是分析物的絕對濃度。通過已知濃度的分析物的集合(包含在一個大小為(Ical+1)的向量y中)可以對分析物的濃度集完成校準。Ical中第一個元素列向量an(對應于校正樣本)回歸與y相對:
(3)
其中,‘+’表示廣義逆。通過an(相對應測試樣本)的最后一個元素除以校準曲線的斜率k進行未知樣本中絕對濃度的相對轉換:
(4)
重復上述過程對每個測試樣本進行分析。
一個分析物可能發生幾種情況,向量y中的值是總的分析物的濃度。相比之下,得分向量an是特定的對于一個給定的分析物種類。因此,針對分析物的濃度,回歸每種分析物種類的得分向量,在原則上可以構造出幾個偽單變量圖。科研人員選擇精度最高的圖表來預測分析物的濃度。
2.2 展開偏最小二乘
展開偏最小二乘[13]算法的本質為先把校準數據展開成一維數組再利用常規偏最小二乘法對該數組建模。將該模型拓展至對五維數據的處理,使光譜數據信息得到最大限度的利用。首先把四維校正數組矩陣(大小J×K×L×M)展開成一維數組(大小JKLM×1),結合偏最小二乘用該數組和濃度向量y(大小I×1)建模。此時,得到一組載荷矩陣P和W(大小JKLM×A)和一個回歸系數v(大小A×1)。A表示組分數,可以用核一致法診斷出。當待測樣本中的組分與校正樣本一致時,通過式(5)可以得出待測樣品個組分含量:
(5)

(6)
先將未知樣本Xu矢量化,再將其轉換到A個組分的空間,式中vet(g)表示矢量化。
若待測樣本Xu中含有其他未知組分時,上述過程不能用于測量分析。并且,該算法預測結果的殘差值sp(見式(7))超出了正常范圍。
(7)
‖·‖為范數符號。
當含有未知組分時,可以將典型的殘差雙線性化方法延伸到第四維,用于不包括樣本維時的四維數據信號的處理。此時得到的殘差四線性化將整個信號按照式(8)中的形式分解,主要為建模信號和干擾物信號,另外eu表示其余未能建模的誤差向量。
vec(Xu)=
Modeled signal+Interferent signal+eu.
(8)
殘差四線性化中將模型拓展來描述四維測試樣本數據。該方法能夠利用潛在結構對測試樣本中的未知組分建模。其中模型分解得到的載荷矩陣是未知組分的真實光譜。該方法使式(8)中表達式在成立的條件下,殘差值達到最小。
vec(Xu)=Ptu+vec[Tucker3(Ep)]+eu,
(9)
Ep=reshape(ep),
(10)
reshape(·)為矢量化操作vet(g)的逆向過程,即矢量轉化數組的操作符。ep對應的是vec(Xu)-Ptu。殘差四線性化方法對于不同樣本能夠預測出其中各個成分的含量。
su的表達式為:
(11)
式中的eu來源于式(8)。
通過以上過程,我們可以判斷出該算法的本質是求出tu使殘差su取得最小值。tu的表達式為:
tu=min‖vec(Xu)-Ptu-vec[Tucker(Ep)]‖.
(12)
按照上述過程處理完測試樣本數據之后,su達到最小值。該模型中的載荷向量包括潛在未知組分,因此,最終的得分向量tu不受未知組分物質的干擾。將tu代入式(5)對待測樣本進行預測。
在當前的預測分析過程中,應當注意到兩條特性:(1)不管有無干擾成分,預測式(1)是唯一的;(2)該算法中存在的潛變量結構使其對于非四線性數據同樣適用。這兩條特性使其與之前描述的平行因子相比更具優勢。
3.1 實驗樣本
將從加油站購買的汽油和煤油混合作為校準
樣本,用CCL4作為溶劑,分別配制5組樣本濃度為(1.0,2.5,3.0,4.0,5.0)×10-3g/mL的溶液置于容量瓶中。用振蕩器將樣本振蕩2 min,待混合物溶解均勻再進行測量。按照表1的濃度配制測試樣本,并分別編號1~9,將柴油作為干擾物混入樣本中。

表1 用平行因子法預測樣本得出的結果
3.2 實驗儀器
所有的熒光測量都是通過快速掃描儀來獲得,掃描速度為1 200 nm/min。在室溫為20 ℃的環境中,設置激發-發射熒光矩陣按照下面的范圍掃描:激發波長:230~480 nm,間距為5 nm;發射波長:250~500 nm,間距為2 nm。完整的數據收集到三維數組中:大小為9(樣本個數)×51×126。
3.3 數據處理
用Savitzky-Golay多項式將實驗得到的三維數組按照x和y的方向分別求導[14],此時三維數組疊加為五維數組,屬于四階數據。由于處理過程重復且太過繁瑣,本文以9個樣本中的第1、5、9號測試樣本為例,分別利用上述平行因子法和展開偏最小二乘法進行處理。
4.1 平行因子法處理結果
當處理由一組樣本信號組成的五維數據時,要求數據遵從四線性條件才能用平行因子法對該數據成功分解。這就意味著所有模式中分解出的光譜圖都是相互獨立的,常見于所有的樣本給定一個組分數。由于發射波長與激發波長有關,而激發波長為設定的數值,所以恢復出的各數據點之間互不干擾。在原則上,激發和發射光譜符合這個條件。
第一次嘗試五維數組處理只包含校準樣本,使用雙組分平行因子模型是為了測試實驗的四線性損失的嚴重性。初始化是使用包含在平行因子分解中的SVD向量,沒有具體限制在最小二乘階段,結果成功地分析出了混合物的激發和發射光譜,如圖1所示。應該注意到,式(2)中的SSE參數對于五維平行因子(原始數據)是約3×106單位。類似于儀器噪聲水平,獲得更好的建模精度的原因是通過降低維數獲得了一個多線性數據。
最好的平行因子模型對應于四維數組,用于在測試樣本中預測分析物。因此,每個測試樣本五維數據與校準樣本相結合,該五維數組被提交給平行因子用于分解,并像前面交代的那樣分析預測。在這種情況下,模型由3部分組成:單組分和所需的兩個校準樣本(表1)。多余組分作為相應的干擾物質,其光譜圖通過平行因子法被成功地恢復出來。圖1、2顯示了從樣本1、5、9中恢復出來的激發和發射光譜。其中干擾物質被成功地定義為柴油。剩余測試樣本的預測效果也能滿足要求。
圖1 利用平行因子法恢復出的1、5、9號測試樣本的熒光激發光譜。
Fig.1 Fluorescence excitation spectra of the test sample No.1, 5, 9 recovered by the parallel factor method.
圖2 利用平行因子法恢復出的1、5、9號測試樣本的熒光發射光譜。
Fig.2 Fluorescence emission spectra of the test sample No.1, 5, 9 recovered by the parallel factor method.
如上所述,在分析系統中兩個獨立的偽變量平行因子校準曲線可能量化分析物。即一種是汽油得分向量,另一種是煤油得分向量。前者顯示了一個更強的熒光發射,與干擾物重疊部分較少,因此汽油得分向量被選中作為校準,因為它們提供了更好的靈敏度。在測試樣本中恢復的分析物的濃度和統計指標被收集到表1中。
4.2 展開偏最小二乘法處理結果
建立展開偏最小二乘模型時,首先要確定出展開偏最小二乘法中分析物個數。當個數不少于2時,利用該方法能夠對分析物建立模型。本文校正樣本中的分析物為汽煤油。
首先依次處理測試樣品集,通過逐步加大式(9)中的維數評估殘差四線性的組分數直到式(11)中殘差su的值趨于穩定。根據獲取的向量信息得到了一個結果,即在殘差四線性過程中Tucker3模型中的載荷向量,結果如圖3所示。該結果對應于樣本1、5、9,其中柴油視作干擾信號,對其建模。在任何情況下,殘差四線性得到的向量幾乎與平行因子法得到的相同(圖2),都是通過從全部數據中分離干擾物的方式實現對分析物的預測。Tucker3模型用比較擬合殘差sp和su值的方式來評估。一般情況下,擬合殘差值sp(式(7))比最后穩定的su值大。通過殘差四線性化過程得出的光譜圖具有物理意義。圖3和圖4中的干擾物光譜就是4號樣本中的柴油光譜,如果組分數不是1,此時的定性結果會失去效果。
圖3 利用展開偏最小二乘法恢復出的1、5、9號測試樣本的熒光激發光譜。
Fig.3 Fluorescence excitation spectra of the test sample No.1, 5, 9 recovered by the unfolded partial least squares method.
該算法成功實現預測的基礎是校正樣本中的幾種物質之間不存在化學反應。9組測試樣本的預測結果被收集到表2當中。
表1和表2包括了展開偏最小二乘法和五維
圖4 利用展開偏最小二乘法恢復出的1、5、9號測試樣本的熒光發射光譜。
Fig.4 Fluorescence emission spectra of the test sample No.1, 5, 9 recovered by the unfolded partial least squares method.
平行因子法的數據處理結果。結果表明,兩種五維數據處理方法都能得到相應的預測結果,但展開偏最小二乘法的REP(預測相對誤差)較小,說明該方法的預測結果精度較高。其原因有以下兩點:(1) 展開偏最小二乘法在進行數據處理時,具有潛在結構化方法的適應性;(2)平行因子法要求數據之間沒有線性關系,若兩個維度的數據相互影響時必須通過降維來實現。

表2 用展開偏最小二乘法預測樣本得出的結果
本文用汽、煤、柴油的混合物來模擬環境中的油類污染物,汽煤油作為校準物質,柴油作為干擾物質配制校準和測試樣本。通過熒光光譜儀快速掃描出該樣本的三維熒光光譜數據。以Savitzky-Golay多項式將三維熒光光譜疊加為五維導數光譜為前提,分別描述了平行因子法與展開偏最小二乘法在處理五維數據時的具體步驟,并進行比較。結果表明,兩種算法都能夠實現對干擾物溶液的定性定量分析,但展開偏最小二乘法由于其算法的優越性,分析結果更準確。
[1] CHAO K, WU H L, YU Y J,etal.. An alternative quadrilinear decomposition algorithm for four-way calibration with application to analysis of four-way fluorescence excitation-emission-pH data array [J].Anal.Chim.Acta, 2013, 758(1):45-57.
[2] GOICOECHEA H C, CALIMAG-WILLIAMS K, CAMPIGLIA A D. Multi-way partial least-squares and residual bi-linearization for the direct determination of monohydroxy-polycyclic aromatic hydrocarbons on octadecyl membranesviaroom-temperature fluorescence excitation emission matrices [J].Anal.Chim.Acta, 2012, 717(5):100-109.
[3] CALIMAG-WILLIAMS K, KNOBEL G, GOICOECHEA H C,etal.. Achieving second order advantage with multi-way partial least squares and residual bi-linearization with total synchronous fluorescence data of monohydroxy-polycyclic aromatic hydrocarbons in urine samples [J].Anal.Chim.Acta, 2014, 811:60-69.
[4] YANG R, LIU R, XU K. Detection of adulterated milk using two-dimensional correlation spectroscopy combined with multi-way partial least squares [J].FoodBiosci., 2013, 2:61-67.
[5] SHAHLAEI M, FASSIHI A, SAGHAIE L,etal.. Prediction of partition coefficient of some 3-hydroxy pyridine-4-one derivatives using combined partial least square regression and genetic algorithm [J].Res.Pharmaceut.Sci., 2014, 9(2):143-153.
[6] HANAFI M, OUERTANI S S, BOCCARD J,etal.. Multi-way PLS regression: monotony convergence of tri-linear PLS2 and optimality of parameters [J].Computat.Stat.DataAnal., 2015, 83:129-139.
[7] OLIVIERI A C. Analytical advantages of multivariate data processing. One, two, three, infinity? [J].Adv.Nurs.Sci., 2008, 80(15):5713-5720.
[8] BRO R, ANDERSEN C M. Theory of net analyte signal vectors in inverse regression [J].J.Chemomet., 2003, 17(12):646-652.
[9] OLIVIERI A C, ARANCIBIA J A, PEA A M D L,etal.. Second-order advantage achieved with four-way fluorescence excitation-emission-kinetic data processed by parallel factor analysis and trilinear least-squares. Determination of methotrexate and leucovorin in human urine [J].Anal.Chem., 2004, 76(19):5657-5666.
[10] ARANCIBIA J A, OLIVIERI A C, GIL D B,etal.. Trilinear least-squares and unfolded-PLS coupled to residual trilinearization: new chemometric tools for the analysis of four-way instrumental data [J].Chemomet.Intel.Lab.Syst., 2006, 80(1):77-86.
[11] LEURGANS S, ROSS R T. Multilinear models: applications in spectroscopy [J].Stat.Sci., 1992, 7(3):289-310.
[12] BRO R. PARAFAC. Tutorial and applications [J].Chemomet.Intel.Lab.Syst., 1997, 38(2):149-171.
[14] 杜樹新,杜陽鋒,武曉莉. 基于三維熒光導數光譜的水體有機污染物濃度檢測 [J]. 光譜學與光譜分析, 2010, 30(12):3268-3271. DU S X, DU Y F, WU X L. Detection of dissolved organic matter based on three-dimensional first-order derivative fluorescence spectrometry [J].Spect.Spect.Anal., 2010, 30(12):3268-3271.(in Chinese)
王玉田(1952-),男,河北秦皇島人,教授,博士生導師,1995年于哈爾濱工業大學獲得博士學位,主要從事光電檢測技術、光纖傳感技術等方面的研究。
E-mail: y.t.wang@163.com潘釗(1982-),男,河北石家莊人,博士,講師,2012年于燕山大學獲得博士學位,主要從事光譜分析方面的研究。
E-mail: panzh_zach@hotmail.com
Processing Method of Five-dimensional Data Based on Fluorescence Spectra
WANG Yu-tian, ZHAO Xu, PAN Zhao*, YUAN Yuan-yuan
(KeyLabofMeasurementTechnologyandInstrumentationofHebeiProvince,YanshanUniversity,Qinhuangdao066004,China)
As a complex mixture of components, petroleum is difficult to be qualitatively identified by conventional detection methods. In this paper, the mixture of gasoline, kerosene and diesel was used to simulate the oil pollutants in the environment. The gasoline, kerosene and diesel could emit fluorescence with the material self information under the excitation of the specific wavelength range, and the fluorescence intensity was directly proportional to the concentration of the substance from the Lambert-Beer law, which was used to identify the kind of the oil. These samples were measured by FS920 steady state fluorescence spectrometer. The data were added to five-dimensional array data by Savitzky-Golay method, then the fourth-order date that contained complex information is obtained to analyze applications. A fourth-order correction method, which coupled unfolded partial least-squares to residual quadrilinearization, was proposed to deal with the five-way data. In order to test its predictive ability, the parallel factor method was used as a reference. Both of them can retrieve the excitation and emission profiles from the test samples. However, the REP value shows that the new method has higher precision than parallel factor analysis.
qualitative identification; five-way data; unfolded partial least squares method; parallel factor method
1000-7032(2016)11-1436-08
2016-05-19;
2016-09-03
國家自然科學基金(61471312); 河北省自然科學基金(F2015203240,F2015203072)資助項目
O433.4
A
10.3788/fgxb20163711.1436
*CorrespondingAuthor,E-mail:panzh_zach@hotmail.com