朱紅求 周濤 李勇剛 陳俊名
摘 要 紫外可見分光光度法檢測高濃度Zn離子和痕量Co離子混合溶液時,由于Zn離子對痕量Co離子吸收光譜的掩蔽,以及兩種離子之間化學性質相近,經常導致光譜重疊、相互干擾。針對這一問題,本研究提出一種基于提升建模的Zn離子和Co離子濃度紫外可見吸收光譜檢測方法。本方法通過對校正集加權采樣獲得子數據集; 然后使用子數據集建立不同壓縮比的LASSO回歸子模型集,使用赤池信息量準則(AIC)選擇最優子模型; 根據子模型對建模樣本的誤差大小,更新樣本權重,重復迭代建模至子模型收斂; 最后根據子模型的預測性能給予子模型不同的權重,加權融合子模型得到最終的總模型。共獲得80組Zn離子和Co離子混合溶液的紫外可見光譜數據集,將本方法與全波段的偏最小二乘(PLS)、蒙特卡洛無信息變量消除(MCUVE)-PLS及競爭自適應重加權采樣(CARS)-PLS進行了比較分析,對于Zn離子,本方法保留的有效波長點個數相比PLS、MCUVE-PLS和CARS-PLS都大幅減少,預測均方根誤差相對于PLS、MCUVE-PLS和CARS-PLS分別減少55.3%、21.3%和1.64%。對于Co離子,本方法保留的有效波長點個數相比MCUVE-PLS 和CARS-PLS大量減少,降低了模型的復雜度,預測均方根誤差相對于PLS、MCUVE-PLS和CARS-PLS分別減少71.4%、46.2%和54.8%。
關鍵詞 紫外可見吸收光譜; LASSO回歸; 提升建模; 金屬離子檢測
1 引 言
濕法煉鋅過程中需要對復雜電解料液的多金屬離子濃度進行檢測,已有研究對復雜料液中單個痕量離子進行檢測[1],并建立了單個痕量離子預測模型,但對復雜料液中多金屬離子同時檢測的研究較少。這主要是因為紫外可見分光光度法對復雜電解料液進行檢測存在以下難點[2]:(1)高濃度鋅離子的吸收光譜信號嚴重掩蓋了痕量離子的吸收光譜信號; (2)高濃度鋅離子導致吸收光譜在部分波段不再滿足疊加性,呈現明顯的非線性; (3)離子間化學性質相近,光譜信號相互干擾。使用紫外可見分光光度法對復雜料液進行檢測時,紫外可見光譜數據集同時包含了有效信息和大量無效冗余信息,甚至包含噪聲信息,這些冗余信息和噪聲會嚴重影響模型的預測性能,因此不能使用傳統的最小二乘建模方法。偏最小二乘(PLS)[3,4]分別對光譜矩陣和濃度矩陣進行正交分解,去除一些不重要的信息來建立模型,取得了較好的效果。但是偏最小二乘的隱變量都由所有的解釋變量組成,會導致所建立的最終預測模型也包含所有的解釋變量。這樣得到的模型的穩定性和預測性能通常較差,模型復雜度高并且無可解釋性,因此偏最小二乘法通常結合變量選擇方法建模。變量選擇方法可以降低光譜數據的維度,提高模型的可解釋性。常見的變量選擇方法有前向選擇(Forward selection)[5]、后向消除(Backward elimination)[6]和無信息變量消除(UVE)[7]。這些變量選擇方法都可以有效地單獨選取一些有用變量,但是這些變量選擇方法不能考慮各個變量之間的相互影響,屬于離散的選擇方法[8],不能根據變量對模型的貢獻程度連續選擇。另一些變量選擇方法如蒙特卡洛無信息變量消除(MCUVE)[9]、競爭自適應重加權采樣(CARS)[10]考慮了個變量之間的影響,綜合多次迭代建立模型具有較好的模型預測性能。但在復雜料液多金屬離子檢測的背景下,MCUVE和CARS會傾向于選擇譜峰處的波長點,而譜峰處的波長點對痕量離子預測模型的貢獻度較小,導致模型性能下降。
LASSO回歸[11,12]是通過在最小二乘回歸估計中引入一范數懲罰,使得一些對模型貢獻不大的變量的回歸系數壓縮為0,可以綜合考慮變量之間的相互影響對變量進行連續選擇,獲得稀疏的回歸模型。LASSO回歸是一種同時具有變量選擇和參數估計的回歸方法[13],參數估計過程中考慮到各個變量之間的相互影響,將性質相近的變量回歸系數規整在一起,并賦予較大的建模系數,將其它變量系數壓縮為0。此方法可以有效保留重要的變量, 同時刪除數據中的冗余信息。
傳統的回歸方法通常建立單個的預測模型,然而單個預測模型通常在穩定性和預測性能方面較差[14]。近年來,集成建模快速發展[15],集成建模是通過對樣本多次采樣獲得多個訓練子集,使用多個訓練子集建立多個子模型,然后通過一定的規則將多個子模型融合, 得到最終的模型。常見的集成方法有Bagging[16,17]和Boosting[18,19]兩種。Boosting集成方法通過對樣本重加權采樣獲取訓練子集,連續訓練較差的樣本獲得一系列子模型,并根據子模型的預測性能進行加權融合, 得到最終的模型。Boosting方法已被證明可以明顯減小模型的方差和預測誤差[20]。
為了提高混合溶液多金屬離子的檢測精度,針對濕法煉鋅過程中高濃度Zn離子和痕量Co離子混合溶液的紫外可見吸收光譜數據特點,本研究提出采用LASSO回歸結合Boosting方法進行建模,使用Boosting方法連續建立一系列欠擬合的LASSO回歸子模型集,使用赤池信息量準則(AIC)[21]選擇子模型集中的最優子模型,根據最優子模型更新樣本權重,重復迭代至最優子模型收斂,最后通過加權融合所有的子模型獲得一個穩定的、預測性能強的回歸總模型。此方法具有隨機森林算法類似的優點,可同時在樣本方向和變量方向進行選擇,具有多樣性的優點,可以提高總模型的穩定性,減小預測誤差。
2 實驗部分
實驗使用北京普析T9雙光束紫外可見分光光度計和微型計算機進行分析。使用紫外可見分光光度法測量高濃度Zn離子和痕量Co離子的混合溶液光譜數據。按照均勻實驗設計思想,設計了80組具有不同濃度Zn離子和Co離子的混合溶液樣本,其中Zn離子濃度變化范圍是160~800 mg/mL,間隔為80 mg/mL,Co離子濃度范圍是0.2~1.0 mg/mL,間隔為0.1 mg/mL。以空白樣品(只含有測試體系不含有待測金屬離子)作參比,T9雙光束紫外可見分光光度計的掃描波長范圍是:470~800 nm, 掃描間隔為1 nm, 測量待測溶液在各波長點的吸光度,獲得80組樣本的吸光度矩陣。
3 建模方法
3.1 LASSO回歸方法
LASSO回歸是一種同時進行變量選擇和參數估計的回歸方法,此方法通過在最小二乘回歸估計中引入一個范數懲罰,對建模系數進行連續壓縮,可以將一些對模型貢獻不大的變量的回歸系數壓縮為0。多元線性回歸模型為[23]:
4 結果與討論
4.1 最佳子模型選取分析
首先分析LASSO回歸模型的有效變量個數和模型預測精度之間的變化關系,使用LASSO回歸對全部校正集數據進行建模,分別對Zn離子和Co離子進行預測。改變LASSO回歸的一個范數懲罰因子,從而得到有效變量個數不同的回歸模型。圖2A和2B分別表示Zn離子和Co離子LASSO回歸模型的預測均方根誤差(RMSEP)與LASSO回歸保留的有效建模波長點個數的變化關系。如圖2A所示,對Zn離子而言,LASSO回歸模型保留的有效變量個數大于24時,LASSO回歸模型的預測均方根誤差趨于穩定且較小,因此使用Boosting-LASSO方法建模時,子模型的有效變量個數應該大于24個。變量個數太少,模型預測性能較差,但過多的變量會導致模型可解釋性降低,因此結合AIC準則選擇最佳子模型。同理,對Co離子而言,變量個數大于12時,LASSO回歸的預測均方根誤差趨于穩定(圖2B)。由于變量個數是LASSO回歸自動確定的,因此存在變量個數不連續的情況。不同壓縮比的LASSO回歸模型可能有相同的變量個數,因此圖中存在一對多的坐標點。
從圖2可見,由于LASSO回歸的壓縮程度難以確定,較大的壓縮因子導致模型欠擬合,較小的壓縮因子會導致模型夾雜較多的噪聲和冗余信息,降低模型解釋性和模型穩定性。此外,也導致LASSO回歸直接用于多金屬離子紫外可見光譜建模時,預測誤差大,因此每次迭代使用AIC準則計算子模型的赤池信息量,選擇準確性較好和復雜度較低的子模型。
4.2 Boosting-LASSO建模分析
使用上述Boosting-LASSO建模方法對校正集數據進行建模,Boosting-LASSO建模方法是迭代提升的過程。圖3A和3B分別表示了Zn離子和Co離子總模型的有效變量個數和總模型的RMSEP與迭代次數之間的變化關系。可以看到,隨著迭代次數增加, 模型的有效變量個數增加, 同時預測均方根誤差減小。 從圖3A可見,對于Zn離子,Boosting-LASSO建模迭代達到25次時,模型的預測性能趨于穩定,有效變量個數不再增加,說明子模型和總模型已經趨于收斂。如圖3B所示,Boosting-LASSO對Co離子建模迭代達到8次時,模型的預測性能趨于穩定。
4種建模方法建立的模型對20組驗證集數據預測結果如表1所示。全波段PLS建模,由于光譜數據存在大量數據冗余、噪聲干擾,導致全波段PLS建模預測精度低,且模型沒有可解釋性。對于Zn離子,Boosting-LASSO建模方法保留的有效波長點個數,相比MCUVE-PLS 和CARS-PLS都有較大程度的減少,預測均方根誤差相對于PLS、MCUVE-PLS和CARS-PLS分別減少55.3%、 21.3%和1.6%,平均相對誤差(MSE)和相對最大誤差都明顯減小。對于Co離子,Boosting-LASSO建模方法保留的有效波長點個數相比MCUVE-PLS 和CARS-PLS大量減少,降低了模型復雜度,預測均方根誤差相對于PLS、
5 結 論
本方法使用LASSO回歸作為基礎回歸方法,使用赤池信息量準則(AIC)確定子模型的最佳壓縮比; 然后通過Boosting方法的迭代重加權采樣對基礎回歸方法進行提升,最后融合多個子模型得到最終的模型。使用此方法對Zn和Co混合溶液紫外可見光譜數據集進行建模預測分析,實驗結果表明,本研究提出的方法相比于三種常見的建模方法PLS、MCUVE-PLS和CARS-PLS在預測精度和模型穩定性上都有較大的提升,同時可以很大程度地減小預測的平均相對誤差和最大相對誤差。本方法以Zn和Co離子混合溶液的紫外可見吸收光譜為例進行分析, 用于濕法冶金工業現場的浸出液中鋅離子和鈷離子的檢測,檢測精度滿足濕法煉鋅現場的最大檢測誤差小于10%的要求。本方法也可應用于含鋅、銅、鐵、鎳等離子的混合溶液的檢測,檢測精度相比于傳統的檢測方法都有較大的提高。
References
1 ZHU Hong-Qiu, GONG Juan, LI Yong-Gang, CHEN Jun-Ming. Spectroscopy and Spectral Analysis, 2017, 37(12): 3882-3888朱紅求, 龔 娟, 李勇剛, 陳俊名. 光譜學與光譜分析, 2017,? 37(12): 3882-3888
2 ZHU Hong-Qiu, CHEN Jun-Ming, YIN Dong-Hang, LI Yong-Gang, YANG Chun-Hua. Journal of Chemical Industry,? 2017,? 68(03): 998-1004朱紅求, 陳俊名, 尹冬航, 李勇剛,陽春華.? 化工學報,? 2017,? 68(03): 998-1004
3 LIANG Yi-Zeng, WU Hai-Long, YU Ru-Qing. Handbook of Analytical Chemistry·Chemometrics. Beijing: Chemical Industry Press,? 2016:? 211-212梁逸曾, 吳海龍, 俞汝勤.? 分析化學手冊·化學計量學.? 北京: 化學工業出版社,? 2016:? 211-212
4 Poerio D V, Brown S D. Chemometr. Intell. Lab. Sys.,? 2017,? 166(2017): 49-60
5 Blanchet F G, Legendre P, Borcard D. Ecology,? 2008,? 89(9): 2623-2632
6 Sutter J M, Kalivas J H. Microchem. J.,? 1993,? 47(1): 60-66
7 Centner V, Massart D, deNoord O E, deJong S, Vandeginste B M, Sterna C. Anal. Chem.,? 1996,? 68(21): 3851-3858
8 Yun Y H, Wang W T, Tan M L, Liang Y Z, Li H D. Anal. Chim. Acta,? 2014,? 807(1): 36-43
9 Sun X D, Zhou M X, Sun Y Z. Infrared Phys. Tech.,? 2016,? 77(1): 65-72
10 Li H D, Liang Y Z, Xu Q S. Anal. Chim. Acta,? 2009,? 648(1): 77-84
11 Colombani C, Legarra A, Fritz S, Guillaume F, Croiseau P, Ducrocq V. J. Dairy Sci., 2013,? 96(1): 575-591
12 Lê C K A, Rossouw D, Robertgranié C, Besse P. Stat. Appl. Genet. Mol.,? 2008,? 7(1): 11-35
13 Li H D, Liang Y Z, Xu Q S. Chemometr. Intell. Lab. Sys.,? 2010,? 104(2): 341-346
14 Bian X, Li S, Shao X G, Liu P. Chemometr. Intell. Lab. Sys.,? 2016,? 158(1): 174-179
15 Li Z G, Lv J T, Si G Y. Chemometr. Intell. Lab. Sys.,? 2015,? 146(1): 211-220
16 Breiman L. Mach. Learn.,? 1996,? 24(2): 123-140
17 Zou P C, Wang J, Chen S, Chen H. Knowl. Based Sys.,? 2014,? 65(1): 21-30
18 Cao D S, Xu Q S, Liang Y Z, Zhang L X, Li H D. Chemometr. Intell. Lab. Sys.,? 2010,? 99(1): 1-11
19 Gao F, Kou P, Gao L, Guan X. Neurocomputing,? 2013,? 113(7): 67-87
20 Shao X, Bian X, Cai W. Anal. Chim. Acta,? 2010,? 666(1): 32-37
21 Inouye T, Toi S, Matsumoto Y. Cognitive Brain Res.,? 1995,? 3(1): 33-40
22 Macho S, Rius A, Callao M P, Larrechi M S. Anal. Chim. Acta,? 2001,? 445(2): 213-220
23 Martens H, Naes T. J. Chromatogr. A,? 2007,? 33(3): 366-367