陳彥銘,廉小親,王宇喬,劉 鈺
(1. 北京工商大學人工智能學院,北京100048;2. 北京工商大學中國輕工業工業互聯網與大數據重點實驗室,北京 100048)
電感耦合等離子體原子發射光譜法(Inductively coupled plasma atomic emission spectrometry,ICP-AES)是一種以電感耦合等離子體為激發光源的原子發射光譜分析技術,具有多元素同時檢測、分析速度快以及準確度高等特點,被廣泛應用于稀土、冶金、化工、無機材料和醫學等眾多領域[1]-[3]。然而在ICP-AES測量過程中,受儀器暗電流和光源雜散光的影響,測量所得的光譜通常存在一定程度的基線漂移現象,造成元素含量定量分析誤差,因此在測量過程中往往需要對光譜進行基線校正處理[4],[5]。
常見的基線校正方法包括迭代多項式擬合法[6],[7]、導數法[8][9]、移動窗口平滑法[10][11]、小波變換法[12]以及分段擬合法等。迭代多項式擬合法的實現步驟較為簡單,但是對于不同的光譜信號,多項式擬合階數往往需要論證確定,難以建立一種通用性較強的光譜基線擬合模型。導數法和移動窗口平滑法實現原理同樣相對簡單,但二者均會在時域內降低光譜的分辨率,影響光譜的峰形,不利于后期的定量分析。小波變換也能夠有效去除光譜基線,但需要針對不同的光譜信號建立相應的小波基函數,因此算法的運算量相對較高,應用效率也相對較低。分段擬合法分為分段線性擬合[13][14]和分段非線性擬合,分段線性擬合是將基線點依次用線段進行連接,連接得到的分段曲線即視為擬合基線;而分段非線性擬合又包括分段多項式擬合和樣條擬合兩種,分段多項式擬合法在一定程度上克服了迭代多項式擬合法中階數難以確定的問題,但是相比于分段樣條擬合法,分段多項式擬合法有時無法保證全波段范圍下的擬合誤差,臨界處擬合基線的平滑性也較差,而樣條擬合則需要通過人工參與以此來確定樣條曲線的內接點序列和控制點序列,例如基于B樣條曲線的擬合方式[15][16]。
針對以上問題,本文提出一種基于徑向基函數(Radial Basis Function,RBF)神經網絡和非均勻B樣條(Non uniform rational B-spline,NURBS)曲線模型的ICP-AES光譜基線校正方法,該方法不僅能夠避免降低光譜信號分辨率,減小光譜基線擬合誤差,也能夠利用RBF神經網絡能夠進行非線性分類[17]的優勢快速篩選出合適的光譜基線點,并構造相應的NURBS曲線內節點序列,進一步通過NURBS曲線逆向計算模型計算出合適的控制點序列,有效的克服了傳統B樣條擬合方式中內節點序列和基線點序列難以確定的局限性,獲得了更好的基線校正效果。
本文提出的基于RBF神經網絡和NURBS曲線模型的ICP-AES光譜基線校正方法流程如圖1所示。

圖1 基線校正流程
首先利用高斯濾波對原始光譜進行去噪預處理,然后通過RBF神經網絡篩選光譜基線點序列,并對基線點序列進行首尾填充,構造NURBS曲線的內節點序列;利用NURBS曲線逆向計算模型、基線點序列以及內節點序列計算NURBS曲線的控制點序列;通過內節點序列和控制點序列即可擬合出相應的NURBS曲線作為光譜基線;將濾波后的光譜與擬合的光譜基線進行對應點相減,即可消除光譜基線,達到基線校正的目的。
高斯濾波是數字信號處理中常用的濾波方式,其本質為原始信號與高斯卷積核的離散卷積運算,如式(1)所示

(1)
本文采用高斯濾波對ICP-AES光譜進行預處理,一方面由于ICP-AES光譜信號基本服從高斯分布,因此通過高斯卷積核進行卷積能夠盡可能地保留譜線信息,避免降低光譜分辨率;另一方面,本文對實測的ICP-AES光譜數據進行分析,抽樣統計各波段中的噪聲信號分布特征,如圖2所示。
圖2結果表明,ICP-AES光譜中噪聲信號概率密度基本服從高斯分布,因此通過高斯濾波能夠有效的去除噪聲信號。

圖2 不同波段光譜噪聲信號幅值分布統計結果
1)光譜基線點篩選總體思路
本文利用RBF神經網絡篩選ICP-AES光譜基線點,基本思路如下:構造相應的數據集對RBF神經網絡進行訓練,使得該神經網絡能夠判斷任意一段特定長度的光譜信號的中間點能否作為基線點;然后將該RBF神經網絡模型作為掃描窗口,逐步掃描光譜信號,并對每一步窗口中的光譜中間點進行標簽標注,若該窗口內的光譜中間點可視為基線點,則該點對應的標簽為1,反之該點標簽為0;重復上述流程,即可篩選出光譜中的基線點。需要注意的是,受掃描窗口影響,第一個掃描窗口內的前半部分光譜數據和最后一個掃描窗口內后半部分光譜數據無法進行基線點判斷,因此不參與基線擬合與校正。窗口掃描示意圖如圖3所示。

圖3 RBF神經網絡篩選光譜基線點示意圖
2) RBF神經網絡數據集
本文首先實測了一組ICP-AES光譜作為原始數據樣本,波段范圍為190nm-460nm,如圖4所示。

圖4 光譜原始數據樣本
本文設定基線點掃描判斷窗口大小為11,將圖4所示的全波段光譜數據按上述窗口大小進行分割并進行初步篩選,最終得到489組數據集樣本;通過專家判定的方法對數據集樣本進行分類,若樣本光譜的中間點可視為基線點,則該數據樣本對應標簽為1,反之對對應標簽則為0,如圖5所示。

圖5 RBF神經網絡數據集(部分)
3) RBF神經網絡模型
本文設計的RBF神經網絡模型拓撲結構如圖6所示。由于數據集中每組樣本均為11個數據點,因此RBF神經網絡的輸入節點數量為11;RBF神經網絡隱含層節點數量通過網絡迭代訓練進行確定,每輪迭代增加一個隱含層神經元節點,并調整輸出權值矩陣,直至滿足訓練條件;本文構造的數據集輸出標簽僅有兩類,因此RBF神經網絡設置一個輸出節點即可。

圖6 RBF神經網絡模型
本文采用NURBS曲線模型進行ICP-AES光譜基線擬合。NURBS曲線擬合的必要條件為一組特定的內節點序列和控制點序列;本文將對光譜的基線點序列進行首尾填充,以此作為NURBS曲線的內節點序列,而控制點序列的選擇往往難以確定,因此本文將采用NURBS曲線逆向計算模型推算控制點序列,以此實現NURBS曲線的擬合。
1) NURBS曲線模型
記數據點序列集合為X,X={(x1|u,x1|v)},{(x2|u,x2|v)},{(x3|u,x3|v)},…,{(xn|u,xn|v)}采用節點符號t將數據點序列X進行劃分,并記節點序列集合為T,T=[t-k+1,t-k+2,…,t-1,t0,t1,…,tn,tn+1,tn+2,…,tn+k],則節點序列滿足以下關系
t-k+1≤t-k+2≤…≤t-1≤t0<
t1<… (2) 其中,t1到tn稱為內節點,其余稱之為外節點,n為內節點數,k為B樣條曲線的階數;若內節點均勻分布,則最終構成的曲線稱之為均勻B樣條曲線,反之則為非均勻B樣條曲線。 對于k階的B樣條曲線,其表達式如式(3)所示。 (3) (4) 在計算過程中,控制點序列和曲線坐標點序列通常均以坐標的形式進行運算,因此式(3)也可寫為 (5) 同理,可記控制點序列為C={(c0|u,c0|v),(c1|u,c1|v),…,(cn|u,cn|v)}。 (6) 構造出內接點序列T后即可代入式(3)或式(5)進行運算,但根據式(3)或式(5)可知,若需要構造NURBS曲線,還需要一組控制點序列C,因此本文將采用NURBS曲線逆向計算模型計算相應的控制點序列C。 (2) NURBS曲線逆向計算模型 由于基線點均位于基線上,即基線點坐標均為NURBS曲線的取值集合,因此本文將建立NURBS曲線逆向計算模型,以計算控制點序列C的取值。NURBS曲線逆向計算模型步驟如下。 已知歸一化處理后的基線點序列集合為P,內節點序列集合為T。由于本文是通過式(3)或式(5)的逆向運算求解控制點序列,因此令式(3)或式(5)中的自變量輸入為內節點值,建立以下方程組 (7) 其中,pi=(pi|u,pi|v),ci=(ci|u,ci|v),i=1,2,…,n將以上表達式改寫為矩陣形式,如式(8)所示。 (8) 記式(8)中的基函數矩陣為N,顯然r(N) 本文將掃描一組樣品溶液對應的ICP-AES光譜信號,該溶液所含元素及對應的特征波長如表1 表1 樣品溶液所含元素及特征波長 選取其中的294.547nm-297.400nm光譜,并將強度值進行歸一化處理,以歸一化后的光譜作為測試樣本,如圖7所示。 圖7 測試樣本光譜信號 1) 高斯濾波測試結果 對圖7所示的原始光譜進行高斯濾波處理,消除部分噪聲干擾,處理結果如圖8所示。 圖8 測試樣本濾波處理結果 2)RBF神經網絡訓練結果 本文共計構造489組RBF神經網絡數據集,其中標簽0數據集為427組,表示中心點為非基線點,標簽1數據集為62組,表示中心點為基線點;隨機選擇260組標簽0的數據集和40組標簽1的數據集共同構成訓練集,其余數據集作為測試集,通過RBF神經網絡進行訓練,設置目標均方根誤差為0.01,當迭代次數為162時,即隱含層節點數量為162時,網絡輸出實際均方根誤差滿足目標值,為9.95×10-3,神經網絡分類結果對應的混淆矩陣如表2所示。 表2 神經網絡分類結果混淆矩陣 根據混淆矩陣結果可以計算正確率(NetAccuracy)、精確率(Precision)以及召回率(Recall)和F1_Measure四項基本性能指標,如式(9)所示。 (9) 3)基線點序列P篩選結果 將訓練完成的RBF神經網絡模型作為滑動檢測窗口,逐段篩選光譜中的基線點。最終篩選結果如圖9所示。 圖9 測試樣本基線點篩選結果 4)控制點序列C計算結果 將基線點序列P作為NURBS逆向計算模型輸入,計算控制點序列C。控制點序列C相對于測試樣本的分布如圖10所示。 圖10 控制點序列C分布 5) 光譜基線擬合及校正結果 利用NURBS模型擬合測試樣本對應的光譜基線,并對測試樣本進行基線校正。基線擬合結果和基線校正結果如圖11所示。 圖11 測試樣本基線擬合結果 6) 測試結果對比 本文分別利用移動窗口平滑法、分段二次多項式擬合法以及分段三次多項式擬合法對測試樣本進行基線擬合和基線校正,并與本文所提出的基線校正方法進行對比。對比結果如圖12所示和圖13所示。 圖13 移動窗口平滑法與NURBS擬合法對比 由圖12可知,相比于NURBS曲線模型擬合法,分段二次多項式擬合法和分段三次多項式擬合法在分段點臨界附近的擬合基線平滑性相對較差,且對于光譜基線波動較為劇烈的波段,擬合誤差也相對較高;而通過圖13的對比可知,相比于NURBS曲線模型擬合法,移動窗口平滑法對光譜信號時域分辨率的影響較大,且光譜信號的動態范圍也有所減小,不利于后期的定量分析。 本文總結歸納了常見的光譜基線校正方法的局限性,并針對ICP-AES光譜提出一種基于RBF神經網絡和NURBS曲線模型的基線校正方法。相比于傳統的分段多項式擬合法和移動窗口平滑法,該方法能夠擬合較為平滑的基線,且全波段范圍內均能保證較小的擬合誤差,并保證光譜信號時域分辨率不受影響;另一方面也能夠有效快速的計算出NURBS曲線的內節點序列和控制點序列,有效提高了NURBS模型的應用效率。 然而,本文提出的方法仍具有一定的局限性,例如,RBF神經網絡的訓練結果決定了NURBS曲線的內節點序列和控制點序列的分布,進而直接影響最終的基線擬合效果;而本文中RBF神經網絡的分類正確率和精確率盡管均達到90%以上,但召回率僅為72.58%,F1_Measure值也僅為80.36%,對于本文的數據集和分類問題而言,上述指標并未達到理想值,即網絡的分類性能并非十分理想。因此在后續的工作中需要針對RBF神經網絡進行優化,在保證召回率的前提下盡可能提高正確率和精確率,最終獲得更為理想的分類結果。







3 實驗結果與分析
3.1 測試方案


3.2 測試結果








4 結論