999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

激光誘導擊穿光譜(LIBS)結合字典學習對氣溶膠光譜數據篩選方法的研究

2024-01-13 13:47:12李雨亭陳靖陳文杰袁茼珊王啟璇
中國無機分析化學 2024年2期

李雨亭 韋 中* 陳靖 陳文杰 袁茼珊 王啟璇 蔣 焱 丁 宇

(1.南京信息工程大學 江蘇省大數據分析技術重點實驗室,南京 210044;2.南京信息工程大學 江蘇省大氣環境與裝備技術協同創新中心,南京 210044;3.南京信息工程大學 江蘇省氣象能源利用與控制工程技術研究中心,南京 210044)

氣溶膠是氣體介質中細小的固態或液態顆粒的懸浮體系[1],在大氣輻射收支平衡、氣候變化、以及環境污染研究等方面起著重要作用[2]。因此,利用有效的手段測量和分析氣溶膠的元素組成具有重要意義。激光誘導擊穿光譜(LIBS)是一種新興的元素含量分析技術[3],具備多元素分析和原位測量等技術優勢[4],已廣泛應用于氣溶膠以及顆粒物檢測等實際應用場景[5-9]。然而,由于氣溶膠中離散顆粒物的空間分布不均勻[10],導致發射的激光脈沖無法每次均能擊中離散的顆粒,從而產生大量的無效光譜。這些無效的光譜數據將會對后續的定量分析產生不利的影響,通常需要研究人員耗費大量的時間進行剔除。因此,在LIBS應用于氣溶膠分析時,迫切需要尋求一種方法來篩選有效光譜數據,從而改善后續定量分析等研究的效果。

近年來,研究人員針對氣溶膠光譜數據篩選開展了大量研究。CARRANZA等[11]發現由于氣溶膠中顆粒的采樣率較低,將采集到的全部光譜數據進行平均可能會限制特征譜線的信噪比。故提出一種條件數據分析法來篩選光譜數據,通過比較特征譜線的強度與相鄰無特征連續光譜區域的發射強度,若兩者比值高于閾值,則識別為有效數據。篩選過的數據信噪比比未篩選的信噪比高出70%到150%。BUCKLEY等[12]采用LIBS檢測焚化爐中有毒金屬顆粒物的濃度,對采集到的光譜數據用條件數據分析法篩選。與全部光譜取平均值相比,采用篩選后的數據進行研究可以提高檢測的靈敏度,得到更低的檢出限(LOD)。LITHGOW等[13]通過計算元素譜線的峰基比(Peak-to-base,P/B)對城市環境中含金屬的PM2.5濃度進行研究,與絕對峰值法相比,P/B可以減少等離子體能量變化對研究的影響。CARRANZA等[14]對比了P/B和信噪比法(SNR)的可靠性,隨著閾值增加,無效光譜的誤判率隨之降低。此外,與P/B相比,SNR為光譜分析提供了更可靠的評價方法。YAO等[15]提出一種新的光譜篩選方案——標準差法(SD),通過對比SD法、SNR法和絕對峰值法對光譜數據的識別性能,得出SD法不僅可以更準確地區分光譜數據,且其閾值能適應檢測條件的發生。

綜上所述,SNR、SD等方法都屬于閾值篩選法,這類算法雖然可以簡便地對數據進行篩選,但是它只關注于單個特征值,通常忽略數據的整體分布。因此,本文提出一種結合字典學習的氣溶膠光譜數據篩選方法(K-SVD-SVM)。其中字典學習以K-SVD算法為基礎,結合SVM實現對有效光譜數據的篩選。研究中,使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、精確率和召回率的調和平均(F1)來評估模型的性能。

1 實驗部分

1.1 裝置

本實驗采用液體霧化的實驗方式,實驗裝置如圖1所示,由激光器、延時發生器、反射鏡、聚焦透鏡、光纖、光譜儀、氣溶膠發生器、樣品和計算機組成。激光光源為輸出波長1 064 nm的Nd:YAG激光器(Dawa 200,Beamtech),脈沖能量200 mJ、重復頻率2 Hz。激光脈沖經反射鏡反射,被透鏡(f=150 mm)聚焦到NaCl氣溶膠氣團內。誘導擊穿產生的等離子體被水平放置的光纖探針收集并耦合進入光譜儀(Avantes,AvaSpec-ULS2048-2-USB2,198 ~ 400 nm、分辨率0.07 nm;AvaSpec-ULS4096CL-EVO,400~938 nm、分辨率0.3 nm)。

圖1 實驗裝置圖Figure 1 Experimental device diagram.

1.2 樣品制備

本實驗利用去離子水將氯化鈉稀釋制備成7種不同濃度梯度的NaCl溶液作為實驗樣品,如表1所示。NaCl溶液經氣溶膠發生器霧化為氣溶膠樣品。首先,對NaCl溶液(10%)采集5 000條光譜,用于定性分析以評估分類算法的性能。再對7種不同濃度的NaCl氣溶膠樣本額外各采集500條光譜,總計獲得3 500 條光譜,用于定量分析。

表1 標準樣品中Na濃度Table 1 Concentration of Na in standard samples

1.3 算法介紹

1.3.1 字典學習

字典學習(Dictionary learning)是一種受到人類大腦的啟發而發展起來的機器學習技術,旨在從高維數據中學習一組稀疏表示的基向量[16]。這一技術模擬了人類大腦如何從復雜的輸入數據中提取有用信息的過程。

K-SVD(K-singular value decomposition)是一種用于字典學習的經典算法,旨在從數據中學習一組基向量的字典,以便能夠有效地表示和重構輸入數據[17]。從數學角度看,稀疏表示是針對不確定方程組Xm×n=Dm×K·SK×m求解提出的。其中,X(大小為m行n列)是訓練樣本集,D(大小為m行K列)是字典矩陣,S(大小為K行m列)是稀疏表示。K-SVD算法的核心思想是最小化重構誤差且保證稀疏矩陣S盡可能稀疏,目標函數如下:

其中,si為訓練樣本xi的稀疏表示,T是稀疏閾值。

K-SVD算法步驟如下[18]:

1)初始化字典D0:每個基向量從標準正態分布中隨機初始化。

2)稀疏表示:字典D固定,計算每個數據樣本的稀疏表示S。本實驗采用Lasso算法加入L1正則化來獲得稀疏表示,對每個訓練樣本單獨求稀疏表示:

3)字典更新:稀疏表示S固定,通過最小化重構誤差,更新字典D中的基向量,是K-SVD算法的關鍵步驟。目標函數可轉化為:

4)迭代:重復步驟2和步驟3,直到達到最大迭代次數或滿足收斂容忍度的條件。

1.3.2 性能評估參數

關于分類算法的性能評估,評估參數是:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、召回率與精確率的調和平均(F1),計算公式如下[19]:

其中,TP(True positive)為正確的正例個數,即樣本為正且預測為正。FP(False positive)為錯誤的正例個數,即樣本為正但預測為反。TN(True negative)為正確的反例個數,即樣本為反且預測為反。FN(False negative)為錯誤的反例個數,即樣本為反但預測為正。F1表示Precision與Recall同樣重要,可較為全面地評估一個分類算法的性能。

2 結果與討論

2.1 定性分析

光譜中的波長及其對應的強度是用來表征被實驗樣品中元素含量的重要信息。如圖2所示,參考美國國家標準與技術研究(NIST)數據庫可知,本實驗激發的NaCl溶液的特征譜線主要包含Na Ⅰ 589.59 nm、Cl Ⅰ 821.20 nm、O I 777.19nm、N Ⅰ 746.83 nm、H Ⅰ 656.28 nm等。如圖3所示,不同濃度的NaCl氣溶膠光譜中Na的強度有明顯差異,隨著濃度的增加,Na和Cl的譜線強度均呈上升趨勢。

圖2 NaCl氣溶膠樣品典型光譜Figure 2 Typical spectra of NaCl aerosol samples.

圖3 不同濃度NaCl氣溶膠樣品的代表性LIBS光譜對比圖Figure 3 The comparison of representative LIBS spectra of aerosol samples with different concentrations of NaCl.

2.2 分類算法的性能評估

本文首先對兩種常規的閾值篩選法(SD和SNR)的分類性能進行評估。SD值是特征譜線強度與周圍若干點的標準偏差,SD值越大,說明一組數據的離散程度越大,即峰值越明顯。SNR值是特征譜線強度與相鄰無特征連續背景強度的SD之比。由于閾值篩選法是通過判斷SD值或SNR值是否達到閾值來進行光譜篩選,因此需要選定一條特征譜線。由于Na I 589.59 nm譜線的波峰較為明顯,而且受附近譜線干擾較小,因此選取Na 589.59 nm作為閾值篩選法的特征譜線,計算不同閾值對應的評估性能,如圖4所示。

圖4 閾值法性能指標隨閾值變化圖Figure 4 Variation of performance indexes of threshold method with threshold value.

由圖4可知,無論采用何種閾值法,精確率都隨著閾值的增加而升高,而召回率都隨著閾值的增加而降低,F1隨著閾值的增加先升高后降低。導致這一現象的原因可能是,閾值越大,篩選條件越嚴苛,故誤判(FP)少,精確率高;漏報(FN)多,召回率低。當F1取到最大值時,表示此閾值下的分類性能最佳。使用SD法的情況下,當閾值取到116時,F1值為最大值0.84,模型性能最優,此時準確率為91.2%。使用SNR法的情況下,當閾值取到14時,模型性能最優,F1值為最大值0.82,此時準確率為89.7%。

雖然閾值篩選法可以簡便地對光譜數據進行篩選,但是它沒有考慮光譜數據的分布和統計特性,導致了對數據的不準確分類。因此,本節采用字典學習中的K-SVD算法結合SVM(K-SVD-SVM)對光譜數據進行篩選,將原始光譜數據的8 190個數據點作為字典學習的輸入,總樣本的70%作為訓練集,30%作為測試集。在使用K-SVD方法進行數據降維時,字典矩陣基向量的數量會對識別率產生影響,當基向量數較少時,字典矩陣不能充分反映訓練樣本的信息,當基向量數較大時,則會占用大量的計算資源。將字典矩陣基向量數分別設置為1~8,計算每個基向量數對應的Accuracy、Precision、Recall、和F1,實驗結果如圖5所示。

圖5 性能指標隨字典基向量數變化圖Figure 5 Performance index changes with the number of base vectors of the dictionary.

由圖5可知,當基向量數小于3時,性能指標均呈上升趨勢。由于基向量數越多,字典矩陣能表征的光譜信息越全面,故識別率越高。當基向量數大于3時,性能指標均基本不變。分析其原因,含有3個基向量的字典矩陣已經能表征大部分光譜信息,冗余的基向量只會浪費計算資源,故將字典基向量數設置為3。

將學習得到的字典矩陣結合Lasso算法對測試集求稀疏表示,稀疏表示構成的矩陣作為SVM分類算法的輸入量,得到的分類結果混淆矩陣如圖6所示。混淆矩陣直觀地表示了算法對光譜數據分類的性能,矩陣塊顏色越深表示該分類樣本數越多,顏色越淺表示該分類樣本數越少。沿混淆矩陣對角線的值表示正確分類的樣本數量,而對角線以外的值表示錯誤分類的樣本數量。由圖6可知,TP為375,FP為28,TN為1067,FN為30,根據公式計算可得準確率、精確率、召回率、F1值分別為96%、95%、95%、0.95。

圖6 光譜數據的分類混淆矩陣Figure 6 Classification confusion matrix of spectral data.

較之前的閾值篩選法相比,該方法的分類性能有了明顯提高,F1值從SD法的0.84和SNR法的0.82提高到0.95,準確率從SD法的91.2%和SNR法的89.7%提升到96%。通過K-SVD算法對原始光譜數據進行特征提取,從高維空間得到稀疏表示,再結合SVM分類模型可以有效地實現光譜數據的快速識別。

2.3 定量分析

采用K-SVD-SVM方法對7種不同濃度的氣溶膠樣品進行篩選后,使用結合遺傳算法的極限學習機方法(GA-ELM)開展定量分析,同時將未篩選的全部原始光譜數據輸入定量模型進行對比,進一步驗證K-SVD-SVM方法的有效性。定量模型的性能評估參數是:均方根誤差(RMSE)、相關系數(R2)。RMSE是預測值與真實值之間差異的平方和的均方根,RMSE越小說明GA-ELM模型的準確率越高。R2值越接近1,表示回歸的擬合度越高。

2.3.1 全部原始光譜定量分析

總樣本包括如表1所示的7個不同濃度的NaCl氣溶膠樣本,每個濃度500條光譜數據。為確保訓練集能夠包含最低和最高濃度的樣本,選取濃度為1%、5%、10%、18%的NaCl氣溶膠樣本的全部原始光譜數據作為訓練集,其余光譜數據作為測試集。將訓練集輸入GA-ELM算法建立定量預測模型,并對測試集進行濃度預測,結果如圖7所示。測試集預測結果的RMSE=0.0303,R2=0.8726。圖中預測結果的誤差棒較大,可能是由于未經處理的原始光譜含有大量無效光譜,這將對定量分析等研究產生不利影響。因此,需要采用K-SVD-SVM方法對原始數據進行篩選。

圖7 全部原始數據測試集的預測效果Figure 7 Prediction effects of all raw data test sets.

2.3.2 采用K-SVD-SVM篩選的光譜定量分析

采用K-SVD-SVM對各樣本的原始數據進行篩選,剔除無效光譜數據。選取濃度為1%、5%、10%、18%的NaCl氣溶膠樣本的有效光譜數據作為訓練集,篩選出的其余光譜數據作為測試集。將訓練集輸入GA-ELM算法建立定量預測模型,并對測試集進行濃度預測,結果如圖8所示。測試集預測結果的RMSE=0.0187,R2=0.9809。由圖8可知,有效光譜的預測結果誤差棒較小,反映了預測值的離散程度較小。

圖8 篩選出的有效光譜測試集的預測效果Figure 8 Prediction effects of the selected effective spectral test set.

兩種方法的定量分析對比結果如表2所示。對采用K-SVD-SVM方法篩選過的有效光譜數據進行濃度預測,GA-ELM模型的預測性能有了明顯提高,RMSE由全光譜建模的0.030 3優化到0.015 3,表明篩選后的數據預測值與真實值之間差異的平方和均方根更小,預測準確率更高。R2由0.872 6提升到0.979 5,表明篩選后的數據回歸擬合度更高。此外,篩選后的數據預測值的誤差棒明顯小于原始光譜的預測值誤差棒。

表2 定量分析對比結果Table 2 Comparative results of quantitative analysis

3 結論

提出了一種結合字典學習的氣溶膠光譜數據篩選方法——K-SVD-SVM。將該方法與SD法和SNR法進行對比。結果表明,當字典基向量數設置為3時,模型性能最優,準確率、精確率、召回率和F1值分別為96%、95%、95%、0.95。而SD法的最優準確率為91.2%,SNR法最優準確率為89.7%。結果表明,K-SVD-SVM方法可以篩選出有效光譜數據,且在性能方面優于閾值篩選法。進一步地,采用K-SVD-SVM方法對7種不同濃度的氣溶膠樣品進行篩選后,將有效數據輸入GA-ELM模型開展定量分析,同時將未篩選的原始光譜數據輸入定量模型進行對比。未篩選的原始數據測試集RMSE和R2分別是0.030 3和0.872 6,篩選光譜后,分別提升至0.018 7和0.980 9。結果表明,K-SVD-SVM方法有著較好的分類性能,且采用此方法篩選出的有效數據可以為氣溶膠中元素定量分析提供數據支撐。

主站蜘蛛池模板: 欧美视频在线不卡| 国产麻豆福利av在线播放 | 特级毛片免费视频| 99国产精品国产| 视频二区亚洲精品| 亚洲香蕉在线| 国产成人毛片| 成年人国产视频| av大片在线无码免费| 亚洲AV无码不卡无码| 国产第一页屁屁影院| 老色鬼久久亚洲AV综合| 亚洲视频无码| 国产午夜精品一区二区三区软件| 在线看AV天堂| 囯产av无码片毛片一级| 看av免费毛片手机播放| 亚洲中文字幕无码爆乳| 无码中文字幕精品推荐| 蜜桃视频一区| 免费国产一级 片内射老| 国产一区二区人大臿蕉香蕉| www.国产福利| 欧美一级片在线| 免费a级毛片视频| 中国一级毛片免费观看| 亚洲欧洲一区二区三区| 3p叠罗汉国产精品久久| 国产玖玖玖精品视频| 欧美日韩国产成人高清视频| 91九色国产porny| 欧美亚洲一区二区三区导航| 国产精品偷伦视频免费观看国产 | 精品无码一区二区三区在线视频| 99视频在线免费观看| 亚洲福利视频一区二区| 免费一级α片在线观看| 在线观看无码av免费不卡网站| 欧美一级高清片久久99| 无码一区二区波多野结衣播放搜索| 国外欧美一区另类中文字幕| 久久精品aⅴ无码中文字幕| 国产日韩欧美中文| 日本欧美在线观看| 72种姿势欧美久久久大黄蕉| 呦女亚洲一区精品| 91娇喘视频| 精品一区二区三区中文字幕| 国产精品自在拍首页视频8| 在线精品视频成人网| 亚洲天堂啪啪| 99久久精品免费视频| 婷婷中文在线| www.国产福利| 综合人妻久久一区二区精品 | 一级毛片中文字幕| 国产精品一区不卡| 在线国产综合一区二区三区| 国产另类视频| 午夜电影在线观看国产1区| 国产制服丝袜91在线| 国产成人无码Av在线播放无广告| a毛片免费看| 九九久久99精品| 亚洲国产看片基地久久1024 | 国产在线一二三区| 亚洲无码高清一区| 69av在线| 国产迷奸在线看| 91久久国产热精品免费| 99精品伊人久久久大香线蕉| 中文字幕啪啪| 国产熟女一级毛片| 亚洲永久免费网站| 一级毛片在线播放免费| 国产欧美在线| 亚洲人妖在线| 精品国产美女福到在线直播| 一级在线毛片| 高潮毛片免费观看| 人妻无码一区二区视频| 亚洲精品卡2卡3卡4卡5卡区|