999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于迭代縮減窗口自助軟收縮算法的近紅外光譜變量選擇方法研究

2022-08-17 01:39:20徐啟蕾郭魯鈺單寶明張方坤
分析測試學報 2022年8期
關鍵詞:模型

徐啟蕾,郭魯鈺,杜 康,單寶明,張方坤

(青島科技大學 自動化與電子工程學院,山東 青島 266061)

在近紅外光譜和高光譜成像中,許多變量冗余或存在噪聲干擾;此外,高維數據存在“維數災難”,即當建模所涉及的變量數量遠超過樣本數量時,回歸模型的準確性會隨著變量的增加迅速下降。因此需要使用變量選擇技術來提取重要變量,提高模型的預測能力和運算速度,增強其魯棒性和可解釋性[1]。根據選擇的數據特征,變量選擇技術可分為單變量選擇和區間變量選擇[2]兩種。單變量選擇方法將每個變量視為一個單位,區間變量選擇將多個連續變量視為一個單位。大量單變量選擇方法已經被提出,例如:連續投影算法[3]、遺傳算法[4],以及許多基于模型種群分析策略(MPA)的變量選擇方法,包括競爭自適應重加權采樣(CARS)[5]、迭代保留信息變量(IRIV)[6]、變量組合種群分析(VCPA)[7]、變量迭代空間收縮法(VISSA)[8]、自助軟收縮(BOSS)[9]等。但單波長選擇方法存在穩定性較差,易受噪聲影響等問題,使其所選變量與化學性質之間的關系無法被有效解釋,通過引入區間進行變量選擇能較好地解決這些問題。近幾十年發展了眾多區間變量選擇方法,如:區間偏最小二乘(IPLS)法[10]、移動窗口法(MW)[11]、區間VISSA法[12]、Fisher最優子空間縮減(FOSS)法[13]等。但區間選擇算法十分依賴于區間的劃分,若劃分過于簡單或固定,則難以找到最優模型;而過于強調最優區間,則會使得算法變得復雜且運行緩慢。

針對上述問題,本文提出了一種更為簡便靈活的迭代縮減窗口策略(ISW),該策略在迭代選擇的過程中加入一個逐步縮減的窗口,通過窗口采樣增加所選變量的連續性和算法的穩定性,并通過迭代縮減策略確保選擇的準確性和算法的靈活性,該方法可以集成在許多基于MPA 策略的變量選擇算法過程中。在此基礎上,本文通過改進BOSS算法,形成了一種新的變量選擇算法——迭代縮減窗口自助軟收縮(ISWBOSS)算法。該算法對窗口進行加權采樣,利用子模型競爭篩選出最優的建模變量。通過在公開的玉米近紅外光譜數據集上進行測試,證明了方法的有效性。

1 算法原理

1.1 模型種群分析和迭代縮減窗口

1.1.1 模型種群分析模型種群分析策略,最早由Li 等[14]引入到光譜變量選擇中,其核心思想是對隨機生成的大量子模型的輸出進行統計分析,從數據中提取感興趣的信息[15]。在基于MPA 策略開發的算法中,BOSS算法是較為優秀的代表,其具體原理可以從文獻[9]中得到。

BOSS 算法利用優秀偏最小二乘(PLS)子模型的回歸系數對變量進行加權抽樣來實現軟收縮,使用后文提到的玉米光譜數據模擬其迭代過程,如圖1A所示。可以看出,在迭代初期變量的選擇頻率呈現局部塊狀。這是由于連續光譜變量之間存在很強的共線性,大量抽樣后這些共線性變量的回歸系數趨于均值,使得局部被選頻率也大致相同。但抽樣次數過多會導致算法運算效率下降,而減少抽樣次數將使這些共線性變量的回歸系數變得不穩定,導致變量的重要性無法被準確地評估。另外隨著迭代的進行,變量空間非均勻收縮,打破了這種局部連續共線性,使得BOSS算法選擇的區域逐漸變為單一變量。一些寬度較窄的特征峰,還可能會因其他特征峰變量搶占剩余變量空間而被過早濾除。

1.1.2 迭代縮減窗口采樣基于上述分析,為了更好地利用近紅外光譜數據的特點,本文提出了一種迭代縮減窗口的加權采樣策略,其具體過程如圖1B所示。首先將數據中所有變量的權重初始化為相同的值w0,權重和為1。設定一個初始的窗口大小,并將變量按順序劃分為一定數量的窗口,窗口內變量的權重累加得到窗口的權重。對窗口進行N次加權抽樣,每次被抽到的窗口內的變量全部參與子模型建模。根據MPA 策略,設定合適的評價指標對子模型進行統計比較,并更新每個波長變量的權值。隨后按預設縮減方式迭代縮減采樣窗口的大小,預設縮減方式有每次迭代窗口大小減一或直接除二,也可以根據數據的特性自定義合適的縮減方式。按縮減后的窗口大小重新劃分窗口,并計算新窗口的權值。繼續對窗口進行加權采樣,直到剩余被選變量數均值小于2。

圖1 BOSS算法在迭代過程中變量選擇頻率圖(A)及迭代縮減窗口的示意圖(減一方式)(B)Fig.1 Frequency of variable selection during iteration for the BOSS algorithm(A)and schematic diagram of the iterative shrinkage window(minus one approach)(B)

分析上述過程可以得出,通過對窗口進行抽樣,變量的局部被選頻率呈現出更加穩定的塊狀,避免了單變量采樣過程中因隨機性導致的部分特征的遺失。另外由于光譜數據的有效信息是連續存在的,相比單變量抽樣,有效窗口與無效窗口在一次抽樣中的差異會更加明顯,篩選的效率也更高。隨著迭代的進行,窗口大小逐步縮減,使得算法可以在共線性變量間進行精細篩選,其中采用減一縮減方式的窗口類似于后向選擇方式,而除二方式更類似于二分位查找的方式。相比單純依賴權重的隨機抽樣,這兩種方式能更好地利用每次縮減前后的信息變化。

1.2 ISWBOSS算法的實現步驟

通過將迭代縮減窗口采樣策略與BOSS算法結合,得到ISWBOSS算法,具體步驟如下:

Step 0:設置初始窗口大小,賦予校正集變量相同的初始采樣權值;

Step 1:將校正集樣本的變量空間按窗口大小均分為相應的窗口;

Step 2:將每個窗口內變量的權值相加得到窗口的采樣權值;

Step 3:運用加權自助采樣對窗口空間進行N次采樣,統計被選窗口內剩余變量的均值,并計算基于每次采樣被選窗口內變量建立的PLS模型的交叉驗證建模均方根誤差(RMSECV);

Step 4:保留RMSECV最小的前10%模型的建模變量為優秀變量子集,統計其回歸系數,進行歸一化處理,得到每個變量的新權重;

Step 5:按縮減策略縮減窗口大小;

Step 6:判斷剩余變量的均值是否小于2,如果否,返回Step1;

Step 7:選擇迭代過程中RMSECV 最小的模型,其建模變量即是最終選擇的變量。

2 實驗部分

2.1 玉米數據集

使用最常用的玉米近紅外公開數據集(從網站http://www. eigenvector. com/data/Corn/index. html獲取)進行測試。近紅外光譜數據如圖2所示。數據由m5光譜儀測量的80個玉米樣品組成,并包含每個玉米樣本的水分、油脂、蛋白質和淀粉含量。光譜范圍為1100 ~2498 nm,間隔為2 nm,共包含700個波長點。將數據集隨機劃分為包含60個樣本的訓練集和20個樣本的測試集。

圖2 玉米數據的近紅外光譜Fig.2 Near-infrared spectra of corn data

2.2 軟 件

本文在一臺安裝有Matlab R2020a 的個人計算機上進行測試。該計算機裝配的CPU 型號為英特爾i7-10875H,運行內存大小為16 G,操作系統為Windows 10。

3 結果與討論

3.1 窗口大小與縮減方式的影響

影響ISWBOSS算法性能的主要參數是初始窗口大小和每次迭代窗口的縮減方式。為了驗證其對性能的影響,令初始窗口大小從10 ~100 變化,間隔為10,每次迭代窗口以除二和減一方式縮減。以玉米蛋白質數據為例,重復運行20次,并記錄每輪迭代和每次運行的RMSECV 值,得到如圖3所示的曲線圖。

圖3 以玉米蛋白質數據為例,不同縮減方式的ISWBOSS與BOSS每次迭代的最優RMSECV(A)及ISWBOSS的縮減方式與窗口大小對模型RMSECV的影響(B)Fig.3 Take corn protein dataset as an example,optimal RMSECV for each iteration of ISWBOSS and BOSS with different shrinkage methods(A)and effect of shrinkage method and window size of ISWBOSS on model RMSECV(B)

由圖3A可以看出,與BOSS算法相比,使用迭代收縮窗口改進的BOSS算法只需更少的迭代次數即可達到RMSECV的最小值,且模型的建模效果更好。其中,當初始窗口大小設定為10并使用除二方式縮減時,其性能與原始BOSS 幾乎相同。由圖可以看出,從第6 次迭代開始,窗口已經縮減到最小值1,ISWBOSS變為原始BOSS算法。當迭代5次窗口未縮減為1時,ISWBOSS建立的模型明顯優于BOSS,因此可以證明使用窗口采樣有助于算法性能的提升。另外可以看出,初始窗口為10且使用減一縮減方式改進的算法的RMSECV在4種算法中最優。而初始窗口為100時,使用除二方式縮減的建模效果與其十分接近,且達到最優所需的迭代次數更少。

兩種縮減方式與初始窗口大小對模型RMSECV的影響如圖3B所示,可以看出,減一縮減方式在初始窗口較小時效果更好,而除二縮減方式的性能隨著初始窗口的增大逐漸提高并趨于穩定。兩種方式在初始窗口大小為50時效果基本相同,均達到最優的建模效果。因此可以得出,不論使用哪種縮減方式,初始窗口的大小都是影響算法性能的關鍵參數,只需使用簡單的一維搜索算法即能確定其取值。ISWBOSS 通過增加一個易于確定的參數即可使BOSS 算法的性能獲得大幅提升,更加簡潔有效。另外從圖中可以看出,相比減一縮減方式,使用除二縮減方式能更好地克服變量間的相關性,優化速度更快,模型的穩定性更好,因此首選除二縮減方式。

3.2 與其他變量選擇算法的對比

為了評價ISWBOSS 的性能,本研究采用3 種普遍使用的變量選擇方法,即遺傳-偏最小二乘法(GA-PLS)、CARS 和BOSS 進行比較。建模之前,將所有數據進行標準化預處理。為預測玉米數據集中4 種成分含量,幾種算法所選變量如圖4 所示。以玉米淀粉為例,可以看出GA-PLS 選擇的變量數量較多且過于分散,可能陷入了局部極小值未能繼續濾除冗余變量。CARS 進一步減少了所選變量數,但仍存在許多無關變量,且一些較弱特征變量因硬收縮策略而被過早的強制去除。BOSS 算法和ISWBOSS 的選擇較為類似,多集中在1700 ~1800 nm 范圍區域。但ISWBOSS 在1748 ~1766 nm 內C—H 鍵特征波長處的選擇更加穩定與集中。另外,ISWBOSS 還選擇了1202 nm 區域的波長,這部分并沒有被BOSS和CARS算法選擇。一些研究[16]認為這個區域的光譜與玉米淀粉含量無關,但本文發現手動刪除該區域的波長后,模型預測效果變差,其RMSECV 從0.0536 上升至0.0656,預測均方根誤差(RMSEP)從0.0782 上升至0.0828。因此可認為這部分光譜對提高模型的預測效果有益,另外最新文獻[17]也證明了這點,確認該處波長為淀粉帶。雖然幾種變量選擇算法均依據模型的回歸系數或建模均方根誤差來驅動,是完全基于數據的方法,但相較其他算法,ISWBOSS 選擇的更多是位于特征峰上的變量,且窗口的引入使得其在特征峰較寬的區域選擇的變量更為連續,而在一些短峰上由于迭代縮減策略又使得其可以只選擇最重要的波長。以上ISWBOSS算法具有很高的靈活性,選擇的變量更加符合光譜的測量機理,得到的模型預測結果更加準確穩定,且更易于解釋。

圖4 不同算法對玉米淀粉數據選擇的變量Fig.4 Variables selected in corn starch data by different algorithms

通過將幾種算法運行50次,采用5折交叉驗證,以最大潛變量數為10建立PLS 模型。使用交叉驗證的RMSECV、建模決定系數(Q2

CV)、RMSEP和預測決定系數(Q2test)對模型性能進行評價,均方根誤差越小,決定系數越接近1,模型性能越好。分別測試幾種算法對玉米水分、油脂、蛋白質和淀粉特征選擇后建立的標定模型效果,結果對比如表1所示,其中nVAR 為用于建模的變量數,nLV 為PLS模型的潛變量數。

表1 不同方法結果對比表Table 1 Comparison table of the results of different methods

(續表1)

可以看出,幾種算法在預測不同成分時保持了較好的性能一致性,按4 種成分Q2的平均值計算得到的性能排序為ISWBOSS >BOSS >CARS >GA-PLS >PLS,不同組分間的算法性能基本與該排序相同。相較全譜PLS 模型,所有經過變量選擇建立的模型的預測性能均得以提高,說明了對近紅外光譜進行變量篩選的必要性。基于幾種變量選擇算法建立的模型在水分預測時的性能大致相同,ISWBOSS使用了更少的變量;而對于油脂和蛋白質,ISWBOSS使用了比CARS和BOSS更多的變量,但獲得了更好的預測性能。因此變量數的多少與模型的預測效果沒有直接的關系,而更多的受待測屬性性質和所選波數的影響。從整體效果來看,CARS和GA-PLS的預測效果大致相同,但在油脂和淀粉數據集上,CARS 的準確性和穩定性更好。原因可能是油脂和淀粉的特征波數更多[17],優化模型變得復雜,使啟發式算法更容易過擬合。與硬收縮策略的CARS相比,基于軟收縮的BOSS算法和ISWBOSS算法建立的模型性能更好。由于采用RMSECV 較優模型的回歸系數加權抽樣,導致基于軟收縮策略選擇變量建立的模型RMSECV 很小,RMSEP相對較大;但其預測性能依舊優于其他對比算法,且穩定性更好,因此不能認為模型陷入了過擬合,其結果仍是可信的。與BOSS算法相比,ISWBOSS在4個數據集上均優于其他算法,證明了算法的普適性。說明窗口的引入不僅利用了連續變量的共線性,使得可以更快速穩定地區分有用和無用的變量,還可以通過不斷迭代縮減的窗口進一步精細篩選其中最相關的特征,大幅提高模型的預測精度,增強模型穩定性。

4 結論

為了提高化學計量學中使用光譜建立的標定模型的性能,本文提出了一種新的ISWBOSS算法。該算法使用窗口代替對波長變量的逐個選擇,更加符合近紅外光譜數據的特性,避免了單波長抽樣時隨機性對模型的影響。在玉米公開數據集上的測試結果表明,與其他變量選擇算法相比,使用ISWBOSS算法選擇波長建立的模型的預測準確性和穩定性都得到了大幅提高;且與原始BOSS 算法相比,ISWBOSS 算法達到最優模型所需的迭代次數和采樣次數都更少。另外迭代縮減窗口作為一種通用的改進方法,可以繼續推廣到其他基于MPA策略的變量選擇算法中,具有一定的應用價值。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产小视频在线高清播放| 日本欧美成人免费| 国产人免费人成免费视频| 国产aⅴ无码专区亚洲av综合网| av性天堂网| 国产aⅴ无码专区亚洲av综合网 | 国产成人永久免费视频| 免费精品一区二区h| 男人的天堂久久精品激情| 国产一国产一有一级毛片视频| 99久久精品国产综合婷婷| 色综合婷婷| 真实国产乱子伦高清| 国产精品大尺度尺度视频| 国产在线观看成人91| 欧美激情伊人| 国产精品视频免费网站| 亚洲av成人无码网站在线观看| 精品无码国产一区二区三区AV| 在线欧美a| 精品午夜国产福利观看| 欧美精品不卡| 被公侵犯人妻少妇一区二区三区| 爆乳熟妇一区二区三区| 欧美一级专区免费大片| 久久国产黑丝袜视频| 国产精品蜜臀| 日韩欧美色综合| 不卡网亚洲无码| 精品视频一区在线观看| 精品三级在线| 亚洲无码A视频在线| 久久77777| 国产成人高清亚洲一区久久| 少妇精品网站| 99久久亚洲精品影院| 久久精品波多野结衣| AV不卡在线永久免费观看| 伊人福利视频| 亚洲色婷婷一区二区| 国产超碰在线观看| 欧美乱妇高清无乱码免费| 色亚洲成人| 日本不卡在线视频| 国产成人一区二区| 久久这里只精品国产99热8| 国产精品毛片一区| 天天色天天综合网| jizz在线观看| 99热这里只有精品免费| 中文字幕在线欧美| 亚洲开心婷婷中文字幕| 国产美女自慰在线观看| 国产天天色| 久久性视频| 欧美黄网站免费观看| 91在线一9|永久视频在线| 精品自拍视频在线观看| 日韩不卡高清视频| 国产十八禁在线观看免费| 美美女高清毛片视频免费观看| 欧美无专区| 五月天丁香婷婷综合久久| 国产在线专区| 国产va欧美va在线观看| 精品少妇三级亚洲| 青青青国产在线播放| 国产办公室秘书无码精品| 精品亚洲麻豆1区2区3区| 国产日产欧美精品| 黄色三级网站免费| 拍国产真实乱人偷精品| 国产成人免费观看在线视频| 夜夜操天天摸| 114级毛片免费观看| 麻豆精品在线| 日韩视频免费| 国产成人综合日韩精品无码首页 | 亚洲成人一区在线| 亚洲人成网站色7799在线播放| 久久久久国产精品嫩草影院| 8090午夜无码专区|