劉九材 高楊






摘 要:采用連續投影算法(SPA)和模擬退火算法(SAA)特征波長選取方法,對阿克蘇冰糖心蘋果、天水花牛蘋果、甘肅靜寧蘋果進行波長選擇,并結合均值中心化、標準正態變換、多元散射校正和二階導數進行K最近鄰(KNN)建模分析。結果表明,SPA結合預處理建立的模型預測精度達到91%以上,SAA稍次、預測精度在86%,SPA結合二階導數建模預測精度能達到98%;SAA將全部256個波長減少到10個,SPA普遍減少到31個,均有效簡化了建模復雜度。因此,2種特征選擇方法篩選蘋果特征波長是可行的。
關鍵詞:機器學習;高光譜;蘋果;光譜預處理
中圖分類號 S66 文獻標識碼 A 文章編號 1007-7731(2022)10-0052-03
Analysis of Continuous Projection Algorithm and Simulation Annealing Algorithm in Apple Variety Classification Model
LIU Jiucai? ?GAO Yang
(College of Information Engineering, Tarim University, Alar 843300, China)
Abstract: Continuous projection algorithm (SPA) and simulated annealing algorithm (SAA) were used to select the wavelength of Aksu rock sugar core apple, Tianshui flower Niu apple and Gansu Jingning apple, and K-nearest neighbor (KNN) modeling was carried out by means of mean centralization, standard normal transformation, multivariate scattering correction and second derivative. The results show that in terms of modeling accuracy, the prediction accuracy of SPA combined with pretreatment model is 91%, the slightly prediction accuracy of SAA is 86%, and the prediction accuracy of SPA combined with second derivative modeling can reach 98%. In terms of characteristic wavelength selection, SAA reduces 10 of all 256 wavelengths, and SPA generally reduces 31, which effectively simplifies the modeling complexity. Therefore, two feature selection methods are feasible to screen apple characteristic wavelengths.
Key words: Machine learning; Hyperspectral; Apple; Spectral pretreatment
高光譜技術因“圖譜合一”等特點而被廣泛應用于農業、食品安全等諸多領域。目前,國內外眾多專家學者利用高光譜進行了溫室黃瓜病害早期檢測[3],大米種類鑒別[4],高粱摻假無損檢測[5],互米花草營養成分反演[6],綠蘿葉綠素含量檢測[7]以及牛肉品質檢測[8]等內外品質的檢測。使用高光譜成像技術進行蘋果品種的分類也是可行的。
然而,在實際模型建立過程中,使用全部波長建模存在運算量過大、建模時間過長等問題,此外光譜數據的噪音問題也影響著模型的準確度。為此,本研究采用連續投影算法和模擬退火算法2種光譜選擇算法進行對比,以期選擇出可以有效對蘋果近紅外的特征波長進行優選,減少噪音對模型的干擾,簡化模型復雜度,提高蘋果分類模型精度的算法。
1 材料與方法
1.1 材料與儀器 試驗材料選用阿克蘇地區紅旗坡冰糖心、甘肅天水花牛、甘肅靜寧3個品種的蘋果。冰糖蘋果采自阿克蘇紅旗坡,2021年11月采摘,天水花牛與甘肅靜寧采購于當地果農,采購時間為2021年11月。采購后在3種蘋果中選擇出大小均勻、完好無損的蘋果共254個(冰糖心144個,花牛86個,靜寧24個)。光譜采集采用的高光譜分選系統是北京卓立漢光公司的蓋亞高光譜分選儀(采集波段為900~1700nm、共256個波段、分辨率5nm)。使用ENVI5.3進行光譜數據提取,采用Python 3.7.3建模處理。
1.2 光譜采集方法 光譜采集前將蘋果放于室內24h,保證蘋果溫度一致,之后對蘋果進行擦拭、標號。采集光譜數據時,蘋果赤道面垂直于載物臺,為取得蘋果赤道面光譜數據,實驗對每個蘋果均采集2次光譜圖像,第1次采集蘋果著色面(紅顏色較多),第2次采集陰暗面(以黃綠色為主)。經過多次試驗,高光譜設備參數為:起點位置為5cm,總行程為30cm,傳送帶前進速度為1.3cm/s,光譜相機高度為42cm,相機曝光時間為33ms。最后對采集到的光譜圖像進行黑白校正:
[R=I-BW-B]
式中:R為校正后圖像,B為原始圖像。
1.3 特征波長選擇方法
1.3.1 連續投影算法 連續投影算法(SPA)是一種前向循環的變量選擇方法[11]。算法核心是維護1個特征集合,初始選擇1個波長之后每次循環都對集合外的波長進行投影,對其中投影向量最大且與特征集內波長共線性最小的波長選入特征集合。共線性評價選擇對待選波長進行偏最小二乘(PLS)建模以RMSE為評價標準,選取其中RMSE最小的波長。
1.3.2 模擬退火算法 模擬退火算法(SAA)是一種模擬固體降溫過程中內部變化規律進行優化的方法[12]。SAA算法進行優化的原理是固體隨著溫度的下降逐步趨于一種低內能的狀態[13]。算法模擬溫度下降過程,以溫度T為控制參數,目標函數值為固體內能,隨著溫度T的逐漸下降,使固體內能逐漸趨于全局最小。SAA算法可以用來解決最優化問題。
2 結果與分析
2.1 異常值剔除 對于254個蘋果樣本,采用馬氏距離法進行異常樣本剔除,硬閾值設置為e=1.7。經過處理后,剔除12組蘋果樣本,對剩下的242組蘋果樣本進行分析。
2.2 光譜預處理 由于設備本身以及采集系統所在外部環境的影響,采集到的光譜數據會出現噪音,對光譜數據進行預處理可以消除掉一些不良噪音。本文采用均值中心化、標準正態變換(SNV)、多元散射校正(MSC)和二階導數分別對原始光譜進行預處理,之后對處理后的光譜進行波段篩選。
2.3 測試集與建模集劃分 對于剩下的242組蘋果樣本進行訓練集和測試集的劃分,使用SPXY方法按訓練集與測試集(3∶1)的比例進行劃分,其中訓練集181個,測試集61個(見表1)。
2.4 特征波段的選取 對于蘋果樣本光譜數據,全部光譜范圍在900~1700nm,共包含256個波數點。使用SPA與SAA分別對經過預處理后的光譜數據進行特征波段提取。
2.4.1 連續投影算法選擇特征波段 使用SPA算法對原始光譜數據和預處理之后的數據進行波段篩選,結果如表2所示。圖1是SPA算法對原始光譜進行篩選過程中的RMSE的變化曲線,從圖1可以看出,RMSE曲線呈下降趨勢,并于35之后逐漸趨于平緩。
2.4.2 模擬退火算法選擇特征波段 根據SAA算法原理,冷卻進度表的設計直接影響到算法性能。通過多次測試最終參數設置如下:T0=2000℃,Te=1℃,α=0.99,Lk=200。SAA的RMSE隨初始溫度的變化情況及衰減因子的變化情況如圖2、圖3所示。從圖2、圖3可以看出均呈下降趨勢。
2.5 建模比對 為了對比SPA算法和SAA算法在阿克蘇冰糖心、天水花牛和甘肅靜寧蘋果分類模型的處理效果,使用KNN來建立模型對比分析。由于SAA算法的隨機優化特性,因此選擇進行5次優化取平均值作為結果,建模效果如表2所示。結合表1和表2可以看出,SPA和SAA對蘋果的特征波長篩選有著明顯的效果。從全部的256個波段使用SPA算法結合預處理能夠減少到31個,其中結合二階導數能夠減少到20個,預測準確率提高至98%,R2從最低0.341增加至0.815。使用SAA算法結合預處理方法均減少到10個,預測準確率能夠提高4個百分點,R2從0.341最低增加至0.702。對比SAA和SPA算法,SAA篩選的特征波長數遠低于SPA篩選的個數,但在預測準確率和R2對比各種預處理方法建模后的結果,SPA算法優于SAA算法。
3 結論
利用高光譜技術來進行蘋果品種鑒定,分析對比2種不同的特征波長選擇算法建模,結果表明,SPA與SAA都可以有效地篩選出特征波段。此外,對比結果可以得出,SPA算法相比SAA算法能夠更有效地提高的模型,使用SPA算法進行處理,模型預測準確率均在90%以上,其中SPA+二階導數+KNN預測準確率達到98.3%,R2=0.963。SAA算法最優模型是結合均值中心化建模,預測準確率達到93.4%,R2=0.852。綜合來看,SPA算法更適合篩選蘋果特征波長。
參考文獻
[1]劉培剛.蘋果質量的感官鑒別[J].商品儲運與養護,1998(05):3-5.
[2]王海波,陳學森,辛培剛,等.幾個早熟蘋果品種果實糖酸組分及風味品質的評價[J].果樹學報,2007(04):513-516.
[3]秦立峰,張熹,張曉茜.基于高光譜病害特征提取的溫室黃瓜霜霉病早期檢測[J].農業機械學報,2020,11:212-220.
[4]翁士狀,唐佩佩,張雪艷,等.高光譜成像的圖譜特征與卷積神經網絡的名優大米無損鑒別[J].光譜學與光譜分析,2020,40(09):2826-2833.
[5]Bai Zhizhen,Hu Xinjun,Tian Jianping,et al.Rapid and nondestructive detection of sorghum adulteration using optimization algorithms and hyperspectral imaging.[J].Food chemistry,2020,331:1-9.
[6]朱怡,吳永波,周子堯,等.基于高光譜數據的互花米草營養成分反演[J].北京林業大學學報,2020,42(09):92-99.
[7]閆明壯,王浩云,吳媛媛,等.基于光譜與紋理特征融合的綠蘿葉綠素含量檢測[J].南京農業大學學報,2021,44(03):568-575.
[8]王彩霞,王松磊,賀曉光,等.基于可見/近紅外高光譜成像技術的牛肉品種鑒別[J].食品工業科技,2019,40(12):241-247.
[9]尚靜,張艷,孟慶龍.可見/近紅外光譜技術無損識別蘋果品種的研究[J].保鮮與加工,2019,19(03):8-14.
[10]尚靜,張艷,孟慶龍.光譜技術結合化學計量學識別蘋果品種[J].北方園藝,2019(16):66-71.
[11]Hongyan Zhu,Bingquan Chu,Yangyang Fan,et al.Hyperspectral Imaging for Predicting the Internal Quality of Kiwifruits Based on Variable Selection Algorithms and Chemometric Models[J]. Scientific Reports,2017,7(1):98-107.
[12]石吉勇,鄒小波,王開亮,等.模擬退火算法用于食醋總酸含量近紅外光譜模型的波數點優選[J].食品科學,2011,32(10):120-123.
[13]劉金明,初曉冬,王智,等.玉米秸稈纖維素和半纖維素NIRS特征波長優選[J].光譜學與光譜分析,2019,39(03):743-750.
[14]謝歡,陳爭光.遺傳模擬退火算法在玉米秸稈纖維素含量檢測中的應用[J].分析化學,2019,47(12):1987-1994.
[15]邵園園,王永賢,玄冠濤,等.基于高光譜成像的肥城桃品質可視化分析與成熟度檢測[J].農業機械學報,2020,51(08):344-350.
(責編:張宏民)