劉 寧, 邢子正, 喬 浪, 李民贊, 孫 紅*, Qin Zhang
1. 中國農業大學現代精細農業系統集成研究教育部重點實驗室, 北京 100083 2. Center for Precision & Automated Agricultural System, Washington State University, Pullman WA 99350, USA
葉綠素含量是評價馬鈴薯作物光合作用能力與營養水平的重要指標之一[1-2]。 在可見光-近紅外區域, 分析含氫基團(O—H, N—H, C—H)振動合頻和各級倍頻的特性, 是開展作物葉綠素、 氮素、 水分等參數光譜學檢測的理論基礎, 取得了重要進展[3]。
作物葉綠素光譜學檢測中, 常通過篩選特征波長來達到解析光譜變量、 剔除冗余信息、 壓縮計算量、 提高診斷模型精度與魯棒性等目的[4]。 因為相關分析篩選變量存在高度自相關導致的多重共線性問題, 在主成分分析的基礎上, 連續投影算法(successive projection algorithm, SPA)、 無信息變量消除法(uninformative variables elimination, UVE)、 間隔最小二乘波長選擇方法(interval partial least square, iPLS)、 變量投影重要程度系數法(variable importance in the projection, VIP)等算法被用于篩選特征波長并建立診斷模型[5-6]。
上述一次性建模篩選特征波長的方法, 數據處理易受樣本個數的影響[7]。 針對此問題Li等提出基于模型集群思想的蒙特卡洛無信息變量消除(Monte Carlo uninformative variables elimination, MC-UVE)[8]、 隨機蛙跳(random frog, RF)[9]、 競爭自適應重加權采樣(competitive adaptive reweighted sampling, CARS)[10]等變量篩選算法。 有報道應用CARS算法設置迭代次數為50, 選取10個波長建立南瓜葉綠素檢測模型, 精度為0.846。 鄭濤等[11]采用MC-UVE算法迭代次數為500, 選出12個馬鈴薯葉綠素特征波長。 程萌等[12]基于RF算法篩選小麥葉綠素特征波長, 迭代次數為10 000, 選出8個最優波長。
此類研究中尚有如下問題需要深入討論, 一方面應用不同算法選取變量是否存在差異, 建立的模型是否最優且穩健; 另一方面, MC-UVE, RF和CARS等算法中初始參數迭代次數普遍采用固定值, 修改迭代次數與其他約束是否對變量篩選結果有影響, 需要開展比較和分析。……