李浩光, 于云華, 逄 燕, 沈學鋒
1. 山東石油化工學院機械與控制工程學院, 山東 東營 257061 2. 中國石油大學(華東)新能源學院, 山東 東營 257061
近紅外光譜定性分析研究對象有液體、 粉末、 非均勻固體籽粒等形式, 本工作以大小不一、 形狀各異的非均勻固體谷物顆粒為主要研究對象。 非均勻固體籽粒因個體之間存在差異, 其光譜中既包含定性分析需要提取的種類信息, 又包含需要消除的個體差異信息, 因此, 非均勻固體籽粒光譜采集與分析相對于常規的均勻分布液體樣本或者粉末狀樣本具有更大難度。
針對這一難題, 以玉米籽粒為研究對象, 在分析非均勻固體籽粒特點的基礎上, 搭建了漫反射與漫透射采集裝置, 采用漫反射及漫透射兩種方式采集玉米籽粒的光譜, 并使用支持向量機、 仿生模式識別等模式分類方法建立了非均勻固體籽粒的近紅外光譜定性鑒別模型, 對漫反射與漫透射兩種方式的定性分析模型進行了對比實驗, 確定了采用漫透射方式作為玉米這種非均勻固體籽粒的近紅外光譜采集方式, 為該領域后續研究提供了參考。
近紅外光譜分析技術中通常分為透射、 漫反射、 漫透射3種采集方法。
(1)透射采集方法: 適合于分析均勻分布的液體樣品或者透明樣品, 測量時, 被測樣品置于近紅外光源與近紅外探測器之間, 探測器所采集的近紅外光需透過樣品并與樣品內部分子相互作用, 若將所采光譜用于定量分析, 被測樣品濃度與對光的吸收關系符合朗伯-比爾定律[1-2]。
(2)漫反射采集方法: 適合于固體或粉末類不透明物質, 該測量方式下近紅外光源與探測器位于被測樣品同側, 近紅外光照射到樣品表面后, 經過多次反射、 折射、 散射及吸收后返回樣品表面[3-5]。
(3)漫透射采集方法: 適合于采集不透明或固體樣品, 采集時被測樣品與光源及探測器相對位置與透射采集方式相同。 由于樣品中含有光散射物質, 近紅外光在穿透被測樣品時, 除吸收作用外還存在多次散射作用, 因此朗伯-比爾定律[3]并不適用于漫透射采集方法。
漫反射和漫透射方式是非均勻固體近紅外光譜定性分析中常用的兩種檢測手段。 漫反射采集方式通常可以穿透被測樣品較淺的深度, 該方式下漫反射光攜帶樣品的淺層信息。 而漫透射方式能夠貫穿被測樣品, 深達樣品內部, 因此漫透射光譜能夠反映樣品內部較深層信息[3]。
近紅外光譜定性分析中的光譜采集方法針對不同應用可分為群體和單籽粒個體采集兩種方式。
(1)群體測量方式: 群體樣本光譜采集常采用整杯測量方式, 測量杯中裝有一定深度、 一定數量的固體籽粒, 測量所得近紅外光譜包含了多顆固體籽粒光譜平均信息, 因此該方式在采集過程中可基本消除個體籽粒差異對光譜的影響。 一般對大批量非均勻固體籽粒進行分類時, 可選用群體測量方式。
(2)單粒測量方式: 由于單粒固體樣品體積小, 受光面積小、 形態各異、 大小不一, 每幅光譜僅反映當前所測籽粒的信息, 單粒方式采集的光譜既包含了品種信息, 也包含了每顆籽粒之間的差異信息, 在建立定性鑒別模型時, 應盡可能擴大單籽粒光譜之間的品種差異信息, 縮小或消除同類樣本之間的個體差異信息。 在需要對每顆籽粒進行分類的檢測中則需選用單粒測量方式。
綜上所述, 單粒個體定性鑒別技術相比于群體定性鑒別技術難度更大。
針對非均勻固體單籽粒鑒別, 在使用漫反射或漫透射采集方式時, 有以下5個特點:
(1)易漏光: 采集時需保證探測器窗口采集所得為經樣品反射或透射的近紅外光, 并排除外界雜散自然光及近紅外光源直接照射探測器窗口造成的干擾。
(2)固體籽粒形態各異、 大小不一: 漫反射或漫透射采集裝置應對各種不同形狀、 不同大小的籽粒具有較好適應性。
(3)部分籽粒具有活性: 對于不透明非均勻固體籽粒, 如玉米籽粒等, 漫反射或漫透射方式所使用近紅外光源應限定在一定強度范圍內。 采用漫透射方式時, 光源首先應達到穿透不透明固體籽粒的強度, 此外, 考慮到光源強度對籽粒活性的影響, 光源強度也不宜過高, 過高則會灼傷籽粒, 破壞籽粒活性。
(4)部分固體為不規則多面體: 非均勻固體籽粒擺放位置與近紅外光入射及出射角度密切相關, 采集近紅外光譜時應消除擺放位置對所采光譜的影響。
(5)非均勻固體內部物質分布非均勻: 非均勻固體不同位置物質組成不同, 采集近紅外光譜時應尋找最有利于籽粒品種分類的部位, 或在分析時消除籽粒部位對分類性能的影響。
綜上, 對于不規則、 非透明、 非均勻固體小顆粒可使用漫反射或漫透射方式采集其近紅外光譜, 本工作在綜合分析上述五點影響因素基礎上, 進一步明確適合于該類固體的光譜采集裝置。
在分析漫反射與漫透射采集方法原理的基礎上, 采用MicroNIR1700型微型近紅外光譜儀分別搭建了非均勻固體籽粒漫反射與漫透射光譜采集裝置, 光譜采集裝置如圖1所示。

圖1 自制光譜采集裝置結構示圖(a): 漫反射實驗裝置; (b): 漫透射實驗裝置Fig.1 Structure diagram of self-madespectrum acquisition device(a): Diffuse reflection experimental device;(b): Diffuse transmission experimental device
(1)漫反射實驗裝置: 如圖1(a)所示, 為便于采集非均勻固體近紅外光譜, 漫反射采集裝置采用底座及支架固定微型光譜儀, 使用光譜儀內置鹵鎢燈作為近紅外光源, 采集光譜時將玉米籽粒置于光譜儀檢測窗口正上方。 該裝置特點為近紅外光源與檢測器均位于被測樣品下側。 光譜儀的檢測窗口如圖2所示, 窗口中心矩形為探測器銦鎵砷(InGaAs)線性陣列, 銦鎵砷線性陣列兩側各有一個內置鹵鎢燈, 為避免外界雜散自然光干擾, 使用漫反射測量方式采集光譜時, 需使用黑色遮光罩置于被測物體外側。

圖2 MircroNIR1700型微型光譜儀俯視圖Fig.2 Top view of MircroNIR 1700 micro spectrometer
(2)漫透射實驗裝置: 如圖1(b)所示, 測量時需關閉微型光譜儀內置鹵鎢燈光源, 并使用安裝在支架上方的外置近紅外光源, 該裝置特點為被測物位于近紅外光源與檢測器的中間位置。
據前期研究工作[6-8], 為保證最佳測量效果, 設置近紅外光源光源下端面與光譜儀測量面距離為5 cm, 光源電壓為5 V, 光闌孔徑為5.2 mm, 為保證測量可靠性, 采集光譜時每隔一定時間對光譜儀進行一次白板校正與黑板校正。
以玉米種子品種真實性鑒別任務為例, 對漫透射和漫反射兩種采集方法下所建定性分析模型的鑒別效果進行分析。
針對形狀各異、 大小不一的非均勻玉米籽粒, 為確定適合于單籽粒玉米近紅外光譜采集方法, 首先采用圖1所示的兩種自制光譜采集裝置分別采集多個品種玉米籽粒漫透射以及漫反射近紅外光譜。
實驗數據為2016年10月份連續5日采集的農華032、 農大108、 京玉16、 洛單248四個品種玉米籽粒的近紅外光譜。
采集時, 各品種分別挑選100顆作為待測樣品, 分別以漫反射方式與漫透射方式采集每玉米胚面和非胚面光譜各一次, 每次采集十條光譜并取平均。 采用交替采集方法, 即按照農華032一粒—農大108一粒—京玉16一粒—洛單248一粒……的方式采集單顆籽粒光譜。
將連續5日采集數據分別命名為T1, T2, T3, T4和T5數據集, 各數據集中均包含胚面(germ surface)光譜和非胚面(non-germ surface)光譜。
使用樸素貝葉斯等5種模式分類方法[9-10]分別對所采集的漫反射與漫透射光譜建立單籽粒玉米定性鑒別模型, 5種模式分類方法簡介如下:
(1)樸素貝葉斯分類器(Na?ve Bayes classifier, NBC)是一種基于貝葉斯決策理論的分類方法。
(2)K近鄰(K-nearest neighbor, KNN)方法是一種基于實例的機器學習方法, 其特點是在訓練過程中存儲已知類別的訓練數據, 在預測新的未知樣本時, 從已存儲數據中抽取相似樣本, 作為分類的重要輔助信息。
(3)支持向量機(support vector machine, SVM)方法是一種二分類機器學習方法, 支持向量機的理論基礎是VC維理論和結構風險最小化原理, 依據少量樣本并折中考慮模型的復雜性和學習能力, 以增強模型的泛化能力[10], SVM分類器的目標就是尋找最優超平面, 將兩類樣本正確分開, 且分類間隔最大。
(4)BP神經網絡(back propagation artificial neuron network, BPANN)算法通過正向傳播與反向傳播交替運行, 使用梯度最速下降法與動態迭代搜索一組權重向量, 使網絡誤差函數達到最小值[10]。
(5)仿生模式識別(biomimetic pattern recognition, BPR)方法是一種基于同源連續性原理的模式識別方法, 其特點是基于識而不識別, 通過構建在高維空間中能夠對同類樣本具有最優覆蓋的超幾何體為目標[11]。
根據分類器工作原理的特點, 實驗中使用兩種不同分類器前處理策略, 分類器前處理策略即光譜的預處理方法以及特征提取組合的具體樣式。
分類前處理策略1僅采用平滑、 一階導、 歸一化, 分類前處理策略2除使用策略1中的預處理外還需使用偏最小二乘及正交線性鑒別分析方法進行特征提取[8]。
使用NBC, SVM, KNN, BPANN和BPR共5種模式分類方法建立單籽粒玉米定性鑒別模型, 其中NBC, KNN, SVM和BPR使用分類前處理策略1, BPANN使用分類前處理策略2。
針對每種分類方法的特點對其參數進行如下設置:
NBC: 貝葉斯分類器的分類先驗概率可設定為0.25, 各個特征類條件概率可利用T1數據集數據計算得到。
KNN: 分類器使用歐氏距離, 以鑒別準確率為選擇標準, 通過5折交叉驗證的方法確定適合該分類任務的最優近鄰數為5。
SVM: 實驗中使用LIBSVM工具箱, 設置SVM分類器類型為Nu-SVC, 多分類類型, 選用徑向基核函數, 通過工具箱中的網格尋參函數交叉驗證來確定參數Nu為0.6, 核函數中的gamma值為2.8。
BPANN: 采用分類器前處理策略1, 將預處理方法得到的輸出值直接作為BP神經網絡的輸入值, 通過5折交叉驗證的方法確定最優隱藏層數目為9。
BPR: 使用KS方法選擇構網樣本點, 超香腸作為基本覆蓋單元, 通過交叉驗證確定超香腸神經元的半徑。
為評價模式分類器性能, 對于多分類問題, 以類別代號為i的樣本為例:
(1)正確識別率(correct acceptance rate, CAR)
式(1)中, Nca為正確識別的i類光譜數; Nthiskind為i類總光譜數。
(2)正確拒識率(correctrejectionrate,CRR)
式(2)中, Ncr為正確拒識的非i類光譜數; Notherkind為非i類總光譜數。
(3)鑒別準確率或平均識別率(correctdiscriminaterate,CDR)
CDR=(CAR+CRR)/2
(3)
實驗1
以T1作為實驗數據集, 分析胚面朝向對玉米品種單籽粒的漫反射與漫透射光譜定性分析模型鑒別效果影響。
實驗過程中, 每次從T1數據集中隨機抽取二分之一光譜樣本作為訓練集, 其余二分之一光譜樣本作為測試集對模型性能進行測試, 重復50次實驗后取鑒別準確率均值。

表1 S1情形胚面識別胚面鑒別準確率(%)Table 1 Identification accuracy of case S1 (%)

表2 S2情形非胚面識別非胚面鑒別準確率(%)Table 2 Identification accuracy of case S2 (%)

表3 S3情形非胚面識別胚面鑒別準確率(%)Table 3 Identification accuracy of case S3(%)
根據訓練集與測試集選擇玉米胚面或非胚面光譜不同排列組合分為以下4種情形S1—S4:
S1: 訓練集選擇胚面光譜, 測試集選擇胚面光譜;
S2: 訓練集選擇非胚面光譜, 測試集選擇非胚面光譜;
S3: 訓練集選擇非胚面光譜, 測試集選擇胚面光譜;
S4: 訓練集選擇胚面光譜, 測試集選擇非胚面光譜。
表1—表4是從T1數據集的胚面或非胚面光譜數據中隨機抽取二分之一作為訓練集, 其余二分之一作為測試集進行測試時, 4種可能排列組合情形下漫反射與漫透射方式實驗結果對比。

表4 S4情形胚面識別非胚面鑒別準確率(%)Table 4 Identification accuracy of case S4(%)
由S1—S4四種情形對比結果可見:
(1)漫透射方式: S1—S4四種情形識別率差異較小。 以BPR方法為例, 四種情形所得識別率均在95%左右。
(2)漫反射方式: S1—S4四種情形識別率并不完全一致。 S1和S2兩種情形下, 定性分析模型所得識別率均相對較高, 以BPR方法為例, 其識別率達到85%左右; S3和S4兩種情形下, 定性分析模型所得識別率均相對較低, 以BPR方法為例, 其識別率為80%左右。
產生上述現象的原因分析如下:
(1)采用漫反射方式時, 近紅外光源未能完全穿透玉米籽粒, 近紅外探測器接收到的漫反射光只攜帶了玉米籽粒某一面或者表皮的信息, 因此在S3, S4兩種情形下, 玉米品種鑒別準確率出現明顯下降。
(2)采用漫透射方式時, 近紅外探測器采集所得近紅外光一定為貫穿玉米籽粒的部分, 其光譜中既包含了玉米籽粒胚面信息, 又包含了玉米籽粒非胚面信息, 同時還包含了種子內部物質信息, 因此, 在S3和S4兩種情形下, 正確鑒別率并未出現明顯下降。
采用5種模式分類方法建立定性分析模型性能實驗結果表明, 在單日數據集上, 漫透射定性分析模型不受玉米胚面擺放方式影響, 而漫反射定性分析模型易受玉米籽粒擺放方式影響, S1—S4四種情形下漫透射定性分析模型性能均高于漫反射定性分析模型性能。
實驗2
以T1數據集作為訓練集, T2—T5作為測試集對模型性能進行測試。 訓練集可選擇胚面光譜或非胚面光譜, 而測試集也可以選擇胚面或者非胚面光譜, 由此產生S1—S4四種情形, 使用BPR方法建立定性分析模型, 并對四種情形下的模型預測性能進行比較。
表5為使用BPR方法時, 4種可能排列組合情形下, 漫反射與漫透射方式下鑒別準確率對比。

表5 BPR方法不同測試集的鑒別準確率(%)Table 5 Identification accuracy of differenttest sets with BPR method (%)
由表5可知, 在S1—S4情形下, 在T2—T5測試集中, 有如下結果:
(1)漫反射方式: S3及S4情形的識別率低于S1、 S2情形的識別率。
(2)漫透射方式: S3及S4情形的識別率與S1、 S2情形的識別率基本接近。
以T3測試集為例, 漫透射方式下, 四種情形的模型識別率均在95%左右。 而漫反射方式下, S1、 S2情形的模型識別率為83%左右, S3、 S4情形下的識別率在80%左右。
由此可見, 漫透射方式T2—T5測試集的S1—S4四種情形鑒別準確率基本一致, 漫反射方式T2—T5測試集的S1、 S2情形鑒別準確率高于S3、 S4情形。 總體而言, 在多個測試集上, 漫反射方式下所采光譜數據建立模型性能均低于漫透射方式下所采光譜數據建的模型。 實驗2在多個實驗數據集上證明: 漫透射方式更適合于玉米單籽粒品種鑒別。
實驗3
以T1胚面與非胚面混合光譜作為訓練集, T2—T5的胚面與非胚面混合光譜作為測試集進行測試。 選擇訓練集時, 隨機從T1胚面光譜及非胚面光譜中各抽取50條光譜樣本, 以模擬實際測量近紅外光譜時玉米胚面朝向隨機擺放的情形, 即胚面和非胚面朝上概率各為50%, 選擇測試集時使用相同方式。 鑒別準確率為50次實驗取均值得到。
表6是在漫透射方式下以T1數據集作為建模集建立定性分析模型, T2—T5作為測試集進行測試時所得鑒別準確率。

表6 漫透射方式下不同測試集的鑒別準確率(%)Table 6 Identification accuracy of different testsets under diffuse transmission mode (%)
由表6可以看出, 對于胚面與非胚面光譜混合的建模集T1, 使用不同測試集進行測試時, 以漫透射光譜建立的定性分析模型具有較高識別率, 在T2—T5四個測試集上的識別率均高于91%, 此外, 漫透射采集方式下, 建立定性模型對不同測試集數據進行鑒別時, 隨測試集與建模集時間間隔增大, 模型性能下降較為平緩, 因此漫透射方式定性分析模型具有較強泛化能力。
針對非均勻固體籽粒的近紅外光譜采集問題, 首先分析了不規則非均勻固體光譜分析的特點, 研究了光譜采集方法, 在此基礎上, 搭建了漫反射與漫透射光譜采集裝置, 然后使用仿生模式識別方法等5種模式識別方法建立了漫反射及漫透射方式下單籽粒玉米近紅外光譜定性鑒別模型, 并進行了漫反射與漫透射定性分析模型對比實驗。 實驗結果表明, 漫透射定性分析模型不受玉米胚面擺放方式影響, 而漫反射定性分析模型易受玉米籽粒擺放方式影響; 漫透射方式比漫反射方式更適合于玉米單籽粒近紅外品種鑒別; 漫透射采集方式下, 建立定性模型對不同測試集數據進行鑒別時, 隨測試集與建模集時間間隔增大, 模型性能下降較為平緩, 因此漫透射方式定性分析模型具有較強泛化能力。 該方式可作為玉米籽粒光譜采集的可靠方式。