田 勇,廖 歡,江國強,周濤
(四川中煙工業有限責任公司什邡卷煙廠,什邡 618400)
霉菌作為一類分布極為廣泛的真菌微生物,在適宜的溫濕度條件下能夠迅速繁殖生長。片煙由于長時間的存儲以及受到復雜多變的環境因素影響,容易發生霉變、腐爛和質變。不同地域、不同煙草品種以及霉菌菌種的不同,使得片煙霉變檢測成為一項具有一定挑戰性的任務。
傳統的片煙霉變檢測方法主要依賴于人工的方式,例如肉眼觀察和嗅覺等[1],對于少量的片煙進行檢測尚能勝任,但無法滿足正常卷煙生產對大量片煙霉變情況的準確檢測需求。因此,亟需一種高效準確的霉變檢測方法來保證煙草品質。
計算機視覺是一種常見的非人工霉變檢測方式[2-3],它通過對片煙表面的圖像進行處理和分析,識別出可能存在的霉變區域,從而判斷片煙是否受到霉變影響。然而,這種方法無法準確識別臨近霉變和內部的霉變情況。
為了提升對片煙內部霉變以及臨近霉變的識別能力,本文基于近紅外光譜的吸收特征對化學成分進行了研究,提出了一種采用近紅外光譜方式進行片煙霉變檢測的方法。近紅外光譜技術以其在無損檢測領域的獨特優勢得到了廣泛應用,其對物質的吸收、反射等特性具有敏感性,能夠提供豐富的化學信息[4-5]。
本文將通過突破傳統檢測手段的局限性,引入了深度學習技術,為煙草行業提供了一套高效準確的片煙霉變檢測解決方案。這一創新性的研究成果將在提升卷煙生產質量、保障消費者健康等方面,產生深遠的社會和經濟效益。同時,本研究為近紅外光譜技術在農產品質量檢測中的應用拓展了新的思路和方法,為相關領域的研究和實踐注入了新的活力和前景。
異常值和缺失值是常見的數據質量問題。異常值可能是由于測量誤差、設備故障或其他異常情況導致的,它們可能會對分析和模型建立產生誤導。缺失值則可能是由于采集過程中的遺漏或者實際情況下無法獲取數據導致的,如果不進行處理,可能會導致分析結果的失真。因此在進一步對數據進行分析之前,需要對存在的缺失值和異常值進行處理。本文數據預處理的流程如圖1 所示。

圖1 數據預處理流程Fig.1 Data preprocessing workflow chart
在光譜設備進行檢測時,首先對入射光的振幅或相位(或同時調制兩者)進行周期性空間調控,隨后通過光纖導入系統中。隨著入射光照射在片煙表面,特定頻率的光會被片煙吸收,形成相應的反射光。在經過濾波處理后,只有近紅外部分被保留,接著通過光柵的作用,近紅外光產生了近干涉的效應。電子元器件按順序檢測各個縫隙的近紅外光強度,從而得到不同波段的反射率。
本文使用的近紅外光譜儀覆蓋波長范圍從1000 nm 到2500 nm。在這個波長范圍內,將光譜分成了200 個不同的波段,每個波段對應1 個反射率記錄。因此,每條數據包含了200 個不同波段的反射率數據,同時還包括了片煙的種類、產地、霉變程度等相關信息。本文采集1000 條不同片煙的反射率數據。
異常值檢測是數據分析中的一個重要步驟,其目的是識別數據集中與其余數據顯著不同的觀測值,也就是那些在統計上被認為是罕見的或者異常的數據點。異常值可能代表了數據中的錯誤、噪聲,或者是具有特殊意義的重要信息。
本文采用局部異常因子[6]進行異常值檢測,該方法通過評估每個數據點相對于其鄰近鄰居的密度來確定其異常程度[7]。本文選用歐氏距離作為距離度量,以衡量數據點之間的相似性。對于每條數據的每一個波段的反射率,利用歐氏距離找到其最近的其他數據相同波段的k 個反射率鄰近點。根據找到的k-近鄰,計算每個數據點的局部可達密度:
式中:Nk(p)為點p 的k 個最近鄰;Dist(p,o)為點p到點o 的歐氏距離。
最終,利用局部可達密度計算每個數據點的局部異常因子:
通過設定適當的閾值,即可將局部異常因子與異常點的存在進行關聯,從而識別出數據集中的局部異常點。
缺失值填充是數據預處理中的一項重要任務,其目的是在數據集中存在缺失值的情況下,通過合理的方法來估計或補充缺失的數據,以保證后續分析和建模的準確性和可靠性。
本文采用線性回歸模型進行缺失值填充,該方法旨在通過已有數據的線性關系來估計缺失值。將每個波段反射率看作線性回歸模型中的因變量,并使用同一條數據其他波段反射率作為自變量來估計缺失值。對于波段反射率Bj,線性回歸模型可以表示為
式中:Bj為要填充的波段反射率;α0,α1,α2,…,αm為回歸系數;B1,B2,…,Bm為同一條數據其他波段反射率;ε 為誤差項。
對于每個要填充的波段反射率Bj,首先選擇其他不含缺失值的波段反射率B1,B2,…,Bm,然后構建線性回歸模型。訓練模型的目標是最小化誤差項ε,即:
式中:N 為樣本數量。
訓練好的線性回歸模型可以用來估計缺失值。對于一個包含缺失波段反射率的數據,使用其他已知的波段反射率代入模型,計算出Bj的估計值,從而填充缺失值。
本文將片煙數據及其統計特征共同輸入至深度學習模型循環神經網絡(RNN)[8-9]中,達到對片煙霉變的智能檢測,如圖2 所示。

圖2 霉變智能檢測流程Fig.2 Intelligent mold detection flow chart
在本節中,本文對研究所使用的片煙數據進行統計特征的提取,為智能檢測模型提供更多參考信息,具體統計特征如表1 所示。

表1 統計特征計算表Tab.1 Statistical feature calculation table
2.2.1 檢測模型
每次訓練將每條數據中的波段分為10 組,每組聯合統計特征作為RNN 每個時間步的輸入。
在RNN 的時間步t=0 時,初始化隱層狀態h0為零向量,則后續每一步隱層狀態的計算方式為
式中:Wxh和Whh為輸入層和隱層的權重矩陣;bh為隱層的偏置向量;xt為RNN 第t 步輸入,xt=[dt,dstat];dt為每條數據中 的第t 組波段數據,dstat為統計特征;ReLU 為線性整流函數,可以描述為
RNN 最終的輸出計算方式為
式中:Why和by分別為輸出層的權重矩陣和偏置向量;hT為最終步隱層狀態;ρ 為sigmoid 函數,可以描述為
RNN 的總體傳遞過程如圖3 所示。

圖3 RNN 傳遞過程Fig.3 RNN propagation process
2.2.2 目標函數與優化
本文選用交叉熵作為目標函數,其表達式為
目標函數的優化使用Adam[10]反向傳播算法進行模型中參數的調整,從而使模型能不斷降低目標函數值。
為了驗證本文方法的有效性,本文采集1000條不同片煙的反射率數據,其中800 條作為模型的訓練樣本,200 條作為模型的測試樣本,其他模型相關參數如表2 所示。

表2 模型參數設置Tab.2 Model parameter configuration
本文實驗結果由兩部分構成,第一部分對比了本文提出的方法和基于隨機森林的片煙霉變檢測方法的效果。第二部分測試了本文方法所采用的預處理和統計特征的有效性。為了衡量不同方法或方法配置的性能,本文選用分類問題中常用的4 個參數,精確率(Accuracy)、準確率(Precision)、召回率(Recall)和F1 分數作為評價指標,表達式如下:
式中:TP 代表預測為有霉變的樣本、標簽為有霉變的樣本的數量;TN 代表預測為無霉變的樣本、標簽為無霉變的樣本的數量;FP 代表預測為有霉變的樣本、標簽為無霉變的樣本的數量;FN 代表預測為無霉變的樣本、標簽為有霉變的樣本的數量。
實驗結果的第一部分,本文提出的方法和基于隨機森林的片煙霉變檢測方法的對比結果如表3所示。

表3 不同方法結果對比Tab.3 Comparison of results from different methods
通過對比RNN 與隨機森林在分類任務中的表現,可以看出RNN 在多個評價指標上表現更為優越。首先,RNN 的精確率高達0.85,略高于隨機森林的0.82,顯示了其在整體分類準確性上的優勢。其次,在準確率和召回率方面,RNN 分別達到了0.87和0.82,相對于隨機森林的0.85 和0.78,說明RNN在識別正類別時具有更高的準確率和覆蓋率。這也反映在F1 分數上,RNN 的0.84 略高于隨機森林的0.81,表明RNN 能夠在保持精確度和召回率的平衡上取得更好的效果。
實驗結果的第二部分,本文設計了不同對比實驗來檢驗本文方法所采用的預處理和統計特征的有效性,實驗結果如表4 所示。

表4 不同實驗配置結果對比Tab.4 Comparison of results with different experimental configurations
由表4 可知,使用預處理和統計特征的實驗配置在所有評價指標上均取得了最佳的性能,實驗結果表明,綜合考慮預處理和統計特征可以使模型獲得最佳的分類性能。
本文提出的算法結合了近紅外光譜技術和深度學習方法,能夠高效準確地檢測片煙中的霉變情況。相對于傳統的人工檢測方法,該算法能夠在更短的時間內完成大量數據的處理,同時減少了人為誤差的影響,從而提高了檢測的效率和精度。
本文致力于開發一種基于近紅外光譜和深度學習方法的片煙霉變檢測方法,以解決傳統人工檢測方法的局限性。通過采用RNN 網絡結構,結合近紅外光譜數據,成功地實現了對片煙霉變的自動檢測與識別。實驗結果表明,本文的方法在精確率、準確率、召回率等評價指標上取得了提升,相比傳統的人工檢測方法,具有明顯的優勢和實用價值。同時,本文還引入了異常值檢測和缺失值填充等預處理技術,進一步提升了模型的穩定性和魯棒性。綜上所述,本文為片煙霉變檢測領域的發展做出了一定的貢獻,同時也為相關領域的研究提供了有益的參考。我們相信,在不斷的改進和優化下,該方法將在實際生產中發揮重要作用,為煙葉行業的發展做出積極的貢獻。