孫 鈺 脫小倩 蔣 琦 張海燕 陳志泊 宗世祥 駱有慶
(1. 北京林業大學信息學院 北京 100083; 2. 北京林業大學林學院 北京 100083;3. 北京航空航天大學網絡空間安全學院 北京 100191)
害蟲識別是蟲害預測預報的首要工作,對害蟲綜合治理具有重要意義(陳梅香等, 2015)。鉆蛀性害蟲以林木為寄主蛀食成孔洞或隧道,直接危害林木主干和主梢生長,輕則阻礙林木養分、水分傳導,重則導致林木枯萎死亡(馮國民, 2011; 高曉兵, 2010; 王曉園, 2011)。目前,蟲害監測一般利用人工或圖像識別技術監測成蟲(Yaoetal., 2012; 孫鈺等, 2018; 張怡, 2017),然而鉆蛀性害蟲幼蟲在取食階段對寄主的危害更早也更嚴重,傳統監測方法難以發現隱蔽生活的幼蟲,早期預警能力有限。隨著聲音識別技術不斷發展,利用幼蟲鉆蛀振動信號進行蟲害監測,具有高效、簡單、成本低、預警時間早等優勢,應用前景廣闊(卜宇飛等, 2017; 韋雪青等, 2010; 祁驍杰, 2016)。
國內外基于聲音識別技術對害蟲進行偵聽監測,研究對象多聚焦于木材檢疫害蟲(許小芳等, 2011)、倉儲害蟲(郭敏等, 2001; Njorogeetal., 2016)、水果害蟲(Hansenetal., 1988)、林業鉆蛀性害蟲(Mankinetal., 2008)等隱蔽性活動的害蟲。在偵聽監測過程中,由于鉆蛀振動信號在樹干-空氣界面會大幅衰減,因此不宜使用麥克風直接采集傳播至空氣中的聲音(婁定風等, 2013),而需將壓電式振動傳感器嵌入樹干直接偵聽(Mankinetal., 2011)。目前,采集鉆蛀振動信號的典型儀器是美國AEC公司搭配SP-1L接觸式探頭的便攜式聲音探測儀AED-2000/2010L。在國外,Herriick等(2012)采用AED探測儀對密閉和開放環境下的紅棕象甲(Rhyncophorusferrugineuss)幼蟲鉆蛀振動進行研究,發現在至少5~10 cm的距離內能檢測到所有齡期的幼蟲;Dosunmu等(2014)采用AED探測儀利用Raven和DAVIS程序分析紅棕象甲鉆蛀振動的時頻特征,實現了紅棕象甲幼蟲的識別;Mankin等(2016)采用AED探測儀在果園環境下對紅棕象甲和蛀犀金龜(Orycteselegans)幼蟲的鉆蛀振動進行研究,發現其脈沖特征相差較大,實現了2種幼蟲的識別;Njoroge 等(2017)在裝滿谷物的密閉玻璃罐中采用AED探測儀錄制米象(Sitophilusoryzae)成蟲的鉆蛀振動,研究了密封貯藏對害蟲活動和死亡率的影響;Mankin等(2018)采用AED探測儀在疑似被南美硬木鋸天牛(Mallodondasystomus)侵害的鱷梨(Perseaamericana)樹上進行測試,從11株樹中正確識別所有4株被侵害樹木,僅誤報1株健康樹木。在國內, 祁驍杰(2016)對楊(Populus)樹木段中不同數量的光肩星天牛(Anoplophoraglabripennis)幼蟲脈沖進行研究,發現脈沖個數與幼蟲數量存在線性關系; 卜宇飛等(2016)采用AED探測儀對7種蛀干害蟲鉆蛀振動進行研究,總結了害蟲時域、頻域特征的基本規律,證明了構建聲音偵聽系統的實用性; 卜宇飛等(2017)還采用AED探測儀對2種天牛的4類行為特征進行探索,發現取食鉆蛀振動脈沖時間短、振幅大且頻率高,可用于實際的聲音偵聽中。也有研究者使用美國農業部Mankin團隊錄制的昆蟲聲音庫,實現了基于梅爾倒譜系數和矢量量化的昆蟲聲音自動鑒別識別(竺樂慶等, 2010),且探索了基于梅爾倒譜系數和混合高斯模型的昆蟲聲音自動識別方法(竺樂亦等, 2012),均獲得較高識別精度。
鉆蛀振動信號經傳感器錄制后被保存為音頻格式,可使用聲音識別技術進行分類。聲音識別的一個重要任務是關鍵詞檢測,即對聲音信號中目標關鍵詞進行識別。關鍵詞檢測與害蟲鉆蛀振動識別類似,均以音頻中的短脈沖為識別對象。傳統關鍵詞檢測是基于隱馬爾可夫模型實現的(陳玉平等, 2008),隨著以深度學習為代表的人工智能技術迅速發展,將其應用于聲音識別領域也取得了重大突破。Chen等(2014)使用深度神經網絡進行關鍵詞檢測,與隱馬爾可夫模型相比識別性能提高了45%;Sainath等(2015)和Sun等(2016)分別將卷積神經網絡和長短期記憶網絡用于關鍵詞檢測,相比深度神經網絡識別性能分別提高27%~44%和67.6%;利用谷歌公開的語音識別數據集(Google speech commands dataset),Tang等(2018)研究深度殘差學習和空洞卷積在關鍵詞檢測的應用,設計的ResNet15變體網絡得到了95.8%的精度; Zeng等(2019)使用DenseNet網絡提取局部特征和時間序列特征,得到了96.6%為精度。
本研究針對園林場景中側柏(Platycladusorientalis)和臭椿(Ailanthusaltissima)混交種植的情況,使用壓電式傳感器監測主要蛀干害蟲雙條杉天牛(Semanotusbifasciatus)和臭椿溝眶象(Eucryptorrhynchusbrandti)幼蟲蛀干取食發出的振動,使用聲音識別技術構建鉆蛀振動識別模型,設計并訓練輕量級神經網絡,自動識別雙條杉天牛鉆蛀和臭椿溝眶象鉆蛀振動,以期為提高鉆蛀性害蟲的早期預警能力提供技術支撐。
害蟲鉆蛀振動信號采集在實驗室隔音箱內進行,采集工具為搭配SP-1L探頭的AED-2010L便攜式聲音探測儀(圖1)。SP-1L探頭為壓電式傳感器探頭(壓電晶體諧振頻率40 kHz,前置放大器帶寬1~50 kHz,放大倍數40 dB),通過直徑6 mm金屬探針嵌入樹干,直接耦合鉆蛀振動。AED-2010L主機連接錄音筆,設置采樣頻率為44.1 kHz,采樣精度為16 bit,錄制害蟲鉆蛀振動信號。

圖1 鉆蛀振動采集環境與工具Fig.1 The environment and tools for the boring vibration collection
從林場采集25段長約30 cm的健康側柏木段,分成3組并于3月下旬分別接入不同數量的雙條杉天牛雌雄成蟲,以飼養初孵幼蟲;采集6段長約1 m的健康臭椿木段,分成2組并于7月下旬分別接入不同數量的臭椿溝眶象幼蟲。于木段中間位置鉆孔,每隔5~7天在適宜溫度的時間段內(9、10、11時)利用AED-2010L便攜式聲音探測儀采集害蟲鉆蛀振動信號(卜宇飛, 2016; 祁驍杰, 2016)。每投音頻時長約90 s,保存為.wav格式。當幼蟲進入老熟階段停止進食,害蟲鉆蛀振動信號采集結束。害蟲鉆蛀實驗室環境下,害蟲鉆蛀振動信號主要分布在10 kHz內(圖2),具有持續時間短、能量集中等特點(卜宇飛等, 2017)。
整理各木段音頻,將其分為雙條杉天牛鉆蛀振動、臭椿溝眶象鉆蛀振動和無鉆蛀振動3類。雙條杉天牛和臭椿溝眶象鉆蛀振動的訓練、測試集以各木段為單位進行劃分,選取具有代表性的3段雙條杉天牛和2段臭椿溝眶象木段,將其所有音頻作為測試集,其余木段的音頻作為訓練集,所有木段采集到的無鉆蛀振動音頻以3∶2比例隨機劃分為訓練集和測試集。最終數據集音頻的劃分數量及提取用于訓練的對數梅爾聲譜數量如表1所示,其中測試集中無鉆蛀振動的對數梅爾聲譜數量指進入第2分支檢測出的數量。

表1 數據集劃分數量Tab.1 Number of data sets divided
提取對數梅爾聲譜作為神經網絡學習的音頻特征(Kahletal., 2018)。對害蟲鉆蛀振動信號的預處理包括端點檢測、時間規整和提取對數梅爾聲譜。害蟲鉆蛀振動信號短時能量較高,具有間隔、短促、尖銳(卜宇飛等, 2016)的特性,首先對害蟲鉆蛀振動信號進行端點檢測獲取鉆蛀振動信號片段,然后利用時間規整算法將信號片段規整至統一時長,最后經過時頻變換和對數操作提取對數梅爾聲譜。

圖2 害蟲鉆蛀振動信號波形和聲譜Fig.2 Waveform and spectrogram of insect boring vibration signals

圖3 預處理示意Fig.3 The diagram of pretreatment
1.3.1 端點檢測 端點檢測是指從一段包含有效片段的連續音頻中找到能量較高的有效片段起止端點,本研究采用基于短時能量的單參數雙門限方法(黎煊等, 2018)對采集到的害蟲鉆蛀振動信號進行端點檢測。以200個采樣點(4.54 ms)為1幀,計算每幀的短時能量,與設定的低門限閾值(T1)和高門限閾(T2)進行比較,確定有效音頻片段的端點(邢亞從, 2011)。在端點檢測時,一般選取音頻樣本前導無話段計算高、低門限閾值,本研究隨機選取5 s無鉆蛀振動的音頻信號代替前導無話段進行計算。如圖 3端點檢測部分所示,紅色豎線為害蟲鉆蛀振動脈沖的起始位置,綠色豎線為該脈沖的結束位置,單參數雙門限端點檢測可有效檢測出害蟲鉆蛀脈沖。
1.3.2 時間規整 端點檢測后的信號長度不一,無法滿足神經網絡輸入層要求,需要利用時間規整算法將信號片段規整至統一時長。經試驗探索,本研究將長短不一的有效音頻片段規整至0.5 s。以端點檢測到的起始點向前5幀位置作為時間規整的起始點,向后0.5 s位置作為時間規整的終點,端點檢測出的有效片段長度多于0.5 s則拆分,少于0.5 s則前后延長。如圖3時間規整部分所示,在端點檢測基礎上,將有效音頻片段規整至統一時長片段。
1.3.3 提取對數梅爾聲譜 對規整后時長0.5 s的信號進行預加重(竺樂慶等, 2012)(預加重因子為0.95),以200點為1幀、0.8的幀移重疊比例進行分幀,對分幀信號加漢寧窗以增加幀左右兩端的連續性,再以1 024點的長度對每幀信號作短時傅里葉變換,使用64組梅爾濾波器組濾波并進行取對數操作,最后得到對數梅爾聲譜作為神經網絡最終的輸入特征。對數梅爾聲譜的特征維度由信號的幀數和梅爾濾波器組的個數決定,如圖3提取對數梅爾聲譜部分所示,本研究得到的對數梅爾聲譜特征維度為109×64。信號的幀數計算方法如下:
Lhop=?Nfft×(1-Poverlap)」;
(1)
式中:?」表示向下取整;「?表示向上取整;Lhop為每次幀移的步幅;Nfft為短時傅里葉變換長度;Povertap為幀移重疊比例;Nframe為幀數;Lsig為信號長度。
設計面向2種蛀干害蟲鉆蛀振動識別的輕量級卷積神經網絡InsectFrames(圖4a),以維度(109,64)的對數梅爾聲譜為輸入,主體部分由4層卷積組成,在全連接層前接全局平均池化以防止過擬合。

圖4 InsectFrames網絡結構Fig.4 Network structure of InsectFrames
在卷積部分設計2種卷積塊結構和2種中間層維度。卷積塊結構為: 1) ConvBlock1(圖 4b), 卷積核尺寸為3×3,步長為1,每層卷積后引入ReLU激活函數實現網絡的非線性變換。連接批量歸一化層避免梯度消失,同時加快收斂速度,批量歸一化后接步長為2的最大池化層實現降維。2) ConvBlock2(圖4c), 同樣設置卷積核尺寸為3×3,每層卷積后引入ReLU激活函數,連接批量歸一化層。與ConvBlock1不同的是,ConvBlock2未采用最大池化策略,而是在卷積過程中設置步長為2,直接進行降維操作。為了對比中間層維度對識別結果的影響,每種卷積塊結構分別對應2種輸出維度: 1) 4層卷積的輸出維度n1—n4分別設置為[8,16,32,64]; 2) 4層卷積的輸出維度n1—n4分別設置為[16,32,64,128]。
綜上,本研究基于InsectFrames提出4種具有不同卷積結構的網絡變體結構InsectFrames_1—4(表2),如InsectFrames_1卷積結構采用ConvBlock1提取特征并降維,4層卷積對應的輸出通道分別設為[8,16,32,64]; InsectFrames_4卷積結構采用ConvBlock2提取特征并降維,4層卷積對應的輸出通道分別設為[16,32,64,128]。

表2 InsectFrames 4種變體結構Tab.2 Four different variant structures of InsectFrames
本研究設計的識別模型首先經過訓練,通過深度學習有監督地優化模型參數至算法收斂,然后在測試集上評估4種模型準確率。

圖5 害蟲鉆蛀振動識別流程Fig.5 Recognition process of insect boring vibration
在訓練階段(圖5a),預處理提取訓練集音頻的對數梅爾聲譜輸入到卷積神經網絡中,通過前向傳播預測類別,利用損失函數計算預測類別與真實類別之間的誤差,再通過網絡反向傳播進行參數更新,經多次迭代完成模型訓練。模型訓練過程中,采用Adam算法進行優化; 設置初始學習率為0.001,并以余弦衰減方式進行衰減,直至0.000 001停止; 以32個音頻為1個批次,最多迭代50次; 使用交叉熵函數(cross entropy function)作為損失函數。
在測試階段(圖5b),將未參與訓練的測試集音頻輸入到訓練完畢的模型,測試模型在新數據上的分類準確率。在測試過程中,為了節約計算資源并提高識別精度,進行端點檢測時設計了2個分支: 1) 當端點檢測未檢測出信號片段時(即當前音頻的能量偏低),音頻直接被判定為無鉆蛀振動類; 2) 當端點檢測檢測出信號片段時,將信號片段轉化為對數梅爾聲譜,并輸入到已訓練好的卷積神經網絡進行分類預測,此時待識別音頻得到多個片段的預測分類結果,利用多數投票的方法進行預測結果匯聚,得票高的類別被認為是該音頻的預測類別。
本研究訓練模型采用的硬件平臺為Intel CoreTMi7-6700K CPU(32 GB內存)以及GeForce GTX 1080 Ti(12 GB顯存); 軟件為Ubuntu 16.04 LTS 64位操作系統,Lasagne (Raffeletal., 2016)深度學習開源框架。
害蟲識別一般以單音頻為單位進行,為了避免CPU與GPU之間的數據傳輸,本研究以音頻分類的平均精度(average accuracy)以及在CPU上測試的平均識別時間(average recognition time of CPU)作為害蟲鉆蛀振動識別的評價指標。待測音頻輸入網絡模型前需經預處理轉化為對數梅爾聲譜,該過程是音頻識別的基礎工作,與識別方法的選擇無關。
由表 3可知,單個音頻的平均預處理時間均為1.8 s左右,在整個害蟲識別過程中時間占比較大。在圖像分類問題中表現優異的ResNet18網絡用于害蟲鉆蛀振動識別能夠達到88.89%的平均識別準確率,但由于ResNet18具有相對復雜的網絡結構,單個音頻的CPU平均識別時間為229.612 s。廣泛應用于昆蟲聲音識別領域的混合高斯模型(Gaussian mixture model, GMM)時間效率極高,是4種網絡變體識別速度的15~60倍,但在此數據集上的識別精度僅為61.81%。本研究測試了4種變體結構簡單的卷積神經網絡(InsectFrames_1—4),其中在卷積過程中直接實現降維的InsectFrames_3、InsectFrames_4識別精度能夠達到90.28%和93.75%,與GMM、ResNet18相比識別精度有所提高; 改變特征降維方式,設置2×2最大池化步長為2,對應的InsectFrames_1、InsectFrames_2 的識別精度能夠達到92.36%和95.83%,與在卷積過程實現降維的策略相比均提高2.08%,具有更加明顯的識別優勢。圖6 為識別性能最好的InsectFrames_2測試結果的混淆矩陣,其中有3個雙條杉天牛鉆蛀振動音頻錯分為臭椿溝眶象類,1個臭椿溝眶象鉆蛀振動音頻錯分為雙條杉天牛類,2個無鉆蛀振動音頻被錯分為雙條杉天牛類。

表3 識別結果Tab.3 Identification results

圖6 InsectFrames_2測試結果的混淆矩陣Fig.6 The confusion matrix of InsectFrames_20: 雙條杉天牛類 S. bifasciatus;1:臭椿溝眶象類E.brandti; 2:無鉆蛀振動類 No boring vibration.
當前廣泛應用于蟲聲識別領域的GMM以及在圖像分類領域性能較好的ResNet18用于害蟲鉆蛀振動識別的精度僅為61.81%和88.89%,而且ResNet18運算開銷過高,在CPU上平均識別時間是4種網絡變體的170~2 000多倍。而本研究實現的4種基于輕量級神經網絡的鉆蛀振動識別模型InsectFrames_1—4的測試集平均精度均能達到90%以上,采用最大池化降維且中間層特征維度較高的InsectFrames_2模型具有最佳識別性能,平均精度能夠達到95.83%,CPU平均識別時間為1.334 s,可利用鉆蛀振動有效區分2種鉆蛀性幼蟲,為蟲情監測預警提供技術支持。
傳統蟲聲識別領域廣泛應用的GMM為無監督學習,主要由數據驅動實現聚類,在不同類型的昆蟲(儲糧害蟲、蛀干害蟲、土壤昆蟲、植物昆蟲等)識別中表現優異;但雙條杉天牛、臭椿溝眶象均屬林業鉆蛀性害蟲,鉆蛀振動信號特征相似度較高,利用GMM難以精準區分。ResNet18采用殘差結構優化深層網絡,可解決網絡在深度增加過程中的退化問題,同時增加模型的表示能力,在相對復雜的圖像分類任務中性能優異,對于鉆蛀振動特征相似的2類害蟲也能取得較高識別精度。但鉆蛀振動信號特征相對較少,ResNet18網絡結構復雜且參數較多,所以時間效率偏低,無法真正應用于蟲聲識別。本研究實現的4種輕量級神經網絡模型很好解決了鉆蛀振動信號特征相對較少且相似性高的問題。
由于最大池化策略能夠對上一層的輸出引入局部平移不變性,且可有效保留圖像紋理特征,采用最大池化策略的InsectFrames_1和InsectFrames_2網絡相較在卷積過程中直接實現降維策略的網絡具有更好的識別能力,但同時增加了運算量,耗時增加約2倍,時間效率相對較低。4層卷積輸出維度為[16,32,64,128]的InsectFrames_2能夠獲取更多的中間特征用于學習,在試驗中得到最好的識別結果。InsectFrames_2網絡結構簡單、泛化能力強,在CPU上單個音頻平均識別時間約1.3 s,能夠滿足正常害蟲監測預警的時效要求,適用于蛀干害蟲的鉆蛀振動識別。
基于輕量級卷積神經網絡的鉆蛀振動識別方法,可高效識別出信號特征相似度較高的2種蛀干害蟲,將其應用于林間蟲害監測和防治領域,能夠提高監測效率,降低監測成本,為林業蛀干害蟲監測提供新的研究思路和技術支撐。未來將探索在含噪森林環境中更多種類鉆蛀性幼蟲的自動識別技術,提升對隱蔽鉆蛀性林業害蟲的早期預警能力。