黃志靜,邵慕義,張庭瑞,沈嘉軼
(北京信息科技大學(xué)計(jì)算機(jī)學(xué)院,北京,100101)
盡管人類(lèi)社會(huì)已經(jīng)得到了快速發(fā)展,也取得了很多生產(chǎn)力、科學(xué)技術(shù)等方面的成果,但在發(fā)展的同時(shí)一定程度上損害了自然環(huán)境,使得大自然中很多動(dòng)植物種類(lèi)逐漸消失尤其是野生動(dòng)物,所以我國(guó)非常重視野生動(dòng)物保護(hù)。如今,我國(guó)很多地區(qū)的野生動(dòng)物都已經(jīng)得到了等級(jí)性保護(hù),包括一級(jí)保護(hù)和二級(jí)保護(hù)動(dòng)物等,但依然有部分野生動(dòng)物還沒(méi)有得到很好的保護(hù),所以進(jìn)一步加強(qiáng)野生動(dòng)物保護(hù)、優(yōu)化生態(tài)環(huán)境是非常必要和重要的,理應(yīng)得到重視及關(guān)注[1]。而野生動(dòng)物的識(shí)別技術(shù),尤其是針對(duì)在具有噪音的野生環(huán)境下對(duì)野生動(dòng)物進(jìn)行識(shí)別就尤為重要,可以為加強(qiáng)野生動(dòng)物保護(hù)助力。在野外設(shè)置合適的攝像頭進(jìn)行拍攝,定時(shí)傳回圖片,對(duì)圖片進(jìn)行識(shí)別,若發(fā)現(xiàn)野生動(dòng)物就可以有針對(duì)性地采取措施,進(jìn)行保護(hù)。
圖像識(shí)別是指借助計(jì)算機(jī)工具實(shí)現(xiàn)對(duì)圖像的處理、分析和理解,達(dá)到對(duì)不同模式下目標(biāo)對(duì)象的識(shí)別分類(lèi),是將深度學(xué)習(xí)理論到實(shí)際的一種應(yīng)用[2]。圖像識(shí)別技術(shù)的過(guò)程分為獲取目標(biāo)信息、預(yù)處理圖像、對(duì)圖像特征進(jìn)行提取和篩選、分類(lèi)器設(shè)計(jì)和分類(lèi)決策。基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別是一種較為新穎的圖像識(shí)別技術(shù),它是在傳統(tǒng)圖像識(shí)別的基礎(chǔ)上加入卷積神經(jīng)網(wǎng)絡(luò)的算法,使圖像識(shí)別領(lǐng)域邁向智能化。
卷積神經(jīng)網(wǎng)絡(luò)是對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的改進(jìn),該網(wǎng)絡(luò)一般是對(duì)圖像的特征進(jìn)行提取,然后將提取到的特征映射到神經(jīng)網(wǎng)絡(luò)中,從而實(shí)現(xiàn)圖像的及分類(lèi).輸入層、卷積計(jì)算、激勵(lì)層、池化層、全連接和輸出層6個(gè)部分可以組成一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)。在輸入層對(duì)圖像做一些簡(jiǎn)單的預(yù)處理,隨后將其輸出給卷積層,使得卷積層對(duì)圖像的特征進(jìn)行提取;然后,將提出的特征輸出給激勵(lì)層,激勵(lì)層對(duì)其做一些非線性映射,再通過(guò)池化層將圖像的主要特征提取出來(lái);最后,通過(guò)全連接層將提取到的所有特征進(jìn)行匯總,產(chǎn)生分類(lèi)器,實(shí)現(xiàn)對(duì)圖像的識(shí)別分類(lèi).神經(jīng)網(wǎng)絡(luò)憑借局部感知和參數(shù)共享兩大特點(diǎn)在圖像處理領(lǐng)域占有一定的地位,局部感知使得卷積核對(duì)輸入的空間局部模式有較好的響應(yīng),而參數(shù)共享降低了網(wǎng)絡(luò)模型復(fù)雜度和權(quán)值數(shù)量[3]。兩者的結(jié)合不僅可以使網(wǎng)絡(luò)有效地從大量樣本中學(xué)習(xí)到想要的特征值,還降低了模型的復(fù)雜度,避免了復(fù)雜的特征提取過(guò)程。
1.3.1 管控力度不足
我國(guó)幅員遼闊,地形和地勢(shì)多樣,這就使野生動(dòng)物的分布也呈現(xiàn)多元化趨勢(shì)。由于野生動(dòng)物生長(zhǎng)習(xí)性不同,使野生動(dòng)物的分布范圍極為廣泛,且野生動(dòng)物種類(lèi)較多,在開(kāi)展管控的過(guò)程中難度較大,經(jīng)常出現(xiàn)管控力度不足的情況。并且,由于野生動(dòng)物管控涉及的環(huán)節(jié)和流程較多,導(dǎo)致在實(shí)際開(kāi)展工作的過(guò)程中,很難完全落實(shí)相關(guān)活動(dòng),一定程度上阻礙了我國(guó)野生動(dòng)物保護(hù)水平的提升[4]。
1.3.2 監(jiān)管難度較大
野生動(dòng)物品類(lèi)繁多,生活作息和生活環(huán)境也各不相同,如果通過(guò)人工的方式進(jìn)行監(jiān)管,可能會(huì)帶來(lái)較大的工作量,從時(shí)間的角度和區(qū)域范圍的角度,都涉及較大跨度。除此之外,盜獵現(xiàn)象也在普遍發(fā)生,并且已經(jīng)形成了一定規(guī)模的產(chǎn)業(yè)鏈,這對(duì)開(kāi)展野生動(dòng)物的工作產(chǎn)生了一定的阻礙,所以繼續(xù)提升改善野生動(dòng)物的監(jiān)管技術(shù)。
為提升保護(hù)野生動(dòng)物管理水平,需要從對(duì)監(jiān)管技術(shù)的提升改善入手。現(xiàn)階段通過(guò)人眼對(duì)不同作息和不同野外生存環(huán)境的野生動(dòng)物進(jìn)行觀察的難度是較大的,當(dāng)然也有一些監(jiān)管機(jī)構(gòu)采用了野生動(dòng)物識(shí)別技術(shù),進(jìn)行有效的野生動(dòng)物監(jiān)管,但是對(duì)于復(fù)雜的野外環(huán)境還是會(huì)存在光線或者障礙物等噪音影響識(shí)別工作。因此提升對(duì)噪聲的抗干擾能力便成為野生動(dòng)物識(shí)別技術(shù)的關(guān)鍵,比如,在有一定陽(yáng)光直射監(jiān)管攝像頭時(shí),或者被樹(shù)葉遮擋部分監(jiān)管攝像頭視線時(shí),系統(tǒng)采用的野生動(dòng)物識(shí)別技術(shù)依然可以有較高成功率地識(shí)別出野生動(dòng)物的品種,便于記錄野生動(dòng)物野外生存情況的相關(guān)信息。
我們選擇的數(shù)據(jù)集為cifar100中的10小類(lèi)每類(lèi)只有500張訓(xùn)練集和100張測(cè)試集,同時(shí)由于圖片較小每張圖片趨同,所以使用數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,介于自然界的動(dòng)物是會(huì)從左到右或者從右到左所以我們將圖片進(jìn)行隨機(jī)的左右翻轉(zhuǎn)以派生出更多圖片。
我們選擇圖像噪聲是圖像在獲取或傳輸過(guò)程中受到的隨機(jī)信號(hào)的干擾,在圖像上出現(xiàn)的一些隨機(jī)的、離散的、孤立的像素點(diǎn),這些點(diǎn)會(huì)干擾人眼對(duì)圖像信息的分析。圖像的噪聲通常是比較復(fù)雜的,很多時(shí)候?qū)⑵淇闯墒嵌嗑S隨機(jī)過(guò)程,因而可以借助于隨機(jī)過(guò)程描述噪聲,利用隨機(jī)樣本取值函數(shù)在32*32*3(RGB)上隨機(jī)產(chǎn)生浮點(diǎn)數(shù)加到測(cè)試集中。
深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)方面,引發(fā)了一系列突破。通過(guò)改變疊層的數(shù)量(深度),深度網(wǎng)絡(luò)自然整合低/中/高水平的功能,終端到終端多層方式的分層器,和特征的“水平”都變得更加豐富[5]。所以人們普遍認(rèn)為網(wǎng)絡(luò)層數(shù)越多對(duì)于信息的收集也會(huì)越好、非線性表達(dá)能力也會(huì)增強(qiáng),可以提取出更加深層次的信息。
但是隨著網(wǎng)絡(luò)變深(層數(shù)增多),反向傳播求取梯度的時(shí)候,容易發(fā)生梯度消失或梯度爆炸的問(wèn)題。如當(dāng)每次求梯度時(shí)候的數(shù)值很接近零,當(dāng)層數(shù)過(guò)多時(shí)候相乘的梯度將會(huì)趨近于0(梯度消失)、大于1(梯度爆炸)。同時(shí)深度網(wǎng)絡(luò)也可能造成退化問(wèn)題。
發(fā)現(xiàn)淺層網(wǎng)絡(luò)在有時(shí)候會(huì)比深層網(wǎng)絡(luò)的效果更好,所以通過(guò)在卷積層之間添加恒等連接(y=F(x,{Wi})+x)來(lái)保證深層網(wǎng)絡(luò)不會(huì)損失數(shù)據(jù),當(dāng)淺層輸出結(jié)果已經(jīng)很好時(shí)殘差部分權(quán)重可設(shè)為0。
如圖1,通過(guò)將上述功能包裝成深度殘差塊[6],通過(guò)調(diào)用殘差塊來(lái)卷積,可以有效解決深層網(wǎng)絡(luò)退化問(wèn)題。

圖1 軟閾值函數(shù)關(guān)系式
軟閾值函數(shù)是大部分降噪方法的核心步驟。它將小于設(shè)定的正數(shù)閾值的特征設(shè)置為零。傳統(tǒng)設(shè)置軟閾值的方法需要業(yè)務(wù)領(lǐng)域的專(zhuān)家根據(jù)專(zhuān)業(yè)知識(shí),通過(guò)不斷地調(diào)試來(lái)選擇一個(gè)合適的軟閾值,這種方法不具備學(xué)習(xí)能力,更缺乏可擴(kuò)展性。因此,將軟閾值學(xué)習(xí)和深度殘差網(wǎng)絡(luò)結(jié)合,通過(guò)自動(dòng)學(xué)習(xí)和調(diào)整,形成一種有效地消除噪聲信息和構(gòu)建高判別性特征的方式,其輸入與輸出的關(guān)系如圖2所示。

圖2 軟閾值函數(shù)關(guān)系式
該閾值的意義在于使得不同的樣本有了不同的閾值,而且閾值為一個(gè)不大的正數(shù),如果與當(dāng)前任務(wù)無(wú)關(guān)時(shí),通過(guò)閾值化將它們?cè)O(shè)置為0,實(shí)現(xiàn)對(duì)無(wú)關(guān)信息的抑制。
SENet則是最為經(jīng)典的注意力算法之一。如圖3所示,SENet通過(guò)一個(gè)小型網(wǎng)絡(luò)學(xué)習(xí)得到一組權(quán)值系數(shù),用于各個(gè)特征通道的加權(quán)。子網(wǎng)絡(luò)先對(duì)輸入的所有特征求平均值,成為(N*1*1*16)維度;然后經(jīng)過(guò)全局均值池化和平均等操作得到一個(gè)特征A,再另一條路徑,將全局均值池化之后的特征圖輸入到一個(gè)小型的全連接網(wǎng)絡(luò)中。這個(gè)全連接網(wǎng)絡(luò)將輸出進(jìn)行歸一化操作,使輸出保持在0和1之間并獲得一個(gè)數(shù),記為a;將系數(shù)(scales)進(jìn)行sigmoid激活,然后和A相乘得到閾值a*A,從而應(yīng)用閾值。

圖3 深度殘差收縮模塊
循環(huán)次數(shù)過(guò)多會(huì)導(dǎo)致過(guò)擬合,在32步長(zhǎng)下,通過(guò)調(diào)整循環(huán)次數(shù),獲得較好的結(jié)果,如表1所示。

表1 循環(huán)次數(shù)測(cè)試結(jié)果對(duì)比
通過(guò)資料查詢(xún),因?yàn)橛?xùn)練數(shù)據(jù)集數(shù)量較少,每次使用的圖片數(shù)量越少對(duì)于每張圖的利用效率越高,在300循環(huán)次數(shù)下,使用較短的步長(zhǎng)可以更加充分地利用數(shù)據(jù)集,使得準(zhǔn)確率提高。如表2所示。

表2 步長(zhǎng)測(cè)試結(jié)果對(duì)比
對(duì)于深度殘差網(wǎng)絡(luò)和深度殘差收縮網(wǎng)絡(luò)進(jìn)行一個(gè)對(duì)比試驗(yàn),測(cè)試識(shí)別準(zhǔn)確率。深度殘差網(wǎng)絡(luò)和深度殘差收縮網(wǎng)絡(luò)進(jìn)行對(duì)比試驗(yàn),都在有噪音的情況下,兩個(gè)準(zhǔn)確率對(duì)比如圖4。在有噪音情況下,深度殘差收縮網(wǎng)絡(luò)準(zhǔn)確率高于深度殘差網(wǎng)絡(luò)。

圖4 DRSN和DRN在有噪點(diǎn)下的準(zhǔn)確率
深度殘差收縮網(wǎng)絡(luò)本身,在有無(wú)噪聲的情況下進(jìn)行的一個(gè)對(duì)比,如圖5。在有無(wú)噪聲的情況下,有噪音條件下深度殘差收縮網(wǎng)絡(luò)準(zhǔn)確率在5000步時(shí)逼近無(wú)噪聲條件下,可以更好地避免噪音對(duì)圖像識(shí)別的影響。

圖5 DRSN在有無(wú)噪點(diǎn)下的準(zhǔn)確率
完成了網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練之后,將訓(xùn)練好的模型保存下來(lái),從視覺(jué)中國(guó)網(wǎng)上對(duì)野生動(dòng)物進(jìn)行搜索,下載了100張圖片,對(duì)這100張圖片進(jìn)行預(yù)處理,首先取上1/5和下4/5的圖片取中間,然后將其變成32*32大小的,再將其rbg通道變成32*32*3的,將標(biāo)簽做one-hot處理。處理完之后投入訓(xùn)練之后保存好的模型進(jìn)行測(cè)試,結(jié)果較為理想,準(zhǔn)確率對(duì)比如表3所示。

表3 無(wú)噪點(diǎn)測(cè)試準(zhǔn)確率對(duì)比
表3是在測(cè)試數(shù)據(jù)沒(méi)有添加噪點(diǎn)的情況下進(jìn)行的測(cè)試,表4是加了噪點(diǎn)之后的測(cè)試數(shù)據(jù),發(fā)現(xiàn)效果還是不錯(cuò)的。

表4 有噪點(diǎn)測(cè)試準(zhǔn)確率對(duì)比
本文詳細(xì)介紹了基于深度殘差收縮網(wǎng)絡(luò)的野生動(dòng)物識(shí)別的相關(guān)研究。分別通過(guò)與深度殘差網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn),以及在是否存在噪點(diǎn)這一變量的情況下對(duì)比實(shí)驗(yàn),得出結(jié)論相對(duì)于深度殘差網(wǎng)絡(luò),深度殘差收縮網(wǎng)絡(luò)對(duì)于野生動(dòng)物識(shí)別模型訓(xùn)練上能夠有效地降低噪聲對(duì)圖像識(shí)別的影響。