999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MR-VOD的神農(nóng)架林區(qū)野生動(dòng)物視頻檢測(cè)

2025-02-21 00:00:00眭海剛魏天怡胡烈云楊敬元馬國(guó)飛
野生動(dòng)物學(xué)報(bào) 2025年1期

關(guān)鍵詞:關(guān)系網(wǎng)絡(luò);視頻目標(biāo)檢測(cè);野生動(dòng)物;復(fù)雜環(huán)境;特征增強(qiáng)

野生動(dòng)物是生態(tài)系統(tǒng)中不可缺少的部分,對(duì)生態(tài)平衡有著至關(guān)重要的作用。現(xiàn)階段對(duì)野生動(dòng)物的保護(hù)與追蹤主要通過(guò)非侵入式技術(shù)實(shí)現(xiàn),其中,紅外觸發(fā)相機(jī)隱蔽性高,工作待機(jī)時(shí)間長(zhǎng),在物種本底資源調(diào)查[1]、動(dòng)物行為學(xué)研究與種群評(píng)估[2?4]中占據(jù)著重要地位。但手動(dòng)處理紅外相機(jī)視頻數(shù)據(jù)將耗費(fèi)大量時(shí)間、人力,對(duì)處理人員也有一定的專(zhuān)業(yè)能力要求,如何處理海量數(shù)據(jù)正成為橫亙?cè)谝吧鷦?dòng)物研究中的重要問(wèn)題。推動(dòng)野生動(dòng)物智能化監(jiān)測(cè)迫在眉睫,而其中的重點(diǎn)在于如何在所獲取的海量野生動(dòng)物視頻中精確找到目標(biāo)并識(shí)別。

在圖像檢測(cè)方面,早期野生動(dòng)物的目標(biāo)檢測(cè)多基于傳統(tǒng)圖像處理與機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)。Dickinsonet al.[5]使用基于區(qū)域的馬爾可夫隨機(jī)場(chǎng)對(duì)識(shí)別懸崖邊上的海鳥(niǎo)實(shí)現(xiàn)動(dòng)態(tài)/不穩(wěn)定背景下的魯棒分割;Wilber et al.[6]將類(lèi)局部二值模式(local binarypattern,LBP)算子和支持向量機(jī)(support vector machine,SVM)結(jié)合,區(qū)別沙漠地鼠龜(Gopherus agassi?zii)和莫哈維地松鼠(Xerospermophilus mohavensis)與沙漠中的其他物種。隨著神經(jīng)網(wǎng)絡(luò)的提出與發(fā)展,野生動(dòng)物智能檢測(cè)也踏入了新階段。Chen et al.[7]首次將深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)應(yīng)用于野生動(dòng)物的物種識(shí)別中,發(fā)現(xiàn)其學(xué)習(xí)能力明顯優(yōu)于傳統(tǒng)的詞袋模型(bag-of-words,BOW)。Tabak et al. [8]使用ResNet-18 架構(gòu)對(duì)來(lái)自美國(guó)、加拿大和坦桑尼亞的3 367 383 張野生動(dòng)物圖像進(jìn)行物種識(shí)別,達(dá)到了97. 6%的準(zhǔn)確率,并且夜間的表現(xiàn)幾乎與白天一樣好(97. 0%和98. 0%)。于文華等[9]以大型哺乳動(dòng)物東北虎(Panthera tigris altaica)為例,使用YOLOX算法,平均準(zhǔn)確率可達(dá)97. 32%;程浙安[10]針對(duì)卷積神經(jīng)網(wǎng)絡(luò)感受野受限、無(wú)法準(zhǔn)確提取野生動(dòng)物特征的問(wèn)題,提出一種基于自我注意機(jī)制的深度殘差網(wǎng)絡(luò)(SA-ResNet),準(zhǔn)確率可達(dá)90. 12%。然而,以上圖像檢測(cè)針對(duì)目標(biāo)通常為處理過(guò)的數(shù)據(jù)集,以確保每張圖片中都存在目標(biāo),但紅外相機(jī)在實(shí)際應(yīng)用中,受設(shè)備的角度與周?chē)h(huán)境(如天氣、日照等)的影響,獲取的視頻圖像質(zhì)量往往難以得到保證。如受擾動(dòng)的草叢與光波動(dòng)[11]影響,紅外相機(jī)會(huì)產(chǎn)生沒(méi)有野生動(dòng)物的純背景圖像或視頻,即空?qǐng)D像(empty images),為檢測(cè)帶來(lái)干擾;再如,為了保護(hù)自身安全,野生動(dòng)物皮毛會(huì)隨環(huán)境與季節(jié)發(fā)生變化,與環(huán)境融為一體,為檢測(cè)帶來(lái)較大難度。

面對(duì)圖像帶來(lái)的研究難題,研究者們開(kāi)始將目光轉(zhuǎn)向包含時(shí)間信息的圖像——視頻,通過(guò)時(shí)序與上下文語(yǔ)義的聯(lián)合提取,捕捉某段時(shí)間內(nèi)畫(huà)面發(fā)生的變化,并對(duì)干擾因素進(jìn)行排除,從而突出目標(biāo)主體。根據(jù)特征增強(qiáng)的手法不同,將視頻目標(biāo)檢測(cè)分為4類(lèi)。(1)光流法。該類(lèi)方法[12?13]針對(duì)運(yùn)動(dòng)模糊、抖動(dòng)等質(zhì)量減損的情況,計(jì)算視頻序列的兩幀圖像同像素的速度或位移矢量,并對(duì)視頻關(guān)鍵幀與非關(guān)鍵幀進(jìn)行處理,利用光流估計(jì)或特征傳播的方法提取特征,提高卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算速度與精度。但在野生動(dòng)物檢測(cè)中,光流極易受光照變化、陰影[14]等因素影響導(dǎo)致前后景難以分離,從而難以辨別目標(biāo)。(2)跟蹤法。此類(lèi)視頻目標(biāo)檢測(cè)方法[15?16]的特點(diǎn)在于利用跟蹤算法建立跟蹤管道鏈接不同的視頻幀以提高檢測(cè)準(zhǔn)確率,同時(shí)以時(shí)間特征在跟蹤期間輔助來(lái)減少誤檢、錯(cuò)檢的概率,優(yōu)化連續(xù)幀之間的目標(biāo)識(shí)別[17]。但這類(lèi)方法受目標(biāo)尺度與移動(dòng)速度的限制,一旦監(jiān)測(cè)動(dòng)物出現(xiàn)快速移動(dòng),跟蹤就會(huì)失敗。(3)語(yǔ)義法。相比時(shí)序信息,視頻的語(yǔ)義信息并不局限于像素級(jí)的特征聚合,實(shí)例級(jí)的局部信息與全局信息[18]、甚至視頻間的目標(biāo)聯(lián)系[19?20],都能成為目標(biāo)特征增強(qiáng)的重要輔助信息。這類(lèi)方法在復(fù)雜環(huán)境下的野生動(dòng)物檢測(cè)中,要比光流法與追蹤法表現(xiàn)更好,但面對(duì)長(zhǎng)時(shí)間的空?qǐng)D像也缺乏足夠的應(yīng)對(duì)手段。(4)其他方法,如更為擅長(zhǎng)處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)[21]和進(jìn)一步完善的長(zhǎng)短期記憶網(wǎng)絡(luò)[22]等。

由此,針對(duì)以上光流和語(yǔ)義方法在野生動(dòng)物復(fù)雜背景下的欠缺,本研究提出一種基于多幀關(guān)系網(wǎng)絡(luò)特征增強(qiáng)的視頻目標(biāo)檢測(cè)方法(multi-relationvideo object detection,MR-VOD)。該方法不再局限于像素級(jí)特征,而更關(guān)注各目標(biāo)對(duì)象層級(jí)上的語(yǔ)義聯(lián)系,同時(shí)加強(qiáng)對(duì)視頻獨(dú)有的時(shí)序信息的充分利用。對(duì)于檢測(cè)效果較差的圖像幀,結(jié)合上下幀目標(biāo)之間的關(guān)系,利用多階段推理,實(shí)現(xiàn)待檢測(cè)目標(biāo)的特征增強(qiáng)與準(zhǔn)確檢測(cè)。該模型首先經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取基礎(chǔ)特征,并按照外觀與幾何特征通過(guò)多頭注意力機(jī)制[23]增強(qiáng)得到相應(yīng)關(guān)系權(quán)重,并與原有特征融合增強(qiáng);隨后在增強(qiáng)的多幀圖像中,選取得分排序前列相鄰幀特征對(duì)待檢測(cè)幀進(jìn)一步增強(qiáng),以實(shí)現(xiàn)對(duì)低質(zhì)圖像幀檢測(cè)的勘誤與修正。該方法的思想來(lái)源于視頻中目標(biāo)出現(xiàn)的概率與周?chē)h(huán)境中的其他目標(biāo)有所關(guān)聯(lián),同時(shí),野生動(dòng)物活動(dòng)范圍具有一定的關(guān)聯(lián)性,如當(dāng)圖像中出現(xiàn)一只川金絲猴(Rhinopithecus roxellana)時(shí),那么出現(xiàn)的其他動(dòng)物也極大可能為川金絲猴,或與川金絲猴存在一定聯(lián)系的物種。此外,本研究根據(jù)紅外觸發(fā)相機(jī)收集到的神農(nóng)架林區(qū)野生動(dòng)物視頻構(gòu)建了神農(nóng)架林區(qū)野生動(dòng)物視頻目標(biāo)檢測(cè)數(shù)據(jù)集作為研究的基礎(chǔ),對(duì)多種模型方法進(jìn)行分析與比較,驗(yàn)證了MR-VOD模型在野生動(dòng)物視頻檢測(cè)領(lǐng)域的有效性。

1 數(shù)據(jù)集構(gòu)建及研究方法

1. 1 數(shù)據(jù)集構(gòu)建

神農(nóng)架林區(qū)位于中國(guó)地勢(shì)第二階梯的東部邊緣,呈東西向延伸,地勢(shì)西南高東北低,峽谷幽深,其最高峰神農(nóng)頂海拔3 106. 2 m,是華中地區(qū)的最高點(diǎn)。復(fù)雜的地形、巨大的高差、多樣的土壤類(lèi)型和氣候條件,孕育了多種生境類(lèi)型和豐富的生物多樣性,生態(tài)系統(tǒng)完整,使得神農(nóng)架林區(qū)成為華中地區(qū)原始森林分布面積最大的地區(qū)。本研究區(qū)位于湖北省神農(nóng)架?chē)?guó)家級(jí)自然保護(hù)區(qū)(神農(nóng)架林區(qū)),包括巴東金絲猴國(guó)家級(jí)自然保護(hù)區(qū)(巴東縣)的一部分。

本研究建立了針對(duì)視頻目標(biāo)檢測(cè)的神農(nóng)架林區(qū)野生動(dòng)物數(shù)據(jù)集,主要使用標(biāo)注工具LabelImg,依據(jù)ILSVRC2015_VID 格式(Large Scale Visual RecognitionChallenge 2015_Video,2015 年大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽視頻目標(biāo)檢測(cè)任務(wù))制作。與圖像目標(biāo)檢測(cè)不同,該數(shù)據(jù)集應(yīng)用了視頻特有的時(shí)序與遮擋信息:folder標(biāo)簽代表該圖像來(lái)源于哪個(gè)視頻,filename代表圖像位于視頻中的哪一幀。除此之外,考慮到遮擋現(xiàn)象,通過(guò)標(biāo)注occluded判斷,0表示未遮擋,1表示出現(xiàn)遮擋。

自主構(gòu)建的神農(nóng)架野生動(dòng)物視頻目標(biāo)檢測(cè)數(shù)據(jù)集包括川金絲猴、毛冠鹿(Elaphodus cephalophus)、梅花鹿(Cervus nippon)、馬來(lái)豪豬(Hystrix brachyura)、豬獾(Arctonyx collaris)、紅腹錦雞(Chrysolophus pic?tus)、紅腹角雉(Tragopan temminckii)和豹貓(Pri?onailurus bengalensis)8種林下野生動(dòng)物,訓(xùn)練視頻90個(gè),測(cè)試視頻27個(gè),每個(gè)視頻選取15 ~ 1 506幀。最終共29 683幀圖像(表1),按照8∶2劃分訓(xùn)練集(包含驗(yàn)證集)與測(cè)試集。

構(gòu)成數(shù)據(jù)集的圖像中包含了各種情景,按照不同圖像中目標(biāo)姿態(tài)、環(huán)境與檢測(cè)目標(biāo)將其分為4類(lèi)。A類(lèi),目標(biāo)野生動(dòng)物顏色鮮艷,與周?chē)h(huán)境分別明顯,是最為理想的檢測(cè)圖像(圖1a)。B類(lèi),野生動(dòng)物的姿態(tài)多變。由于大多野生動(dòng)物在拍攝中不受人為控制,決定了在獲得的野生動(dòng)物視頻中,絕大部分動(dòng)物都以側(cè)面甚至背面出現(xiàn),為目標(biāo)的辨別增加了難度(圖1b)。C類(lèi),存在偽裝現(xiàn)象。野生動(dòng)物為了生存將皮毛變?yōu)榕c周?chē)h(huán)境相近的顏色,難以分辨,在檢測(cè)過(guò)程中極易出現(xiàn)遺漏(圖1c)。D類(lèi),存在多個(gè)目標(biāo)相互重疊。重疊不僅存在于目標(biāo)與目標(biāo)之間,環(huán)境與目標(biāo)之間也會(huì)出現(xiàn)遮擋,造成漏檢(圖1d)。

1. 2 研究方法

1. 2. 1 多頭注意力

注意力機(jī)制是近些年來(lái)的熱門(mén)研究?jī)?nèi)容[24?27],其原理類(lèi)似于人眼在分辨圖片或視頻時(shí),會(huì)著重關(guān)注自己感興趣的目標(biāo)[28]。谷歌公司2017 年提出Transformer[23]模型,取代了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneural network,RNN)在注意力機(jī)制核心構(gòu)架的地位,如今的許多注意力預(yù)訓(xùn)練機(jī)制都是在其基礎(chǔ)上構(gòu)建的。多頭注意力(multi-head attention)正是Transformer模型中的一個(gè)重要組成部分,現(xiàn)被廣泛用于各種自然語(yǔ)言處理任務(wù)中。

在單頭注意力(Single-head attention)機(jī)制中(圖2A),通過(guò)為輸入序列中的每個(gè)數(shù)據(jù)賦予特定的權(quán)重值,決定著它們?cè)谀P吞幚頃r(shí)的受關(guān)注程度。但在多頭注意力中(圖2B),使用不止一組的權(quán)重代表不同方面的語(yǔ)義信息將產(chǎn)生多組向量。通過(guò)將這些向量拼接并進(jìn)行線性變化,最終得到經(jīng)過(guò)多頭注意力機(jī)制處理的輸出結(jié)果。與單頭注意力機(jī)制相比,多頭注意力機(jī)制能夠使模型關(guān)注更為全面,層次也更為豐富。

1. 2. 2 特征金字塔網(wǎng)絡(luò)

尺度是野生動(dòng)物目標(biāo)檢測(cè)中面臨的一個(gè)重要問(wèn)題,遠(yuǎn)離攝像機(jī)的動(dòng)物在圖像中表現(xiàn)為小目標(biāo)對(duì)象,在下采樣的過(guò)程中極易丟失特征。特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[29]在一定程度上可以解決這個(gè)問(wèn)題。特征金字塔網(wǎng)絡(luò)首先通過(guò)自底向上獲得不同尺度的特征,淺層的特征包含更多底層信息,如動(dòng)物的皮毛顏色、紋理等;深層的特征會(huì)包含更多語(yǔ)義信息。通過(guò)橫向連接和自頂向下的采樣,可以得到不同尺度下的特征輸出。

1. 2. 3 多幀關(guān)系提取模塊

多幀關(guān)系提取模塊(multi-relation module,MRM)基于圖像目標(biāo)檢測(cè)中的關(guān)系網(wǎng)絡(luò)模塊(relationnetworks,RN)[30]改進(jìn)設(shè)計(jì),通過(guò)待檢測(cè)幀的前后段圖像目標(biāo)關(guān)系對(duì)其特征增強(qiáng)(圖3A),從而加強(qiáng)低質(zhì)圖像目標(biāo)檢測(cè)能力。RN模塊將獲得的目標(biāo)特征分為外觀特征Fa與幾何特征Fg (即bounding box),分別輸入到多頭注意力模塊中,得到目標(biāo)之間的relation,再將其與原特征信息融合實(shí)現(xiàn)模糊目標(biāo)特征增強(qiáng)的作用。

式中:Fa 為融合前第i 個(gè)目標(biāo)的外觀特征,F(xiàn)g 為第i 個(gè)目標(biāo)的幾何特征,R 為通過(guò)多頭注意力實(shí)現(xiàn)的relation模塊,通過(guò)concat 操作將目標(biāo)特征的關(guān)系連接,作為目標(biāo)原特征增強(qiáng)的參考建議得到F′a。

本研究設(shè)計(jì)的視頻關(guān)系提取模塊不僅關(guān)注單個(gè)圖像中目標(biāo)的關(guān)系,更關(guān)注相鄰上下幀圖像之間目標(biāo)的關(guān)系。將當(dāng)前關(guān)鍵幀(keyframe)圖像得到的特征Fcur同固定長(zhǎng)度的相鄰幀得到的特征Fref共同投入到注意力模塊中,再分別根據(jù)它們各自的特征計(jì)算其權(quán)重,通過(guò)加權(quán)實(shí)現(xiàn)與原特征的融合增強(qiáng),得到新的特征。

式中:wmik 代表第i 幀相鄰圖像中第k 個(gè)目標(biāo)與待檢測(cè)幀m 的關(guān)系權(quán)重,fik 代表第i 幀相鄰圖像中第k 個(gè)目標(biāo)的特征,F(xiàn)0 代表增強(qiáng)融合后的特征。

多階段的推理方式[19]可以減少計(jì)算量與無(wú)效的步驟,提高檢測(cè)效率(圖3B)。第一階段首先將提取的幾何特征Fg與外觀特征Fa構(gòu)造的關(guān)系通過(guò)簡(jiǎn)單的堆疊方式迭代推理,將所有目標(biāo)的關(guān)系作為特征增強(qiáng)的候選項(xiàng);在隨后的第二階段中,對(duì)第一階段的輸出候選項(xiàng),即所有目標(biāo)的relation細(xì)化提煉,確定目標(biāo)之間的聯(lián)系程度,選取前K 項(xiàng)作為支持目標(biāo)關(guān)系,參與最終的特征增強(qiáng)融合。

在野生動(dòng)物檢測(cè)中,考慮到任務(wù)的特殊性,相鄰幀前后出現(xiàn)的目標(biāo)關(guān)系通常相當(dāng)密切,且同一畫(huà)面中的多個(gè)目標(biāo)有極大可能性為同一物種。對(duì)于因遮擋、偽裝或其他原因而檢測(cè)錯(cuò)誤的目標(biāo),MRM首先對(duì)特定長(zhǎng)度的時(shí)間序列圖像進(jìn)行特征提取,接著建立同一圖像、相鄰圖像之間的目標(biāo)關(guān)系并實(shí)現(xiàn)第一階段的融合;接著通過(guò)選取前K 項(xiàng)關(guān)系較近的特征Fref 作為支持Fcur 特征聚合的參考特征,最終得到特征F0(圖3C)。

綜上所述,MR-VOD 模型的最終結(jié)構(gòu)如圖4 所示。首先,相鄰時(shí)間序列的若干圖像輸入模型之后,通過(guò)特征金字塔網(wǎng)絡(luò)在不同尺度上提取特征,進(jìn)行初步目標(biāo)檢測(cè)。該階段直接輸出的檢測(cè)結(jié)果將會(huì)由于環(huán)境、目標(biāo)等各種因素影響精度,因此需要對(duì)提取后的特征進(jìn)一步增強(qiáng)。然后通過(guò)本研究設(shè)計(jì)的MRM模塊,對(duì)相鄰圖像中的各目標(biāo)關(guān)系進(jìn)行計(jì)算、打分與排序,篩選出合適的參考聚合特征實(shí)現(xiàn)融合,從而對(duì)待檢測(cè)目標(biāo)有針對(duì)性的加強(qiáng),提高檢測(cè)精度。

1. 3 評(píng)價(jià)指標(biāo)

本研究使用AP50作為評(píng)價(jià)野生動(dòng)物目標(biāo)檢測(cè)結(jié)果正確與否的精度指標(biāo)。平均精度(average precision,AP)是目標(biāo)檢測(cè)中廣泛使用的一種評(píng)價(jià)指標(biāo),由P-R 曲線計(jì)算而成。使用TP表示真陽(yáng)性值(正確識(shí)別的陽(yáng)性樣本數(shù)),F(xiàn)P表示假陽(yáng)性值(假陽(yáng)性的陰性樣本數(shù)),TN表示真陰性值(正確識(shí)別的陰性樣本數(shù)),F(xiàn)N表示假陰性值(遺漏的陽(yáng)性樣本數(shù)),準(zhǔn)確度(P)和召回率(R)的定義如式(3)和式(4)所示。

因?yàn)槊總€(gè)類(lèi)別的P-R 曲線各不相同,每個(gè)類(lèi)別的AP值也就需要分別計(jì)算,從而得到平均精度均值(mean average precision,mAP)。置信度(confidence)代表每個(gè)預(yù)測(cè)結(jié)果屬于該類(lèi)別的概率值,即評(píng)價(jià)預(yù)測(cè)結(jié)果正確與否的指標(biāo)。當(dāng)預(yù)測(cè)結(jié)果概率值大于設(shè)定的置信度閾值,則認(rèn)為該預(yù)測(cè)結(jié)果為正確。在模型實(shí)際應(yīng)用中使用IoU(intersection of union)最終結(jié)果與真值的重疊度,來(lái)代表這個(gè)閾值。AP50即為IoU等于0. 5時(shí)目標(biāo)檢測(cè)任務(wù)的平均精度。

2 結(jié)果

2. 1 試驗(yàn)設(shè)置

試驗(yàn)使用NVIDIA GeForce RTX 3080訓(xùn)練3萬(wàn)個(gè)輪次,選取其中表現(xiàn)最好的模型用于測(cè)試。測(cè)試包括6 個(gè)模型,選取Faster R-CNN[31]作為檢測(cè)的baseline。另選取光流視頻檢測(cè)模型——深度特征光流模型(deep feature flow,DFF)[12]與光流導(dǎo)向特征聚合模型(flow guided feature aggregation,F(xiàn)GFA)[13],以記憶為導(dǎo)向聚合特征、綜合局部與全局語(yǔ)義的記憶增強(qiáng)的全局局部聚合模型(memory enhancedglobal-local aggregation,MEGA)[18],與同樣以關(guān)系模塊作為基礎(chǔ)的關(guān)系蒸餾網(wǎng)絡(luò)(relation distillation networks,RDN)[19]作為參考對(duì)比。各模型的設(shè)計(jì)對(duì)比如表2所示。

2. 2 訓(xùn)練結(jié)果與分析

檢測(cè)結(jié)果如表3所示,可以看到本研究提出的MR-VOD模型總體檢測(cè)率有較明顯的提升,尤其在川金絲猴的檢測(cè)中,相比Faster R-CNN提高了30. 79個(gè)百分點(diǎn),比表現(xiàn)效果最好的MEGA 也提高了將近13. 71個(gè)百分點(diǎn)。川金絲猴類(lèi)的精度提升幅度之大,也與數(shù)據(jù)集樣本與本方法的適配度較高有關(guān):在構(gòu)建的視頻數(shù)據(jù)集樣本中,川金絲猴多以族群形式活動(dòng),畫(huà)面中通常存在多只川金絲猴,MRM模塊也隨之發(fā)揮了重要作用,關(guān)系提取后的增強(qiáng)效果較其他類(lèi)別(畫(huà)面以單只動(dòng)物活動(dòng)為主)更為明顯。盡管如此,在其他類(lèi)別的檢測(cè)中,MR-VOD檢測(cè)精度也保持著不變或者小有提升的結(jié)果。盡管在豹貓檢測(cè)中有所下降,但該類(lèi)別的檢測(cè)率仍高于90. 00%,因此認(rèn)為,在總體結(jié)果有所優(yōu)化的情況下,該類(lèi)別的準(zhǔn)確率下降是可以接受的。

如表3所示,選取圖像檢測(cè)模型Faster R-CNN與視頻檢測(cè)模型DFF、FGFA、MEGA和RDN作為本研究提出的MR-VOD方法的對(duì)照組,得到不同模型針對(duì)林下野生動(dòng)物目標(biāo)的檢測(cè)結(jié)果。Faster R-CNN在訓(xùn)練與檢測(cè)過(guò)程中不考慮時(shí)序信息的應(yīng)用,因此在遇到單幀圖像質(zhì)量差的情況下,檢測(cè)效果不甚理想。DFF與FGFA作為同種類(lèi)型的光流視頻檢測(cè)模型,后者摒棄前者隨機(jī)選幀的方法,采取相鄰幀的光流傳播加強(qiáng)關(guān)鍵幀,一定程度提升了準(zhǔn)確率,但在檢測(cè)速度上受到影響。同時(shí),在樹(shù)林茂盛的林區(qū)環(huán)境中,光流影響巨大,也使二者的檢測(cè)準(zhǔn)確程度極易受環(huán)境影響。MEGA綜合考慮全局信息與局部信息,通過(guò)長(zhǎng)距離記憶(long range memory,LRM)模塊保存視頻幀待以增強(qiáng)當(dāng)前關(guān)鍵幀特征,提高了視頻檢測(cè)的效率與語(yǔ)義信息量;但由于復(fù)雜環(huán)境導(dǎo)致視頻中存在空?qǐng)D像,LRM保存的輔助視頻幀并不都是有用的,因此特征增強(qiáng)的功能也受到限制,均有隨機(jī)性。最后,RDN與改進(jìn)后的MR-VOD均采取了目標(biāo)關(guān)系聯(lián)系的思想,但MRVOD在前者多階段推理的基礎(chǔ)上簡(jiǎn)化了網(wǎng)絡(luò),根據(jù)野生動(dòng)物活動(dòng)連續(xù)性的特點(diǎn)縮小了支持幀的選取范圍,有效減小了過(guò)擬合的危害,準(zhǔn)確率也明顯提高。

2. 3 消融實(shí)驗(yàn)

為了驗(yàn)證算法各部分的必要性,對(duì)MR-VOD的各個(gè)模塊進(jìn)行消融實(shí)驗(yàn)分析(表4),設(shè)置同2. 1。試驗(yàn)證明,去除FPN或MRM任一模塊后的算法性能總體上均有下降。其中,F(xiàn)PN結(jié)合低層特征的高分辨率與高層特征豐富的語(yǔ)義信息對(duì)紅外相機(jī)視頻中不同遠(yuǎn)近、不同尺度的野生動(dòng)物進(jìn)行預(yù)測(cè),去除后,也會(huì)隨之造成畫(huà)面中部分動(dòng)物的遺漏檢測(cè),由此造成個(gè)別類(lèi)別的檢測(cè)精度下降。MRM模塊作為算法的核心模塊,對(duì)算法精度的影響更為重要,該模塊的缺失將會(huì)切斷待檢測(cè)幀與相鄰幀目標(biāo)的聯(lián)系,從而失去特征增強(qiáng)的過(guò)程。

2. 4 模型測(cè)試

為了驗(yàn)證MR-VOD模型的實(shí)際效果,分別選取3個(gè)場(chǎng)景測(cè)試不同方法在實(shí)際應(yīng)用中的表現(xiàn)。

場(chǎng)景1(圖5),選取川金絲猴群背對(duì)紅外攝像機(jī)、由近處走向遠(yuǎn)處的視頻作為非正面目標(biāo)檢測(cè)對(duì)象。由圖5可見(jiàn),F(xiàn)aster R-CNN將川金絲猴錯(cuò)檢為梅花鹿,依賴(lài)于光流檢測(cè)的DFF、FGFA存在漏檢情況,而MEGA、RDN與MR-VOD模型表現(xiàn)良好,能夠?qū)⑤^為明顯的2只川金絲猴正確識(shí)別出來(lái)。在樹(shù)木茂盛的情景下,川金絲猴活動(dòng)對(duì)灌木造成擾動(dòng),導(dǎo)致光流估計(jì)效果不佳,以光流為檢測(cè)手段的DFF 與FGFA的表現(xiàn)效果最不理想;此外,灌木造成的遮擋也導(dǎo)致了圖像檢測(cè)方法Faster R-CNN的錯(cuò)誤檢測(cè)結(jié)果;而MEGA、RDN與MR-VOD能夠捕捉視頻語(yǔ)義信息,彌補(bǔ)遮擋帶來(lái)的特征不足,表現(xiàn)良好。

場(chǎng)景2(圖6),選取形態(tài)毛色與環(huán)境較為相似的毛冠鹿進(jìn)食視頻作為檢測(cè)對(duì)象。在Faster R-CNN、DFF、MEGA和RDN檢測(cè)過(guò)程中,均將近處的樹(shù)根檢測(cè)為其他物種,而在FGFA與MR-VOD中,消除了誤檢。偽裝目標(biāo)作為野生動(dòng)物檢測(cè)中的一大主要場(chǎng)景,區(qū)分前后景是主要的難點(diǎn)。FGFA通過(guò)光流估計(jì)與傳播增強(qiáng)視頻待檢測(cè)的每一幀特征,而DFF的隨機(jī)選取則決定了其在檢測(cè)過(guò)程中存在的巨大不定性,魯棒性遠(yuǎn)不如前者。與此同時(shí),MR-VOD在關(guān)注目標(biāo)聯(lián)系的同時(shí)減小計(jì)算量,避免部分過(guò)擬合現(xiàn)象,在測(cè)試中表現(xiàn)良好。

場(chǎng)景3(圖7),選取多只處于大幅活動(dòng)狀態(tài)的川金絲猴群視頻作為檢測(cè)對(duì)象。在Faster R-CNN檢測(cè)中,幾乎檢測(cè)不出目標(biāo)的存在,且唯一檢測(cè)出的目標(biāo)物種類(lèi)別也不正確。在DFF和FGFA方法中,較為顯眼的2只川金絲猴被正確檢測(cè)出,但左下角被樹(shù)枝遮擋和右上角被樹(shù)杈遮擋的3只川金絲猴,難以通過(guò)光流檢測(cè)出。在MEGA和RDN中,也分別漏檢了左下角和右上角的川金絲猴,但在MR-VOD 中,5只形態(tài)各異且存在一定遮擋的目標(biāo)川金絲猴均被正確檢測(cè)出,表現(xiàn)良好。

綜上所述,受光流、遮擋等因素,各模型在不同場(chǎng)景下的檢測(cè)效果或多或少都受到了影響。但本研究提出的MR-VOD在一定程度上彌補(bǔ)了這點(diǎn)(表5)。盡管在圖7中,由于過(guò)大面積的遮擋,所有檢測(cè)器均只檢測(cè)除了存在的3只川金絲猴(從尾巴數(shù)量來(lái)判斷)中的2只,但相較于其他方法,MR-VOD在各種環(huán)境下的表現(xiàn)都更為準(zhǔn)確、穩(wěn)定。

3 討論

本研究以神農(nóng)架林區(qū)野生動(dòng)物作為檢測(cè)對(duì)象,將視頻特有的時(shí)空信息與目標(biāo)之間的關(guān)系相結(jié)合,提出基于多幀關(guān)系網(wǎng)絡(luò)特征增強(qiáng)的MR-VOD方法,在神農(nóng)架野生動(dòng)物測(cè)試集上表現(xiàn)出了明顯的優(yōu)化與提升。改進(jìn)后的模型平均準(zhǔn)確率可達(dá)81. 96%,比Faster R-CNN提高9. 32個(gè)百分點(diǎn),且在林區(qū)環(huán)境中表現(xiàn)良好。通過(guò)消融驗(yàn)證實(shí)驗(yàn)可知,作為模型改進(jìn)重點(diǎn)的多幀關(guān)系提取MRM模塊也起到了重要作用,前后平均準(zhǔn)確率提高6. 27 個(gè)百分點(diǎn)。MR-VOD 方法在增強(qiáng)特征時(shí),重點(diǎn)關(guān)注待檢測(cè)幀及前后數(shù)幀畫(huà)面中的多個(gè)目標(biāo)之間的關(guān)系,因此,目標(biāo)越多時(shí),能作為的參考關(guān)系也就越多,對(duì)多目標(biāo)檢測(cè)的性能也就越強(qiáng)(圖7,表5)。在未使用任何時(shí)空或關(guān)系信息的Faster R-CNN檢測(cè)結(jié)果中,川金絲猴、毛冠鹿的檢測(cè)準(zhǔn)確率低于50. 00%,但在改進(jìn)的模型中準(zhǔn)確率分別達(dá)到76. 38% 與69. 97%(表3),前者在構(gòu)建的視頻樣本集中多以族群形式活動(dòng),多只川金絲猴之間的關(guān)系經(jīng)過(guò)MRM模塊成為川金絲猴檢測(cè)特征增強(qiáng)中的重要參考;而在毛冠鹿的檢測(cè)中,通過(guò)前后幀目標(biāo)之間的關(guān)系,有效排除了環(huán)境相近帶來(lái)的干擾。無(wú)論何種視頻檢測(cè)方式,檢測(cè)準(zhǔn)確率均高于單幀圖片檢測(cè),這也是能充分利用時(shí)空信息的視頻目標(biāo)檢測(cè)相較于圖像目標(biāo)檢測(cè)的優(yōu)勢(shì)所在。

隨著人工智能的迅猛發(fā)展與傳感器的推廣,通過(guò)紅外相機(jī)視頻使用基于深度學(xué)習(xí)的方法也被應(yīng)用于各種野生動(dòng)物的監(jiān)測(cè)中,如微軟[32]開(kāi)發(fā)的Mega‐Detector,在運(yùn)動(dòng)觸發(fā)野生動(dòng)物圖像檢測(cè)中準(zhǔn)確度高達(dá)95. 0%,但在小型動(dòng)物或者難以觸發(fā)運(yùn)動(dòng)的延時(shí)檢測(cè)中準(zhǔn)確率不足61. 6%;通過(guò)自主構(gòu)建基于視頻的野生動(dòng)物檢測(cè)數(shù)據(jù)集(wildlife video detection datasets,WVDDS)[33] ,使用改進(jìn)后的Context_awareYOLO方法檢測(cè)后,平均準(zhǔn)確率可達(dá)80. 41%;Vill etal.[34]在完整的Snapshot Serengeti數(shù)據(jù)集上利用深度學(xué)習(xí)框架訓(xùn)練物種分類(lèi),在最佳場(chǎng)景下(平衡數(shù)據(jù)集、僅包含前景動(dòng)物的圖像以及手動(dòng)分割),準(zhǔn)確率為88. 9%,但在最差的情況下(包含空?qǐng)D像的不平衡訓(xùn)練數(shù)據(jù)集),準(zhǔn)確率僅為35. 4%。本研究瞄準(zhǔn)的應(yīng)用場(chǎng)景為樹(shù)木茂盛、灌木叢生的神農(nóng)架林區(qū),檢測(cè)環(huán)境復(fù)雜,目標(biāo)與環(huán)境之間的遮擋現(xiàn)象頻繁。通過(guò)前后幀的特征聚合,有效排除了環(huán)境的干擾因素,再通過(guò)目標(biāo)之間的關(guān)系緊密度,實(shí)現(xiàn)了待檢測(cè)目標(biāo)特征增強(qiáng)。

在面積過(guò)大的遮擋目標(biāo)檢測(cè)中,改進(jìn)后的方法仍存在著一定的漏檢(圖5)。MR-VOD方法關(guān)注單個(gè)視頻內(nèi)前后幀的目標(biāo)關(guān)系抽取,而不同視頻目標(biāo)之間實(shí)際上也存在著一定的聯(lián)系。在今后的研究中,將考慮從跨視頻域的目標(biāo)關(guān)系提取與特征增強(qiáng)入手,實(shí)現(xiàn)更為精準(zhǔn)、精確的野生動(dòng)物目標(biāo)檢測(cè)。

4 結(jié)束語(yǔ)

本研究針對(duì)林下野生動(dòng)物在復(fù)雜環(huán)境下遇到的檢測(cè)錯(cuò)誤、遺漏問(wèn)題,提出了一種基于多幀目標(biāo)關(guān)系網(wǎng)絡(luò)的檢測(cè)方法MR-VOD。該方法在圖像網(wǎng)絡(luò)檢測(cè)的基礎(chǔ)上,結(jié)合關(guān)系蒸餾網(wǎng)絡(luò)的多階段思想,將視頻關(guān)鍵幀前后的上下文目標(biāo)關(guān)系結(jié)合起來(lái),實(shí)現(xiàn)關(guān)鍵目標(biāo)的特征增強(qiáng),從而改善由目標(biāo)姿態(tài)或環(huán)境遮擋而造成的檢測(cè)錯(cuò)誤。本研究參照現(xiàn)有視頻目標(biāo)檢測(cè)通用格式,引入幀數(shù)、遮擋情況等變量,構(gòu)建了神農(nóng)架林區(qū)野生動(dòng)物視頻目標(biāo)檢測(cè)數(shù)據(jù)集,為MR-VOD方法的有效性驗(yàn)證提供了數(shù)據(jù)支持。試驗(yàn)表明,本研究方法性能相對(duì)于現(xiàn)有的光流或語(yǔ)義為主的視頻目標(biāo)檢測(cè),更適用于林區(qū)復(fù)雜環(huán)境下的野生目標(biāo)紅外視頻檢測(cè),準(zhǔn)確率總體提高9. 32個(gè)百分點(diǎn),其中在川金絲猴類(lèi)別的檢測(cè)上明顯提高(30. 79個(gè)百分點(diǎn))。在選取測(cè)試的視頻中也可以看到,針對(duì)非正面目標(biāo)、環(huán)境影像下的偽裝目標(biāo)與多目標(biāo)遮擋,本研究的方法均表現(xiàn)良好。

實(shí)現(xiàn)野生動(dòng)物精準(zhǔn)檢測(cè)不僅是學(xué)術(shù)研究意義上的挑戰(zhàn),更是野生動(dòng)物保護(hù)邁向智能化必不可少的一步,在未來(lái)的研究中,將進(jìn)一步完善數(shù)據(jù)集,擴(kuò)充場(chǎng)景,實(shí)現(xiàn)復(fù)雜環(huán)境下更廣泛、更準(zhǔn)確的野生動(dòng)物檢測(cè),為野生動(dòng)物自然保護(hù)智能化體系的建設(shè)提供更為堅(jiān)實(shí)的技術(shù)支持。

主站蜘蛛池模板: 久久综合九九亚洲一区| 亚洲视频影院| 国产麻豆精品在线观看| 国产美女免费网站| 免费在线视频a| 青草视频免费在线观看| 国产成人高精品免费视频| 国产无码制服丝袜| 热99精品视频| 国产精品99一区不卡| 国产成人精品免费av| 精品福利国产| 免费又黄又爽又猛大片午夜| 国产你懂得| 国产精品久久久久久久久久久久| 无码高潮喷水在线观看| 亚洲 欧美 日韩综合一区| 一级看片免费视频| 欧美激情第一欧美在线| 国产成人调教在线视频| 久久中文无码精品| 日韩av无码精品专区| 黄色网站不卡无码| 国产尤物视频在线| 亚洲手机在线| 97一区二区在线播放| 日韩欧美色综合| 在线永久免费观看的毛片| 久久综合五月| 国产香蕉在线| 一区二区三区高清视频国产女人| 免费一看一级毛片| 高清乱码精品福利在线视频| 免费jizz在线播放| 中国国产高清免费AV片| 丁香五月婷婷激情基地| 伊人精品视频免费在线| 国产丰满大乳无码免费播放| 久久人体视频| 九九九久久国产精品| 国产jizzjizz视频| 99在线观看国产| 国模极品一区二区三区| 中文字幕调教一区二区视频| 欧美一区二区人人喊爽| 日韩精品免费一线在线观看| 国产丰满成熟女性性满足视频| 日韩A∨精品日韩精品无码| 黄色免费在线网址| 久久国产乱子| 99久久精品久久久久久婷婷| 精品一区二区久久久久网站| 99成人在线观看| 国产亚洲高清视频| 激情无码字幕综合| 精品一區二區久久久久久久網站| 亚洲精品国产成人7777| 免费在线成人网| 国产一区二区精品福利| 亚洲精品自在线拍| 国内丰满少妇猛烈精品播| 91精品网站| 浮力影院国产第一页| 丝袜高跟美脚国产1区| 国产1区2区在线观看| 91精选国产大片| 国模私拍一区二区三区| 欧美日本中文| 无码精油按摩潮喷在线播放| 国产一区二区免费播放| 国产九九精品视频| 欧美日韩在线成人| 91偷拍一区| 2020国产在线视精品在| 亚洲啪啪网| 婷婷丁香色| 九九久久精品免费观看| 伊人色天堂| a免费毛片在线播放| 亚洲综合专区| 性网站在线观看| 美女被操91视频|