基于光流注意力網絡的梅花鹿攻擊行為自動識別方法

2022-11-03 10:42:20侯鵬飛熊家軍許學林

農業機械學報 2022年10期

關鍵詞：特征

高云侯鵬飛熊家軍許學林陳斌李康

(1.華中農業大學工學院，武漢 430070； 2.生豬健康養殖協同創新中心，武漢 430070；3.華中農業大學動物科技學院，武漢 430070)

0 引言

人工集約化養殖梅花鹿作為我國一種半馴化的特種經濟動物，其鹿茸有著極高的藥用價值[1]。雄性梅花鹿在發情期間，攻擊行為發生次數劇增，極易造成鹿茸損傷，打斗激烈時，還會造成鹿只傷殘，甚至死亡，給鹿業養殖戶造成巨大的經濟損失[2]。目前實際生產中，主要依靠人工觀察鹿只的攻擊行為并進行人為干涉。人工觀察攻擊行為費時費力，難以實現長時間監控，且容易漏判，不適合大規模采用。

近年來，機器視覺技術在動物動作監測和識別領域得到長足的發展。在傳統攻擊行為識別算法研究中，支持向量機(SVM)和聚類算法等模式識別方法被用于區分畜禽攻擊行為。改進SVM算法區分生豬攻擊行為正確率[3]達到95.70%[4]、97.50%[4]、97.60%[5]。SVM算法也被用于區分鹿的采食行為，正確率為90.00%[6]?；诜謱泳垲惛倪M生豬攻擊行為識別算法正確率達85.43%[7]，高度攻擊行為識別正確率達95.80%[8]、97.04%[9]，中度正確率能夠達92.30%[8]、95.82%[9]。聚類算法中的K-means算法可實現種雞打斗、采食、飲水、交配、振翅等行為的識別，正確率達84.03%[10]。此外，也有學者選用線性分類器，即采用線性混合模型實現生豬攻擊行為識別，正確率為73.90%和89.00%[11]。隨著神經網絡和深度學習的高速發展，其在動物行為識別研究中的應用也成為近年來的熱點[12-16]。

注意力機制于20世紀90年代初次被引入傳統機器視覺。2014年后，注意力機制與深度學習相結合在工業和農業上都得到了較好應用[17]。注意力機制中自注意力和軟注意力應用廣泛。自注意力也稱為內部注意力，目的是計算序列的表達形式。軟注意力更關注區域或通道，包含空間域、通道域和混合域(融合空間和通道)等類別。在相關研究中[18-23]，注意力機制被加入到深度網絡，分別應用于圖像中的目標識別、圖像分割和視頻中的表情識別，與未加入注意力機制的網絡對比，注意力機制能夠提取重點特征，明顯提升網絡識別的正確率。如果將注意力機制加入到動作和行為識別網絡，將會有效提升重點特征的提取，使識別效果更好。

梅花鹿的攻擊行為特征相比其它動物有其特殊性，如常采用鹿角或鹿蹄等部位進行攻擊。在行為識別算法的研究中需要專門針對其特點研究可行的識別網絡。本文結合光流法和注意力機制，在長期循環卷積網絡(Long-term recurrent convolutional networks， LRCN)[24]的基礎上進行改進，研究梅花鹿行為的分類算法，行為包括攻擊、采食、躺臥和站立等，其中攻擊行為包括角斗、腳踢等特有攻擊性行為動作。本文基于該算法設計鹿只行為自動識別系統，以實現各項行為在線自動監測和記錄。

1 數據采集與數據集構建

1.1 數據采集

試驗數據采集于2020年11月20日至2021年3月10日，采集地點為湖北省某鹿業有限公司。試驗圈舍尺寸為30 m×12 m(長×寬)，其中休息區96 m2、活動區264 m2，外墻高2.2 m。圈舍中設料槽，圈內飼養 5～6歲齡、體況相近的42頭雄性梅花鹿。試驗對接種了KISS1-GnRH雙表達DNA去勢疫苗的雄性梅花鹿的攻擊行為進行了測試，42頭雄性梅花鹿隨機均分為2組，一組進行疫苗肌肉注射(試驗組)，另一組不做處理(對照組)，關于該疫苗試驗內容另撰文描述[25]。

視頻采集選用?？低暰W絡紅外攝像頭(3T56WD-I3型)，鏡頭采用8 mm焦距，F1.6定焦光圈鏡頭。攝像頭通過網線連接到服務器，安裝MySQL數據庫服務器(MySQL 8.0.24，MySQL AB公司，瑞典)，同時連接移動硬盤(WDBU6Y0050BBK-WESN 4TB，西部數據，美國)，服務器可通過瀏覽器對攝像頭和數據進行訪問。采集圖像尺寸為2 560像素×1 920像素，幀率為4 f/s，以avi格式存儲于移動硬盤。

由于梅花鹿圈舍分為休息區和活動區兩部分，為了獲取梅花鹿白天主要的活動，試驗期間攝像頭選擇安裝在鹿只主要活動區域，即活動區一角，可以俯視拍攝到院內鹿只所有活動。攝像頭安裝位置距圈舍圍墻水平距離6 m，距地面高度約8 m，以俯視15°拍攝，水平視場角為37.5°，垂直視場角為27.8°，對角線視場角為47.5°。為了方便進行每日對比，試驗拍攝時間為07:00—18:00，以采集鹿只白天院內所有活動。

1.2 雄鹿攻擊行為定義

雄鹿在發情期間，攻擊行為發生次數劇增。鹿只在進食時，會頻繁用角頂撞其他鹿只的身體；在站立時，會發生角斗，即鹿只用鹿角撞擊另一只鹿的角。攻擊期間，鹿只間會前腳互踢，或一只鹿用前腳踢另一只鹿的身體。攻擊末期，還會發生追逐行為。根據攻擊發生的部位和發生的階段將鹿只的攻擊性行為細分為撞擊、腳踢、追逐。同時，本文為區分鹿只的攻擊行為和非攻擊行為，將非攻擊行為細分為采食、躺臥、站立，各行為的細分說明如表1所示。

表1 鹿行為定義Tab.1 Definition of deer’s behavior

1.3 數據集制作

梅花鹿RGB行為數據集采用行為優先級(Attacking precedence，AP)的方法制作，優先標注攻擊行為，其次標注采食、站立和躺臥等行為。由于梅花鹿是群居動物，一般表現出群體性行為，而攻擊行為發生在不少于兩只鹿只之間的小群體性特異行為，持續時間較短，并且通常發生于采食、站立和躺臥行為中，采用AP法標注有助于訓練模型提高對攻擊行為的識別正確度。本研究中采用該方法分別對試驗組和對照組截取圖像的行為進行標注，網絡模型優先對視頻段中的攻擊行為進行學習。標注鹿群其他日常行為時，多數鹿只同時發生的行為標注為該群體性行為。由于視頻鄰幀間，鹿只運動幅度較小，所以以1 f/s截取視頻幀。標注結果如圖1所示。上一行為視頻中直接截取的圖像幀，下一行為圖像幀放大后的行為圖像。本次試驗共標注視頻10 942段，共310 574幀，標注時長5 175.95 min。

圖1 鹿的行為幀Fig.1 Frames of deer’s behavior

針對鹿只運動時身體的變化，采用LK光流算法(Lucas kanade optical flow algorithm)進行識別，這是一種計算相鄰圖像幀鹿只運動所產生像素點變化的計算方法。用此方法制作光流數據集，并按照3∶1∶1隨機劃分為訓練集、驗證集和測試集，如表2所示。

表2 光流數據集劃分Tab.2 Division of optical flow dataset

2 行為攻擊識別算法

2.1 算法設計

梅花鹿攻擊行為相比其它動物有其特殊性，如常采用鹿角或鹿蹄等部位進行攻擊。為了區分鹿只攻擊行為與非攻擊行為，解決鹿只之間的遮擋問題，提升視頻識別效率和正確率，在算法中加入光流算法和注意力機制。設計光流注意力網絡(Optical flow attention attacking recognition network， OAAR)，改進攻擊行為監測網絡來對攻擊行為和其它行為進行識別，該網絡包括前置網絡、基礎網絡和時序網絡。前置網絡由LK光流算法組成，提取RGB數據光流信息；基礎網絡采用自注意力模塊將ResNet-152網絡改造為ARNet152(Attention ResNet-152)，用于將RGB、光流數據集提取特征后輸入時序網絡；時序網絡采用添加注意力模塊的長短記憶序列(Attention long short term network，ALST)，并通過分類器輸出行為得分和分類結果。

2.1.1前置網絡

觀察鹿只日常情況可知，相比于背景鹿只的運動，發生攻擊行為的鹿只前后幀圖像變化較激烈。為了從背景中提取鹿只，并區分攻擊行為與非攻擊行為，在前置網絡中設計LK光流算法，計算鹿只相鄰圖像幀(圖2中相鄰的3幀圖像)之間光流數據V。提取光流信息前，先排除圖像不清晰、場景光線暗，或有拖尾的行為幀，共排除435個。將剩余文件接入前置網絡接口后，根據鹿只行為發生時身體上重點發生變化的位置，計算兩幀之間光流V關于X、Y兩個方向的信息。

IxVx+IyVy+It=0

(1)

式中Ix、Iy、It——圖像中像素點灰度關于X、Y、T方向偏導數

Vx、Vy——X、Y方向光流向量

圖2 光流提取過程示意圖Fig.2 Extracted optical flow

結合相鄰m×m范圍內的像素點，采用最小二乘法計算出最終光流信息，并保存光流幀，如圖2中Flow_X幀和Flow_Y幀。將X、Y方向光流信息結合生成輸出矢量V并在前一幀圖像上顯示，即圖2中LK Flow幀。將LK Flow幀放大后，黃色點(圖2右圖中小圓點)表示像素起始位置，引出線表示像素點的光流方向。可以直觀看到，RGB幀經前置網絡處理后，輸出的光流幀能夠捕獲到運動的鹿只。由此可知，LK光流法能夠關注行為的位置變化，忽略計算背景光流信息，有效節約制作光流數據集的時間成本。

2.1.2基礎網絡和時序網絡

為了快速提取攻擊行為特征信息，如攻擊行為發生時鹿角、鹿蹄等位置變化，減少背景等非行為特征計算，節省網絡計算成本，從而提升視頻識別的效率和正確率，在基礎網絡和時序網絡中引入了注意力機制?；A網絡和時序網絡在長期遞歸卷積網絡(Long-term recurrent convolutional networks， LRCN)[24]的基礎上針對鹿的攻擊行為進行改進和搭建(圖3a中基礎網絡和ALST)。長期遞歸卷積網絡是一種將卷積神經網絡和長短時序網絡相結合的網絡，能夠提取序列視頻或圖像特征，并預測目標動作信息。基礎網絡負責計算RGB、光流數據集中的行為特征值；時序網絡基于長短記憶序列建模時序信息，并輸出得分；最終通過分類器按特征權重的差異分類，輸出攻擊、采食、躺臥和站立4種行為得分。

由于網絡訓練長視頻時，隨著時間維變化會遺忘最初的行為信息，所以本文通過ALST提取行為時序信息。輸入數據集視頻幀尺寸為320像素×240像素，每段視頻選取首尾2幀以及中間隨機的3幀進行訓練。對數據集中每一段RGB幀、光流幀進行transformer處理后，尺寸裁剪為3×224×224和2×224×224(深度×幀長×幀寬)，并通過pytorch框架的dataloader接口分別傳入基礎網絡中，調用forward函數進行訓練。

圖3 OAAR結構示意圖Fig.3 Structure diagram of OAAR

基礎網絡由空間網絡(Spatial ARNet152)和時間網絡(Temporal ARNet152)構成。RGB幀和光流幀分別經過由ARNet152搭建的空間網絡和時間網絡提取特征權重，并將權重傳入ALST網絡。ARNet152在ResNet152網絡基礎上插入自注意力卷積模塊[26](Attention key)，即自注意力卷積模塊替換ResNet152中的3×3卷積鍵，自注意力模塊可建模動、靜態上下文信息，提取鹿只攻擊行為特征，提高鹿只行為識別的精度，如圖3b所示。ARNet152網絡中，數據先經過3個卷積核為3×3的卷積鍵卷積計算，第1個2Dconv步長為2，其余卷積層步長為1，填充像素(padding)均為(1，1)。卷積鍵(Convolution key)包含1層2Dconv卷積層、1層GN(Group normalization)層、1層ReLU層，卷積層左邊綠色框為通道數，右邊橙色框為特征圖輸入、輸出尺寸。數據依次經過包含3、8、36、3個Bottleneck的殘差塊(Blocks)提取特征權重。經過4個循環提取特征后，通過自適應池化層(AvgPool)輸出3×1×1特征圖，并輸入ALST網絡中。第1至第4循環的第1個Bottleneck的自注意力卷積模塊和下采樣步長均為2，填充像素均為(1，1)，以減少輸入參數量，防止參數太多數據爆炸。Bottleneck由主路徑(main path)和捷徑(shortcut)組成。主路徑包括2個1×1 conv卷積鍵和1個自注意力卷積模塊。自注意力卷積模塊輸入的特征值X重新定義為Key Map、Query和Value Map 3個值。先將Key值進行3×3卷積，輸出靜態上下文建模矩陣K1。融合計算K1和Query值后，進行2次1×1卷積計算，輸出動態上下文Attention矩陣。經Attention矩陣與Value值卷積計算后，由Softmax輸出自注意力特征值Y。每個循環中第1個Bottleneck的捷徑由1個1×1 conv卷積鍵構成(圖3b虛線框)，實現對數據降維，輸出維度即卷積鍵通道數，其余捷徑(圖3b實線框)不經過降維，直接將主路徑輸入數據與輸出結果相加，blocks下的數字表示循環次數。

ALST網絡由2層512個LSTM單元組成的時序結構和1層注意力機制層組成，注意力機制層計算公式為

(2)

式中at——源端對齊位置(aligned position)向量

ht——decoder隱狀態

hs——源端隱狀態

align()——對齊函數

每個LSTM單元由輸入門、遺忘門和輸出門構成，實現對數據特征時序信息的提取計算，注意力機制層的作用是為了減少遺忘門遺忘量。時序信息建模完成后輸入分類器。分類器(Classifier)由1層全連接層和1層softmax層構成，將雙流信息融合計算后，對不同類別的特征權重分類，最終輸出4類行為得分。

OAAR網絡的主要改進包括：①加入前置網絡。前置網絡由LK光流算法提取前后幀中的動作形成光流數據幀，增強后續網絡輸入的運動信息，減少背景的影響。②用自注意力模塊替換ResNet152網絡中殘差結構的3×3卷積鍵，同時用GN層替換BN層，加上ReLU層和dropout層組成新的殘差結構。自注意力模塊可建模動、靜態上下文信息，提取鹿只攻擊行為特征，提高鹿只行為識別的精度。③LSTM層中間插入注意力機制層，減少LSTM單元中遺忘門的遺忘量，改進時序網絡，加強對時序信息的提取。除了對網絡結構進行改進外，本文在網絡訓練方式中也進行了改進，每段訓練樣本視頻選取首尾2幀以及中間隨機3幀進行訓練，突出行為視頻中關鍵動作特征的提取，同時節省網絡訓練成本。

2.2 網絡參數設置

2.2.1損失函數設置

OAAR結合雙流信息得分通過標準分類交叉熵損失(Cross-entropy loss)得到損失函數。采用交叉熵損失函數的優勢在于，輸出值和真實值的差值僅與最后一層權重梯度成正比，能夠加快網絡收斂速度。同時，網絡反向傳播的連乘計算，會加快更新整個權重矩陣。另外，多分類交叉熵損失函數求導更易求解，其損失率僅與正確類別的概率相關，降低了網絡的計算量。損失函數公式為

(3)

式中yi——類別i的真實值

C——總類別數L——損失函數

2.2.2網絡參數初始化

網絡訓練平臺使用64位ubantu18.04系統，搭建GPU版pytorch框架，采用單GPU(GeForce GTX 1080 12GB，NVIDIA，美國)進行訓練。網絡采用隨機梯度下降法 (SGD) 作為優化器，動量設為0.9，能夠有效抑制振蕩，加快收斂速度。批量大小(Batch size)設為8,批量大小過小會導致訓練速度太慢，過大會導致顯卡占用內存溢出。迭代周期(Epoch)設為100，初始學習率設為1×10-3，Dropout設為0.8，增加迭代次數，降低學習率，能夠使網絡輸出模型識別效果更精確，提升訓練速度。但網絡訓練到一定程度時，模型趨于飽和且學習停滯，所以在第30和第60個迭代周期，學習率為原來的1/10。

3 結果與分析

3.1 模型訓練過程分析

為解決網絡深度增大時魯棒性差的問題，在正式訓練前，先預訓練OAAR網絡。將空間網絡加載ImageNet預訓練權重初始化網絡，輸出空間網絡權重后，時間網絡加載該權重完成初始化訓練。采用pytorch自帶tensorboardX記錄模型訓練過程，模型正確率和損失值如圖4所示。由于設置訓練迭代次數到達第30和第60個迭代周期時，學習率下降至原來的1/10，所以在第30個迭代周期時，正確率出現大幅增加，損失值大幅減?。辉诘竭_第60個迭代周期前訓練集正確率和損失值逐漸趨于穩態；第60個迭代周期后，訓練集正確率繼續小幅提高，損失值小幅下降。驗證集驗證過程中的正確率、損失值和訓練集對應的值貼合較好，較為近似。在模型中適當調低學習率有助于網絡加快學習速度和對特征點細節的繼續學習。最終得出OAAR網絡模型在訓練集上正確率為99.16%，損失值為0.026 4，在驗證集上正確率為97.91%，損失值為0.061 2。

圖4 OAAR網絡識別正確率和損失值Fig.4 Recognition accuracy and loss value of OAAR

3.2 行為識別評價指標與結果

采用正確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1值(F1 score)[15]作為評價模型性能的指標。

正確率常被用于評價鹿只所有行為識別正確的比重，但當樣本不平衡時，僅依靠正確率不能正確評價模型。因此采用召回率、精確率和F1值對模型進行綜合評價。PR曲線中的平衡點(BEP)對應F1值的計算結果，表示模型的綜合性能。

測試集中每類行為包含500段視頻，合計2 000段視頻，其中共1 949段視頻被正確識別，51段視頻未能被正確識別，OAAR網絡混淆矩陣如圖5所示。模型對攻擊、采食、躺臥、站立行為識別精確率分別為96.00%、96.60%、100%、97.20%。

圖5 OAAR分類結果混淆矩陣Fig.5 Confusion matrix of OAAR

由圖5可知，攻擊行為的精確率較其它3種行為略低。原因可能是：①鹿只嚴重重疊或遮擋時，識別較為困難。部分視頻幀中出現鹿只之間嚴重重疊、遮擋問題，如鹿只的頭部、腳部被其他鹿只或樹等物體全程遮擋時，模型未能檢測到鹿只攻擊動作。②攻擊行為發生時間極短時難以識別。當鹿只攻擊行為持續時間太短，部分視頻只持續1～2幀攻擊動作，這部分行為較難被模型識別。③發生行為時前后幀圖像變化幅度較小時較難識別。攻擊動作發生的前后兩幀變化幅度很小時，前置網絡難以獲取其動作，模型的注意力在鹿只的其他行為，導致攻擊行為的置信度低于其他行為，所以分類結果輸出為非攻擊行為。

從特征可視化角度驗證OAAR網絡識別效果，如圖6所示。圖中第1行為測試集中隨機選取的一段連續的攻擊行為幀，第2行為通過網絡最后一層卷積操作輸出的特征可視化結果，第3行在第2行基礎上通過特征注意力機制生成熱力圖，顏色越偏近暖色表示攻擊動作越激烈。從熱力圖中可以觀察到，高亮部分集中在發生不同程度攻擊行為的3個區域。因此，驗證了自注意力模塊能夠有效識別鹿只攻擊行為。

圖6 特征可視化Fig.6 Feature visualization

將網絡最后1層特征映射在二維空間，如圖7所示。圖中每個點代表測試集的1段視頻，每個行為類別采用一種顏色表示，類別A(攻擊)、F(采食)、L(躺臥)和S(站立)特征映射點分別采用紅色、綠色、藍色、紫色表示，圖7中不同行為分別聚集于4個角，攻擊行為與躺臥、站立、采食有很少量混雜，且每種行為自身的聚集度較高。特征嵌入圖說明了OAAR網絡對攻擊、采食、躺臥和站立行為類別的區分度較高。

圖7 特征嵌入Fig.7 Feature embedding

圖8 ROC曲線Fig.8 ROC curve

4種行為的受試者特性(ROC)曲線如圖8所示。ROC曲線均位于隨機猜測線左上方，曲線距左上角越近，顯示分類結果越準確。采用宏平均和微平均綜合評價網絡分類性能。宏平均先計算每類行為ROC值，再計算算術平均值；微平均先計算所有類真正率和假正率的平均值，再作ROC插值。從圖8可知，采食、躺臥和站立行為接近理想指標，即對某類識別效果極好，攻擊行為趨于理想指標，各分類的曲線下方面積(AUC)均趨于1。綜上所述，OAAR能夠對各類行為進行較好的識別和分類。

3.3 不同網絡對比分析

為了驗證OAAR網絡對梅花鹿行為識別的有效性，選取長短時記憶網絡(Long short term memory network，LSTM)[27]、雙流I3D網絡(Two-stream inflated 3d convNets)[28]和雙流ITSN網絡(Improvement temporal segment network)[29]與OAAR網絡進行對比驗證。LSTM采用decoder和encoder兩個環節配合完成行為識別。雙流I3D網絡采用膨脹3D卷積計算RGB、光流數據特征，利用空間感受野融合時間感受野，實現特征信息識別和分類。雙流ITSN基于長范圍時間建模，在原本TSN網絡的基礎上替換2D卷積為3D卷積。用視頻數據集分別訓練各網絡，并將各網絡在測試集上的識別結果與本文中的OAAR網絡的分類結果進行對比分析。結果如表3所示，各網絡模型正確率分別為82.65%(LSTM)、84.33%(雙流I3D)、96.80%(雙流ITSN)和97.45%(OAAR)。

表3 當前常用網絡模型比較Tab.3 Comparisons with state-of-the-art results

由表3可知，OAAR識別單個視頻的平均時間明顯短于LSTM、雙流I3D和雙流ITSN。由于雙流I3D網絡基于3D卷積的InceptionV1網絡提取特征[28]，網絡的參數量和浮點運算次數劇增，同時識別單個視頻的時間也會增加。雙流ITSN網絡中，采用視頻分段的形式訓練模型網絡[29]，并使用Resnet3d-50作為提取特征的基礎網絡，基礎網絡中的殘差結構能夠有效降低實際訓練的參數量和浮點運算次數，同時提升網絡的識別正確率。LSTM的基礎網絡采用傳統2D卷積的CNN網絡[27]，提取單幀圖像特征后，傳入LSTM單元中關聯前后行為特征信息，參數量和浮點運算次數在4種網絡中最小，但由于基礎網絡沒有提取到有效的攻擊行為特征，該網絡的識別正確率較其他網絡略低。在OAAR網絡中，基礎網絡基于注意力機制模塊和殘差結構搭建的ARNet152，側重提取鹿角、鹿蹄等攻擊行為特征，同時時序網絡中的注意力機制能夠有效減少遺忘門的遺忘量，從而提高了視頻行為識別的效率和正確率，驗證了注意力機制的有效性。

表4分別列出了4種網絡對測試集識別的結果，OAAR精確率為97.45%，召回率為97.46%，遠高于LSTM精確率(82.65%)、召回率(83.65%)和雙流I3D精確率(86.57%)、召回率(86.58%)，略高于雙流ITSN精確率(96.81%)、召回率(96.74%)。相比于LSTM網絡、雙流I3D網絡和雙流ITSN網絡，OAAR網絡主要從4方面優化了其性能：①前置網絡提取了行為隨時間變化的動作特征。前置網絡提取鹿只身體的位置變化，抑制背景噪聲的影響。通過訓練雙流網絡后，取空間和時間網絡輸出得分的均值，有效提升網絡行為識別的準確度。②自注意力模塊使發生攻擊行為的鹿只更加突顯。由于在基礎網絡中使用自注意力卷積模塊加工動、靜態上下文信息，提取鹿只攻擊行為特征，較大提升了鹿只攻擊行為識別正確率。③殘差結構能夠獲取更多行為特征信息。殘差結構保留了更多的低層特征信息，在網絡加深的過程中，有效避免了過擬合、梯度爆炸和消失等問題，加快網絡訓練進程。④每段視頻選取首尾2幀以及中間隨機的3幀進行稀疏訓練。為避免行為視頻過長時導致重要行為特征削弱的現象，每段視頻選取首尾2幀以及中間隨機的3幀進行訓練，以便在訓練過程中突出視頻中的關鍵動作特征，節省訓練成本。

表4 各模型性能統計Tab.4 Performance statistics of models %

用精確率-召回率曲線直觀比較4種網絡識別效果，如圖9所示。點A、B、C、D為4種網絡的精確率-召回率曲線的平衡點，對應各網絡的F1值。圖9中， OAAR網絡的平衡點D高于點A、B、C，說明OAAR網絡識別效果優于LSTM網絡、雙流I3D網絡和雙流ITSN網絡。

圖9 精確率-召回率曲線Fig.9 Precision-recall curves

圖10 鹿只行為自動識別系統Fig.10 Sika deer behaviors’ automatically recognition system

4 模型部署及應用

基于OAAR網絡搭建的鹿只行為自動識別系統如圖10所示。該系統采用攝像頭獲取視頻上傳至服務器，后端框架調用服務器中部署的OAAR網絡模型，計算視頻鹿群中是否發生包括攻擊、采食、站立、躺臥行為，并進行置信度打分，并將鹿群中發生的行為打上時間戳存儲在服務器中的MySQL數據庫中，相關信息可通過網頁發布，并供用戶遠程訪問。

5 結論

(1)新增了前置網絡提取光流數據。前置網絡采用LK光流算法計算光流數據幀，提取前后幀中鹿只身體位置的變化，抑制背景噪聲的影響。其輸出的光流數據幀與RGB數據幀共同作為基礎網絡的輸入數據，進一步加強了行為特征，削弱了背景噪聲，試驗證明了本文方法能夠有效解決行為被遮擋的問題。

(2)將注意力機制分別加入基礎網絡和時序網絡。基礎網絡中將自注意力卷積模塊替換為ResNet152中的3×3卷積層，分別加工動、靜態上下文信息。時序網絡在2層LSTM層中加入注意力機制層，減少LSTM單元中遺忘門的遺忘量，提升網絡處理時序信息的能力。

(3)OAAR網絡在測試集上的識別正確率高達97.45%，高于LSTM正確率(82.65%)、雙流I3D正確率(84.33%)和雙流ITSN正確率(96.80%)。OAAR精確率和召回率也分別優于其它3個網絡。受試者特性曲線和特征嵌入圖均顯示了OAAR網絡具有較好的區分性、泛化和抗干擾能力。

(4)集成OAAR網絡的鹿只行為自動識別采集系統實現了梅花鹿行為的自動識別功能，為提高梅花鹿養殖生產管理水平和生產效率提供了可行的途徑。