陶晶, 吳浩*, 金鐘楊, 倪之昊
(1. 四川輕化工大學自動化與信息工程學院, 自貢 643000; 2.四川輕化工大學人工智能四川省重點實驗室, 自貢 643000)
當今社會,整體環境和諧穩定,但是入室盜竊、搶劫等案件仍然時常發生,對社會治安以及公民的人身、財產安全造成了極大危害。因此,為居民的財產和個人安全以及城市的生產、生活提供更智能化的安全保障服務成為當前“智慧城市”建設的重點方向之一[1]。伴隨深度學習技術與計算機硬件技術的發展,智能監控系統[2]開始進入大眾視野。智能監控系統將會根據監控場景的需要,自動檢測可疑目標和異常事件并報警,可以在異常事件發生的第一時間做出應對措施,具備在無人值守的情況下將警情實時地傳送到用戶手中的能力。與傳統監控技術相比,智能監控技術不僅節省人力,而且避免了監控人員因不專心、疲勞等因素導致對關鍵信息的錯判、漏判,大大提高監控效率[3]。但是現有的智能監控系統多適用于學校[4]、機場[5]、電網基地[6]等大型場所,對私人住宅不具備普適性。同時,由于庭院式住宅具有防護面積大、位置偏僻等特點,往往會成為不法分子入侵盜竊的首選目標。因此,研究可應用于庭院式住宅的智能監控技術、周界入侵檢測技術有著極其重要的意義。
現有周界入侵檢測技術[7]主要是通過傳感器感應來判斷是否有入侵行為發生,有激光對射技術、紅外對射技術、振動光纖[8-10]、電子圍欄等技術。 但是,由于傳感器在復雜的戶外環境下收發信號時容易被噪聲干擾,導致誤報率過高,如雨霧天氣、樹木陰影遮擋、飛鳥等活體動物穿越等。隨之,將傳感器與深度學習技術結合進行入侵檢測成為潮流。Shahid等[11]提出一種將傳感器與面部識別算法相結合的入侵檢測方法。該方法通過由運動、聲吶、聲音傳感器組成的輸入單元捕捉信號,一旦檢測到人,立即打開安裝在輸入單元上的攝像頭進行拍照并通過面部識別單元來檢測已知(家庭成員或傭人)和未知的人臉,當檢測到未知人臉時就會向用戶發出警報,有效減少了誤報率并可準確檢測入侵事件。Taiwo等[12]基于Android開發了一套智能家居自動化系統,提出將運動傳感器與深度學習模型(convolutional neural networks,CNN)結合來進行檢測、分類并向用戶通知家庭環境中是否存在人類或其他物體,有效防止了入侵行為的發生,同時最大限度地降低系統的誤報率。但是上述系統仍然存在安裝及維護成本過高的問題,且隨著人工智能的飛速發展,人們還是傾向于只使用一個攝像頭進行住宅入侵檢測。
目前,面向庭院式住宅的周界入侵檢測技術存在如下難點:一是由于防護面積大,視頻遠景監控中待檢測目標較小導致算法檢測精度較低;二是如何在視頻監控中界定警戒區域并判定入侵行為的發生。
針對上述問題,現提出一種基于改進YOLOv5的周界入侵綜合識別算法,根據監控范圍內人員穿戴與所持工具是否異常的檢測結果對潛在入侵行為進行有效判斷;另外,應用點與線位置判斷方法設計一種人員入侵警戒區域自動檢測方法,提高入侵檢測靈敏度,并一定程度上避免在入侵行為判斷過程中造成的誤檢現象。
針對庭院式住宅周界入侵識別技術存在的難點,結合實際安防需求,提出一種綜合識別算法,將識別內容分為兩部分:應用改進YOLOv5算法對人員是否存在異常穿戴、持有異常工具進行檢測;結合點線法對人員的入侵行為進行檢測。
識別流程如圖1所示。首先對進入監控范圍內的人員進行初步檢測,判斷其是否存在異常穿戴與持有異常工具等情況,檢測到異常即判定為異常目標;若未檢測到異常,則繼續獲取檢測到人員(Person)的預測框中心點坐標與圍成警戒區域的多條直線進行位置關系判斷,并持續此過程,監測其是否存在入侵行為。

圖1 周界入侵綜合識別流程Fig.1 Integrated perimeter intrusion identification process
針對YOLOv5在復雜的戶外場景下對小目標檢測精度較低、漏檢率較高等問題對原網絡做如下改進:在Backbone中引入自注意力卷積模塊ACmix(a mixed model that enjoys the benefit of both self-attention and convolution);在Neck部分,使用加權雙向特征金字塔網絡(bi-directional feature pyramid network,BiFPN)替換PANet(path aggregation network);最后,使用Alpha-IoU(alpha intersection over union)替代GIoU(generalized intersection over union)作為定位損失函數。
1.2.1 自注意力卷積模塊ACmix
本文算法主要應用于室外環境,需要從復雜的背景信息中提取出異常目標的特征信息并過濾無關信息。另外,在視頻遠景監控中待檢測目標尺寸一般較小,由于小目標占據像素較少,極易出現在深層網絡中丟失特征信息的情況,導致漏檢、錯檢,影響模型整體的檢測精度。研究表明合理利用注意力機制可以幫助網絡在提取特征時重點關注目標區域,在特征提取過程中對其進行二次校準,使網絡更聚焦于目標的位置信息,提高對小目標檢測的能力。
文獻[13]證明了卷積(convolution)與自注意力機制(self-attention)之間存在強大的潛在聯系,即這兩種強大的特征學習技術的大量運算實際上可以通過相同的操作完成:先將卷積層分解,再進行移位求和。提出將卷積與自注意力機制集成為一個混合模型ACmix,相比于純卷積或自注意力機制而言,在帶來更大增益的同時具有更小的計算量。在主干網絡中引入ACmix,靈活運用傳統卷積與自注意力機制的優點,使網絡在特征學習過程中獲得更大的感受野與上下文信息,在盡可能捕獲更多特征信息的同時區分目標與背景。
如圖2所示,ACmix包括特征學習與特征聚合階段,在學習階段,輸入特征由3個1×1卷積投影并分別重塑為N個特征片段,以此獲得一組包含3×N個特征圖的中間特征集;在聚合階段,自注意力路徑將中間特征集合成N組,每組包含3個特征,對應3個特征映射作為查詢(query)、健(key) 和值(value),遵循自注意力模塊方式收集信息;對于大小為K×K的卷積路徑,采用輕量級的全連接層生成K2個特征圖,通過移動與聚合生成新的特征,將輸入特征進行卷積處理,并采用傳統方法收集在局部感受野中獲得的信息。

H、W、C分別為特征圖的高度、寬度以及通道數圖2 ACmix模塊結構Fig.2 The structure of the ACmix model
最后,將兩個階段的輸出相加,并通過可學習的標量α與β控制權重,得到ACmix的最終輸出,表達式為
Fout=αFatt+βFconv
(1)
式(1)中:Fatt為自注意力路徑的輸出;Fconv為卷積路徑的輸出;Fout為最終輸出。
1.2.2 加權雙向特征金字塔網絡BiFPN
YOLOv5的Neck部分采用PANet結構對特征圖進行融合,通過給單向結構FPN增加一個額外的路徑聚合網絡,解決了FPN受單向信息流限制的問題。但是,網絡在對輸入特征進行多尺度融合時只進行了簡單的特征相加,并未區別不同輸入特征的分辨率以及不同尺度特征層在融合輸出特征時所做的貢獻。文獻[14]提出了一種全新的特征金字塔網絡BiFPN,通過引入可學習的權重使網絡學習不同輸入特征的重要性分布,有效解決了上述問題,使網絡在進行更加簡單快速的多尺度特征融合的同時還擁有不錯的性能。因此,將YOLOv5原有的PANet結構替換為BiFPN,將輸入特征在深淺層之間進行雙向融合,增強不同網絡層之間特征信息的傳遞,從而提升網絡對異常目標的檢測精度,其改進如圖3(c)所示。

P3~P7為骨干網絡中的第3~7層圖3 特征融合網絡設計Fig.3 The feature fusion network design
BiFPN的主要思想是有效的雙向交叉尺度連接和加權特征融合。通過刪除只有一條輸入邊的節點,將網絡進行簡化,減少不必要的計算量;對于處在同一級別的輸入輸出節點,從原始輸入節點到輸出節點增加額外的邊,以便網絡在不增加太多成本的情況下融合更多的特征;同時將每個雙向路徑(自頂向下和自底向上)視為一個特征網絡層,并多次重復同一層,以實現更高級別的特征融合。使用三層BiFPN作為特征提取網絡進行多尺度特征融合具體過程如圖3(d)所示。
1.2.3 Alpha-IoU損失函數
損失函數被用來衡量模型預測值和真實值的差異程度,極大程度上決定了模型的性能[15]。YOLOv5的損失函數主要由分類損失、置信度損失、定位損失三部分組成。其中,定位損失采用GIoU方法作為損失函數,GIoU的計算公式與損失函數GIoU_Loss的計算公式分別為
(2)
GIoU_loss=1-GIoU
(3)
式中:A為預測框;B為真實框;C為包含A與B的最小凸閉合框。
GIoU解決了傳統IoU方法在使用時出現的邊界框不重合的問題[16],但是GIoU無法區分預測框的相對位置關系,導致在檢測時無法精準定位到效果最佳的預測框;另外,在訓練過程中,GIoU選擇擴大預測框的大小來增大與真實框的交集,最大化兩框之間的重疊區域,會使網絡出現收斂速度變慢等問題[17]。因此,使用Alpha-IoU[18]替代GIoU作為定位損失函數。在性能方面,Alpha-IoU可以顯著地超過現有基于IoU的損失;此外,可以通過調節其Power參數α使檢測器在實現不同水平的box回歸精度方面具有更大的靈活性,且不會引入額外參數,也不會增加網絡訓練、推理的時間,其計算公式[19]為
(4)
Alpha-IoU_loss=1-Alpha-IoU
(5)
式中:α為Power參數;ρ2a(b,bgt)為預測框中心點b與真實框中心點bgt的歐氏距離;d為可以包含預測框和真實框的最小閉合區域的對角線長度;β為trade-off的參數;γ為衡量框的長寬比一致性的參數。
基于視頻的周界入侵檢測技術是指在視頻監控中對目標是否存在入侵行為進行智能分析。具體操作為:在原始圖像上建立像素坐標系并取X點(取4點,坐標由像素寬度值W與像素高度值H構成)形成封閉區域,可根據實際需求對所取點位進行靈活調整,目標進入該區域即視為入侵。常常采用掩膜法、坐標判斷法等作為入侵行為的判斷機制。
掩膜法的原理為:根據檢測區域的4點坐標制作掩膜(Mask)圖并與原始圖像進行拼接,掩膜圖會將不需要檢測的區域全部變黑,因為黑色的RGB值為0,這樣在進行目標檢測的時候就不會對區域以外的目標進行檢測。具體過程如圖4所示,掩膜圖與原始圖像拼接后形成檢測區域,而且區域外的目標不會被檢測。那么,在進行區域入侵檢測任務時,一旦目標被檢測到即可視為目標入侵該區域。

圖4 掩膜法原理Fig.4 The principle of mask method
坐標判斷法的原理為:獲取已被檢測到目標的預測框中心點坐標,與圍成區域的坐標進行范圍對比,進而判斷目標是否進入該區域。如圖(5)所示。
設圍成警戒區域的四線坐標為(p_w1,p_h1),(p_w2,p_h2),(p_w3,p_h3),(p_w4,p_h4);目標預測框的中心點坐標為(x0,y0),當滿足判斷要求:p_w1≤x0≤p_w4∧p_h1≤y0≤p_h4時,目標被視為入侵該區域。
圖4和圖5可以看出,基于掩膜法或坐標判斷法的區域入侵檢測技術均存在缺陷。掩膜法無法檢測警戒區域以外的異常目標,對異常事件的發生無預警機制。例如,無法通過檢測到目標穿戴異常與持有異常工具等先驗條件來預判可能發生的非法入侵事件。坐標判斷法在一定程度上彌補了掩膜法的這一缺陷,但是,由于通過比對坐標確定的判斷區域實際上是原警戒區域的外接矩形,不可避免地將原警戒區域進行了擴大,進而產生了不必要的誤檢率,而且,對于越不規則的區域,誤檢率越高,魯棒性越低。如圖6所示,目標尚未進入警戒區域但是預測框中心點坐標滿足坐標判斷法的入侵條件,從而被誤判為入侵。

圖5 坐標判斷法原理Fig.5 The principle of coordinates judgment method

圖6 圖像像素坐標系下的點線法原理Fig.6 The principle of point-line method in image pixel
針對上述兩種方法存在的問題,提出一種點線式入侵檢測方法,巧妙地將入侵檢測問題抽象成點與多條直線圍成區域的位置關系判斷問題。如圖6所示,點線式入侵檢測方法的步驟原理如下。
步驟1通過設定的四點坐標確定圍成警戒區域的四條直線方程。
步驟2讀取預測框中心點坐標(x0,y0)。
(6)
步驟3根據式(6)對點與區域的位置關系進行判斷。
步驟4重復步驟2和步驟3,持續判斷入侵行為是否發生,直到目標離開監控范圍。
另外,在用算法實現時,對于斜率ki不存在的情況,默認其為一個無窮小的數;在進行點線式入侵檢測判斷時,可以根據實際需求將檢測點靈活調整為預測框4個頂點或各條邊中點等坐標。
2.1.1 數據集準備
由于缺少開源的異常穿戴、工具數據集,通過拍攝、網絡爬蟲獲取到6 000張異常穿戴、工具圖像。在標注階段,將面部被頭套、口罩、面具等異常遮擋的情況標注為“Abnormal wear”;手部所持錨鉤、撬棍、管制器具等異常工具的情況標注為“Abnormal Tool”;此外,為了方便后續進行區域入侵檢測,將目標整體標注為“Person”。標注完成后按照8∶1∶1的比例將所有數據隨機劃分為訓練集、驗證集和測試集,用于模型的訓練以及性能的驗證。
2.1.2 模型訓練與評價指標
使用圖像工作站進行實驗,工作站硬件配置為CPU*2(AMD EPYC 7302 3 GHz)、GPU*3(NVIDIA Ampere A100);訓練時將基礎學習率(learning rate)設置為0.01,訓練輪數(epoch)設置為300,一次訓練所選取的樣本數(batch size)設置為64。以召回率(recall,R)、精確度(precision,P)、平均精確率(average precision,AP)以及平均精確率均值(mean average precision,mAP)作為網絡性能的評價指標。
2.1.3 消融實驗
為驗證對YOLOv5采用3種改進策略的有效性,在相同數據集上設計消融實驗進行縱向對比分析,以網絡平均精確率均值mAP的變化來判斷改進策略是否有效,如表1所示。

表1 消融實驗結果Table 1 The result of ablation experimental
消融實驗結果表明:在Backbone中引入ACmix后,3個檢測類別的AP分別提高了0.4%、0.5%、4.5%,網絡整體mAP提高1.8%,說明引入ACmix后,小目標的特征信息更容易被網絡學習到,網絡對小目標的檢測能力得以提高。在Neck部分疊加三層BiFPN后,3個檢測類別的AP分別提高0.6%、0.3%、7.6%,網絡整體mAP提高2.8%,這表明使用BiFPN替換PANet后,深層與淺層的特征信息得到充分融合,網絡的整體檢測精度提升明顯。使用Alpha-IoU替代GIoU作為定位損失函數后,3個檢測類別的AP分別提高2.4%、0.1%、2.1%,網絡整體mAP提高1.5%,這表明原網絡無法精準定位最佳預測框的問題得到了解決。
最后,將所有改進策略結合得到本文異常目標檢測算法ABA-YOLOv5,其mAP為85.4%,比未改進前YOLOv5提高3.8%,3個檢測類別分別提高了2.6%、1.1%、7.9%,表明本文采用的改進策略真實有效,對異常穿戴、異常工具等小目標檢測精度提升明顯。
2.1.4 對比試驗
1)客觀對比實驗分析
為了驗證本文算法的優越性,在相同配置的條件下使用相同的數據集,與主流目標檢測模型YOLOX、SSD以及Faster RCNN做對比,同樣采用mAP值對各檢測算法進行評價,對比實驗結果如表2所示。

表2 對比實驗結果Table 2 The result of contrast experimental
由表2實驗結果可知,在相同的條件下,本文算法的準確率和召回率最高,3個類別的檢測精度也最高,說明本文算法在相同的測試集下可以檢測到最多的目標且檢測性能最佳;另外,相較于檢測精度接近的YOLOv5,本文算法模型在參數體量增大1.2倍的情況下檢測速度也僅減慢18.5%,能夠達到23.4 幀/s,由此說明,提出的ABA-YOLOv5異常目標檢測算法能夠滿足對監控范圍內的異常目標進行準確、實時檢測的需求。
2)主觀檢測結果分析
為進一步說明提出的ABA_YOLOv5異常目標檢測算法在真實環境下對異常目標檢測效果的優越性,在測試集中隨機挑選2張圖片進行對比分析,各網絡檢測效果如圖7所示,可以看出,SSD和Faster-RCNN網絡對本文數據集的檢測效果最差,3張圖中均存在許多漏檢現象,尤其是對一些小目標與遮擋目標,推測是由于主干網絡的特征提取能力不夠強,對小目標學習能力不足導致的[20];YOLOX同樣對一些小目標存在漏檢現象,圖7(e)中2張測試圖中的小目標工具均未被檢測出來,可能是由于采用了anchor-free的檢測框架,導致網絡對重疊目標的檢測性能較差;YOLOv5的檢測性能僅次于本文算法,這是由于網絡的PANet結構能夠充分利用特征圖的位置信息和語義信息,對小目標物體的檢測性能有提升作用;最后,提出的ABA-YOLOv5能夠將2張測試圖中的所有的遮擋目標與小目標都檢測出來,同時擁有不錯的準確率,說明算法的檢測性能最好,進一步說明采用的改進策略真實有效。

圖7 測試結果對比分析Fig.7 The comparative analysis of test results
為驗證提出的點線式入侵檢測方法的優越性,在相同條件下進行對比實驗。如圖8(a)所示,當可疑目標尚未進入警戒區域時(“Person”類預測框中心點坐標在封閉區域外,下同)掩膜法并未檢測到人員狀態,這也是其弊端所在;如圖8(b)所示,目標上一幀在警戒區域外被檢測到,在當前幀被判定為“入侵該區域”,但是此時目標尚未進入警戒區域,造成誤差的原因是由于此時被檢測到的“Person”類預測框中心點坐標滿足入侵判斷條件,目標被視為入侵;如圖8(c)所示,上一幀目標在警戒區域外與當前幀目標進入警戒區域(“Person”類預測框中心點坐標在封閉區域內)均被準確檢測到。由此結果說明點線式入侵檢測方法既能檢測出可疑目標在警戒區域外的狀態,也能在其入侵警戒區域時做出及時準確的檢測,同時具有更高的檢測靈敏度且在入侵判斷過程中不會產生誤差,相較于掩膜法與坐標判斷法更適合真實安防場景下的應用。

圖8 3種入侵判斷方法效果對比Fig.8 The comparison of the effects of three intrusion detection methods
(1)研究了人員異常穿戴、異常工具檢測算法,針對在全景監控中YOLOv5檢測效果不佳等問題,對其網絡結構進行改進,改進后網絡mAP可達85.4%,有效增強了網絡在復雜戶外場景下對小目標的檢測能力。
(2)設計一種點線式入侵檢測方法,該方法具有更高的入侵檢測靈敏度,且避免了在入侵行為判斷過程中造成的誤檢現象。
(3)提出面向庭院式住宅的周界入侵綜合識別算法實時性好、檢測精度高,可以滿足庭院式住宅周界入侵識別的任務需求。