長江大學電子信息學院 呂 星 王壯壯 楊友平
目標檢測廣泛應用在人臉檢測、行人檢測、車輛檢測等領域。目前從圖片和視頻中需要提取更多信息和特征,這就對網絡的準確性和實時性提出了更高的要求。特別是在小目標檢測方向,小目標一般存在分辨率低、圖像模糊、攜帶的信息少,導致特征表達能力弱,即在提取特征的過程中收集的信息較少。小目標有兩種定義方式,一種是相對尺寸大小,如目標尺寸的長寬是原圖像尺寸的0.1,即可認為是小目標,另外一種是絕對尺寸的定義,即尺寸小于32×32像素的目標即可認為是小目標。小目標檢測在深度學習卷積神經網絡模型中一直是一個難題。早期的目標檢測框架大多數是針對通用的目標來進行檢測,如經典的One-stage算法YOLO和SSD,Two-stage算法faster-RCNN等,這些方法主要是針對通用目標數據集來設計的解決方案,因此對于圖像中的小目標來說,檢測效果不是很理想。
為了提高小目標檢測的精度和大學課堂的一般情況,我們將學生的到課情況進行統計,我們使用神經網絡對教室的首先我們將從課堂中獲取的視頻進行逐幀預處理,然后使用YOLOv4網絡訓練頭部檢測模型,最后將訓練好的模型對課堂中的視頻、圖片進行檢測。實驗結果表明,通過本文基于深度學習的方法,與其它的小目標檢測相比,速度和準確率更好,模型泛化能力更強。

圖1 頭部檢測流程圖
本文針對課堂教室場景,通過頭部檢測的方法觀察課堂上學生的學習情況。首先,對輸入視頻進行預處理,使用交叉訓練的方式將數據集分成:訓練集、測試集、驗證集,之后調整網絡參數來訓練頭部檢測模型,最后進行頭部檢測。如圖1所示。
YOLO系列的算法屬于目標檢測網絡中One-stage算法,相比于Two-stage算法,其速度相對就很快。One-stage算法因為僅僅需要送入網絡一次就可以預測出所有的邊界框(如圖2所示),將Two-stage中很多的分類流程都省略掉,因而速度較快。

圖2 One-stage算法流程
然而,One-stage算法通常與Two-stage算法相比,準確率都達不到理想的效果。在目前國外最新推出的目標檢測網絡YOLOv4之后,該算法的檢測速度和精度都超過之前其它方法。該網絡主要分成4部分:輸入端、骨干網絡、頸部、預測端。YOLOv4網絡結構如圖3所示。

圖3 YOLOv4網絡結構
輸出端:將輸入的圖片都固定為一定尺寸,為了增強網絡模型的泛化能力,該網絡對訓練時的輸入端進行馬賽克數據增強、SAT自對抗訓練等操作。
骨干網絡:使用CSPDarknet53,該模塊通過優化網絡結構來減少計算量,降低內存成本,同時也保證檢測的準確率。
頸部:網絡中加入了SPP模塊,用來固定輸出圖像的尺寸大小,為多尺度訓練提供了基礎。網絡的頸部,使用PANet替換YOLO v3中的特征金字塔(FPN),前者加強了特征金字塔的結構,縮短了高低層特征融合的路徑。
預測端:預測使用原來yolo v3的頭部結構,輸出三種尺度的邊界框:13×13、26×26、52×52,小尺度輸出用來檢測大型目標,最大尺度用來檢測小目標。
該實驗是使用操作系統Ubuntu18.04,深度學習框架TensorFlow1.15.0和圖像處理庫Opencv3.4.3進行的。使用的硬件是采用GeForce GTX 1660Ti Max-Q Design。
我們將大學課堂上的視頻和圖片作為自己的數據集來訓練,選取課堂上2000張左右的圖片,數據集采用VOC格式,通過人工做標簽的方式制作數據集。訓練采用交叉驗證的方式,將數據集分為訓練集、測試集、驗證集,訓練集包含549張圖片,測試集包含1099張圖片,驗證集包含550張圖片。
學習率設為0.001,每批次輸入64張圖片,將64張圖片分成64份放入網絡進行訓練,動量設置為0.9,權重衰減為0.0005,最大迭代次數設為6萬次。頭部模型檢測結果如圖4所示。
通過YOLOv4訓練好的模型,我們設計了一個頭部測的軟件系統,用python語言編寫,系統測試效果如圖5所示。
我們對課堂中的學生頭部進行檢測,該目標在檢測中存在目標小、容易被遮擋的問題,對于以上問題,我們提出使用新的YOLOv4網絡來訓練頭部檢測模型,實驗結果證明該網絡對于小目標的檢測達到了不錯的效果,學生后排被遮擋的問題已經被解決,同時也能保證檢測模型精度不受影響。
在設計好的數據可視化界面中,我們調用訓練好的改進yolo v4模型進行測試,其結果表明頭部檢測的精度和遮擋問題已經得到解決。圖5所示為可視化界面測試的效果。
總結:本文提出基于YOLOv4的頭部檢測方法,采用網絡訓練好的頭部模型,然后對圖片或視頻進行檢測。通過上述的實驗結果表明,YOLOv4算法雖然屬于One-stage目標檢測算法中的一類,但其具備了One-stage和Two-stage兩種算法的優點:既準確速度又快。在目標檢測中難以突破的小目標檢測方向,也具有良好的檢測定位能力。

圖4 頭部模型檢測結果

圖5 系統測試結果