徐衛峰 王建鵬 高青



摘 要 目標對象檢測算法屬于計算機視覺領域的重要問題,目前應用于無人駕駛、車牌識別、交通違法檢測等領域的應用方案已較為成熟。本文介紹了幾種流行的基于深度學習的目標對象檢測算法研究進展,然后探討了將其應用于衛生監督執法工作的應用場景并對未來趨勢做了展望。
關鍵詞 目標對象檢測算法;深度學習;卷積神經網絡;衛生監督
Absrtact object detection algorithm is an important problem in the field of computer vision. At present, it has been widely used in driverless, license plate recognition, traffic violation detection and other fields. This paper introduces the research progress of several popular object detection algorithms based on deep learning, and then discusses the application scenarios of applying them to health supervision and law enforcement work, and looks forward to the future trend.
Key words Target object detection algorithm; Deep learning; Convolution neural network; Health supervision
引言
目標檢測,也叫目標提取,是一種基于目標幾何和統計特征的圖像分割,它將目標的分割和識別合二為一,其準確性和實時性是整個系統的一項重要能力。尤其是在復雜場景中,需要對多個目標進行實時處理時,目標自動提取和識別就顯得特別重要。目標對象檢測算法屬于計算機視覺領域的重要問題,隨著電子設備的應用在社會生產和人們生活中越來越普遍,數字圖像已經成為不可缺少的信息媒介,每時每刻都在產生海量的圖像數據。與此同時,對圖像中的目標進行精確識別變得越來越重要[1]。我們不僅關注對圖像的簡單分類,而且希望能夠準確獲得圖像中存在的感興趣目標及其位置[2],并將這些信息應用到執法監督、視頻監控、自主駕駛等一系列現實任務中,因此目標檢測技術受到了廣泛關注。
目標對象檢測算法在醫學、交通、航天等領域越來越顯示出巨大的應用場景。目前主要應用于醫學影像的病灶檢測、行人監控與識別、飛機航拍、衛星物體檢測、交通執法等。同時,目標對象檢測也是視覺處理和分析任務的重要前提,例如行為分析、事件檢測、場景語義理解等都要求利用圖像處理和模式識別技術,檢測出圖像中存在的目標,確定這些目標對象的語義類型,并且標出目標對象在圖像中的具體區域[3]。在新冠肺炎疫情期間目標對象檢測算法主要被應用于行人檢測、遠程溫度檢測的前置溫檢區定位、大數據追蹤等。
1目標對象檢測算法研究進展
應用深度學習的目標對象檢測算法目前主要有目標區域建議 (Region proposal)和基于端到端(End-to-End)兩種解決方案。基于目標區域經典算法主要有R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN等。基于端到端的算法有YOLO、SSD等。其算法性能在VOC 2012數據集上進行性能測試結果如表1所示,該表展示了各種算法的平均準確率(AP)。
從表中可以看出R-FCN、YOLOv2、SSD算法準確率較高,但在生產力設備處理條件能力有限的情況下,SSD和YOLOv2算法處理相較于R-FCN算法更有效率,在筆者電腦上測試表明三種每秒可處理幀數分別為6、60、58。后兩種算法雖然準確率稍遜色,但其明顯更具有應用前景。下面重點介紹下這兩種算法。
YOLO的全拼是You Only Look Once,顧名思義就是只看一次,進一步把目標判定和目標識別合二為一,所以識別性能有了很大提升,達到每秒45幀,而在快速版YOLO(Fast YOLO,卷積層更少)中,可以達到每秒155幀。網絡的整體結構如圖14所示,針對一張圖片,YOLO的處理步驟為:把輸入圖片縮放到448×448大小;運行卷積網絡;對模型置信度卡閾值,得到目標位置與類別,如圖1所示。
SSD的全拼是Single Shot MultiBox Detector,沖著YOLO的缺點來的。SSD的框架如圖2所示,圖2(a)表示帶有兩個Ground Truth邊框的輸入圖片,圖2(b)和(c)分別表示8×8網格和4×4網格,顯然前者適合檢測小的目標,比如圖片中的貓,后者適合檢測大的目標,比如圖片中的狗。在每個格子上有一系列固定大小的Box(有點類似前面提到的Anchor Box),這些在SSD稱為Default Box,用來框定目標物體的位置,在訓練的時候Ground Truth會賦予某個固定的Box,比如圖2(b)中的藍框和圖2(c)中的紅框。
SSD和YOLO的網絡結構對比如圖3所示。
SSD在保持YOLO高速的同時效果也提升很多,主要是借鑒了Faster R-CNN中的Anchor機制,同時使用了多尺度。但是從原理依然可以看出,Default Box的形狀以及網格大小是事先固定的,那么對特定的圖片小目標的提取會不夠好。YOLO算法目前已有V2、V3版本。YOLO雖然檢測速度很快,但是在檢測精度上卻不如R-CNN系檢測方法,YOLOv1在物體定位方面(localization)不夠準確,并且召回率(recall)較低。YOLOv2在改進中遵循一個原則:保持檢測速度,這也是YOLO模型的一大優勢。YOLOv2的改進策略如圖4所示,可以看出其在VOC2007數據集上平均準確率(AP)得到了提升。
2應用于衛生監督領域的應用探討
目標對象檢測算法在衛生領域應用廣泛。目前目標對象檢測算法在醫學研究應用已較為成熟,其主要集中在對醫學圖像處理分析。增加經過訓練后網絡,可以發現早期結節、病變組織,并可進行預測。在衛生監督領域,目前應用較少,筆者認為可以應用于監督執法工作、案件質控快速分析工作、考勤等行政工作等。
在實際監督執法工作中,可考慮應用目標對象檢測算法快速發現違法行為進行查處。在現場監督中,可應用執法記錄儀實時收集分析上傳加密后的執法數據,在后臺可應用目標對象算法實時分析,進行分類然后在利用其他算法對其進行分析發現問題反饋。在利用攝像頭等遠程監督中,可將實時傳回的數據進行分析查找違法線索,智能保留證據,方便后續執法。例如某市有相關控煙條例,公共場所禁止吸煙,那么可以在公共場所安裝攝像頭等裝置,利用目標檢測算法實時分析吸煙人員,并將其吸煙證據實時保存,方便對違法行為進行查處,通過監督執法提高人們的幸福指數,減少違法行為的發生。
在案件質控方面,可以應用目標對象檢測算法對執法人員全過程執法進行分析,例如可以分析執法人員衣著是否符合規范、執法過程是否符合規范。另外也可以對相關執法文書進行分析,提高案卷質量。
另外可將目標對象檢測算法應用于一些行政工作中。例如在考勤方面可應用目標對象檢測算法分析上班人員,提高正確率。
參考文獻
[1] Szegedy C,Toshev A,Erhan D.Deep Neural Networks for object detection[C].Advances in Neural Information Processing Systems. 2013:11-16.
[2] Felzenszwalb P F,Girshick R B,Mcallester D,et al. Object Detection with Discriminatively Trained Part-Based Models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(9):1627-1645.
[3] Zhang X,Yang Y H,Han Z,et al. Object Class Detection: A Survey[J]. ACM Computing Surveys,2014,46(1):1-53.