張祖赫



摘 要 如今計(jì)算機(jī)能為人類做許多事情從而減少人類的體力勞動(dòng),同時(shí)提高工作效率。高中的寢室往往是學(xué)校紀(jì)律之手最難觸及的地方,這當(dāng)然需要學(xué)校調(diào)集大量人力去監(jiān)管,耗時(shí)費(fèi)力,甚至吃力不討好。在計(jì)算機(jī)視覺領(lǐng)域,最基本也最經(jīng)典的一個(gè)問題就是目標(biāo)識(shí)別給出一張圖像,用detector檢測出圖像中特定的object(如人臉)。檢測算法的基本原理就是先通過訓(xùn)練集學(xué)習(xí)一個(gè)分類器,然后在測試圖像中以不同scale的窗口滑動(dòng)掃描整個(gè)圖像,每次掃描做一下分類,判斷一下當(dāng)前的這個(gè)窗口是否為要檢測的目標(biāo)。
關(guān)鍵詞 深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 目標(biāo)檢測 Faster R-CNN
中圖分類號(hào):G647 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-0745(2022)02-0109-03
1 研究意義
利用圖像處理技術(shù)協(xié)助老師進(jìn)行寢室管理,能在大大提高工作效率的同時(shí)改善相關(guān)問題。本文從寢室管理存在的問題出發(fā),利用經(jīng)典目標(biāo)檢測算法Faster R-CNN構(gòu)建寢室紀(jì)律監(jiān)管系統(tǒng),智能識(shí)別寢室在上課期間是否有人逗留,或檢測就寢時(shí)人是否到齊,從而解放老師的工作壓力并提高工作效率,幫助老師做好寢室監(jiān)管工作,同時(shí),這也能提高同學(xué)們自覺遵守學(xué)校規(guī)章制度的意識(shí),讓校園多一分和諧與秩序。
2 神經(jīng)網(wǎng)絡(luò)
2.1 前饋神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種受生物學(xué)啟發(fā),模仿人類大腦結(jié)構(gòu)的智能網(wǎng)絡(luò)。
前饋神經(jīng)網(wǎng)絡(luò)又稱為多層感知機(jī),是基于反向傳播算法[1](BP算法)的一種常見神經(jīng)網(wǎng)絡(luò),通常包含三個(gè)層次:輸入層、中間層和輸出層,每一層的輸出是下一層的輸入。其中,輸入層與輸出層的節(jié)點(diǎn)數(shù)根據(jù)任務(wù)而定,相對(duì)容易確定,而中間層則需要根據(jù)模型的表現(xiàn)進(jìn)行不斷調(diào)整。神經(jīng)網(wǎng)絡(luò)就如同一個(gè)復(fù)雜的函數(shù),訓(xùn)練神經(jīng)網(wǎng)絡(luò)就是在學(xué)習(xí)其中參數(shù)的值。
在神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元是最簡單的計(jì)算單元,其包含輸入、計(jì)算以及輸出。這些神經(jīng)元相互連接構(gòu)成神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練來修改它們的權(quán)值以獲得一個(gè)從輸入空間到輸出空間的映射。圖1為基本的神經(jīng)元結(jié)構(gòu)圖,其中,xn為輸入信號(hào),wn為連接權(quán)值,θ表示一個(gè)閾值。
2.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)[2](Convolutional Neural Network, CNN)是一類主要用來處理圖像的前饋神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)示意圖如圖2所示。卷積神經(jīng)網(wǎng)絡(luò)包含了輸入層、卷積層、池化層、全連接層等,采用稀疏連接的方式連接不同層之間的神經(jīng)元,且同一層中同一個(gè)通道都共享一個(gè)卷積核權(quán)重,這樣既能減少計(jì)算量又能防止過擬合。
2.2.1 卷積層
卷積層是卷積神經(jīng)網(wǎng)絡(luò)中最重要的一層,其利用卷積核(也稱過濾器)對(duì)圖像進(jìn)行卷積操作,從而生成一個(gè)跟原始圖像對(duì)應(yīng)的特征圖。特征圖的優(yōu)點(diǎn)在于其能保存圖像的顯著特征同時(shí)減小圖像的規(guī)模。
卷積層的計(jì)算方法如公式2.1所示。
conv=σ(img . W+b)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2.1)
其中,“σ”表示激活函數(shù);“img”表示原始圖像的像素矩陣;“.”為卷積操作;“W”為卷積核;“b”為偏置。
2.2.2 池化層
池化層存在于卷積層之后,其作用是壓縮數(shù)據(jù)和參數(shù)的量,提取主要特征,避免過擬合。與此同時(shí),還要保證特征不變性,去除特征不明顯的信息。池化層降低了特征圖的尺寸,能夠減少計(jì)算量,防止過擬合,使得特征具有平移不變性。
常用的有最大值池化(Max pooling)和平均值池化(Average pooling)兩種池化操作。(如圖3所示)
3 目標(biāo)檢測算法
3.1 基于候選區(qū)域的目標(biāo)檢測算法
目前,常用的基于候選區(qū)域的目標(biāo)檢測算法有R-C NN、Fast R-CNN、Faster R-CNN等。基于候選區(qū)域的目標(biāo)檢測算法需要分兩步,第一步是生成候選區(qū)域,第二步是對(duì)候選區(qū)域進(jìn)行分類。R-CNN是從滑動(dòng)窗口檢測器改進(jìn)而來的,滑動(dòng)窗口檢測器通過遍歷的方法掃描整個(gè)圖片,但這樣的缺點(diǎn)就是窗口過多,導(dǎo)致模型過慢,R-CNN則通過選擇性搜索(Selective Search)來獲取候選區(qū)域以減少窗口數(shù)量,從而達(dá)到加快模型速度的目的。Fast R-CNN則利用卷積神經(jīng)網(wǎng)絡(luò)先提取圖像的特征網(wǎng)絡(luò),再將生成候選區(qū)域的方法直接應(yīng)用于特征圖上以加快速度。Faster R-CNN相比Fast R-CNN則將外部候選區(qū)域生成方法改成了由網(wǎng)絡(luò)自己選擇,從而突破生成候選區(qū)域計(jì)算慢的瓶頸。
3.2 Faster R-CNN
Faster R-CNN[3]是一種基于分類的目標(biāo)檢測算法,相比傳統(tǒng)目標(biāo)檢測算法,其在精度上有著較明顯的優(yōu)勢。該算法的思想是先通過區(qū)域生成網(wǎng)絡(luò)生成若干候選區(qū)域,再進(jìn)行分類判斷。
3.2.1 特征提取網(wǎng)絡(luò)
在Faster-RCNN中,一般采用預(yù)訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)。特征提取只需進(jìn)行一次,之后,提取得到的特征圖會(huì)被區(qū)域生成網(wǎng)絡(luò)和分類網(wǎng)絡(luò)所共享,這樣可以避免重復(fù)計(jì)算,提高模型速度。
3.2.2 區(qū)域生成網(wǎng)絡(luò)(RPN)
區(qū)域生成網(wǎng)絡(luò)的引入,突破了外部候選區(qū)域生成方法計(jì)算慢的瓶頸。
區(qū)域生成網(wǎng)絡(luò)用來生成候選區(qū)域,由兩個(gè)子網(wǎng)絡(luò)構(gòu)成,其中,分類子網(wǎng)絡(luò)用來判別矩形框(Anchor)是前景(目標(biāo))還是背景。邊框回歸子網(wǎng)絡(luò)則用來修正矩形框以獲得更精確的候選區(qū)域。
4 寢室紀(jì)律監(jiān)管系統(tǒng)
本系統(tǒng)采用Faster R-CNN作為目標(biāo)檢測算法,其中,采用深度卷積神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)。
4.1 寢室紀(jì)律監(jiān)管系統(tǒng)特征提取網(wǎng)絡(luò)
本系統(tǒng)使用VGG-16[4]作為特征提取網(wǎng)絡(luò)。VGG-16的輸入為圖片,經(jīng)過多次卷積計(jì)算和池化操作后得到原始圖像的特征,最后通過全連接層進(jìn)行分類任務(wù)。
而在我們的寢室紀(jì)律監(jiān)管系統(tǒng)中,VGG-16只用于特征提取,不用進(jìn)行分類任務(wù),所以我們?nèi)∽詈笠粚泳矸e層的輸出作為特征提取結(jié)果,即原始圖像的特征圖。
4.2 基于Faster R-CNN的寢室紀(jì)律監(jiān)管系統(tǒng)
如圖4所示,F(xiàn)aster R-CNN網(wǎng)絡(luò)主要分為RPN和Fast R-CNN兩部分。兩者都有一部分來自預(yù)先訓(xùn)練好的模型,故先使用模型對(duì)RPN和Fast R-CNN分別進(jìn)行初始化和訓(xùn)練,訓(xùn)練完成之后,固定其中一個(gè)網(wǎng)絡(luò)進(jìn)行交替訓(xùn)練[5]。最終得到一個(gè)基于Faster R-CNN的寢室紀(jì)律監(jiān)管系統(tǒng)。
該系統(tǒng)利用校園內(nèi)的監(jiān)控設(shè)備對(duì)各個(gè)寢室進(jìn)行實(shí)時(shí)監(jiān)控,并將采集到的圖像傳入訓(xùn)練好的寢室紀(jì)律監(jiān)管系統(tǒng)中進(jìn)行處理,可智能識(shí)別出寢室是否有人逗留以及有多少人,從而對(duì)寢室紀(jì)律行為進(jìn)行實(shí)時(shí)的監(jiān)管。
5 總結(jié)與展望
Faster R-CNN,是一個(gè)全卷積網(wǎng)絡(luò),它的輸入為特征圖,輸出為候選框ROI,將候選框選擇、特征提取、分類、檢測框回歸都整合在了一個(gè)網(wǎng)絡(luò)中,通過對(duì)圖像生成候選區(qū)域,提取特征,判別特征類別并修正候選框位置。完全端到端,使得精度和速度大幅提升。本文使用經(jīng)典目標(biāo)檢測算法Faster R-CNN構(gòu)建寢室紀(jì)律監(jiān)管系統(tǒng),有效減少老師們的工作量并提高工作效率。該系統(tǒng)可推廣到大部分學(xué)校,為老師提供方便。同時(shí),也可應(yīng)用到類似的環(huán)境中,用于安保工作,減少保安們的工作量。
參考文獻(xiàn):
[1] Rumelhart D E,Hinton G E,Williams R J.Learning Representations by Back Propagating Errors[J].Nature, 1986,323(6088):533-536.
[2] Kim Y.Convolutional Neural Networks for Sentence Classification[J].Eprint Arxiv,2014.
[3] Ren S,He K,Girshick R,et al.Faster R-CNN:Tow-ards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(06):1137-1149.
[4] Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer ence,2014.
[5] Girshick R.Fast R-CNN[J].Computer ence,2015.