劉鶴丹,朱超凡,杜小甫
(廈門大學嘉庚學院信息科學與技術學院,福建漳州,363105)
計算機視覺是一門集成了計算機科學、生物學、物理學甚至心理學知識與一體的交叉學科[1],是計算機視覺技術的一個分支領域。視覺識別定位技術的基本思路是利用攝像頭獲取室內環境視覺信息,有可能包括被定位對象的人臉信息等,然后根據一定算法從圖像中識別出待定位對象,進一步求得待定位對象的位置信息。根據攝像頭與待定位對象的關系,視覺定位整體上可以分為主動視覺定位和被動視覺定位兩大類。
主動視覺定位技術是指攝像頭安裝在待定位物體之上,例如掃地機器人、無人機等。主動視覺定位的核心步驟包括邊緣提取,噪聲過濾,信息識別等。主動視覺定位技術被廣泛地使用于工業機器人控制,無人機自動飛行控制[2],工業產品質量檢測,自動駕駛等領域。
被動視覺識別定位技術指的是,利用位置固定的攝像頭,對待定位對象進行視頻圖像采集,將圖像信息上傳至后臺計算機進行識別,并進行定位解算。根據使用的攝像頭數量,可以將視被動視覺識別定位技術分為兩大類:單目技術[3]和多目技術[4],其中雙目技術是多目技術的一個特例分支。
目標檢測指的是對運動目標進行檢測,包括人員。
運動目標檢測技術經過多年的發展,目前已經有一些很成熟的技術,主要包括背景減除法,幀差法,光流法等。比如,莫邵文等[5]在ViBe 算法的基礎上,解決鬼影問題。
行人識別是從視頻中根據行人特征直接提取并標注行人的方法,近年來對這類方法的研究也比較深入。該類方法主要是使用不同尺度的滑動窗口選定圖像的某一區域為候選區域,從對應的候選區域提取Haar 特征[6],LBP 紋理特征[7],HOG 特征[8],DPM 特征[9]等一類或者多類特征,再使用Adaboost,SVM,LatentSVM[9]等分類算法通過在訓練集訓練分類器,該分類器可以對對應的候選區域進行分類,判斷是否屬于待檢測的目標。例如Dalai[9]在2005年提出的HOG(Histograms of oriented gradients)特征,并利用SVM 分類器進行判斷是否為待檢測的行人目標。2008年Felzenszwalb[8]在HOG 特征的基礎上提出了DPM(deformable part model)特征,并利用LatentSVM 進行分類。2013年劉小灃[10]提出一種基于稀疏表達學習理論的稀疏編碼直方圖特征(HSC, histograms of sparse codes)算法,用HSC 特征代替DPM 算法中的HOG 特征,提升了DPM 的準確率。
人臉識別技術已成為計算機視覺領域最為成功的應用之一。傳統人臉識別技術主要包括采用全局特征和局部特征對人臉進行描述,再對提取出的特征描述,使用支持向量機等方法進行分類操作。
近年來,基于深度學習(Deep Learning)[11]的人臉識別技術成為主流,在準確度和速度方面都有極大優勢。2014年,DeepFace[12]在 著 名 的LFW(Labeled Face in-the-Wild)數據集上取得接近人類的表現。近年來對抗生成網絡GAN[13]和強化學習(Reinforcement Learning)[14]技術也被引入到人臉識別領域。
單目視覺識別中的目標跟蹤,主要是指對檢測到的目標,結合視頻中相鄰幀之間的時空關系,對目標進行快速的識別并定位。當前流行的目標跟蹤算法主要分為兩個模塊,一種是生成式跟蹤算法,一種是判別式跟蹤算法。傳統的跟蹤算法均屬于生成式跟蹤算法。如卡爾曼濾波跟蹤[15]、粒子濾波跟蹤等。
行人再識別,即跨攝像頭行人關聯。其主要的研究內容為提取特征并利用度量距離等算法計算兩個目標的相似度,從而根據得到的相似度判別這兩個目標是否為同一個人。行人再識別技術的難點主要有兩點,第一個是研究選擇哪一種行人對象的特征,能夠更好的表達行人區別,更加具有魯棒性;另外一個方向是使用更有效的距離度量函數,使得同一個人的圖像間特征距離小于不同行人圖像間的特征距離。特征選取問題上,己有方法主要從顏色、紋理、梯度等角度對行人進行描述。顏色直方圖是最常用的特征,也是最直觀的特征表達。直方圖特征的缺點在于對于光照等條件的變化非常敏感。為了解決光照問題,引入了顏色碼本[16]、極大穩定顏色區域特征[17]等改進直方圖特征表達形式。紋理特征以及邊緣特征等可以更好的描述行人的細節上的特征,同時對光照的變化不敏感。
本文對基于計算機視覺的目標識別定位技術進行了綜述,對涉及到的目標識別檢測、人臉識別、行人識別、目標跟蹤、行人再識別和多攝像頭協作等內容進行了總結,研究工作將基于此繼續展開。