999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征融合網絡的行人重識別①

2019-01-18 08:30:12種衍杰
計算機系統應用 2019年1期
關鍵詞:特征融合

種衍杰, 方 琰, 沙 濤

(南京理工大學 電子工程與光電技術學院, 南京 210094)

自2006年, 行人重識別的概念第一次在CVPR會議上被提出后[1], 相關研究越來越受到學者們的關注.行人重識別旨在大規模的視頻監控系統中進行行人目標匹配, 即確認不同攝像頭在不同時間、不同地點所記錄到的行人目標是否為同一個人, 進而達到跟蹤或是搜索的目的[2]. 由于光照、視角、姿態等方面的差異, 導致同一行人在不同畫面中可能呈現截然不同的外觀; 加之存在圖像分辨率低下、遮擋等問題, 使得行人重識別成為一個頗具挑戰的課題.

行人重識別中兩個關鍵問題: 特征表示和度量學習[3]. 一個有效的特征應當緊湊且對諸如視角、光照等變化具有魯棒性; 而度量學習則通過學習獲得一個新的距離度量空間, 使得相同行人目標之間的距離更近,而不同目標之間的距離更遠. 許多學者沿著這兩個方向做了許多貢獻. Gray等[4]提出了局部特征集(Ensemble of Localized Features, ELF), 融合了顏色、紋理多種特征, 依據分類效果對特征賦予相應的權重.Farenzena等[5]提出了局部特征對稱性驅動累積(Symmetry-Driven Accumulation of Local Features,SDALF), 從 STEL(STel Component Analysis)[6]模型提取的行人輪廓中尋找垂直對稱軸, 依據對稱軸對像素加權后提取顏色和紋理特征. Liao等[3]提出了局部最大事件 (LOcal Maximal Occurrence representation, LOMO),聯合了HSV顏色直方圖和SILTP (Scale Invariant Local Ternary Patter)[7]紋理特征描述子, 并使用最大池化的方法獲得了更加穩定的特征表達, 同時, 還提出了跨視角二次判別(cross-view Quadratic Discriminant Analysis, XQDA)的度量學習方法. Wu等[8]提出了特征融合網絡 (Feature Fusion Net, FFN), 嘗試將手工剪裁特征和卷積神經網絡提取的CNN (Convolutional Neural Network)特征進行了有效的融合.

本文聚焦于行人重識別中的特征表達, 首先研究了原始LOMO特征的提取流程, 接著, 利用STEL算法改善了原始LOMO特征對背景噪聲的抗噪性能, 利用KPCA (Kernel Principal Component Analysis)[9]算法降低維度以便于后續融合, 在特征維度更低的情況下,本文改進LOMO特征取得了較原始LOMO特征更加優異的識別準確率. 隨后, 本文探索了手工特征和CNN特征的互補性, 經由全連接層將改進LOMO特征融入卷積神經網絡之中, 反向傳播使得改進LOMO特征能夠優化網絡參數的學習, 得到了區分度更高的融合特征. 在VIPeR和CUHK01數據集上的測試結果表明,本文融合特征的區分度明顯高于單一特征和級聯特征,Rank-1較級聯特征分別提高了3.73%和2.36%.

1 改進LOMO特征

1.1 原始LOMO特征提取方法

由于行人圖像分辨率較低, 諸如人臉等其它生物特征難以被捕捉到, 所以, 行人重識別主要依據行人的表觀特征, 例如顏色、紋理等特征. Liao提出的LOMO特征, 先將行人圖像水平劃分, 然后提取HSV顏色直方圖和SILTP[7]紋理特征, 并使用最大池化的方法獲得了更加穩定的表達. 圖1展示了LOMO特征的提取流程.

1.1.1 處理光照變化

顏色是描述行人圖像的一個重要特征, 然而, 由于光照條件、相機設置以及陰影等因素, 同一個行人在不同相機下所呈現的顏色可能相距甚遠[10]. 為此, LOMO特征首先使用了多尺度Retinex算法[11]預處理行人圖片. Retinex算法能夠很好地近似人類視覺感知, 并加強了陰影區域的細節表現. 在LOMO特征使用的多尺度Retinex算法中, 小尺度Retinex用于動態范圍壓縮,大尺度Retinex用于色調再現. 圖2展示了行人圖片經Retinex處理前后的對比, 其中(a)為原始圖片, (b)為經Retinex處理后的圖片, (a)(b)中同一列為同一行人圖像. 可以看出, 處理后的行人圖片在光照和顏色上有著更好的一致性.

圖1 LOMO特征的提取流程

圖2 行人圖片經Retinex處理前后對比[3]

1.1.2 處理視角變化

考慮到行人在不同相機下往往呈現出不同的視角,LOMO特征使用了滑動窗口來描述圖像的局部細節.具體而言, LOMO特征使用了尺寸為10×10的窗口, 在經裁剪的行人圖像上以5像素步長滑動. 在每個窗口內提取顏色直方圖和兩尺度紋理特征. 為了使產生的直方圖對視角變化具有魯棒性, LOMO特征掃描同一水平位置的所有窗口,提取每種子特征的最大值組成一個新的特征表達.

為了進一步考慮多尺度信息, LOMO特征構建了三尺度圖像金字塔, 對原始圖像進行下采樣后, 重復上述特征提取流程.

最后級)聯所有特征, 得到了長度為(8×8×8HSV+34×2SILTP×(24+11+5)=26 960維的LOMO特征.

1.2 改善抗噪性能

LOMO特征使用滑動窗口來描述行人圖像的局部細節, 并通過最大化水平窗口特征值的方式來處理視角變化. 該方法簡單有效, 但卻沒有很好地處理背景噪聲的影響. 在我們的實驗中, LOMO特征在不同的數據集下表現得不夠穩定也驗證了這一點. 受到SDALF算法[5]利用對稱信息處理視角變化的啟發, 本文使用行人垂直對稱信息和加權函數來消除背景噪聲的干擾.

首先, 利用 STEL[6]將行人從背景中提取出來, 然后由行人輪廓確定垂直對稱軸, 依據對稱軸對滑動窗口賦予不同的權值: 距離對稱軸較近的窗口更有可能是前景(行人), 賦予較大權重; 而對遠離對稱軸的窗口賦予較小權值. 這樣, 所提取的LOMO特征更加專注于前景而減小了背景噪聲帶來的影響. 權值函數選用高斯函數:

1.3 降低特征維度

首先, 使用上述流程提取窗口加權LOMO特征, 將LOMO特征矩陣變換為 6 74×X維的矩陣為圖像分割的水平條數. 在降維算法上選取了KPCA算法, 該算法應用了Mercer核來擴展PCA (Principal ComponentAnalysis),由輸入空間經非線性映射得到高維空間, 然后在高維空間計算主成分量[12]. 圖4展示了應用KPCA算法對LOMO特征進行降維的性能曲線, 測試圖庫為VIPeR cam_a圖集, 共632張圖片. 當累積方差貢獻率為0.9時, 平均所需主成分數目僅為17.20, 即平均使用11 591維的數據即可表示原始26 960維LOMO特征近90%的信息量.

圖4 KPCA對LOMO特征降維的性能曲線

結合圖4, 我們將LOMO特征矩陣降維至原始維度的50%, 此時平均累積方差貢獻率為0.91.

2 特征融合網絡

2.1 網絡架構

近來, 專為行人重識別設計的、傳統的手工多特征融合[3,5,13]在性能上遇到了瓶頸. 隨著神經網絡在圖像識別領域的流行, 越來越多的研究聚焦于基于深度學習的行人重識別. 然而, 深度學習的主要瓶頸是缺乏訓練數據, 大多數的重識別數據集對每個行人只提供兩張圖片, 例如VIPeR. 所以, 僅采用深度學習的行人重識別算法在某些數據集上的效果并不顯著.

受到FFN[8]的啟發, 本文提出了一種基于特征融合網絡的圖像特征提取方式, 該網絡融合了CNN特征和改進LOMO特征, 將其映射至一統一的特征空間. 在反向傳播的過程中, 手工剪裁的改進LOMO特征能夠優化神經網絡的參數學習. 這樣, 我們得到了比單個特征或者級聯特征更有區分度的融合特征. 如圖5所示,特征融合網絡由兩部分組成, 第一部分使用普通的卷積神經網絡從輸入圖像中提取特征, 是對圖像顏色、紋理、形態等特征的綜合學習; 第二部分使用改進LOMO來提取手工特征. 借助全連接層使得第二部分能夠優化第一部分的學習過程, 兩個特征最終融合在一起形成一個更加充分的特征表達. 圖6展示了在訓練好的融合網絡中進行行人目標匹配的流程圖, 系統輸出了匹配度較高的前20個結果.

圖5 特征融合網絡架構圖

2.2 CNN特征的提取

特征融合網絡首先使用5個卷積層來提取圖像的CNN特征, 每個卷積層后使用ReLU函數作為激活函數, 池化層使用最大池化以更好地保留紋理特征, 忽略背景噪聲, 最終得到了4096維的CNN特征. 卷積神經網絡具有權值共享的特性, 有著更少的連接和參數, 因而更容易被訓練[14].

鑒于目前流行的行人重識別數據集行人數在1000個左右, 圖片總數大多小于10 000張, 較小的訓練集容易使得神經網絡出現過擬合現象. 為此, 本文首先采取圖像變化和水平反轉來增強數據[14]. 具體地, 首先將圖像尺寸調整至 2 56×256, 而后從 2 56×256圖像上隨機剪裁大小為 2 27×227的圖像塊, 將它們及其水平反轉送入神經網絡進行學習, 這樣訓練樣本總數增大了1682倍. 另外, 為了加快網絡的收斂速度, 在訓練集的圖像上進行了減均值操作.

2.3 緩沖層和融合層

由于LOMO特征和CNN特征差異巨大, 為了使融合得以成功, 在CNN特征和LOMO特征融合之前分別由一到兩個緩沖層(Buffer Layer)進行緩沖. CNN特征的緩沖層由一個全連接層組成, LOMO特征的緩沖層由兩個輸出維度分別為8192和4096的全連接層組成.為了使融合更加充分, LOMO特征事先進行了降維操作, 然后再通過兩級維度遞減的全連接層進行緩沖.

圖6 融合特征網絡行人匹配流程圖

緩沖層之后的融合層(fusion layer)輸出了維度為4096維的融合特征, 該層利用了全連接層來增強對LOMO特征和CNN特征的自適應能力. 另外, 緩沖層和融合層使用了概率為0.5的失活函數, 降低了特定神經元之間的互相依賴, 從而迫使其學習更加魯棒的特征[14].

假定緩沖層的輸出分別為BLOMO和BCNN, 則最終融合層輸出的融合特征可以表示為:

每個樣本在所有輸出節點的損失函數之和為:

損失函數的導數為:

利用鏈式求導法則逐層更新整個網絡參數.

3 實驗與分析

3.1 實驗規則

分別在VIPeR[15]和CUHK01[16]數據集上進行測試, 在每個數據集測試中隨機選取一半樣本作為訓練數據集, 另一半作為測試數據集, 重復 10 次, 計算平均Rank-i并繪制CMS (Cumulative Matching Characteristic)曲線. 在分類器上選擇了最原始的非監督分類算法L1-norm, L1-norm距離又稱曼哈頓距離, 能夠表示特征最原始的區分度. 如圖6所示, 從融合層獲得融合特征后,與已有特征計算L1-norm距離, 獲得了匹配度較高的前20個結果.

在特征融合網絡的訓練中, 使用分批隨機梯度下降法以20張圖片為單位, 前向傳導至最后的Softmax損失層, 計算樣本損失的平均值, 并以此作為反向傳播的損失值. 初始學習率 γinitial=0.001, 更新策略:

其中,gamma取0.0001,power取0.75,iter為迭代次數.

在每次實驗中, 分別對比原始LOMO特征、本文改進LOMO特征、本文提取的CNN特征、改進LOMO特征和CNN特征的級聯特征以及融合特征,gBiCov[17]以及ELF16[8]作為額外對比項.

3.2 實驗結果

3.2.1 在VIPeR上實驗

VIPeR數據集是行人重識別領域最著名的數據集,包含632個行人共1264張圖像. VIPeR數據集的特點是光照和視角的多樣性. 圖7以及表1展示了VIPeR數據集上的測試結果.

3.2.2 在CUHK01上實驗

CUHK01數據集是由香港中文大學于2012年發布的行人重識別基準測試數據集, 包含了2個攝像頭、每個攝像頭971個ID、每個ID2張圖片, 共1264張圖片. CUHK01采集自行人天橋, 圖片整體亮度較低.圖8以及表2展示了CUHK01數據集上的測試結果.

表1 各種特征在VIPeR數據集、L1-norm下的性能比較

表2 各種特征在CUHK01數據集、L1-norm下的性能比較

3.2.3 運行時間

表3評估了本文所對比的行人重識別特征的提取時間, 測試圖集為VIPeR cam_a, 取其提取632張圖像特征的平均時間. 測試機器CPU為Intel i5-5200U, 內存 8 GB, 顯卡為 NVIDIA GTX950M.

表3 各種特征的提取時間、輸出維度比較

可以看到, 融合網絡的特征提取時間甚至快于某些手動特征. 雖然融合網絡的訓練需要花費大量時間,但在訓練完的網絡中運行一次前向傳播只需0.49 s, 而且, 其中大部分時間(0.31 s)花費在改進LOMO特征的提取上. 相較于其它特征, 融合特征的維度更小, 在后續的度量學習中也有著更大的優勢.

3.3 結果分析

圖7和圖8展示了在L1-norm下, 本文融合特征與對比特征分別在VIPeR和CUHK01數據集上的表現. L1-norm衡量了各種特征最直觀的區分度, 結果表明, 融合特征的區分度大于其它特征.

圖7 VIPeR數據集、L1-norm下各種特征的CMS曲線

圖8 CUHK01數據集、L1-norm下各種的特征CMS曲線

本文改進LOMO特征和CNN特征的級聯特征準確率大于改進LOMO特征、CNN特征兩個單獨特征,說明了手工特征和CNN特征在一定程度上是可以互補的. 然而簡單的級聯并不是最優的融合方式, 在VIPeR和CUHK01數據集上, 融合特征Rank-1為19.76%和19.47%, 較級聯特征的16.03%和17.11%,分別提高3.73%和2.36%. 融合特征的準確率大于級聯特征的主要原因在于:

(1)經由緩沖層和融合層使得改進LOMO特征參與了神經網絡的訓練過程, 在反向傳播時, 提取CNN特征的卷積核(Filters)學習到了改進LOMO特征的特性.

(2)緩沖層和融合層由全連接層組成, 能夠更好的融合兩者的互補特性.

另外, 本文改進LOMO特征由于更加專注于行人,減小了背景噪聲的影響, 在特征維度更小的情況下, 表現出比原始LOMO特征更加優異的性能, 在VIPeR和CUHK01數據集上分別較原始LOMO特征提高了1.9%和1.83%.

4 總結

本文首先利用STEL算法增強了LOMO特征對背景噪聲的抗噪性能, 為了便于后續融合, 利用KPCA進行了降維, 在特征維度更低的情況下取得了較原始LOMO特征更加優異的性能. 隨后, 本文探索了手工特征和CNN特征的互補性, 將改進LOMO特征融入到了卷積神經網絡之中, 得到了區分度更高的融合特征.在兩個頗具挑戰的數據集上, 本文融合特征表現出比單獨或者級聯特征更加優異的性能, Rank-1較級聯特征分別提高了3.73%和2.36%.

猜你喜歡
特征融合
抓住特征巧觀察
一次函數“四融合”
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
寬窄融合便攜箱IPFS500
新型冠狀病毒及其流行病學特征認識
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
主站蜘蛛池模板: 国产精品主播| 国产综合亚洲欧洲区精品无码| 亚洲 成人国产| 日韩123欧美字幕| www亚洲精品| 五月婷婷精品| 国产第三区| 亚洲成网站| 99久久国产综合精品女同| 这里只有精品在线播放| 一级毛片在线播放免费观看| 色综合热无码热国产| 日本精品视频一区二区| 国产在线精品人成导航| 青青青视频91在线 | 国产精品一区二区无码免费看片| 国产91熟女高潮一区二区| 白丝美女办公室高潮喷水视频| 免费av一区二区三区在线| 男女男精品视频| 97在线碰| 婷婷五月在线视频| 尤物在线观看乱码| jijzzizz老师出水喷水喷出| 天天躁夜夜躁狠狠躁图片| 欧美国产综合视频| 久久亚洲黄色视频| 精品無碼一區在線觀看 | 黑人巨大精品欧美一区二区区| 22sihu国产精品视频影视资讯| 自拍欧美亚洲| 中文字幕va| 欧美综合一区二区三区| 亚洲香蕉伊综合在人在线| 欧美成在线视频| 亚洲无码免费黄色网址| 成年人国产视频| 久久免费视频播放| 欧美有码在线| 婷五月综合| 伊人久久影视| 亚洲妓女综合网995久久| 国产乱人乱偷精品视频a人人澡| 亚洲国产清纯| 欧美色视频网站| 91小视频在线| 日韩黄色精品| 亚洲中文字幕在线观看| 经典三级久久| 色噜噜综合网| www.91中文字幕| 亚洲Av激情网五月天| 欧美日韩中文字幕在线| 四虎精品国产AV二区| 熟妇无码人妻| 欧美成人区| 日韩在线永久免费播放| 亚洲天堂日本| 白丝美女办公室高潮喷水视频| 国产亚洲精久久久久久无码AV | 好紧好深好大乳无码中文字幕| 国产精品无码一区二区桃花视频| 久久国产拍爱| 亚洲综合亚洲国产尤物| 亚洲无线一二三四区男男| 97精品国产高清久久久久蜜芽| 六月婷婷精品视频在线观看 | 欧美亚洲日韩中文| 成人国产一区二区三区| 女人18一级毛片免费观看| 无码高潮喷水在线观看| 国产精品主播| 女人18一级毛片免费观看 | 亚洲国产精品日韩欧美一区| 手机精品福利在线观看| 国产免费网址| 日韩123欧美字幕| 成人午夜视频在线| 国产成人8x视频一区二区| 91成人在线观看| 日韩高清无码免费| 亚洲精品第1页|