李王輝,白鋼華,李素娟
(鶴壁職業(yè)技術學院,河南 鶴壁 458030)
近幾年,隨著生活水平的提高和科技的進步以及眾多公共場所的人流量的持續(xù)增加,公共場所的安全防控和犯罪調(diào)查應用也越來越廣泛,但是在多個攝像頭搜集到目標人物信息后還需要進行重新匹配和識別,當前受拍攝角度、光照強度等因素的影響,大多采用人工的方式對信息進行提取,這不僅會消耗大量的人力物力,而且還無法保證其準確率,基于FPGA深度學習的行人重識別的研究應運而生[1]。
基于FPGA深度學習的行人重識別是在深度學習的技術下利用計算機視覺技術對特定圖像中行人目標進行判定的研究,能夠通過已知的所監(jiān)控行人的圖像,來實現(xiàn)對行人圖像的搜索,這極大地提高了視頻監(jiān)控的自動化、智能化水平,為日后更進一步研究打下良好的基礎,提高解決失蹤兒童的尋找、公共事件的解決等問題的效率,推動城市建設朝著智能化方向發(fā)展。本設計采用深度學習的卷積神經(jīng)網(wǎng)絡方法,在FPGA硬件上實現(xiàn)對行人重識別技術的研究,提高對行人的檢測和識別能力。
深度學習是指計算機模擬人腦對圖像數(shù)據(jù)分析的方式而設計出來的神經(jīng)網(wǎng)絡模型。它并不是人們認為的一種僅僅只是相比較傳統(tǒng)學習算法更深層次的機器算法,這里的深度是指相較之前的更深更廣的神經(jīng)網(wǎng)絡。這種深度學習減少了人們在設計上的工作量,極大地提高了計算機視覺自動學習針對特征提取的方法,同時將這一方法應用到模型訓練上。目前,圖像識別與檢測的算法大多基于深度學習中的卷積網(wǎng)絡[2]。
Improved DL網(wǎng)絡是使用暹羅結構的卷積神經(jīng)網(wǎng)絡來進行圖像特征提取的。在使用該網(wǎng)絡的過程中根據(jù)每個圖像之間的不同點,利用柔性函數(shù)來對兩者之間的相同之處進行比對,利用softmax公式的概率計算方法來判別相似度。
本研究主要是研究行人重識別的相關問題,利用相關的圖像識別模型,從已建立的圖像數(shù)據(jù)庫找出相似度最高的圖像。如圖1所示。從圖1可知,針對行人重識別的步驟主要由兩部分組成:一是針對待查詢圖像的特征進行提取,然后根據(jù)特定的網(wǎng)絡將提取的特征進行處理,輸出符合距離度量要求的圖像特征。二是距離度量,將第一步得到的圖像特征與從數(shù)據(jù)庫提出的相對比,識別兩者之間的相似度,從而判別所查詢的圖像是否與候選庫中的行人是否為同一人。

圖1 行人重識別流程圖
本文利用改進后的Improved DL網(wǎng)絡結構,通過利用所輸入的160×60的行人圖像,通過對網(wǎng)絡結構的流程設計,最后用softmax公式來預測輸入圖像與模型的相似度。softmax損失函數(shù)多被用于解決多分類問題。行人重識別問題也被視為多分類問題。目前,softmax損失函數(shù)被廣泛用于各種基于深度學習的行人重識別方法中。本章也將softmax函數(shù)作為損失函數(shù)來完成分類任務。

在網(wǎng)絡結構中,行人重識別問題被視為多分類問題,對于第i個學習到的特征,softmax損失函數(shù)如下:式中,KC是類c的權重;D是在訓練集中包含的行人身份類的數(shù)量;M是在訓練進程中的一個批量圖像集的大小。在Improved DL網(wǎng)絡模型中,提取出來的特征皆在softmax損失函數(shù)中被使用。Improved DL的總損失函數(shù)則是所有損失函數(shù)的總和。
本研究是利用Market-1501數(shù)據(jù)庫來對本次網(wǎng)絡結構進行測試,部分示例如圖2所示。

圖2 Market-1501數(shù)據(jù)庫部分示例圖
為防止在比對樣本時出現(xiàn)過擬合現(xiàn)象,本研究需要對簡單圖像的選取范圍擴大,同時利用平移變化技術,提高數(shù)據(jù)識別的準確度。
在行人重識別中,測試階段將待查詢目標行人圖像與候選圖像集中的每一個圖像進行相似性比較并排序。若在相似性序列中存在與待查詢目標行人身份相同的圖像,則表示匹配成功,其匹配成功的行人圖像在相似性序列位置的越前端網(wǎng)絡模型性能越好。因此,在相似性序列中前n范圍內(nèi)匹配成功的圖像數(shù)量與序列中行人圖像總數(shù)的比值大小被稱為累積匹配率Rank-n或Top-n。在這里n通常取值為1,5,10,20。例如,Rank-5代表相似性序列的前5中有待查詢目標行人的概率。本文中所運用的行人重識別評價標準是利用最常用的rank-1和CMC曲線來對比本文所涉及的改進后的Improved DL網(wǎng)絡結構的性能,以此對行人識別的準確率進行評價[3]。
(1)rank-1是第一匹配率,是指第一張圖像的平均正確率,它是按照相似度對查詢到的匹配圖像進行計算,這是評價所識別模型的性能最直觀的指標之一,其數(shù)值越高表示該模型識別能力越強。
(2)CMC曲線是對整個行人圖像識別的橫向比較,表示的是從第一張到第n張的識別準確率的概率,從而也證明了此識別模型的檢索能力,也驗證了所使用模型的優(yōu)越性[4]。
以往利用通用處理器或圖像處理器來對深度學習方式進行實現(xiàn),但是這種方式雖然能夠滿足一般性能,但是CPU計算能力有限,很難滿足更高效更快速的運算能力,而GPU的靈活性差,只能進行單一的調(diào)用,無法實現(xiàn)多個數(shù)據(jù)平行調(diào)用的處理。FPGA的出現(xiàn)能夠很好的解決上述問題,其獨特的優(yōu)勢有效地實現(xiàn)了算法的硬件加速。
本研究通過對硬件電路的設計,在經(jīng)過軟件模型訓練后轉化到硬件電路上,利用FPGA硬件加速,實現(xiàn)對行人重識別的目的。如圖3所示。

圖3 FPGA硬件結構圖
其研究主要分為三個模塊:
(1)SD卡控制模塊。本模塊主要包含兩個功能模塊:初始化和讀取。SD卡控制模塊與SD卡之間通過SPI通信接口連接,首先是發(fā)布初始化命令對SD卡進行初始化,完成后,執(zhí)行讀取操作讀取SD卡中的存儲的網(wǎng)絡參數(shù)和行人圖像。
(2)網(wǎng)絡運算模塊。網(wǎng)絡運算模塊是FPGA硬件的重要運算核心,它內(nèi)部的各個模塊彼此之間相互配合相互獨立,共同實現(xiàn)運算功能。
(3)頂層控制模塊。頂層控制模塊將網(wǎng)絡運算模塊與SD卡模塊相連接,控制兩者間的數(shù)據(jù)傳輸和控制。處理好各個網(wǎng)絡運算模塊的數(shù)據(jù)傳輸才能實現(xiàn)頂層控制模塊的邏輯功能的更優(yōu)化設計,才能實現(xiàn)整個FPGA硬件的功能。
實驗之前首先要對參數(shù)進行配置。首先優(yōu)化網(wǎng)絡輸出的平均損失,反向計算mini-batch上的梯度,同時更新網(wǎng)絡參數(shù),在訓練過程中不斷改進,直至所得數(shù)據(jù)曲線收斂為止;然后用正負樣本的方式進行對比,同時按照1∶1的比例進行100 000次迭代;最后采用單例查詢設置進行測試。
本研究選擇rank-1匹配率及CMC曲線對所得的實驗結果進行分析,得出此次測試的有效數(shù)據(jù)指標。利用改進后的網(wǎng)絡與原來的Improved DL網(wǎng)絡的對比,取Rank-n的最大值為20,而后繼續(xù)進行試驗。將所得的所有的試驗結果繪制成CMC曲線圖。如圖4所示。

圖4 CMC曲線對比圖
由圖4可知,本文選用的網(wǎng)絡的rank-1的數(shù)值略低于原有Improved DL網(wǎng)絡,但是對于rank-n的數(shù)值增加,兩者的數(shù)值趨于一致,由此可得,改進后的網(wǎng)絡對rank-1的影響較小,重合度高,其性能基本一致,也證明了本研究的必要性。將本次結果與LMNN, MCML,ITML, KISSME, XQDA的網(wǎng)絡進行對比。
通過實驗對比可知,本文所選用的網(wǎng)絡匹配率為55%,相比較其他網(wǎng)絡都有較高的優(yōu)勢,這就證明了本次所選網(wǎng)絡的優(yōu)越性,同時從數(shù)據(jù)上也顯示出了本次所選FPGA與深度學習技術在行人重識別中發(fā)揮的重要作用。
本文是以FPGA為核心硬件,通過深度學習的Improved DL網(wǎng)絡來對行人重識別算法進行改進研究,通過數(shù)據(jù)證明了本研究的必要性。基于FPGA深度學習的行人重識別研究還需要進一步去研究,不僅是要提高深度學習技術能力,還要對FPGA進一步優(yōu)化,以求設計出功能更為強大、性能更為優(yōu)越的行人重識別算法,推動行人重識別的發(fā)展,為保障公共安全、尋找失蹤兒童等做出更大的貢獻。相信隨著FPGA加速深度學習技術研究的成熟,F(xiàn)PGA硬件加速器將被應用到更多的領域中■