基于全景視頻的監(jiān)控系統(tǒng)

2016-09-23 05:51:49譚秀峰

現(xiàn)代計算機 2016年3期

關鍵詞：特征

譚秀峰

（四川大學計算機學院，成都　610065)

李佳

(四川大學計算機學院，成都　610065)

張昭旭

（四川大學計算機學院，成都　610065）

岳鑫，高飛

（西安工業(yè)大學理學院，西安　710021）

基于全景視頻的監(jiān)控系統(tǒng)

譚秀峰

（四川大學計算機學院，成都610065)

0　引言

傳統(tǒng)的視頻監(jiān)控系統(tǒng)使用的普通相機，視野范圍狹窄，只能監(jiān)控有限的場景。在需要監(jiān)控大場景的情況下，往往安放多個攝像頭對某個特定的區(qū)域進行監(jiān)控。然而這種解決方案往往分散了監(jiān)控人員的注意力，以致對偶發(fā)的事件不能及時發(fā)現(xiàn)和追蹤。全景視頻監(jiān)控系統(tǒng)能比以往的單一視點的監(jiān)控提供更全面的信息，消除監(jiān)控的盲區(qū)。

全景監(jiān)控系統(tǒng)的關鍵是生成全景圖像，以及全景視頻的播放。在生成全景圖像領域，目前全景圖像可以通過單一的魚眼相機或者特定的全景攝像機獲得，但是比較昂貴。另一種方法是通過對同步采集到的幀做幀間拼接獲得全景圖像，該方法成本低，效果良好[1-2]。本文實現(xiàn)了一種基于SURF算法的全景圖像拼接算法，并將其應用于基于多投影儀的全景視頻監(jiān)控系統(tǒng)。

1　全景視頻拼接中特征點的匹配優(yōu)化

1.1基于SURF算法的特征點提取和粗匹配

SURF算法發(fā)源于SIFT算法，由于采用了積分圖和近似高斯二階導數(shù)卷積核，SURF算法提高了運算效率。而SURF算法特征點提取匹配可以分為以下幾步：①構造尺度空間；②特征點提取；③特征向量提取；④特征點匹配[3-4]。

對于圖像I中的給定點（x，y），在尺度σ下的Hessian矩陣為：

其中Lxx（x，y，σ）是高斯二階導數(shù)與圖像I在點（x，y）處的卷積，Lxy（x，y，σ）和Lyy（x，y，σ）同理可得。為了減小計算量，SURF算法使用了高斯二階導近似模板對圖像卷積以及積分圖像的使用。此時，由于函數(shù)模板的近似，需要修正特征值的求解公式：

權重系數(shù)0.9是為了平衡Hessian行列式，保持高斯核與近似高斯核的一致性。尺度空間中，對每一個像素都有的3×3×3的鄰域作非極大抑制，得到可能的特征點，然后根據(jù)設定的閾值篩選。

為了保證SURF算法對圖像旋轉具有不變性，引入特征點主方向。方法為確定一個以特征點為圓心，半徑為6個像素的圓形區(qū)域，然后計算區(qū)域內(nèi)每個像素點在x和y方向上的一階導數(shù)并將區(qū)域等分成12個扇形區(qū)域，分別將求得的導數(shù)按區(qū)域進行累加得到12個二維向量，取模最長向量作為主方向。然后以特征點為中心，按照主方向選取20×20像素矩形鄰域，并將矩形鄰域劃分成4×4個更小的矩形。分別求解其中每個像素點的一階導數(shù)，將其響應值和絕對值分別累加得到一個四維向量：Σdx，Σdy，Σ|dx|，Σ|dy|），所有4×4領域的向量連接起來就得到64維的特征向量。如圖1所示。

圖1　

特征點的匹配，先設定一個閾值，用兩個特征點對應的特征向量作內(nèi)積運算，如果這兩個向量的內(nèi)積大于這個閾值，那么就認為這兩個特征點成功匹配，如果內(nèi)積小于閾值，認為這兩個特征點匹配失敗。SURF算法為了提高匹配速度引入了k-d樹，k-d樹是一種在多維空間中對向量進行快速檢索的算法，對多維向量空間進行遞歸式二分來構造k-d樹數(shù)據(jù)結構。

1.2基于RANSAC算法的特征點匹配優(yōu)化

RANSAC算法是根據(jù)一組包含異常數(shù)據(jù)的樣本數(shù)據(jù)集，計算出數(shù)據(jù)的數(shù)學模型參數(shù)，得到有效樣本數(shù)據(jù)的算法。假設Sij={（pik，pjk）}（k=1，2，3，4，…，N）是SURF算法給出的兩幅圖像的匹配點對集。i代表圖像i，j代表圖像j，k代表圖像i和圖像j的k個匹配點對。由圖像單應變換模型可知在Sij上有以下數(shù)學模型：

取dis（ijk）＜δ的匹配點對構造內(nèi)點集合Sn。對應的為RANSAC算法給出的單應矩陣在S上的解。ij

2　基于多投影拼接的全景監(jiān)控系統(tǒng)

傳統(tǒng)攝像頭的視角有限，只能看到攝像頭前方少部分的場景。對于全景監(jiān)控系統(tǒng)，需要能捕捉涵蓋整個半球的視場圖像。這樣的全景監(jiān)控系統(tǒng)可連續(xù)觀察其周圍360°全景范圍內(nèi)所發(fā)生的所有事件，因而可以獲得較高的視頻監(jiān)控可靠性。但是拼接得到的全景圖在普通的顯示屏上，顯示出來的圖形是扭曲的，又在全景播放系統(tǒng)中需要完成圖像校正和多通道之間的同步，需要使用特殊的球幕[5]。如圖2所示。

圖2　

渲染全景圖像的過程與上章節(jié)獲取全景圖的過程正好相反，渲染全景圖是將該全景圖作為紋理，貼到球模型上。在OpenGL中，貼紋理需要將紋理坐標與點的空間三維坐標一一對應[6]，這里將全景圖分割成360× 180個小正方形，這樣渲染出來的全景精度足夠，紋理坐標以圖像的左下角為（0，0）點，向上為y軸正方向，向左為x軸正方向，這樣很容易就能得到對應點的紋理坐標，同時，由于全景圖中經(jīng)緯度坐標是等間距分布的，這里假設圖像最左下角為（0°，0°），求出每個點對應的經(jīng)緯度坐標。

球幕全景播放系統(tǒng)中，需要的參數(shù)為完整全景圖的寬度fullWidth，因為使用的全景圖是等距圓柱投影產(chǎn)生的，完整全景圖的高度是寬度的一半。那么需要渲染部分的起始點坐標（x，y），需要渲染部分的寬度和高度為（width，height），如圖3所示：

圖3　

需要渲染的是圖中的小矩形部分，將小矩形分割成360×180個小矩形，計算每個小矩形的紋理坐標以及對應的三維空間坐標，這樣，就獲取了所有點的紋理坐標和三維坐標了。

3　實驗結果及分析

實驗程序在CPU為Intel Core i7-3770@3.40Ghz，8.00GB內(nèi)存，顯卡為NVIDIA GeForce GTX 650環(huán)境下進行，測試圖像來源于華途相機（HT-PA系列）在某停車場采集到的8路視頻源分別抽取的同步后的幀圖。相關算法使用Microsoft Visual Studio 2010和OpenCV 2.11編程實現(xiàn)。輸入圖像如下：

圖4　

圖5　

圖6　

圖7　

圖8　

圖9　

圖10　

圖11　

圖12　

如上實驗圖所述，圖4到圖11為拍攝到的圖像序列集，圖12為最終的全景拼接圖像。將輸入視頻源的每一幀都經(jīng)過如此處理得到全景視頻的一幀，作為全景球幕的輸入源。結果如下。

圖13圖14圖15是分別從球幕的左、右、中拍攝的球幕播放圖。其中椅子的位置為最佳視角，能觀測到未變形的全景圖。

圖13　

圖14　

圖15　

結合本文所述方法，在監(jiān)控領域要求視角廣，采集圖像易受環(huán)境影響的前提下生成全景圖具有良好的拼接效果，全景視頻的播放也能達到預期的身臨現(xiàn)場的體驗。為后續(xù)實時全景監(jiān)控提供了一種思路。

4　結語

本文研究了一種基于全景視頻的監(jiān)控系統(tǒng)方法，在實驗結果中能取得較好的效果。后續(xù)需要研究如何在要求實時監(jiān)控的背景下做自適應的圖像拼接以及播放。

參考文獻：

[1]HU Wuchih，HUANG Dengyuan，CHEN Weihao.Adaptive Wide Field-of-View Surveillance Based on an IP Camera on a Rotational Platform for Automatic Detection of Abandoned and Remove Objects[J].ICIC Express Letters Part B:Applications，2010（1）:45-50.

[2]苗立剛.視頻監(jiān)控中的圖像拼接與合成算法研究[J].儀器儀表學報，2009，30（4）：857-861.

[3]劉奇，何明一.基于SURF特征匹配的圖像拼接算法[J].測控技術，2010，29（10）：27-31.

[4]張銳娟，張建奇，楊翠.基于SURF的圖像配準方法研究[J].紅外與激光工程，2009，38（1）：160-165.

[5]郭俊美.基于圖像的柱面全景圖生成技術研究[A].失效分析與預防，2012.

[6]肖源源，王子牛.基于VC++的OpenGL紋理映射技術的研究與實現(xiàn)[J].貴州大學學報，2008（02）：158-160.

作者簡介：

譚秀峰（1989-），男，四川達州人，在讀碩士研究生，研究方向為圖形圖像技術

收稿日期：2015-12-15修稿日期：2016-01-10

基于SAD的直方圖匹配算法在超聲彈性成像上的應用

李佳

(四川大學計算機學院，成都610065)

摘要：

超聲彈性成像自提出以來成為一個研究熱點，但由于彈性成像的成像原理，彈性圖像上一般都有彈性噪聲，為了降低噪聲，提高彈性圖像質(zhì)量，研究基于SAD的直方圖匹配算法在超聲彈性成像上的應用，通過改進相似度的計算方法，提高彈性圖像的去噪質(zhì)量。

關鍵詞：

SAD直方圖匹配算法；超聲彈性成像；相似度

文章編號：1007-1423（2016）03-0037-04

DOI：10.3969/j.issn.1007-1423.2016.03.009

0　引言

當今社會，伴隨著超聲診斷技術的日益發(fā)展，將計算機成像技術應用于超聲診斷成為了超聲診斷的一個重要研究方向，超聲診斷系統(tǒng)因其無痛無創(chuàng)，價格低廉，實時可重復的特點，廣泛的被應用于醫(yī)療臨床診斷當中。其中超聲彈性成像作為一種新興的超聲診療手段，通過對組織施加一個內(nèi)部（包括自身的）或外部的動態(tài)或者靜態(tài)/準靜態(tài)的激勵，根據(jù)組織壓縮形變前后的回波信號計算出應變分布，以此表征其彈性特征信息來幫助臨床醫(yī)生診斷組織是否發(fā)生病變，因而成為了目前一個研究熱點，但是由于超聲成像的特點，與所有超聲成像一樣，超聲彈性圖像密布著細條紋狀的彈性噪聲，影響圖像質(zhì)量。

基于SAD的直方圖匹配算法在直方圖匹配算法的基礎上，改進了參考直方圖與局部直方圖相似度的計算方法，根據(jù)不同的相似度對局部區(qū)域進行相應強度的平滑濾波，從而達成圖像去噪的目的，本文調(diào)整了一般直方圖匹配算法中關于相似度的計算方法，并應用于實驗。

1　超聲彈性成像基本原理

超聲彈性成像的基本原理是對組織施加一個內(nèi)部（包括自身的）或外部的動態(tài)或者靜態(tài)/準靜態(tài)或者動態(tài)的激勵[1]，在彈性力學、生物力學等物理規(guī)律作用下，組織將產(chǎn)生一個響應，例如位移、應變、速度的分布有一定的差異。在物理學中，彈性體受力會產(chǎn)生形變，形變的大小會反映此彈性體的硬度，而從生物學的角度來看，生物組織的彈性和組織的分子結構相關，組織的硬度特征與病理密切相關，超聲彈性成像根據(jù)不同的生物組織之間的彈性系數(shù)不同，收到外部激勵后產(chǎn)生的形變程度不同，反映在圖像上的灰度不同來判斷組織硬度。

2　基于SAD的直方圖匹配算法

2.1基于SAD的直方圖匹配算法

基于SAD的直方圖匹配算法與傳統(tǒng)的直方圖匹配算法的基本思想是相同的，其核心思想是通過定義一個由已知斑點區(qū)域產(chǎn)生的參考直方圖，通過比較圖像區(qū)域直方圖與參考直方圖的相似度確定一個區(qū)分噪聲區(qū)域和包含診斷信息區(qū)域的判斷因子，這樣一個區(qū)域與參考區(qū)域的相似度越高，則對該區(qū)域施以相應強度的平滑濾波，反之相似度越低，施以越弱的平滑濾波或不進行濾波操作。

由于直方圖的表示并不具備唯一性，表示直方圖使用的區(qū)間個數(shù)會決定這個曲線的平滑度（這是在噪聲容納度和相似度函數(shù)敏感性之間的一種權衡），因此需要決定從有限樣本集中劃分多少個區(qū)間來表示一個有統(tǒng)計意義的直方圖。在這個研究中，采用表示置信度為95%的高斯分布的區(qū)間個數(shù)為：

其中n為局部窗口中的像素點總個數(shù)。

這里需要說明的是雖然在我們研究的問題中超聲斑點噪聲的概率分布函數(shù)是瑞利分布或雙指數(shù)分布，但仍然使用上式作為得到表示直方圖區(qū)間個數(shù)的一種合理的近似。

為了獲取可靠的斑點噪聲統(tǒng)計信息，直方圖匹配窗口應該至少覆蓋一個分辨率單元。對于掃描深度Zmm和軸向N個像素，軸向窗口的大小最小為：

其中ΔT是脈沖寬度，C0是聲速，N表示采樣點個數(shù)，由于一個分辨率單元總是具有軸向1.5倍脈沖寬度和橫向一個波束寬度的尺寸，有時就需要根據(jù)傳感器探頭，掃描深度和圖像大小來增加窗口的大小。

在傳統(tǒng)的直方圖匹配算法中，兩個直方圖相似度值通過一個用戶可控的高斯誤差函數(shù)：

而本文使用的基于SAD的直方圖匹配算法在相似度的計算上則采用尋找直方圖質(zhì)心和SAD（絕對值差）的方法來加快相似度計算的運算速度，同時也使相似度的計算方式更為合理，相似度結果更符合實際情況，相似度計算方法如下：

首先定義存放參考直方圖和當前處理的局部直方圖ref和tm，處理窗口為M×N，通過SAD運算可得到兩個直方圖的差，其中LRANGE和RRANGE是ref和tm左邊和右邊最大的有效范圍，這里定義的是非零區(qū)間，定義為下式：

RRange=max（RRref，RRtm）

其中ref和tm的LR和RR分別為：

LRref=Cref-Lref+1，LRtm=Ctm-Ltm+1

RRref=Rref-Cref+1，RRtm=Rtm-Ctm+1

其中Lref和Ltm是ref和tm的左端非零區(qū)間，而Rref和Rtm是的右端非零區(qū)間。質(zhì)心Cref和Ctm可由下面的式子得到：

從而局部區(qū)域與噪聲區(qū)域的相似度可定義為：

S=1-ρ

根據(jù)上述公式獲得相似度后，根據(jù)相似度來自適應的平滑被處理的像素p。像素會通過以下計算公式被更新：

2.2基于SAD的直方圖匹配算法流程

基于SAD的直方圖匹配算法處理過程主要包括圖像輸入、參考直方圖生成、相似度表建立、自適應平滑濾波以及圖像輸出等過程，算法的整個處理流程如圖1所示。

按照處理方式的性質(zhì)，可以把算法分為以下五個階段：

①初始化計算：算法中初始數(shù)據(jù)包括原始圖像、參考直方圖、設置平滑度向量以及相似度向量等。由于彈性成像沒有標準噪聲分布直方圖，因此需要用戶選擇參考噪點；

②直方圖計算：計算以每個像素點為中心的局部窗口和與均值用于確定閾值；

③相似度計算：使用尋找直方圖質(zhì)心和SAD（絕對值差）的方法獲得相似度值并保存并保存到相似度矩陣，對相似度矩陣采用雙線性插值的方法來獲取新的相似度矩陣以用于確定平滑濾波；

④平滑濾波：根據(jù)當前像素點的相似度值選擇平滑濾波系數(shù)和窗口大??；

⑤圖像后處理。

圖1　

圖2　

3　實驗結果

由于彈性噪聲和斑點噪聲的成像原理和紋理不同，彈性噪聲的形狀一般為細長條狀，因此采用的局部匹配窗口為長方形，根據(jù)實驗表明，最佳匹配窗口的長度大于縱向分辨率，而寬度與橫向分辨率接近。

本文實驗中采用高度仿真的人體組織彈性模型，衰減系數(shù)為0.5dB，并在不同深度嵌有8個不同直徑，不同硬度的球形硬塊，待處理圖像是掃描器深度為4cm,直徑為2cm的球形硬塊的彈性圖像，噪聲匹配窗口大小為70×20（像素×像素），噪聲生長值設置為0.25，平滑度設置為1，采用本文算法對彈性圖像去噪后的圖像結果對比如圖2。

4　結語

本文將基于SAD的直方圖匹配算法用于超聲彈性圖像上，相較于傳統(tǒng)的直方圖匹配算法，圖像去噪效果得到了一定提高。

參考文獻：

[1]徐智章，俞清.超聲彈性成像原理及初步應用.上海醫(yī)學影像，2005，14（1）.

[2]Xiaoying Li,Dong C.Liu.Ultrasound Speckle Reduction Based on Image Segmentation and Diffused Region Growing[J].Proceedings of the 11th Joint Conference on Information Science,Shenzhen,China,December 15-19 2008,pp.34-40

[3]Dong C.Liu,S.Czenszak，J.Kim.Adaptive Speckle Reduction with Color Transparency Display[J].Proc.of IEEE Ultrason.Symp,pp. 1611-1614,1998.

作者簡介：

李佳（1991-），女，遼寧海城人，本科，研究方向為醫(yī)學超聲圖像處理

收稿日期：2015-12-17修稿日期：2016-01-12

Application of Elastography Using SAD-Based Histogram Speckle Reduction Algorithm

LI Jia
（College of Computer Science,Sichuan University,Chengdu 610065）

Abstract：

In ultrasound elastography,there are some noises in the image,applies the SAD-based histogram speckle reduction algorithm to the ultrasound elastography for the purpose of reducing the noise and improving the quality of the image,it can improve the way of calculating the similarity,improve the image quality.

Keywords：

SAD-Based Histogram Speckle Reduction Algorithm;Ultrasound Elastography

Monitoring System Based on Panoramic Video

TAN Xiu-feng
（College of Computer Science，Sichuan University，Chengdu 610065）

Abstract：

In recent years,with the rapid development of computer technology,computer vision has received great attention.Studies a collected by synchronizing the camera frame which applies in the image panoramic image stitching,and the results are not distorted output to a specific screen play ball.This can obtain a proximity to the scene of monitoring experience;can be achieved and monitoring personnel at the scene considerable effect.Experimental results show that this method can be applied to the field of view monitoring,with high practical value.

Keywords：

Panoramic Monitoring;Panorama;Panoramic Video;Panoramic Play

CNN深度學習模型用于表情特征提取方法探究

張昭旭

（四川大學計算機學院，成都610065）

摘要：

卷積神經(jīng)網(wǎng)絡（CNN）作為一種深度學習架構，在精確提取圖像特征的同時降低模型復雜度。針對CNN在圖像識別方面的優(yōu)勢，提出一種基于CNN的人臉表情特征提取方法。使用具有8層網(wǎng)絡結構的AlexNet模型對融合的人臉表情圖像進行特征提取，再使用支持向量機（SVM）進行分類預測。將預測結果與一些經(jīng)典方法如SVM、PCA等做比較，可以發(fā)現(xiàn)在樣本圖片拍攝條件變化較大的情況下，CNN在提取圖像本質(zhì)特征方面有其他方法不可比擬的效果。

關鍵詞：

深度學習；卷積神經(jīng)網(wǎng)絡；AlexNet；人臉表情識別；特征提取

文章編號：1007-1423（2016）03-0041-04

DOI：10.3969/j.issn.1007-1423.2016.03.010

0　引言

近年來，人機智能交互引起人們越來越多的興趣，尤其是通過語音和肢體動作來進行人機交互的方法。面部表情識別對于機器理解和識別人類情緒有至關重要的作用[1]。人臉面部表情識別的方法很多，根據(jù)提取特征的不同分為基于運動與基于形變的表情特征提取。基于運動的特征提取方法，是根據(jù)表情圖像的特征點相對位置和距離變動，反映表情變化，包括光流法、運動模型、特征點跟蹤等?；谛巫兊奶卣魈崛》椒?，使用活動外觀模型（AAM）、點分布模型（PDM）等基于模型的方法，或Gabor變換、主成分分析（PCA）等基于圖像的方法，獲取面部圖像形狀或紋理上的變化特征[2]。

深度學習（Deep Learning，DL）是機器學習研究中的一個新的領域，源自人工神經(jīng)網(wǎng)絡，其動機在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡，它模仿人腦的機制來解釋圖像、聲音、文本等數(shù)據(jù)。深度學習屬于無監(jiān)督學習，通過組合低層特征形成更加抽象的高層特征或?qū)傩蕴卣?，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示，學習更有用的特征，從而最終提高分類或預測的準確性[3]。卷積神經(jīng)網(wǎng)絡（CNN）是深度學習框架的一種。CNN的特征檢測層通過訓練數(shù)據(jù)進行學習，所以在使用CNN時，避免了顯式的特征抽取，而隱式地從訓練數(shù)據(jù)中進行學習；再者由于同一特征映射面上的神經(jīng)元權值相同，所以網(wǎng)絡可以并行學習。CNN以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性，其布局更接近于實際的生物神經(jīng)網(wǎng)絡，權值共享降低了網(wǎng)絡的復雜性，特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復雜度[5]。

1　卷積神經(jīng)網(wǎng)絡（CNN）

1.1卷積神經(jīng)網(wǎng)絡（CNN）

卷積神經(jīng)網(wǎng)絡（CNN）是一個多層的神經(jīng)網(wǎng)絡，它的基本結構就是輸入層、卷積層（conv）、子采樣層（pooling）、全連接層、輸出層（分類器）。一個經(jīng)典的CNN結構如圖1所示。

圖1　一個經(jīng)典的CNN結構圖

（1）卷積網(wǎng)絡中層與層之間變換都是一個特征提取的過程，得到的每一層由多個二維平面組成，每個平面為特征處理后的特征映射圖（feature map，簡稱fm）。輸入層原始圖像，網(wǎng)絡中的每一個特征提取層（卷積層）都緊跟著一個二次提取的計算層（子采樣層），這種特有二次特征提取結構使得卷積網(wǎng)絡對輸入數(shù)據(jù)有較大形變時具有一定的容忍能力。卷積層+子采樣層一般會有若干個，具體的操作過程如下：

①卷積過程：用一個可訓練濾波器fx對輸入圖像（或上一層的feature map）進行卷積處理，而后加上偏置bx，得到卷積層Cx；

②子采樣過程：對每個鄰域內(nèi)四個像素求和得到一個像素，通過標量Wx+1加權，然后增加偏置bx+1，再通過一個sigmoid激活函數(shù)，得到一個縮小約為1/4的特征映射圖Sx+1。

卷積和子采樣的過程如圖2所示。

圖2　卷積和子采樣過程圖

卷積層是特征提取層，使用卷積運算可以使原信號特征得到增強，同時降低噪音。子采樣層用于二次特征提取，可看作一個模糊濾波器。

（2）全連接層（F層）相當于傳統(tǒng)神經(jīng)網(wǎng)絡中多層感知機（MLP）中的隱含層（HiddenLayer），與上一層是全連接的，計算過程是將上一層輸出結果乘以權重向量，再加上一個偏置，然后將其傳給sigmoid函數(shù)。

（3）輸出層，及分類層，由歐式徑向基函數(shù)（Euclidean Radial Basis Function）單元組成，每個類別對應一個單元。輸出層使用Logistics回歸，計算輸入樣本屬于各類別的概率。

1.2CNN用于圖像分類

CNN是人工神經(jīng)網(wǎng)絡的一種，是當前語音分析和圖像識別領域的研究熱點，其最著名的特點是局部感受野和權值共享機制。輸入圖像的一小部分區(qū)域（局部感受區(qū)域）作為CNN層級結構中最低層的輸入，依次傳輸?shù)较乱粚?，每層都通過數(shù)字濾波器獲取數(shù)據(jù)最顯著的特征。一個映射面上的神經(jīng)元使用的權值相同，網(wǎng)絡參數(shù)的個數(shù)會減少很多，降低了參數(shù)選擇帶來的復雜度，使得特征映射具有唯一不變形。在輸入數(shù)據(jù)為多維圖像時這些優(yōu)點尤為明顯，圖像可以直接作為網(wǎng)絡輸入，避免了傳統(tǒng)方法中復雜的特征提取和數(shù)據(jù)重建過程。

CNN起初用于ImageNet（目前圖像識別領域最大的數(shù)據(jù)庫），分類效果得到大幅度提高，結果令人驚嘆，很好地回應了外界對于Deep Learning的質(zhì)疑[6]。目前基于CNN的深度學習方法在圖像識別領域有比較深入且廣泛的研究和應用[4-5]。

2　AlexNet

在ImageNet上的圖像分類比賽中，AlexNet網(wǎng)絡結構模型贏得了2012屆的冠軍，是CNN的經(jīng)典模型。在AlexNet提出者的著作中其結構如圖3所示。

AlexNet共有8層，其中5個為卷積層，2個為全連接層，1個是輸出分類層。其中：

（1）第一和第二個卷積層后分別緊跟一個歸一化層（norm層）；

圖3　AlexNet網(wǎng)絡結構圖

（2）子采樣操作緊跟在第一第二個norm層，以及第5個卷積層后；

（3）最后一層是具有1000個輸出的類別判定層，針對ImageNet的1000類圖片。

AlexNet的倒數(shù)第二層能夠很好地描述圖像的全局特征，所以使用其倒數(shù)第二層的輸出作為圖像的特征，能夠很好地描述圖像，很適合用于圖像分類。本文使用AlexNet網(wǎng)絡模型對人臉表情圖像進行特征提取。

3　Caffe

Caffe是一個清晰高效的深度學習框架，它具有以下優(yōu)點：

（1）上手快：可指定網(wǎng)絡模型與相應配置，無須編碼。

（2）速度快：快速運行、處理海量數(shù)據(jù)，可實現(xiàn)GPU 和CUP無縫切換。

（3）模塊化：可使用Caffe提供的類型自定義模型，便于擴展。

（4）開放性：可再現(xiàn)公開的代碼和網(wǎng)絡模型。

在Caffe平臺上可以使用提供的各種網(wǎng)絡模型（如AlexNet）對數(shù)據(jù)進行訓練，或使用訓練好的模型提取新數(shù)據(jù)特征和分類等。

4　實驗

4.1實驗設計

（1）實驗數(shù)據(jù)

實驗所使用的圖片集融合了以下三部分：

①日本女演員表情庫（JAFFE）；

②部分CK+數(shù)據(jù)庫內(nèi)表情達到峰值時的表情；

③使用攝像頭采集的部分人臉表情圖。

此數(shù)據(jù)集中共包含295張正面人臉表情圖像，既有亞洲也有歐美的，又有彩色的也有黑白的，且光照角度等不盡相同。這樣選擇的數(shù)據(jù)集覆蓋了膚色、民族和色彩維度的各種變化，能夠有力地衡量特征提取方法的魯棒性。表情共分7種類型，分別為neutral，happy，disgust，angry，fear，sad和surprise。每張圖片自帶類標，以便訓練和預測時統(tǒng)計預測正確率。

部分表情數(shù)據(jù)集圖片如圖4所示。

圖4　樣本圖片集部分預覽

（2）實驗步驟：

①指定模型文件和配置文件，指明使用AlexNet網(wǎng)絡模型處理輸入圖像；

②將實驗圖像集隨機分為訓練集（275張）和測試集（20張），并尺寸歸一化為256×256；

③將尺寸歸一化后的所有295張人臉表情圖像分別作為輸入數(shù)據(jù)，直接輸入Caffe進行特征提?。?/p>

④將AlexNet倒數(shù)第二層（第7層）的輸出結果作為Caffe提取的相應圖片的深度特征；

⑤使用LibSVM對訓練集進行歸一化、交叉驗證、參數(shù)尋優(yōu)等一系列操作，繼而對測試數(shù)據(jù)進行預測，得到預測結果1。

（3）對比試驗：

①將尺寸歸一化后的圖像灰度化后直接作為訓練數(shù)據(jù)和測試數(shù)據(jù)輸入LibSVM，得到預測結果2；

②使用PCA對原始數(shù)據(jù)進行特征提取，得到eigenface特征，并使用LibSVM對訓練集和測試集的eigenface進行訓練和預測，得到預測結果3。

4.2實驗結果

AlexNet倒數(shù)第二層提取的特征作為特征1，直接灰度化后的圖像作為特征2，PCA處理后得到的eigenface作為特征3，分別輸入LibSVM進行訓練、分類。使用三種方法提取特征的預測結果如表1所示：

表1　三種特征對應預測結果

4.3實驗結論

通過三種方法預測結果準確率的對比，不難發(fā)現(xiàn)使用AlexNet倒數(shù)第二層提取的特征比其他兩種方法的結果要好很多，這說明CNN對于提取圖像的本質(zhì)特征有優(yōu)于其他一般方法的特點；而且在膚色、臉型、光照環(huán)境等諸多外界因素的干擾下，使用CNN提取的特征仍能達到相對較好的分類效果?？梢?，CNN用于一般自然條件下的人臉表情自身具有巨大優(yōu)勢。本次實驗具備一定數(shù)據(jù)集規(guī)模，也覆蓋了一部分拍攝環(huán)境變化，相信對于更大數(shù)據(jù)規(guī)模和更多環(huán)境變化下的人臉表情識別，基于CNN的深度學習框架將發(fā)揮更大的作用。

5　結語

基于深度學習的研究已經(jīng)成為當今機器智能領域的熱門方向，越來越多的科研人員將目光鎖定在深度學習的研究和應用上。而卷積神經(jīng)網(wǎng)絡（CNN）作為一種受歡迎的深度學習框架，在圖像識別和圖像分類方面的優(yōu)勢也越來越明顯。人臉表情識別是圖像識別的一種，卷積神經(jīng)網(wǎng)絡簡化網(wǎng)絡模型、自動訓練參數(shù)等特點，使其在人臉表情識別方面也具有較好的研究潛力和應用前景。相信在不久的未來，深度學習會給人臉表情識別和情緒檢測技術帶來越來越多的突破。

參考文獻：

[1]董士海.人機交互的進展及面臨的挑戰(zhàn)[J].計算機輔助設計與圖形學學報,2004,01:1-13.

[2]薛雨麗,毛峽,郭葉,呂善偉.人機交互中的人臉表情識別研究進展[J].中國圖象圖形學報,2009,05:764-772.

[3]余凱,賈磊,陳雨強,徐偉.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,09:1799-1804.

[4]李衛(wèi).深度學習在圖像識別中的研究及應用[D].武漢理工大學,2014.

[5]許可.卷積神經(jīng)網(wǎng)絡在圖像識別上的應用的研究[D].浙江大學,2012.

[6]A.Krizhevsky,I.Sutskever,G.E.Hinton.ImageNet Classification with Deep Convolutional Neural Networks[C].In Advances in Neural Information Processing Systems 25（NIPS'2012）,2012.

作者簡介：

張昭旭（1992-），女，河北邢臺人，碩士研究生，研究方向為多媒體計算

收稿日期：2015-12-15修稿日期：2015-12-30

Research on Feature Extraction Based on CNN Deep Learning Model

ZHANG Zhao-xu
（College of Computer Science,Sichuan University,Chengdu 610065）

Abstract：

Convolutional Neural Network(CNN),as a deep learning framework,shows great performance in extracting feature accurately and reducing model complexity.In consideration of the CNN's advantage in image processing,proposes a feature extraction method based on CNN. Extracts face expression images'features using a 8-layered AlexNet model,and Support Vector Machine(SVM)is used for prediction.Prediction results indicate that CNN outperforms other classical methods in extracting image essential features.

Keywords:

Deep Learning;Convolutional Neural Network;AlexNet;Face Expression Recognition;Feature Extraction

利用立體光流估計運動物體狀態(tài)

岳鑫，高飛

（西安工業(yè)大學理學院，西安710021）

摘要：

針對在無法獲取相關視頻內(nèi)容先驗知識的前提下進行視頻中兩幀之間物體運動預估的問題。提出利用雙目立體標定結合立體光流場估計物體在三維空間中的運動的方法。介紹由時域光流和視域光流所組成的立體光流場的原理，推導利用立體光流場計算空間距離公式。通過實驗數(shù)據(jù)進行分析表明該方法準確性較高，使機器基于光流法的雙目視覺條件下對運動物體的判定有較好效果。

關鍵詞：

立體光流場；時域光流；視域光流；物體運動預估；雙目立體標定

基金項目：

陜西省教育廳科研計劃項目（No.2013JK0590）

文章編號：1007-1423（2016）03-0045-05

DOI：10.3969/j.issn.1007-1423.2016.03.011

0　引言

視覺心理學認為人與被觀察物體發(fā)生相對運動時，被觀察物體表面帶光學特征部位的移動給人提供了運動及結構的信息。與此相似，當攝像機代替人眼與景物目標間有相對運動時所觀察到的亮度模式運動就稱為光流[1]。光流法是針對運動物體模型，利用目標在圖像中運動的信息來獲得目標的位置，其可將圖像中移動物體的像素與速度關聯(lián)，或者等價地，與表示像素在連續(xù)兩幀圖像之間的位移關聯(lián)，能夠較為準確的描述物體的運動狀態(tài)，具有較高的準確度。故在工業(yè)生產(chǎn)制造和軍事領域中光流場計算技術具有廣泛的應用[2]。例如在各類機器人視覺系統(tǒng)、各種基于運動分析的跟蹤系統(tǒng)、地對空導彈火控系統(tǒng)、自動飛行器著陸與精確導航系統(tǒng)以及車內(nèi)視頻監(jiān)控系統(tǒng)等領域中，均利用了光流場計算技術。

在傳統(tǒng)光流場計算技術[3-4]的基礎上，本文提出基于立體光流場對運動物體進行特征分析的方法。利用兩部基本同方位角度的相機所獲取的圖像信息計算時域光流和視域光流，從而計算出運動物體在三維空間中的狀態(tài)。經(jīng)過實驗論證，通過該方法所獲得的相關狀態(tài)信息較為準確，達到了檢測物體運動狀態(tài)的目。

1　立體光流場原理

1.1時域光流

時域光流是一種簡單實用的圖像運動的表達方式[5]，通常定義為一個圖像序列中的圖像亮度模式的表觀運動，即空間物體表面上的點的運動速度在視覺傳感器的成像平面上的表達。

在2D+t維（t為正整數(shù)，其表示3D和更高維度）的情況下，假設位于（x，y，t）的體積像素的亮度是 I （x，y，t）。該體積像素在兩個圖像幀之間移動了ΔX、ΔY、ΔZ。通過推導可得以下關系式：

1.2時域光流

視域光流是指視覺傳感器的瞬時移動，即在傳感器移動前后空間物體未發(fā)生運動的表達方式。定義為視覺傳感器的運動通過物體表面上的點在移動的視覺傳感器的成像平面上的表達。如圖1所示，為達到視覺傳感器瞬間移動的目的，需要引入兩個視覺傳感器，即為左右相機，其分別代表傳感器移動前和移動后的位置。

圖1　立體時域光流示意圖

依據(jù)時域光流場的定義即可推導視域光流場的表達式：

假設物體位移很小，可以根據(jù)泰勒級數(shù)得出：

其中 H.O.T為公式（3）中的高階項（High Order Term），由此可以推出：

或者：

則可得出如下結論：

上式V

和V

分別表示從x

到x

和從y

到y(tǒng)

的速率，其稱為I

（x

，y

，τ）的視域光流。

1.3立體光流

立體光流是兩個時域光流和兩個視域光流的集合。其中，兩個時域光流是通過物體表面上點的運動速度在左右相機成像平面上所表達的，兩個視域光流通過物體表面上的點在移動視覺傳感器的成像平面上所表達，即：

其中，Itl為左相機前后兩幀的時域光流，Itr為右相機前后兩幀的時域光流，Iv1為左右相機在前一幀的視域光流，Iv2為左右相機在后一幀的視域光流。

2　立體光流場對物體空間運動估計

在給定屏幕坐標和相機內(nèi)參數(shù)矩陣的情況下，利用立體視覺[6-7]可以將圖像二維點重投影到三維空間中去，由此通過計算即可得到所攝場景的深度信息。重投影矩陣[8]如下：

在上式中，除了cx'外的所有參數(shù)都來自左圖像，cx'是主點在右圖像上的x坐標，Tx為x方向的平移量。設主光線在無窮遠處相交，則有：cx=cx'，并且有（cx-cx'）Tx=0。若給定一個二維齊次點和其關聯(lián)的視差d，可以得到此點投影到三維中的關系式如下：

由此可得出，三維坐標即為（X/W，Y/W，Z/W）。

在世界坐標系下，三維空間中物體沿坐標系方向位移分別為ΔX、ΔY、ΔZ:

其中下標為1的元素為運動前的參數(shù)，下標為2的元素為運動后的參數(shù)。

由上式關于Q的矩陣可以得到運動前后參數(shù)：

其中d=xl-xr=Iv，再通過公式（10）（11）（12）得到：其中Iv1、Iv2為前一幀和后一幀的視域光流。

3　實驗過程

本實驗采用兩個圖像分辨率均為640×480的USB相機，兩個相機間距約為7厘米。實驗分為兩個部分，實驗一是對于雙目相機的標定，實驗二是利用標定結果和立體光流法對物體運動狀態(tài)進行估計。由于標定過程不是實驗重點，實驗一過程不再贅述。雙目相機標定結果如表1所示，其中左右相機光軸距離計算值為71.95301毫米，實際測量值為7厘米。則標定結果較為準確，可以利用其計算物體運動狀態(tài)。

表1　相機標定結果

進行實驗二時，對由給定方向移動的物體進行拍攝，左右相機同時獲取圖像序列，并將圖像序列分解為單幀的圖像。針對前后序列的圖像由公式（13）計算出立體光流，最終得到如圖2所示的物體在三維空間中移動示意圖。由圖2可以看到同一物體表面上點移動的位移和方向基本一致，且與實驗設計移動方向基本一致。

圖2　物體在三維空間中移動示意圖

圖3即為實驗過程截圖，其中圖（a）和圖（b）為基于左相機視角觀測物體移動的前后圖像，圖（c）和圖（d）為基于右相機視角觀測物體移動的前后圖像，圖（e）和圖（f）分別表示左右相機的時域光流，圖（g）和圖（h）分別表示物體移動前后的視域光流。

圖3　實驗過程截圖

4　實驗分析

表2為通過提取圖2中各直線端點的坐標點所得到的圖像物體中各點的位移，由此可以計算出在X方向上各點位移的標準差為0.003，Y方向上的標準差為0.003，Z方向的標準差為0.024，數(shù)據(jù)基本穩(wěn)定。計算出物體在X、Y、Z方向上移動的均值分別為0.17、0.066、-0.28而實際測量中分別為0.2、0、0.3。可以看出在X 和Z方向上測量結果與實際結果較為吻合。Y方向上由于拍攝位置在較高的位置對Y方向的影響較大，若為同一水平面上則不會出現(xiàn)較大的誤差。

表2　圖像中物體各點移動的位移（單位：米）

5　結語

立體光流法分別計算出四個光流場，其中兩個為時域光流場，另外兩個為視域光流場，用來對物體運動進行計算時，可以較為客觀地描述物體的運動。通過對比計算出的物體的位移量與實際測量的位移量，誤差值較小。

本算法通過建立立體光流的模型，給出了物體在三維空間運動場與立體光流場的關系和物體在三維場運動狀態(tài)的求解方法。并通過實驗求出物體在三維運動場中的運動，取得了好的效果，對運用立體光流法檢測目標狀態(tài)具有一定的借鑒作用。

[1]章毓晉.圖象工程（下冊），圖象理解與計算機視覺［M］.北京：清華大學出版社，2000.

[2]陳震，高滿屯，沈允文.圖象光流場計算技術研究進展[J].中國圖象圖形學報，2002，7A（5）:434-439.

[3]關震宇，李杰，楊歡，等.基于直線稀疏光流場的微小型無人機姿態(tài)信息估計方法研究[J].兵工學報，2014（11）:1851-1859.

[4]陳偉杰，王睿.復雜場景下灰度圖像的運動目標跟蹤[J].計算機與現(xiàn)代化，2007（10）:110-113.

[5]Xun Cao，Bovik，A.C.，Yao Wang，Qionghai Dai.Converting 2D Video to 3D:An Efficient Path to a 3D Experience.Multimedia，IEEE，2011

[6]羅桂娥.雙目立體視覺深度感知與三維重建若干問題研究[D].中南大學，2012.

[7]范路橋，段班祥，周文瓊，等.基于計算機雙目立體視覺的排爆機器人自動抓取的研究和實現(xiàn)[J].計算機與現(xiàn)代化，2013，08 （8）:192-196.

[8]張宏.基于雙目立體視覺的三維重建技術研究[D].華中科技大學，2007.

[9]潘光遠.光流場算法及其在視頻目標檢測中的應用研究[D].上海交通大學，2008.

[10]裴巧娜.基于光流法的運動目標檢測與跟蹤技術[D].北方工業(yè)大學，2009.

[11]楊葉梅.基于改進光流法的運動目標檢測[J].計算機與數(shù)字工程，2011（09）:108-110.

[12]孫承志，熊田忠，吉順平，等.基于差分的光流法在目標檢測跟蹤中的應用[J].機床與液壓，2010，第14期:59-62.

[13]周富強，邾繼貴，楊學友，等.雙目視覺傳感器的現(xiàn)場標定技術[J].儀器儀表學報，2000，02期:142-145.

[14]祝琨，楊唐文，阮秋琦，等.基于雙目視覺的運動物體實時跟蹤與測距[J].機器人，2009，31（4）:327-334.

[15]岳曉峰，祁歡.基于張正友平面模板法的雙目立體視覺系統(tǒng)標定[J].機械工程師，2014，第2期:1-3.

[16]王政，胡志雄.基于張正友標定算法的內(nèi)參數(shù)線性與非線性解算[J].鄭州師范教育，2013，02期.

[17]徐潺.雙相機單目視覺測量系統(tǒng)標定方法研究[D].湖南科技大學，2014.

Stereo Optical Flow Field;Time-Domain Optical Flow;Horizonoptical Flow;Object Motion Estimation;Binocular Vision Calibration

Estimating the Moving Objects by Stereo Optical Flow

YUE Xin，GAO Fei
(School of Science,Xi'an Technological Unviersity,Xi'an 710021)

1007-1423（2016）03-0033-05

10.3969/j.issn.1007-1423.2016.03.008

岳鑫（1991-），男，陜西西安人，在讀碩士研究生，本科，研究方向為光學、數(shù)字圖像處理高飛（1986-）男，陜西韓城人，助理工程師，本科，研究方向為光學、數(shù)字圖像處理

2015-12-04

2016-01-10

近年來，受益與計算機技術的飛速發(fā)展，計算機視覺得到了極大的關注。研究一種通過同步攝像頭采集到的幀，對其進行全景圖像拼接，并且將拼接結果不失真輸出到特定的球幕進行全景視頻播放，得到一種身臨現(xiàn)場的監(jiān)控體驗，可達到和監(jiān)控人員親臨現(xiàn)場相當?shù)男Ч?。實驗結果表明，該方法能夠較好地應用于全景監(jiān)控領域，具有較高的實用價值。

全景監(jiān)控；全景圖；全景視頻；全景播放

In order to obtain object motion estimation between two frames in the video for lack of prior knowledge of the video content,presents a motion estimation method(algorithm)in three-dimensional space based on binocular vision and stereo optical flow field.Firstly,proposes the principle of stereo optical flow field composed of time-domain optical flow and horizon optical flow.Then,deduces the calculation formula for space distance of stereo optical flow field.Finally,designs an experiment to confirm high accuracy and the effectiveness of the proposed method.

基于全景視頻的監(jiān)控系統(tǒng)

0 引言

1 全景視頻拼接中特征點的匹配優(yōu)化

2 基于多投影拼接的全景監(jiān)控系統(tǒng)

3 實驗結果及分析

4 結語

0 引言

1 超聲彈性成像基本原理

2 基于SAD的直方圖匹配算法

3 實驗結果

4 結語

0 引言

1 卷積神經(jīng)網(wǎng)絡（CNN）

2 AlexNet

3 Caffe

4 實驗

5 結語

0 引言

1 立體光流場原理

2 立體光流場對物體空間運動估計

3 實驗過程

4 實驗分析

5 結語

0　引言

1　全景視頻拼接中特征點的匹配優(yōu)化

2　基于多投影拼接的全景監(jiān)控系統(tǒng)

3　實驗結果及分析

4　結語

0　引言

1　超聲彈性成像基本原理

2　基于SAD的直方圖匹配算法

3　實驗結果

4　結語

0　引言

1　卷積神經(jīng)網(wǎng)絡（CNN）

2　AlexNet

3　Caffe

4　實驗

5　結語

0　引言

1　立體光流場原理

2　立體光流場對物體空間運動估計

3　實驗過程

4　實驗分析

5　結語