999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化的并行AlexNet人臉特征點檢測算法*

2018-05-23 01:17:09陳東敏姚劍敏
網絡安全與數據管理 2018年4期
關鍵詞:特征優化模型

陳東敏,姚劍敏

(福州大學 物理與信息工程學院,福建 福州 350002)

0 引言

隨著虛擬現實增強技術的興起,許多的研究項目和商業產品以實現人機交互為目的[1]。人臉特征點定位在人臉對齊、面部表情識別等方面具有很重要的意義。如何通過普通攝像頭實現對人臉特征點的準確定位是本文研究的方向。

傳統上,人臉關鍵點檢測涉及圖像處理、特征提取、主成分分析等方法(包括主動形狀模型[2]和主動外觀模型[3])以及后續發展出來的一些方法,比如基于限制局部模型的方法[4]、基于主動外觀模型的方法[4]和基于回歸的方法[5-7]等。

近年來,運用深度學習訓練的方法逐漸火熱起來。2013年,湯曉鷗課題組提出了利用級聯深度卷積神經網絡進行面部特征點定位[5],在當年達到了最先進的水平。本文借鑒三級聯結構的第一級部分,提出了一種基于優化的并行AlexNet卷積神經網絡模型,在模型輸入圖像處理上,采用3個子圖像3個通道顏色的方法,進一步加大模型的獨立性,并引入批歸一化層,降低誤差的同時減少模型的迭代次數,增加模型泛化能力。

1 AlexNet模型

AlexNet由Alex Krizhevsky等人設計并在2012年ILSVRC中獲得冠軍,該模型將物體分類錯誤率從此前的25.8%降低到16.4%,在當時達到最優水平。

AlexNet可以訓練更大數據集以及更深的網絡,后續的一些ZF-net、SPP-net、VGG等網絡,都是在其基礎上修改得到的。該模型分為8層,5個卷積層以及3個全連接層,網絡的前端是原始像素點,最后端是圖片的分類結果;卷積層中包含ReLU激活函數和局部響應歸一化(LRN)處理,以及最大降采樣層(Pool)。圖1是AlexNet網絡結構圖。

圖1 AlexNet網絡結構圖

相比于傳統的CNN,AlexNet模型結構有許多重要的改動,比如數據增強、Dropout、ReLU激活函數、LRN、重疊 Pooling、GPU并行。

1.1 數據增強

為了增強模型的魯棒性,減少過擬合,增加模型的泛化能力,在對圖像數據集的處理上,采用的方法是在保持數據標簽不變的情況下增大數據集[7]。本文是關于圖像的回歸算法,采用了3種方法,只需很少的計算量就能達到數據擴充的目的。

(1)圖像翻轉

將圖像進行水平翻轉可以簡單地擴充訓練數據集至一倍。圖2為圖像水平翻轉。

圖2 圖像水平翻轉

(2)調整RGB像素值

在圖像訓練集中對圖像的RGB像素集合采用主成分分析法處理。每個訓練圖像中,成倍增加已有的主成分,倍數為一個零均值、0.1標準差的高斯分布中提取的隨機變量。得到圖像中每一個像素值為:

(1)

增加以下項:

[p1,p2,p3][α1λ1,α2λ2,α3λ3]T

其中pi是像素值協方差矩陣第i個特征向量,λi是其對應特征向量的特征值,也是上文提到的隨機變量。每個具體的訓練圖像的全部像素只提取一次。

(3)對圖片進行隨機平移

為了增強模型的魯棒性,本文采用對原始圖片進行隨機平移。具體平移量如表1所示。其中平移量數值單位為像素點個數。

表1 圖像偏移幅度

1.2 ReLU非線性

常見的神經網絡激活函數有tanh(x)和sigmoid(x),當神經網絡進行反向傳播時會發生梯度消失。ReLU本質上是分段線性函數,其前向傳播計算、反向傳播都非常簡單,無需太復雜的計算操作,因此ReLU函數可以訓練更深的網絡。ReLU函數右邊恒等于零,使神經元一部分輸出為零,起到稀疏網絡的作用,類似Dropout層的作用,可以在一定程度上緩解過擬合[8]。圖3是上述各激活函數模型。

圖3 激活函數

其中:

ReLU(x)=max(0,x)

tanh(x)=2sigmoid(x)-1

1.3 局部響應歸一化(LRN)

ReLU所具有的線性及非線性性質使得不需要輸入歸一化來防止達到飽和,但是局部歸一化方案可提高網絡的泛化能力[9-11]。歸一化公式為:

2 優化的AlexNet并行模型

2.1 并行結構

2013年湯曉鷗課題組將級聯運用到了模型當中,利用級聯深度卷積神經網絡進行面部特征點定位。圖4為級聯系統結構圖。

圖4 級聯系統結構圖

該模型具有三級結構,第一級為粗定位,后面兩級為精確定位。首先,采用灰度圖像進行訓練,經過第一級的結構,將訓練的人臉圖像分為互有重疊的3個子圖像F1、EN1和NM1,3個子圖像分別傳送到3個互有差異的卷積神經網絡模型進行訓練,輸出結果加權平均得到5個特征點的粗定位;接著經過第二級結構細定位,以上一級輸出的5個特征點坐標為中心從人臉圖像摳出5個適當大小的包含特征點的子圖像傳送到10個一樣模型的卷積神經網絡進行訓練,將結果加權平均得到細定位;最后通過最后一級精確定位,做法同第二級,待模型收斂后,將結果加權平均得到最終的精確的人臉特征點坐標。

以上模型涉及卷積神經網絡模型達23個,參數龐大,收斂慢,本文借鑒級聯結構的第一級部分,提出了一種優化的AlexNet并行卷積神經網絡算法。模型均采用AlexNet模型,在不增加網絡層數的情況下通過并行結構能夠增大模型預測的準確率,減少誤差。圖5為并行結構圖,其中輸入為原始圖像,切分為互有重疊的3個子圖像分別進入F1、F2、F3模型,輸出3個互有重復的特征點坐標子集,加權平均得到最終的人臉特征點檢測結果。

圖5 并行結構圖

2.2 優化的AlexNet

本文采用的卷積神經網絡是基于AlexNet模型基礎進行優化的,優化的AlexNet模型如圖6所示,共有7層:4個卷積層,3個全連接層,模型的輸出是5個坐標。其中conv表示卷積過程;Pool(z)是池化層,這里采用最大池化,4×4表示池化核大小;Batch Normalization (BN)是批歸一化層。

圖6 優化的AlexNet模型

與傳統的AlexNet相比,優化的AlexNet去掉一層卷積層,加入了BN層,并且根據訓練集調整網絡模型參數。其中改動最大的是圖像的輸入處理,以及引入了批歸一化層。

2.2.1圖像的輸入

本算法采用美國馬薩諸塞大學公開的人臉數據集LFW(Labeled Faces in the Wild)。該數據集被廣泛用于研究無約束的人臉識別問題。數據集包含13 466張包含人臉的圖片和標簽文檔,標簽文檔儲存著每一張圖像的人臉位置坐標以及其5個特征點坐標,其中特征點為左、右眼中心,鼻尖,左、右嘴角的坐標。遵循交叉驗證的方法,從LFW隨機抽取9/10的人臉圖片以及左右鏡像共24 228張做訓練集,余下1/10和左右鏡像共2 704張做測試集。

原始圖像進入F1、F2、F3之前會被切分成3個互有重疊部分的子圖像,其中3個子圖像分別具有以下特征:包含所有特征點的R通道圖像,不包含嘴巴特征點的G通道圖像,不包含眼睛特征點的B通道圖像。3個模型訓練目標特征點兩兩相交,將各自結果加權平均之后得出最終的人臉特征點坐標。圖7為圖像的輸入切分。

圖7 圖像的輸入

隨著輸入圖片的切分,模型中的參數也隨著調整。

2.2.2批歸一化處理

在每次隨機梯度下降時,通過mini-batch來對相應的激活值做規范化操作,使輸出值各個維度的均值為0,方差為1。而最后的“scale and shift”操作是為了讓因訓練所需而“刻意”加入的BN能夠最有可能還原最初的輸入,即:

β(k)=E[x(k)]

從而保證整個網絡的泛化能力。以下是批歸一化的計算步驟:

輸入:mini-batch 中xi的值:B={x1…xm},需要學習的參數:γ,β

輸出:{yi=BNγ,β(xi)}

//mini-batch 均值

//mini-batch 方差

//歸一化

//scale and shift

為了防止神經網絡在訓練中發生梯度消失,加入了批歸一化層。批歸一化層對網絡層的輸入值進行預處理,通過將隱藏層的輸出數據進行歸一化操作,使其服從標準的高斯分布,是一種更為有效的局部歸一化處理。

3 實驗結果及分析

實驗環境為:Windows 10的64位操作系統,AMD顯卡型號為HD7470M,4 GB內存,TensorFlow 1.2,Python 3.5以及Python-OpenCV庫。

TensorBoard是TensorFlow的一個可視化工具。通過TensorBoard可以隨時觀看訓練中正確率及誤差收斂情況曲線圖以及神經網絡模型訓練的流程圖,可以查看任意隱藏層的特征圖。本文實驗結果主要依靠TensorBoard來得出結論。

3.1 并行結構與傳統結構的對比實驗

輸入圖像尺寸為30×30,模型有無并行結構性能比較如圖8、圖9所示。圖8為訓練誤差,并行結構模型為2.842 9e-3,耗時17 h 2 min 15 s;無并行模型為6.047 1e-3,耗時為7 h 32 min 12 s。

圖8 訓練誤差

圖9為正確率。并行結構模型先于傳統結構達到收斂。

圖9 正確率

綜上,并行結構模型誤差更低,達到收斂更快,魯棒性更好,但在訓練耗時上并不占優,由于同時對3個神經網絡模型進行訓練,訓練時間也更長。

3.2 優化的AlexNet并行結構性能分析

3.2.1圖像的優化對比

模型進行圖像優化處理后對比湯曉鷗并行結構,圖10所示為正確率對比,圖11為誤差對比。

圖10 正確率對比

圖11 誤差對比

誤差具體數值對比如表2所示。經過圖像優化的算法模型比原始模型誤差降低5.08%。

表2 誤差數值對比

3.2.2引入批歸一化處理層

引入批歸一化層的對比如圖12、圖13所示。

圖12 正確率對比

圖13 誤差率對比

誤差具體數值如表3所示。加入BN層的算法模型比原始模型誤差降低34.21%。

將圖像優化和批歸一化層同時作用于模型中,結果如圖14、圖15所示。

表3 誤差對比

圖14 正確率對比

圖15 誤差率對比

誤差數值對比如表4所示。圖像優化+BN層的算法模型比湯曉鷗模型第一級模型誤差下降44.57%。

表4 誤差對比

4 結論

本文構建了基于優化的AlexNet并行卷積神經網絡模型對人臉圖像進行特征點定位,將輸入圖像切分為3個互有重疊的人臉子圖像,3個子圖像分別連接3個不同的卷積神經網絡進行訓練,并且子圖像分別取原圖像的一個顏色通道,進一步增加各個模型的差異性,待模型收斂后,將3個網絡輸出的特征點坐標加權平均,得出最終的人臉特征點坐標。并在網絡中加入批歸一化層減少迭代次數,加快收斂,并且使得結果誤差減小。

在LFW數據集上實驗結果表明,并行神經網絡模型比單層神經網絡正確率高,誤差小;基于優化的AlexNet并行神經網絡比沒有優化的并行神經網絡的迭代速度更快,誤差降低44.57%。在預測上,基于優化的并行模型預測結果均優于湯曉鷗級聯模型第一級部分。故而,本文所使用的優化的并行模型算法用于人臉特征點定位具有比湯曉鷗級聯第一級卷積神經網絡更好的魯棒性和準確性。下一步擬對基于神經網絡的人臉檢測算法進行研究。

參考文獻

[1] ZHANG C, ZHANG Z. A survey of recent advances in face detection[R]. Technical Report of Microsoft Research, 2010.

[2] COOTES T F,COOPER D,TAYLOR C J, et al. Active shape models-their training and application[J].Computer Vision and Image Understanding,1995,61(1):38-59.

[3] COOTES T F,EDWARDS G J.TAYLOR C J. Active appearance models[C] // Proceedings of the European Confidence on Computer Vision.Berlin:Springer,1998:484-498.

[4] SARAGIH J M,LUCEY S,COHN J. Face alignment through subspace constrained mean-shifts[C] // Proceedings of the IEEE International Conference on Computer Vision. IEEE,2009:1034-1041.

[5] SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2013:3476-3483.

[6] Dong Yuan, Wu Yue. Adaptive cascade deep convolutional neural networks for face alignment[J]. Computer Standards & Interfaces,2015, 42:105-112.

[7] LIU X. Discriminative face alignment[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(11):1941-1954.

[8] Cao Xudong, Wei Yichen, Wen Fang, et al. Face alignment by explicit shape regression[J]. International Journal of Computer Vision,2014,107(2):177-190.

[9] LAUER F, SUEN C Y, BLOCH G. A trainable feature extractor for handwritten digit recognition[J]. Pattern Recognition,2007,40(6):1816-1824.

[10] SAINATH T N, MOHAMED A R, KINGSBURY B, et al. Deep convolutional neural networks for LVCSRA[C] // Proceedings of IEEE International Conference on Coustics, Speech and Signal Processing, 2013:8614-8618.

[11] 趙志宏,楊紹普,馬增強. 基于卷積神經網絡LeNet-5的車牌字符識別的研究[J]. 系統仿真學報, 2010,22(3):638-641.

[12] Fan Jialue, Xu Wei, Wu Ying, et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks,2010,20(10):1610-1623.

猜你喜歡
特征優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 色妞永久免费视频| 亚洲伊人天堂| 国产主播一区二区三区| 亚洲色精品国产一区二区三区| 国产9191精品免费观看| 亚洲国产成人综合精品2020| 激情综合五月网| a毛片免费在线观看| 亚洲美女高潮久久久久久久| 97色婷婷成人综合在线观看| 亚洲乱码精品久久久久..| 成人在线观看一区| 青青草一区二区免费精品| 久久伊人操| 亚洲人网站| 中文字幕免费播放| а∨天堂一区中文字幕| 欧美一级大片在线观看| 日韩黄色精品| 国产高潮视频在线观看| 波多野结衣视频网站| 九九久久精品免费观看| 亚洲码一区二区三区| 国产高清无码第一十页在线观看| 91成人在线免费观看| 无码内射中文字幕岛国片| 欧美亚洲日韩不卡在线在线观看| 久久久精品无码一二三区| 精品欧美一区二区三区久久久| 国产69精品久久久久妇女| 精品久久久久成人码免费动漫| h网站在线播放| 熟妇丰满人妻av无码区| 国产欧美日本在线观看| 久久久无码人妻精品无码| 中文字幕亚洲综久久2021| 亚洲精品第五页| 996免费视频国产在线播放| 国产电话自拍伊人| 欧美精品成人一区二区在线观看| 国产精品v欧美| 中文字幕va| 19国产精品麻豆免费观看| 亚洲中文字幕av无码区| 日本欧美午夜| 日韩天堂网| 日韩成人在线网站| 日本欧美在线观看| 日韩无码黄色| 国产福利免费视频| 亚洲欧洲综合| 亚洲综合狠狠| 国产真实自在自线免费精品| 国产成熟女人性满足视频| 老司机精品一区在线视频| 欧美日韩综合网| 女人18毛片久久| 亚洲男人的天堂视频| 国产成人高精品免费视频| 国产精品久久久久久久久| 久久精品丝袜| 老司机午夜精品视频你懂的| 国产自在线拍| 欧美国产日韩在线观看| 久久久精品无码一二三区| 最新国产精品第1页| 69免费在线视频| 亚洲码一区二区三区| 国产精品久久久久久久伊一| 日本道综合一本久久久88| 国产爽歪歪免费视频在线观看 | 亚洲综合香蕉| 国产91全国探花系列在线播放| 国产日本欧美亚洲精品视| 国产亚洲精品资源在线26u| 国产福利微拍精品一区二区| 国产精品无码久久久久久| 免费无码AV片在线观看国产| 国产成人综合在线视频| 人妻21p大胆| 亚洲欧洲日韩国产综合在线二区| 男女性色大片免费网站|