999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向手寫漢字識別的殘差深度可分離卷積算法

2018-11-19 10:58:54陳鵬飛應自爐朱健菲商麗娟
軟件導刊 2018年11期
關鍵詞:深度模型

陳鵬飛,應自爐,朱健菲,商麗娟

(五邑大學 信息工程學院,廣東 江門 529020)

0 引言

脫機手寫漢字識別(Offline Handwritten Chinese Character Recognition, HCCR)被廣泛應用于歷史文檔識別、簽名識別和手寫文檔轉錄等領域。由于漢字種類繁多,不同的人有不同的書寫風格,而且相似漢字極易被混淆等,造成了脫機手寫漢字識別難度較大。傳統的脫機手寫漢字識別方法主要包括數據歸一化、特征提取和分類器識別3個部分。其中,較為有效的特征主要有Gabor特征和Gradient特征[1],常用的分類器有二次判別函數(Modified Quadratic Discriminant Function, MQDF)[2]、支持向量機(Support Vector Machine, SVM)[3]等。傳統方法中,文獻[4]采用鑒別特征提取(Discriminative Feature Extraction, DFE)和鑒別學習二次判別函數(Discriminative Learning Quadratic Discriminant Function, DLQDF)方法取得了傳統方法中最高的識別準確率,但其性能并未超過人類平均水平[5]。近幾年,深度學習技術在計算機視覺、語音識別、自然語言處理等領域取得了顯著成功[6]。采用深度學習的脫機手寫漢字識別方法取得了很大突破[7]。2013年,富士通團隊采用多列深度卷積神經網絡(Multi Column Deep Convolutional Neural Network, MCDNN)獲得了ICDAR(International Conference on Document Analysis and Recognition)脫機手寫漢字識別比賽第一名,識別率為94.77%[5]。Zhong等[8]提出HCCR-GoogleNet,采用領域方向特征和卷積神經網絡(Convolutional Neural Network, CNN)方法,將識別率提高到96.74%。最近,Zhang等[9]提出基于directMap和convNet的方法,進一步將識別率提高到97.37%。基于深度學習技術的脫機手寫漢字識別方法研究已經取得了較多成果,但是因擁有較高的計算復雜度和較大的模型容量,制約了其將模型部署到移動端等計算資源和存儲容量有限的設備。

降低卷積神經網絡(Convolution Neural Network,CNN)計算復雜度和模型容量的研究主要有改進CNN模型本身結構和優化現有預訓練模型。在改進CNN模型中,文獻[10]提出Fire結構的SqueezeNet網絡大大降低了模型容量;針對移動設備設計基于深度可分離卷積的MobileNet網絡,減少了模型的計算復雜度[11]。在優化現有模型的方法中,低秩擴展方法通過分解卷積層降低計算復雜度[12];Guo等[13]提出網絡剪枝方法用以壓縮CNN模型。目前,針對大規模脫機手寫漢字識別模型加速和壓縮的研究相對較少。Xiao等[14]提出基于全局監督低秩擴展(Global Supervised Low-rank Expansion, GSLRE)與自適應去權重(Adaptive Drop-weight, ADW)的方法計算復雜度和模型容量問題,該方法首先通過GSLRE進行逐層訓練,然后利用ADW方法對預先訓練的模型進行權重裁剪,在降低計算復雜度和模型容量方面效果較為明顯,但是模型訓練較為復雜。受MobileNet網絡結構啟發,本文提出一種基于深度可分離卷積的殘差卷積神經網絡模型,降低計算復雜度和模型容量。通過深度可分離卷積改進殘差卷積神經網絡,可以訓練更深層的網絡模型,在保證模型識別準確率的同時,實現較小的模型容量和計算復雜度。本文方法主要通過改進網絡結構減小模型容量和計算復雜度,降低網絡模型訓練難度。

目前,基于深度學習的脫機手寫漢字識別方法都通過softmax 損失函數進行監督訓練,softmax 損失函數能夠優化類別間差異,但是忽略了類內緊湊性,通常導致分類性能降低。為了解決這一問題,引入一種在人臉識別中較為有效的中心損失函數[15],通過聯合softmax損失函數與中心損失函數監督訓練CNN網絡模型,優化類別間差異和類內緊湊性,從而提高模型識別準確率。

1 研究方法

1.1 深度可分離卷積

深度可分離卷積是指將標準卷積分解為一個逐深度的卷積和一個1×1標準卷積(逐點卷積)。逐深度卷積對應著每一個輸入特征圖的通道,1×1逐點卷積負責將逐深度卷積提取的特征進行融合。通過特征提取與特征融合分離可以有效地降低計算復雜度和模型容量。圖1顯示了標準卷積和深度可分離卷積的結構。

假設一個標準卷積層的輸入特征圖為X,大小為M×H×W,其中M是輸入特征圖通道數,H和W是輸入特征圖的高和寬;輸出特征圖為Y,大小為N×H′×W′,其中N是輸出特征圖通道數,H′和W′是輸出特征圖的高和寬;卷積核為F,大小為C×K×K×N,其中,K是卷積核的大小。卷積步長和補邊為1,由卷積的定義可知:

(1)

其參數量和計算復雜度分別為:

C×K×K×N

(2)

C×K×K×N×H′×W′

(3)

圖1(a)顯示了標準卷積的詳細結構。

深度可分離卷積中,每個卷積核對應一個輸入特征圖,所以根據深度可分離卷積的定義,有以下公式:

(4)

圖1 標準卷積與深度可分離卷積結構

為了保證有相同的輸出特征圖,在深度可分離卷積后面加入一個輸出特征圖為N的1×1標準卷積,其參數量和計算復雜度分別為:

C×K×K+C×1×1×N

(5)

C×K×K×H′×W′+C×H′×W′×N

(6)

圖1(b)、圖1(c)分別是深度可分離卷積的逐深度卷積和逐點卷積的詳細結構。

使用深度可分離卷積,相比標準卷積,其計算復雜度和參數量都減少相同倍數。由式(2)和式(5)可知:

(7)

由式(3)和式(6)可知:

(8)

所以,當深度可分離卷積核K的大小為3時,相比標準卷積,其參數量和計算復雜度減少8~9倍。

1.2 基于殘差學習的深度可分離卷積神經網絡

受ResNet[16]的殘差結構啟發,本文設計了基于深度可分離卷積的殘差結構單元。圖2描述了兩種主要的分支結構。在分支結構中,第一層1×1卷積主要用來降低深度可分離卷積的輸入通道數;第二層使用3×3深度可分離卷積代替,以減少參數和計算量;最后一層1×1卷積用于匹配快捷路徑分支的通道數。其中,圖2(a)的深度可分離卷積分支結構步長為1,通道融合采用逐通道相加操作;圖2(b)深度可分離卷積分支結構步長為2,將快捷路徑分支使用平均池化代替,在通道融合方面,采用通道串接的方式增加通道數。在每個卷積層中,使用批量歸一化層(BatchNorm, BN)[17],BN層能夠加速網絡模型收斂。

圖2 深度可分離卷積殘差結構

本文提出一個使用深度可分離卷積殘差結構單元構成的CNN網絡結構,詳細網絡結構如表1所示。在構建的網絡結構中,第一層Conv1使用標準的卷積濾波器;網絡結構主要集中在3個階段(Stage2-4),每個階段的輸入通道數會增2倍,期間通道維數保持不變;隨后使用全局池化得到一個1 024維的深度特征,使用標準卷積濾波器Conv5層降低輸出通道的維數為256,最后輸出3 755個類別。模型復雜度計算的是浮點乘加操作次數,模型容量是網絡結構所有參數的總和。

1.3 聯合損失函數

脫機手寫漢字識別使用softmax損失函數作為網絡模型訓練時的優化目標,softmax損失函數會優化類別間差異,但是忽略了類內緊湊性,從而使得分類誤差較大。為解決該問題,引入中心損失函數優化類內緊湊性。中心損失函數也常用于人臉識別、驗證等任務中,用來減少類內變化。聯合softmax損失函數和中心損失函數訓練網絡模型,可以同時增加類別間差異和減小類內變化,使模型學習到具有判別性的深度特征。softmax損失函數公式如下:

表1 CNN模型結構

(9)

在式(9)中:xi∈Rd表示屬于yi類別的第i個深度特征,d表示特征的維度;W∈Rd×n表示最后一個全連接層的權重,b∈Rn是偏置項;m和n分別表示批處理數量和類別數量。

中心損失函數會學習到每個分類類別的中心,其公式表示如下:

(10)

在式(10)中,cyi∈Rd表示第yi類別的深度特征中心。

聯合softmax損失函數和中心損失函數訓練網絡模型,能夠有效增加類別間差異和減小類內變化,使得模型具有更高的魯棒性和識別準確率。聯合損失函數公式表示如下:

L=LS+λLC

(11)

在式(11)中:損失函數L可以通過隨機梯度下降法(Stochastic gradient descent, SGD)進行訓練;參數λ是用來平衡兩個損失函數的參數,當λ=0時,只有softmax損失函數作為監督訓練的損失函數。圖3詳細描述了采用中心損失函數和softmax損失函數聯合訓練的網絡結構。輸入圖像是經過歸一化處理的圖像數據,網絡結構使用表1描述的結構,最后將網絡結構的輸出結果作為損失函數輸入。其中,中心損失函數使用Conv5層的輸出特征,維度是256;softmax損失函數使用FC層的輸出特征,維度是3 755。帶有權重參數λ的中心損失函數結果與softmax損失函數結果作為聯合損失函數結果輸出,使用隨機梯度下降方法對整個網絡的權重進行學習和更新。

圖3 聯合softmax損失函數與中心損失函數的網絡結構

2 實驗與結果分析

2.1 數據庫及數據預處理

實驗數據采用CASIA-HWDB(Institute of Automation of Chinese Academy of Sciences Offline Chinese Handwriting Databases)數據庫作為脫機手寫漢字識別的實驗數據。該數據庫含有中科院自動化研究所采集來自1 020名不同書寫者的超過300多萬個手寫漢字樣本,漢字類別包含GB2312-80一級常用漢字3 755個類別[18]。CASIA-HWDB1.0數據庫包含來自420名書寫者的1 609 136個手寫漢字樣本,漢字類別為3 866類(包括GB2312-80GB2312-80一級常用漢字中的3 740類)。CASIA-HWDB1.1數據庫包含來自300名書寫者的1 121 749個手寫漢字樣本,漢字類別為3 755類。CASIA-HWDB-Competition數據庫包含60名書寫者的224 419個手寫漢字樣本,漢字類別為3 755類。本文實驗采用GB2312-80的3 755類漢字,將CASIA-HWDB1.0和CASIA-HWDB1.1作為訓練集數據,CASIA-HWDB-Competition作為測試集數據。數據庫參數見表2。

表2 脫機手寫漢字數據集

CASIA-HWDB數據樣本均被歸一化到32×32大小,尺寸小的樣本圖像可以進一步減小網絡模型的計算復雜度。CASIA-HWDB數據樣本提供了以白色(灰度值為255)為背景的灰度圖像數據。為了減少背景值的計算,將原圖像數據背景和前景灰度值反轉,即將白色背景變為黑色背景(灰度值為0),前景部分的灰度值范圍為[1,255]。圖4是數據預處理的詳細示意圖。

圖4 數據預處理

2.2 訓練參數設置

本文采用深度學習框架tensorflow進行實驗驗證。實驗采用帶動量(momentum)的隨機梯度下降法進行參數更新,權重參數W使用損失函數的負梯度▽L(W)和先前的權重更新值vt學習。網絡模型權重更新表達式如下:

vt+1=μvt-α▽L(W)

(12)

Wt+1=Wt+vt+1

(13)

其中,μ是動量,α是學習率;t+1和t分別表示兩個不同時刻,vt+1表示更新值。

表3 訓練參數設置

2.3 損失函數實驗結果分析

為了比較單損失函數和聯合損失函數對網絡模型的優化結果,設置兩組不同的實驗。第一組網絡模型A(Model A)只采用softmax損失函數作為監督訓練損失函數,第二組網絡模型B(Model B)采用聯合的softmax損失函數和中心損失函數作為監督訓練損失函數。模型A采用上文中的訓練參數設置進行模型訓練,圖5是模型A在訓練過程中、在驗證集數據上的準確率結果。

為了加速訓練過程,采用遷移學習[19]方法,在模型A訓練結果基礎上對模型B進行微調訓練。進行微調訓練時,需要對上文一些訓練參數進行修改,以適應新的訓練過程。針對模型B的訓練,基本學習率降低到0.000 01,使模型迭代變化較慢。訓練的最大迭代次數設置為100 000,在迭代50 000次時,基本學習率降低10倍,其余訓練參數與模型A的訓練參數保持一致。

參數λ是中心損失函數在聯合損失函數中的權重,設置參數λ的范圍為0.000 1~1,訓練13組不同參數λ的模型B,測試不同參數λ下模型B的識別率,結果如圖5所示。其中,當參數λ=0時,表示未使用中心損失函數,只有softmax損失函數作為監督信號。結果表明,聯合的損失函數測試準確率都高于只使用softmax損失函數的結果。

圖5 不同參數λ下模型測試準確率

2.4 模型容量與計算復雜度結果分析

模型計算復雜度主要來自卷積運算操作,模型容量是可學習的權重參數總和。根據式(2)和式(3)可以計算標準卷積層的參數量和計算復雜度,根據式(5)和式(6)可以計算出深度可分離卷積層的參數量和計算復雜度。每一種方法的計算復雜度主要統計卷積層和全連接層的浮點乘加運算;模型容量統計卷積層和全連接層的權重參數,每個權重參數默認使用4個字節單精度浮點數表示。

表4詳細介紹了幾種不同的脫機手寫漢字識別方法。在ICDAR-2013脫機手寫漢字識別比賽中,來自Fujitsu的團隊獲得比賽第一名,采用多個模型集成的方法,模型存儲容量為2.402GB[5]。HCCR-Gabor-GoogleNet方法是首次超越人類平均水平的脫機手寫漢字識別方法,其單模型的準確率提高到96.35%,10個集成模型的準確率提高到96.74%[8]。隨后,Zhang等[9]提出基于方向特征+卷積神經網絡的方法,進一步將識別準確率提高到97.37%。基于ResNet網絡+空間變換的方法,也取得了97.37%的準確率[20]。相比傳統方法,基于深度學習的方法基本取得了突破性的性能提升。但是,一般基于深度學習模型的算法模型容量和計算復雜度都較高,很難部署到計算資源和容量受限的設備上。

針對計算復雜度過高和模型容量過大的問題,本文提出基于深度可分離卷積的脫機手寫漢字識別方法。該方法在計算復雜度和模型容量方面相比傳統卷積神經網絡方法都有很大優勢。本文提出的模型A,模型容量有20MB,主要計算復雜度為127M FLOPS,在保持較低計算復雜度和模型容量的情況下,測試準確率為96.12%,達到了主流測試水平。通過引入中心損失函數優化模型A,進而得到優化后的模型B,識別準確率進一步提高到96.50%。

表4 脫機手寫漢字識別方法性能比較

3 結語

通過使用深度可分離卷積和聯合損失函數改進殘差網絡結構,本文提出一個高效的脫機手寫漢字識別模型,使得模型更容易被部署到計算資源和存儲容量受限的移動端設備上。基于深度可分離卷積的殘差卷積神經網絡通過將標準卷積操作分離為特征提取和特征融合兩個部分,有效減少了模型的計算復雜度和模型容量。而且,基于殘差結構的網絡模型采用瓶頸結構,使得計算復雜度進一步降低。在此基礎上,引入中心損失函數,通過學習每一類的類別中心,使類內特征更加緊湊,聯合softmax損失函數可以學習到更具判別性的深度特征。實驗結果表明,網絡模型在達到主流識別準確率的同時,所用方法擁有較低的模型容量和計算復雜度。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 丝袜国产一区| 无码中文AⅤ在线观看| 久久99这里精品8国产| 狼友av永久网站免费观看| 国产精品手机在线观看你懂的| 国产免费黄| 国产成年无码AⅤ片在线 | 女人一级毛片| 久久黄色影院| 亚洲色图欧美激情| 日韩精品一区二区深田咏美| 伊人成人在线| 日本伊人色综合网| 红杏AV在线无码| 美女扒开下面流白浆在线试听| 最新加勒比隔壁人妻| 国产原创演绎剧情有字幕的| 99久久性生片| 欧美一级高清片欧美国产欧美| 中文无码精品A∨在线观看不卡| av天堂最新版在线| 青青青视频蜜桃一区二区| 狠狠v日韩v欧美v| 国产十八禁在线观看免费| 国产黑丝一区| 国产一二三区在线| 欧美劲爆第一页| 谁有在线观看日韩亚洲最新视频| 成人在线观看一区| a亚洲视频| 福利片91| 国产在线一区视频| 国产高清国内精品福利| 美女无遮挡免费视频网站| 91久久偷偷做嫩草影院精品| 欧美精品亚洲二区| 免费人成网站在线高清| 欧美成人精品一级在线观看| 黄色网站在线观看无码| 亚洲AV电影不卡在线观看| 69国产精品视频免费| 国产91丝袜在线播放动漫| 久久人人爽人人爽人人片aV东京热| 怡红院美国分院一区二区| 91精品国产福利| 欧美日韩资源| 欧美激情视频一区二区三区免费| 四虎影视永久在线精品| 网友自拍视频精品区| 国产午夜在线观看视频| 久久不卡国产精品无码| 99中文字幕亚洲一区二区| 亚洲中文字幕无码mv| 91成人免费观看| 成人福利在线观看| 无码AV高清毛片中国一级毛片| 欧美一区二区三区国产精品| 国产专区综合另类日韩一区| 亚洲精品午夜无码电影网| 国产无人区一区二区三区| 亚洲第七页| 狼友视频国产精品首页| 国产精品视频猛进猛出| 久久这里只有精品8| 国产精品女同一区三区五区| 91精品aⅴ无码中文字字幕蜜桃| 成人伊人色一区二区三区| 国产激情无码一区二区三区免费| 国产爽妇精品| 99久久国产自偷自偷免费一区| 伊人婷婷色香五月综合缴缴情| 欧美精品v欧洲精品| 國產尤物AV尤物在線觀看| 欧美国产菊爆免费观看| 激情视频综合网| a毛片免费在线观看| 97久久免费视频| 国产波多野结衣中文在线播放| 色香蕉影院| 欧美日韩国产在线人| 亚洲国模精品一区| 农村乱人伦一区二区|