999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RefineNet特征融合的改進(jìn)EAST場景文本檢測方法

2022-06-24 10:02:30仝明磊施漪涵
關(guān)鍵詞:特征文本融合

張 魁 仝明磊 施漪涵 唐 麗

(上海電力大學(xué)電子與信息工程學(xué)院 上海 200090)

0 引 言

定位自然場景中的文本是文本分析領(lǐng)域中的必要條件[1-7],也是最困難和最具有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)之一,在場景理解,機(jī)器人自主導(dǎo)航以及文字圖像檢索等領(lǐng)域具有潛在的應(yīng)用價(jià)值。通常閱讀自然圖像文本包括兩個(gè)子任務(wù)[8]:文本檢測和文本識別。在文本檢測中,使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行特征提取,然后利用不同的解碼器對區(qū)域詳細(xì)信息,比如位置、角度和形狀進(jìn)行解碼。在計(jì)算機(jī)視覺領(lǐng)域,傳統(tǒng)的檢測方法[9]已經(jīng)在該領(lǐng)域的基準(zhǔn)數(shù)據(jù)集上取得了較好的性能,但是由于室外場景中的文本模式具有很大的差異性以及文本的背景高度雜亂性,準(zhǔn)確定位室外文字仍然是一項(xiàng)具有挑戰(zhàn)性的研究。

現(xiàn)有的文本定位方法主要分為兩種,一種是傳統(tǒng)方法,另一種是基于深度學(xué)習(xí)的方法。早期的傳統(tǒng)方法分為兩大類,一類是基于滑動窗口的方法[10],一類是基于連通域的方法[11]。基于滑動窗口的方法利用不同尺度的窗口在圖像上進(jìn)行滑動,提取出文字候選區(qū)域,進(jìn)而檢測出文字。Kim等[12]利用不同尺度的窗口在圖像上進(jìn)行滑動,提取出文字候選區(qū)域,之后在文本候選區(qū)域投入支持向量機(jī),得出文本區(qū)域。基于連通域的方法利用自然場景文字在顏色、光照等低級特征上呈現(xiàn)一定的相似性這一性質(zhì),通過某些算法對相似像素進(jìn)行聚合,找出文字的連通域進(jìn)而進(jìn)行文字檢測。Huang等[13]提出筆畫特征轉(zhuǎn)換(Stroke Feature Transform,SFT)低級特征提取器,用于文本區(qū)域候選區(qū)的提取,之后訓(xùn)練兩個(gè)分類器,一個(gè)用于單詞粒度的分類,一個(gè)用于文本線的分類。基于滑動窗口的方法雖然簡單,但滑動窗口的位置固定,無法覆蓋全部位置,對于位置的定位不夠準(zhǔn)確。基于連通域的方法雖然速度快,定位位置精準(zhǔn),但無法囊括復(fù)雜場景文字的變化。傳統(tǒng)的計(jì)算機(jī)視覺方法將背景和文本進(jìn)行分割,然后提取文本特征,最后使用分類器定位文本,常用的特征包括筆劃寬度和密度特征[14]、關(guān)鍵點(diǎn)特征[15]等。傳統(tǒng)的方法在一些特定場景如文本密度較低情形下?lián)碛休^好的效果。但是,對于高密度的文本場景,由于文本分布不均導(dǎo)致透視失真等干擾因素,這些傳統(tǒng)方法并不合適。

隨著深度學(xué)習(xí)的快速發(fā)展,出現(xiàn)了以卷積神經(jīng)網(wǎng)絡(luò)作為回歸預(yù)測模型的文本定位方法。Liao等[5]提出一個(gè)基于端到端的文本定位方法TextBoxes,利用多尺度融合進(jìn)一步提升了檢測精度。在此基礎(chǔ)上,文獻(xiàn)[2]提出一種連接成分進(jìn)行多方向場景文字檢測的方法。該方法檢測出文字的Segment,再利用卷積神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)出Segment之間的連接信息,最終用結(jié)合算法將Segment連接起來得到最終結(jié)果。Zhou等[1]提出一種既高效又精確的文本檢測器,該方法利用多通道的特征融合豐富語義信息,在網(wǎng)絡(luò)的最后利用全卷積網(wǎng)絡(luò)來區(qū)分文本和非文本區(qū)域,用旋轉(zhuǎn)的矩形來對文本進(jìn)行檢測。雖然這些方法表現(xiàn)出對尺度變化的魯棒性,但它們?nèi)匀粺o法很好地適用文字在各種情況下的變化,因?yàn)槭芟抻诰矸e神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。

為解決上述問題,本文選擇目前檢測算法較好的EAST算法作為基礎(chǔ)算法,改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使特征圖信息更加完善,解決樣本不均衡問題,從而改進(jìn)文本檢測算法的性能。

1 改進(jìn)算法

EAST算法的高層語義特征信息和底層語義特征信息對特征融合起著很重要的作用。原始模型如圖1所示利用Conv stage 4層輸出經(jīng)過反池化和前一層輸出融合方式,逐層進(jìn)行融合,最后得到輸出,然而這樣使得融合的特征信息不夠完整。

圖1 原始特征融合方式

本文將原先EAST網(wǎng)絡(luò)結(jié)構(gòu)特征合并層的融合方式改成RefineNet網(wǎng)絡(luò)結(jié)構(gòu)。RefineNet網(wǎng)絡(luò)使用較多residual connection,與ResNet殘差網(wǎng)絡(luò)形成long-range連接,梯度能夠傳遞到整個(gè)網(wǎng)絡(luò)中,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。ResNet50殘差網(wǎng)絡(luò)提取出的2-5層4種分辨率特征圖,經(jīng)過3×3卷積和線性修正單元輸出后,再經(jīng)過3×3卷積和上采樣,將特征恢復(fù)至最大尺寸,然后進(jìn)行加權(quán)輸出,最后在通過池化、卷積和加權(quán)操作輸出傳遞給后續(xù)處理。

圖2 RefineNet網(wǎng)絡(luò)結(jié)構(gòu)

2 網(wǎng)絡(luò)結(jié)構(gòu)

整體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,網(wǎng)絡(luò)輸入圖像大小為512×512。首先經(jīng)過ResNet50殘差網(wǎng)絡(luò),提取四個(gè)級別的特征圖f1、f2、f3和f4,大小分別為輸入圖像的1/32、1/16、1/8和1/4;之后每個(gè)輸入路徑都經(jīng)過RCU,在RCU中,分為兩路,一路經(jīng)過2個(gè)3×3卷積,一路不進(jìn)行任何操作,兩路進(jìn)行加權(quán)輸出;隨后所有路徑輸出都通過MRF(Multi-Residual Fusion)融合為高分辨率特征圖,該模塊將3×3卷積應(yīng)用于輸入自適應(yīng),生成具有相同尺寸的特征圖,所有特征圖經(jīng)過上采樣將特征恢復(fù)至最大尺寸后進(jìn)行加權(quán)輸出。從MRF輸出的特征圖通過CRP(Chained Residual Pooling)模塊,該模塊由3個(gè)池塊組成,每個(gè)池塊由一個(gè)最大池化層和一個(gè)卷積層組成,一個(gè)池塊將前一個(gè)池塊的輸出作為輸入,通過合并殘差連接,將所有池塊的輸出特征圖與輸入特征圖融合在一起。輸出后再經(jīng)過RCU,目的是在多路徑融合特征圖上采用非線性運(yùn)算。最后,通過3個(gè)3×3卷積,使其維度變?yōu)?2。此外,每個(gè)最大值池化核大小為5×5,每個(gè)卷積核大小為3×3,卷積之后使用修正線性單元ReLU(Rectified Linear Units)作為激活函數(shù)。

圖3 整體網(wǎng)絡(luò)結(jié)構(gòu)

這樣設(shè)計(jì)網(wǎng)絡(luò)的優(yōu)點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)中使用多個(gè)identity mapping 連接,梯度可以傳遞到整個(gè)網(wǎng)絡(luò)中。在網(wǎng)絡(luò)深層,其輸入為融合后的特征,經(jīng)過卷積縮減特征維度,然后使用全局平均池化,這樣能夠減少網(wǎng)絡(luò)參數(shù),最后使用softmax分類器輸出分類結(jié)果。

3 損失函數(shù)

3.1 文本框置信度

在大多數(shù)文本檢測算法中,訓(xùn)練圖像都是通過平衡采樣處理以應(yīng)對文本的不平衡分布,雖然會改善網(wǎng)絡(luò)性能,但會引入更多的參數(shù)來進(jìn)行調(diào)整,所以本文采用類平衡交叉熵作為文本框置信度的損失函數(shù),其計(jì)算式表示為:

(1)

(2)

3.2 幾何圖形

自然場景圖像中文本的大小變化較大,直接使用L1或L2損失進(jìn)行回歸將引導(dǎo)損失偏向于更大的文本區(qū)域,需要為文本區(qū)域生成精確的文本框預(yù)測,文本框包括文本旋轉(zhuǎn)角度和文本位置信息兩部分,因此,本文在文本位置部分采用IOU(Intersection Over Union)損失函數(shù),其計(jì)算式表示為:

(3)

文本旋轉(zhuǎn)角度損失計(jì)算式表示為:

(4)

Lg=LAABB+μθLθ

(5)

式中:Lg代表整體幾何圖損失;μθ取值為10。

3.3 損失函數(shù)融合

得到文本框置信度和幾何圖形的損失后,需要將二者融合為一個(gè)新的損失以便神經(jīng)網(wǎng)絡(luò)訓(xùn)練并更新參數(shù),該函數(shù)表達(dá)式為:

L=Ls+λgLg

(6)

式中:L代表總的損失。由于損失函數(shù)不同,實(shí)際實(shí)驗(yàn)中得到的損失值有很大差別,因此,λg作為超參數(shù)用于平衡兩個(gè)損失,在實(shí)驗(yàn)中,λg取值為1。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)設(shè)備為配置TITAN XPascal的Ubuntu16.04系統(tǒng),12 GB內(nèi)存。深度學(xué)習(xí)框架為Tensorflow。采用公共數(shù)據(jù)集ICDAR 2015和MSRA-TD500,ICDAR 2015包含1 000幅訓(xùn)練圖像和500幅測試圖像,MSRA-TD500包含300幅訓(xùn)練圖像和200幅測試圖像,拍攝這些圖像時(shí),由于沒有考慮位置,所以場景中的文本是任意方向的。檢測數(shù)據(jù)集的難點(diǎn)在于文字的旋轉(zhuǎn)性。

4.2 評價(jià)指標(biāo)

采用準(zhǔn)確率(Precision)、召回率(Recall)和F1-score作為算法性能的評價(jià)指標(biāo),定義如下:

(7)

(8)

(9)

式中:TP是指正樣本被預(yù)測為正;FP是指負(fù)樣本被預(yù)測為正;FN是指正樣本被預(yù)測為負(fù);P是指準(zhǔn)確率,R是指召回率。

4.3 訓(xùn)練過程

數(shù)據(jù)預(yù)處理:在訓(xùn)練樣本較少的情況下,數(shù)據(jù)擴(kuò)增的方法有利于提升網(wǎng)絡(luò)性能,將訓(xùn)練集的原始圖像剪裁、翻轉(zhuǎn)以擴(kuò)增訓(xùn)練樣本。

參數(shù)設(shè)置:為了更好地訓(xùn)練網(wǎng)絡(luò)收斂,本文使用Adam優(yōu)化器,具體訓(xùn)練參數(shù)配置如表1所示,訓(xùn)練網(wǎng)絡(luò)總耗時(shí)約144 h。

表1 訓(xùn)練網(wǎng)絡(luò)的參數(shù)配置

4.4 結(jié)果分析

為了驗(yàn)證本算法的性能,選取現(xiàn)有幾種優(yōu)秀的文本檢測算法與本文算法進(jìn)行實(shí)驗(yàn)對比。CTPN算法是Tian等[3]提出的,它采用了數(shù)學(xué)上“微分”的思想,將文本檢測任務(wù)進(jìn)行拆分,轉(zhuǎn)化為多個(gè)小尺度文本框的檢測,并結(jié)合CNN與RNN,形成一個(gè)端到端的訓(xùn)練模型,不僅提升了文本定位的效果,還提升了精準(zhǔn)度。SegLink[2]算法是2017年發(fā)表的文本檢測算法,該算法能夠檢測任意角度的文本,融入了CTPN小尺度候選框的思路又加入了SSD算法的思路。主要思想是將文本進(jìn)行分解,得到兩個(gè)局部可檢測的元素,即segment和link,segment是對字符或單詞的方框,覆蓋文本的一部分,link用來連接方框,最后檢測是通過連接片段產(chǎn)生,并且該算法還可以檢測非拉丁文。經(jīng)實(shí)驗(yàn),該算法使定位的準(zhǔn)確率和訓(xùn)練效率得到了很大的提高。TexeBoxes++算法是Liao等[16]在2018年提出的文本定位算法,該算法是在SSD的基礎(chǔ)上進(jìn)行改進(jìn)的,能夠檢測任意方向的文本。其核心是通過四邊形或傾斜的矩形來表示文本區(qū)域。Pixel-Link算法是Deng等[17]在2018年提出的文本定位算法,該算法放棄了邊框回歸的思想,采用實(shí)例分割的方法,將同一個(gè)實(shí)例中的像素連接在一起,之后進(jìn)行分割,然后從分割結(jié)果中得到文本邊界框,這大大提升了文本定位的效果。

在TITAN X顯卡上進(jìn)行訓(xùn)練和測試,上述幾種算法在ICDAR2015數(shù)據(jù)集上的結(jié)果如表2所示,本文算法召回率為81.61,準(zhǔn)確率為85.51,F(xiàn)1-score為83.51。

表2 不同算法在ICDAR 2015數(shù)據(jù)集上的表現(xiàn)(%)

通過表2能夠看出,本文算法的準(zhǔn)確率和召回率均遠(yuǎn)高于CTPN算法,與Seglink算法對比,召回率高5%,準(zhǔn)確率高12%,和TextBoxes++算法進(jìn)行比較,本文算法在召回率上提升了4%,和Pixel-Link算法相比,在準(zhǔn)確率上高將近3%,與EAST算法相比,準(zhǔn)確率和召回率均有所提高,并且在實(shí)驗(yàn)過程中,所用的訓(xùn)練時(shí)間也少于EAST算法,說明本文算法檢測任意文本更準(zhǔn)確。此外,通過比較能夠看出,F(xiàn)1-score是上述算法中最優(yōu)的,表明本文的算法綜合性能最好。

在MSRA-TD500數(shù)據(jù)集上的結(jié)果如表3所示。

表3 不同算法在MSRA-TD500數(shù)據(jù)集上的表現(xiàn)(%)

通過表3能夠看出,所改進(jìn)方法的三個(gè)值均取得了優(yōu)異的效果,表明了該方法在處理不同長度的文本行方面的卓越能力。具體來說,本文算法的F1-score略高于文獻(xiàn)[21],與文獻(xiàn)[20]方法相比,本文算法在F1-score上提高2.29%,在召回率上提高8.25%。

為了將實(shí)驗(yàn)結(jié)果直觀表現(xiàn)出來,將真實(shí)標(biāo)簽值與預(yù)測值標(biāo)注在圖像上,如圖4所示,第一組為ICDAR 2015中圖像,后一組為MSRA-TD500中圖像,(a)為經(jīng)典EAST算法預(yù)測結(jié)果,(b)為本文算法預(yù)測結(jié)果,從圖中能夠看出,本文算法檢測長文本效果優(yōu)于經(jīng)典EAST算法。

(a) EAST預(yù)測

(b) 本文算法預(yù)測圖4 效果圖

5 結(jié) 語

針對特征融合過程中特征信息的丟失,本文提出利用RefineNet網(wǎng)絡(luò)改進(jìn)EAST算法用于文本檢測,并優(yōu)化損失函數(shù),使算法在處理樣本不平衡問題上更加合理。該網(wǎng)絡(luò)在ICDAR 2015數(shù)據(jù)集取得較好的準(zhǔn)確率和召回率,實(shí)驗(yàn)表明完善特征信息有效地幫助深度卷積網(wǎng)絡(luò)提升文本定位效果。

本文還未將注意力機(jī)制,數(shù)據(jù)增強(qiáng)納入網(wǎng)絡(luò),也未采用多尺度訓(xùn)練,此外,本文方法僅對水平文字檢測效果好,對于彎曲文本有待深入研究。

猜你喜歡
特征文本融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 成人在线观看一区| 4虎影视国产在线观看精品| 亚洲男人的天堂视频| 日本爱爱精品一区二区| 久久夜夜视频| 久久伊人色| 天天综合网亚洲网站| 国产精品视频白浆免费视频| 真实国产乱子伦高清| 欧美不卡二区| 国产精品99一区不卡| 日韩午夜伦| 中文无码影院| 国产精品三区四区| 露脸真实国语乱在线观看| 91丝袜乱伦| 精品無碼一區在線觀看 | 91小视频版在线观看www| 无码有码中文字幕| 国外欧美一区另类中文字幕| 日本免费新一区视频| 青青草原国产精品啪啪视频| 久久国产V一级毛多内射| 国产精品第三页在线看| 99中文字幕亚洲一区二区| 东京热高清无码精品| 四虎影视库国产精品一区| 国产乱人乱偷精品视频a人人澡| 久久综合结合久久狠狠狠97色| 四虎国产精品永久一区| 亚洲欧美日韩动漫| 亚洲福利片无码最新在线播放| 亚洲热线99精品视频| 国产精品欧美激情| 亚洲最猛黑人xxxx黑人猛交 | 日韩美毛片| 欧美视频免费一区二区三区| 中文字幕不卡免费高清视频| 国产va在线观看免费| 亚洲日本中文字幕乱码中文| 美女无遮挡被啪啪到高潮免费| 亚洲日本在线免费观看| 亚洲国产成人麻豆精品| 中文字幕av一区二区三区欲色| 3D动漫精品啪啪一区二区下载| 亚洲自偷自拍另类小说| 婷婷六月综合| 久久人妻xunleige无码| 亚洲九九视频| a在线观看免费| 亚洲视频二| 国产丝袜一区二区三区视频免下载| 亚洲综合色在线| 亚洲精品国偷自产在线91正片| 亚洲美女高潮久久久久久久| 日本欧美一二三区色视频| 日韩国产精品无码一区二区三区| 久久久精品无码一区二区三区| 99热最新网址| 久久精品人人做人人综合试看| 亚洲精品在线影院| 人妻无码中文字幕第一区| 国产自在线播放| 亚洲 欧美 偷自乱 图片 | a在线亚洲男人的天堂试看| 波多野结衣一区二区三区四区视频| 青青网在线国产| 精品无码一区二区在线观看| A级毛片无码久久精品免费| 无码高潮喷水专区久久| 91视频免费观看网站| 无码福利日韩神码福利片| 亚亚洲乱码一二三四区| 亚洲欧美自拍中文| 毛片视频网址| 91视频区| 久久精品国产999大香线焦| 亚洲天堂在线免费| AV熟女乱| 中文字幕无码av专区久久| 国产精品深爱在线| 国内精品自在自线视频香蕉|