999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于質(zhì)心感知的自然場(chǎng)景文字檢測(cè)技術(shù)

2022-04-25 07:33:28張高明
科技與創(chuàng)新 2022年8期
關(guān)鍵詞:分類文本區(qū)域

張高明

(上海電力大學(xué)電子與信息工程學(xué)院,上海 201306)

近年來,圖像文字檢測(cè)在自動(dòng)駕駛、圖像分割[2]、商品識(shí)別等領(lǐng)域被廣泛應(yīng)用,伴隨著大數(shù)據(jù)的支持及深度學(xué)習(xí)的發(fā)展,自然場(chǎng)景文字檢測(cè)引起了計(jì)算機(jī)視覺界的廣泛關(guān)注。文字檢測(cè)的任務(wù)是定位圖像中的文字區(qū)域,印刷文檔中的文字往往排列整齊、背景簡(jiǎn)單,文字與非文字區(qū)域存在明顯差異。由于現(xiàn)實(shí)場(chǎng)景中圖像中的文本大多排列樣式多樣,且具有形狀不規(guī)則、背景干擾較大等特點(diǎn),均使得在該場(chǎng)景中進(jìn)行文字檢測(cè)面臨著巨大的挑戰(zhàn)。

隨著深度學(xué)習(xí)技術(shù)的興起和不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)也開始應(yīng)用于自然場(chǎng)景文字檢測(cè)之中。若設(shè)計(jì)多個(gè)相關(guān)性較強(qiáng)的任務(wù)進(jìn)行多任務(wù)學(xué)習(xí)[3],如TextSnake[4]、PSENet[5]等,在主任務(wù)確定的條件下,在網(wǎng)絡(luò)結(jié)構(gòu)中額外增加與主任務(wù)相關(guān)性較高的輔助任務(wù),可顯著提高模型效果。

為此,本文提出在自然場(chǎng)景文字檢測(cè)網(wǎng)絡(luò)中增加質(zhì)心預(yù)測(cè)分支,與網(wǎng)絡(luò)中文本分類分支結(jié)合,通過增大靠近文字實(shí)例中心處的分類概率值,減小遠(yuǎn)離中心處的分類概率值,提升模型性能。

1 自然場(chǎng)景文字檢測(cè)網(wǎng)絡(luò)

1.1 場(chǎng)景文字質(zhì)心預(yù)測(cè)

經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),即使用anchor free 方法可對(duì)多個(gè)不同尺寸特征圖進(jìn)行預(yù)測(cè),但效果仍不如anchor based方法,主要原因是神經(jīng)網(wǎng)絡(luò)的分類任務(wù)只考慮當(dāng)前位置屬于文字的概率,許多遠(yuǎn)離目標(biāo)質(zhì)心位置處的文字分類概率較高,而受限于感受野的影響,距離文字中心較遠(yuǎn)位置處得到的回歸結(jié)果往往準(zhǔn)確度較低。因此若簡(jiǎn)單將分類結(jié)果高于閾值區(qū)域?qū)?yīng)的回歸結(jié)果保留,將可能導(dǎo)致在后續(xù)非極大值抑制過程中保留錯(cuò)誤回歸結(jié)果,丟棄正確回歸結(jié)果,對(duì)模型準(zhǔn)確率造成極大影響,如CTPN[6]、RRPN[7]等,因此,借鑒FCOS[8]的想法,本文在分類網(wǎng)絡(luò)中增設(shè)文字質(zhì)心預(yù)測(cè),判斷每個(gè)像素點(diǎn)屬于文字區(qū)域質(zhì)心的概率。像素點(diǎn)越靠近文字區(qū)域的質(zhì)心,則對(duì)應(yīng)位置處的值越接近1,相反則越接近0。

與FCOS 通過邊框內(nèi)每個(gè)位置與其對(duì)應(yīng)xmin、xmax、ymin、ymax關(guān)系得到質(zhì)心預(yù)測(cè)目標(biāo)值不同,考慮到自然場(chǎng)景文字檢測(cè)任務(wù)的對(duì)象往往具有多種形式(水平、傾斜、彎曲),直接使用矩形邊框?qū)χ行牡挠?jì)算方法不能保證中心點(diǎn)始終在文字實(shí)例中心。為此,本文根據(jù)自然場(chǎng)景中的文字形式設(shè)置了新的質(zhì)心預(yù)測(cè)目標(biāo)值計(jì)算方法,如圖1 所示。

給定文字區(qū)域內(nèi)某像素坐標(biāo)(xi,yi),分別計(jì)算其與該文字實(shí)例x軸最值(xmin,yi)、(xmax,yi)的距 離li、ri,和垂 直 方向 與上 下邊 界(xi,) 、(xi,) 距離ti、bi,即可計(jì)算該位置質(zhì)心得分wi,wi的計(jì)算方式如下:

wi的取值范圍為0~1,與文本分類相似,表示每個(gè)像素點(diǎn)位于質(zhì)心的概率。在測(cè)試階段將分類與質(zhì)心結(jié)果逐像素相乘,得到最終分類結(jié)果。

1.2 目標(biāo)函數(shù)

模型輸出包含分類與回歸2 個(gè)部分。其中分類任務(wù)部分同時(shí)得到文本、非文本分類和質(zhì)心、非質(zhì)心分類2 個(gè)結(jié)果,考慮到樣本中正例遠(yuǎn)小于負(fù)例,為應(yīng)對(duì)類別不均衡的分類問題,2 個(gè)分類任務(wù)均采用Focal Loss[9]作為損失函數(shù),定義如下:

回歸任務(wù)部分采用ⅠOU 損失作為損失函數(shù),如圖2 所示,ⅠOU 損失定義如下:

圖2 ⅠOU 損失計(jì)算示意圖

式(1)中:Gi為實(shí)際文本位置;Pi為預(yù)測(cè)的文本位置。

因此,模型總的損失函數(shù)為L(zhǎng)=Lcls1+Lcls2+Lreg。

1.3 評(píng)估指標(biāo)

本文采用自然場(chǎng)景文字檢測(cè)問題中常用指標(biāo)(精確率、召回率、F-score)對(duì)方法的有效性進(jìn)行評(píng)估。

精確率表示預(yù)測(cè)為文字的區(qū)域內(nèi)實(shí)際為文字區(qū)域的比例,召回率表示實(shí)際為文字的區(qū)域同時(shí)也被預(yù)測(cè)為文字區(qū)域的比例,公式如下:

式(2)(3)中:Gi為實(shí)際為文字的區(qū)域;Di為預(yù)測(cè)為文字的區(qū)域。

根據(jù)精確率與召回率反映檢測(cè)模型的綜合性能,F(xiàn)-score 的定義如下:

2 實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證本文提出的質(zhì)心預(yù)測(cè)分支網(wǎng)絡(luò)有效性,分別訓(xùn)練無質(zhì)心預(yù)測(cè)分支和包含質(zhì)心預(yù)測(cè)分支的網(wǎng)絡(luò),進(jìn)行消融實(shí)驗(yàn)。使用SynthText 對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后在TotalText 數(shù)據(jù)集中進(jìn)行相同輪數(shù)的微調(diào)和推理,比較不同網(wǎng)絡(luò)效果。實(shí)驗(yàn)使用的編程環(huán)境為Python3.6.4 和Pytorch 1.1.0,在Ubuntu16.04 操作系統(tǒng)中利用一張顯存為12 GB 的GTX TⅠTAN X 顯卡進(jìn)行模型訓(xùn)練和測(cè)試,CUDA 版本為11.0。

通過隨機(jī)旋轉(zhuǎn)(旋轉(zhuǎn)范圍為[-5°,+5°])、抖動(dòng)(對(duì)圖像加入輕微噪聲)、翻轉(zhuǎn)(50%概率對(duì)圖像左右翻轉(zhuǎn))對(duì)圖像進(jìn)行數(shù)據(jù)增強(qiáng),并將圖像分辨率修改為512×512。將常用的ResNet50-FPN 作為基礎(chǔ)網(wǎng)絡(luò),設(shè)置batch 數(shù)量為12,每個(gè)文字實(shí)例的長(zhǎng)邊使用K=10個(gè)插值進(jìn)行表示,并采用帶動(dòng)量的隨機(jī)梯度下降為優(yōu)化器,動(dòng)量為0.9。首先設(shè)置學(xué)習(xí)率為0.000 1,使用人工合成數(shù)據(jù)集SynthText 對(duì)網(wǎng)絡(luò)進(jìn)行80 萬次預(yù)訓(xùn)練,再將學(xué)習(xí)率修改為0.001,分別在TotalText 數(shù)據(jù)集中進(jìn)行微調(diào)和測(cè)試[10]。測(cè)試結(jié)果如表1 所示。

表1 TotalText 數(shù)據(jù)集結(jié)果對(duì)比

本文方法在TotalText 數(shù)據(jù)集上進(jìn)行測(cè)試,在其他條件保持一致的情況下,比較神經(jīng)網(wǎng)絡(luò)包含和不包含質(zhì)心預(yù)測(cè)分支時(shí)的效果情況。由表1 可知,網(wǎng)絡(luò)模型中增添質(zhì)心預(yù)測(cè)分支后,模型效果得到了顯著提升,其中精確率的提升尤其明顯。

3 結(jié)論

本文提出一種質(zhì)心檢測(cè)網(wǎng)絡(luò)分支,用于在自然場(chǎng)景文字檢測(cè)場(chǎng)景中提升模型效果。在FCOS 的質(zhì)心計(jì)算基礎(chǔ)上,修改質(zhì)心的計(jì)算方法,使其更適用于自然場(chǎng)景文字檢測(cè)問題,提高了模型的準(zhǔn)確度。經(jīng)過數(shù)據(jù)對(duì)比,本文提出的方法在TotalText 等包含任意形狀文字實(shí)例的數(shù)據(jù)集中均取得了較好的實(shí)驗(yàn)效果,驗(yàn)證了方法的可行性和有效性。

猜你喜歡
分類文本區(qū)域
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)于四色猜想
分區(qū)域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
主站蜘蛛池模板: 成人在线天堂| P尤物久久99国产综合精品| 国产精品第页| 情侣午夜国产在线一区无码| 亚洲二三区| 99国产精品国产| 国产一级α片| 91精品专区| 重口调教一区二区视频| 亚洲天堂久久| 国产亚洲精品91| 欧美一级黄色影院| 日韩欧美国产另类| 不卡视频国产| 久久永久视频| 福利片91| 久久伊伊香蕉综合精品| 久久9966精品国产免费| 91无码人妻精品一区| 另类欧美日韩| 亚洲va视频| 日本日韩欧美| 亚洲最大情网站在线观看| 日韩一二三区视频精品| 青青操视频在线| 久久综合激情网| 亚洲精品视频免费看| 亚洲国产成人麻豆精品| 色婷婷综合在线| 亚洲成av人无码综合在线观看 | 国产幂在线无码精品| 欧美激情视频一区二区三区免费| JIZZ亚洲国产| 国产精品v欧美| 第九色区aⅴ天堂久久香| 免费在线色| 国产成熟女人性满足视频| 天天综合网站| AV在线天堂进入| 日韩毛片在线播放| 国产毛片基地| 99久久亚洲精品影院| 色视频久久| 无码人中文字幕| 熟妇无码人妻| 日韩欧美在线观看| 精品国产www| 国产精女同一区二区三区久| 久久a级片| 国产亚洲欧美在线视频| 亚洲精品第一页不卡| 久久精品中文字幕免费| 99久久精品国产麻豆婷婷| 婷婷六月激情综合一区| 2021国产精品自拍| 亚洲国产成人麻豆精品| 免费无码在线观看| 尤物特级无码毛片免费| 日本三区视频| 久久久久青草线综合超碰| 欧美国产综合色视频| 一级香蕉视频在线观看| 亚洲最大福利视频网| 国产午夜精品一区二区三区软件| 国产女人18水真多毛片18精品| 亚洲最猛黑人xxxx黑人猛交| 亚洲中文字幕在线观看| 国产99视频免费精品是看6| 天天操天天噜| 亚洲国产精品日韩av专区| 亚洲最新在线| 四虎永久在线精品影院| 白丝美女办公室高潮喷水视频| 欧美一级片在线| 欧美综合中文字幕久久| 亚洲无码熟妇人妻AV在线| 毛片在线看网站| 无码免费的亚洲视频| 久久久无码人妻精品无码| 欧美a在线视频| 精品无码一区二区三区在线视频| 午夜视频www|