999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于雙通道殘差的場景文本檢測方法?

2021-06-28 07:03:42劉建云李海山
艦船電子工程 2021年6期
關鍵詞:語義特征文本

劉建云 李海山 李 恒

(武漢數字工程研究所 武漢 430000)

1 引言

場景文本檢測在深度學習領域可被視為計算機視覺中物體檢測任務的特定物體檢測,也就是說將文本作為一種特定的物體來檢測?;谏疃葘W習的文本檢測方法按照網絡輸出的數據分為基于邊框回歸的方法和基于語義分割的方法?;谶吙蚧貧w的文本檢測方法,如 CTPN[1]、SegLink[2]等,其檢測效果嚴重依賴于錨框或者錨點的選擇,導致模型中超參數的數量增加,降低了模型的泛化能力。而 PSENet[3]、DBNet[4]等網絡采用語義分割的方法根據圖片生成二值圖,然后根據二值圖生成文本框,因而檢測結果更加魯棒。為了提高檢測算法對于自然場景圖像中任意形狀文本的魯棒性和檢測精度,本文提出了一個以ResNet[5]為基礎網絡,同時利用特征金字塔(Feature Pyramid Networks,FPN[6])進行特征融合,最后利用雙通道殘差網絡進行語義分割的檢測算法。該方法不僅保證了深度學習模型的精度和推理速度,同時通過語義分割網絡提高網絡模型的泛化能力。

2 本文方案

2.1 基于雙通道殘差的語義分割網絡

本文提出的語義分割網絡如圖1所示,一共分為上下兩個通道,通道中的網絡進行殘差連接,故而命名為雙通道殘差。網絡的特征輸入為經過特征融合網絡得到的特征圖,輸出為通道數為1的概率圖,其表示的是每個像素點處于文本區域的概率。由于通道2的網絡層數小于通道1,因而通道2相當于是通道1殘差連接,加上圖1中的1、2、3這三個殘差連接,整個語義分割網絡中共有4個殘差連接。由于輸出概率圖的分辨率大于輸入特征圖,因此通道1和通道2進行的都是上采樣操作,本文采用反卷積[7]實現上采樣。通道1和通道2的最后一層都是對輸入圖像每個像素點的分類結果,這兩層進行逐像素相加后得到網絡的最后一層。

圖1 基于雙通道殘差的語義分割網絡

2.2 整體網絡結構

本文的文本檢測算法流程如圖2所示,從輸入圖片到輸出圖片一共經過;是個階段,其中前三階段為網絡處理部分,第四個階段為后處理部分,目的是從二值圖中生成文本區域。本文設計整個檢測網絡分為三個部分,分別為backbone、neck和head。backbone部分采用ResNet作為整個網絡的網絡骨架,用以提取圖像中的語義信息。neck部分采用FPN進行特征融合,特征融合之后對得到的特征圖進行concat操作,然后連接注意力層[8],使得分割結構更加魯棒。head部分采用2.1小節提出的雙通道殘差語義分割網絡,對輸入圖像中的每個像素點進行預測,輸出每個點處于文本區域的概率值。

圖2 算法流程

網絡的損失函數層一共有三個,分別是通道1最后輸出的概率圖1和通道2最后輸出的概率圖2,以及網絡最后輸出的概率圖3。其中,由于通道1的深度更深,所以得到特征圖的語義信息更強,因而使用交叉熵損失函數,以此來保證每個點分類的準確性,而通道2更短,因而使用IOU Loss來保證文本的召回率。最后概率圖3同樣使用IOU Loss,以此來提高整體網絡對于檢測結果召回率。

3 實驗分析

3.1 數據集

本文選擇的實驗數據集為ICDAR2015。該數據集一共包含1500張圖片,按照2:1的比例分為訓練集和測試集,每張圖片的大小都為1280×720像素。該數據集中的圖像都是通過可穿戴設備隨意采集的,圖像中的文本大小、文本行方向等都具有隨機性,這些因素增加了其文本檢測的難度。

3.2 實驗環境

實驗基于Pytorch,利用ICDAR2015開源數據集對本文提出的方法進行了性能評估。實驗中的硬件平臺配置如表1所示。

表1 實驗環境

3.3 實驗驗證

在實驗中,我們將訓練的batch size設為6,初始學習率設為0.001,優化器選擇Adam,一共迭代1200個epoch。圖3為模型在測試集的準確率和召回率的變化曲線,圖中的橫坐標表示迭代次數,縱坐標為百分比,可以看到隨著迭代次數的增加,網絡的精度也在逐漸提升。當迭代次數過少時,深度學習模型的精度會比較差,反之,模型可能會出現過擬合,使得在訓練集的精度上升而測試集的準確率下降,因此,在我們的研究中每訓練完一個ep?och,就將此時得到的模型權重與之前迭代得到的最高精度的模型權重進行對比,如果此時的模型權重測試結果更優,則將權重保存下來,同時將其更新為當前的最優結果。最終,本文提出的場景文本檢測算法在ICDAR2015數據集中取得了88.99%的準確率和80.16%的召回率。圖4顯示了測試集中的部分檢測結果。

圖3 測試集準確率和召回率變化曲線

圖4 部分檢測結果

表2是目前主流的文本檢測方法與本文方法的對比結果,本文的baseline算法為DB-ResNet-18[8],它發表在AAAI2020,是當時場景文本檢測的最佳算法。本文的檢測網絡與DB-ResNet-18都是采用resnet18+特征金字塔的網絡結構進行特征提取和融合。本文所提出算法的準確率、召回率、F-mea?sure相比于DB-ResNet-18分別提升了2.19%、1.66%、2.05%,這表明本文所提出的基于雙通道殘差的語義分割網絡對于分割精度的提升是有效的。同時可以看到本文提出的方法相比于SegLink[2],PixelLink[9],EAST[10]等多方向文本檢測網絡有所提升,與FTSN[11]等目前檢測效果優異的網絡相比性能接近。

表2 ICDAR2015檢測結果對比

4 結語

為了提高場景文本檢測的精度和模型的泛化能力,本文將基于雙通道殘差的語義分割網絡應用在場景文本檢測算法中。特別地,我們利用ResNet作為基礎網絡進行特征提取,同時利用FPN對提取的特征進行融合,最后送到語義分割網絡中。與基于邊框回歸的檢測算法相比,檢測網絡的泛化能力得到增強,同時提高了模型的推理速度。最終的實驗結果證明,本文提出的網絡是行之有效的。其在ICDAR2015的測試集的準確率達到88.99%,召回率達到80.16%。在未來,我們可以進一步優化分割網絡的結構以提高深度學習模型準確性。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美日韩国产综合视频在线观看 | 在线免费观看a视频| 国产免费观看av大片的网站| 日本欧美在线观看| 激情综合婷婷丁香五月尤物 | 91精品视频网站| 久久男人资源站| 日韩毛片基地| 欧美精品亚洲精品日韩专| 日本一区二区三区精品国产| 中文字幕亚洲第一| 国产精品女人呻吟在线观看| 99精品在线看| 欧美日韩在线成人| 国产精品一区不卡| 无码国内精品人妻少妇蜜桃视频| 亚洲精品久综合蜜| 乱人伦99久久| 久久精品人人做人人爽电影蜜月| 99久久精品国产麻豆婷婷| 久久精品国产电影| 欧美色亚洲| 青青操视频在线| 国产精品999在线| 好紧好深好大乳无码中文字幕| 成年看免费观看视频拍拍| 亚洲欧美日韩精品专区| 亚洲经典在线中文字幕| 67194在线午夜亚洲| 一本色道久久88| 国产亚洲男人的天堂在线观看| 亚洲无码视频图片| 国产一二视频| 亚洲一区毛片| 国产熟睡乱子伦视频网站| 福利一区在线| 国产特级毛片| 成人福利一区二区视频在线| 国产成人无码综合亚洲日韩不卡| 国产亚洲精品自在线| 国产在线拍偷自揄观看视频网站| 亚洲精品成人7777在线观看| 国产自无码视频在线观看| 999国内精品视频免费| 国产一区二区三区日韩精品| 天天做天天爱夜夜爽毛片毛片| 日本午夜在线视频| 亚洲精品在线影院| 成人福利免费在线观看| 久久婷婷五月综合97色| 亚洲天堂网视频| 日韩亚洲综合在线| 精品国产成人三级在线观看| 久久精品中文无码资源站| 99热这里只有精品2| 亚洲欧美日韩色图| 91精品国产一区自在线拍| 欧美黑人欧美精品刺激| 免费AV在线播放观看18禁强制| 97国内精品久久久久不卡| 91视频99| 黄色网在线| 无套av在线| 国产人人乐人人爱| 亚洲欧洲一区二区三区| 暴力调教一区二区三区| 免费看a毛片| 毛片免费网址| 亚洲成a人片77777在线播放| 911亚洲精品| 58av国产精品| 亚洲国产综合精品一区| 美女啪啪无遮挡| 色婷婷在线播放| 亚洲伊人天堂| 亚洲熟女偷拍| 国产久操视频| 亚洲精品国产成人7777| 亚洲中文字幕无码mv| 亚洲成人动漫在线观看| 91视频日本| 亚洲永久精品ww47国产|