999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進PSENet的自然場景文本檢測方法

2022-06-21 19:15:59彭棟,支世堯,李盛達,楊鵬
計算機時代 2022年6期

彭棟,支世堯,李盛達,楊鵬

摘? 要: 基于深度學習的檢測方法在文本形狀較規則的情況下,已經取得較好的檢測結果,但對于傾斜以及彎曲的文本行仍有改進空間。文章在漸進式尺度擴展網絡PSENet的基礎上,通過使用Res2Net模塊提取多尺度特征,并結合全局卷積網絡GCN進行特征融合,來對原有模型進行改進。根據在SCUT-CTW1500和Total-Text數據集的實驗結果對比,證明改進的算法有效可行。

關鍵詞: 文本檢測; 語義分割; 多尺度; 全局卷積

中圖分類號:TP389.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)06-89-04

Improved PSENet natural scene text detection method

Peng Dong, Zhi Shiyao, Li Shengda, Yang Peng

(School of Information Engineering,Nanjing Audit University, Nanjing, Jiangsu 211815, China)

Abstract: The detection method based on deep learning has achieved good results in the case of regular text shape, but there is still an improved space for tilting and curved text. Based on the progressive scale expansion network PSENet, the original model is improved by using the Res2Net module to extract multi-scale features and combined with the global convolution network GCN. According to the comparison of experimental results in SCUT-CTW1500 and Total-Text data sets, the effectiveness of the improved algorithm is proved.

Key words: text detection; semantic segmentation; multi-scale; global convolution

0 引言

近年來,隨著互聯網的發展和手機的普及,人們逐漸習慣于從生活場景中獲取圖片并進行分享。文字作為信息傳遞的重要載體,如何從自然場景的圖片中準確地提取出文字信息變得越來越重要。深度學習的興起,尤其是卷積神經網絡在計算機視覺領域的廣泛應用為自然場景下的文本識別帶來了發展契機。

對圖片中的文本進行識別前,需要預先進行文本檢測以提取出文本所在的區域。高性能的文本檢測系統可以極大地剔除干擾信息,為文本識別奠定良好的基礎[1]。目前,基于深度學習的文本檢測方法在文字行形狀較規則的場景中已經獲得較好的性能,但由于目標檢測網絡感受野的限制,以及文本目標表達方式的單一,對于文本形狀不規則的場景,檢測性能仍有提升的空間。

本文在PSENet[2]網絡的基礎上,結合Res2Net[3]模塊和GCN[4]網絡對其進行改進,并在標準文字數據集上進行實驗結果分析以驗證網絡的可行性。

1 文本檢測網絡PSENet

PSENet以殘差網絡(ResNet)和特征金字塔網絡(FPN)作為主干網絡,可將底層紋理信息與高層語義信息相結合[5-7]。其實現流程如下。

⑴ 提取ResNet50的第二、三、四以及五階段的特征圖,并通過FPN側向連接和自頂向下的結構,得到四個256通道的特征圖[P2],[P3],[P4],[P5]。

⑵ 將特征圖([P2],[P3],[P4],[P5])通過函數[C]進一步融合,得到1024通道的特征圖[F],融合公式為:

[F=CP2,P3,P4,P5]

[=P2||Up*2(P3)||Up*4(P4)||Up*8(P5)]? ⑴

其中,[Up*2]、[Up*4]、[Up*8]分別代表2倍、4倍、8倍方式的上采樣,[||]代表連接操作。

⑶ 特征圖[F]作為輸入,傳遞到3[×]3的卷積-BN-ReLU層中,得到256通道的特征圖;該特征圖再通過n個1[×]1的卷積層并上采樣處理后,利用sigmoid函數生成n個圖像分割的輸出結果:[S1]到[Sn]。

⑷ 每個[Si]是具有不同比例的分割掩碼,從具有最小比例的分割結果[S1]開始,通過漸進式尺度擴展算法,將文本實例的內核逐步擴充到[Sn]中的最大形狀;在多個內核擴展的過程中,如果出現像素沖突的問題,則根據先到先服務的原則對沖突像素進行分配。

PSENet是一種基于分割的文本檢測方法,通過對輸入圖像進行像素級別的檢測,可有效地處理傾斜或者彎曲文本的檢測問題,對于文本行距離較近的稠密場景也有較好的檢測性能。但該網絡模型仍存在小文本區域遺漏、類文字圖案誤判等問題,具有進一步優化的空間。

2 改進的PSENet

2.1 Res2Net模塊

Res2Net前向傳播的具體過程[8,9]如圖1所示。

⑴ 輸入特征圖經過n通道1[×]1的卷積層后,將其劃分為s個w通道且空間大小相同的子集,并用[xi]進行表示,其中,[i∈1,2,…,s],[ n=s×w]。

⑵ 考慮到減少參數與特征復用的因素,忽略[x1]的卷積層,其余的特征圖子集[xi]都有相對應的w通道3[×]3卷積層[Ki(?)]。令[Ki(?)]的輸出為[yi],將[xi]與[yi-1]相加后作為輸入,傳遞到[Ki(?)]中處理,即

[yi=xi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=1Kixi? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=2Kixi+yi-1? ? ? ? ? ? ? ?2<i≤s]? ⑵

⑶ 經過層內分組與類殘差連接的處理后,[y1,y2,…,ys]中含有局部和全局信息,為了對不同尺度的信息進一步融合,將其并聯拼接后輸入到n通道1[×]1的卷積層。

Res2Net模塊所采取的分組-合并策略,通過調控特征圖被分成的組數s,在不顯著增加計算量與內存消耗的前提下,使得單個的殘差塊可以更高效地提取特征信息,在細粒度的級別上增強網絡的多尺度表達能力,獲取不同尺寸的感受野。

2.2 全局卷積網絡GCN

GCN模型在使用ResNet作為特征提取網絡、FCN作為語義分割框架的基礎上,通過添加GCN和BR模塊,可同時解決分割任務中的分類與定位問題。在圖2的GCN模塊中,并沒有直接使用更大的卷積核,而是結合Inception V3[10]的思想,將其替換為k×1+1×k和1×k+k×1的卷積組合。在減少卷積核參數的同時,通過調節k值來控制非對稱卷積核的大小,實現全局卷積。為了進一步優化物體邊界的定位,GCN網絡給出了圖3所示的BR模塊,通過殘差連接的形式,學習輸入與輸出間的誤差,并進行邊界修正。

GCN網絡在與ResNet各階段的特征圖形成遠程連接的同時,其內部的類殘差結構也形成較多的短程連接,極大地簡化了訓練學習的過程,增強了信息前后向傳播的能力。

2.3 改進的網絡模型

如圖4所示,本文在PSENet原有網絡模型的基礎上,進行改進以提高文本檢測性能。針對特征提取網絡,在ResNet50的網絡結構中集成Res2Net模塊,通過調整尺度維數s的取值,擴展多尺度特征表達潛力。同時,在特征融合網絡中,穿插GCN與BR模塊,在全卷積結構的基礎上盡可能地使用大卷積核,達到分類與定位問題的平衡點。對于各階段的特征圖,依次利用反卷積進行上采樣處理,用高分辨率的特征圖改善低分辨率的特征圖,得到精調特征圖F。最后結合漸進式尺度擴展算法,逐步生成文本檢測結果。

3 實驗與結果分析

3.1 實驗環境與評估指標

本文在配置NVIDIA GeForce GTX 1070顯卡的Ubuntu18.04.1系統下,選用PyTorch 1.2.0框架對模型進行實現。為評估改進后算法的效果,使用SCUT-CTW1500[11]和Total-Text[12]數據集進行訓練與測試。SCUT-CTW1500數據集包含1500張圖像,其中訓練圖像1000張,測試圖像500張。該數據集的圖像不僅類型多樣,而且文本形狀不規則,具有一定的挑戰性。其注釋文件中,在行級別基礎上,通過14個點所形成的封閉多邊形對文本進行標記。而Total-Text是當前檢測領域較為常用的彎曲文本行數據集,其訓練集含有1255張圖像,測試集含有300張圖像,并基于單詞級別進行標注。

為評判本文所改進模型的好壞,采取文字檢測任務中常用的精確率(Precision)、召回率(Recall)以及F1分數(F1-Score)作為評估指標[13]。令TP代表真陽例(True Positive,預測為正樣本的正樣本),FP代表假陽例(FalsePositive,預測為正樣本的負樣本),FN代表假陰例(FalseNegative,預測為負樣本的正樣本),則:

[Precision=TPTP+FP]? ⑶

[Recall=TPTP+FN]? ⑷

[F1Score=2*Precision*RecallPrecision+Recall]? ⑸

3.2 實驗結果分析

本文在實驗過程中,不使用額外數據集進行預訓練,并嚴格控制其他變量,均在ResNet50+FPN作為主干網絡的基礎上進行改進。訓練次數共計600次,初始學習率為0.01,并在次數迭代至200以及400次時,學習率動態地衰減,以使網絡更好地收斂到最優解。同時,為了加快收斂速度,用mini-batch梯度下降法,并將batch size統一設置為4。

在上述實驗環境下,針對SCUT-CTW1500和Total-Text數據集進行消融實驗,重新訓練模型,并在測試集上評估模型性能。將原始的PSENet以及其他文本檢測算法與本文改進后的模型效果進行比較,結果如下:

根據表1與表2中的實驗數據,本文模型在SCUT-CTW1500和Total-Text數據集上的各項評估指標相較于原PSENet網絡皆有所提升。為更直觀地體現模型的可行性,對測試圖像生成效果對比圖,具體如圖5所示。對于圖5中的小文本區域,由于Res2Net模塊可提取多尺度的特征,使小區域也可以單獨檢測。另外,在GCN網絡中邊界精修模塊的影響下,文本行粘結問題也得到一定的緩解。

4 總結

文字作為信息的重要載體,如何從圖片中準確地提取出文字信息是眾多科研學者重點關注的問題。而文本檢測作為文字識別技術的前提,高性能的檢測系統對識別效果起到促進作用。本文針對自然場景下的文本檢測問題,在PSENet網絡的基礎上,結合Res2Net模塊與GCN網絡對其進行優化,以進一步提高文本檢測能力。通過在SCUT-CTW1500和Total-Text數據集上的訓練與測試,相較于原始的PSENet網絡,本文模型在性能上有所提升,具有一定的有效性。但實驗仍有優化的空間,后續可從優化損失函數以及簡化后處理操作等方面進行改進。

參考文獻(References):

[1] 梁柏榮.基于深度卷積神經網絡的不規則形狀文字行檢測方法研究[D].廈門大學,2019

[2] Wang W, Xie E, Li X, et al. Shape Robust Text Detection with Progressive Scale? Expansion Network[J]. arXiv preprint arXiv:1903.12473,2019

[3] Shang-Hua Gao, Ming-Ming Cheng, Kai Zhao, Xin-Yu Zhang,Ming-Hsuan Yang, Philip Torr. Res2Net:A New Multi-scaleBackbone Architecture.arXiv:1904.01169

[4] Peng, Chao, et al. Large kernel matters-improve semantic segmentation by global convolutional network. Computer Vision and Pattern Recognition (CVPR),2017.7:4353-4361

[5] 施漪涵,仝明磊.基于PSENet的自然場景文字檢測網絡改進[J].上海電力大學學報,2021,37(1):73-77

[6] 趙龍,李飛,王偉峰.基于PSENet和CRNN的身份證識別[J].現代計算機,2020(34):78-82

[7] 王光軍.基于神經網絡的自然場景中的字符識別算法的研究與實現[D].電子科技大學,2020

[8] 張芮.基于Res2Net的多任務網絡及應用注意力機制的自動作曲[D].吉林大學,2020

[9] 劉一群.基于Res2Net的重識別方法[D].吉林大學,2020

[10] Christian Szegedy et al. Rethinking the Inception Architecture for Computer Vision[J]. CoRR, 2015, abs/1512.00567

[11] Yuliang L, Lianwen J, Shuaitao Z, et al. Detecting curve text in the wild: New dataset and new solution[J]. arXiv preprint arXiv:1712.02170,2017

[12] Ch'ng C K, Chan C S. Total-Text: A comprehensive dataset for scene text detection and recognition[C]. In:201714th IAPR International Conference on Document Analysis and Recognition,2017.1:935-942

[13] 付明輝.基于深度學習的自然場景文字檢測算法研究[D].北方工業大學,2021

主站蜘蛛池模板: 国产自在自线午夜精品视频| 亚州AV秘 一区二区三区| 亚洲区第一页| 亚洲AV成人一区国产精品| 在线观看亚洲天堂| 91麻豆精品国产高清在线| 国产精品女熟高潮视频| 毛片免费观看视频| 欧美亚洲一二三区| 国产亚洲欧美在线中文bt天堂| 一级毛片在线播放| 亚洲AV无码久久精品色欲| 中文字幕欧美日韩高清| 一区二区午夜| 欧美一级大片在线观看| 国产精品视频白浆免费视频| 亚洲人成电影在线播放| 免费人成网站在线观看欧美| 国产人前露出系列视频| 亚洲色大成网站www国产| 91人人妻人人做人人爽男同| av午夜福利一片免费看| 高清无码不卡视频| 成年人福利视频| 成人自拍视频在线观看| 中文字幕不卡免费高清视频| 亚洲美女一区二区三区| 亚洲中文精品人人永久免费| 色婷婷在线播放| 一本久道热中字伊人| 72种姿势欧美久久久久大黄蕉| 亚洲国产综合精品一区| 亚洲人妖在线| 中文天堂在线视频| 国产日本欧美亚洲精品视| 欧美一级在线播放| 国产麻豆va精品视频| 国产最爽的乱婬视频国语对白| 美女视频黄又黄又免费高清| 免费看黄片一区二区三区| 亚洲午夜福利精品无码| 国产毛片基地| 久久久波多野结衣av一区二区| 九九免费观看全部免费视频| 国产一区二区丝袜高跟鞋| 蝌蚪国产精品视频第一页| 囯产av无码片毛片一级| 日本亚洲成高清一区二区三区| 久青草网站| 青草视频久久| 日韩国产精品无码一区二区三区 | 国产欧美视频在线观看| 色老头综合网| 国产爽妇精品| 区国产精品搜索视频| 国产精品99一区不卡| 欧美精品v日韩精品v国产精品| 热久久这里是精品6免费观看| 亚洲视频四区| 国国产a国产片免费麻豆| 91亚洲免费| 99成人在线观看| 亚洲第一成年网| 亚洲无码电影| 九九热视频精品在线| 国产精品毛片一区| 亚洲成人一区二区三区| 精品乱码久久久久久久| 欧美视频在线播放观看免费福利资源 | 被公侵犯人妻少妇一区二区三区| 欧美爱爱网| 国产高清不卡视频| 在线精品欧美日韩| 青草午夜精品视频在线观看| 亚洲国产成人综合精品2020| 欧美国产综合色视频| 国产丝袜一区二区三区视频免下载| 72种姿势欧美久久久大黄蕉| 久久女人网| 91成人在线观看| 99国产精品一区二区| 99激情网|