999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分割的自然場景下文本檢測方法與應用*

2021-03-11 03:48:38陳小順王良君
電子技術應用 2021年2期
關鍵詞:文本檢測方法

陳小順,王良君

(江蘇大學 計算機科學與通信工程學院,江蘇 鎮江212013)

0 引言

視覺圖像是人們獲取外界信息的主要來源,文本則是對事物的一種凝練描述,人通過眼睛捕獲文本獲取信息,機器設備的眼睛則是冰冷的攝像頭。 如何讓機器設備從拍照獲取的圖像中準確檢測識別文本信息逐漸為各界學者關注。

現代文本檢測方法多為基于深度學習的方法,主要分為基于候選框和基于像素分割的兩種形式。本文選擇基于像素分割的深度學習模型作為文本檢測識別的主要研究方向,能夠同時滿足對自然場景文本的精確檢測,又能保證后續設備功能(如語義分析等功能)的拓展。

1 基于像素分割的文本檢測方法

1.1 PixelLink 算法原理

PixelLink[1]算法訓練FCN[2]預測兩種分類:文本與非文本像素、像素間連接關系。 數據集中的文本框內像素整體作為文本像素,其他為非文本像素。與九宮格類似,每個像素的周圍有8 個相鄰的像素,對應有8 種連接關系。 文本與非文本像素之間的值為負,文本與文本像素之間的值為正,非文本像素之間的值為零。 將值為正的像素與相鄰8 個像素之間的連接關系連通成一片分區,每個連通區則代表分割出的文本區。 最后通過OpenCV中的minAreaRect 方法直接得到文本區的最小外接矩形邊界框。

1.2 文本檢測網絡模型設計

改進后網絡模型如圖1 所示,通過Mask map 連接。在原有VGG16[3]網絡模型每個池化層后增加圖2 中SE Block[4]以獲取每個特征通道的權重,提升有用特征并抑制低效特征通道。

圖1 Mask map 生成

圖2 SE Block

與FCN 中方法相似,從Conv3、Conv4、Conv5、Fc7 層進行上采樣UpSampled 與融合⊕,使用雙線性插值作為上采樣方法,使用加和操作作為融合方法,得到預測特征圖Mask map,過程如圖1 所示。 除Pool5 步長為1,其余池化層步長都為2。其中Fc7 與Conv5 大小一致,可不經過上采樣直接相加。

模型中1×1 的卷積核共兩種,其中2 個1×1 的卷積核用于文本和非文本像素預測,16 個1×1 的卷積核用于像素連接關系預測。

圖2 為插入PixelLink 方法中的SE Block,輸入特征圖與計算后輸出尺度不變。

坐標點可以看做是序列問題[5],對Mask map 圖中生成的矩形框區域進行邊界框預測,每次預測一對坐標點,直至矩形框邊界。 有隱性約束條件,例如第4 個點必須在第2 個點的右邊,后續對特征圖Mask map 進行基于RNN 的自適應文本框預測,采用長短期記憶LSTM[6]模型處理隊列順序問題,最終完成對文本的精確定位。圖3 為文本框預測部分模型結構。

圖3 文本框生成

1.3 文本檢測網絡模型訓練

1.3.1 公開數據集重新標定

自然場景中的文本多用旋轉矩形框和四邊形框定位,坐標通常以順時針方向標注。 本文將坐標點按照上下一對形式從左到右的順序排列,通過此方法將公開數據集的坐標數據進行重新編排。

1.3.2 損失函數定義

改進后算法總體損失函數定義如下:

其中, 文本與非文本分類任務上的損失函數Lpixel和像素連接關系任務的損失函數Llink與原像素連接PixelLink 算法保持一致;邊界點回歸任務損失函數Lreg、停止/繼續標簽分類任務損失函數Lcls為框點對預測中的損失函數;λ1、λ2、λ3、λ4分 別 為 文 本 與 非 文 本 分 類 任 務、像 素 連接關系任務、邊界點回歸任務、停止/繼續標簽分類任務的權重參數,因像素連接關系預測任務、邊界點回歸任務、停止/繼續標簽分類任務都是在第一個文本像素任務基礎上進行計算的,所以像素分類任務比這3 種任務更重要,本實施例中λ1=2,λ2、λ3、λ4默認設置為1。

1.3.3 訓練方法與實驗環境

與Pixellink 方法相似,使用xavier 參數[7]初始化方法,無需使用ImageNet 數據集[8]預訓練。 算法在服務器中用兩張TeslaP4 顯卡進行訓練,使用Anaconda+PyCharm管理,環境及依賴:tensorflow-gpu==1.14,ujson,threadpool,opencv,matplotlib,Pillow,Cython,setproctitle,shapely,Python3.6。 初始100 次迭代中保持學習速率為10-3,后續迭代中保持10-2不變,在ICDAR2015 數據集上整體迭代約30 000 次后再將模型訓練結果作為預訓練值,在其他數據集上進行訓練。 其中batch_size 設定為4,處理器為Intel Xeon Sliver(2.1 GHz),機器內存為40 GB。 每次迭代需要0.8 s 左右,總訓練過程約為15 h。

2 實驗結果與分析

2.1 公開數據集測試

本文主要評價方法為IOU 算法,表1 中R 為召回率,P 為精準率,F 為綜合評價,* 表示算法是基于分割的檢測方法,其他為基于候選框的檢測方法。 測試結果表明本文所改進的方法在各個數據集上均超過原有方法。在對曲向文本的識別方法中領先,并且在水平文本和傾斜文本檢測中能夠接近基于候選框檢測方法的檢測精度。

2.2 自建數據集測試

為測試文本檢測方法在實際生活應用中的檢測效果,使用OV5648USB 攝像頭模塊累計拍攝300 張不同場景下圖像作為測試圖像,原圖分辨率大小為:2 592×1 944。如圖4 所示,為突出顯示檢測結果,截取主要定位部分,圖像中的中文部分以中文詞語作為一條文本行,英文以短語作為一條文本行。 共計2 506 條文本,其中1 964 條中文文本(包含數字),542 條英文文本。

表1 公開數據集測試結果

圖4 自建數據集檢測結果

深色框為改進前方法的定位結果,淺色框為改進后的方法定位結果,右圖為對應的像素分割后的檢測結果。 從特征圖中可以看出,本文方法對長條形的英文檢測敏感,能夠有效檢測出長條形的英文,對曲向的英文有著不錯的識別能力。 在對圖像進行檢時,平均每張檢測速度為0.89 s,即FPS=1.12,R=72.9,P=70.0,F=71.4。

3 結論

本文提出改進的文本檢測方法在數據集表現上均超過原有方法,接近當前領先的算法精度,能夠提高已有文本識別系統對自然場景下曲向文本與模糊文本的識別精度。 后續結合自然語言處理和語義分割任務,又可以將所識別的文本內容、文本背景內容組合生成關于一張圖片中文本的具體描述內容,使得使用者獲取更多的文本信息。

猜你喜歡
文本檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
可能是方法不對
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲天堂免费观看| a免费毛片在线播放| 欧美一区二区人人喊爽| 一级毛片免费观看久| 久草视频精品| 四虎国产成人免费观看| 精久久久久无码区中文字幕| 2019年国产精品自拍不卡| a毛片在线免费观看| 国产精品久久久久久久久kt| 日韩视频福利| 天天摸夜夜操| 精品无码国产一区二区三区AV| 一级毛片在线播放免费| 国产精品三级专区| 97青草最新免费精品视频| 久久精品国产999大香线焦| 亚洲成在线观看| 亚洲男人在线| 免费日韩在线视频| AV天堂资源福利在线观看| 伊伊人成亚洲综合人网7777| 有专无码视频| 日韩av无码精品专区| 中文字幕丝袜一区二区| 超薄丝袜足j国产在线视频| 一区二区日韩国产精久久| 日韩第一页在线| 亚洲天堂网2014| 播五月综合| 国产精品成| 干中文字幕| 福利视频一区| 91成人试看福利体验区| 国产成人亚洲无码淙合青草| 91精品国产综合久久不国产大片| 中文字幕第1页在线播| 国产精选自拍| 欧美日韩亚洲国产| 五月天天天色| 亚洲色婷婷一区二区| 正在播放久久| 亚洲中文字幕久久精品无码一区| 高清码无在线看| 99re免费视频| 欧美综合成人| 亚洲网综合| 亚洲视屏在线观看| A级全黄试看30分钟小视频| 免费视频在线2021入口| 久久亚洲精少妇毛片午夜无码| 亚洲成肉网| 久久婷婷六月| 永久免费无码日韩视频| 黄色网站不卡无码| 东京热av无码电影一区二区| 日韩在线中文| 黄色国产在线| 色吊丝av中文字幕| 国产区福利小视频在线观看尤物| 99国产在线视频| 亚洲Av综合日韩精品久久久| 久久精品aⅴ无码中文字幕 | 国产日韩丝袜一二三区| 啦啦啦网站在线观看a毛片 | 日韩毛片基地| 亚洲AV无码一区二区三区牲色| 国产在线观看一区精品| 亚洲床戏一区| 久久人午夜亚洲精品无码区| 亚洲热线99精品视频| 免费在线看黄网址| 久久综合婷婷| 精品三级网站| 亚洲天堂区| 四虎影视国产精品| 欧美精品啪啪一区二区三区| 国产日本一线在线观看免费| 国产在线视频自拍| 日韩区欧美区| 青青草原偷拍视频| 国产尤物在线播放|