999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的護照文本信息識別

2024-11-06 00:00:00謝子敬
數字通信世界 2024年10期

摘要:應用基于深度學習的場景文本檢測和場景文本識別的算法,實現對多國護照圖片中關鍵文本信息的結構化輸出具有重要意義。該文針對檢測算法難以處理極端長寬比和小尺度文字的問題,使用了基于像素分割的檢測方法,并且進行多尺度特征融合獲得不同尺度的特征圖;針對字符像素受干擾的情況,使用循環神經網絡進行圖像特征的上下文關系建模,以減輕污損干擾;針對無關文本干擾的情況,使用了基于文本和布局信息的多模態Transformer進行建模,獲取關鍵信息的多模態模式,濾去無關信息,進行關鍵詞匹配和提取,獲得了較好的實驗結果。

關鍵詞:護照;深度學習;文本檢測;文本識別;關鍵信息提取

doi:10.3969/J.ISSN.1672-7274.2024.10.018

中圖分類號:TP 3 文獻標志碼:B 文章編碼:1672-7274(2024)10-00-04

A Passport Text Information Recognition System Based on Deep Learning

Abstract: It’s meaningful to apply existing scene text detection and recognition algorithms based on deep learning to passports so as to implement structured output of the key information in multinational passport pictures. In this paper, Aiming at solving the problem of detecting texts with extreme aspect ratio and relatively small size, we use pixel segmentation based algorithm and conduct multi-scale feature fusion; to alleviate the interference in character pixel, we use recurrent neural network to model the context of picture features, so as to reduce the interference of defacing; to avoid the interference of irrelevant text, the multi-modal Transformer based on text information and layout information is used for modeling, so as to obtain multi-modal mode of key information, filtering out irrelevant information, matching and extracting key words.The experimental results show that the system has a lot of advantages.

Keywords: passport; deep learni?ng; text detecti?on; text recogni?ti?on; key i?nformati?on extracti?on

1 研究背景

目前通過計算機視覺技術實現護照識別面臨的主要問題有:圖像存在背景紋理、紫外光防偽花紋、無關條形碼和圖形等的干擾,這會對文本檢測產生影響;護照中有MZR碼這樣的極長文本以及其他細小文本,這對檢測模型的分辨率提出了要求。有些算法對不同字號、字體風格、顏色與空間排列變化等適應性還不強。防偽花紋的紋理特征會產生干擾,往往會造成識別效果下降等。鑒此,本論文旨在設計一個護照文本信息結構化識別系統,通過以鍵值對的格式輸出關鍵信息,達到較好的準確率與識別效果,從而為更好地解決以護照為代表的證照信息識別有效性問題提供思路。

2 算法理論基礎

對護照中文本信息的識別需要經過文本檢測、文本識別和關鍵信息提取的過程。本文設計的檢測模塊采用DB算法實現。DB(Differentiable Binarization),即可微分二值化,是Liao M.等人[1]提出的文本檢測算法,包括DB操作在內的整個神經網絡稱之為DBNet。DB算法屬于基于分割的文本檢測算法,無須復雜的后處理,能夠處理細長文本,在檢測時具有準確度與推理速度方面的優勢,其有效性與效率一般要好于其他算法。本文需要對護照圖片進行文本檢測,找出護照中所有文本框的位置,獲得其四點文本框。文本中設計的識別模塊的任務是識別出圖像中的文字內容,返回預測出的文本和預測結果的置信度。本設計的文本識別模塊采用CRNN[2](Convolutional Recurrent Neural Network)。CRNN框架中,轉錄層使用了CTC方法,計算從雙向LSTM的輸出概率分布中所有能夠獲得標簽字符的路徑概率之和?;贗IIT5K、SVT、IC03數據集CRNN在沒有字典矯正的情況下分別獲得了78.2%、80.8%、89.4%的準確率,同時具有較快的推理速度,是文本識別的典型算法。關鍵信息提?。↘ey Information Extraction,KIE)是一種從文檔圖片中抽取特定信息的技術。本設計使用LayoutXLM[3]算法對文本檢測和識別后的結果進行關鍵信息抽取。LayoutXLM能在多語言文檔數據集上進行字符級別的圖像標注,使用多語言的文檔做預訓練,用來理解文檔布局、文本和圖像內容。它采用了Transformer架構,對帶掩碼的視覺語言建模任務、圖像文本對齊任務和圖像文本匹配任務等多任務進行預訓練,這三個預訓練任務能加強模塊的文本信息對齊能力、文本信息與圖像信息中細粒度和粗粒度的對齊能力。本設計在權衡性能的情況下去掉了其中的視覺編碼及與視覺相關的預訓練,僅處理護照中的文本信息和布局信息,結果顯示該算法在面對不同類型護照時都能有效提取出所需關鍵詞,以鍵值對輸出。

3 過程實現

本實驗設計的步驟主要包括前述算法選擇、數據獲取與標注、模型訓練和模型評估,然后通過采用相關算法從護照圖像中檢測與識別文本信息,并最終提取出關鍵信息,實現對多國護照圖片中關鍵文本信息的結構化輸出。

3.1 數據來源與標注

在數據來源方面,預訓練數據集包括用于文本檢測的LSVT-2019中的3萬張護照圖片,用于文本識別的原始真實數據26萬張圖片與合成的500萬張圖片,用于關鍵信息提取的XFUNDS數據集200張圖片。LSVT-2019和XFUND來源于公開數據集。文本識別圖片來源于LSVT-2019和PaddleOCR。微調數據集來源于百度、小紅書以及采集到的真實護照。綜合起來總計文本檢測圖片650張,文本識別圖片則包括了原始真實圖片11 000張和使用Text Recognition Data Generator合成的文本圖片7萬張,關鍵信息提取圖片有150張。在進行數據標注時,對LSVT-2019中的圖片標注了文本位置的4點坐標和文本內容,同時對文本識別數據集圖片中的字符數字進行了標注。針對XFUNDS數據集,將圖片中出現的關鍵詞進行了文本內容和關鍵詞類別的標注。微調數據集使用PaddleOCR提供的PaddleOCRLabel半自動化標注軟件進行標注,標注格式同上。本設計中在進行文本檢測標注時將屬于同一字段的文本都放在同一個文本框中,如護照上的出生日期不應標注成“23”“MAR”“96”,而是“23 MAR 96”。在標注文本識別數據時將文本字符內容標注出即可。

3.2 評價指標

對護照圖片信息實現文本檢測、文本識別與關鍵信息提取實驗時須設定評價指標。這里,文本檢測訓練的評價指標主要包括準確率、召回率和Hmean。當預測文本框與標注文本框的交并比大于0.5時可以認為圖像預測成功。準確率指正確預測的文本框個數與總預測個數的比值,當一條文本中的所有字符均預測準確(不計空格),我們稱這條文本預測正確。召回率指準確預測的文本框個數與總標注個數的比值。Hmean為準確率與召回率的調和平均值。文本識別訓練評價指標有準確率和歸一化編輯距離。編輯距離指將原文本通過替換、刪除或增添等操作后得到目標文本所需要的操作數。歸一化編輯距離為1-(各預測文本的編輯距離之和/所有文本字符數)。關鍵信息提取的評價指標有準確率、召回率和Hmean。當一條關鍵信息被正確檢測和識別后,模型對其關鍵詞類別進行預測,若與標準類別相同則表明預測正確。類似地,其中準確率為vgoItqYT0IXAAbgULyDX8Q==關鍵信息中預測正確個數占所有已預測信息數目的比值,召回率為關鍵信息中預測正確個數占總待預測個數比值。

3.3 模型訓練

本實驗使用的硬件系統與軟件系統中,服務器使用Linux操作系統Ubuntu,發行版本為20.04.1,顯卡使用單卡RTX A5000(24G),處理器參數為“Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz”,深度學習框架使用paddlepaddle-gpu2.4.2版本、Python3.8版本,及Cuda11.2版本。進行護照文本檢測實驗時,在前述預訓練模型的基礎上進行微調。設置Adam優化器,設定學習率為0.001進行余弦衰減,采用warm_up訓練策略以提升訓練效果,加入L2正則化,訓練epoch數目為100,batch_size大小為24。圖像預處理采用隨機翻轉、隨機旋轉、隨機仿射變換和隨機剪裁等圖像增強策略對數據進行增廣,以減少過擬合。護照文本識別實驗中,在前述預訓練模型的基礎上進行微調。實驗中將CRNN算法和基于Transformer的SVTR算法的運行結果進行了對比,并且對CRNN訓練的學習率進行了多次試驗。其中進行CRNN訓練時epoch數目為30,最佳學習率為0.0003,使用Adam優化器、學習率進行余弦衰減,實施warm_up訓練策略,訓練前將圖像像素改變為32×480,以適應長文本圖像。提取關鍵信息時,在預訓練模型的基礎上進行微調,訓練epoch數目為100,使用AdamW優化器,將學習率設置為0.0001并進行余弦衰減,采用warm_up訓練策略,對輸入文本信息進行最長大小為512的詞嵌入。

4 實驗N3hw9WuAfkbr3BGfjnrU7Q==結果與分析

4.1 文本檢測實驗結果與分析

首先對護照文本信息進行檢測,得到訓練損失與準確率評估情況分別見圖1與圖2所示。

圖1中,總損失是概率圖損失、閾值圖損失和二值圖損失的加權平均和。橫坐標為訓練步數,縱坐標為總損失數值,反映模型對真實標簽的擬合情況。圖2中橫坐標為評估準確率的次數,縱坐標為當次評估的準確率。評估過程中在第32次達到了最高準確度0.944。在測試運行速度時,推理預測了324張圖片,用時13.15 s,平均每張用時40 ms,FPS為24.69,訓練后模型效果較好。從結果來看,文本檢測模型對于中文和英文的檢測效果較好,對圖像中的數字、中文、英文都能很好地檢測出來,也學習到了外國語言如厄立特里亞護照中出現的外語文字圖像特征。

4.2 文本識別實驗結果與分析

首先對基于注意力和Transformer的模型SVTR進行了訓練,訓練集和驗證集中的真實圖片和合成文本圖片比例為1∶1。實驗結果表明最高達到了0.944的準確率、0.9906的歸一化編輯距離,以及511的FPS。然后使用不基于注意力機制的模型CRNN進行了訓練,最高達到了0.971的準確率、0.9959的歸一化編輯距離和730的FPS。CRNN算法的最終效果比SVTR算法效果好,究其原因,這是因為護照文本字符大部分不具有上下文相關性,注意力機制沒有帶來很大效果提升,反而減慢了推理速度。其次,在實驗中對CRNN訓練效果較好的學習率進行了多次試探,使用了0.001、0.0005、0.0003、0.0001等學習率進行訓練,最終發現當學習率為0.0003時效果最好。若只使用真實數據作為測試集,準確率為0.937,歸一化編輯距離為0.9913。測試預測24 000張圖片,用時105 s,FPS為228,平均每張圖片推理用時4 ms。聯級時將檢測模型檢測到的文字區域進行單獨識別,將所有的檢測識別結果重新書寫在空白頁面上。從結果中可以看出,檢測和識別模型能夠對圖片進行基本的檢測和識別。

4.3 關鍵信息提取結果

最后,在對護照文本進行關鍵信息提取時,結果顯示最高準確率為0.971。關鍵信息提取網絡過濾了關鍵詞的提示詞,如“姓名/Name”、“護照”,將所需要的關鍵詞的內容提取了出來,具體有護照類別、國家碼、護照號碼、姓名、性別、出生日期、出生地點、簽發日期、簽發地點、到期日期、簽發機關、MZR碼、護照序列號,反映模型對于基本的關鍵信息都能實現有效提取。

5 結束語

本實驗對護照文本信息進行了檢測、識別與關鍵信息的提取工作。在文本檢測時,針對細長文本使用了基于像素分割思想的算法,能獲得大尺度和小尺度的特征;在文本識別任務中,針對字符污損和模糊的情況使用了雙向LSTM對文本特征進行上下文建模,減少了干擾像素的影響;在關鍵信息提取任務中,針對護照存在不同版式的情況使用了融合位置信息和布局信息的Transformer Encoder結構對關鍵詞布局進行建模,實現對多版本護照的關鍵信息提取。通過實驗可知,文本檢測模型獲得了94.4%的準確率和24的FPS,模型能在一定程度上克服護照樣本受強烈花紋干擾導致文本實例分割不清晰的情況;文本識別模型獲得了93.7%的準確率、0.991 3的編輯距離和228的FPS,模型可以識別輕微模糊的文字圖片;關鍵信息提取模型獲得了97.1%的準確率,在大部分情況下都可以有效地實現護照文本中的關鍵信息提取。綜合來看,本實驗較好地實現了整個護照文本信息的檢測、識別與提取工作。本設計在未來的改進方向是讓模型學習非文字圖像的特征并對非文字像素進行去除,同時模型可以改進為端到端的設計,以進一步減少模型參數量和推理用時。

參考文獻

[1] Zhu Y., Chen J., Liang L., et al. Fourier Contour Embedding for Arbitrary-Shaped Text Detection[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, virtual: IEEE, 2021:3123-3131.

[2] Shi B., Wang X., Lyu P., et al. Robust Scene Text Recognition with Automatic Rectification[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA: IEEE, 2016:4168-4176.

[3] Xu Y., Lv T., Cui L., et al. LayoutXLM: Multimodal Pre-training for Multilingual Visually-Rich Document Understanding[J]. arXiv preprint arXiv:2104.08836, 2021.

主站蜘蛛池模板: 欧美人在线一区二区三区| 国产精品亚欧美一区二区| 欧美一级99在线观看国产| 欧美专区日韩专区| 成人久久精品一区二区三区 | 第一区免费在线观看| 婷婷色一区二区三区| 亚洲日韩精品欧美中文字幕| 久久国产精品国产自线拍| 91麻豆国产视频| 久久青草免费91观看| 国产素人在线| 欧美成人精品在线| 亚洲一区网站| 99伊人精品| 亚洲精品麻豆| 日韩国产综合精选| 国产97视频在线| 国产精品第一区| 综合五月天网| 亚洲第一网站男人都懂| 日韩二区三区| 亚洲爱婷婷色69堂| 最新日本中文字幕| 性视频久久| 亚洲综合第一区| 欧美特级AAAAAA视频免费观看| 国产成人精品无码一区二 | 免费可以看的无遮挡av无码| 99久视频| 免费人成视网站在线不卡| 亚洲精选无码久久久| 欧美成人综合视频| 国产一区二区三区免费观看| 色屁屁一区二区三区视频国产| 国产一级特黄aa级特黄裸毛片| 尤物视频一区| 永久免费AⅤ无码网站在线观看| 国产丝袜啪啪| 天堂岛国av无码免费无禁网站| 老司机aⅴ在线精品导航| 亚洲国产中文在线二区三区免| 久久久成年黄色视频| 欧美日本视频在线观看| 亚洲精品成人片在线观看| 第九色区aⅴ天堂久久香| 欧美高清国产| 色综合天天综合| a级毛片毛片免费观看久潮| 国产综合网站| 波多野结衣无码AV在线| 日韩第九页| 日韩天堂在线观看| 国产区成人精品视频| 2019国产在线| 国产日本一线在线观看免费| 亚洲最黄视频| 婷婷激情五月网| 一区二区三区四区精品视频| 国产亚洲精久久久久久久91| 日韩精品资源| 国内精品视频| 亚洲成人在线网| 毛片免费网址| 亚洲一级无毛片无码在线免费视频| 真人高潮娇喘嗯啊在线观看| 午夜小视频在线| 国产情精品嫩草影院88av| 国产视频 第一页| 黄色片中文字幕| 亚洲第一色视频| 97国产精品视频自在拍| 99久久性生片| 美女视频黄频a免费高清不卡| 中国成人在线视频| 国产精品亚洲专区一区| 国产欧美网站| 国产三级a| 精品夜恋影院亚洲欧洲| 九九热视频在线免费观看| 18禁影院亚洲专区| 在线无码av一区二区三区|