999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的智能OCR識別關鍵技術及應用研究

2021-09-16 06:49:54王日花中國傳媒大學北京100024
郵電設計技術 2021年8期
關鍵詞:分類深度特征

王日花(中國傳媒大學,北京 100024)

0 引言

近年來,移動互聯、大數據等新技術飛速發展,倒逼傳統行業向智能化、移動化的方向轉型[1-2]。隨著運營集約化、數字化的逐漸鋪開,尤其是以OCR 識別、數據挖掘等為代表的人工智能技術逐漸深入業務場景,為用戶帶來持續的經濟效益和品牌效應。圖書情報領域作為提升公共服務的一個窗口,面臨著新技術帶來的沖擊,必須加強管理創新,積極打造智能化的圖書情報服務平臺[3-5],滿足讀者的個性化需求。無論是高校圖書館還是公共圖書館,都需加強人工智能基礎能力的建設,并與圖書館內部的信息化系統打通,優化圖書館傳統的服務模式,提升讀者的借閱體驗。

影像分類和錄入紙質材料是圖書館的常態生產需求,比如:拍照的圖書文本和借閱證件信息的分類與錄入,會消耗大量人力、物力和時間成本,影響業務流程的效率和用戶體驗。人工錄入的效率和準確性低,且易受館員情緒影響。長期從事繁瑣機械的錄入工作,對于館員是極大的心理負擔。智能OCR 利用機器24 h 連續工作,不受時間限制,可解決上述圖書館業務的痛點,提高影像處理效率。

1 傳統OCR識別技術介紹

光學字符識別(Optical Character Recognition,OCR)指自動識別圖像中的文字內容,屬于人工智能機器視覺領域的一個重要的分支[6-8],即把文本、卡證等載體上的文字通過光學等技術手段轉化為計算機認識的電子化數據。傳統OCR 識別采用統計模式,處理流程較長,包括圖像的預處理、二值化、連通域分析、版面分析、行切分、字切分、單字符識別和后處理等步驟。典型的傳統OCR識別流程如圖1所示。

圖1 傳統OCR識別技術流程

傳統OCR識別方法存在諸多弊端,匯總如下:

a)在進行版面分析時,使用大量的規則,導致程序維護成本很高。

b)行業域分析完全依靠圖像二值化得到的二值圖,對于掃描文檔效果尚可,面對手機拍攝和高拍儀取圖時,難取得效果良好的二值化圖,造成二值化過程中大量信息的丟失。

c)傳統OCR技術包含8個模塊,如圖1所示,其中任何一個模塊的不完善都會產生誤差,誤差的累積將導致識別率大幅下降。

d)傳統OCR識別靈活性差,對于自然場景下拍攝的復雜樣本基本無法處理,沒有修改提升空間,可用性不高。

e)傳統的方法將OCR系統割裂成過多的環節,倚重人工規則,需要在每個環節上引入人工干預并根據場景設定方法參數,難做到端到端的訓練。

深度學習算法可以有效地規避傳統OCR 識別的不足,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,挖掘數據的分布式特征表示。借助神經網絡來模擬人腦進行分析、學習和訓練,即模仿人腦機制來分析圖像、聲音和文本等數據,被廣泛應用于人工智能的模型構建和處理中。

2 基于深度學習的智能OCR識別概述

隨著2012 年Imagenet 競賽采用深度學習技術的AlexNet奪得冠軍,深度學習算法開始應用于圖像視頻領域。基于深度學習的智能OCR 技術是一次跨越式的升級[9-12],深度學習算法實現整行識別,提升了OCR的識別率和識別速度,人工需要幾分鐘才能錄入的文本,智能OCR 技術可以秒速進行精準識別。智能OCR識別技術對識別流程進行了優化,優化后的識別流程包括檢測、識別和后處理3個主要步驟,如圖2所示。

圖2 智能OCR識別技術流程

基于深度學習的OCR 定位與識別通過卷積神經網絡CNN、循環神經網絡RNN、長短期記憶網絡LSTM技術實現,可在灰度圖像上實現文字區域的自動定位和整行文字的識別,解決了傳統OCR 技術中單字識別無法借助上下文來判斷形似字的問題。此外,智能OCR 識別技術在低質量圖片的容忍能力和識別準確率方面得到了顯著的提升,可在印刷體低分辨率與模糊字符識別、印刷體復雜或者非均勻背景識別、印刷體多語言混合識別、印刷體藝術字體識別、手寫小寫數字識別、手寫大寫金額識別、手寫通用文本識別等場景下實現高效的識別和分類。基于深度學習的智能OCR 識別技術[13-15]支持移動設備拍攝的圖像識別,可適用于對焦不準、高噪聲、低分辨率、強光影等復雜背景。

除了在卡證識別、票據識別、表單識別、文檔識別,智能OCR 可應用于互聯網廣告推薦系統、UCG 圖片視頻過濾、醫學影像識別、街景路牌識別等。智能OCR 識別屬于多類分類問題,場景復雜、挑戰性大;尤其是中文識別,字符集達到20 000 類,而英文數字加字母只有62類。影響OCR識別效果的因素較多,比如背景的復雜度、字體的種類、分辨率的高低、多語言混合度、字體的排列、變形和透視情況等。

3 智能OCR的關鍵技術和創新應用

3.1 移動端適配和圖像質量判斷

圖書館生產需求更多的發生在移動端,用戶更喜歡用手機拍照后即可識別,智能OCR 技術綜合已有的信息化技術,可在各種移動端實現適配。首先,基于輕量級深度學習技術,實現移動端的取圖功能;其次,融合視頻流識別技術,即從視頻中識別出圖書館卡證的有效信息。深度學習網絡可高效地學習到邊緣情況,通過邊緣的檢測,得到物體的邊緣輪廓,然后通過邊緣跟蹤合并,保障識別效果。移動端適配網絡計算量很小,大多數的移動端設備均支持,即使透視變換很嚴重的圖像也能很好地校正,保證移動端識別的準確率。

移動端圖像的采集受光照強弱、拍攝抖動、對焦方式等條件影響,有時會導致采集的原始圖像非常模糊,最終使得圖像無法被有效地識別。基于此,需要將模糊的圖像阻擋在識別之前,使得系統資源被合理的利用。基于深度學習的圖像質量判斷,提供一種圖像質量判斷能力,通過CNN 學習得到輸入圖像質量的分類,給出判斷的可信度。

3.2 多任務目標檢測

角度檢測和文本檢測是文本識別的前提,可在雜亂無序、千奇百怪的復雜場景中準確定位出角度、直線、圖章、文字等區域。由于圖像可能帶有一定角度,有的甚至有可能是90°以上傾斜或者倒立圖像,需要檢測出圖像的主方向角度;處理的圖像可能存在表格線,圖章等,都需要檢測出來;對于圖像中的文字行區域,需按照文本行檢測出每一塊的外接四邊形。傳統的方法是功能模塊分開,各自采用不同的網絡進行定位,所需的網絡規模巨大,串行效率較低。為解決此問題,可采用基于多任務(MultiTask)的FCN 檢測網絡,將角度檢測、直線檢測、圖章檢測、文字檢測融合在一個檢測網絡中,從輸出的特征圖中預測出需要檢測結果。

3.3 整行識別的核心技術

文字圖像是按照一定的規則和順序排列的,OCR可看成是一種與語音識別類似的序列識別問題。基于與語音識別問題類似,OCR 技術可視為時序依賴的詞匯或短語識別問題。利用CNN+LSTM+Attention+CTC 網絡實現端到端的整行文字識別,精度和效率均有較大提升,下面介紹2種常見的整行識別算法。

3.3.1 基于CRNN 的整行識別技術(CNN+LSTM+CTC)

基于聯結時序分類CTC(Connectionist Temporal Classification)訓練RNN 的算法,在語音識別領域中相對于傳統算法具有顯著優勢,所以嘗試在OCR 識別中借鑒CTC 損失函數。CRNN 就是其中代表性算法,CRNN 算法輸入100×32 歸一化高度的詞條圖像,基于7 層CNN 提取特征圖,把特征圖按列切分(Map-to-Se?quence),每一列包含512 個維度特征,輸入到兩層雙向LSTM神經網絡(每層包含256個單元格)進行分類。在訓練過程中,通過CTC 損失函數的指導,實現字符位置與類標的近似軟對齊。CRNN 借鑒語音識別中的LSTM+CTC 的建模方法,不同點是輸入的LSTM 特征,從語音領域的聲學特征(MFCC),替換為CNN 網絡提取的圖像特征向量。CRNN算法把CNN做圖像特征工程的潛力與LSTM 做序列化識別的潛力結合,既提取了魯棒特征,又通過序列識別避免了傳統算法中難度極高的單字符切分與單字符識別等問題,同時序列化識別也嵌入時序依賴(隱含利用語料)。

智能OCR 識別技術通過改進LSTM+CTC 算法,在CNN 一側,通過在卷積層采取類似VGG 網絡的結構,減少CNN 卷積核數量的同時增加卷積層深度,既保證精度又降低時耗,同時加入BatchNorm 機制。在RNN一側,針對LSTM 有對語料和圖像背景過擬合的傾向,在雙向LSTM 單元層實現Dropout。在訓練階段,針對CTC loss 對初始化敏感和收斂速度慢的問題,采用樣本由易到難、分階段訓練的策略。在測試階段,針對字符拉伸導致識別率降低的問題,保持輸入圖像尺寸比例,根據卷積特征圖的尺寸動態決定LSTM 時序長度。

3.3.2 聯合CTC和Attention機制的整行識別

近年來,注意力機制廣泛應用于語音識別、圖像描述、自然語言處理等領域。就其在OCR 的應用而言,注意力機制能夠實現特征向量與原圖字符區域的近似對齊,聚焦詞條圖像特征向量的ROI,優化深度網絡Encoder-Decoder 模型的準確率。相比于CNN+LSTM+CTC 模型,注意力模型更顯式的把當前時刻待分類字符與原圖位置對齊,也更顯式的利用前一時刻語料;注意力模型配合自回歸連接,除了精度提升,收斂速度也加快了。

聯合訓練方案的精度更優,且收斂速度與CTC 相當,注意力機制就是采用基于內容和歷史相結合的方法。基于內容的方法利用上一步預測的字符向量和預測該向量的加權特征向量作為聯合特征,LSTM 的輸入也來源于聯合特征向量,并生成注意力機制的查詢向量。基于歷史的方法借助上一步的注意力,并利用CNN 模型提取上一步注意力的特征,生成注意力機制索引向量的部分內容。除此,還在訓練數據與技巧等方面做多處改進,如引入圖像隨機填補、依據每個batch內樣本動態填補圖像長度等。

3.4 多文檔圖像分割定位和智能分類

對于識別的各種票據、單據圖像,如果一次只能上傳識別一張,且需要指定圖像必須正立的,會大大影響用戶體驗。多目標分割定位技術,可同時對一張圖像上的不同目標進行分割定位,實現多種票據的同時識別。算法支持任意角度和任意方向的文檔,分割得到最佳擬合文檔的多邊形,做到最大限度的所見即所得,有利于后面的圖像校正和識別。

多圖像的智能分類運用了分層特征融合方法,從圖像分割開始就支持圖像的大類分割分類,然后基于圖像特征和OCR 文本特征進行圖像類別的精分類。圖3是一種可注冊的圖像分類流程。

圖3 智能OCR多文檔圖像智能分類

3.5 識別結果結構化

在各種場景中,要求不但要定位識別出圖像中文字,還需要將圖像分類到之前定義的版式中,方便圖像歸類和識別結果入庫。在版式分類模塊中,通過工具配置模板,然后利用模板信息對輸入圖像進行匹配打分,提取最大的匹配分數;當分數大于預定值時,則匹配成功,否則匹配不成功。整個版式匹配的算法流程圖如圖4所示。版式匹配分3個步驟。

圖4 智能OCR版式分類流程圖

第1 步就是利用提取的直線,分析出表格各個格子(Cell)和表格的結構,將文字行納入該Cell。

第2 步,匹配表格結構、行列數量、表格Cell 的相對尺寸、Cell 占的行數和列數,特別是需要匹配表格Cell內部關鍵字。

第3步,計算線匹配分數和表格線匹配分數,計算關鍵字文本匹配分數并加權相加后得到最終的匹配分數。最后,計算所有的模板與識別結果的匹配分數,匹配分數最大者為表格分類結果,調用設定的多類識別核心,完成對應內容的二次識別。

4 結束語

本文對OCR 技術和應用進行了分析,相比于傳統OCR,基于深度學習的智能OCR 技術具有識別準確率更高、速度更快、無格式依賴、支持私有化快速部署等優勢,深度學習算法和模型構建也是OCR 應用的關鍵。隨著智能OCR 技術不斷演進,需要細化業務需求,和已有的信息化系統相結合,打造智能OCR 創新服務模型,解決實際生產中的痛點問題[16-18]。以圖書和情報領域為例,其本身的信息化水平有待提升,以OCR 為代表的智能化應用相對不足;下一步,要以智慧圖書館建設為目標,需要調研已有的OCR 識別應用,強化更多識別模塊,以技術突破作為優化圖書館業態的基礎,促進管理模式的創新,不斷打造讀者滿意的圖書和知識服務。

猜你喜歡
分類深度特征
分類算一算
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产噜噜在线视频观看| 亚洲系列无码专区偷窥无码| 黄色污网站在线观看| 欧美不卡视频在线观看| 日韩专区欧美| 成人国产一区二区三区| 色综合成人| 欧美精品H在线播放| 亚洲精品手机在线| 无码乱人伦一区二区亚洲一| 黄色网在线免费观看| 欧美日韩一区二区在线免费观看 | 午夜国产精品视频| 国产免费a级片| 色香蕉影院| 亚洲伦理一区二区| 精品视频在线观看你懂的一区| 高清国产在线| 91精品国产综合久久不国产大片| 国产日产欧美精品| 人妻夜夜爽天天爽| 久热精品免费| 国产主播在线一区| 日韩天堂视频| 国产精品久久久久久影院| 毛片免费高清免费| 免费一级无码在线网站| 国产后式a一视频| 秋霞午夜国产精品成人片| jizz亚洲高清在线观看| 久久综合成人| 亚洲综合亚洲国产尤物| 欧美.成人.综合在线 | 午夜小视频在线| 久久亚洲日本不卡一区二区| 色AV色 综合网站| 美女免费精品高清毛片在线视| 午夜国产精品视频| 亚洲天堂久久| 欧美亚洲第一页| 综合亚洲色图| 亚洲综合激情另类专区| 久久综合五月| 韩日无码在线不卡| 丁香综合在线| 91无码网站| 女同国产精品一区二区| 久久精品国产精品青草app| 中文字幕亚洲第一| 久久精品国产国语对白| 欧美成人午夜影院| 日韩视频精品在线| 黄色三级网站免费| 真实国产乱子伦高清| 国产a在视频线精品视频下载| 国产玖玖玖精品视频| 免费一级毛片不卡在线播放| 国模沟沟一区二区三区| 伊人激情综合网| 九九久久精品国产av片囯产区| 亚洲国产欧洲精品路线久久| 精品亚洲国产成人AV| 国产在线小视频| 欧美视频在线播放观看免费福利资源 | 99精品在线视频观看| 国产精品爽爽va在线无码观看 | 欧美日韩国产在线人| 精品国产Av电影无码久久久| 噜噜噜久久| 国语少妇高潮| 一级毛片高清| 国产亚洲欧美在线人成aaaa| 日韩在线视频网| 伊人91在线| 午夜a视频| 欧美午夜视频在线| 亚洲综合在线最大成人| 思思99热精品在线| 日韩午夜福利在线观看| 自拍中文字幕| 久久久亚洲色| 欧美激情综合一区二区|