999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的豎排版繁體中文圖像文本化研究

2021-04-02 07:22:38魏志浩李萬清張林達袁友偉
智能物聯(lián)技術 2021年5期
關鍵詞:實驗模型

李 華,魏志浩,劉 俊,李萬清,張林達,袁友偉,何 宏

(杭州電子科技大學,浙江 杭州 310018)

0 引言

中文圖像文本化是指,通過光學字符識別技術(OCR,Optical Character Recognition)[1]將光學文字圖像識別轉化為電子文本形式。 目前,古籍多以圖像的形式儲存, 且市面上對簡體中文的OCR 非常普遍,但對于繁體中文的OCR 較為缺乏。繁體中文圖像文本化由文字定位和文字識別兩部分組成,其中文字識別算法有紋理特征法[2][3]、邊緣檢測法[4][5]、連通區(qū)域法[6][7]和深度學習法[8][9]。 其中,紋理特征法是一種描述圖像全局特征的方法,同時也描述了圖像或者圖像區(qū)域的表面性質,如常見的基于統(tǒng)計和基于幾何的描述方法;缺點是當圖像分辨率變化的時候,計算出的紋理存在較大偏差。 而邊緣檢測法關注點在于輪廓,此方法的目的是基于圖像像素特征找到圖像中亮度變化劇烈的像素點構成的集合,如常見的Sobel 濾波器、Canny 檢測器;缺點是在復雜特殊場景下,不具魯棒性。 而連通區(qū)域法目的是將圖像中各個連通區(qū)域標記出,其中連通區(qū)域指的是圖像中具有相同像素值且位置相鄰的前景像素點組成的圖像區(qū)域,常見的有兩遍掃描法和種子填充法。 以上3 種算法,在亮度變化劇烈,存在強光、反光、反射的情況下,不具備良好的表現(xiàn)。在獲取到文字位置后, 對單個文字采用結構模式識別方法,利用統(tǒng)計模式識別算法[10]和深度學習識別算法[11][12]進行文字識別。

繁體中文文本化面臨的主要問題有:第一,不同古籍文獻書寫字體和版式存在較大差異, 如古籍文獻有雕版印刷、活字印刷、手工抄錄等不同版式,字體也存在差異;第二,文字類別數(shù)目巨大,種類數(shù)以萬計;第三,古籍圖像文字分布不均,不能直接對版面進行切割分析。 古籍影印圖像示例如圖1 所示。

圖1 古籍影印圖像示例Figure 1 Example of photocopy image of ancient books

繁體中文文本化問題可以看作對古籍圖像文字定位及對定位后的單個文字的文字識別問題。針對文字定位中版式差異問題,本文將深度學習目標檢測算法應用于文字檢測,解決文字定位泛化性不高問題。針對不同大小、字體的文字識別問題,本文將應用卷積神經網絡多分類模型解決識別精度不高問題。

1 基于卷積神經網絡的文本化方法

本文采用兩個卷積神經網絡模型,分別用于文字定位和文字識別,并將兩個模型結合,使之成為一套系統(tǒng)的古籍圖像文本化方法。 具體實現(xiàn)方式為:先用卷積神經網絡模型對古籍影印圖像進行文字定位處理,得到文字位置信息,再通過文本位置信息從原始影印圖片中得到單張文字圖片,最后將單張文字圖片按照豎排版順序依次傳入卷積神經網絡識別模型,得到最終的文本。 具體流程如圖2所示。

圖2 文本化算法流程圖Figure 2 Flow chart of textual algorithm

1.1 文字定位

本文以 SSD (Single Shot MultiBox Detector)模型[13]為基礎,將目標檢測方法應用于文字檢測。 模型分為兩部分,基礎網絡采用VGG16 網絡,后面部分為特征提取網絡。 在豎排版繁體中文圖像中,目標文字一般較小。 針對小目標檢測, 將基礎VGG(Visual Geometry Group)網絡默認輸入 224×224 修改為512×512,并修改其他相應參數(shù)。 將原先輸出類別從20 類調整為只需檢測1 類,即文字類。同時為了節(jié)省計算資源和時間,本文不采用重新訓練整個網絡參數(shù)方法,而采用遷移學習(Transfer Learning)的方式加載預訓練的VGG16 模型權重參數(shù)。模型結構如圖3 所示。模型以VGG16 為基礎,提取其第 4,7,8,9,10,11,12 層卷積結果, 并用分類器進行分類,再對分類結果進行非極大值抑制處理。

圖3 定位模型結構圖Figure 3 Structure diagram of positioning model

模型通過大量訓練,能實現(xiàn)對不同樣式古籍文字的定位。 如果有新的樣本添加,則只需將新樣本制作成訓練集,再用新訓練集訓練已經成熟的神經網絡模型,而不需要重新訓練新的模型,實現(xiàn)了模型的增量式更新。

1.2 文字識別

文字識別模型結構以卷積神經網絡為基礎,參考Inception 模塊[14]和殘差神經網絡[15]模塊,構建Inception-Resnet 模塊,通過全連接層分類輸出。 其中Inception-Resnet 模塊結構示意圖如圖4 所示。

圖4 Inception-Resnet 模塊結構示意圖Figure 4 Structure diagram of Inception-Resnet module

從圖4 中可知, 輸入網絡右側連接可降維Inception 模塊,左側為殘差神經網絡的捷徑連接,構成Inception-Resnet 模塊。通過該模塊,模型在縱向和橫向的深度得到大幅度提升。文字識別模型整體結構如表1 所示。

從表1 中可知,模型前部分是一般的卷積層和池化層,其主要目的為提取圖像特征和減少特征數(shù)目以精簡特征, 通過4 個卷積層和2 個池化層,卷積特征圖輸出大小為13×13×128。 將其依次通過4個Inception-Resnet 模塊,進一步提取特征。通過池化層3 進一步減少特征參數(shù)數(shù)目,最后通過Flatten層將特征圖降維展開至一維并與全連接層對接,全連接層輸出3495 個分類結果,Softmax 將其轉換為對應預設3495 種繁體中文文字類別概率輸出。

表1 文字識別模型網絡結構表Table 1 Network structure of character recognition model

2 實驗及分析

2.1 文字定位算法實驗

2.1.1 實驗內容

本文選取不同樣式的古籍文字圖像共計1800張,標記文字共計178852 處。 將原始圖片隨機按4∶1 的比例分為訓練集和測試集,訓練集圖像1440張,測試集 360 張,在批次大小(batch_size)=16,學習率 (learning_rate)=0.001 的設置下迭代訓練79148 步。

以精準率 P(Precision Rate)、召回率 R(Recall Rate)、F 值作為指標考察定位算法的性能,分別如式(1)、(2)和(3)所示。

其中TP,F(xiàn)P,F(xiàn)N 分別為準確定位文字的數(shù)目、錯誤定位數(shù)目和未能定位的文字數(shù)目。精準率P 表示預測結果中文字位置真正預測正確的數(shù)目與預測結果中文字位置預測為正確的數(shù)目的比值。召回率R 表示預測結果中文字位置預測正確的數(shù)目與單頁圖像中所有文字數(shù)目的比值。 F 值是一個綜合指標,是P 和R 的調和平均數(shù)。

實驗數(shù)據(jù)為360 張測試圖像,圖像包含不同大小的字體、印刷體與手寫體,版式包括有邊框和無邊框,盡量保證數(shù)據(jù)樣本的多樣性。 將所有圖像寬度統(tǒng)一為500 像素,定義大、中、小三種字體,定義規(guī)則如下:

大號字體:總體50%以上的文字寬大于50 像素;

中號字體: 總體50%以上文字寬大于25 像素小于50 像素;

小號字體:總體50%以上文字寬小于25 像素。

所有360 張測試圖像按字體大小可以分為大號字體47 張、中號字體125 張和小號字體188 張。測試樣例如圖5 所示。

圖5 測試圖像樣本示例Figure 5 Example of test image sample

本文采用連通區(qū)域法、紋理特征法和神經網絡法分別進行實驗測試。 從不同字體大小、印刷體與手寫體和有無邊框等作為分類標準分別使用神經網絡方法進行實驗測試。

2.1.2 實驗結果分析

分別使用連通區(qū)域法、紋理特征法和神經網絡方法對360 張測試集圖像的定位實驗結果如表2所示。神經網絡模型對不同規(guī)格的文字定位效果如表 3、表 4 和表 5 所示。

表2 古籍圖像文字定位實驗結果表Table 2 Experimental results of image text positioning of ancient books

表3 神經網絡對大、中、小字體文字定位實驗結果Table 3 Experimental results of large,medium and small font text location by neural network

表4 神經網絡對印刷體與手寫體字體的文字定位實驗結果Table 4 Experimental results of printed and handwritten font text location by neural network

表5 神經網絡對有邊框字體與無邊框字體的文字定位實驗結果Table 5 Experimental results of neural network font positioning with and without borders

從實驗結果可知,在混合圖片的條件下,本文方法準確率雖然不是最高,但是綜合指標和召回率最高,說明模型的整體性能更佳。 紋理特征法雖然準確率很高,但是召回率最低,兩個相差較大,說明紋理特征法定位結果較準,但是定位出圖中所有文字的能力較差;同時,在有邊框手寫體圖像中,紋理特征法效果不佳。 相比于其他方法,本文方法對各種形式的文字圖片識別準確率和召回率波動最小,同時綜合識別效果最佳。

神經網絡模型對不同大小字體的定位效果相差不大,魯棒性較好,對大號字體定位效果最優(yōu),說明模型對大目標的檢測效果最優(yōu)。對印刷體和手寫體字體的定位中,對印刷體的識別準率、召回率及F 值均高于對手寫體的識別指標,說明模型對格式相對固定的印刷體識別效果更佳,但二者識別效果差距不大,模型相對較穩(wěn)定。 神經網絡模型對有邊框的文本定位效果優(yōu)于無邊框的定位效果。模型對所有情況的古籍文字圖像定位的各項指標均在70%至99%之間,相比于連通區(qū)域法(55%~79%)和紋理特征法(12%~99%)指標波動要更為平穩(wěn),同時整體數(shù)值也更優(yōu)。 綜上,神經網絡模型相較于連通區(qū)域法與紋理特征法性能和適用性更好。

2.2 文字識別算法實驗

文字識別算法實驗數(shù)據(jù)集分為兩部分:第一部分為通過字體文件導出的印刷體繁體中文圖片;第二部分為從真實豎排版古籍文獻中截取的單個繁體文字圖像,并通過人工標注。 實驗數(shù)據(jù)涵蓋3495個日常常用漢字, 每個常用漢字由24 種不同的繁體字字體組成,18 種字體用于訓練,6 種字體用于測試,即訓練集圖片數(shù)目為62910 張,測試集圖片數(shù)目為20970 張。 測試示例圖如圖6 所示。

圖6 測試示例圖Figure 6 Test example diagram

為驗證文字識別模型對標準印刷體繁體中文字體的識別性能,將本文模型與Alexnet、VGG16 等經典神經網絡模型在同樣數(shù)據(jù)集下迭代相同次數(shù)作對比實驗。 結果如表6 所示。

表6 不同神經網絡模型對標準印刷體文字的識別準確率Table 6 Standard printed character recognition accuracy with different neural network models

為驗證模型對真實古籍圖像的識別性能,將6564 張真實繁體字圖片隨機分成一組訓練集和一組測試集,每組各占50%,將本文模型與其他模型一起在原先模型的權重基礎上,在相同數(shù)據(jù)集下迭代相同次數(shù),作對比實驗,結果如表7 所示。

表7 不同模型對真實古籍文字的識別準確率Table 7 Character recognition accuracy of real ancient books with different models

為驗證本文模型中正則化對模型準確率的影響,使用控制變量法,將模型在有無范數(shù)懲罰、有無圖像增廣和是否添加Dropout 層情況下進行對比實驗。測試數(shù)據(jù)集為上述6 套共20970 張標注字庫數(shù)據(jù)集,實驗結果如表8 所示。

表8 不同正則化方法對模型識別效果的影響Table 8 Effects of different regularization methods on model recognition

為驗證本文模型中Inception 模塊和殘差模塊對圖像識別效果的影響,使用控制變量法,將模型分為僅有殘差模塊、僅有Inception 模塊、無Inception模塊也無殘差模塊、有殘差模塊和Inception 模塊的本文模型,作對比實驗。 測試數(shù)據(jù)集為上述6 套共20970 張標注字庫數(shù)據(jù)集,實驗結果如表9 所示。

由表6 和表7 實驗結果可知,本文方法相比于其他神經網絡模型在標準印刷體和真實古籍圖像上的識別準確率均最優(yōu),綜合性能最佳。 說明本文模塊結構相比于現(xiàn)有模型,在繁體中文識別上相比而言最適合。

由表8 實驗結果可知,不同的正則化方法對本文模塊的準確率影響各不相同,其中圖像增廣方法對模塊提升效果最大,范數(shù)懲罰和Dropout 提升的效果相差不大,top-1 準確率約提升1.4%。

由表9 實驗結果可知,不同的神經網絡模塊對模型的識別準確率影響比正則化方法大,不同模塊對模型整體的識別效果的提升也不同,其中Incep-tion 模塊對模型識別效果提升最大,殘差結構提升效果其次。 當僅靠簡單卷積神經網絡時,模型識別top-1 準確率僅有91.212%, 相比原始模型識別性能大幅下降。 其說明Inception 模塊和殘差模塊在特征提取工作中效果顯著,正是有了更優(yōu)異的特征提取,模塊整體識別效果也大幅提升。

表9 網絡模塊對識別效果的影響Table 9 Influence of network module on recognition effect

3 結論

中文古籍采用豎排版的繁體中文, 主流OCR相關研究多是與簡體且排版整齊的文本有關,此技術應用于豎排版繁體中文定位和識別的準確率表現(xiàn)較差。原因一是繁體中文同一個字有多種繁體寫法,多者不下20 種;原因二是古籍豎排版文獻文字分布不均,不能通過簡單的版面切割分析文字。 而截至目前鮮有針對豎排版繁體中文圖像文本化問題的相關研究。 針對以上問題,本文先利用基于深度學習的目標檢測算法,解決豎排本古籍文獻排版不整齊問題,將豎排版古籍文獻中單個繁體文字定位出來,接著利用訓練好的繁體字卷積神經網絡模型識別單個繁體文字,完成化繁為簡的工作,最后將識別的文字以文本形式輸出。 在不同版式、字體大小的真實古籍圖像數(shù)據(jù)集上通過實驗驗證了文中算法的可行性。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久草美女视频| 欧美不卡二区| 日本人又色又爽的视频| 91区国产福利在线观看午夜| 午夜精品国产自在| 69免费在线视频| 亚洲成a人片77777在线播放| 亚洲 欧美 日韩综合一区| 色综合成人| 成人午夜福利视频| 久久久精品久久久久三级| 国产亚洲精品va在线| 国产亚洲男人的天堂在线观看 | 欧美一级色视频| 成人综合网址| 日韩中文字幕亚洲无线码| 四虎精品国产AV二区| 国产尤物视频网址导航| 人人澡人人爽欧美一区| 久久99这里精品8国产| 无码国产偷倩在线播放老年人| 亚洲成人在线免费观看| 狠狠亚洲五月天| 一级毛片免费观看不卡视频| 99久久精品无码专区免费| 韩日午夜在线资源一区二区| 国产香蕉97碰碰视频VA碰碰看| 99热精品久久| 国产亚洲欧美日韩在线一区二区三区 | 精品偷拍一区二区| 午夜视频www| 在线精品亚洲国产| 亚洲大尺码专区影院| 日韩乱码免费一区二区三区| 亚洲AV无码久久天堂| 国产精品成人第一区| 午夜色综合| 欧美成人手机在线观看网址| aa级毛片毛片免费观看久| 亚洲AV人人澡人人双人| 日韩毛片基地| 新SSS无码手机在线观看| 欧美区一区二区三| 国产日本欧美在线观看| 国产一二三区视频| 91久久偷偷做嫩草影院电| 在线人成精品免费视频| 久久久久青草大香线综合精品 | 国产综合精品一区二区| 国产精品入口麻豆| 亚洲成a人片在线观看88| 波多野结衣一区二区三区88| 久久国产乱子| 国产欧美日韩资源在线观看| 88av在线播放| 欧美激情伊人| 欧美影院久久| 亚洲av色吊丝无码| 免费观看国产小粉嫩喷水| 在线观看热码亚洲av每日更新| 日韩精品亚洲精品第一页| 乱人伦视频中文字幕在线| 亚洲成人网在线播放| 亚洲色精品国产一区二区三区| 999精品免费视频| 国产又粗又爽视频| 亚洲最大看欧美片网站地址| 波多野结衣无码AV在线| 国产白浆在线观看| 亚洲欧美另类色图| 亚洲综合日韩精品| 亚洲AV无码不卡无码| 囯产av无码片毛片一级| 99久久婷婷国产综合精| 中日韩欧亚无码视频| 综合网天天| 国内精品久久九九国产精品 | 国产在线精彩视频论坛| 久久不卡精品| 精品国产网| 亚洲欧美另类专区| 欧美亚洲国产视频|