基于深度學習方法的手寫文本行提取綜述

2021-05-04 11:11:18楊益暄田益民崔圓斌齊千慧韓利利

智能計算機與應用 2021年11期

楊益暄，田益民，崔圓斌，齊千慧，韓利利

（北京印刷學院信息工程學院，北京 102600）

0 引言

信息技術的飛速發展無時無刻不在影響著人們的生活。多媒體數字網絡的迅猛發展，使傳統的紙質媒體受到了劇烈的沖擊。然而仍然有很多價值珍貴的或對個人而言意義重大的資料保存記錄在紙質媒介上。如雜志、手寫文稿、歷史文稿等。當在成千上萬的文檔中搜索信息時，紙質文檔的不適用性就會體現出來。文檔分析與識別（Document Analysis and Recognition，DAR）［1］系統是一項復雜的工程任務，其一般包含文本與非文本部分分離、文本行或單詞提取、文本傾斜和偏移的校正、字符或單詞識別等步驟。其中，文本行是文檔圖像中的重要實體，因此正確提取文檔中的文本行將直接影響單詞或字符識別的準確程度。

當今流行的文本行提取方法分為兩大類：傳統方法和學習方法。傳統手寫文本行提取方法主要基于機器學習和啟發式算法，又可細分為3類［5］：自頂向下的方法、自底向上的方法和混合型方法。自頂向下的方法對文本行的字符序列部分進行分組，并將屬于不同文本行的各個組成部分進行拆分，從而實現文本行的定位。如文獻［6］，用接縫裁剪法獲取圖像特征后，通過計算能量圖分割文本行；Alaei［7］等人則先確定行間間隙，然后在每個間隙上應用分段過濾，最后使用細化算法分割手寫文本行。自底向上的方法則是根據局部特征對像素或相連的部分進行分組，以形成文本行。如，文獻［8］使用超像素法獲得圖像連通區域（Connected components，CCs），并通過最小化能量函數對CCs進行分割提取文本行。Ryu等人［9］通過改進文獻［8］的CCs分割方法和最小化能量函數，克服了少量CCs無法正確提取文本行的問題，提出了一種不受語言影響的文本行提取方法。混合型方法則將自頂向下和自底向上文本行提取方法相結合。如，Louloudis等人［10］采用了先得到CCs后，再用Hough變換檢測文本行，最后通過后期處理以糾正錯誤。Deshmukh等人［11］則利用全局閾值和各行的局部閾值分割文本行，再通過后期基于分治和水平投影的方法，從剩余未分割的區域中提取文本行。

時至今日，已有許多基于傳統機器學習的文本行提取方法。如基于Hough變換的方法［2］、基于模擬水流的方法［3］、基于圖像接縫裁剪［4］方法等等。而隨著深度學習的興起，越來越多的工作者結合深度學習開展相應的研究。

本文將針對目前主要的基于深度學習的文本行提取方法分析研究，并對常用的數據集做簡單介紹。

1 基于深度學習提取方法

隨著深度學習的興起，人們注意到基于深度學習的文本行提取方法可以解決許多傳統方法面臨的問題。許多研究人員指出，從文檔中提取文本行最有效的方法是搭建深度神經網絡，大量的參數和網絡隱層數使其擁有很強的非線性擬合能力以及自學習能力。此外，基于深度學習的方法在應對文檔圖像中的不同噪聲和古籍紙張自然老化或污損有著較好的魯棒性。

1.1 基于全卷積神經網絡方法

圖像分割作為計算機視覺領域的三大任務之一，一直存在著極大的挑戰性。由Long等人［12］提出的全卷積神經網絡（Fully Convolutional Networks，FCN）在這方面取得了顯著的進步。FCN將傳統卷積神經網絡的全連接層替換為卷積層，實現了單張圖像像素級的分類，從而解決語義級別的圖像分割（semantic segmentation）問題。FCN分為二部分：卷積層和反卷積層。卷積層可以接受任意尺寸的輸入圖像，之后采用反卷積層對最后一個卷積層產生的特征圖進行上采樣，使它恢復到輸入圖像相同的尺寸，從而預測每一個像素的類別，同時保留了原始輸入圖像中的空間信息，最后在上采樣的特征圖上進行逐像素分類。

由于FCN在圖像分割領域的優秀表現，研究人員將此網絡應用于文檔或歷史手稿圖像的文本行提取中。FCN作為一種端到端的圖像分割方法，可以通過反卷積層得到的熱圖并使用不同的分割方法來提取文本行。Vo等人［13］通過FCN對手寫文檔圖像進行了文本行提取；Baraket等人［14］同樣使用FCN對具有挑戰性歷史手稿圖像進行了文本行提取，得到了比傳統方法更好的效果。但是，原始的FCN結構在反卷積過程對圖像細節的處理不到位，丟失了許多細節信息。Renton等人［15-16］分別對比了反卷積、上池化和空洞卷積在手寫文本行提取的應用效果，發現空洞卷積增大感受野，提高了對文本信息的識別精度。因此提出了一種新的架構，將卷積層和最大池化層替換為空洞卷積。此外引入X高度作為文本行的標簽進行訓練，減少文本行之間字符粘連的影響，在所用數據集上達到了不錯的效果。

1.2 基于編解碼器方法

為了實現醫學圖像的分割，Ronneberger等人［17］于2015年提出一種編解碼結構的網絡模型U-Net。U-Net體系結構由兩個對稱部分組成，即收縮路徑和擴展路徑。收縮路徑進行特征提取，擴展路徑通過組合從收縮路徑捕獲的圖像上下文信息來保證準確定位。U-Net體系結構既充當編碼器又充當解碼器。U-Net作為FCN的變體，可以將可變大小的圖像作為U-Net結構的輸入，而且，訓練階段不需要大量的圖像。另外，U-Net在對文檔圖像語義分割的多項工作中顯示出有效的效果。

基于原始的U-Net，Mechi等人［18］提出了一種自適應U-Net結構的歷史手稿圖像文本行分割方法。該方法在解碼器階段使用反卷積操作，以在網絡架構的輸入和輸出上保持相同的分辨率。同時將原網絡結構收縮路徑所設置的卷積核減少到一半，消除訓練階段的過度擬合問題。Gruning等人［19］提出了一種基于ARU-Net的歷史手稿文本行檢測方法，該架構是U-Net的擴展。通過注意模型和殘差結構構建U型結構，旨在及時處理任意大小的圖像，以考慮所有空間上下文信息。其使用的空間注意機制允許ARU-Net專注于不同位置和比例的圖像內容。此外，還可以從頭開始訓練。利用數據增強方法，不需要過多地手動標注示例圖片。Neche等人［20］提出了結合循環神經網絡的RU-Net，這種方法比ARU-Net訓練簡單，僅需要較少的處理步驟，即可達到更好的效果。

1.3 基于循環神經網絡方法

循環神經網絡（Recurrent Neural Network，RNN）于20世紀80年代提出，隨著不斷地改進和GPU性能的提升，逐漸在自然語言處理、目標檢測等方面取得了諸多成果。

基于RNN的手寫文本行提取方法受到目標檢測方法的啟發，結合CNN和根據RNN改進的長短期記憶神經網絡（Long Short-Term Memory，LSTM）對文本行進行定位檢測。Moysset等人［21-22］對文本行周圍的bounding box進行打分，再利用分類器定位每個文本行的起點并標記，最后得到文本行的邊界框。在文獻［23］中，Moysset通過MLSTM改良了之前的方法，提高了這種定位方法的精度，對具有高度差異性的數據集進行測試，顯示出了良好的效果。

1.4 基于生成式對抗網絡方法

生成式對抗網絡（Generative Adversarial Networks，GAN）于2014年由Goodfellow等人［24］提出。GAN基于零和博弈的思想，構造出一個生成器和一個判別器。生成器從隨機信號分布中合成一些有意義的數據矩陣，判別器則區分真實分布和虛假分布，通過不斷的對抗來優化網絡的結構。目前，GAN已經在圖像編輯、圖像生成、視頻預測、圖像超分辨率等諸多領域大放異彩。

由于GAN架構優秀的生成能力，Kundu等人［25］首次將GAN引入文本行提取領域。受Isola等人［26］提出的pix2pix啟發，以Encoder-Decoder和U-Net分別作為兩個GAN的生成器，以Patch-GAN作為判別器。在實驗過程中，以U-Net為生成器的GAN在迭代對抗訓練中能夠更精確的分割文本圖像。這種pix2pix結構有效地學習了文本行的特征，為手寫文本行提取領域注入了新的思路。但GAN對輸入的超參數極其敏感。此外，則需要更多的數據集利用其他方法和人工來標注真實標簽依然是應用方面的關鍵問題。

2 數據集

本節簡要整理了常用的基于深度學習手寫文本行提取應用的數據集，見表1。

表1 數據集Tab.1 Dataset introduction

當需要對算法的可行性進行驗證時，可選用國際文檔分析與識別會議（International Conference on Document Analysis and Recognition，ICDAR）的分割競賽和HIT-MW等數據集。此類數據手寫文本排列整齊，圖像噪聲和偽影較少，預處理方法簡單。當實驗目的為具有挑戰性的歷史手稿時，可選用DIVA-HisDB類數據集。

3 結束語

文本行提取領域經過了幾十年的發展，雖然已經擁有長足的發展和實用的算法，但在大數據時代面對海量的文檔圖片數據仍然捉襟見肘，尤其對于歷史手稿的圖片處理更是一大難題，時下大熱的深度學習為該領域探索了新的出路。基于深度學習的手寫文本行提取，涵蓋了各種不同的方法，每種算法都有各自的特點。RNN根據目標檢測的原理對文本行進行定位，這種方法新穎而且不需要標記文本行的邊界，但其缺點也很明顯，在處理繁重的任務時無法起到更好的效果，并且對于歷史手稿類的圖像，難以提取其傾斜的甚至曲線狀的文本行。FCN作為計算機視覺領域著名的圖像分割網絡能夠端到端對圖像分割，易于對布局較為簡單的普通手寫文本圖像進行提取。但其反卷積過程中對圖像粗糙處理的缺點會在文本行分割之后丟失文字的細節信息。對于不同語言文字的保存會減少準確性，而之后的文字或單詞提取也會面臨諸多困難。與FCN相比，U-Net在上采樣階段進行了比較大的改動，結合了下采樣時的低分辨率信息和上采樣時的高分辨率信息提高分割精度。GAN的方法則是結合了納什均衡和圖像分割的思想對手寫文本行進行提取。從以上方法可以看出，FCN、U-Net等基于分割的文本行提取方法是深度學習方法的主流。

目前的方法在一定程度上達到了需求，但仍有很大的提升空間。以下提出3點對未來研究的展望：

（1）本文提及的4種神經網絡都存在各自的局限性，探索不同網絡結合的效果會是一條可行的途徑。

（2）GAN方法應用不夠廣泛，還有很大的空間可以提升，可以使用其他的GAN網絡和更多數據集進行驗證。

（3）由于不同歷史手稿的特殊性和差異性，對于監督學習的深度學習方法來說為大量圖像添加標簽是一個亟待解決的問題。因此無監督學習的方法會是未來研究的一大熱點。