貢去卓么,才讓加,三知加
(1. 青海師范大學計算機學院,青海 西寧 810008;2. 青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008;3. 青海省藏文信息處理工程技術研究中心,青海 西寧 810008)
古籍文檔為解釋人類的文化遺產提供了重要的歷史證據。藏文古籍文檔是中華民族寶貴的文化遺產,采用數字化處理技術對藏文古籍文檔進行保護和傳承具有重要的歷史意義。
近年來,隨著計算機存儲技術的不斷進步,人們為了防止古籍文檔的物理副本受到損壞,許多文獻檔案機構都投入了大量的人力物力來實現可訪問的古籍文檔電子副本,早期古籍文檔的電子化存儲主要以掃描成像的形式保存于計算機等數字設備或存儲器中,并且對大量古籍文檔進行手動轉錄又是一項極其耗時且易出錯的工作,同時,這種掃描成像和人工轉錄的保存形式制約了古籍文檔的可編輯性、可檢索性和可復用性,因此利用交互式工具對古籍文檔進行編輯、檢索和復用是目前急需解決的研究課題,國內外很多研究者們提出了各種文檔版面分析的理論與方法[1-4],例如:國際模式識別協會(The International Association for Pattern Recognition,IAPR)從1991年開始,每兩年會組織一次國際文檔分析與識別會議(International Conference on Document Analysis and Recognition,ICDAR),也會組織以解決相關子問題為主的比賽項目,其已經成為評價和檢驗文檔圖像分析與識別領域最新技術研究進展的標準,同時也極大地推動了該領域的研究熱潮。
Philips等人針對西方古籍文檔,將過去二十年(1998-2018年)對古籍文檔數字化處理領域中的技術、工具和發展趨勢的演變進行了詳細敘述[5],由此可知目前古籍文檔圖像分析工作主要集中在西方各類印刷文檔和手寫文檔上,提出的方法大多數是基于給定語言的印刷文檔或手寫文檔的版面布局特征,并不完全適用于藏文古籍文檔的分析,盡管近幾年研究人員開始針對藏文古籍文檔數字化處理的相關任務進行了研究和探索[6-9],但這些研究仍處于初期階段,很多問題亟待解決,同時也面臨著許多挑戰,如圖1與圖2所示,由于原始文檔遭受老化和腐蝕等原因,藏文古籍文檔掃描圖像普遍存在文本模糊、滲墨、非文本區域模糊造成的版面布局復雜和無法檢測文本區域等問題。綜上所述,藏文古籍文檔文本區域的檢測是一個具有挑戰性的任務,并且與后續的文本行提取、字符分割和字符識別等文本自動轉錄任務的處理效果直接相關。

圖1 藏文現代印刷版古籍文檔樣圖

圖2 藏文木刻版古籍文檔樣圖
針對藏文現代印刷版文檔版面分析的研究較多,而對藏文古籍文檔(木刻版)文檔版面分析的研究較少。本文以拉薩版《甘珠爾》(藏文)存在的以下版面特征為例:
1)版面編排不規則,布局復雜;
2)由于木刻版藏文古籍文檔版面具有外圍雙層邊框及內部多區域多部分的邊框(如圖2、圖3所示);
3)文本與非文本(即:插圖、邊框等)的粘連;
4)邊框斷裂。
受文獻[10-11]的啟發,利用判別式對抗網絡(Discriminative Adversarial Networks,DAN)框架,提出以語義分割的像素分類實現藏文古籍文檔的文本區域檢測的方法。這種有監督的深度學習方法依賴于大規模標記訓練數據,對于藏文來說,雖然有大量古籍文檔的數字副本,但沒有公開的大規模標注數據。為此,該方法在拉薩版《甘珠爾》(藏文)古籍文檔掃描頁面構建的自定義圖像數據集上進行了訓練與測試,并取得了較好的實驗結果。
文檔版面分析(Document Layout Analysis,DLA)是文檔理解系統的預處理步驟,其目標是將文檔圖像中需要研究的區域進行分割,然后對預定義的不同區域類型(如:正文、插圖、注釋和頁碼等)進行識別分類[12-13],通常將此檢測后分類的過程分為幾何分析和邏輯分析兩個步驟,其方法一般可分為自頂向下、自底向上和混合法三類[14]。文檔的版面特征和分析目標的變化產生了不同的DLA,這些階段都有各自不同的算法,本文的版面分析目標為藏文古籍文檔的文本區域檢測。
目前,目標檢測任務可分為分類、定位(或識別)、語義分割與實例分割四類[15]。其中語義分割是像素級別的分類,結合了圖像分類、目標檢測和圖像分割任務,也就是說屬于同一類的像素都要被歸為一類,包括對整個輸入圖像的像素進行預測,然后對其具有一定語義的區域塊進行定位或檢測,不僅提供每個區域塊的語義類別,還需提供確切的位置信息,最后得到一幅具有像素語義標注的分割圖像。圖像語義分割的方法主要包括基于傳統的方法和基于深度學習的方法。
下面將從兩個方面簡單回顧用于文檔圖像版面分析的代表性方法。一是基于幾何和統計的傳統方法,主要有投影分析方法[16]、連通域分析方法[17]、領域分析的圖文分割方法[18]和紋理分析方法[19]等文檔圖像的版面分割方法,但因藏文古籍文檔的各種噪音,所以很難將上述方法直接應用于藏文古籍文檔掃描頁面的分析;二是目前主流的基于人工神經網絡的深度學習方法,神經網絡從古籍文檔文掃描頁面的文檔圖像數據集中自動學習文檔版面的重要特征,如:基于卷積神經網(Convolutional Neural Networks,CNN)對歷史文檔圖像進行頁面分割的方法[20]、基于全卷積神經網絡(Full Connected Network,FCN)進行古籍文檔圖像版面語義結構信息提取的方法[21]和基于預訓練模型和微調的方法實現歷史文檔掃描頁面的圖像分析任務[22]等,但是這些方法主要是對某些主流語言(比如英語及其它拉丁文和中文)的古籍文檔版面特征進行的相關研究,所以并不完全適用于藏文古籍文檔的分析任務。

圖3 藏文古籍文檔掃描圖像
拉薩版《甘珠爾》(藏文)頁面類型可分為十一種不同版面結構(如圖3所示),根據版面結構的區域元素不同,文本行的個數和字體大小也各不相同,為實現藏文古籍文檔掃描頁面的文本行提取、字符分割和字符識別,首先需要對藏文古籍文檔版面的文本區域進行檢測和分割,然后去除或分離藏文古籍文檔的非文本區域,最后得到完整的文本區域。
本文在分析拉薩版《甘珠爾》(藏文)版面結構特征的基礎上,提出了一種DAN網絡框架下基于語義分割的文本區域檢測方法,將文本區域檢測問題轉化為文獻圖像的語義分割問題,具體如圖4所示。

圖4 本文提出方法的概述

該方法主要分為三個步驟:
1)使用DAN(Discriminative Adversarial Networks)的語義分割網絡對輸入的整個藏文古籍文檔的掃描頁面圖像進行像素分類;
2)使用輪廓提取算法對具有一定語義的區域塊進行提取;
3)使用.XML文件格式對版面布局信息保存。
使用DAN網絡框架下的語義分割網絡,將輸入藏文古籍文檔的整個掃描圖像的像素(h*w*c)劃分為具有一定語義含義的文本區域塊,從而得到的不同文本區域塊的語義類別和位置信息。
DAN網絡框架如圖5所示,其中預測網絡(P)接受藏文古籍文檔掃面頁面的文檔圖像為數據點x作為輸入,并輸出其整個古籍文檔圖像不同文本區域的語義分割預測P(x),該預測可以是文本區域類別標簽上的簡單概率分布,鑒別網絡(J)接收藏文古籍文檔掃描頁面x和其文本區域的像素分類標簽y作為輸入,并產生單個標量J(x,y),它表示x,y來自真實標簽訓練數據而不是P預測的概率,其學習目標如下公式所示:
Ex~Pdata(x)[log(1-J(x,P(x)))]

圖5 DAN框架
對于本文所使用的藏文古籍文檔圖像拉薩版《甘珠爾》(藏文)構建的數據集來說,按像素級別要分類的文本區域有主文本、豎排標題、插圖標題和頁碼,將非文本區域都分割為背景一類,從而整個藏文古籍文檔的區域檢測數量為八個。
根據上一步藏文古籍文檔掃描圖像的像素分類結果可得到的由不同文本區域塊的語義類別和位置信息構成的語義分割圖,如圖6所示。

圖6 藏文古籍文檔語義分割結果
為了提取精確的藏文古籍文檔掃描圖像的各類文本區域,通過使用Suzuky等人提出的輪廓提取算法[23]確定其各類文本區域塊語義分割輪廓的頂點,并將各個語義塊的頂點合并成一組由閉合四邊形分割的文本區域,其提取結果如圖7所示:

圖7 藏文古籍文檔各類文本區域輪廓提取結果
藏文古籍文檔版面分析的目標是獲取需要研究區域的確切位置信息和類別,為了后續的文本行提取和字符分割和識別需要保存藏文古籍文檔掃描圖像文本區域的布局信息。布局信息即是藏文古籍文檔掃描圖像文本區域語義塊矩形的坐標點(x,y)。除藏文古籍文檔掃描圖像版面文本區域布局的位置信息和類別外,還需保存文件創建時間、創建者的信息、標注時間、頁面名稱、頁面寬度和高度。
本文為了保存藏文古籍文檔掃描圖像各類文本區域的布局信息,采用XML格式文件來保存其布局結構信息。后續可以從此文件中,可以獲得藏文古籍文檔的每個文本區域,并在此基礎下進行后續的文檔圖像分析與識別的處理任務,該藏文古籍文檔版面布局信息保存文件的組織如下:
<?xml version=”1.0” encoding=”UTF-8”>
本文以藏文古籍文檔拉薩版《甘珠爾》(藏文)原始文獻掃描圖像構建的自定義數據集上進行了實驗與測試。在本文實驗中的數據集是由圖3所示不同版面結構的5872張圖片(分辨率為256*1024)組成,為手動標注的頁面XML格式的真實標簽。為了覆蓋拉薩版《甘珠爾》(藏文)的所有版面特征,將文本區域類型由圖8中所示的七個文本區域組成。表1總結了此數據集的分布特征。

圖8 藏文古籍文檔圖像版面元素標注格式

表1 數據集的分布特征
本實驗采用深度學習之語義分割的評價度量標準[13]對每幅藏文古籍文檔圖像的文本區域檢測結果進行評價,計算公式如下所示:
Pixel Accuracy (PA,像素精度)

(1)
Mean Pixel Accuracy (MPA,均像素精度)

(2)
Mean Intersection over Union(MIoU,均交并比)

(3)
Frequency Weighted Intersection over Union(FWIoU,頻權交并比)

(4)
上式(1)(2)(3)(4)中,Pij表示應該屬于藏文古籍文檔文本區域的類別i但被預測為類別j的像素數量,Pii表示正確預測屬于藏文古籍文檔文本區域類別i的像素數量。
本實驗在遵循文獻[11]約定的情況下,使用了Ubuntu19.10操作系統中24G的NVIDIA Quadro P6000獨立顯卡,深度學習框架PyTorch-gpu 1.5.0的系統配置下進行的實驗。
此方法在拉薩版《甘珠爾》的藏文古籍文檔掃描圖像構建的自定義數據集上進行實驗取得的不同類型文本區域檢測的測試結果如表2和表3所示。

表2 文本區域提取的結果

表3 不同類型文本區域的像素分類結果

圖9 測試數據文本區域檢測結果
從表2中的可看出,使用計算機視覺的語義分割方法對藏文古籍文檔的各類文本區域進行像素分類是可行的。
因本文在為進行數據增強的原始拉薩版《甘珠爾》(藏文)掃描頁面的自定義圖像數據集上進行測試,所以從表3顯示的藏文古籍文檔不同文本區域的像素分類結果可知,插圖標題和豎排標題的文本區域檢測結果不大理想,這部分主要原因是不同版面結構導致的各文本區域的數據分布不均衡。
圖9為對藏文古籍文檔掃描圖像進行語義分割的各類文本區域的檢測或提取結果圖。不同類型的文本區域用不同顏色進行填充來區分。從上示圖中可以看出藏文古籍文檔各類文本區域都能得到其區域分類和位置標記的結果,但存在有部分插圖標題和豎排標題的文本區域塊被誤分為多個區域塊的情況。主要由:①文本區域塊有滲墨的嚴重噪音;②豎排標題類文本區域普遍存在區域塊內文字的空白間隙多長;③外圍雙邊框與文本區域內文字粘連等原因所導致,為了獲得更好的藏文古籍文檔文本區域的檢測結果,可以進一步處理這些問題以提高藏文古籍文檔不同版面結構的像素分類準確性。
本文在判別式對抗網絡框架下使用圖像的像素級語義分割方法對拉薩版《甘珠爾》(藏文)的藏文古籍文檔掃描圖像構建的自定義數據集上進行了其不同版面結構的文本區域檢測任務的訓練和測試,得到PA=98.9%、MPA=95.3%、MIoU=90.2%和FWIoU=98.0%的結果。并在同文獻的開放數據上進行了測試,得到了PA=63.2%的實驗結果。經實驗表明,使用該方法對藏文古籍文檔掃描頁面圖像進行文本區域的檢測和提取是可行并有效的。在該方法上進一步研究并實現不同文本區域的文本行檢測任務,進而就可以實現藏文古籍文檔的自動版面分析或掃描頁面的自動標注。
后續將根據此方法提供的文本區域,對藏文古籍文檔掃描頁面進行邊框去除處理和插圖區域分離的操作,針對每個純文本區域設計文本行提取算法,并將其送到光學字符識別(Optical Character Recognition,OCR)和手寫文字識別系統進行識別,這就構成了一整套藏文古籍文檔圖像識別系統。