吳燕如,珠 杰,管美靜
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000)(2.藏文信息技術(shù)國(guó)家地方聯(lián)合中心,西藏 拉薩 850000)
近年來(lái),國(guó)家高度重視藏文化資源的保護(hù)和珍藏[1]. 優(yōu)秀的藏文化資源中藏文現(xiàn)代印刷物是重要的保存對(duì)象. 從藏文印刷物中檢測(cè)版面信息對(duì)于藏文化實(shí)現(xiàn)數(shù)字化存儲(chǔ)具有重要意義[2]. 目前藏文印刷物版面分辨率較低,版面中文本行也比較密集,增加了版面檢測(cè)的難度.
當(dāng)前國(guó)內(nèi)外對(duì)中文和英文中文本區(qū)域檢測(cè)已經(jīng)有了一定的研究,Epshtein等[3]提出了筆畫(huà)寬度變換的文本檢測(cè)算法,Pan等[4]提出讓MSER和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的檢測(cè)方法,但這些方法均不能有效解決文本分辨率較低的問(wèn)題. Zhu等[5]提出了使用訓(xùn)練出的級(jí)聯(lián)強(qiáng)分類器對(duì)圖像中的滑動(dòng)窗口進(jìn)行分類,實(shí)現(xiàn)文本區(qū)域的檢測(cè),該方法雖然提高了檢測(cè)精度,但增加了訓(xùn)練難度. 在現(xiàn)有的研究中,對(duì)藏文現(xiàn)代印刷物版面檢測(cè)還相對(duì)較少,但對(duì)于中英文自然場(chǎng)景下的文本檢測(cè)和物體檢測(cè)的研究已經(jīng)比較成熟,取得了不錯(cuò)的成效. 因此,本文利用Faster R-CNN檢測(cè)算法研究藏文現(xiàn)代印刷物的版面檢測(cè)問(wèn)題.
深度學(xué)習(xí)方法本身具有較強(qiáng)的非線性擬合能力,在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛應(yīng)用[6]. 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)不斷改進(jìn),主要形成了R-CNN檢測(cè)系列[7]和單階段檢測(cè)系列[8],前者主要是基于候選區(qū)域的方法,后者借鑒了回歸的思想. 2013年,GIRSHICK等[9]提出R-CNN檢測(cè)算法,實(shí)現(xiàn)了將神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到目標(biāo)檢測(cè)上. 2015年,GIRSHICK[10]又提出了Fast R-CNN算法,主要是在 R-CNN 和SPP-Net檢測(cè)算法的基礎(chǔ)上加以改進(jìn). Faster R-CNN網(wǎng)絡(luò)實(shí)現(xiàn)了用神經(jīng)網(wǎng)絡(luò)的方法提取建議區(qū)域[11],有效減少了需要計(jì)算的特征,加快了檢測(cè)速度和精確度. 單階段檢測(cè)方法主要有YOLO[12]和SSD方法[13],直接通過(guò)特征圖得到類別得分和位置.
實(shí)際應(yīng)用中,R-CNN系列檢測(cè)速度雖然沒(méi)有單階段方法快,但檢測(cè)準(zhǔn)確率較高[14]. 本文選取Faster R-CNN 模型[15]作為藏文現(xiàn)代印刷物中版面的定位方法,在手工整理的藏文現(xiàn)代圖書(shū)版面數(shù)據(jù)集上劃分訓(xùn)練集和測(cè)試集,通過(guò)增加候選框的數(shù)量,作為文本區(qū)域的定位方法.
本文選取一部分藏文現(xiàn)代圖書(shū)做為原圖像,樣本具有文字區(qū)域多而其他類別區(qū)域相對(duì)較少的特點(diǎn),只對(duì)現(xiàn)代圖書(shū)版面中的文本行區(qū)域進(jìn)行檢測(cè). 生成的樣本庫(kù)有1 320張圖片,圖片像素較低的為374*541,像素較高的為876*1 300,圖片中包含的文本行個(gè)數(shù)在5-40之間. 具體藏文現(xiàn)代圖書(shū)版面示例如圖1所示.

圖1 采集到的藏文現(xiàn)代圖書(shū)示例Fig.1 Examples of collected Tibetan modern books
藏文圖書(shū)版面搜集整理之后,通過(guò)人工對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注. 使用labelImg數(shù)據(jù)標(biāo)注工具,對(duì)整理的數(shù)據(jù)集完成標(biāo)注,制作的數(shù)據(jù)集格式均為Pascal Voc格式. 標(biāo)注出每一部分的文本行所在的最小外接矩形,并標(biāo)注出類別標(biāo)簽,作為網(wǎng)絡(luò)訓(xùn)練中評(píng)估的參考標(biāo)準(zhǔn).
Faster R-CNN檢測(cè)方法在結(jié)構(gòu)上主要由3個(gè)部分組成:特征提取、RPN網(wǎng)絡(luò)、ROI Pooling. 具體流程如圖2所示.

圖2 Faster R-CNN檢測(cè)流程圖Fig.2 The detection flow Chart of Faster R-CNN
在實(shí)現(xiàn)過(guò)程中采用經(jīng)典的ResNet-50網(wǎng)絡(luò),通過(guò)5部分卷積操作、2次池化操作、3層全連接層,最后由softmax完成整個(gè)輸出,得到整張圖片的特征. 這樣避免了特征的重復(fù)計(jì)算,加快了訓(xùn)練速度. 卷積層提取到的特征圖用于后續(xù)網(wǎng)絡(luò)的輸入.
RPN網(wǎng)絡(luò)和SelectSearch一樣都是用來(lái)生成候選框,但傳統(tǒng)方法生成的候選框數(shù)量較多,需要時(shí)間較長(zhǎng). RPN網(wǎng)絡(luò)中只包含卷積層,該網(wǎng)絡(luò)的位置在Conv5-3之后,用神經(jīng)網(wǎng)絡(luò)的方法大大提高了候選框的生成速度. 針對(duì)藏文現(xiàn)代圖書(shū)的定位問(wèn)題,在Conv5-3特征圖上采用大小為3*3的filter,設(shè)置為步長(zhǎng)1的滑動(dòng)卷積,這樣每個(gè)窗口就映射成一個(gè)256維的向量. 256維向量并行進(jìn)入全連接層,分別對(duì)滑動(dòng)窗口生成的建議區(qū)域進(jìn)行分類和回歸.
對(duì)卷積特征圖上的每個(gè)像素點(diǎn)設(shè)置20種不同的候選窗口,根據(jù)藏文現(xiàn)代圖書(shū)中文本行大小長(zhǎng)短的不同,經(jīng)改進(jìn)使用64*64、128*128、256*256、512*512的窗口面積,每個(gè)面積下設(shè)置5種不同的縮放,比例分別為1∶2、1∶5、1∶1、2∶1、5∶1,這樣就生成了20個(gè)尺度的候選框,這樣分類層對(duì)于一個(gè)像素點(diǎn)生成的候選框可以生成40個(gè)得分,用來(lái)判斷候選框包含目標(biāo)或者不含有目標(biāo)的概率. 回歸層對(duì)于每個(gè)像素點(diǎn)生成的候選框共產(chǎn)生80個(gè)位置坐標(biāo),再用非極大值抑制的方式對(duì)生成候選框進(jìn)行篩選,用回歸方法對(duì)候選框位置進(jìn)行調(diào)整,得到更精確的建議區(qū)域. RPN網(wǎng)絡(luò)產(chǎn)生的損失如式(1)所示:
(1)

(2)
Lreg為回歸部分的損失,具體定義如式(3)[16]所示:
(3)
RPN網(wǎng)絡(luò)生成的候選區(qū)域?qū)?yīng)映射在特征圖上,形成的映射區(qū)域均被劃分為7*7大小的子圖,這樣不同大小的建議區(qū)域被轉(zhuǎn)化為相同大小的感興趣池化圖[17],并進(jìn)入全連接層,用softmax對(duì)其類別進(jìn)行預(yù)測(cè),并對(duì)邊框位置進(jìn)行回歸,獲得更精確的邊框位置. 該過(guò)程的損失仍是分類損失和回歸損失,整體損失定義如式(4)[18]所示:
L(p,u,t,v)=Lcls(p,u)+λμLloc(t,v),
(4)
式中,u為感興趣區(qū)域所屬的類別;p為屬于類別的概率值;t為建議框的位置坐標(biāo);v為對(duì)應(yīng)的真實(shí)框的位置坐標(biāo).
本文實(shí)驗(yàn)硬件環(huán)境為intel i7處理器,運(yùn)行內(nèi)存32G,顯卡為NVIDIA GeForce RTX2080,操作系統(tǒng)為Windows10平臺(tái),實(shí)驗(yàn)采用TensorFlow框架,Python語(yǔ)言,采用Labellmg軟件對(duì)藏文現(xiàn)代圖書(shū)進(jìn)行手動(dòng)標(biāo)注. 實(shí)驗(yàn)采用了藏文圖書(shū)1 200張作為訓(xùn)練集,120張作為測(cè)試集.
本文采用準(zhǔn)確率P(precision)、召回率R(recall)和F-值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估[19]. 準(zhǔn)確率是識(shí)別正確的框數(shù)量占所有識(shí)別到的框數(shù)量的比例,召回率是識(shí)別正確的框數(shù)量占所有真實(shí)框數(shù)量的比例,準(zhǔn)確率P、召回率R、F-值的具體定義分別如下所示:
(5)
(6)

(7)
式中,TP為正確識(shí)別的框的個(gè)數(shù);FP為檢測(cè)錯(cuò)誤的框的個(gè)數(shù);FN為正樣本漏檢的個(gè)數(shù).
改進(jìn)的Faster R-CNN網(wǎng)絡(luò)在訓(xùn)練過(guò)程中使用的初始化參數(shù)來(lái)自COCO數(shù)據(jù)集的預(yù)訓(xùn)練模型[20]. 訓(xùn)練中學(xué)習(xí)率初始化為0.001,衰減系數(shù)為0.94,動(dòng)量值為0.89,總迭代次數(shù)為50 000. 在相同的實(shí)驗(yàn)條件下與SSD檢測(cè)模型訓(xùn)練過(guò)程的損失進(jìn)行對(duì)比,查看訓(xùn)練過(guò)程的日志文件可以看出實(shí)驗(yàn)過(guò)程中的損失變化,具體的損失曲線如圖3所示.
由圖3可知,隨著訓(xùn)練次數(shù)的增加,網(wǎng)絡(luò)訓(xùn)練的損失不斷降低. 藏文現(xiàn)代圖書(shū)版面在40 000次迭代后開(kāi)始收斂;當(dāng)完成50 000次迭代時(shí),藏文現(xiàn)代圖書(shū)的訓(xùn)練損失率降至最低值0.82,損失基本趨于穩(wěn)定. 該數(shù)據(jù)集在SSD模型訓(xùn)練過(guò)程中損失不斷降低,當(dāng)?shù)?0 000次時(shí),SSD模型也處于收斂狀態(tài),此時(shí)訓(xùn)練損失為0.4. 可以看出,SSD模型訓(xùn)練的收斂速度比改進(jìn)的Faster R-CNN快很多.

圖3 損失曲線圖Fig.3 Loss curve
采用改進(jìn)后的Faster R-CNN對(duì)測(cè)試集進(jìn)行測(cè)試,典型的藏文現(xiàn)代圖書(shū)版面中文本行的檢測(cè)效果如圖4 所示.

圖4 藏文現(xiàn)代圖書(shū)版面檢測(cè)效果示例Fig.4 Example of detection effect of modern Tibetant book layout
由圖4可知,矩形框所在的位置為預(yù)測(cè)框,每個(gè)矩形框?qū)?yīng)一個(gè)預(yù)測(cè)的準(zhǔn)確度. 改進(jìn)的Faster R-CNN不僅可有效檢測(cè)出藏文現(xiàn)代圖書(shū)中的文本行,還可檢測(cè)出排版不同版面的文本行,檢測(cè)效果并未受到文本行的長(zhǎng)度、數(shù)量和整體文本行分布的影響. 在字體樣式差異較大的情況下,改進(jìn)的Faster R-CNN也能有效識(shí)別文本行.
在改進(jìn)的Faster R-CNN和SSD實(shí)驗(yàn)基礎(chǔ)上,本文進(jìn)行了原始的Faster R-CNN實(shí)驗(yàn). 3種檢測(cè)模型在該數(shù)據(jù)集上的檢測(cè)性能對(duì)比如表1所示.

表1 數(shù)據(jù)集在兩種模型上的性能對(duì)比Table 1 Performance comparison of the data set on two models
由對(duì)比可知,SSD模型的準(zhǔn)確率和召回率要比Faster R-CNN低很多,SSD對(duì)較長(zhǎng)的文本行和字體樣式差異較大的文本行召回效果較差;原始的Faster R-CNN模型的準(zhǔn)確率和召回率都沒(méi)有改進(jìn)后的Faster R-CNN檢測(cè)方法高. 改進(jìn)后的Faster R-CNN模型在本文的數(shù)據(jù)集上具有一定的準(zhǔn)確率和召回率性能優(yōu)勢(shì),相比原始的Faster R-CNN、SSD模型具有良好的應(yīng)用效果.
為了驗(yàn)證改進(jìn)后的方法在藏文現(xiàn)代圖書(shū)數(shù)據(jù)集上的有效性,本文對(duì)改進(jìn)的Faster R-CNN與Faster R-CNN 模型應(yīng)用在圖像檢測(cè)領(lǐng)域的性能進(jìn)行了對(duì)比. 文獻(xiàn)[19]中Faster R-CNN對(duì)精密零部件檢測(cè),該實(shí)驗(yàn)最終準(zhǔn)確率為87.8%,召回率為80.3%;文獻(xiàn)[21]中Faster R-CNN對(duì)目標(biāo)人物出現(xiàn)的位置進(jìn)行檢測(cè),該實(shí)驗(yàn)最終在基礎(chǔ)網(wǎng)絡(luò)為ResNet-101的訓(xùn)練中準(zhǔn)確率達(dá)到94.2%,平均精度為66.8%;文獻(xiàn)[22]在基礎(chǔ)網(wǎng)絡(luò)為ResNet-50的訓(xùn)練中對(duì)藍(lán)莓成熟果檢測(cè)的準(zhǔn)確率為94%,而召回率只有77%. 由此可知,本文改進(jìn)的Faster R-CNN模型在藏文現(xiàn)代圖書(shū)數(shù)據(jù)集訓(xùn)練時(shí)的召回效果較好,整體性能較高.
本文以藏文現(xiàn)代圖書(shū)作為研究對(duì)象,建立了藏文現(xiàn)代圖書(shū)標(biāo)注的數(shù)據(jù)集,在深度學(xué)習(xí)的TensorFlow框架上訓(xùn)練Faster R-CNN檢測(cè)網(wǎng)絡(luò),并用訓(xùn)練好的COCO數(shù)據(jù)集下的模型進(jìn)行遷移學(xué)習(xí). 為了解決藏文現(xiàn)代圖書(shū)版面中文本行分布不均勻的問(wèn)題,本文采用了多個(gè)版面差異較大的數(shù)據(jù)集進(jìn)行訓(xùn)練,并改變了原始的Faster R-CNN中anchor的面積和長(zhǎng)寬比例,有效解決了數(shù)據(jù)集中文本行分布不均勻的檢測(cè)問(wèn)題. 由實(shí)驗(yàn)結(jié)果可以看出:
(1)改進(jìn)的Faster R-CNN在藏文現(xiàn)代圖書(shū)版面的檢測(cè)上,當(dāng)圖片中的文本行比較密集或文本行較為稀疏的情況下,相比SSD網(wǎng)絡(luò)模型具有較好的檢測(cè)效果;
(2)當(dāng)版面中文本行信息較少的情況下,SSD對(duì)長(zhǎng)文本行的檢測(cè)出現(xiàn)錯(cuò)誤,改進(jìn)的Faster R-CNN檢測(cè)方法仍具有良好的檢測(cè)效果;
(3)在訓(xùn)練中迭代次數(shù)相同時(shí),SSD模型的收斂速度遠(yuǎn)比改進(jìn)的Faster R-CNN快,但檢測(cè)準(zhǔn)確率和召回率都沒(méi)有改進(jìn)的Faster R-CNN檢測(cè)方法高. 由此可知,改進(jìn)后的Faster R-CNN對(duì)該數(shù)據(jù)集具有良好的適應(yīng)性.
本文在實(shí)驗(yàn)過(guò)程中,只采用了藏文現(xiàn)代圖書(shū)建立數(shù)據(jù)集,由于藏文數(shù)據(jù)集現(xiàn)有資源收集難度較大,實(shí)驗(yàn)并沒(méi)有與其他類型的藏文現(xiàn)代印刷物的版面進(jìn)行對(duì)比,在整個(gè)藏文印刷物版面數(shù)據(jù)集上沒(méi)有很好的通用性,這是今后在實(shí)驗(yàn)過(guò)程中仍需進(jìn)一步探索的問(wèn)題.