戴俊峰,楊 天,熊聞心+
(1.國(guó)網(wǎng)湖北省電力有限公司信息通信公司,湖北 武漢 430077;2.武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430072)
印章內(nèi)容作為確定文檔有效性的關(guān)鍵信息,能夠反映與該文檔簽發(fā)的相關(guān)單位與部門,利用特定的提取方法與識(shí)別方法對(duì)印章的內(nèi)容進(jìn)行處理,能夠有效地對(duì)文檔進(jìn)行分類與鑒別。然而,印章內(nèi)容相比于文字識(shí)別,呈圓環(huán)排列,其排列方向不統(tǒng)一,使得印章的識(shí)別工作具有很大的難度。中心包含復(fù)雜圖案的印章,更是加大了識(shí)別任務(wù)的難度。
光學(xué)字符識(shí)別具體的實(shí)現(xiàn)主要包含文檔圖文信息內(nèi)容的檢測(cè)與文檔圖文信息的識(shí)別兩個(gè)步驟。對(duì)于簡(jiǎn)單的印刷字體文檔識(shí)別與復(fù)雜場(chǎng)景的文字檢測(cè)與識(shí)別已經(jīng)取得了長(zhǎng)足的發(fā)展,但是對(duì)于文檔關(guān)鍵信息的提取與鑒別卻缺乏有效的方法。本文利用圖像處理、極坐標(biāo)轉(zhuǎn)換、深度學(xué)習(xí)、模式識(shí)別多種手段對(duì)多處文檔印章進(jìn)行檢測(cè)與識(shí)別,對(duì)利用印章內(nèi)部的關(guān)鍵信息判斷出該文檔的有效性與真實(shí)性具有重要的使用價(jià)值。
本文綜合利用CTPN+CRNN深度學(xué)習(xí)框架建立了印章檢測(cè)與識(shí)別模型,并且自建了中文印章數(shù)據(jù)集。在印章文字提取前,針對(duì)印章文字呈圓環(huán)排列的特點(diǎn)對(duì)印章進(jìn)行極坐標(biāo)展開,并且與雙線性插值拉伸相結(jié)合,保證極坐標(biāo)展開后的印章文字能夠保證正確的比例,然后將展開后的印章圖像輸入到CTPN+CRNN網(wǎng)絡(luò)中進(jìn)行文字的檢測(cè)與識(shí)別。該方法在預(yù)處理、子圖像提取、特征提取等各個(gè)方面有一定的優(yōu)勢(shì),具有一定的參考價(jià)值和實(shí)用性。
印章檢測(cè)與識(shí)別的研究歷史可以追溯到幾十年前。一般的印章檢測(cè)與識(shí)別算法主要包含預(yù)處理、文字區(qū)域檢測(cè)與文字內(nèi)容識(shí)別等步驟[1]。預(yù)處理過(guò)程是為了改善文字檢測(cè)與識(shí)別的效果。一般包括濾波去噪、灰度處理等方法,也可能運(yùn)用其它形態(tài)學(xué)方法,例如早期研究者利用彩色模型中基色間差值、二維投影方法自動(dòng)提取印章圖像,周琨等將印章圖像三值化,去噪并進(jìn)行分割,然后將分割后的圖像送入到后續(xù)的識(shí)別模塊進(jìn)行識(shí)別。肖進(jìn)勝等將三維塊匹配去噪算法中小波閾值去噪得到的圖像替換原引導(dǎo)圖像,抑制了雙域?yàn)V波算法基本層不平滑的問(wèn)題,減少細(xì)節(jié)層的噪聲殘留[2]。
印章的內(nèi)容檢測(cè)與識(shí)別大部分借鑒自然場(chǎng)景文字識(shí)別的相關(guān)方法,一般都分為文字區(qū)域檢測(cè)與文字內(nèi)容識(shí)別兩個(gè)部分。人工智能和模式識(shí)別領(lǐng)域的發(fā)展在很大程度上促進(jìn)了文字的發(fā)展,Long等[3]介紹了截至2018年場(chǎng)景文字檢測(cè)與識(shí)別的方案和技術(shù),并對(duì)各類方法進(jìn)行的優(yōu)劣進(jìn)行了分析。文字區(qū)域檢測(cè)算法中CTPN[4]是目前流傳最廣、影響最大的開源文本檢測(cè)模型,但是只可以檢測(cè)水平文本行。文本行可以被看成一個(gè)字符序列,而不是一般物體檢測(cè)中單個(gè)獨(dú)立的目標(biāo)。SegLink[5]算法將每個(gè)單詞切割為更易檢測(cè)的有方向的小文字塊,然后用鄰近連接將各個(gè)小文字塊連接成單詞。這種方案方便于識(shí)別長(zhǎng)度變化范圍很大的、帶方向的單詞和文本行。Zhou等利用EAST[6]模型首先使用全卷積網(wǎng)絡(luò)(FCN)生成多尺度融合的特征圖,然后在此基礎(chǔ)上直接進(jìn)行像素級(jí)的文本塊預(yù)測(cè)。可以實(shí)現(xiàn)多尺度的自然文本文字框檢測(cè)。對(duì)于文字識(shí)別,現(xiàn)在最常用方法為CTC(connectionist temporal classification)[7]和注意力轉(zhuǎn)移機(jī)制(Seq2Seq)[8]。常用的CTC算法利用BLSTM網(wǎng)絡(luò)對(duì)字符圖像進(jìn)行特征提取,然后使用CTC損失函數(shù)對(duì)特征圖進(jìn)行編碼與去冗,BLSTM能夠綜合考慮印章圖片中的上下文關(guān)系,有效提升文本識(shí)別準(zhǔn)確率,使得文字識(shí)別模型更具有魯棒性。注意力轉(zhuǎn)移機(jī)制是一種與CTC編碼完全不同的卷積神經(jīng)網(wǎng)絡(luò)的模型,在Seq2Seq結(jié)構(gòu)中,編碼器Encoder把所有的輸入序列都編碼成一個(gè)統(tǒng)一的語(yǔ)義向量Context,然后再由解碼器Decoder解碼。在解碼器Decoder解碼的過(guò)程中,不斷地將前一個(gè)時(shí)刻t-1的輸出作為后一個(gè)時(shí)刻t的輸入,循環(huán)解碼,直到輸出停止符為止,利用Seq2Seq替代CRNN網(wǎng)絡(luò)中的CTC模塊,避免了CTC需要輸出所有字符對(duì)應(yīng)的概率向量,能夠加快檢測(cè)速度和效果。
由于中文印章內(nèi)容的識(shí)別并不屬于熱門的研究方向。國(guó)內(nèi)只有盧海濤等構(gòu)建了滿文印章的增廣數(shù)據(jù)集,國(guó)內(nèi)的大部分研究者都主要集中在對(duì)于印章真?zhèn)蔚难芯浚]有公開的印章數(shù)據(jù)集。這些問(wèn)題都給本文的研究帶來(lái)了困難。
本文深入研究國(guó)內(nèi)外對(duì)于印章內(nèi)容識(shí)別的發(fā)展?fàn)顩r,提出了基于極坐標(biāo)轉(zhuǎn)換的印章內(nèi)容識(shí)別算法。在預(yù)處理階段,首先利用中文印章一般為紅色的特點(diǎn),對(duì)印章在CIELAB顏色空間進(jìn)行位置提取。然后利用非線性灰度化,增加紅色通道的比重,對(duì)印章灰度化,減少了后續(xù)處理的運(yùn)算量,然后利用極坐標(biāo)對(duì)印章文字進(jìn)行展開,同時(shí)為了防止展開過(guò)程中印章文字發(fā)生形變,在展開的同時(shí)進(jìn)行雙線性插值,最后將展開后的圖像輸入到CTPN+CRNN的檢測(cè)模型之中進(jìn)行文字的檢測(cè)和識(shí)別。本文算法在預(yù)處理、子圖像提取、特征提取等各個(gè)方面有一定的優(yōu)勢(shì),將印章在檢測(cè)前就進(jìn)行展開操作,克服了印章文字方向不定的問(wèn)題,具有一定的參考價(jià)值和實(shí)用性。
本文算法包含3個(gè)步驟:預(yù)處理、文字檢測(cè)與文字識(shí)別。預(yù)處理部分主要包括印章區(qū)域的提取、灰度化與極坐標(biāo)展開等操作,文字檢測(cè)運(yùn)用CTPN算法對(duì)印章文字區(qū)域進(jìn)行提取,文字識(shí)別利用CRNN網(wǎng)絡(luò)對(duì)文字內(nèi)容進(jìn)行識(shí)別,其整體流程如圖1所示。

圖1 印章識(shí)別流程
為了改進(jìn)印章檢測(cè)與識(shí)別的準(zhǔn)確性,本算法在預(yù)處理階段對(duì)印章進(jìn)行極坐標(biāo)展開,國(guó)內(nèi)印章其文字內(nèi)容基本上呈環(huán)形排列,將印章內(nèi)的環(huán)形的文字進(jìn)行極坐標(biāo)展開成為同一方向的文字,能夠大量減少后續(xù)文字檢測(cè)的難度。一般轉(zhuǎn)換后的文字會(huì)產(chǎn)生形變,為了方便后續(xù)的文字識(shí)別,在轉(zhuǎn)換的同時(shí)也融合了雙線性插值,能夠克服環(huán)形文字轉(zhuǎn)換之后產(chǎn)生的形變問(wèn)題。文字檢測(cè)部分的主要任務(wù)是能夠提取印章文字區(qū)域,文字識(shí)別的主要任務(wù)是鑒定印章內(nèi)的具體內(nèi)容。這兩個(gè)部分分別采用CTPN與CRNN網(wǎng)絡(luò)實(shí)現(xiàn)。首先將所有展開的印章圖像使用CTPN網(wǎng)絡(luò)對(duì)文字區(qū)域的提取,并且針對(duì)印章文字展開后呈波浪形排列的特點(diǎn)改進(jìn)了CTPN的文本提議框合并算法,使得CTPN網(wǎng)絡(luò)能夠有效地減少干擾背景。通過(guò)CTPN網(wǎng)絡(luò)提取之后,將有效的文字區(qū)域輸入至CRNN網(wǎng)絡(luò)進(jìn)行文字檢測(cè)識(shí)別,最終輸出印章內(nèi)部的文字。
一般我們所看到的彩色圖像R(紅)、G(綠)、B(藍(lán))3個(gè)通道所組成的,每個(gè)通道的顏色取值范圍為0~255,因此每一個(gè)像素點(diǎn)的取值有1600多萬(wàn)種(255×255×255)顏色的變化。灰度圖像的R、G、B這3個(gè)通道具有相同的深度值,其最大的特點(diǎn)是每一個(gè)像素點(diǎn)的深度只有8位,其像素點(diǎn)的變化只有255種,所以在圖像處理過(guò)程中,為了減少計(jì)算量,第一步工作就將彩色的RGB圖像轉(zhuǎn)換為像素點(diǎn)顏色變化范圍更少的灰度圖。雖然灰度圖中每一個(gè)像素點(diǎn)的色彩值并沒有彩色圖像的豐富,但灰度圖依然與彩色圖像一樣能夠反映出整幅圖像的整體構(gòu)成和局部的色度和亮度等級(jí)的分布特征。一般的灰度化方法為獲取R、G、B三通道中的均值或者最小值,而在印章的提取過(guò)程中,往往印章的紅色屬性被作為主要的特征使用,所以印章部分的灰度化采用非線性灰度化,加強(qiáng)R通道的比重,這樣使得灰度化之后的圖像能夠較好保留印章的信息。非線性灰度化的公式如下
f(i,j)=0.5R(i,j)+0.25G(i,j)+0,25B(i,j)
(1)
其中,f(i,j) 表示灰度圖像中第i行第j列像素點(diǎn)的像素值,R(i,j) 表示預(yù)處理后圖像中第i行第j列R通道像素點(diǎn)的像素值,G(i,j) 表示預(yù)處理后圖像中第i行第j列G通道像素點(diǎn)的像素值,B(i,j) 表示預(yù)處理后圖像中第i行第j列B通道像素點(diǎn)的像素值。
將印章圖像進(jìn)行灰度化之后,再經(jīng)過(guò)閉運(yùn)算去除印章文字之中的小型黑洞,使文字能夠更加的清晰。
極坐標(biāo)轉(zhuǎn)化過(guò)程能夠?qū)⒂≌聝?nèi)環(huán)形的文字展開為橫向排列的文字,一般轉(zhuǎn)換后的文字會(huì)產(chǎn)生形變,故在轉(zhuǎn)換的同時(shí)也融合了雙線性插值,能夠克服環(huán)形文字轉(zhuǎn)換之后產(chǎn)生的形變問(wèn)題。


圖2 極坐標(biāo)轉(zhuǎn)化
(2)
(3)
再將極坐標(biāo)轉(zhuǎn)換為直角坐標(biāo)圖像的過(guò)程中,采用了雙線性插值,對(duì)圖像進(jìn)行拉伸,該拉伸的過(guò)程可以在轉(zhuǎn)換的同時(shí)完成,并不需要先進(jìn)行拉伸再進(jìn)行轉(zhuǎn)換。整體的轉(zhuǎn)換過(guò)程如下
(4)
(5)
f(x,y)=f1(x,y)+f2(x,y)+f3(x,y)+f4(x,y)
f1(x,y)=(1-u)(1-v)f(Zx,Zy)
f2(x,y)=(1-u)vf(Zx,Zy+1)
f3(x,y)=u(v+1)f(Zx+1,Zy)
f4(x,y)=uvf(Zx+1,Zy+1)
(6)
其中,Zx,Zy為直角坐標(biāo)轉(zhuǎn)換為極坐標(biāo)后對(duì)應(yīng)的整數(shù)部分,u,v為直角坐標(biāo)轉(zhuǎn)換為極坐標(biāo)后的小數(shù)部分。極坐標(biāo)展開的效果如圖3所示。

圖3 極坐標(biāo)展開效果
提取的印章經(jīng)過(guò)預(yù)處理與極坐標(biāo)展開后,使得印章內(nèi)部的環(huán)形文字展開為橫向排列文字,將展開后的文字輸入到CTPN+CRNN網(wǎng)絡(luò)中進(jìn)行文字區(qū)域的檢測(cè)與識(shí)別。
CTPN網(wǎng)絡(luò)的主要作用是在展開的矩形圖像中檢測(cè)文字所在區(qū)域然后進(jìn)行分割,CTPN將文本檢測(cè)問(wèn)題轉(zhuǎn)化成為了一系列提議文本框的檢測(cè)問(wèn)題。CTPN算法綜合利用了卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò),利用卷積網(wǎng)絡(luò)進(jìn)行特征提取,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)檢測(cè)文本框,該算法將循環(huán)神經(jīng)網(wǎng)絡(luò)引入到了文本檢測(cè)的任務(wù)中,可以將不定長(zhǎng)的文字當(dāng)作目標(biāo)檢測(cè),一定程度上解除了傳統(tǒng)字符檢測(cè)方法的限制。
CTPN網(wǎng)絡(luò)借鑒了Faster-RCNN[9]的思想,首先利用RPN(region proposal network)網(wǎng)絡(luò)在特征圖上利用文本提議框?qū)形淖值目梢蓞^(qū)域進(jìn)行提取,然后利用全連接層對(duì)這些文本提議框提取的區(qū)域進(jìn)行分類,最后對(duì)包含文字的區(qū)域進(jìn)行非極大值抑制合并輸出文字區(qū)域,但是Faster-RCNN中的提議框是為了檢測(cè)目標(biāo)等剛性物體,其提取框?yàn)檩^大的正方形,這些提議框不符合文字分布不定長(zhǎng)的特點(diǎn),所以必須對(duì)這些文本提議框進(jìn)行改進(jìn),CTPN將這些文本提議框換成了固定寬度的細(xì)粒度矩形框,每個(gè)矩形框的寬度固定為16個(gè)像素,檢測(cè)網(wǎng)絡(luò)只負(fù)責(zé)輸出該提議框的文字信息和高度信息,所以CTPN網(wǎng)絡(luò)利用積分的思想將不定長(zhǎng)文本檢測(cè)的問(wèn)題轉(zhuǎn)換成了對(duì)一系列細(xì)粒度的文本提議的檢測(cè)。CTPN網(wǎng)絡(luò)首先利用VGG16網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,同時(shí)考慮到文字區(qū)域相對(duì)較小。將VGG16中的大卷積核全部使用3×3的小卷積核進(jìn)行替代。在加深了網(wǎng)絡(luò)深度的同時(shí)也使得該網(wǎng)絡(luò)對(duì)文字檢測(cè)具有了更加強(qiáng)大的泛化能力。并且為了減少運(yùn)算的次數(shù),CTPN只采用了VGG16的前5層進(jìn)行卷積操作。生成特征圖之后再利用RPN網(wǎng)絡(luò)在特征圖上進(jìn)行文本提取,將特征圖上的每一個(gè)特征點(diǎn)作為一個(gè)錨點(diǎn)(anchor),每一個(gè)錨點(diǎn)都可以選取產(chǎn)生10個(gè)寬度一致、高度不同的文本提議框,這些文本提議框的高度變化范圍為11~283。CTPN中的文本提議框如圖4所示。

圖4 文本提議框
RPN網(wǎng)絡(luò)可以對(duì)這些可疑的文本提議框進(jìn)行粗略的分類,選出可能包含文本的提議框輸入到全連接層進(jìn)行精確的分類預(yù)測(cè)與位置坐標(biāo)的微調(diào)。這些文本提議框經(jīng)過(guò)全連接層輸出其中心點(diǎn)坐標(biāo)、高度值和文本置信度,所以每一個(gè)文本提議框可以表示為 {x,y,w,h,c}。x,y為提議框的中心坐標(biāo)位置,w為文本提議框?qū)挾龋潭?6。h為文本提議框的高度,c為文本提議框的文本置信度,該值越大,代表此提議框包含文字的可能性越大。CTPN網(wǎng)絡(luò)如圖5所示。

圖5 CTPN網(wǎng)絡(luò)
CTPN的輸出包含3個(gè)部分,依次為2kvertical coordinates表示選擇框的高度和中心的y軸的坐標(biāo);2kscores表示的是k個(gè)anchor的類別信息,說(shuō)明其是否為字符;kside-refinement表示的是文本提議框的水平偏移量;經(jīng)過(guò)全連接層之后可以判斷所選的k個(gè)文本提議框中哪些屬于文字框,哪些屬于背景框,當(dāng)然這些文本提議框中有很多屬于重復(fù)的信息,所以需要采用文本構(gòu)造算法將上一步得到的細(xì)長(zhǎng)文本提議框合并成整個(gè)文本的提議框,同時(shí)去除屬于背景信息的文本提議框和重復(fù)檢測(cè)的文本提議框,CTPN網(wǎng)絡(luò)中文本構(gòu)造的算法如下:
每?jī)蓚€(gè)相近的文字框組成一個(gè)pair,然后迭代合并不同的pair成一個(gè)新的pair,直到不同的pair不能夠合并為止,最后剩下m個(gè)pair,即代表該圖像內(nèi)部有m個(gè)文本區(qū)域,合并文本框或pair的條件為Bi->Bj,Bj->Bi。Bi->Bj該符號(hào)的判定條件如下:
Bi到Bj的水平距離最小,即Bix至Bjx的值最小;
Bi到Bj的距離值小于50個(gè)像素,即
(7)
Bi與Bj的交并比大于0.7。
其中Bi、Bj代表不同的文本框或pair, (Bix,Biy) 為Bi的中心坐標(biāo), (Bjx,Bjy) 為Bj的中心坐標(biāo)。在CTPN原始的合并算法中,當(dāng)確定每個(gè)文本提議框所屬的pair之后,對(duì)于每個(gè)pair選取所屬文本提議框之中最小的橫縱坐標(biāo) (xmin,ymin) 為左上角頂點(diǎn),以每個(gè)pair選取所屬文本提議框之中最大的橫縱坐標(biāo) (xmax,ymax) 為右下角頂點(diǎn),直接將該區(qū)域作為文本框進(jìn)行截取,有可能將復(fù)雜背景包含進(jìn)來(lái),本文采用貝塞爾曲線擬合該文本框,能夠有效去除多余的背景,其文本提議框配對(duì)結(jié)束后,對(duì)文本區(qū)域進(jìn)行文本行拼接,選出文本對(duì)中上下左右最邊沿的位置當(dāng)作最終輸出的文本區(qū)域檢測(cè)框,將積分思想引入到了文本檢測(cè)任務(wù)中,克服了文本長(zhǎng)度不確定的問(wèn)題。合并效果如圖6所示。

圖6 文本構(gòu)造

B(t)=(1-t)3pi+3(1-t)2tpi+1+3(1-t)t2pi+2+t3pi+3
(0≤t≤1,0≤i≤n-1)
(8)
改進(jìn)后的印章文字檢測(cè)效果如圖7所示。

圖7 文字檢測(cè)效果
使用CTPN將印章文字進(jìn)行分割之后,再將分割的文字輸入到CRNN雙向循環(huán)卷積網(wǎng)絡(luò)對(duì)文本進(jìn)行識(shí)別,CRNN主要由3部分構(gòu)成:
CNN(卷積層):將CTPN網(wǎng)絡(luò)提取的文字區(qū)域進(jìn)行縮放,統(tǒng)一縮放為高度height=32,寬度width=160,通道數(shù)channel=1的灰度圖像,然后輸入到CNN網(wǎng)絡(luò)中,得到height=1,width=40,channel=512的feature map。并通過(guò)Map-to-Sequence將特征圖提取成為RNN需要的特征序列,每個(gè)特征向量對(duì)應(yīng)于原始圖像的一個(gè)矩形區(qū)域(該區(qū)域稱為感受野)。

CTC loss(轉(zhuǎn)錄層):轉(zhuǎn)錄是將RNN輸出的后驗(yàn)概率矩陣W轉(zhuǎn)化為實(shí)際輸出的字符,將后驗(yàn)概率矩陣W中每一列的最大值對(duì)應(yīng)的字符作為該列標(biāo)簽,這樣每個(gè)后驗(yàn)概率矩陣W可以得到40個(gè)文本標(biāo)簽,這40個(gè)文本標(biāo)簽中有很多屬于重復(fù)檢測(cè)的內(nèi)容,所以CTC網(wǎng)絡(luò)的另一個(gè)任務(wù)就是對(duì)識(shí)別的結(jié)果進(jìn)行合并去冗,在40個(gè)文本標(biāo)簽中重復(fù)的字符之間插入一個(gè)“-”同時(shí)去除不存在字符的標(biāo)簽,“-”代表該符號(hào)兩邊相同的字符不需要合并,而沒有“-”號(hào)的相連相同字符需要合并為同一個(gè)字符,該編碼過(guò)程是由CTC網(wǎng)絡(luò)訓(xùn)練得到的,訓(xùn)練過(guò)程依舊使用梯度下降算法。CRNN網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖8所示。

圖8 CRNN網(wǎng)絡(luò)結(jié)構(gòu)
通過(guò)非線性灰度化與極坐標(biāo)展開之后,使得合同中的印章內(nèi)容更加易于檢測(cè),然后利用CTPN+CRNN網(wǎng)絡(luò)對(duì)印章文字進(jìn)行檢測(cè)與識(shí)別,并改進(jìn)了文本框的合并過(guò)程,有效減少了文字區(qū)域中的背景信息。檢測(cè)與識(shí)別的效果如圖9所示。

圖9 CRNN檢測(cè)效果
實(shí)驗(yàn)將在自制的中文印章數(shù)據(jù)集上進(jìn)行,其中該數(shù)據(jù)集是本文作者建立的,還未公開。該數(shù)據(jù)集一共包含130張印章,包含33張實(shí)際印章,97張電子制作印章。數(shù)據(jù)集中的每一份樣本都統(tǒng)一縮放至360×360,并以24位深度JPG格式存儲(chǔ)。測(cè)試過(guò)程中,把該數(shù)據(jù)集分成兩組,第一組用于訓(xùn)練,第二組用于測(cè)試。
ICDAR[10]將文本定位分為Challenges 1、Challenges 2和Challenges 4這3種,針對(duì)不同的數(shù)據(jù)來(lái)源可以采用不同
的評(píng)判標(biāo)準(zhǔn),本文的實(shí)驗(yàn)樣章一部分來(lái)源于電腦制作,一部分來(lái)源于用戶有意識(shí)的拍攝,并且只考慮了印章中一對(duì)一的情況,所以采用Challenges 1和Challenges2的評(píng)測(cè)方法,也叫作DetEval[9]方法。主要通過(guò)召回率與準(zhǔn)曲率對(duì)模型進(jìn)行評(píng)估,計(jì)算公式如下
(9)
(10)
其中,RICD代表召回率,PICD代表準(zhǔn)確率,Gi表示第i個(gè)標(biāo)定框i∈(1,n),Dj為第j個(gè)檢測(cè)框j∈(1,m)。 BestMatch本質(zhì)是一個(gè)F調(diào)和平均數(shù)(F-Measure),一般基于面積定義召回率和準(zhǔn)確率的定義如下
(11)
(12)
而對(duì)于文字識(shí)別常用的評(píng)價(jià)指標(biāo)為召回率,計(jì)算識(shí)別結(jié)果字符集中每一個(gè)字符與標(biāo)簽中的字符是否對(duì)應(yīng),只有該識(shí)別字符與樣本標(biāo)簽中的字符對(duì)應(yīng),才認(rèn)為該字符被正確檢出。召回率計(jì)算公式如下
(13)
本文通過(guò)實(shí)驗(yàn)對(duì)比了使用極坐標(biāo)展開與沒有使用極坐標(biāo)展開的兩種情況下的檢測(cè)結(jié)果,測(cè)試結(jié)果見表1。

表1 檢測(cè)效果對(duì)比
由表1可知,如果利用CTPN網(wǎng)絡(luò)直接對(duì)印章內(nèi)容進(jìn)行檢測(cè),其F-Measure為26.9%。在預(yù)處理階段加入極坐標(biāo)轉(zhuǎn)換之后,雖然檢測(cè)時(shí)長(zhǎng)有所增加,但克服了印章文字方向不統(tǒng)一帶來(lái)的影響,文字檢測(cè)的召回率與精確率都具有明顯的提升,其F-Measure可以提升至90.1%。
在不使用極坐標(biāo)展開的情況下,CTPN由于文本構(gòu)造算法對(duì)于文本框距離的要求,會(huì)導(dǎo)致文本區(qū)域不能夠合并,如圖10(a)所示。也有可能由于印章文字的方向不確定帶來(lái)大量的漏檢問(wèn)題,如圖10(b)所示。在將印章進(jìn)行極坐標(biāo)展開的情況下,克服了文字方向不統(tǒng)一的問(wèn)題,能夠正確的對(duì)印章文字區(qū)域進(jìn)行識(shí)別,如圖10(c)所示。

圖10 檢測(cè)與識(shí)別結(jié)果對(duì)比
文本識(shí)別的測(cè)試評(píng)價(jià)標(biāo)準(zhǔn)主要使用召回率,如果只有當(dāng)一個(gè)印章內(nèi)的文字都被識(shí)別正確,則認(rèn)為該印章被正確識(shí)別,該實(shí)驗(yàn)一共由130個(gè)樣本組成,在使用極坐標(biāo)展開的前提之下,共檢測(cè)正確的印章有96個(gè),召回率可以達(dá)到74%。但是對(duì)測(cè)試結(jié)果的觀察發(fā)現(xiàn),很多印章中只有一個(gè)字符發(fā)生了檢測(cè)出錯(cuò)的情況而導(dǎo)致整個(gè)印章被當(dāng)作檢測(cè)錯(cuò)誤,所以該實(shí)驗(yàn)統(tǒng)計(jì)了所有印章內(nèi)文字的個(gè)數(shù),以單個(gè)文字的檢測(cè)結(jié)果作為評(píng)判標(biāo)準(zhǔn),在130個(gè)樣章中共包含1021個(gè)字符,本實(shí)驗(yàn)檢測(cè)正確的文字共923個(gè),文字識(shí)別得召回率為90.4%。
本文提出了一種基于極坐標(biāo)轉(zhuǎn)換的印章文字識(shí)別方法。在預(yù)處理階段,通過(guò)非線性灰度化,極坐標(biāo)展開與雙線性插值等方法將印章的環(huán)形文字展開為同一方向的橫排文字,克服了印章文字方向不統(tǒng)一的問(wèn)題。在檢測(cè)階段使用CTPN+CRNN的檢測(cè)框架。并且改進(jìn)了CTPN文本框的合成策略,使用三階貝塞爾曲線進(jìn)行擬合,減少了檢測(cè)背景的干擾。本文利用自制的中文印章數(shù)據(jù)集來(lái)評(píng)估該算法,并經(jīng)過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出方法的可行性和實(shí)用性。