熊 煒 徐晶晶 趙詩云 王改華 劉 敏 趙 楠 劉 聰
1(湖北工業大學太陽能高效利用湖北省協同創新中心 湖北 武漢 430068) 2(湖北工業大學電氣與電子工程學院 湖北 武漢 430068)
歷史古籍具有重要的科學和文化價值,數字化是解決文獻保護與文化傳播的重要途徑。由于紙張質量差、油墨印跡或褪色、文獻老化、頁面污漬等影響,掃描文檔圖像可能被破壞或退化,使得針對此類圖像的二值化仍具有極大挑戰。
目前,學術界提出的文檔圖像二值化方法可大致分為兩類:全局閾值法和局部閾值法[1]。全局閾值法,如Otsu算法[2]利用圖像的灰度直方圖選擇一個全局最優閾值,使得經閾值分割后的字符前景與文檔背景的類間方差最大。該方法對于灰度直方圖具有顯著雙峰特征的圖像具有較好的分割效果。
不同于全局閾值法,局部閾值法(也稱為自適應閾值法),如Niblack[3]、Sauvola[4]、Wolf[5]等算法則利用像素鄰域內的灰度均值和方差來構建閾值分割曲面,從而確定該像素位置上的二值化閾值,其算法性能有賴于字符筆畫寬度及鄰域窗口尺寸。針對不同質量的文檔圖像需動態調整窗口大小,才能獲得最佳的閾值處理結果。
近年來,研究人員還提出了一系列混合閾值方法。Lu等[6]提出一種基于背景估計和筆畫邊緣檢測的二值化方法,該算法在ICDAR2009文檔圖像二值化競賽所有提交的43個算法中名列第一。Su等[7]提出一種基于圖像局部最大和最小值的二值化方法,該算法在ICDAR2011文檔圖像二值化競賽所提交的18個算法中名列第二。Su等[8]還提出了一種基于自適應圖像對比度(它是圖像局部最大、最小值和局部梯度的線性組合)的二值化方法,該算法在ICDAR2013文檔圖像二值化競賽所有提交的23個算法中名列第一。Howe[9]提出一種基于拉普拉斯能量函數最小化的圖割方法,通過最大流/最小割組合優化算法,從而實現圖像的二值化,并在ICDAR2013文檔圖像二值化競賽中名列第二。Nafchi等[10]提出一種基于相位的歷史文獻圖像二值化模型。Mesquita等[11]提出基于統計競爭機制(I/F-Race)的參數優化方法,通過距離感知對象(POD)提升原始圖像的對比度,并采用Howe算法實現圖像的二值化。Pastor-Pellicer等[12]提出一種基于卷積神經網絡(CNN)進行文獻二值化的思想。Vo等[13]針對復雜文檔背景,提出一種基于高斯混合馬爾可夫隨機場(GMMRF)模型的音譜文檔二值化方法。Ahmadi等[14]則提出了一種基于條件隨機場(CRF)的低質量文檔圖像二值化框架。Chen和Wang[15]擴展了Wellner基于直方圖的快速自適應閾值法,并采用Rosenfeld的方法來確定每個像素的閾值。Hadjadj等[16]提出一種基于幾何活動輪廓模型的文檔圖像二值化方法。Hollaus等[17]還提出一種基于多光譜成像(MSI)技術的低質量文檔圖像二值化方法。
此外,盧迪等[18]提出一種基于局部對比度增強的二值化算法,所不同的是,該方法利用四叉樹原理自適應劃分圖像區域,并對不同對比度區域采用不同的對比度增強算法。馮炎[19]提出一種通過背景估計來對原始圖像進行對比度補償,并采用Howe算法對補償后的文檔圖像進行二值化的方法。許海洋等[20]提出一種基于背景估計與筆畫邊緣檢測的圖像二值化方法,該方法采用Sauvola算法進行圖像背景估計,并結合改進的Canny算法獲取字符邊緣信息,最后基于局部閾值策略實現圖像的最終二值化。吳銳等[21]提出一種基于譜聚類的圖像二值化方法,該方法利用規范化切痕作為譜聚類測度,并結合灰度直方圖相似性矩陣確定最佳閾值。
然而,以上方法都不能很好地解決在低對比度、墨跡浸潤或弱筆畫、帶污漬和紋理、漸變光照等復雜文檔背景下的圖像二值化。本文結合局部對比度增強和筆畫寬度估計,提出了一種基于支持向量機(SVM)分類的文檔圖像二值化方法。該方法在分割字符前景和保留字符邊緣細節的同時,能夠較好地抑制墨跡浸潤或褪色、頁面污漬、紋理背景及光照不均等現象。
基于SVM的低質量文檔圖像二值化算法流程框圖如圖1所示,該算法首先對彩色文檔圖像進行灰度化處理,然后增強圖像的局部對比度,以凸顯文檔圖像中前景和背景之間的差異性。接著將文檔圖像進行分塊操作,在提取每個圖像塊的特征參數后,使用支持向量機對其進行分類,并根據不同的分類結果選取不同的最優閾值,從而實現圖像的粗略二值化。最后通過估計字符筆畫寬度,來確定滑動窗口尺寸,并實現字符前景和頁面背景的精細二值化。

圖1 基于SVM的文檔圖像二值化算法流程框圖
目前,研究人員主要采用分量加權平均、平均值、最大值等方法對彩色圖像進行灰度化,這些方法多是基于人眼視覺特性的建模。本文采用最小均值法[22]將彩色文檔圖像f(x,y)轉換成灰度圖像,所得灰度圖像具有彩色無關性,其計算公式為:
(1)
式中,fi(x,y)分別表示R、G、B彩色分量圖像,fgray(x,y)為變換后的灰度圖像。
采用不同灰度化方法及其對應的Otsu二值化圖像如圖2所示??梢钥闯?,采用最小均值法得到的灰度圖像,其前景與背景像素間具有較大的對比度,同時前景像素間的灰度方差較小,對應的二值圖像中前景像素基本得以保留。

圖2 不同灰度化方法及其對應的Otsu二值化圖像
圖像梯度現已廣泛應用于邊緣檢測,其模值通常由鄰域窗內的圖像絕對差來計算,它對灰度變化非常敏感。當文本像素位于較亮的背景區域時,其局部對比度較大;然而,當文本像素位于較暗的背景區域時,其局部對比度將變小。
為了有效抑制文檔背景變化對圖像局部對比度的影響,本文定義圖像的局部對比度為:
(2)
式中:fmax(x,y)和fmin(x,y)分別表示圖像在以(x,y)為中心的3×3鄰域內的灰度最大值和最小值。
圖像的歸一化梯度和局部對比度如圖3所示??梢钥闯觯诰植繉Ρ榷葓D像中,筆畫前景與文檔背景更容易區分,具有明顯的雙峰特性。

圖3 圖像的歸一化梯度與局部對比度
待處理文檔圖像及其對應的標準GT圖像均按照N×N大小進行分塊,這樣每幅圖像都被分割成大小相同的N2個圖像塊。本文采用N=5,即將每幅圖像分成25個圖像塊;若N>5,將增加算法的時間復雜度。通過大量實驗,不難發現,這些圖像塊可分為3種不同的類型,即:
(1) 待處理圖像塊只含背景,沒有任何前景文本信息,此時最優閾值為T0=0。
(2) 文本前景和復雜背景大約各占待處理圖像塊50%的比例,此時最優閾值為Otsu算法所得閾值TOtsu。
(3) 文本前景占待處理圖像塊比例小于10%,其余部分則為背景,且背景區域相對復雜,此時最優閾值為其周邊圖像塊Otsu閾值的最小值,記為Tmin。
考慮上述3種情況,在處理每個圖像塊時,都需要單獨分析選擇最優閾值,其本質就是一個3分類問題。本文選用SVM作為閾值分類器,輸入層為待處理圖像塊的特征參數,中間層采用多項式核函數K(x,xi)=(γxTxi+r)p,γ>0,輸出層為最優閾值的判決(即輸出針對該圖像塊的最優閾值)。
確定SVM作為閾值分類器后,需要對每幅待處理圖像的25個圖像塊提取特征參數,以便訓練SVM分類模型,選擇的輸入特征參數包括:
(1) 像素灰度值xi
(4) 相對平滑度R=1-1/(1+σ2)

(8) 閾值TOtsu
(9) 閾值TOtsu-Tmin
其中,L表示圖像灰度級分辨率,i∈[0,L-1]表示圖像灰度級取值,p(xi)表示圖像的歸一化直方圖。
此外,本文還采用了兩個描述圖像直方圖特征的參數指標[23],即:


當deta值很高時,圖像塊中黑色像素和白色像素的融合度很高,即圖像很平滑,這樣就可以直接采用TOtsu作為圖像塊分割的閾值;另一方面,當deta值很低而u值相對很高時,通常將閾值設為T0。
SVM建模和預測分類流程如圖4所示。

圖4 SVM建模和預測分類流程圖
預處理步驟主要處理原始數據到學習數據的轉換過程。作者選取50張訓練圖像,42張測試圖像,均來源于國際文檔圖像二值化競賽提供的低質量文本圖像。所有訓練及測試用圖像,按照前述方法進行灰度化處理,并增強局部對比度后,將每幅圖像切割成25個圖像塊樣本,即總共有1 250個訓練樣本、1 050個測試樣本,再對每個圖像塊提取11個特征性狀參數用于SVM訓練或預測。
帖標簽步驟需要對每個圖像塊的分類結果進行標記,即確定某圖像塊的最優分割閾值是T0(標簽1)、TOtsu(標簽2)還是Tmin(標簽3)。本文采用數值比對與人工檢驗的雙重準則為訓練樣本帖標簽。以T0、TOtsu和Tmin閾值進行粗分割后,將其輸出的結果圖像塊分別與對應的標準GT圖像塊進行對比,并選取3個評價指標,即F值(F-measure)、峰值信噪比(PSNR)、結構相似性(SSIM),通過計算有關的參數評估表,再輔以人工核對,從而確定最優的全局閾值。
數據分組步驟將訓練樣本分為訓練集和測試集,在樣本量不充足的情況下,為了充分利用訓練樣本對分類算法進行測試,將訓練樣本隨機分為k組,每次將其中1組作為測試集,剩下的k-1組作為訓練集進行訓練。本文選取k=10,即進行10倍交叉驗證。
通過SVM訓練步驟建立相應的SVM模型,并使用訓練好的SVM模型進行測試。當SSIM值接近1時,其最優分割閾值選取為T0(標簽1);當同時滿足F值大于0.03、PSNR大于0.15、SSIM大于0.02時,其最優分割閾值選取為Tmin(標簽3);其余情況的最優分割閾值選取為TOtsu(標簽2)。SVM預測分類結果如表1所示,可以看出,其分類準確率達到98.1%,10倍交叉驗證的分類準確率達到96.8%。

表1 SVM預測分類結果
拼接后的圖像已經進行了粗略二值化處理,然而,其筆畫內部會出現“中空”現象,因此需要對該部分進行一定補償。通過文本筆畫寬度估計確定鄰域窗尺寸大小,再采用局部閾值法進行精細二值化。
本文采用逐行掃描方式估計文本筆畫寬度。首先利用Canny算子得到圖像邊緣,然后從左至右、從上至下依次掃描,當遇到第一個邊緣像素點時,記錄其坐標位置x1,接著繼續掃描,記錄下一個邊緣像素點的坐標位置x2,那么邊緣像素點之間的水平間距為d=x2-x1。重復掃描,直至整幅圖像掃描完成,統計d的分布,那么筆畫寬度估計SWE為:

(3)
式中:d表示筆畫相鄰兩個邊緣的間距,H表示出現此水平間距的次數。
T(x,y)=(1-k)×μ(x,y)+k×fmin+
k×[μ(x,y)-fmin]×σ(x,y)/R
(4)
式中:fmin和R分別表示鄰域內最小灰度值和最大標準偏差,常數k的取值范圍介于0和1之間,本文通過實驗將k值設為0.5。
經過局部二值化的精細分割后,筆畫邊緣區域的噪聲點能得到消除,同時分割錯誤的筆畫內部區域也能得到恢復。
作者將本文提出的算法與其他7種經典算法進行了大量對比實驗。測試樣本來源于2009年、2011年、2013年國際文檔二值化競賽(DIBCO)提供的低質量文檔圖像集,其中,2009年10幅、2011年16幅、2013年16幅,總共42幅,包括21幅印刷體和21幅手寫體低質量文檔圖像及其對應的標準GT圖像。參與評估的各算法分別將二值化后的圖像與對應的GT圖像進行像素級比較,為了保證實驗的客觀性,本文采用F值(F-measure)、峰值信噪比(PSNR)、錯誤率度量(NRM)、距離倒數失真度量(DRD)、錯誤分類處罰指標(MPM)等5個性能指標進行算法評估,具體定義請參考文獻[24-26],其中,前2個指標值越大越好,后3個數值越小越好。
表2為各算法的性能評估結果,從這些性能指標來看,本文算法明顯優于Otsu、Nibalck、Sauvola、Wolf和BESE算法,同時在F值和PSNR方面略高于LMM算法,分別為89.541和18.907。此外,本文算法在MPM指標上最優,其值為1.979。

表2 各算法評估的數值結果(平均值)
各算法輸出結果如圖5所示,Otsu算法對于背景反差較大的文檔圖像,具有較好的二值化效果,對于頁面中脊處以及弱筆畫文字細節部分丟失;Niblack算法會產生大量噪聲點,即將背景像素誤判為前景像素;相比Sauvola算法,Wolf算法能夠抑制更多的背景像素,但同時也抑制了部分前景像素;BESE算法不適合處理雙頁掃描圖像;Howe算法則不適合處理墨跡浸潤圖像;LMM算法雖然對大多數文檔圖像均有較好地二值化效果,但其結果易受文本區域位置影響,即文本區域靠近圖像邊沿時,輸出圖像會產生大量字符空洞現象;本文提出的二值化算法不僅能夠較好地消除背景噪聲,還能夠很好地保留筆畫邊緣細節。









圖5 各算法對比實驗結果
本文提出了一種基于SVM分類的低質量文檔圖像二值化方法,與現有算法相比,其顯著優勢在于:
(1) 采用最小均值法對彩色文檔圖像進行灰度預處理,所得灰度圖像具有彩色無關性。
(2) 相比圖像梯度,本文采用的局部對比度,能夠補償圖像亮度變化產生的影響。
(3) 采用SVM閾值分類法,能夠較好地解決在低對比度、墨跡浸潤、漸變光照、帶污漬和紋理等復雜背景下的文檔圖像二值化。
[1] Sezgin M,Sankur B.Survey over image thresholding techniques and quantitative performance evaluation[J].Journal of Electronic Imaging,2004,13(1):146-168.
[2] Otsu N.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems,Man,and Cybernetics,1979,9(1):62-66.
[3] Niblack W.An introduction to digital image processing[M].Englewood Cliffs,New Jersey:Prentice-Hall International Inc.,1986.
[4] Sauvola J,Pietik?inen M.Adaptive document image binarization[J].Pattern Recognition,2000,33(2):225-236.
[5] Wolf C,Jolion J M.Extraction and recognition of artificial text in multimedia documents[J].Pattern Analysis and Applications,2003,6(4):309-326.
[6] Lu S,Su B,Tan C L.Document image binarization using background estimation and stroke edges[J].International Journal on Document Analysis and Recognition,2010,13(4):303-314.
[7] Su B,Lu S,Tan C L.Binarization of historical document images using the local maximum and minimum[C]//Proceedings of the 9th IAPR International Workshop on Document Analysis Systems (DAS),Boston,Massachusetts,USA,Jun,2010:159-165.
[8] Su B,Lu S,Tan C L.Robust document image binarization technique for degraded document images[J].IEEE Transactions on Image Processing,2013,22(4):1408-1417.
[9] Howe N R.Document binarization with automatic parameter tuning[J].International Journal on Document Analysis and Recognition,2013,16(3):247-258.
[10] Nafchi H Z,Moghaddam R F,Cheriet M.Phase-based binarization of ancient document images:Model and applications[J].IEEE Transactions on Image Processing,2014,23(7):2916-2930.
[11] Mesquita R G,Silva R M A,Mello C A B,et al.Parameter tuning for document image binarization using a racing algorithm[J].Expert Systems with Applications,2015,42(5):2593-2603.
[12] Pastor-Pellicer J,Espaa-Boquera S,Zamora-Martínez F,et al.Insights on the use of convolutional neural networks for document image binarization[C]//Proceedings of the 13th International Work-Conference on Artificial Neural Networks (IWANN),Palma de Mallorca,SPAIN,Jun,2015:115-126.
[13] Vo Q N,Kim S H,Yang H J,et al.An MRF model for binarization of music scores with complex background[J].Pattern Recognition Letters,2016,69:88-95.
[14] Ahmadi E,Azimifar Z,Shams M,et al.Document image binarization using a discriminative structural classifier[J].Pattern Recognition Letters,2015,63:36-42.
[15] Chen Y,Wang L.Broken and degraded document images binarization[J].Neurocomputing,2017,237:272-280.
[16] Hadjadj Z,Cheriet M,Meziane A,et al.A new efficient binarization method:application to degraded historical document images[J].Signal Image & Video Processing,2017,11(6):1155-1162.
[17] Hollaus F,Diem M,Sablatnig R.Binarization of multispectral document images[C]//Proceedings of the 16th International Conference on Computer Analysis of Images and Patterns (CAIP),Valletta,MALTA,Sept,2015:109-120.
[18] 盧迪,黃鑫,柳長源,等.基于區域對比度增強的二值化算法[J].電子與信息學報,2017,39(1):240-244.
[19] 馮炎.基于對比度補償的古籍圖像二值化算法研究[J].微電子學與計算機,2016,33(4):50-54,59.
[20] 許海洋,馬龍龍,吳健.基于背景估計和邊緣檢測的文檔圖像二值化[J].計算機應用與軟件,2014,31(8):196-200.
[21] 吳銳,黃劍華,唐降龍,等.基于灰度直方圖和譜聚類的文本圖像二值化方法[J].電子與信息學報,2009,31(10):2460-2464.
[22] Hedjam R,Nafchi H Z,Kalacska M,et al.Influence of color-to-gray conversion on the performance of document image binarization:Toward a novel optimization problem[J].IEEE Transactions on Image Processing,2015,24(11):3637-3651.
[23] Chou C H,Lin W H,Chang F.A binarization method with learning-built rules for document images produced by cameras[J].Pattern Recognition,2010,43(4):1518-1530.
[24] Gatos B,Ntirogiannis K,Pratikakis I.ICDAR 2009 document image binarization contest (DIBCO 2009)[C]//Proceedings of the 10th International Conference on Document Analysis and Recognition (ICDAR),Barcelona,SPAIN,July,2009:1375-1382.
[25] Pratikakis I,Gatos B,Ntirogiannis K.ICDAR 2011 document image binarization contest (DIBCO 2011)[C]//Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR),Beijing,CHINA,Sept,2011:1506-1510.
[26] Pratikakis I,Gatos B,Ntirogiannis K.ICDAR 2013 document image binarization contest (DIBCO 2013)[C]//Proceedings of the 12th International Conference on Document Analysis and Recognition (ICDAR),Washington,DC,USA,Aug,2013:1471-1476.