宋傳鳴, 周雨晴, 張晉豪, 洪 飏
(1.遼寧師范大學計算機與人工智能學院,遼寧 大連 116029;2.遼寧師范大學文學院,遼寧 大連 116029;3.蘇州大學江蘇省計算機信息處理技術重點實驗室,江蘇 蘇州 215006)
作為目前我國所見最早的成熟文字系統,甲骨文是一種鍥刻在龜甲或獸骨上的古文字,它對中國乃至世界文明溯源均有極其重要的研究價值.在我國政府的大力推動下,甲骨文研究已經進入一個深入發展的新階段,以人工智能、大數據技術推進甲骨文全息性研究及數字化工程建設,成為甲骨文信息處理領域的研究熱點[1].作為甲骨文數字化工程的基礎問題,甲骨拓片圖像分割的目的是利用數字圖像處理和計算機視覺技術,在甲骨拓片圖像的復雜背景中提取出特征分明且互不交疊的獨立文字區域.它是甲骨文字修復、字形復原與建模、文字識別、拓片綴合等處理的技術基礎[2].
然而,甲骨拓片圖像分割往往受到點狀噪聲、人工紋理和固有紋理3類干擾元素的嚴重影響[3].其中,點狀噪聲是由甲骨表面的顆粒狀凹凸物經墨拓后所形成的小面積連通域;人工紋理主要包括片狀斑紋、兆紋2 類,前者是在占卜前對甲骨施加鉆鑿加工使之產生巢槽、并經墨拓所形成的大面積連通域,后者則是甲骨表面在占卜燒灼過程中出現的“卜”形裂紋經墨拓所形成的連通域;固有紋理由龜甲外層角質盾片接合處的“盾紋”、內層骨板接合處的“齒縫”所組成,它們在墨拓后會在拓片圖像中形成長條狀的大面積連通區域.由于缺乏對甲骨文字及其干擾元素的形態先驗特征的特殊考量,通用的代表性圖像分割方法目前尚不能對甲骨拓片圖像中的文字目標和高亮度的點狀噪聲、人工紋理、固有紋理進行有效判別,其誤分割率較高,在處理甲骨拓片圖像時均有一定局限性.如何從干擾眾多的復雜背景中準確地分割出獨立文字區域,仍然是一個亟待解決的具有挑戰性的問題.
鑒于此,提出一種連通區域拓撲結構約束的甲骨拓片圖像分割.首先,利用超像素分割方法和最大類間方差法將甲骨拓片圖像進行初始分割;其次,采用最小凸包算法從拓片輪廓附近的開放粘連背景中提取斷裂文字;最后,利用數學形態學運算和歐拉數、方向投影變換對連通區域的拓撲結構和內部形狀特征進行分析,進而獲得甲骨文字的精細分割結果.其主要貢獻在于2個方面:
1)根據甲骨文字、人工紋理與固有紋理的連通域特征,利用超像素分割將甲骨拓片圖像中具有相似特征結構的區域進行聚類分組,有利于最大類間方差法自適應地選取最佳閾值并準確提取甲骨拓片的外部輪廓,并進一步通過最小凸包算法確定甲骨斷裂處的開放邊界位置,有效解決斷裂文字與拓片背景相互粘連的問題.
2)統計發現甲骨文字與干擾元素之間存在不同的區域特征和拓撲結構,如連通區域面積、歐拉數及內部形狀等,進而建立了判別文字區域與非文字區域的形態學先驗,從而增強分割過程對背景粘連、殘留片狀斑紋和兆紋的穩健性,有效抑制點狀噪聲、人工紋理、固有紋理的干擾.
本節將從通用的圖像分割方法和面向拓片圖像的分割方法兩方面介紹相關的研究工作.
代表性的通用圖像分割方法主要包括以下7類.
1)基于全局閾值的圖像分割方法[4-5].無法對文字目標與非文字區域進行有效分割,由于片狀斑紋、齒縫、盾紋等紋理元素和點狀噪聲的亮度與甲骨文字幾乎相同,因此該類方法往往存在較為嚴重的誤分割現象.
2)基于區域的圖像分割方法[6-7].容易丟失對比度低的重要輪廓和邊緣,甚至破壞甲骨拓片圖像的細微筆畫特征,也不能獨立處理文字與甲骨背景的粘連.
3)基于邊緣的圖像分割方法[8-9].不能對前景物體的區域形狀進行約束和分析,往往將片狀斑紋、兆紋、盾紋等誤判為甲骨文字,而且對于細小邊緣和點狀噪聲非常敏感,容易在其干擾下產生虛假輪廓和邊緣.
4)基于連通域的圖像分割方法[10-11].利用前景目標和背景區域的連通性進行分割,可是沒有考慮甲骨文字與干擾元素在連通區域上的拓撲結構差異,而且文字與甲骨背景的粘連還會破壞前景目標、背景區域的連通性假設,以致嚴重影響了該類方法對粘連區域的分割精度.
5)基于活動輪廓模型的分割方法[12-13].該方法仍存在對初始輪廓曲線的位置敏感、過度依賴權重參數的選擇、不能處理非閉合的物體邊界等不足,尤其是無法有效分割甲骨斷裂、殘缺處的甲骨文字.
6)基于模糊聚類的圖像分割方法[14-15],由于模糊隸屬度函數未能對甲骨拓片圖像中干擾元素的分布規律進行有效建模,對點狀噪聲、背景強度不一致等現象比較敏感,不具備判別甲骨固有紋理和人工紋理的能力.
7)基于深度學習的分割方法[16-17]].該方法憑借卷積神經網絡的多尺度信息表示能力,利用甲骨文字與點狀噪聲、盾紋、襯底背景等干擾元素在不同尺度下的特征差異完成分割,如MultiResUNet方法[16]等。然而,神經網絡卻不能有效處理文字粘連現象,而且由于缺少對文字形態特征的量化判別,容易產生甲骨齒縫和兆紋的誤分割現象.
面向甲骨拓片圖像的分割需求,史小松等[18]提出一種基于稀疏活動輪廓模型的甲骨拓片分割算法.該方法以目標形狀估計為約束,通過位置回歸和共同勾畫算法學習目標輪廓,進而利用距離約束的霍夫變換完成分割.史小松等[19]利用全局閾值法對甲骨拓片進行粗分割,再用數學形態學方法完成精細分割.然而,上述方法僅能在圖像中分割出拓片區域和襯底區域,卻無法實現甲骨文字的準確提取.
為了對甲骨拓片圖像中的文字進行獨立分割,研究人員通過結合拓片圖像特點對典型圖像分割方法進行了改進,大致提出了3類方法:基于閾值的甲骨拓片圖像分割方法[20-23]、基于模糊聚類的甲骨拓片圖像分割方法[24-26],以及基于深度學習的甲骨拓片圖像分割方法[17,27-28].
1.2.1 基于閾值的甲骨拓片圖像分割方法
基于閾值甲骨拓片圖像分割方法的基本思想是在傳統閾值分割基礎上,引進數學形態學等運算對拓片圖像中的點狀噪聲和非文字區域進行處理.Huang 等[20]采用中值濾波操作削弱拓片圖像中的小面積點狀噪聲,進而以無參考的圖像空間質量評估指標(blind/referenceless image spatial quality evaluator, BRISQUE)為引導,在紅色通道上迭代優化形態學頂帽運算的結構元素半徑以去除人工紋理,而后通過最大類間方差法完成二值分割.然而,紅色通道對于甲骨拓片圖像分割的適用性不強,BRISQUE 指標也未兼顧拓片圖像的噪聲分布特點,其對大面積固有紋理的處理效果不夠理想.Shi 等[21]采用開運算估計背景區域,利用中值濾波去除點狀噪聲,進而在最大類間方差法的初始分割基礎上,通過對連通域面積的閾值化操作提取甲骨文字區域.不過,該方法不僅無法處理背景粘連問題,而且還會產生對片狀斑紋、盾紋和齒縫的誤分割.Ma 等[22]利用遺傳算法自適應地選取最佳全局閾值,進而結合中值濾波、均值濾波實現拓片圖像分割.Ma等[23]利用最大類間方差法和開運算進行粗分割,進而將連通面積小于平均連通面積的連通區域填充為背景.總體來講,該類方法尚不能充分發掘文字/非文字區域的形態學和拓撲結構特點,對于大面積的人工紋理和固有紋理的抑制作用仍然有限.
1.2.2 基于模糊聚類的甲骨拓片圖像分割方法
基于模糊聚類甲骨拓片圖像分割方法的基本思想是通過最大化所有像素與每個聚類中心的模糊隸屬度,進而利用聚類中心將圖像劃分成多個子區域,實現甲骨拓片圖像的分割.為克服傳統基于模糊聚類的圖像分割方法對噪聲較為敏感的不足,何穎等[24]聯合運用模糊C-均值(fuzzy c-means,FCM)聚類和基于小波變換的模極大值點檢測完成甲骨文字的初始分割,進而以該結果為先驗,提出了一種加權的模糊隸屬度函數及基于模糊聚類的精細分割方法.但是,該方法的計算時間復雜度卻較高.為了減少模糊聚類過程的迭代次數,潘振贛[25]兼顧考慮像素值的連續性和連通鄰域內的像素分布一致性,在模糊隸屬度函數中增加了反映灰度距離和空間距離的子項,從而降低由背景粘連所引起的分割不確定性.Huang等[26]在高斯平滑和自適應K-均值聚類的基礎上,利用Bradley 方法將那些低于平均區域積分值的像素設置為背景,最后采用連通分量分析得到圖像分割結果.盡管該類方法在隸屬度函數和聚類過程中引進了連通域的約束,可是卻未考量甲骨文字與干擾元素的連通域差異性,其分割質量還有較大的提升空間.
1.2.3 基于深度學習的甲骨拓片圖像分割方法
基于深度學習甲骨拓片圖像分割方法的基本思想是利用深層卷積神經網絡建立所有像素到文字/非文字區域的非線性映射.Gao等[17]提出了一種以UNet++為骨干網的甲骨拓片圖像分割網絡,引進殘差連接以提高網絡對文字特征的表達能力,并利用雙線性插值模塊克服反卷積操作所導致的不均勻重疊現象.Liu等[27]提出了一種基于全卷積層的圖像分割網絡,采用21個卷積層、每層64個卷積核進行特征提取,并利用Softmax 層完成分割.Ge 等[28]將ResNet-50 和特征金字塔網絡(feature pyramid network, FPN)相結合,把ResNet-50網絡的第3~5層的輸出特征作為FPN 的輸入,再利用卷積層計算出2個更大尺度的特征圖,進而采用共享頭和掩膜分支獲得圖像分割結果.雖然深層神經網絡能夠更準確地提取文字/非文字區域的特征,但是該類方法仍無法有效地分割背景粘連的文字、去除與文字形態相似的齒縫、兆紋等干擾元素.
為了克服點狀噪聲、人工紋理和固有紋理的干擾,并從復雜背景中準確地分割出獨立文字區域,提出一種連通區域拓撲結構約束的甲骨拓片圖像分割方法,其基本思路是首先以超像素分割和最大類間方差法獲得具有相似紋理、亮度特征的二值化結果,再以甲骨拓片輪廓為先驗構建最小凸包,得到消除了背景粘連現象的封閉拓片區域及文字粗分割結果,最后利用形態學、連通區域拓撲結構和內部形狀分析實現文字精細分割,去除拓片圖像中的片狀斑紋、兆紋、盾紋和齒縫.
圖1(a)所示為《甲骨文合集》[29]收錄的第1 093 號甲骨拓片圖像.其中,除了卜辭文字以外,圖像中還含有點狀噪聲(見黃色標識)、片狀斑紋(見綠色標識)、固有紋理(見紅色標識)及背景粘連(見藍色標記).從圖1(a)中可見,拓片圖像的點狀噪聲、人工紋理、固有紋理、襯底背景均與甲骨文字前景具有相近的灰度值分布.在這種情況下,若忽略像素值的局部分布特性而直接采用傳統的全局閾值進行分割,則既不能將甲骨文字從拓片襯底中分離,又無法將甲骨文字與干擾元素進行區別,甚至還會增強點狀噪聲的強度.鑒于此,采用基于簡單線性迭代聚類的超像素方法(simple linear iterative clustering, SLIC),通過迭代地聚類分組將甲骨拓片圖像分割成具有相似灰度值和光滑連通結構的子區域.在聚類過程中,為了兼顧考慮像素值的局部相關性和空間分布一致性,在距離度量函數中引進了像素點到聚類中心的空間歐氏距離和顏色歐式距離,從而有效地保留甲骨拓片圖像的邊緣和連通域特征,并提高后續閾值分割的效率.

圖1 超像素分割前后的甲骨拓片圖像Fig.1 Oracle bone rubbing image before and after the super-pixel segmentation
SLIC超像素分割的具體過程如下.
步驟1輸入一幅大小為W×H的甲骨拓片圖像I(x,y),將其顏色空間從RGB 轉換為CIELab,并設置超像素的數量為K.
步驟2令,以S為采樣步長將甲骨拓片圖像劃分成K個均勻網格,并將網格頂點作為初始聚類中心.
步驟3圍繞每個初始聚類中心建立一個大小為3×3的窗口,并將窗口中具有最小梯度值的像素作為新的聚類中心.
步驟4對于第i個聚類中心Ci(1 ≤i≤K),以Ci為中心建立一個大小為2S×2S的窗口,計算該窗口中的每個像素Cj(1 ≤j≤2S×2S)到Ci的距離Di,j.計算式為
其中:(lC,aC,bC)表示聚類中心Ci在CIELab 顏色空間下的像素值;(lj,aj,bj)表示像素Cj在CIELab 顏色空間下的像素值;(xC,yC)表示聚類中心Ci的空間坐標;(xj,yj)表示像素Cj的空間坐標;M表示類內像素之間的最大顏色歐氏距離的估計值,一般設置為經驗常數;、分別表示像素Cj與聚類中心Ci之間的顏色歐氏距離和空間歐氏距離.
步驟5計算甲骨拓片圖像中任意一個像素p的聚類標簽Lp,表達式為
其中:Di,p表示像素p到聚類中心Ci的距離.
步驟6對于每個聚類,利用該類中所有像素的顏色和空間坐標的平均值更新其聚類中心.
步驟7返回步驟4,循環直到收斂或達到最大迭代次數.
圖1(b)給出了利用上述SLIC方法得到的超像素分割結果I′(x,y).從圖1(b)中可見,除了在拓片破裂的開放區域外,超像素分割有效地定位到了甲骨拓片的外部輪廓,為提取拓片、去除襯底背景奠定了基礎;同時,分割結果總體上以連通區域為主,將與其具有相似灰度值的像素劃分到同一個超像素中.由于超像素分割結果具有較好的像素值分布的區域一致性,在此基礎上,采用傳統的最大類間方差法即可獲得不錯的閾值分割結果I″(x,y).圖2所示為圖1(a)的閾值分割結果,同時還給出了《甲骨文合集》的第238號、第911號甲骨拓片的分割結果.

圖2 閾值化前后的甲骨拓片圖像Fig.2 Thresholding results of oracle bone rubbing images
從圖2 不難發現,得益于恰當的分割閾值,拓片圖像中與背景灰度較為接近、較小面積的大量點狀噪聲已被有效抑制(見圖2(a)~(c)的圓形標記),連通區域的邊界更加明確;然而,由于甲骨在埋藏、出土過程中普遍存在疏松、粉化、殘損現象,處于拓片輪廓附近的文字往往存在與襯底背景相互連通或粘連的情形,造成非閉合的連通區域.此時,現有方法(如文獻[20-28]等)會不可避免地將這些文字判定為人工紋理或者固有紋理,導致誤分割問題.因此,有效解決背景粘連情況下的文字分割對于提高甲骨拓片圖像的分割質量尤為重要.
為了盡量避免背景粘連所導致的文字誤分割,一種可行的思路是估計和重建甲骨拓片的殘損外部輪廓,以產生閉合的拓片或文字區域.此時,一方面,利用閉合輪廓能夠將甲骨拓片區域和襯底背景區域相互分離,從而解決甲骨文字與襯底背景具有相近灰度值、無法通過閾值化進行二值分割的問題;另一方面,借助閉合輪廓能使與背景相互粘連的文字形成閉合的連通區域,進而結合區域形態分析即可實現粘連文字的分割.當然,盡管殘損拓片的外部輪廓往往具有復雜的碴口曲線,可是精確重建拓片輪廓既十分困難,又非必要,其精度不會影響文字分割的質量.鑒于此,采用最小凸包技術對甲骨拓片的外部輪廓進行估計,并進一步去除甲骨拓片的襯底背景.
首先,利用坎尼(Canny)算子對圖像I″(x,y)進行邊緣檢測,得到邊緣點的坐標集合Sedge.
其次,采用葛立恒掃描法(Graham’s Scan)[30]計算Sedge的最小凸包區域Ω.所謂“凸包”是指包含Sedge的最小凸集,可以簡單地理解為把Sedge的最外層的點連接后形成的一個凸多邊形,如圖3(a)所示.因為Ω是包含圖像I″(x,y)的所有像素的最小凸集,所以它所覆蓋的區域不僅含有盡可能少的襯底背景像素,而且不會丟失原本屬于甲骨文字的像素,從而最大程度地降低誤分割的概率.從圖3(a)可見,最小凸包區域已將拓片下部存在背景粘連的文字從其連通的背景中分離出來,形成了封閉的連通區域.

圖3 基于最小凸包的粘連背景去除結果圖Fig.3 Result of adhesive background removal based on the minimum convex hull
最后,假設ΩI表示甲骨拓片圖像I″(x,y)的區域,ΩB表示襯底背景像素的區域,則有ΩB=ΩI-Ω,其中“-”表示集合的差運算.此時,將ΩB中包含的像素施加反色操作,進而對所得結果與Ω 進行集合的并運算,即可得到去除了粘連背景的粗分割結果ICoarse(x,y).
圖3(b)給出了利用上述過程對第1 093號甲骨拓片圖像進行處理后的結果.顯然,除了拓片上部尚有小面積的殘留背景外(見圖3(b)中的圓形標識),其余的襯底背景區域已全部被有效地檢測和去除.不過,最小凸包卻不能去除拓片區域內的點狀噪聲、固有紋理等干擾元素.為此,進一步利用數學形態學和連通區域分析完成ICoarse(x,y)的精細分割.
雖然在粗分割結果ICoarse(x,y)中仍存在點狀噪聲、片狀斑紋及殘留背景等(見圖3(b)),但是一方面,點狀噪聲、片狀斑紋、盾紋、齒縫及殘留背景的連通面積和截口長度均有別于甲骨文字;另一方面,甲骨文字區域的拓撲結構和內部形狀也與點狀噪聲、片狀斑紋、盾紋、齒縫、殘留背景迥異.據此發現,本節將引進數學形態學分析不同區域的結構特征,采用歐拉數、方向投影變換分析各個連通區域的拓撲和內部形狀特征,從而在有效抑制干擾元素的前提下,更加準確地實現甲骨拓片圖像分割.
考慮到甲骨文字在連通區域的截口長度(即連通區域橫斷面的長度)小于片狀斑紋、殘留背景及大部分的盾紋、齒縫,利用形態學頂帽運算和半徑為r的圓盤型結構元素對這些干擾元素進行判別和處理,得到初步求精結果I′Fine(x,y).頂帽運算主要分為兩個步驟:開運算和代數減法運算.其中,粗分割結果ICoarse(x,y)經過形態學開運算后,圖像中具有較大截口長度的片狀斑紋、殘留背景、盾紋等連通區域就會被提取出來,而代數減法運算則可進一步將這些大面積的連通域從圖像ICoarse(x,y)中減除,實現去除干擾元素的目的.圖4 給出了第1 093 號甲骨拓片圖像經過開運算、頂帽運算后的結果,從圖4 中可見,ICoarse(x,y)的片狀斑紋、殘留背景已被全部去除,圖2(a)標記的與文字發生粘連的襯底背景也在未影響文字質量的前提下被去除.不過,此時的圖像中仍殘留一定數量的點狀噪聲,以及一部分與文字筆畫的截口長度相近的人工紋理、固有紋理等非文字噪聲(見圖4(a)).

圖4 大面積的干擾元素去除結果圖Fig.4 Result of noise elements removal with large areas
由于甲骨文字是用刀筆按照一定的規范刻寫到龜甲或獸骨上的,其筆畫表現為具有一致截口長度的單連通區域,不同筆畫之間形成了緊密的結構組合關系和較好的連通性,并進一步構成了具備一定連通面積、特定拓撲結構和內部形狀的文字;同時,甲骨文字的間架呈矩形,接近方塊字,其外接矩形的寬高比主要分布在[0.25,0.65]區間內[3].相比之下,點狀噪聲的連通區域面積明顯小于甲骨文字,位置變化呈現松散的獨立隨機分布,并且缺乏規則的拓撲結構和內部形狀;對于那些與文字筆畫的截口長度相近的兆紋、盾紋、齒縫等元素,盡管其連通區域面積的分布區間與甲骨文字存在少量交集[31],可是外接矩形的寬和高往往不成正比,拓撲結構和內部形狀較之甲骨文字也更加單一.
根據上述分析,首先對圖像I′Fine(x,y)的全部8-連通區域進行標記,并根據文字及點狀噪聲的連通面積分布區間的統計先驗[31],將連通面積小于Aconn(將該經驗常數設置為50)的連通區域填充為背景,從而去除I′Fine(x,y)中離散分布的大量點狀噪聲,得到平滑圖像I″Fine(x,y).圖5 所示為圖4(b)經該過程處理后的結果圖.

圖5 點狀噪聲的去除結果圖Fig.5 Result of point-wise noise removal
從圖5中可見,由于同一個甲骨文字的不同筆畫相互連接和布局,因此形成的間架拓撲結構往往存在不等量的孔洞.例如,圖5 標記的“王()”字含有1 個孔洞,“酉()”字則含有2 個孔洞;相反地,盾紋、齒縫、兆紋等非文字區域卻鮮有形成規則的拓撲結構,一般僅有1 個連通區域且不存在孔洞.根據這一現象,采用輪廓層次分析法計算每個8-連通前景區域的歐拉數NEuler,將其作為判定文字/非文字區域的參考準則之一.對于一幅二值圖像來講,“歐拉數”是指在圖像中會存在像素值為0的孔洞和像素值為1的連通區域,若將連通區域的數目Nregion減去孔洞的數目Nhole,則將所得結果稱為該幅圖像的歐拉數NEuler.例如,圖5中“王”字的歐拉數等于0,“酉”字的歐拉數等于-1.根據歐拉數的定義,不難理解,因為非文字區域大多不包含孔洞,所以其歐拉數一般為一個定值1,而文字區域的歐拉數則有更大的取值范圍.鑒于此,將歐拉數NEuler<TEuler的8-連通區域判定為甲骨文字區域.其中,TEuler是經驗常數,將其設置為-1.
由于部分甲骨文字的拓撲結構也不含孔洞(如圖5 中的“己()”字),其歐拉數與非文字區域的歐拉數均等于1,因此為了對歐拉數不小于TEuler,尤其是歐拉數等于1的8-連通區域進行有效判別,采用基于投影的區域內部變換分析法對拓片圖像IF″ine(x,y)分別進行列投影和行投影變換,從而分析各個8-連通區域的內部形狀特征.對于IF″ine(x,y)的某個8-連通區域Ωconn,假設其外接矩形的左上角坐標為(xTL,yTL),右下角坐標為(xRB,yRB),那么其行投影變換PH、列投影變換PV分別定義為
其中:PH(y)表示Ωconn在第y行的投影值,PV(x)表示Ωconn在第x列的投影值,Ωconn(x,y)表示Ωconn在坐標(x,y)處的像素值.不難理解,甲骨文字的筆畫組合具有特定的間架結構,當連通區域的某一行存在橫劃時,那么行投影變換PH就會在該行產生1 個峰值;而當某一行只存在豎劃時,那么行投影變換PH就會在該行產生1個谷值.同理,列投影變換在鍥刻豎劃、橫劃的位置也會產生類似的現象.相比之下,由于殘留的盾紋、齒縫、兆紋等非文字區域只是缺乏間架結構和內部形狀的全連通域,其行(列)投影變換的數值大多接近均勻分布,方差較小,這一點就與甲骨文字的行(列)投影變換形成了顯著差異.直觀起見,圖6 以圖5 中的“酉()”字及其左下部圓圈標識的固有紋理為例,給出了二者的行投影變換曲線和列投影變換曲線的對比圖.從圖6(a)可知,行投影變換的2 個峰值對應“酉”字的2 個橫劃,其間的1 個谷值反映了橫劃之間的豎劃及孔洞;從圖6(b)可知,列投影變換的2 個峰值對應“酉”字的2 個豎劃,而其間的1 個谷值則反映了豎劃之間的橫劃及孔洞;然而,固有紋理區域的行(列)投影變換的曲線分布卻缺乏明顯的峰值和谷值,尤其是該區域的縱向寬度較為一致,使得其列投影變換曲線的中部近乎均勻分布.為了進一步突出文字區域與非文字區域在投影變換分布方面的差異性,圖7 給出了“酉”字及上述固有紋理的行(列)投影變換的方差曲線.顯然,間架結構和內部形狀的不同,使得文字區域與非文字區域的行(列)投影變換的方差產生了數量級上的差距.基于這個發現,對于某給定的8-連通區域,分別計算其行投影變換的方差VarH和列投影變換的方差VarV,并令Varconn←max{VarV,VarH},若Varconn≥Tvar,則將該8-連通區域判定為甲骨文字區域,其中,Tvar是經驗常數,將其設置為150.

圖6 甲骨文字與干擾元素的投影變換曲線對比Fig.6 Comparison of projection transform curves between oracle bone inscription and interfering element

圖7 甲骨文字與干擾元素的投影變換的方差曲線對比Fig.7 Comparison of variance curves of projection transform between oracle bone inscription and interfering element
最后,考慮到極個別甲骨文字的間架結構、內部形態與兆紋、盾紋類似,如數字“一”“十”和天干地支“乙”“午”等字,為了保證歐拉數和投影變換的判定準確率,進一步利用外接矩形的寬高比的統計先驗[3]進行判別.對于某給定的8-連通區域,若其NEuler≥TEuler且Varconn<Tvar,則計算其外接矩形的長寬比R,此時,若R滿足TRmin≤R≤TRmax,則將該8-連通區域判定為甲骨文字區域,否則將其判定為干擾元素區域,進而獲得最終的分割結果圖像IFine(x,y).這里,TRmin和TRmax均為經驗常數.
在第2節和第3節的基礎上,本節給出連通區域拓撲結構約束的甲骨拓片圖像分割方法的具體流程,如圖8所示.

圖8 甲骨拓片圖像分割方法的具體流程Fig.8 Specific process of the proposed segmentation method for oracle bone rubbing images
為驗證方法的有效性,從《甲骨文合集》中選取了3 000張甲骨拓片并制作了甲骨拓片圖像數據集,從主觀視覺效果和客觀評價2個方面進行實驗,并將結果與面向甲骨文字的連通域分割方法(ORSMCD)[21]、基于形態學的拓片圖像閾值分割方法(TSM)[23]、基于超像素的C-均值聚類分割方法(SF-FCM)[14]、基于果蠅優化算法的閾值分割方法(FOA-Otsu)[5]、多粒度多層馬爾可夫隨機場的分割方法(MMLMRF)[32]和基于UNet的多模態分割方法(MultiResUNet)[16]進行比較.
實驗的硬件環境為Intel (R) Core (TM) i7-4790 CPU@3.60 GHz,16.0 GB RAM,操作系統為64 位Windows 10專業版,編程平臺為Matlab R2018a.
在視覺上,點狀噪聲、人工紋理、固有紋理等干擾元素對甲骨拓片圖像的影響主要體現為混淆甲骨文字的內在特征,降低文字的完整性和清晰度,進而導致其難以被準確地分割.選取了含有不同強度的干擾元素的5 類甲骨拓片圖像進行實驗:1)圖像背景簡單,噪聲較少,文字清楚,如圖9(a)所示的《甲骨文合集》第367 號甲骨拓片;2)圖像背景簡單,含有大量點狀噪聲,如圖10(a)所示的《甲骨文合集》第1 294 號甲骨拓片;3)圖像背景復雜,拓片中含有大面積的粘連噪聲,如圖11(a)所示的《甲骨文合集》第358號甲骨拓片;4)圖像背景復雜,拓片中含有大量的點狀噪聲、盾紋、齒縫等干擾元素和大面積的背景粘連,如圖12(a)所示的《甲骨文合集》第891 號甲骨拓片;5)圖像背景簡單,但是拓片中含有貫穿整片甲骨的盾紋、多處背景粘連及干擾性較強的2 處片狀斑紋,文字邊緣還存在一定模糊現象,如圖13(a)所示的《甲骨文合集》第911號甲骨拓片.

圖9 不同方法對第367號甲骨拓片圖像的分割結果Fig.9 Segmentation results of different methods for the oracle bone rubbing image with No.367

圖10 不同方法對第1 294號甲骨拓片圖像的分割結果Fig.10 Segmentation results of different methods for the oracle bone rubbing image with No.1 294

圖11 不同方法對第358號甲骨拓片圖像的分割結果Fig.11 Segmentation results of different methods for the oracle bone rubbing image with No.358

圖12 不同方法對第891號甲骨拓片圖像的分割結果Fig.12 Segmentation results of different methods for the oracle bone rubbing image with No.891

圖13 不同方法對第911號甲骨拓片圖像的分割結果Fig.13 Segmentation results of different methods for the oracle bone rubbing image with No.911
從圖9~13可見:
1)在較高的灰度對比度情況下,SF-FCM 方法對點狀噪聲具有一定抵抗能力,能取得初步的分割結果,但是其漏分割率偏高(圖11(d));在對比度偏低時,該方法的性能卻會受到明顯影響,甚至無法給出有效的分割結果(圖10(d)).而且,基于直方圖的模糊隸屬度函數的穩健性不足,仍然不能克服相近灰度值的干擾元素對文字分割的影響,導致SF-FCM 方法無法有效處理盾紋(圖13(d))、襯底背景粘連(圖12(d))等情形.
2)FOA-Otsu 方法利用果蠅優化算法計算全局閾值,但是該方法既忽略了拓片襯底與文字具有相近的亮度,又缺少有效抑制噪聲干擾的方法,導致單一的閾值不可避免地產生大量的襯底背景(圖11(b))、點狀噪聲(圖10(b))、盾紋(圖12(b))、片狀斑紋(圖13(b))的誤分割現象.
3)ORSMCD 方法采用數學形態學估計拓片背景,利用中值濾波抑制點狀噪聲,并通過連通域面積的閾值化操作在一定程度上抵抗盾紋、齒縫的影響,取得了不錯的分割結果.然而,該方法對襯底背景粘連的處理能力仍有不足(圖11(e)),其閾值化操作無法有效去除大面積的盾紋區域(圖13(e)),并且片狀斑紋也存在誤分割的可能(圖13(e)).
4)TSM 方法利用形態學運算及小面積連通區域的填充運算,較之ORSMCD 方法更加有效地去除了點狀噪聲、大面積盾紋,但是由于該方法僅將連通區域的平均面積作為文字區域的判定標準,卻缺乏關于甲骨文字形態特征的必要考量,容易將較小面積的筆畫誤判為噪聲(如圖9(f)左上方的“二”字是被誤分割的結果,正確結果應該為“三”),而將稍大面積的人工紋理誤判為文字筆畫(圖10(f));同時,不能完全去除背景粘連(圖11(f))和大面積的盾紋(圖13(f)).
5)MMLMRF方法建立了像素粒度的概率圖和目標粒度的概率圖,進而構建多層次的馬爾可夫隨機場模型,能夠對拓片圖像的點狀噪聲分布、連通區域分布進行有效的表示,表現出較強的點狀噪聲抑制能力,能夠獲得清晰的文字分割結果.不過,該方法的概率分布是建立在像素值基礎上的,缺乏對目標形態先驗的度量,因此無法處理與文字具有相近灰度的襯底背景、盾紋、片狀斑紋等干擾元素,如圖11(c)和圖12(c).此外,該方法在分割過程中會損失一部分文字邊緣,使得細化后的甲骨文字可能出現輕微的筆畫斷裂.
6)MultiResUNet 方法引進不同尺寸的卷積核并增加直連邊,設計了一種多尺度殘差塊結構,進而利用該結構替代傳統UNet網絡的卷積層序列,增強了神經網絡的多尺度信息表示能力,保證該方法對于點狀噪聲、盾紋、襯底背景均有一定的抑制能力,總體上取得了不錯的分割結果.然而,該方法會擴大原本的文字區域,導致其分割結果可能損失文字的間架結構,甚至使文字內部出現失去孔洞結構的全連通域(圖10(g)).此外,MultiResUNet方法無法有效去除分布在文字周圍的點狀噪聲,在一定情況下,其分割后的甲骨文字仍可能被噪聲污染而難以辨認(圖12(g)).
7)本文方法將超像素和閾值法相結合,根據局部區域的像素分布獲得了更加準確的閾值化結果,進而通過外接矩形、歐拉數和投影變換對甲骨文字及干擾元素的面積分布、形態先驗特征進行統計建模,取得了有效的分割結果.如圖9(h)~圖13(h)所示,本文方法不僅能去除不同強度的點狀噪聲,而且對拓片開放區域的背景粘連、片狀斑紋及盾紋均有明顯的抑制能力,很好地保持了甲骨文字的原始筆畫和字形.
為了進一步評價方法的分割性能,在含有3 000張甲骨拓片圖像的數據集上進行了實驗,并采用正確分割率(ACC)、敏感度(SE)、特異度(SP)作為分割結果的客觀度量指標,其定義分別為
其中:TP表示甲骨文字區域被正確分割的像素數;TN 表示非文字區域被正確分割的像素數,FP表示非文字區域被誤分割的像素數;FN表示甲骨文字區域被誤分割的像素數.
表1 總結了方法與其他7種對比方法在甲骨拓片圖像數據集上的客觀性能評價結果.從表1可知,未考慮甲骨文字先驗知識的方法,如FOA-Otsu、MMLMRF 和SF-FCM,對甲骨拓片圖像的干擾元素非常敏感,其最高的正確分割率僅為80.01%;MultiResUNet方法經過網絡訓練后,對點狀噪聲、盾紋、襯底背景均有一定的抑制能力,正確分割率為91.72%;針對甲骨拓片圖像的特點,ORSMCD 方法和TSM 方法采用數學形態學和連通區域面積分析進行處理,其最高的正確分割率達到了93.84%;方法在面積分布、形態先驗的基礎上,利用連通區域的拓撲結構和內部形狀分析對甲骨文字進行分割,取得了更高的正確分割率,比7種對比方法中正確分割率最高的TSM 方法進一步提高了2.03%,達到了95.87%.在敏感度方面,SF-FCM方法對圖像對比度和點狀噪聲的穩健性差,甚至在一定條件下無法給出甲骨文字的有效分割,其敏感度僅為65.6%;MMLMRF 方法在分割過程中往往會損失一部分筆畫的邊緣信息,其敏感度也偏低,平均為70.23%;TSM方法對于連通區域面積的判別不夠準確,容易將較小面積的筆畫誤判為拓片背景,以致在一定程度上影響了分割性能,其敏感度為90.05%;FOA-Otsu方法、ORSMCD 方法和MultiResUNet方法對甲骨文字分割的敏感度大致相當,最高達到了92.98%,而本文方法則進一步較其提高了0.23%,達到了93.21%.在特異度方面,FOA-Otsu 方法、MMLMRF 方法、SF-FCM 方法均無法克服拓片襯底背景、大面積背景粘連等因素的影響,其特異度最大僅有80.56%;MultiResUNet方法會擴大原本的文字區域,將其周圍鄰域內的背景像素誤分割為甲骨文字,其特異度為91.66%;盡管ORSMCD方法和TSM方法能夠克服拓片襯底背景的干擾,可是無法完全抑制大面積背景粘連,仍明顯存在對背景像素的誤分割,其特異度最高為94.56%;所提出方法通過建立文字/非文字區域的形態學先驗和連通區域的拓撲結構約束,增強了分割過程對于各類干擾元素的穩健性,其特異度達到了96.10%,較之特異度最高的TSM方法提高了1.54%.

表1 不同方法的甲骨拓片圖像分割結果的客觀評價比較Tab.1 Objective evaluation comparison of the segmentation results of oracle bone rubbing images by different methods (單位: %)
綜合主觀評價和客觀評價的比較結果可見,對于包含大量點狀噪聲、人工紋理和固有紋理的甲骨拓片圖像,本文方法的整體分割性能優于其他7種代表性的對比方法,有效克服了現有方法無法處理大面積背景粘連、襯底背景、盾紋等干擾的問題,提高了甲骨文字的分割精度.
為了克服點狀噪聲、片狀斑紋、兆紋、盾紋、齒縫等元素對甲骨拓片圖像分割的影響,先以甲骨拓片的外部輪廓構建最小凸包,再以連通區域的拓撲結構和內部形狀特征建立甲骨文字區域和非文字區域的形態學先驗,進而提出了一種連通區域拓撲結構約束的甲骨拓片圖像分割方法.其優點在于,最小凸包解決了斷裂文字與襯底背景的粘連現象及其誤分割,形態學先驗則有效避免了片狀斑紋、盾紋、齒縫的影響,從而增強了分割過程對拓片干擾元素的穩健性,提高了甲骨文字分割的主觀視覺質量和客觀性能.實驗結果驗證了所提出方法的有效性以及在甲骨拓片圖像分割過程中引進形態學先驗的必要性.
另外,所提出方法仍有可臻完善之處,例如,當甲骨文字與盾紋、齒縫或背景存在細小連通邊時的有效分割等,將在今后的工作中進一步深入研究相關問題的解決思路.