張志劍,夏蘇迪,劉政昊,王文慧,陳帥樸,霍朝光
(1. 武漢大學信息管理學院,武漢 430072;2. 武漢大學大數據研究院,武漢 430072;3. 武漢大學信息資源研究中心,武漢 430072;4. 南京中醫藥大學衛生經濟管理學院,南京 210023;5. 中國人民大學信息資源管理學院,北京 100872)
我國印章文化源遠流長,最早的印章可以追溯到殷商晚期三方銅印,著錄于《鄴中片羽》,距今約有3700年歷史[1]。印章文化流行于戰國時期,其功能、章法和規制在隋唐時期初步形成并不斷完善,與詩歌、繪畫和書法共同構成我國重要的四大傳統藝術形式。恰如黃賓虹[2]所言,“一印雖微,可與尋丈摩崖、千鈞重器同其精妙”。印章文化不但展示了中華民族獨特的審美特質和情懷,也傳承和弘揚了中華文化的精神內涵[3]。印章通??梢苑譃楣儆『退秸聝煞N,作為一種身份憑證,被廣泛應用于權利和身份認證、財物封存和文書遞送等場景[4]。當下的印章文化更多在于文化傳承上,用于寄托主人的志趣。由于書法繪畫作品通常具有極高的鑒賞和收藏價值,歷代藏家都會悉心保存,作品上的印章也能夠得以保留。因此,觀賞和了解印章有助于人們領悟作品背后的文化內涵,提高自身審美修養和藝術鑒賞能力,增強民族文化自豪感。
篆書是一種具有結構規整、筆畫長短精確、形態簡潔美觀等特點的字體,它通過篆刻技藝應用于印章上,能夠確保印文的清晰、準確和規范。然而,與簡體字相比,篆書的使用場景較為有限,不再被人們所熟知。此外,印章作為主人的一種精神寄托,通常體現主人的巧思和獨特性。在印章內容和布局的設計上,人們更加注重創新和個性化。因此,印章的樣式千差萬別,每個印章都有其獨特的魅力。此外,還演變出了象形印章。但上述情況也增加了人們理解印章的難度。在公眾欣賞書法字畫時,常常會看到大量復雜的印章,這些印章記錄了作品的創作信息和歷史流傳過程。只是這些印章主要為篆書或象形表示,非專業人士往往難以辨識?,F有的識圖軟件和方法無法識別印章內容,而通過翻閱專業印章書籍來識別印章不僅耗時耗力,往往還難以得到滿意的結果,導致欣賞者在面對印章圖像時產生沮喪感,失去了欣賞書法字畫的興趣,這也是導致中國傳統文化藝術作品不易推廣的重要原因之一。因此,急需一種印章圖像識別方法,降低用戶的理解與鑒賞的負擔,并激發公眾對傳統文化藝術的興趣,推動中華傳統文化的傳承和發展。
由于印章類別繁多,印章識別任務屬于超多分類問題,只有當印章數據充分時,神經網絡模型才能發揮其較強的特征提取能力,從而準確地識別不同印章。然而,古代印章存世數量有限,而多次出現的印章也較少。因此,在訓練集數據缺乏的情況下,難以對神經網絡模型進行充分訓練。數據增強方法可以通過對有限的數據進行變換得到新的數據,在保證標簽不變的前提下,可以對數據集進行擴展。但是數據增強方法并非總是有效的,當數據存在較多噪聲和錯誤標簽時,數據增強方法在擴充數據集的同時也將噪聲和錯誤進行了放大,導致模型學習到錯誤信息。某些任務無法通過數據增強捕捉到數據的關鍵信息,例如,在醫學影像任務中,病變的形狀和位置具有較強的多樣性,常規的數據增強無法滿足需求。一枚相同的印章在鈐印和傳承過程中受到不同因素的影響,表現出較強的多樣性;但是同一枚實體印章鈐印出的印章圖像具有同源性,導致同一枚印章的圖像在形狀、尺寸、內容等方面具有一定程度的相似性。通過分析印章圖像的特點進行數據增強可以有效提升模型在復雜場景下的識別能力。因此,本文使用數據增強的方法應對上述問題,并針對不同場景設計不同的數據增強策略,以確保訓練數據的充分性。由于經過數據增強的數據集較為充分,可以使用特征提取能力較強的ViT(vision transformer)模型提取印章特征并進行識別,以取得較好的識別效果。
鑒于印章識別任務屬于圖像分類任務,且本文使用了數據增強方法,本節從圖像分類方法、數據增強方法和印章識別方法三個角度探討當前研究進展。
圖像分類任務是計算機視覺領域的核心問題,其目的是將輸入的圖像分配到預定義的多個類別之一[5]。早期的圖像分類方法主要依賴于手工構建特征。Lowe等[6]提出了一種尺度不變性較好的SITF(scale-invariant feature transform)方法,其在圖像旋轉、縮放、平移等變換情況下具有較強的魯棒性,并且能夠抑制局部遮擋和形變;然而該方法計算量較大,且對于模糊和邊緣平滑圖像的特征提取效果較差。Dalal等[7]提出一種梯度方向直方圖(histo‐grams of oriented gradient,HOG)方法,該方法通過對圖像進行灰度化表示和gamma校正來抑制噪聲的影響。因此,該方法具有對光照和噪聲不敏感以及計算量較小的優點,但是該方法的尺度不變性較差。為了降低SITF方法的計算量,Bay等[8]提出了SURF(speeded up robust features)方法,Rublee等[9]提出了ORB(oriented FAST and rotated BRIEF)方法。此外,Ojala等[10]提出了一種局部二值模式(local binary pattern,LBP)方法,該方法是一種描述圖像局部紋理的方法,具有旋轉不變性和灰度不變性等優點。Viola等[11]提出了一種基于一維Haar小波變換的Haar方法,可以較好地描述明暗變化,該方法常被用于人臉檢測任務。
傳統的圖像分類方法通常需要先手工構建特征,再使用支持向量機、決策樹、樸素貝葉斯等算法進行分類[12]。然而,手工構建特征的過程不僅耗時費力,而且無法完整地表達數據中的全部有用特征。神經網絡具備的強大特征提取能力和自適應學習特征的優勢逐漸取代了手工構建特征的過程。例如,LeCun等[13]提出了卷積神經網絡(convolution‐al neural network,CNN)用于手寫數字識別,并在圖像識別領域中獲得了良好的分類效果。CNN模型在情感分類[14-16]、期貨價格預測[17]、股票指數預測[18]等任務中也表現出了卓越性能。許多研究人員針對CNN模型進行了改進。Simonyan等[19]提出了VGG(visual geometry group)模型,通過加深網絡的隱藏層以提取圖像中的隱藏特征,獲得了較好的分類效果。Szegedy等[20]提出了GoogleNet模型,該模型采用了inception module結構,通過多個分支提取圖像特征,并在不同分支間進行拼接,進一步提升了模型的性能。He等[21]提出了ResNet(residual network)方法,該方法基于深度殘差網絡,通過引入residual block結構有效抑制了神經網絡的退化問題,提升了模型的訓練穩定性。還有研究基于循環神經網絡(recurrent neural network,RNN)提出了RNN-CNN方法,該方法使用CNN提取圖像特征,并使用RNN來處理這些特征序列,在性能上取得了一定的提升[22]。此外,Bahdanau等[23]提出了注意力機制,作為一種機器翻譯模型。注意力機制可以區分不同特征的重要性,因此在圖像分類任務上逐漸處于領先位置,基于注意力機制的改進方法ViT模型依然是當今較為先進的模型之一[24]。
數據增強方法通過對原始數據進行一定程度的變換來增加訓練數據,從而提神經網絡模型的泛化能力[25]。數據增強的思想可以追溯到1998年,Le‐Cun等[13]在過采樣應用的討論中使用過采樣方法緩解類別數據不平衡的問題。過采樣方法旨在復制或生成數量較少的類別數據,后續改進的過采樣方法也均可視為數據增強算法[26-28]。數據增強可以分為基于圖像變換的方法和基于生成模型的方法兩大類別。
基于圖像變換的方法主要包括三種類型:基于幾何變換的方法,通過翻轉、模糊、縮放和裁剪等方式實現[29-31];基于像素變換的方法,通過改變圖像的亮度、對比度和銳化處理等方式實現[32];基于混合樣本的方法,通過將不同的樣本進行混合從而生成新的圖像數據。其中,mixup方法通過對兩個不同樣本和標簽進行線性插值,模擬樣本和標簽間的線性關系,從而生成新的訓練數據,提高模型的泛化能力[33]。AdaMixUp方法可以自適應地選擇混合參數,更好地適應不同數據樣本的特征分布,解決了mixup中存在生成圖像與原始圖像都不相似的問題[34]。sample pairing方法通過將一個Batch的數據劃分為兩個子集,并將兩個子集的樣本兩兩組合生成新的數據樣本[35]。另外,RICAP(random im‐age cropping and patching)方法隨機選擇四個樣本,并從上述樣本中隨機剪裁一部分進行拼接,進而生成新的樣本[36]。MixStyle是一種基于風格遷移的數據增強方法,該方法通過對輸入樣本的樣式和內容進行分離和混合,生成新的訓練樣本以提高模型的魯棒性和泛化能力[37]。這些方法可以有效增加訓練數據的多樣性,從而提升模型的泛化性能和魯棒性,已被廣泛應用于計算機視覺領域。
基于生成模型的數據增強方法是通過生成對抗網絡直接生成新的圖像樣本,并將這些生成的樣本加入訓練集中。生成對抗網絡由生成器和判別器組成,二者相互博弈,生成器負責生成逼近真實的新樣本,判別器負責區分真假樣本,使生成的樣本質量不斷提升[38]。常見的生成模型包括GANs(gener‐ative adversarial networks)[38]、CGANs(conditional generative adversarial networks)[39]、ACGANs(aux‐iliary classifier generative adversarial networks)[40]、DAGANs(data augmentation generative adversarial networks)[41]等,這些模型設計了不同的機制來提高生成樣本質量和多樣性。另外,自動編碼器(auto-encoder,AE)[42]和變分自動編碼器(varia‐tional auto-encoder,VAE)[43]也可用于樣本生成。AE通過編碼器和解碼器實現樣本重構,而VAE在AE基礎上約束了潛在空間,使其生成的樣本更加清晰。GAN與VAE結合的VAE-GANs模型[44]可以進一步改善生成樣本的真實性。
雖然基于生成模型的數據增強方法通常具有較強的通用性,但是這類方法的本質是學習并模仿訓練數據的底層特征,對關鍵特征進行保留和組合,從而生成相似但不相同的數據。在印章識別任務中,印章圖像是由實體印章鈐印所得,具有客觀的物理形態特征。生成模型在模仿訓練數據的過程中,可能改變或扭曲印章圖像的關鍵物理特征,從而生成不符合實際情況的樣本圖像。失真的訓練集會降低模型的識別能力,因此,在印章識別任務中選擇基于圖像變換的數據增強方式更為有效。
印章識別技術研究主要針對字畫印章和公文印章兩大類,雖然兩者的應用場景不同,但其識別技術具有較強的通用性。相關研究主要聚焦印章定位、印章提取和印章識別三個方面。印章定位主要用于識別印章的位置,印章提取能將印章主體從復雜背景中分離出來,而印章識別則需對印章含義進行識別。由于印章數據集一般較小,因此,鮮有研究直接使用深度學習進行模型訓練。
楊琴等[45]提出了一種高光譜成像系統,可對模糊印章進行信息增強,提高其辨識度。牟加俊等[46]開發了一種印章定位算法,該算法可通過雙板濾波和顏色增強,準確定位印章區域。楊有等[47]提出了UNet-S(UNet for seal)方法,可用于精準分割民國檔案圖像中的印章。周新光等[48]利用高光譜成像技術采集圖像,結合最小噪聲分離和波段剪裁來提取辨識度不高的印章??笛喷鞯萚49]首先將印章圖像轉換到SN色彩空間,并提取印章主體,然后使用基于雙邊濾波的自適應Canny算子來提取印章邊緣,抑制偽邊緣。葛懷東等[50]提出了一種基于HSV(hue, saturation, value)顏色空間和自適應紅色連通分量的算法,能夠有效去除背景噪聲。陳婭婭等[51]提出了一種基于ResNet和遷移學習的古印章文本識別方法,可避免模型過擬合,提高識別準確率和泛化能力。歐陽歡等[52]提出了一種多特征融合決策的印章識別算法,該算法具有準確率高和抗造性好等優點。戴俊峰等[53]提出了一種基于極坐標轉換的方法,該方法根據印章元素排列特點展開中文印章圖像極坐標,緩解了印文方法不統一的問題。
印章識別的難點在于缺乏足夠的標注數據,導致神經網絡模型無法得到充分訓練,使得印章識別效果不理想。為解決這一問題,通常會采取包括數據增強、遷移學習、生成對抗網絡以及數據采集等四種策略。然而,遷移學習的應用前提是源任務和目標任務存在一定的相似性,而在印章識別任務中,往往難以找到具有相似數據分布的源任務或模型。生成對抗網絡可以通過生成與真實數據相似的新數據來緩解數據匱乏的問題,但在印章識別任務中,可能生成與印章本體偏離的圖像,這可能會對現實中印章圖像的識別造成干擾。數據采集則依賴于領域專家對額外數據進行標注得到的擴充數據集,然而受制于印章圖像的多樣性,難以覆蓋所有特殊情況的印章圖像。印章圖像均由實體印章鈐印所得,通過對印章圖像的出現情況進行分析,使用數據增強方式對上述情況進行模擬,可以有效提高模型的泛化和識別能力。因此,數據增強方法與任務更為契合。在數據集充足的前提下,ViT模型使用Transformer作為特征提取器,更容易捕獲印章圖像的全局特征,從而適應印章圖像的多種復雜情境?;谏鲜龇治?,本文提出了一種基于數據增強和ViT的印章識別方法,其流程如圖1所示。本文方法主要分為印章數據獲取與標注、數據增強模塊和印章識別模塊三個部分,其中印章數據獲取與標注負責從作品中截取清晰的印章圖像,并由領域專家標注印章的主人和內容。然后,使用數據增強模塊對標注數據進行多維度增強。最后,使用增強數據訓練印章識別模塊中的ViT模型,并保存效果最佳的模型用于最終印章識別。

圖1 基于數據增強與ViT的印章識別模型
數據增強需要基于一定規模的高質量數據集,首先需要標注一定數量的印章圖像。圖1左側為印章數據獲取與標注模塊,為保證基礎印章圖像具有較高的清晰度,需要獲取TIFF(tag image file for‐mat)格式的字畫作品圖像。TIFF格式是一種非失真的壓縮格式,可以保留原始圖像的顏色和層次。然后,從作品中逐個截取印章圖像,在截取過程中剔除缺損嚴重或無法識別的印章圖像。同時,盡可能減少截取圖像中的非印章部分,即截取的印章圖像要貼近印章邊緣。最后,由領域專家對印章的所有人和內容進行識別和標注。
如圖2所示,印章所有人可能擁有多枚內容一致但樣式不同的印章。因此,本文在標注過程中使用“人物-內容-樣式-編號”格式,其中人物為印章的所有人,內容為印章所包含的內容,樣式使用英文字母進行區分。同一枚印章可能鈐印在不同地方,在采集過程中可能多次出現。為避免重復命名的情況,需要為每個印章賦予一個編號。根據這個標注格式,圖2a的印章標注為“乾隆-五福五代堂古稀天子寶-A-1”,圖2b的印章標注為“乾隆-五福五代堂古稀天子寶-B-1”。在訓練神經網絡模型時,去除編號后的“人物-內容-樣式”即數據集的標簽。

圖2 “五福五代堂古稀天子寶”印章
數據增強是一種通過旋轉、裁剪、亮度與對比度變換、潛在空間變換等方式對數據集進行擴增的方法。然而,原始數據集本身包含的信息有限,數據增強方法可以通過人工先驗知識添加部分信息,但這些信息不能無限增加。若采用與任務不符合的數據增強方式,則會在數據集中引入噪聲,導致模型識別能力下降。因此,選擇與人物特性相符的數據增強方式至關重要。
在印章識別任務中,印章圖像無論鈐印在何處,都無法脫離原始實體印章。模擬印章圖像出現場景可有效擴充印章數據,提升模型泛化能力。領域專家通過深入分析印章圖像的形狀、紋理、顏色、大小、種類和分布情況,在全面了解印章數據的整體特性后,結合印章圖像所處的不同復雜場景,制定了相應的數據增強方法(表1),字跡覆蓋模塊、紋理覆蓋模塊、邊緣擴大模塊的詳細流程見附錄。

表1 數據增強模塊參數
涉及圖像尺寸和方向調整類的數據增強方法通過改變圖像大小和方向,模擬特定現實場景。通過圖像縮小模塊對圖像按比例縮小,模擬由于圖像采集設備質量低、拍攝晃動、網絡傳輸對圖像壓縮等因素導致的模糊情況。圖像裁剪模塊則按不同方向和尺寸對圖像進行裁剪,模擬作品在重新裝裱或拍攝角度不當等情況下,印章圖像出現橫向或縱向缺失的情況。圖像旋轉模塊將圖像隨機旋轉不同角度,模擬拍攝或印章鈐印時角度不正導致的印章圖像偏轉。由于印章實體和印章圖像為水平翻轉關系,通過圖像翻轉模塊能夠模擬印章本體圖形。同時,拍攝印章實體時,更容易存在圖像不正的情況,需要同時搭配印章旋轉模塊。
有關圖像質量調整的數據增強通過改變印章圖像亮度和對比度以及添加噪聲點的方式,提升模型識別能力。在采集過程中,印章圖像可能出現圖案過亮或過暗的情況,可以通過圖像亮度調整模塊模擬不同光照條件。相機硬件的差異、智能手機在拍攝時采用的不同白平衡算法、色彩還原算法、HDR(high dynamic range)模式或曝光補償等策略,都可能對圖像對比度造成顯著影響,導致對比度存在較大差異。為模擬這種現象,可以使用圖像對比度調整模塊。圖像的噪聲情況是另一種需要模擬的現實世界中的圖像采集情況。隨機噪聲模塊通過添加高斯噪聲和椒鹽噪聲來實現這一模擬。這些模擬有助于使模型更好地應對真實世界的噪聲干擾,從而提高其識別能力。
有關圖像內容修改的數據增強則通過掩蓋部分區域和添加字跡與紋理來模擬現實場景。圖像掩蓋模塊用于模擬書法字畫在長期保存過程中可能出現的污漬和斑點,或在鑒賞、借閱、展覽過程中可能對畫面產生的損壞。該方法詳細流程可參見附錄的算法1。字跡覆蓋模塊則通過生成少量文字并將其覆蓋到印章圖像上,模擬在題跋過程中因規劃不佳而導致字跡與印章圖像的重疊。此外,作者在題跋上鈐印印章以標識身份,也可能導致字跡與印章圖像的重疊。該方法的實現代碼可參見附錄的算法2。紋理覆蓋模塊則用于模擬印章圖像因不當保存而導致的細密紋路的褪色,以及因不同材質載體(如紙張或絲綢布帛)而導致的印章圖像多樣性紋理。這些模擬有助于模型更好地處理現實世界中的各種復雜情況,從而提升其識別能力。
附錄:關鍵數據增強模塊算法
算法1. 圖像掩蓋模塊算法

算法2. 圖像字跡覆蓋模塊算法

有關圖像邊緣處理的數據增強為邊緣擴大模塊。在鈐印過程中,印章可能蘸取過多的印泥導致印章圖案存在粘連現象,增加了印章識別的難度。因此,本文通過提取印章的印文區域并擴大數個像素點來模擬這種情境。首先,需要將印章圖像轉換到HSV顏色空間,該色彩空間使用色調(hue)、飽和度(saturation)和亮度(value)三個分量來表示顏色。通過將色調的取值范圍限定在[0,36] ∪[216,300] ,可以提取印章圖像中的紅色區域。其次,使用skimage中的morphology模塊對紅色區域進行膨脹操作,本文在水平和垂直方向擴大r像素,r∈[5,15] 。最后,將擴大的區域填充為紅色區域內的平均顏色。該模塊的具體過程見附錄的算法3。
算法3. 圖像邊緣膨脹模塊算法

使用上述方法進行數據增強,增強后的數據集可以提高模型在復雜場景下對印章的識別能力。圖3為“安歧-?邨”印章圖像的數據增強示例。
如圖1右側所示,本文方法使用ViT模型來完成印章識別任務。與CNN模型不同,ViT模型使用Transformer替換卷積層提取圖像特征。由于CNN受到卷積核尺寸固定的限制,難以獲取輸入序列的全局特征。而Transformer中的自注意力機制卻能夠捕捉輸入序列所有元素之間的關系,從而獲取輸出序列的全局特征。因此,在面臨圖像遮擋(occlu‐sion)、數據分布偏移(distribution shift)、存在對抗patch(adversarial patch)和圖像分割重排列(per‐mutation)等情況下,ViT模型具有比CNN更強的魯棒性[54]。這些情況與印章被字跡覆蓋、鈐印位置材質不同導致的紋理不同、印章圖像存在污漬、印章圖像被裁剪或缺失的情況相似,因此,ViT模型對印章識別的復雜情境具有較強的適應能力。原始的印章數據難以滿足ViT模型的訓練要求,經過數據增強的印章數據恰好解決了該問題。此外,由于Transformer具有較強的可擴展性,隨著模型參數和數據量的增長不存在性能飽和的現象。因此,使用ViT模型可以較好地適應后續數據集增加情況。綜上所述,基于數據增強的ViT模型可以較好地應用于印章識別任務。
使用ViT模型進行印章識別可以分為數據預處理、特征提取和印章分類三步。首先,數據預處理模塊將輸入圖像轉換為可供Transformer編碼器接受的形狀。該模塊通過將圖像大小縮放至[224,224,3] ,其中的參數分別表示圖像的高度、寬度和通道數。其次,將其分割為196個邊長為16的正方形圖像塊,在圖像塊嵌入模塊中將其從三維降至一維,使用長度為768的向量來表示每個大小為[16,16,3] 小圖像塊,此時輸入圖像的維度變為[196,768] 。然而,在不同的印章圖像中,最重要的圖像塊位置是不固定的,無法用某一個圖像塊來代替全局特征。因此,在ViT模型的頭部位置添加[class] 標記。由于該標記本身不包含印章圖像信息,在該標記與其余196個圖像塊向量一起輸入Transformer中進行學習后,即可得到印章圖像的全局特征。同時,位置信息也是印章圖像中重要的特征,需要在模型訓練前加入位置信息,此處的位置信息是一個維度為[197,768] 的可訓練矩陣。隨后將圖像塊嵌入和位置嵌入相加,即可得到用于Transformer學習的矩陣。在特征提取步驟中,使用16層疊加的Transformer編碼器對輸入的矩陣進行學習,此時的[class] 標簽已經包含了輸入印章圖像的全局特征信息。最后,將[class] 標簽輸入分類器進行印章分類,該分類器是一個長度為印章類別數的全連接層,使用soft‐max作為激活函數。分類器的輸出是輸入印章圖像對應每個類別的概率,輸出概率最大的類別即可得到印章的識別結果。
實驗選取了16幅著名的書法字畫,包括《蘭亭序》《祭侄文稿》《寒食帖》《伯遠帖》《韭花帖》《快雪時晴帖》《資治通鑒殘稿》《中秋帖》《仲尼夢奠帖》《上陽臺帖》《洛神賦》《松風閣帖》《蜀素帖》《自敘帖》《秾芳詩帖》和《清明上河圖》。獲取上述作品的TIFF格式高清圖像,由領域專家在其中截取并標注了1259枚印章圖像,共計529類。每一類都代表一個實體印章所鈐印出的圖像,如圖2左側印章的類別為“乾隆-五福五代堂古稀天子寶-A”。該類別也是模型的預測目標,通過模型預測可以獲取印章圖像的所有者和印章內容。印章的所有者包含古代皇室、貴族、書畫家、收藏家、官員、機構等多種類型,內容涵蓋了姓名字號、收藏、格言志趣、年號、職務等方面。數據集中的印章圖像時間跨度大且種類豐富,可用于合理評估模型的識別能力。
訓練集和測試集的構建過程如下。初始訓練集包含1259枚印章圖像,對此初始訓練集進行數據增強,利用不同的模塊生成新的印章圖像。這包括使用10個數據增強模塊(除圖像翻轉模塊外)對原始印章進行增強,每個模塊根據一枚原始的印章圖像生成10枚新的印章圖像。由于圖像翻轉模塊對印章圖像進行水平方向的翻轉,其結果具有唯一性,因此對原始印章圖像進行一次水平翻轉??偟膩碚f,每枚印章圖像通過增強生成了101張新的圖像。經過上述步驟,形成兩個訓練集,即原始訓練集和數據增強訓練集。為了更全面地評估本文方法在復雜情境下的印章圖像識別能力,并避免數據泄露,測試集應獨立于訓練集并盡可能覆蓋所有類別。因此,從互聯網上獲取獨立的印章數據作為測試集,該集合包含了模糊、不完整、亮度和對比度差異大、角度偏斜、字跡覆蓋、紋理不同以及邊緣粘連等各種情況的印章圖像。對上述數據集分別進行隨機排序,最終,初始訓練集、數據增強數據集和測試集分別包含了1259、127159和522枚印章圖像。
本文使用武漢大學超級計算機中心的GPU(graphics processing unit)服務器集群作為實驗平臺,該服務器采用Intel(R) Xeon(R) E5-2640 CPU和Nvidia Tesla V100 GPU,配備了128 GB內存,操作系統為CentOS 7.7。實驗代碼基于python 3.8和Ten‐sorflow 2.5框架編寫。為了降低隨機誤差的影響,采用重復實驗的方法。具體地,每個實驗均重復10次,取結果的平均值作為最終實驗結果。此外,實驗采用了early stop策略來避免模型過擬合和降低實驗時間開銷。在訓練過程中,當驗證集的損失值連續3個epoch(訓練輪次)沒有降低時,停止模型的訓練并保存損失值最小的模型。該方法在保證實驗結果可靠的前提下,提高了實驗效率。為了確定最優的模型參數組合,實驗采用網格搜索策略,為每個參數設置了候選值列表,通過遍歷循環的方式得到每一種參數組合的實驗結果,最終選擇效果最佳的組合作為模型的最終參數,具體的參數和取值如表2所示。

表2 模型參數設置
模型的評價指標為精確率P(precision)、召回率R(recall)和F1值。在多分類任務中,實際計算的是宏平均值(macro average)。單獨計算每個類別的P、R和F1,然后求所有類別的平均值。當計算某一類別樣本時,該類樣本為正樣本,其余樣本為負樣本。各指標定義為。
其中,n表示類別總數;TPi表示識別為第i類的樣本中,識別正確的樣本數;FPi表示負樣本被識別為正樣本的個數;FNi是正樣本被識別為負樣本的個數;P表示被正確識別為第i類的樣本數和所有被識別為第i類的樣本數的比值,即被正確識別為第i類的占比;R表示被正確識別為第i類的樣本數和實際為第i類的樣本數的比值;F1值表示P和R的等權調和平均值,綜合了P和R對模型性能的評價。
實驗使用CNN、VGG和ResNet作為對比模型,其中CNN模型的隱藏層由三層卷積層和三層池化層交替疊加所構成,卷積層的神經元個數分別為64、128和256,輸出層為兩層全連接層。VGG模型具有結構簡單和遷移性強的優點,是計算機視覺領域最常用的方法之一。ResNet通過引入殘差塊的概念可以在不發生梯度消失的前提下構建更深的網絡結構。為了探究模型深度對印章識別結果的影響,本實驗采用了不同規模的ResNet模型,包括ResNet50、ResNet101和ResNet152。其中,VGG、ResNet和ViT模型通過加載TensorFlow Hub在Ima‐geNet數據集上進行預訓練,引入一定的先驗知識。上述實驗的結果如表3所示。

表3 數據增強對印章識別精度影響的模型性能評估
根據表3可以發現,所有未經數據增強的模型都無法實現有效擬合。這種情況主要是因為原始數據集中印章圖像的數量不足,平均每類只有2.4張印章圖像。在這種數據稀疏的情況下,模型難以學習到不同印章之間的差異,進而導致嚴重的過擬合現象,無法準確識別測試集中的印章圖像。盡管VGG16、ResNet和ViT模型在ImageNet數據集上進行了預訓練,獲得了一定的先驗知識,這仍然無法幫助模型實現有效擬合。然而,當應用了數據增強方法后,所有的模型都能夠實現有效擬合,這說明在印章圖像識別任務中,數據增強方法可以有效地解決因數據稀疏所導致的過擬合問題,同時提升模型的魯棒性。
具體而言,CNN、VGG16、ResNet50、ResNet101、ResNet152和ViT模型的F1值分別提高至23.75%、64.94%、60.59%、58.57%、44.50%和72.76%。經過數據增強后,模型需要處理更豐富且更復雜的圖像特征。由于CNN模型的結構相對簡單,難以捕獲到充足的特征用于印章識別,導致其F1值最低,相比之下,VGG16模型具有更深的網絡結構,包含13個卷積層和3個全連接層,因此,其特征提取能力較強,增強了印章識別能力,F1值比CNN模型提高了41.19個百分點。一般而言,淺層的卷積核用于學習簡單的邊緣、紋理和顏色特征,深層的卷積核則用于組合淺層特征,進而學習到針對特定任務的區分性特征。ResNet50模型具有更深的網絡結構,但其F1值相較于VGG16降低了4.35個百分點。其原因可能是ResNet50更深的網絡結構可以捕獲到更復雜的組合特征,但印章圖像的內容和顏色特征相對簡潔,過強的特征提取能力可能導致過擬合現象。類似地,ResNet101和ResNet152的F1值相較于VGG16分別降低了6.37和20.44個百分點。印章識別任務不僅需要考慮局部細節,還需要考慮全局特征及其排布情況。ViT模型由于其Transformer中的自注意力機制,能夠更好地捕獲每個圖像塊之間的關系,而非像卷積核那樣主要關注局部信息。因此,在經過數據增強方法后,ViT模型可以得到更為豐富的全局特征,并且實現了最佳的印章識別結果。
綜上所述,數據增強方法與印章識別任務的相容性較高,能有效提升模型的性能并促進其擬合過程。然而,不同架構的模型可能產生不同的數據增強效果。對于特征提取能力較弱的模型,可能難以充分提取訓練集中的特征信息,導致識別效果較差。相反地,如果模型的特征提取能力過強,那么可能導致過度學習訓練集中的特征。由于訓練集無法完全覆蓋印章圖像可能出現的所有場景,過度的特征提取可能降低模型的泛化能力。在這種情況下,模型可能難以識別與訓練集有一定差異的印章圖像,而對于與訓練集相似的印章圖像則能準確識別。這導致了實驗結果中模型的召回率低于精確率。因此,對于小規模的數據集進行數據增強時,選擇具有針對性的策略以及合適的深度學習模型至關重要。
為了降低用戶查詢和識別印章的難度并提升印章文化的推廣水平,急需一種可以快速、準確識別印章圖像內容的方法。由于印章識別任務的類別數目較多且每一類樣本數量少,直接使用深度學習模型進行訓練會導致模型識別效果欠佳。即使通過細致的調參使其勉強擬合,也難以識別處于復雜情境下的印章圖像。因此,面對上述困境通常需要更大的數據集。然而印章圖像數據本身較為稀缺,同時對標注人員本身印章知識的要求較高,導致印章識別領域缺少大規模的標注數據集。
為解決上述問題,本文提出一種基于數據增強和ViT模型的印章識別方法。通過分析印章圖像的特征,有針對性地對上述場景進行數據增強,有效提升了模型在印章識別任務中的泛化能力。同時,使用特征提取能力優秀且擴展性較強的ViT模型作為印章識別任務的特征提取器,取得了較好的印章識別結果。因此,本文方法對印章文化的傳播具有一定應用價值,為快速、準確識別復雜情境下的印章圖像提供了新的研究思路,針對印章圖像的數據增強模式還可以為后續印章識別研究提供基礎。但本文方法缺乏語義推理能力,模型通過建立印章圖像的全局特征與標簽間的映射完成識別過程,尚無法對印章圖像進行逐字識別。在未來的工作中,需要構建具有語義推理能力的印章識別模型,通過圖像分割、文字識別、內容排序來完成對印章語義層次的理解和識別,從而識別未知印章,擴展深度學習模型在傳統文化領域的應用,并為傳統文化的普及和傳承提供技術支持。