陶珩,張欽科,劉浩男,戴苗鵬,李曙
(吉首大學信息科學與工程學院,湖南吉首,416000)
2002 年,湖南湘西出土了3.8 萬多枚里耶秦簡,數量龐大,是此前全國發現秦簡總和的10 倍,總計20 余萬字,內容涉及當時社會政治、經濟、文化的各個層面,極大填補了秦代的歷史文獻和檔案資料,讓今人對秦朝政治和社會生活有了更加全面準確的認知。
里耶秦簡出土于里耶戰國秦代古城遺址,即現在里耶鎮。里耶鎮行政規劃屬湘西土家族苗族自治州龍山縣,坐落于湖南省武陵山腹地,湘、鄂、渝、黔四省市在此交界,距離保靖城區61 公里。里耶歷史古老,早在6000 年前便有人居住,但由于交通不便使其經濟文化一直較為落后,直至清康熙年間始建街道和碼頭,雍正年間設置里耶塘,并漸成集市,一度繁榮。
研究里耶秦簡可更深入了解秦朝社會的經濟政治。但由于秦簡的書寫多采用竹子或木頭,容易蟲蛀霉變,且年代久遠,在遺址的保存效果不好,發現出土時,秦簡上的字已經出現了一系列模糊不清或筆畫缺失等問題。
為有效識別秦簡文字、避免耗費大量的人力物力地進行人工識別,有效結合現代圖像識別處理技術,提高簡牘文字的可識別數量和準確率,本文通過對里耶秦簡照片進行處理,分割文字得到單文字區域并有效的顯示出來,無需復雜的人為操作,效率比較高,實用性比較強。這對于后續里耶秦簡文字的自動檢測以及對缺少筆畫的修復等的研究具有重要意義。
里耶秦簡出土數量龐大,不乏有清晰、辨識度高的簡牘。書寫字體絕大多數為古隸書文字,鮮有官方頒布的小篆文字。里耶秦簡文字風格各異,大多起筆藏鋒逆入,橫豎線條粗細對比不明顯,字形大多以長形居多,上緊下松,大小不一。里耶秦簡書寫格式嚴謹,從上往下錯落有致[1-2]。
現有文字識別檢測的方法很多,如將所得字體骨架與原先所建字體庫進行對比,得到字體庫中與之近似度最高的文字作為識別結果;或利用專業軟件橡皮擦、鉛筆等功能對書法文字進行修復。前者方法需要在識別前建立完善的字體庫,但里耶秦簡文字因沒有統一字體庫而不適用于該方法,而后者方法需要人為的對書法圖像進行刪改與填充,需要花費大量的人力與時間,故實用性不佳。
本文提出利用最大極值穩定區域和非極大值抑制的方法,快速、準確率高地將文字區域獲取并顯示出來。
步驟(1):文字圖像拍攝獲取。文字圖像拍攝獲取是將出土的秦簡進行數字化。通過黑白攝像機、掃描儀、數碼相機等設備,將秦簡拍攝成可以讀入計算機的圖片,圖片以BGR 格式存放計算機中。該關鍵點在于拍攝獲取圖像的清晰度,即圖片像素點矩陣,像素矩陣越大,其表現的里耶秦簡畫面信息量越多,后序處理效果將越好。清晰的書法圖像更利于后序的處理,故獲取高清晰度高保真的文字圖片至關重要[3]。
步驟(2):圖像預處理。在進行文字區域檢測之前,為保證檢測結果的成功率,減少非文字信息對識別整體效果的干擾,對文字圖像進行預處理。圖像拍攝獲取時多為彩色圖像,為減少顏色對識別結果的影響,第一步將圖片轉換為灰度圖。接著對灰度圖進行濾波處理,目的是為了消除圖像中的噪點,利用算子的平滑過程,降低圖片噪聲點與信息在圖片中所占影響,達到忽略噪聲點對整體圖像影響的效果。濾波處理后對圖像進行二值化,其原理在于通過閾值劃分像素值為兩個大小范圍,將大于閾值的像素點與小于閾值的像素點分別處理為統一大小像素值(本文將大于閾值的像素點值大小設置為255,小于閾值的設置為0),得到非黑即白的二值化文字圖像。
步驟(3):形態學操作及均值化處理。進行平滑處理后的圖像依然存在顆粒較大的噪點,且部分字的偏旁部首間隙大,易將這類字體檢測成多個文字區域;非文字區域檢測成文字區域。步驟(3)首先對平滑后的圖像進行腐蝕的形態學操作,是再次將影響較大的顆粒進行縮小處理,使其顆粒變細成細小的噪聲點。顆粒變成噪聲點后,明顯的大顆粒已消失不見,對圖像進行均值化處理,即可消除噪聲點,極大程度上只保留圖像中的文字區域。進行腐蝕操作得到的非實際上文字區域,故接著進行膨脹操作還原原先文字區域。因均值化處理得到的圖像結果并非二值圖像,為進行后序操作,再次對圖像進行二值化處理。在步驟(3)處理后,可使得偏旁部首的字區域連接形成唯一的文字區域。
步驟(4):最穩定極值區域算法處理。該算法類似于分水嶺算法,該算法不斷進行多次改變閾值的二值化處理,直到得到穩定的極值區域。該方法將區域尋找出并進行標記,在進行二值化處理的同時,標記區域的大小與像素值會發生改變,不斷改變閾值的方法計算不同情況下該區域的穩定值,將最穩定范圍內所有出現的可能作為算法最后處理的結果,因此會在計算后返回多個值。其結果為對一個文字區域進行重復的框選。
步驟(5):非極大值抑制處理。在進行步驟(4)后,得到了需要的文字區域的同時,也出現多區域重疊出現現象,為能夠正確顯示,對所有標記區域進行非極大值抑制處理,保留最合適穩定極值區域,將多個極值區域處理成一個區域。目的是為了刪除重復區域,只保留框選正確的正確區域。
本文選取多幅里耶秦簡文字圖像,分成高信噪比和低信噪比兩類分別進行實驗處理。
從兩類分別選取一幅圖作為實驗示例。基于目前研究現狀,本文代碼采用python 實現并完成圖像處理具體步驟。
(1)程序名稱:Main.py。該程序讀入圖像,調用其他程序,對最終得到的文字區域完成矩形繪制過程,返回最終的處理結果。
(2)程序名稱:Pretreatment.py。該程序將完成圖像預處理步驟,因多幅圖像在進行二值化時需要的參數不同,該程序采用自適應的處理方法,對不同圖像尋找其最適合的閾值。
(3)程序名稱:Morphological_ Average.py。該程序完成形態學操作以及圖像的均值化處理。該程序將均值化與形態學運算的卷積核設置為3×3的大小,經實驗該核適應大多數圖像,但為達最佳處理結果,應對不同圖像的卷積核大小進行相應的調整。
(4)程序名稱:Mser.py。計算最穩定極值區域,返回處理結果圖像。
(5)程序名稱:Nms.py。非極大值抑制,得到最終的文字區域,將結果返回Main.py 程序。

圖1 (a)原始里耶秦簡文字圖像;(b)預處理后的圖像;(c)形態學操作與均值化處理后的結果;(d)檢測結果。
在該實驗中成功將文字區域顯示并在原圖標識出來,且檢測成功率較高,部分緊挨著的字體分割較好,但文字區域與非文字區域如圖像上的墨點有很大的相似性,故不易區分,實驗結果中也將墨點框選中。

圖2 (a)低信噪比里耶秦簡文字圖像;(b)預處理后圖像;(c)形態學操作與均值化處理結果;(d)檢測結果。
低信噪比的圖像具有字體清晰度較低,非文字區域噪聲點密集,在轉化為灰度圖像后,非文字區域存在許多與文字區域像素值接近的噪聲點,這樣的噪聲點不易擦除,對實驗結果影響較大。對此,可利用灰度值的加權平均值作為閾值的改進二值化進行處理,該方法利用灰度值的加權平均值作為區分文字區域與非文字區域像素值的標尺,減少背景中噪聲點的干擾的同時,極大程度上保留文字區域。
本文利用里耶秦簡文字區域像素值接近的特點,對圖像進行預處理、形態學操作及均值化處理、最穩定極值區域算法處理、非極大值抑制處理后,成功得到所需要檢測的文字區域并將其顯示。在檢測高信噪比的文字圖像時成功率較高,對多幅圖共計70 余字進行檢測,共檢測出個文字,成功率達。本文實驗結果表明,本文算法對多數秦簡文字能有效的分割與提取,有利于后期對里耶秦簡文字識別工作的展開,較傳統檢測方法而言,本文所述方法大大的提高了檢測的效率,在一定程度上為考古工作減輕來不少的工作量。