季晨生,徐 明,王經緯,黃 鑫,王軍明
揚州大學信息工程學院,江蘇揚州 225127
如今信息技術飛速發展,中文字庫中除了錄有中國傳統經典的字體外,還有專業廠商制作的字庫。近幾年,較大規模的西文字體識別與檢索已有成效,而識別中文字體的網站卻很少。據不完全統計,目前可以下載的中文字體大概有15000多種,而字體網站只提供字體的預覽和下載功能,目標性不強[1-2]。
當今智能手機已經相當普及,全球兩大類智能手機iphone和Android,其中安卓在中國市場占有率為89.9%,因此開發基于安卓的字體識別軟件,將極大地滿足市場尤其是廣大字體愛好者的應用需求。
為了減輕客戶端的運行壓力,大部分的系統操作都將放在服務器端進行,而客戶端只需進行簡單提交圖片、提交文字等操作。然后通過http方式實現與服務器數據傳輸。
當用戶上傳圖片到達服務器端后,服務器端通過后臺程序,將圖片存儲到某一特定文件夾下,程序自動查找到與之相匹配的文字,并將這些文字生成一個固定大小的圖片,形成RGB矩陣,再將這些矩陣進行比較,得到相應的匹配率。按照匹配率,對字體格式進行排序,并將排好的數組,返回給客戶端,完成一次數據交互。因此,對于服務器端,我們要用到serverlet技術和javabean技術,將操作寫入javabean中,用serverlet將用戶頁面與后臺邏輯操作連接起來。
1.3.1 常用的識別技術
圖像處理通常需要將圖像劃分為若干不相交的區域,圖像分割是圖像處理的基礎。常用的有閾值與圖像分割技術、梯度與圖像分割技術,通過閾值來對圖像進行二值化能讓計算機處理的數據量大大減少[3]。
分割后的圖像需要對鹽粒噪音和毛刺噪音進行消除,通常采用濾波的方法,根據噪音產生機理的不同設計不同的濾波方法,為減少脈沖干擾,可采用中值濾波法[4]。
匹配算法主要有:基于邊緣、基于像素點等比較算法[5]。
1.3.2 字體識別技術
1)閾值分割技術
本程序因手機內存限制,不能通過拖動控制條來實時改變閾值,但是如果灰度均值偏小或者灰度均值過大時,僅用單一的閾值算法將很難得到合適的結果,所以通常采用兩種閾值:最佳閾值法和大津法,兩者相結合自動尋找合適的閾值[6]。
設:最佳閾值法計算的閾值N,大津法計算的閾值M,平均灰度值aver,則:

2)降噪算法
由于不同型號手機攝像頭性能各異,加之拍攝手法不同,程序獲取的圖片源質量不高,二值化后容易出現噪點現象,影響后期匹配算法,因此借助比較常見的降噪算法:中值濾波、均值濾波、對稱近鄰均值濾波法,在處理細小噪點的算法中,均值濾波算法效率較高但容易降低圖片的銳度和細節,綜合效果中值濾波法更適合。
本手機字體識別系統主要包括如下功能:
截圖功能、二值化處理功能、查找文字邊界、生成字庫圖片、統計排序功能、手機端“掃一掃”功能。通過手機攝像頭取圖并處理,將處理后的圖片和相應的文字發送到服務器端進行處理,服務器將查詢結果再返回給客戶端。
經測試,本軟件可以實現字體圖片獲取、上傳、識別并返回結果等相關功能。手機Android客戶端操作簡單明了,產生的結果能滿足用戶的需求。識別字體的方法位于服務器端,方便日常的維護升級。軟件基本達到預期目的。下一步的研究工作將致力于歷史記錄、字體收藏、下載、替換等后續功能的開發,并對算法做進一步的改進,以提高對于字體的識別能力,加快字體處理速度。
[1] Find-your-font in large font databases, SolliM Lenz R. , Proceedings of the 15th Scandinavian Conference on Image analysis. Aalborg, Denmark,2007: 432–441.
[2] The snippet statistics of font recognition,Lidke J, Thurau C, Bauckhage C. , 20th International Conference on Pattern Recognition.Istanbul, 2010:1868–1871.
[3]金立左,夏良正,楊世周. 圖象分割的自適應模糊閾值法,中國圖象圖形學報,2000(5).
[4]改進的自適應中值濾波算法,黃寶貴 盧振泰 馬春梅趙景秀,計算機應用,2011(7).
[5]周瑜,劉俊濤,白翔.形狀匹配方法研究與展望,自動化學報,2012(6).
[6]羅三定,譚曉東.圖像分割中最佳閾值集的選擇與評測,計算機與信息技術,2007(6).