楊玉婷 康厚良



摘 要:從構(gòu)字結(jié)構(gòu)要素分析東巴象形文字,可分為單素字和復(fù)素字兩類,而單素字又可進(jìn)一步分為輪廓型和結(jié)構(gòu)型兩種。使用分類算法實(shí)現(xiàn)不同類型東巴文字的自動(dòng)分離,有利于獨(dú)立研究輪廓型、結(jié)構(gòu)型單素字及復(fù)素字,提取同類文字的本質(zhì)特征及不同類型文字間的特征差異。從東巴文字的構(gòu)字結(jié)構(gòu)要素出發(fā),給出了適用于東巴象形文字自動(dòng)分類的預(yù)處理和分類算法。該算法能實(shí)現(xiàn)單素字和復(fù)素字的分離,還能實(shí)現(xiàn)對(duì)單素字中輪廓型和結(jié)構(gòu)型單素字的完全分離。通過(guò)實(shí)驗(yàn)對(duì)算法的準(zhǔn)確性進(jìn)行了驗(yàn)證。
關(guān)鍵詞:東巴象形文字;自動(dòng)分類算法;文字構(gòu)字結(jié)構(gòu);文字形態(tài);文字結(jié)構(gòu)
0 引言
東巴文是一種十分原始的圖畫(huà)象形文字,納西語(yǔ)稱“森究魯究”,直譯為“留在木石上的印跡”[1-3]。納西東巴象形文字作為人類早期的一種圖畫(huà)文字向象形文字、標(biāo)音文字過(guò)渡的文字形式,既具有圖畫(huà)文字以圖表意的特點(diǎn),又具有象形文字中象形、會(huì)意、指事、形聲的功能[4-6],2003年,使用東巴文撰寫(xiě)的東巴古籍被聯(lián)合國(guó)教科文組織列入世界記憶遺產(chǎn)名錄[7]。
東巴象形文字既具有圖畫(huà)文字以圖表意的特征,又具有現(xiàn)代文字使用線條表達(dá)含義的特點(diǎn),東巴字的處理過(guò)程無(wú)法直接使用手寫(xiě)漢字研究成果[8-10],很難直接使用計(jì)算機(jī)視覺(jué)形狀處理方法[11-13]。因此,對(duì)東巴象形文字圖片的處理及文字識(shí)別異常困難。
字素作為組成東巴文字形、音、義相統(tǒng)一的最小構(gòu)字單位,具有明顯的圖畫(huà)性特征[14]。基于東巴文字的構(gòu)字結(jié)構(gòu)要素分析,可分為單素字和復(fù)素字兩類。單素字指能夠直接顯示音義的獨(dú)立文字,復(fù)素字指由兩個(gè)或兩個(gè)以上字素構(gòu)成的文字,通過(guò)多個(gè)字素共同表示音義[15-16],單素字還可進(jìn)一步分為輪廓型和結(jié)構(gòu)型單素字,如表1所示。
當(dāng)前對(duì)東巴文字的研究大多是利用現(xiàn)有算法直接提取文字的抽象特征,未能結(jié)合東巴文字本身的結(jié)構(gòu)和形態(tài)[17-19]。因此,使用分類算法實(shí)現(xiàn)東巴文字中不同形態(tài)文字的自動(dòng)分離,有利于獨(dú)立研究輪廓型、結(jié)構(gòu)型單素字及復(fù)素字的形態(tài)與結(jié)構(gòu),提取同類文字的本質(zhì)特征,分析不同類型文字間的特征差異,為東巴文字識(shí)別奠定基礎(chǔ),也為研究東巴文字的造字法提供技術(shù)支持。
1 東巴象形文字分類
1.1 單素字與復(fù)素字分類
復(fù)素字構(gòu)成方法主要包括3種:①在單素字基礎(chǔ)上通過(guò)綴加元素的方式構(gòu)成復(fù)素字;②使用兩個(gè)或兩個(gè)以上字素構(gòu)成復(fù)素字;③通過(guò)使用多個(gè)單素字并綴加不同元素的方式構(gòu)成復(fù)素字[20],如表2所示。一般地,對(duì)于使用第1種方式構(gòu)成的復(fù)素字,若通過(guò)在單素字基礎(chǔ)上綴加點(diǎn)得到,則仍將它視為單素字。這是因?yàn)榫Y加點(diǎn)會(huì)對(duì)東巴字的實(shí)際分類過(guò)程產(chǎn)生較大干擾,但對(duì)研究東巴文字的構(gòu)成不會(huì)有太大幫助。
圖1顯示了復(fù)素字中各組成元素的分割效果。由于單素字是不能再分割的文字,即使分割后,單素字所包含的組成元素仍然只有1個(gè)。因此,通過(guò)統(tǒng)計(jì)分割后東巴字中所包含的離散組成元素的總數(shù)量,即可快速分離單素字和復(fù)素字。
1.2 輪廓型單素字與結(jié)構(gòu)型單素字分類
在單素字中,輪廓型字素通過(guò)臨摹物體的外在輪廓形狀表達(dá)實(shí)際含義,以其外在輪廓特征反映文字本質(zhì),一般包含完整的字符輪廓;而結(jié)構(gòu)型字素使用簡(jiǎn)單的字符筆劃,通過(guò)描繪事物的結(jié)構(gòu)表達(dá)含義,事物的結(jié)構(gòu)或骨架特征顯著,但沒(méi)有明顯的輪廓特征。因此,使用字符的外在輪廓描述輪廓型字素特征,而使用字符結(jié)構(gòu)或骨架描述結(jié)構(gòu)型字素特征。
顯然,輪廓型字素特征曲線是字符的外圍輪廓,而結(jié)構(gòu)型字素的特征曲線是字符中的字符骨架。因此,要區(qū)分兩類字素,可通過(guò)填充字符特征曲線,然后利用粗網(wǎng)格法比較兩者面積進(jìn)行區(qū)分。
1.2.1 東巴文字特征曲線提取
采用Prewitt算子實(shí)現(xiàn)東巴文字的特征曲線提取效果如圖2所示。其中,由于東巴法師書(shū)寫(xiě)東巴文一般使用竹筆,竹筆屬于硬筆的一種,使得東巴字的筆畫(huà)線條粗細(xì)基本一致。因此,首先細(xì)化文字筆畫(huà),去除文字中潛在的干擾成份,然后去除字符中所包含的綴加點(diǎn)元素,減少綴加元素對(duì)提取文字特征所產(chǎn)生的干擾,最后采用Prewitt算子提取文字的特征曲線。
1.2.2 字符填充及比較
通過(guò)填充可進(jìn)一步增強(qiáng)結(jié)構(gòu)型單素字和輪廓型單素字之間的差異性,圖2顯示了兩種不同類型單素字的填充效果。有的文字由于閉合性不好,雖然也屬于輪廓型單素字,卻無(wú)法直接提取出完整的字符輪廓。為實(shí)現(xiàn)字符輪廓的有效提取,需結(jié)合形態(tài)學(xué)圖像處理技術(shù),具體步驟如下:①讀取字符,對(duì)字符圖像進(jìn)行二值化、細(xì)化字符線條、去除字符中干擾點(diǎn)等操作;②采用Sobel算子實(shí)現(xiàn)邊緣處理,通過(guò)膨脹操作填補(bǔ)邊緣縫隙。其中,Sobel算子與Prewitt算子類似,區(qū)別僅在于選用的模板不同;③膨脹后的圖像能夠精確顯示字符的外圍輪廓,但為了突出輪廓型字素的特征曲線,需進(jìn)一步填充字符中的孔隙;④利用菱形結(jié)構(gòu)元素對(duì)填充后的圖像進(jìn)行平滑處理,并采用Prewitt算子提取字符的輪廓曲線。
輪廓曲線提取效果如圖3所示。與直接使用庫(kù)函數(shù)提取輪廓曲線相比,本方法通過(guò)膨脹、填充和平滑等操作,能夠得到更加準(zhǔn)確的字符輪廓曲線。
1.2.3 面積比分類法
分析圖3中各階段的處理效果可知,結(jié)構(gòu)型單素字所提取的輪廓與細(xì)化結(jié)果是相同的,而輪廓型單素字在細(xì)化后得到的是字符的外在輪廓曲線。因此,填充輪廓曲線后,兩類單素字將呈現(xiàn)出明顯的差異性。由此,通過(guò)比較字符綁定矩形中表示字符線條的像素點(diǎn)所占的比例,即可快速實(shí)現(xiàn)兩種類型東巴單素字的分離,具體步驟如下:①計(jì)算單素字的外接矩形;②計(jì)算填充圖中表示文字筆畫(huà)的像素點(diǎn)總數(shù);③計(jì)算文字線條像素點(diǎn)占字符外接矩形總像素點(diǎn)的比例;④若比例大于等于60%則單素字為輪廓型,否則為結(jié)構(gòu)型。
2 實(shí)驗(yàn)
使用分類算法對(duì)東巴字庫(kù)中的1 588個(gè)東巴字進(jìn)行分類,得出單素字966個(gè),復(fù)素字622個(gè)。在單素字中,結(jié)構(gòu)型單素字518個(gè),輪廓型單素字438個(gè),具有爭(zhēng)議性的單素字10個(gè),這10個(gè)單素字由于文字本身的特點(diǎn)導(dǎo)致文字被錯(cuò)誤歸類,具體如表3所示。由此可知,單素字和復(fù)素字的分類準(zhǔn)確率為100%,而結(jié)構(gòu)型單素字和輪廓型單素字的分類準(zhǔn)確率為98.996%。
3 結(jié)語(yǔ)
對(duì)東巴象形文字中不同類型文字的初步分離是東巴文字研究的基礎(chǔ)性工作。通過(guò)文字的初步分類,使后續(xù)研究能更加突出不同類型文字的本質(zhì)特征,為實(shí)現(xiàn)東巴文字的檢索和識(shí)別研究奠定基礎(chǔ),同時(shí)也為研究東巴文字的組合特性,分析單素字、復(fù)素字的造字方法及文字的演化過(guò)程提供重要的技術(shù)分析手段,為其它象形文字的研究提供參考。
參考文獻(xiàn):
[1] 和力民. 試論東巴文化的傳承[J]. 云南社會(huì)科學(xué), 2004 (1): 83-87.
[2] 和金光. 納西族東巴文化研究發(fā)展趨勢(shì)[J]. 云南民族大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2007,24(1): 81-84.
[3] 戈阿干. 東巴文化攬勝[J]. 民族藝術(shù)研究,1999 (2): 71-80.
[4] 和志武. 試論納西象形文的特點(diǎn)——兼論原始圖畫(huà)文字、象形文字和表意文字的區(qū)別[J]. 云南社會(huì)科學(xué),1982(3):71-82.
[5] 方國(guó)瑜, 和志武. 納西象形文字譜[M]. 昆明:云南人民出版社, 2005.
[6] ROCK J F. Na Khi English EncclopedicDictionary(Part I)[M]. Roma: Roma IstitutoItaliano Peril Medio edEstremePrientale, 1963.
[7] 李霖燦. 納西族象形標(biāo)音文字字典[M]. 昆明:云南民族出版社, 2001.
[8] 趙繼印,鄭蕊蕊. 脫機(jī)手寫(xiě)體漢字識(shí)別綜述[J]. 電子學(xué)報(bào), 2010, 38(2):405-415.
[9] 丁曉青. 漢字識(shí)別研究的回顧[J]. 電子學(xué)報(bào),2002,30(9):1364-1368.
[10] 高彥宇,楊揚(yáng). 脫機(jī)手寫(xiě)體漢字識(shí)別研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2004, 40(7):74-77.
[11] YANG M, KPALMA K, RONSINA J. Survey of shape feature extraction techniques[J]. Pattern Recognition Techniques,Technology and Applications, 2007(11): 1-39.
[12] 周瑜,劉俊濤,白翔. 形狀匹配方法研究與展望[J]. 自動(dòng)化學(xué)報(bào), 2012,38(6):889-910.
[13] SUZUKI K,HORIBA I,SUGIE N. Linear-time connected component labeling based on sequential local operations[J]. Computer Vision and Image Understanding,2003,89(1):1-23.
[14] 王元鹿. 漢古文字與納西東巴文字研究[M]. 上海:華東師范大學(xué)出版社,1998.
[15] 鄭飛洲. 納西東巴文字字素研究[D]. 上海:華東師范大學(xué),2003.
[16] 鄭飛洲. 納西東巴文字字素研究[M]. 北京:民族出版社,2005: 1-230.
[17] GUO H,ZHAO J Y,DA M J, et al. NaXi pictographs edge detection using lifting wavelet transform[J]. Journal of Convergence Information Technology,2010,5(5): 203-210.
[18] 楊萌,徐小力,吳國(guó)新,等. 東巴象形文字識(shí)別方法[J]. 北京信息科技大學(xué)學(xué)報(bào),2014, 29(3):72-76.
[19] 王海燕,王紅軍,徐小力. 基于支持向量機(jī)的納西東巴象形文字符識(shí)別[J]. 云南大學(xué)學(xué)報(bào):自然科學(xué)版,2016,38(5):730-736.
[20] 胡瑞波. 納西族東巴象形文字字體構(gòu)造研究[J]. 鄭州輕工業(yè)學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2013,14(2):94-100.
(責(zé)任編輯:杜能鋼)