東巴象形文字基礎(chǔ)分類算法研究

2019-12-12 06:05:16楊玉婷康厚良

軟件導(dǎo)刊 2019年11期

楊玉婷康厚良

摘要：從構(gòu)字結(jié)構(gòu)要素分析東巴象形文字，可分為單素字和復(fù)素字兩類，而單素字又可進(jìn)一步分為輪廓型和結(jié)構(gòu)型兩種。使用分類算法實(shí)現(xiàn)不同類型東巴文字的自動(dòng)分離，有利于獨(dú)立研究輪廓型、結(jié)構(gòu)型單素字及復(fù)素字，提取同類文字的本質(zhì)特征及不同類型文字間的特征差異。從東巴文字的構(gòu)字結(jié)構(gòu)要素出發(fā)，給出了適用于東巴象形文字自動(dòng)分類的預(yù)處理和分類算法。該算法能實(shí)現(xiàn)單素字和復(fù)素字的分離，還能實(shí)現(xiàn)對(duì)單素字中輪廓型和結(jié)構(gòu)型單素字的完全分離。通過(guò)實(shí)驗(yàn)對(duì)算法的準(zhǔn)確性進(jìn)行了驗(yàn)證。

關(guān)鍵詞：東巴象形文字;自動(dòng)分類算法;文字構(gòu)字結(jié)構(gòu);文字形態(tài);文字結(jié)構(gòu)

0 引言

東巴文是一種十分原始的圖畫(huà)象形文字，納西語(yǔ)稱“森究魯究”，直譯為“留在木石上的印跡”[1-3]。納西東巴象形文字作為人類早期的一種圖畫(huà)文字向象形文字、標(biāo)音文字過(guò)渡的文字形式，既具有圖畫(huà)文字以圖表意的特點(diǎn)，又具有象形文字中象形、會(huì)意、指事、形聲的功能[4-6]，2003年，使用東巴文撰寫(xiě)的東巴古籍被聯(lián)合國(guó)教科文組織列入世界記憶遺產(chǎn)名錄[7]。

東巴象形文字既具有圖畫(huà)文字以圖表意的特征，又具有現(xiàn)代文字使用線條表達(dá)含義的特點(diǎn)，東巴字的處理過(guò)程無(wú)法直接使用手寫(xiě)漢字研究成果[8-10]，很難直接使用計(jì)算機(jī)視覺(jué)形狀處理方法[11-13]。因此，對(duì)東巴象形文字圖片的處理及文字識(shí)別異常困難。

字素作為組成東巴文字形、音、義相統(tǒng)一的最小構(gòu)字單位，具有明顯的圖畫(huà)性特征[14]。基于東巴文字的構(gòu)字結(jié)構(gòu)要素分析，可分為單素字和復(fù)素字兩類。單素字指能夠直接顯示音義的獨(dú)立文字，復(fù)素字指由兩個(gè)或兩個(gè)以上字素構(gòu)成的文字，通過(guò)多個(gè)字素共同表示音義[15-16]，單素字還可進(jìn)一步分為輪廓型和結(jié)構(gòu)型單素字，如表1所示。

當(dāng)前對(duì)東巴文字的研究大多是利用現(xiàn)有算法直接提取文字的抽象特征，未能結(jié)合東巴文字本身的結(jié)構(gòu)和形態(tài)[17-19]。因此，使用分類算法實(shí)現(xiàn)東巴文字中不同形態(tài)文字的自動(dòng)分離，有利于獨(dú)立研究輪廓型、結(jié)構(gòu)型單素字及復(fù)素字的形態(tài)與結(jié)構(gòu)，提取同類文字的本質(zhì)特征，分析不同類型文字間的特征差異，為東巴文字識(shí)別奠定基礎(chǔ)，也為研究東巴文字的造字法提供技術(shù)支持。

1 東巴象形文字分類

1.1 單素字與復(fù)素字分類

復(fù)素字構(gòu)成方法主要包括3種：①在單素字基礎(chǔ)上通過(guò)綴加元素的方式構(gòu)成復(fù)素字;②使用兩個(gè)或兩個(gè)以上字素構(gòu)成復(fù)素字;③通過(guò)使用多個(gè)單素字并綴加不同元素的方式構(gòu)成復(fù)素字[20]，如表2所示。一般地，對(duì)于使用第1種方式構(gòu)成的復(fù)素字，若通過(guò)在單素字基礎(chǔ)上綴加點(diǎn)得到，則仍將它視為單素字。這是因?yàn)榫Y加點(diǎn)會(huì)對(duì)東巴字的實(shí)際分類過(guò)程產(chǎn)生較大干擾，但對(duì)研究東巴文字的構(gòu)成不會(huì)有太大幫助。

圖1顯示了復(fù)素字中各組成元素的分割效果。由于單素字是不能再分割的文字，即使分割后，單素字所包含的組成元素仍然只有1個(gè)。因此，通過(guò)統(tǒng)計(jì)分割后東巴字中所包含的離散組成元素的總數(shù)量，即可快速分離單素字和復(fù)素字。

1.2 輪廓型單素字與結(jié)構(gòu)型單素字分類

在單素字中，輪廓型字素通過(guò)臨摹物體的外在輪廓形狀表達(dá)實(shí)際含義，以其外在輪廓特征反映文字本質(zhì)，一般包含完整的字符輪廓;而結(jié)構(gòu)型字素使用簡(jiǎn)單的字符筆劃，通過(guò)描繪事物的結(jié)構(gòu)表達(dá)含義，事物的結(jié)構(gòu)或骨架特征顯著，但沒(méi)有明顯的輪廓特征。因此，使用字符的外在輪廓描述輪廓型字素特征，而使用字符結(jié)構(gòu)或骨架描述結(jié)構(gòu)型字素特征。

顯然，輪廓型字素特征曲線是字符的外圍輪廓，而結(jié)構(gòu)型字素的特征曲線是字符中的字符骨架。因此，要區(qū)分兩類字素，可通過(guò)填充字符特征曲線，然后利用粗網(wǎng)格法比較兩者面積進(jìn)行區(qū)分。

1.2.1 東巴文字特征曲線提取

采用Prewitt算子實(shí)現(xiàn)東巴文字的特征曲線提取效果如圖2所示。其中，由于東巴法師書(shū)寫(xiě)東巴文一般使用竹筆，竹筆屬于硬筆的一種，使得東巴字的筆畫(huà)線條粗細(xì)基本一致。因此，首先細(xì)化文字筆畫(huà)，去除文字中潛在的干擾成份，然后去除字符中所包含的綴加點(diǎn)元素，減少綴加元素對(duì)提取文字特征所產(chǎn)生的干擾，最后采用Prewitt算子提取文字的特征曲線。

1.2.2 字符填充及比較

通過(guò)填充可進(jìn)一步增強(qiáng)結(jié)構(gòu)型單素字和輪廓型單素字之間的差異性，圖2顯示了兩種不同類型單素字的填充效果。有的文字由于閉合性不好，雖然也屬于輪廓型單素字，卻無(wú)法直接提取出完整的字符輪廓。為實(shí)現(xiàn)字符輪廓的有效提取，需結(jié)合形態(tài)學(xué)圖像處理技術(shù)，具體步驟如下：①讀取字符，對(duì)字符圖像進(jìn)行二值化、細(xì)化字符線條、去除字符中干擾點(diǎn)等操作;②采用Sobel算子實(shí)現(xiàn)邊緣處理，通過(guò)膨脹操作填補(bǔ)邊緣縫隙。其中，Sobel算子與Prewitt算子類似，區(qū)別僅在于選用的模板不同;③膨脹后的圖像能夠精確顯示字符的外圍輪廓，但為了突出輪廓型字素的特征曲線，需進(jìn)一步填充字符中的孔隙;④利用菱形結(jié)構(gòu)元素對(duì)填充后的圖像進(jìn)行平滑處理，并采用Prewitt算子提取字符的輪廓曲線。

輪廓曲線提取效果如圖3所示。與直接使用庫(kù)函數(shù)提取輪廓曲線相比，本方法通過(guò)膨脹、填充和平滑等操作，能夠得到更加準(zhǔn)確的字符輪廓曲線。

1.2.3 面積比分類法

分析圖3中各階段的處理效果可知，結(jié)構(gòu)型單素字所提取的輪廓與細(xì)化結(jié)果是相同的，而輪廓型單素字在細(xì)化后得到的是字符的外在輪廓曲線。因此，填充輪廓曲線后，兩類單素字將呈現(xiàn)出明顯的差異性。由此，通過(guò)比較字符綁定矩形中表示字符線條的像素點(diǎn)所占的比例，即可快速實(shí)現(xiàn)兩種類型東巴單素字的分離，具體步驟如下：①計(jì)算單素字的外接矩形;②計(jì)算填充圖中表示文字筆畫(huà)的像素點(diǎn)總數(shù);③計(jì)算文字線條像素點(diǎn)占字符外接矩形總像素點(diǎn)的比例;④若比例大于等于60%則單素字為輪廓型，否則為結(jié)構(gòu)型。

2 實(shí)驗(yàn)

使用分類算法對(duì)東巴字庫(kù)中的1 588個(gè)東巴字進(jìn)行分類，得出單素字966個(gè)，復(fù)素字622個(gè)。在單素字中，結(jié)構(gòu)型單素字518個(gè)，輪廓型單素字438個(gè)，具有爭(zhēng)議性的單素字10個(gè)，這10個(gè)單素字由于文字本身的特點(diǎn)導(dǎo)致文字被錯(cuò)誤歸類，具體如表3所示。由此可知，單素字和復(fù)素字的分類準(zhǔn)確率為100%，而結(jié)構(gòu)型單素字和輪廓型單素字的分類準(zhǔn)確率為98.996%。

3 結(jié)語(yǔ)

對(duì)東巴象形文字中不同類型文字的初步分離是東巴文字研究的基礎(chǔ)性工作。通過(guò)文字的初步分類，使后續(xù)研究能更加突出不同類型文字的本質(zhì)特征，為實(shí)現(xiàn)東巴文字的檢索和識(shí)別研究奠定基礎(chǔ)，同時(shí)也為研究東巴文字的組合特性，分析單素字、復(fù)素字的造字方法及文字的演化過(guò)程提供重要的技術(shù)分析手段，為其它象形文字的研究提供參考。

參考文獻(xiàn)：

[1] 和力民. 試論東巴文化的傳承[J]. 云南社會(huì)科學(xué)， 2004 （1）： 83-87.

[2] 和金光. 納西族東巴文化研究發(fā)展趨勢(shì)[J]. 云南民族大學(xué)學(xué)報(bào)：哲學(xué)社會(huì)科學(xué)版，2007，24（1）： 81-84.

[3] 戈阿干. 東巴文化攬勝[J]. 民族藝術(shù)研究，1999 （2）： 71-80.

[4] 和志武. 試論納西象形文的特點(diǎn)——兼論原始圖畫(huà)文字、象形文字和表意文字的區(qū)別[J]. 云南社會(huì)科學(xué)，1982（3）：71-82.

[5] 方國(guó)瑜，和志武. 納西象形文字譜[M]. 昆明：云南人民出版社， 2005.

[6] ROCK J F. Na Khi English EncclopedicDictionary（Part I）[M]. Roma： Roma IstitutoItaliano Peril Medio edEstremePrientale， 1963.

[7] 李霖燦. 納西族象形標(biāo)音文字字典[M]. 昆明：云南民族出版社， 2001.

[8] 趙繼印，鄭蕊蕊. 脫機(jī)手寫(xiě)體漢字識(shí)別綜述[J]. 電子學(xué)報(bào)， 2010， 38（2）：405-415.

[9] 丁曉青. 漢字識(shí)別研究的回顧[J]. 電子學(xué)報(bào)，2002，30（9）：1364-1368.

[10] 高彥宇，楊揚(yáng). 脫機(jī)手寫(xiě)體漢字識(shí)別研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用，2004， 40（7）：74-77.

[11] YANG M， KPALMA K， RONSINA J. Survey of shape feature extraction techniques[J]. Pattern Recognition Techniques，Technology and Applications， 2007（11）： 1-39.

[12] 周瑜，劉俊濤，白翔. 形狀匹配方法研究與展望[J]. 自動(dòng)化學(xué)報(bào)， 2012，38（6）：889-910.

[13] SUZUKI K，HORIBA I，SUGIE N. Linear-time connected component labeling based on sequential local operations[J]. Computer Vision and Image Understanding，2003，89（1）：1-23.

[14] 王元鹿. 漢古文字與納西東巴文字研究[M]. 上海：華東師范大學(xué)出版社，1998.

[15] 鄭飛洲. 納西東巴文字字素研究[D]. 上海：華東師范大學(xué)，2003.

[16] 鄭飛洲. 納西東巴文字字素研究[M]. 北京：民族出版社，2005： 1-230.

[17] GUO H，ZHAO J Y，DA M J， et al. NaXi pictographs edge detection using lifting wavelet transform[J]. Journal of Convergence Information Technology，2010，5（5）： 203-210.

[18] 楊萌，徐小力，吳國(guó)新，等. 東巴象形文字識(shí)別方法[J]. 北京信息科技大學(xué)學(xué)報(bào)，2014， 29（3）：72-76.

[19] 王海燕，王紅軍，徐小力. 基于支持向量機(jī)的納西東巴象形文字符識(shí)別[J]. 云南大學(xué)學(xué)報(bào)：自然科學(xué)版，2016，38（5）：730-736.

[20] 胡瑞波. 納西族東巴象形文字字體構(gòu)造研究[J]. 鄭州輕工業(yè)學(xué)院學(xué)報(bào)：社會(huì)科學(xué)版，2013，14（2）：94-100.

（責(zé)任編輯：杜能鋼）

軟件導(dǎo)刊2019年11期

軟件導(dǎo)刊的其它文章: 考慮鳴笛效應(yīng)的混合非機(jī)動(dòng)車(chē)建模及仿真; 教育游戲化黏性分析; 人工智能時(shí)代下教師親和力探究; 大數(shù)據(jù)時(shí)代下慕課發(fā)展與思考; 新工科背景下高職計(jì)算機(jī)類專業(yè)建設(shè)研究; STEAM教育視角下教師素養(yǎng)及提升路徑研究