摘 要 彝文信息處理涵蓋了字、詞、短語(yǔ)、句子、篇章等多層面的信息加工處理。當(dāng)前的彝文信息處理的主要任務(wù)已從“字處理”過(guò)渡到了“詞處理”。而在“詞處理”領(lǐng)域,自動(dòng)分詞技術(shù)的實(shí)現(xiàn)是其他一切技術(shù)實(shí)現(xiàn)的前提,是基礎(chǔ)中的基礎(chǔ)。彝文自動(dòng)分詞系統(tǒng)的實(shí)現(xiàn),標(biāo)志著彝文信息處理技術(shù)的一大進(jìn)步。
關(guān)鍵詞 彝文分詞 實(shí)現(xiàn)
一、彝文自身的特點(diǎn)與實(shí)現(xiàn)自動(dòng)分詞的難點(diǎn)分析
信息處理用彝文文本是由連續(xù)的字符組成的,中間沒(méi)有空格。綜觀彝文自身的特點(diǎn)與現(xiàn)階段計(jì)算語(yǔ)言學(xué)在自動(dòng)分詞上的研究,彝文自動(dòng)分詞研究主要存在以下兩方面的困難。
第一、語(yǔ)言學(xué)上的困難:
1、對(duì)詞的定義的不統(tǒng)一性。“最小的能夠獨(dú)立應(yīng)用的語(yǔ)言單位”是漢語(yǔ)語(yǔ)言學(xué)界對(duì)詞的形式定義。而對(duì)詞的具體界定一直飄忽不定,至今沒(méi)有一個(gè)公認(rèn)的、具有權(quán)威性的詞表。彝文同樣存在這個(gè)困難:不僅沒(méi)有統(tǒng)一的、嚴(yán)格的非形式定義,對(duì)形式或抽象定義都還存在一定的問(wèn)題。導(dǎo)致這個(gè)困難一方面是單字詞與語(yǔ)素之間的劃界,另一方面是詞與短語(yǔ)(詞組)的劃界。如:
名詞+名詞結(jié)構(gòu)的:(花草)、(水木);
形容詞+形容詞結(jié)構(gòu)的:(合適)、(美好);
形容詞+名詞結(jié)構(gòu)的:(小學(xué))、(謊言);
名詞+形容詞結(jié)構(gòu)的:(糟糕)、(精明人);
名詞+動(dòng)詞結(jié)構(gòu)的:(有狗)、(殺牛);
形容詞+否定詞結(jié)構(gòu)的:(能干的人)——(不能干的人);
動(dòng)詞+補(bǔ)語(yǔ)+否定結(jié)構(gòu)的:(打死)——(別打死)等。
2、彝文分詞還沒(méi)有形成一個(gè)公認(rèn)的分詞標(biāo)準(zhǔn),同一文本可能被不同的人劃分為幾種不同的結(jié)果。
如“(不該爭(zhēng)而爭(zhēng),爭(zhēng)蕎餅熟不熟,爭(zhēng)酸湯溫不溫)”的分詞結(jié)果一:;分詞結(jié)果二:;分詞結(jié)果三:;等。
3、彝文中有大量“”(爾比),即諺語(yǔ)、成語(yǔ)、俗語(yǔ)、格言、典故、熟語(yǔ)等之意。其結(jié)構(gòu)緊密,語(yǔ)言精湛,語(yǔ)義完整。“爾比”中的許多字符可以單獨(dú)切分為詞,也可以與其他字符或字符串組成詞,在彝文分詞上體現(xiàn)出一定的復(fù)雜性。如: “”(“有父之女顯高貴,有兄弟之姐妹顯漂亮”)等。
第二、計(jì)算機(jī)方面的困難:
1、沒(méi)有合理的自然語(yǔ)言處理模型。
從目前漢語(yǔ)分詞的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng)的研發(fā)仍是今后較長(zhǎng)時(shí)期內(nèi)努力的目標(biāo)。彝文自動(dòng)分詞技術(shù)的研究尚處在起步階段,沒(méi)有任何關(guān)于彝文語(yǔ)言模型理論或?qū)嵺`的參考。
2、沒(méi)有有效利用和表示分詞所需的語(yǔ)法知識(shí)和語(yǔ)義知識(shí)。
對(duì)任何一門語(yǔ)言的信息處理,都不是單純意義上的語(yǔ)言學(xué)研究。信息處理在自動(dòng)分詞上的研究還廣泛涉及到計(jì)算機(jī)科學(xué)、信息科學(xué)、系統(tǒng)論、控制論、心理學(xué)、數(shù)學(xué)、自動(dòng)化技術(shù)、人工智能等。
3、歧義切分和未登錄詞
在漢語(yǔ)分詞過(guò)程中,有兩大難題一直沒(méi)突破,即是歧義切分的消除和未登錄詞的識(shí)別。這兩大難題在彝文分詞領(lǐng)域同樣存在。
彝文分詞歧義。如:“”中“”(“今天”)、“”(“沒(méi)有”)、“”(“咦”)、“”(“沒(méi)關(guān)系”)都是詞,這個(gè)短語(yǔ)就可以切分成“”和“”;等等。
彝文分詞中的未登錄詞,其最典型的是人名,如“(阿卓)” “(吾嘎)”等。未登錄詞除了人名外,還包括地名、產(chǎn)品名、機(jī)構(gòu)名、商標(biāo)名、簡(jiǎn)稱略語(yǔ)、網(wǎng)絡(luò)新詞等。如:地名“”(“雙流”);產(chǎn)品名“”(“泡泡糖”)、;機(jī)構(gòu)名“”(“美姑畢摩文化研究所”)、;簡(jiǎn)稱略語(yǔ) “”(涼山州);網(wǎng)絡(luò)新詞“GG”(“哥哥”)、等。
二、彝文分詞系統(tǒng)設(shè)計(jì)原則
基于既定詞表的彝文分詞系統(tǒng)的設(shè)計(jì)應(yīng)遵循準(zhǔn)確、高效、適用及可維護(hù)的原則。現(xiàn)分別描述如下:
準(zhǔn)確性:分詞的準(zhǔn)確率是衡量一個(gè)系統(tǒng)性能的最重要的指標(biāo),它直接反映的是分詞系統(tǒng)的正確性和科學(xué)性。由于彝文分詞過(guò)程的復(fù)雜性,要做到完全精準(zhǔn)的切分是不可能的,我們只有不斷發(fā)現(xiàn)和應(yīng)用新的技術(shù)來(lái)提高分詞系統(tǒng)的準(zhǔn)確性。
高效性:高效性是衡量一個(gè)分詞系統(tǒng)性能的重要指標(biāo),它直接反映的是分詞系統(tǒng)的切分速度。從現(xiàn)階段的理論和技術(shù)看,提高現(xiàn)有各語(yǔ)種分詞系統(tǒng)的切分速度相對(duì)于提高其準(zhǔn)確性要容易的多。
適用性:彝文自動(dòng)分詞系統(tǒng)的開(kāi)發(fā)只是手段而非目的,其目的應(yīng)該是服務(wù)于某個(gè)具體的應(yīng)用。
可維護(hù)性:彝文自動(dòng)分詞系統(tǒng)是其他各種高層次彝文信息處理技術(shù)的共同基礎(chǔ),因而必須具有良好的可維護(hù)性。如按實(shí)際需要對(duì)分詞詞表補(bǔ)充新詞,刪除過(guò)時(shí)詞匯,修改錯(cuò)誤詞匯等。
三、系統(tǒng)結(jié)構(gòu)
基于既定詞表的彝文分詞系統(tǒng)結(jié)構(gòu)包括認(rèn)字、斷句、認(rèn)詞、分詞、詞表的維護(hù)等幾個(gè)部分。現(xiàn)分別作具體的說(shuō)明:
1、認(rèn)字:系統(tǒng)對(duì)所輸入的文本進(jìn)行字體上的識(shí)別。
2、斷句:對(duì)輸入的文本進(jìn)行斷句處理。
3、認(rèn)詞:系統(tǒng)對(duì)輸入的文本與對(duì)應(yīng)既定的詞表進(jìn)行認(rèn)詞的功能。
4、分詞:系統(tǒng)完成對(duì)所輸入的文本的分詞并輸出結(jié)構(gòu)。
5、詞表的維護(hù):管理員對(duì)詞表進(jìn)行添加、刪除等多種方式的維護(hù)和管理,并提供詞頻統(tǒng)計(jì)以及詞表的導(dǎo)入、導(dǎo)出等功能。
四、系統(tǒng)實(shí)現(xiàn)及性能評(píng)價(jià)
彝文的分詞系統(tǒng)使用VC++語(yǔ)言編程,采用Microsoft基礎(chǔ)類庫(kù)(MFC)的方式實(shí)現(xiàn)。這樣建立的應(yīng)用程序更加符合面向?qū)ο蟮乃枷耄饶鼙WC分詞的高效率,又能保持源代碼的穩(wěn)定性。本系統(tǒng)是對(duì)彝文自動(dòng)分詞技術(shù)的一次嘗試性探索,其分詞準(zhǔn)確率和切分速度都比較令人滿意。操作簡(jiǎn)單方便,易于更新和移植,良好的可擴(kuò)展性是本系統(tǒng)的特點(diǎn)。但對(duì)未登錄詞的識(shí)別和歧義現(xiàn)象的處理有待于進(jìn)一步加強(qiáng)和完善。
項(xiàng)目成果: 《信息處理用彝文分詞規(guī)范研究》 項(xiàng)目編號(hào): 12SZYQN37
參考文獻(xiàn):
[1]沙馬拉毅.計(jì)算機(jī)彝文信息處理[M].四川民族出版社,2000.
[2]黃建明.彝文文字學(xué)[M].民族出版社,2003.
[3]孔祥卿.彝文的源流[M].民族出版社,2005.