西藏自治區(qū)昌都市洛隆縣初級(jí)中學(xué)
【摘 要】藏文分詞是藏文信息處理領(lǐng)域的一項(xiàng)不可缺少的基礎(chǔ)性工作,也是智能化藏文信息處理的關(guān)鍵所在。在藏文分詞的研究過(guò)程中藏文分詞的準(zhǔn)確性,直接制約著藏文輸入法研究、藏文電子詞典建設(shè)、藏文詞頻統(tǒng)計(jì)、搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)、機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)、藏文語(yǔ)料庫(kù)建設(shè)以及藏語(yǔ)語(yǔ)義分析研究等高層藏文信息處理技術(shù)的進(jìn)一步發(fā)展。本文借鑒漢語(yǔ)的分詞理論和方法,提出符合藏文特性的分詞方法,以及歧義字段切分和未登錄詞識(shí)別等相關(guān)問(wèn)題,并舉例說(shuō)明。
【關(guān)鍵詞】信息處理 藏文分詞 分詞方法
藏文分詞是藏文信息處理中一項(xiàng)不可缺少的基礎(chǔ)性工作。從文本的輸入系統(tǒng)(如智能語(yǔ)句輸入法、語(yǔ)音輸入、手寫輸入),到文字處理(如文本校對(duì))以及語(yǔ)音合成、文本檢索、文本分類、自然語(yǔ)言接口、自動(dòng)文摘等,無(wú)處不滲透著分詞系統(tǒng)的應(yīng)用,它是藏文信息處理重要基礎(chǔ)之一。眾所周知,英文以詞為單位,以空格隔開(kāi)。計(jì)算機(jī)可以容易地理解英文單詞。而藏文句子中,詞與詞之間沒(méi)有明顯的分隔符(如空格)。藏文以字(音節(jié)字)為單位,連字成句才能描述一個(gè)完整的意思。而對(duì)由詞組成的藏文句子,必須通過(guò)藏文分詞技術(shù)才得以理解。把藏文的音節(jié)字序列切分成有意義的詞,是藏文分詞的研究工作。通過(guò)研究和分析藏文分詞的概念以及國(guó)內(nèi)外相關(guān)成果,本文系統(tǒng)地提出了分詞系統(tǒng)中藏文分詞切分單位的劃定原則以及藏文分詞技術(shù)方法,結(jié)合藏文自然標(biāo)記斷句、以格助詞來(lái)為分塊、塊內(nèi)匹配與統(tǒng)計(jì)相結(jié)合的分詞方法,提出了藏文自動(dòng)分詞方法、格助詞的識(shí)別方法、交集型和組合型歧義的識(shí)別方法及未登錄詞識(shí)別方法。進(jìn)而提出了藏文自動(dòng)分詞的基礎(chǔ)理論知識(shí)及分詞技術(shù)方法。
一、制定藏語(yǔ)詞性標(biāo)記集規(guī)范
為了使藏文與漢文信息處理同步,建立統(tǒng)一的中文多文種信息處理平臺(tái),本項(xiàng)研究借鑒北京大學(xué)現(xiàn)代漢語(yǔ)詞類及詞性標(biāo)記集規(guī)范、語(yǔ)料庫(kù)詞性標(biāo)記集,制定了藏語(yǔ)詞性標(biāo)記集規(guī)范。
二、研究了藏文分詞的單位與原則
分詞系統(tǒng)可以面向解決實(shí)際問(wèn)題的需求和真實(shí)語(yǔ)料中使用的頻繁程度來(lái)規(guī)定“分詞單位”。
1.分詞既要符合語(yǔ)言學(xué)的一般規(guī)則,同時(shí)也要便于詞類和句法分析,不能分得過(guò)細(xì),也不能分得過(guò)粗。
2.分詞單位必須是在藏語(yǔ)言中出現(xiàn)的,而不是憑空臆造的任何字符串。
該成果采用《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》和《資訊處理用中文分詞規(guī)范》兩者之長(zhǎng),為藏文分詞單位確立兩條基本原則和諸多輔助原則。
三、藏文自動(dòng)分詞研究
(一)藏文分詞方法
1.格分析法:這是藏語(yǔ)語(yǔ)法理論體系中固有的語(yǔ)法規(guī)律,藏語(yǔ)有比較完善的形式邏輯格語(yǔ)法理論體系。格關(guān)系理論和方法可以分析藏文句子的語(yǔ)義邏輯關(guān)系;可以做格關(guān)系的逆過(guò)程,就是通過(guò)格助詞與格關(guān)系來(lái)判斷通過(guò)格切分后詞匯的準(zhǔn)確度。
2.概念層次網(wǎng)絡(luò)理論:HNC主要應(yīng)用在藏文詞匯概念的語(yǔ)義網(wǎng)絡(luò)中,藏文詞匯語(yǔ)義網(wǎng)絡(luò)用手工+統(tǒng)計(jì)的方法創(chuàng)建,其核心是聯(lián)想意義和上下位所屬關(guān)系。
3.二元屬性描寫方法。
4.匹配方法:在藏文中將格分析之后的藏語(yǔ)短語(yǔ)作為匹配的對(duì)象。根據(jù)匹配單位的需求可分為最大匹配法和最小匹配,根據(jù)消歧需求可分為正向匹配和逆向匹配等。
5.統(tǒng)計(jì)方法:主要應(yīng)用在獲取先驗(yàn)知識(shí)方面,例如,藏文大丁字符信息表、藏文音節(jié)(擦青)表,藏文各種語(yǔ)言單位的二元模型、藏文格助詞的配價(jià)概率、藏文動(dòng)詞詞表等。
(二)分詞系統(tǒng)模塊
藏文自動(dòng)分詞系統(tǒng),在基于規(guī)則和統(tǒng)計(jì)的基礎(chǔ)上,增加了聯(lián)想回溯算法,引入了句法、語(yǔ)義信息。系統(tǒng)包含預(yù)處理模塊、分割模塊、匹配識(shí)詞和規(guī)則識(shí)詞4個(gè)模塊。
1.預(yù)處理模塊:包括切分句子和語(yǔ)言分類兩個(gè)部分。切分句子是將源藏文文本語(yǔ)料依據(jù)藏文分句形態(tài)標(biāo)志信息(主要是藏文分句符號(hào))分解成相對(duì)獨(dú)立的藏文句子,這個(gè)過(guò)程要考慮英、藏、漢多語(yǔ)種混排文本,即切句要考慮多語(yǔ)言的句子邊界信息。同時(shí)要保留原始文本的所有信息,保證文本的原貌不發(fā)生變化。語(yǔ)言分類是以句子為處理單位,把句子按不同的語(yǔ)言分割成若干不同的語(yǔ)塊。在以后的處理過(guò)程中,根據(jù)不同的語(yǔ)言塊進(jìn)行處理。
2.分割模塊:以預(yù)處理后的藏文語(yǔ)塊為對(duì)象識(shí)別藏文詞。此模塊分詞邊界特征識(shí)別和改進(jìn)的算法。詞邊界特征識(shí)別是以特征詞庫(kù)中的詞作為詞切分標(biāo)志,依靠聯(lián)想規(guī)則將一個(gè)音節(jié)串語(yǔ)塊分割成更小的語(yǔ)塊,對(duì)每個(gè)特征詞建立不同的規(guī)則來(lái)處理特征詞的左右邊界。改進(jìn)的算法是依據(jù)分詞詞表將藏文語(yǔ)塊識(shí)別成詞,方法中正向和逆向合一進(jìn)行,然后判斷并確定歧義結(jié)構(gòu),將歧義結(jié)構(gòu)交付排歧模塊處理,以便修改錯(cuò)誤的分詞結(jié)果。該分詞系統(tǒng)可以對(duì)藏文文本分詞正確率已經(jīng)達(dá)到了95%以上。
(三)藏文分詞測(cè)評(píng)
1.開(kāi)放性:易擴(kuò)充性、可維護(hù)性和可移植性等特點(diǎn)。要求在開(kāi)放環(huán)境下切分精度和處理速度穩(wěn)定在實(shí)用的程度。
2.通用性:藏文自動(dòng)分詞是高層藏語(yǔ)言信息處理的共同基礎(chǔ)。分詞系統(tǒng)應(yīng)該支持不同的應(yīng)用領(lǐng)域;支持不同學(xué)科領(lǐng)域的應(yīng)用;支持不同地區(qū)的語(yǔ)言處理需要;要適應(yīng)不同地區(qū)的語(yǔ)言風(fēng)格。
3.獨(dú)立性:不同的應(yīng)用系統(tǒng)對(duì)分詞系統(tǒng)的要求不同,因此分詞系統(tǒng)要有不同的版本,系統(tǒng)內(nèi)部的各種信息資源,以及處理信息資源的各個(gè)模塊要具有較高的獨(dú)立性,方便裝入系統(tǒng)或者從系統(tǒng)中卸載,提高系統(tǒng)處理精度和處理速度。
該成果從藏文字的產(chǎn)生,藏文的文字、音節(jié)、結(jié)構(gòu)、語(yǔ)法特征,討論了藏語(yǔ)詞類劃分,詞與其語(yǔ)言單位的區(qū)別,信息處理用藏語(yǔ)詞類,藏語(yǔ)詞性標(biāo)記集,研究了藏文分詞規(guī)范的設(shè)計(jì),藏語(yǔ)分詞的基本特征,使用范圍,用途,參考標(biāo)準(zhǔn)、藏語(yǔ)分詞用術(shù)語(yǔ)、藏語(yǔ)分詞單位、藏語(yǔ)分詞原則,這些工作在國(guó)內(nèi)學(xué)術(shù)界相關(guān)研究較少。藏文自動(dòng)分詞是藏文自然語(yǔ)言理解的一項(xiàng)基礎(chǔ)性工程,藏語(yǔ)自然語(yǔ)言理解在機(jī)器翻譯、信息檢索、智能輸入、校對(duì)、自動(dòng)摘要、自動(dòng)分類和詞典編纂等領(lǐng)域有著廣泛的應(yīng)用價(jià)值。