999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)的設(shè)計(jì)

2014-03-12 19:57:59陳小瑩艾金勇
語文學(xué)刊 2014年7期
關(guān)鍵詞:文本研究

○ 陳小瑩 艾金勇

(西藏民族學(xué)院,陜西 咸陽 712082)

一、引 言

在信息化時(shí)代,藏族文化要跟上時(shí)代的步伐,首先要解決的就是藏文的信息處理問題,藏文信息化和網(wǎng)絡(luò)化是藏民族發(fā)展的必然趨勢(shì)。從20世紀(jì)80年代起,隨著對(duì)藏文字符編碼、字符屬性和輸入技術(shù)等諸多領(lǐng)域不斷深入的研究,藏文信息處理技術(shù)已取得較好的成果。隨著藏文網(wǎng)絡(luò)信息時(shí)代的發(fā)展,藏文正在迅速與現(xiàn)代化、信息化以及世界文化接軌。[1]藏文信息處理已從字處理研究逐步向詞、短語、句法以及語義的研究發(fā)展。以藏字為媒介向世界介紹西藏文化是對(duì)西藏優(yōu)秀傳統(tǒng)文化的繼承,藏文報(bào)刊、電子書、網(wǎng)站、電子郵件及藏文辦公自動(dòng)化的字處理等電子文本也越來越廣泛地應(yīng)用于藏文信息處理多個(gè)領(lǐng)域,而這些都需要通過計(jì)算機(jī)進(jìn)行處理,難免會(huì)出現(xiàn)錯(cuò)誤。[2]如何保證這些電子文本的正確性,顯得越來越重要。這使得其中的校對(duì)環(huán)節(jié)工作量大大增加,對(duì)藏文文本的人工校對(duì)帶來了很大的壓力,這樣對(duì)其進(jìn)行校正就顯得尤為重要。[3]所以對(duì)藏文音節(jié)拼寫自動(dòng)校對(duì)的研究具有非常重要的現(xiàn)實(shí)意義。

國內(nèi)藏文自動(dòng)校對(duì)的研究工作是從20世紀(jì)80年代初的字處理研究起步的。自八十年代中后期起,北京、上海、西藏、甘肅、青海等地的一些院校及科研機(jī)構(gòu)紛紛研制開發(fā)了許多藏文信息處理系統(tǒng),推動(dòng)了藏文信息技術(shù)的發(fā)展,特別是計(jì)算機(jī)藏文文字處理技術(shù)的發(fā)展較快。很多藏文信息界的專家對(duì)此做了較多的研究。劉文香發(fā)表《藏文文本詞校對(duì)模型研究》一文,文中闡述了音勢(shì)約束理論和二元鄰接矩陣在藏文自動(dòng)校對(duì)中的應(yīng)用。[4]關(guān)白等人發(fā)表的《現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究》一文,通過音節(jié)字預(yù)處理、字表匹配、混淆集匹配、二元接續(xù)關(guān)系、最小編輯距離法等方法對(duì)現(xiàn)代藏文音節(jié)字的自動(dòng)校對(duì)進(jìn)行了研究。[5]王維蘭等人發(fā)表的《印刷體現(xiàn)代藏文識(shí)別研究》一文,將藏文自動(dòng)校對(duì)應(yīng)用于藏文文字識(shí)別的后期處理,對(duì)識(shí)別后所形成文本中的單字進(jìn)行了次校正。[6]多杰卓瑪發(fā)表《N元模型在藏文文本局部查錯(cuò)中的應(yīng)用研究》一文,提出將一個(gè)藏文音節(jié)字按其構(gòu)件分成若干個(gè)字丁,利用N元模型對(duì)這些字丁建立模型,采用這一模型對(duì)音節(jié)字進(jìn)行偵錯(cuò)的方法。[7]黃小蘭等人發(fā)表的《現(xiàn)代藏文音節(jié)的劃分與確定》一文,通過應(yīng)用程序?qū)Σ匚木幋a的占位和不占位的有效判定找出組合字符。對(duì)找出組合字符的藏文字符通過藏文正字法的限定對(duì)藏文音節(jié)進(jìn)行有效的判定和音節(jié)組件的拆分。[8]

二、主要內(nèi)容

藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)共分為四個(gè)模塊:

(1)藏文文本規(guī)范化處理模塊

藏文文本中除了包括正常的規(guī)范字符外,還常常出現(xiàn)各種不屬于藏文字符的其他字符,例如數(shù)字、日期、電話號(hào)碼等使用阿拉伯書寫的字符。這些不屬于藏文字符的其他字符會(huì)對(duì)后期音節(jié)的切分時(shí)發(fā)生錯(cuò)誤,從而使整個(gè)音節(jié)拼寫校對(duì)系統(tǒng)的校正率降低,所以這些非規(guī)范的文本在進(jìn)行音節(jié)切分之前應(yīng)該要進(jìn)行規(guī)范化處理,并給出它們對(duì)應(yīng)的在規(guī)范化藏文詞表上的規(guī)范寫法。

(2)音節(jié)切分模塊

現(xiàn)代藏文的字符流是兩維呈現(xiàn)的,有一套嚴(yán)格而完整的字母組合排列規(guī)則,自左向右橫行書寫。傳統(tǒng)藏文文法根據(jù)字母在音節(jié)中的結(jié)構(gòu)位置,將30個(gè)輔音字母分為分為基字、上加字、下加字、前加字、后加字、再后加字加上“元音”共7個(gè)構(gòu)件,各個(gè)構(gòu)造位上出現(xiàn)的字符其性質(zhì)與數(shù)量均有一定的限制。藏文音節(jié)字是用音節(jié)點(diǎn)進(jìn)行間隔的,在音節(jié)切分時(shí),以音節(jié)點(diǎn)為標(biāo)記對(duì)藏文音節(jié)進(jìn)行切分。[9]

(3)黏著語的分離與還原模塊;

在現(xiàn)代藏文的實(shí)際文本中有些格助詞和接續(xù)詞、終結(jié)詞是黏著在后加字或者基字上,形成一個(gè)音節(jié)字的。這種具有黏著性的格助詞有:a.黏著性屬格助詞“ ”;b.黏著性接續(xù)詞“ ”;c.黏著性疑問助詞“ ”;d.黏著性終結(jié)詞“ ”;e.黏著性作格助詞“ ”;f.黏著性LA格助詞“ ”。這樣形成的音節(jié)字雖然可能不符合藏文的正字法結(jié)構(gòu),但是又是正確的書寫形式,因此需要對(duì)對(duì)待校文本中存在黏著現(xiàn)象的音節(jié)字進(jìn)行分離和還原。具體過程如下:

①對(duì)“ ”的分離與還原:判斷字符串中可能黏著的格助詞或接續(xù)詞是否有“ ”等,如果有則對(duì)該音節(jié)進(jìn)行黏著語分離和還原操作;否則不做任何處理讀取下一個(gè)音節(jié)字進(jìn)行判斷。

②對(duì)“ ”的分離與還原:判斷字符串中可能黏著的格助詞是否有“ ”,因?yàn)椤?”還可能作為后加字成分存在,所以如果存在,還需要根據(jù)構(gòu)字規(guī)則判斷其是否為后加字,如果不是則對(duì)該音節(jié)進(jìn)行黏著語分離和還原;否則不做任何處理讀取下一個(gè)音節(jié)字進(jìn)行判斷。

(4)音節(jié)校對(duì)模塊

現(xiàn)代藏文具有最多3個(gè)輔音和最多1個(gè)元音的垂直疊加形成的組合字符。藏文字符顯示時(shí),一個(gè)組合字符只占據(jù)一個(gè)字母的寬度,這個(gè)寬度由第一層輔音決定,這個(gè)輔音稱為占位輔音,這個(gè)輔音的編碼也就稱為占位輔音編碼,其它字母只是疊加在占位輔音的上方或者下方而不單獨(dú)占據(jù)寬度,稱為不占位字母或不占位編碼。[10]項(xiàng)目實(shí)施中首先可以依據(jù)音節(jié)編碼中占位輔音編碼和非占位輔音編碼的順序來確定基字所在的組合字丁的位置,然后再根據(jù)前后編碼的序列確定前加字、后加字和再后加字;其次通過組合字符對(duì)應(yīng)的編碼特點(diǎn)即一個(gè)占位編碼緊接著最多三個(gè)連續(xù)的不占位編碼確定 “上加字”、“下加字”;最后根據(jù)藏文正字法確立的構(gòu)字規(guī)則對(duì)該藏文音節(jié)各部件進(jìn)行判別校對(duì)。

三、結(jié) 語

通過對(duì)藏文文本規(guī)范化處理、音節(jié)切分、黏著語的分離與還原和音節(jié)校對(duì)四個(gè)部分內(nèi)容的研究與分析,設(shè)計(jì)了藏文音節(jié)拼寫自動(dòng)校對(duì)系統(tǒng)。該校對(duì)系統(tǒng)可以廣泛應(yīng)用于藏文信息處理的其他領(lǐng)域。比如:藏文字識(shí)別和藏文語音識(shí)別、藏文拼寫檢查、文本編輯、自動(dòng)分詞、語料庫制作、輔助教學(xué)等諸多的藏文信息處理的研究領(lǐng)域當(dāng)中,可以減少人工校對(duì)帶來的壓力,從而大大提高校對(duì)環(huán)節(jié)的工作效率。所以對(duì)其的研究必將提升現(xiàn)有藏文信息處理研究的成果,具有非常重要的現(xiàn)實(shí)意義。

【參考文獻(xiàn)】

[1]關(guān)白,洛藏,才科扎西.現(xiàn)代藏文自動(dòng)校對(duì)現(xiàn)狀分析[J].西藏科技,2011(8).

[2]張仰森,俞士汶.文本自動(dòng)校對(duì)技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006(6).

[3]扎西次仁.一個(gè)藏文拼寫檢查系統(tǒng)的設(shè)計(jì)[C]//中文信息處理國際會(huì)議論文集,1998.

[4]劉文香.藏文文本詞校對(duì)模型研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(2).

[5]關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動(dòng)校對(duì)研究[J].計(jì)算機(jī)過程與應(yīng)用,2011(6).

[6]王維蘭,丁曉青,等.印刷體現(xiàn)代藏文識(shí)別研究[J].計(jì)算機(jī)工程,2003(3).

[7]多杰卓瑪.N元模型在藏文文本局部查錯(cuò)中的應(yīng)用研究[J].計(jì)算機(jī)工程與科學(xué),2009(4).

[8]黃小蘭,黃鶴鳴,才科扎西.現(xiàn)代藏文音節(jié)的劃分與確定[J].計(jì)算機(jī)應(yīng)用與軟件,2012(9).

[9]李永宏,孔江平,等.藏語文-音自動(dòng)規(guī)則轉(zhuǎn)換及其實(shí)現(xiàn)[J].清華大學(xué)學(xué)報(bào),2008(1).

[10]黃鶴鳴,達(dá)飛鵬.基于排序的藏文音節(jié)類型判定[J].計(jì)算機(jī)應(yīng)用,2009(7).

猜你喜歡
文本研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統(tǒng)研究
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側(cè)面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 婷婷亚洲视频| 玩两个丰满老熟女久久网| 国产国语一级毛片| 亚洲Aⅴ无码专区在线观看q| 大陆国产精品视频| 免费又黄又爽又猛大片午夜| 99久久精品无码专区免费| 欧美日韩中文字幕二区三区| 日日拍夜夜嗷嗷叫国产| 日韩午夜片| 国产精品亚洲欧美日韩久久| 又污又黄又无遮挡网站| 久久久久青草线综合超碰| 欧美国产视频| 亚洲精品无码AⅤ片青青在线观看| 精品成人一区二区| 欧美一级高清免费a| 四虎综合网| 日韩毛片免费| 亚洲天堂啪啪| 精品国产成人高清在线| 一级做a爰片久久毛片毛片| 欧美专区日韩专区| 狠狠色噜噜狠狠狠狠色综合久 | 最新日韩AV网址在线观看| 免费看a级毛片| 日本欧美视频在线观看| 114级毛片免费观看| 亚洲欧美综合在线观看| 91免费观看视频| 色婷婷啪啪| 日韩一级毛一欧美一国产| 婷婷六月色| 黄色网站在线观看无码| 色欲综合久久中文字幕网| 中文字幕 欧美日韩| 亚洲日韩精品无码专区| 国产成人精品免费av| 免费久久一级欧美特大黄| A级全黄试看30分钟小视频| 无码又爽又刺激的高潮视频| 久久性妇女精品免费| 欧美中文字幕一区| 欧美精品高清| 久久不卡国产精品无码| 青青国产成人免费精品视频| 少妇精品久久久一区二区三区| 国产成人久视频免费| 狠狠躁天天躁夜夜躁婷婷| 欧美午夜在线播放| AV熟女乱| 欧美日韩另类在线| 国产精品观看视频免费完整版| 欧美、日韩、国产综合一区| 国产手机在线ΑⅤ片无码观看| 国产精品区视频中文字幕| 日本一区二区三区精品国产| 色综合日本| 日韩在线永久免费播放| 国产呦精品一区二区三区下载| 久久伊人久久亚洲综合| 国产一级做美女做受视频| 欧美人人干| 一级毛片免费观看久| 欧美成人精品在线| 美女一级毛片无遮挡内谢| 亚洲欧美不卡中文字幕| 国产精品丝袜视频| 欧美日韩中文字幕二区三区| 亚洲无码37.| 色婷婷在线播放| 色国产视频| 久久综合色播五月男人的天堂| 日韩免费视频播播| 亚洲成人黄色网址| 国产精品吹潮在线观看中文| 中文字幕人成人乱码亚洲电影| 国产欧美中文字幕| 成人毛片在线播放| 在线精品视频成人网| 全午夜免费一级毛片| 国产小视频a在线观看|