999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的藏文不自由虛詞校對(duì)算法研究與實(shí)現(xiàn)

2019-10-20 14:53:51索南尖措陳家威
計(jì)算機(jī)時(shí)代 2019年9期

索南尖措 陳家威

摘? 要: 藏文虛詞校對(duì)是藏文自然語(yǔ)言處理的基礎(chǔ)問(wèn)題。將西藏地區(qū)口耳相傳的藏文不自由虛詞添置口訣轉(zhuǎn)化為藏文不自由虛詞識(shí)別及校對(duì)規(guī)則。在基于規(guī)則和詞庫(kù)匹配的基礎(chǔ)上,使用Python語(yǔ)言實(shí)現(xiàn)藏文不自由虛詞校對(duì)算法,細(xì)化了校對(duì)過(guò)程。同時(shí)討論了藏文不自由虛詞校對(duì)算法實(shí)現(xiàn)過(guò)程中的特殊情況,供讀者借鑒。

關(guān)鍵詞: 藏文自然語(yǔ)言處理; 藏文不自由虛詞; 校對(duì)算法; Python

中圖分類號(hào):TP301.6? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-13-03

Research and implementation of Tibetan function word proofreading algorithm using Python

Suonan Jiancuo, Chen Jiawei

(School of Information Science and Technology, Tibet University, Lhasa, Tibet 850000, China)

Abstract: The proofreading of Tibetan function words is the basic problem of Tibetan natural language processing. In this paper, the Tibetan function word acquisition recipe handed down orally in Tibet is transformed into the Tibetan function word recognition and proofreading rules. On the basis of rules and lexicon matching, the Tibetan non-free function word proofreading algorithm is implemented in Python language, and the proofreading process is refined. At the same time, the special situation in the process of realizing the Tibetan function word proofreading algorithm is discussed, which can be used for reference by readers.

Key words: Tibetan natural language processing; Tibetan function words; proofreading algorithm; Python

0 引言

本文研究的是藏文文本自動(dòng)校對(duì)中的藏文不自由虛詞校對(duì)。目前藏文不自由虛詞校對(duì)研究方面的文獻(xiàn)較少:拉毛措提出了藏文屬格助詞的識(shí)別和自動(dòng)檢錯(cuò)算法[1];青海民族大學(xué)藏文信息處理與軟件研究所的公保才讓和安見(jiàn)才讓提出了一種基于規(guī)則和藏文語(yǔ)法相結(jié)合的校對(duì)算法[2];青海民族大學(xué)的卓瑪吉、安見(jiàn)才讓主要研究藏文文本中大量藏文不自由虛詞的識(shí)別算法[3];西藏大學(xué)的拉巴頓珠、歐珠和趙棟材用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,建立了較為全面的虛詞知識(shí)庫(kù)和規(guī)則庫(kù),并給出切分用虛詞分塊算法[4]。他們發(fā)表的文獻(xiàn)和所做的研究對(duì)后人做藏文不自由虛詞校對(duì)研究有著極大的貢獻(xiàn)。

本文是在參考公保才讓和安見(jiàn)才讓發(fā)表的《藏文虛詞添置校對(duì)算法研究與實(shí)現(xiàn)》一文基礎(chǔ)上進(jìn)行研究和撰寫(xiě)的。

1 藏文不自由虛詞添置口訣介紹

經(jīng)過(guò)了解,藏族學(xué)生從小學(xué)時(shí)期就開(kāi)始背誦藏文不自由虛詞校對(duì)口訣,用于檢查藏文不自由虛詞使用是否正確。在藏文中,不自由虛詞分為終結(jié)詞、為格助詞、屬格助詞、作格助詞、離合詞、飾集詞、待述詞、指人后綴、時(shí)態(tài)助詞和不自由虛詞(?????)等,接下來(lái)將以終結(jié)詞為例對(duì)口訣進(jìn)行介紹和解釋。

終結(jié)詞: ???? ???? ???? ???? ???? ???? ??? ??? ???? ???

口訣為:

?????????????????????

?????????????????????????

?????????????????????????????

????????????????????????????????

藏文終結(jié)詞有“??? ??? ??? ??? ??? ??? ??? ??? ??? ???”10個(gè),它們用于句末時(shí)為不自由虛詞,表示一句話的結(jié)束。用于句中時(shí)則表示為實(shí)詞。如“???????、?????????”等。

以上四句口訣的意思為:終結(jié)詞的使用與終結(jié)詞前一音節(jié)字的后加字相對(duì)應(yīng),也就是當(dāng)前一音節(jié)字的后加字為??時(shí),終結(jié)詞使用???;前一音節(jié)字的后加字為??時(shí),終結(jié)詞使用???;依此類推。

其他不同種類的不自由虛詞口訣也與終結(jié)詞相似,描述的內(nèi)容都是不自由虛詞的使用受前一音節(jié)字后加字的限制。為了使所有的口訣及其解釋令讀者一目了然,更加直觀的了解藏文不自由虛詞添置規(guī)則,我們將其轉(zhuǎn)化成圖,如圖1所示。

2 特殊情況

在藏文不自由虛詞使用過(guò)程中,大部分的虛詞使用是按照?qǐng)D1所示進(jìn)行使用,但還存在以下6種特殊情況。

⑴ 再后加字??有時(shí)候會(huì)省略:在藏文音節(jié)字中,后加字??、??、??后面的再后加字??一般情況下會(huì)省略,此時(shí)若按照規(guī)則進(jìn)行校對(duì),則會(huì)出現(xiàn)錯(cuò)誤。如?????????,若按照上文提到的規(guī)則進(jìn)行校對(duì),不自由虛詞????應(yīng)該為使用錯(cuò)誤,因?yàn)楹蠹幼譃??,所以不自由虛詞應(yīng)使用????,但是由于?????省略了再后加字??,所以不應(yīng)該按照后加字為??的規(guī)則去校對(duì)。按照再后加字為?的規(guī)則去校對(duì),不自由虛詞????使用正確。

解決辦法:搜集后加字??、??、??后面的再后加字??省略的詞語(yǔ),形成一個(gè)詞庫(kù),當(dāng)遇到“???????????????????????????????????????????????????????????????????”這些不自由虛詞時(shí),判讀不自由虛詞前一音節(jié)字是否在詞庫(kù)中,若存在,則不自由虛詞使用正確;若不存在,則不自由虛詞使用錯(cuò)誤。

⑵ ????和??這兩個(gè)不自由虛詞具有黏著性,與前一音節(jié)字之間不會(huì)用分隔符分開(kāi),因此極難判斷是不自由虛詞還是后加字或再后加字。如在?????和????中,????和??是再后加字和后加字(??省略),但是在 ?????和?????中,????和??是不自由虛詞,

解決辦法:建立詞庫(kù),當(dāng)遇到音節(jié)字后加字位置或再后加字位置為??或??的詞時(shí),判斷該詞是否在詞庫(kù)中,若存在,則????或??不是不自由虛詞,若不存在,則????或??是不自由虛詞。由于所需建立的詞庫(kù)的龐大,且個(gè)人能力有限,因此在本算法中,將后加字位置或再后加字位置為??或??的詞標(biāo)出,人工去判斷。

⑶ 指人后綴??和?,時(shí)態(tài)助詞:???? ????? ????? ????:由于指人后綴??和??和時(shí)態(tài)助詞???? ????? ????? ????用法靈活,沒(méi)有固定的規(guī)則可以判斷它們,目前還未了解到有效的識(shí)別及計(jì)算算法,因此在本算法中暫時(shí)先不判斷它們使用是否正確,只使用綠色將其標(biāo)注,供人工去判斷使用是否正確。

⑷ 10個(gè)實(shí)詞和不自由虛詞的兼類情況:“????,????,???,???,???,???,???,???,???,????”既可能是實(shí)詞也可能是不自由虛詞,如果不作處理就會(huì)出現(xiàn)錯(cuò)誤。

解決辦法:搜集以上10個(gè)音節(jié)字為實(shí)詞中一部分的情況,形成一個(gè)詞庫(kù),當(dāng)遇到“????,????,???,???,???,???,???,???,???,????”時(shí),判斷前一音節(jié)字+不自由虛詞和不自由虛詞+后一音節(jié)字是否在詞庫(kù)中,若不存在,則證明為不自由虛詞,若證明為不自由虛詞判斷是否符合算法規(guī)則。

⑸ 如音節(jié)字???既是自由不自由虛詞,也是不自由虛詞此類一個(gè)音節(jié)字既有自由不自由虛詞的用法也有不自由虛詞的用法。

解決辦法:目前沒(méi)有較好的解決辦法,只能先搜集音節(jié)字???作為自由不自由虛詞時(shí)組成的詞組,創(chuàng)建詞庫(kù),在文章中遇到???時(shí),先判斷??+后一音節(jié)字是否在詞庫(kù)中,若在,則說(shuō)明是自由不自由虛詞,忽略;若不在,則說(shuō)明是不自由虛詞,再按照不自由虛詞的規(guī)則去判斷。

⑹ ????與????:原本在后加字??應(yīng)該使用????,但由于????單獨(dú)存在時(shí)既可能是一個(gè)實(shí)詞(“知道”),也可能是一個(gè)不自由虛詞。因此使用????代替????。

3 藏文不自由虛詞校對(duì)算法的設(shè)計(jì)與實(shí)現(xiàn)

3.1 藏文不自由虛詞算法的設(shè)計(jì)

????和??這兩個(gè)不自由虛詞具有黏著性(詳細(xì)介紹見(jiàn)2特殊情況②),需要建立龐大的詞庫(kù)才可以準(zhǔn)確識(shí)別;指人后綴??和??和時(shí)態(tài)助詞???? ????? ????? ????用法靈活,沒(méi)有固定的規(guī)則可以判斷它們。因此暫不考慮????、??、指人后綴??和??和時(shí)態(tài)助詞????? ????? ????? ????的校對(duì)。在本算法中,由于后加字位置為??或??的音節(jié)字太多,所以暫時(shí)不進(jìn)行校對(duì)。將指人后綴??和??和時(shí)態(tài)助詞????? ????? ????? 以及??? 使用綠色標(biāo)出來(lái)供人工檢測(cè)。

藏文不自由虛詞校對(duì)算法流程圖如圖2所示。

由于虛實(shí)兼?zhèn)涞囊艄?jié)字判斷方法與自由不自由虛詞和不自由虛詞兼?zhèn)涞囊艄?jié)字判斷方法相同,因此在流程圖中都?xì)w于一類。

3.2 藏文不自由虛詞校對(duì)算法的實(shí)現(xiàn)

本文使用Python語(yǔ)言實(shí)現(xiàn)算法,并以公保才讓《藏文虛詞添置校對(duì)算法研究與實(shí)現(xiàn)》一文中的實(shí)驗(yàn)文本為例,輸出結(jié)果如圖3。

使用藏文不自由虛詞添置規(guī)則判斷此結(jié)果:由于????的后加字為??,因此后面的不自由虛詞應(yīng)該使用???,而不是????;由于???的后加字為??,因此后面的不自由虛詞應(yīng)該使用???,而不是???;由于?????后加字為??,因此后面的不自由虛詞應(yīng)該使用???,而不是???;由于???的后加字為??,因此后面的不自由虛詞應(yīng)該使用????,而不是????;由于???的后加字為??,因此后面的不自由虛詞應(yīng)該使用???,而不是???;由于??和??用法靈活,使用綠色輸出,供人工判斷;

與公保才讓《藏文虛詞添置校對(duì)算法研究與實(shí)現(xiàn)》一文中的輸出結(jié)果(輸出結(jié)果見(jiàn)《藏文虛詞添置校對(duì)算法研究與實(shí)現(xiàn)》一文)相對(duì)比, 發(fā)現(xiàn)其文章輸出的結(jié)果有兩處錯(cuò)誤:的???人工判斷是正確的,但是其標(biāo)紅輸出了; 的???其前一后加字為??,因此不自由虛詞應(yīng)該使用???,不應(yīng)該使用???,但是其輸出結(jié)果中并沒(méi)有標(biāo)紅輸出。

而經(jīng)過(guò)人工判斷,本文所研究的藏文不自由虛詞校對(duì)算法輸出的不自由虛詞數(shù)量是正確的且判斷準(zhǔn)確。

4 總結(jié)

本文通過(guò)使用不同領(lǐng)域的十個(gè)不同大小的文本對(duì)該算法進(jìn)行測(cè)試,證明該算法除本文提到的幾種特殊情況外,在藏文不自由虛詞識(shí)別及校對(duì)方面,具有良好的效果。

但是由于藏文不自由虛詞校對(duì)過(guò)程中存在許多特殊情況。而其中有一些問(wèn)題還尚未解決。

⑴ 由于指人后綴??和??和時(shí)態(tài)助詞???? ????? ????? ????用法靈活,沒(méi)有固定的規(guī)則可以判斷它們,在本文中還尚未解決判斷他們使用是否正確的問(wèn)題,只得將它們使用綠色標(biāo)注出來(lái),供人工檢測(cè)。

⑵ ????和??這兩個(gè)不自由虛詞的校對(duì)需要建立龐大的詞庫(kù)進(jìn)行詞庫(kù)匹配,由于本人能力有限,目前還未能解決這兩個(gè)不自由虛詞的校對(duì)問(wèn)題。

⑶ 由于某些音節(jié)字自由不自由虛詞和不自由虛詞的用法兼并,如???????中的???等等,目前暫時(shí)使用詞庫(kù)匹配的方式進(jìn)行識(shí)別和校對(duì),尚不能完全解決該類不自由虛詞的校對(duì)問(wèn)題。

對(duì)于這些藏文不自由虛詞校對(duì)方面還未解決的問(wèn)題,希望以后隨著詞庫(kù)的擴(kuò)充和算法的更新可以解決。

參考文獻(xiàn)(References):

[1] 拉毛措.基于正則表達(dá)式的藏文屬格的識(shí)別及其檢錯(cuò)算法研究[J].電子技術(shù)與軟件工程,2018.9:142-144

[2] 公保才讓,安見(jiàn)才讓.藏文虛詞添置校對(duì)算法研究與實(shí)現(xiàn)[J].信息與電腦(理論版),2013.12:203-204

[3] 卓瑪吉,安見(jiàn)才讓.藏文不自由虛詞的自動(dòng)識(shí)別研究[J].商,2014.5:116

[4] 拉巴頓珠,歐珠,趙棟材.藏文自動(dòng)分詞系統(tǒng)中虛詞識(shí)別算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2017.34(9):299-301,333

主站蜘蛛池模板: 玖玖精品在线| 久久国产精品无码hdav| 国产亚洲精| 免费看久久精品99| 国产剧情国内精品原创| 91色在线视频| 欧美a级完整在线观看| 四虎永久在线精品国产免费| 免费福利视频网站| 青青国产视频| 国产欧美日韩精品综合在线| 亚洲国产第一区二区香蕉| 毛片a级毛片免费观看免下载| 伊人色在线视频| 日本午夜三级| 欧美在线综合视频| 久久综合五月婷婷| 欧美成人综合视频| 日本人又色又爽的视频| av在线5g无码天天| 国产成人精品在线| 精品久久777| 色丁丁毛片在线观看| 亚洲日韩Av中文字幕无码| 99视频在线精品免费观看6| 国产肉感大码AV无码| 成年人视频一区二区| 午夜国产小视频| 国产一区二区色淫影院| 2021国产精品自产拍在线观看| 国产精品蜜臀| 免费大黄网站在线观看| 国产精品蜜臀| 午夜综合网| 久久久久无码精品| 亚洲精品黄| 午夜啪啪福利| 亚洲综合18p| 亚卅精品无码久久毛片乌克兰 | 91精品啪在线观看国产91| 亚洲成人免费看| 亚洲视频免费在线看| 成人国产精品网站在线看| 亚洲中文字幕在线精品一区| 午夜成人在线视频| 亚洲国产欧洲精品路线久久| 成人午夜免费观看| 91精品最新国内在线播放| 5555国产在线观看| 久久综合成人| 制服丝袜在线视频香蕉| 欧美一道本| 亚洲毛片网站| 欧美黄网在线| 福利在线免费视频| 91在线无码精品秘九色APP| 宅男噜噜噜66国产在线观看| 国产靠逼视频| 精品少妇人妻一区二区| 日本免费福利视频| 日韩精品成人网页视频在线| 一级一级一片免费| 亚洲天堂在线视频| 欧美色丁香| 华人在线亚洲欧美精品| 国产丝袜第一页| 久久婷婷五月综合97色| 成人年鲁鲁在线观看视频| 午夜一级做a爰片久久毛片| 最新国产在线| 蝴蝶伊人久久中文娱乐网| 国产理论最新国产精品视频| 凹凸国产分类在线观看| 国产视频一二三区| 亚洲色图欧美| 一级毛片免费观看不卡视频| 黄色一级视频欧美| 亚洲无码高清一区| 韩国福利一区| 热伊人99re久久精品最新地| 国产在线高清一级毛片| 国产精品尹人在线观看|