999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用詞性標注語料庫自動推斷維吾爾語詞綴變體的研究

2016-12-21 12:07:50阿布都哈力力·阿布都熱依木鄒帥余長江
電腦知識與技術 2016年28期
關鍵詞:詞根詞綴

阿布都哈力力·阿布都熱依木+鄒帥+余長江

摘要:即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,自動推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

關鍵詞:維吾爾語詞法分析;詞根;詞綴;語音和諧律;MeCab-uyghur

中圖分類號:N945.23 文獻標識碼:A 文章編號:1009-3044(2016)28-0171-03

1 背景

維吾爾語在內的阿勒泰語系語言中詞根與詞綴相互聚合時,詞根和詞綴含有的元音和輔音之間存在相互限制和被限制關系,此種現象通稱語音和諧律(1999.竹內.現代維吾爾語)。現代維吾爾語共有32個字母,其中有8個元音,24個輔音。元音按發音位置分為前元音、中元音、后元音。

語音和諧律一個詞根粘附的詞綴有選擇性和若干種變體。例如:符合漢語中“向”詞的與格維吾爾語中有著“?a, qa, g?,k?” 等4中變體。這些變體根據跟前的獨立詞在內的元音和輔音類型選擇。即舉例“bazar”這一詞,由于該詞屬于尾部由響音結尾的舌面前元音,連接開頭由響音開始的舌面前元音變體“?a”,構成“bazar + ?a =bazar?a”。詞綴不僅按照詞根元音和輔音類型選擇,有時在詞綴的影響下詞根語音發生變化。例如:“imla+ing=imlaying”是以元音結束的詞連接以元音開頭的詞綴時中間將會加上輔音,“bar+ip=berip”是以元音開頭的詞綴對詞根產生壓力,將會引起語音的弱化,“orun+i=orni”是以元音開頭的詞綴影響詞根的元音引起元音的減音。由于記錄維吾爾語的文字屬于有聲文字,以上變化也在文字直接表達。

2 目前信息化處理情況

上述語音和諧和變化現象在書面語發生的比較明顯。有些人在書面材料上把語音拼寫,影響意念的正確表達。這些問題此前未突出明顯,但在信息技術上屬必須解決的重要問題。

至于信息技術領域如何解決以上問題,主要采取兩種方法。其一,對詞根和詞綴未作出任何語法或詞匯范疇定義的情況下,分別作為單位編寫詞典,自動聚合方法。雖通過這個方式所形成的詞庫能解決錯字問題,但無法解決像沒有語音和諧律的漢語等語言與維吾爾語之間機器翻譯系統和詞典中的一對一問題(UyghurEdit, n.d.)。其二,將詞根和詞綴的構形作為一個單詞編入詞典的處理方法。雖方法簡單,維吾爾語的詞綴為數較多,文本中的聚合情況復雜,無法將全部構形編入詞典。

在這里我們要提出不同與上述方法的另一種方法。即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

3 詞性標注和處理方法

用維吾爾語形態分析工具Mecab-uyghur 把給予的文章分成單詞和詞綴。

3.1 語音的和諧類型的處理

首先把詞根和詞綴分為合適的部類,并人工匹配語音和諧律的單詞大義上歸屬于和諧類型范疇。第二階段,區別元音和諧類型,輔音和諧類型,元音和輔音和諧類型等三個類型。

語音的和諧法列入到1至3的表格里,詞法形式表示詞根的語法形式。 詞根和詞綴類型進一步細化到下一列詞典形里。作為附加信息, 詞音和諧類型列入下一個列里。詞根和詞綴的元音和輔音作為一個和諧因素列入到下一個相對應的列里。 最后, 與詞音和諧法無關的部分標記為Null.

3.2 語音的變化類型的處理

將語音變化大義上歸屬于語音變化類型范疇。作為小分類分別為語音弱化類型,語音増音類型,語音減音類型等三個類型。

語音的變化規律列入到4至6的表格里,其中語音上有變化詞語的詞典型和本文形分別列入到詞典形該列里。語音的和諧法作為一個附加信息列入到下一列里,而詞根的結束語音和附加詞的字首語音作為一個影響語音變化規律的因素列入到一個列里。最后要列入語音的變化原因。

4 實驗

4.1 計算方式

本研究上我們使用維吾爾語詞法分析Mecab-uyghur系統。Mecab-uyghur系統是由日語的開源詞法分析系統Mecab添加維吾爾語詞典及語法規則開發演變而來,此系統具體使用方法及其他情況不在此做詳細說明;Mecab-uyghur 系統的計算方式:以最小開銷法,利用了單詞的產生權重,以及連接權重這兩個概念。單詞的產生權重是從語料庫出現的單詞頻度獲取,連接權重是從語法概念獲取。

4.2 訓練

把上述介紹的語法范疇用于傳統語言學詞類的附加識別因素(區別性特征), 并通過人工匹配建立1萬句的詞性標注語料庫。

利用Mecab-uyghur訓練法,獲取單詞的產生權重、語法范疇的連接概率。此連接概率是通過維吾爾語語法作為基礎作推斷。

5 測試

為驗證上述方法的準確性及可靠性,利用在訓練階段推斷出的模型,將詞根與詞綴分別進行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;將此四種詞型利用Mecab-Uyghur系統進一步分析,具體分析結果如下圖所示:

bazar?a,bazarqa, bazarg ?, bazark ?從左到左開始讀取,從詞典里面獲取有記錄的詞典序列。上圖為分解圖,其中方框內的藍色數字表示該詞的產生權重,紅色數字表示連接權重,連接線上的咖啡色數字表示該文法段和它的左端文法段的連接權重。

由上圖可知,bazar?a 這一個序列,bazar 的產生權重為10,?a 的產生權重為40," ?a 詞綴-和諧類型-前元音-清輔音"的連接權重為200。在四種序列中第一個序列的總共成本是10+700+40+200=950;第二個序列的總共成本是10+4500+38+150=4698;第三個序列的總共成本是 10+6000+70+250=6330;第四個序列的總共成本是10+4000+29+190=4229;這些序列里第一個序列的成本最小。因此,正確的是第一個序列。

6 結束語

論文主要闡述利用傳統語言規則及現代信息技術處理方法將維吾爾語詞根與詞綴聚合的辦法。以多次試驗舉例驗證了此猜想的正確性,以上舉例為其中以典型案例,此方法的研究證實不僅為維吾爾語和其他語言的機器翻譯、詞典學開辟了一條先河,而且為維吾爾語正字法的校對工作提供了基礎。

參考文獻:

[1] 吐爾遜·卡得. 維吾爾語柯坪土語研究[D]. 北京: 中央民族大學, 2011.

[2] 祖木拉提·阿扎提. 多語環境下伊犁維吾爾族人群語言使用狀況調查研究[D]. 新疆: 新疆大學, 2012.

[3] 木哈拜提·哈斯木. 從來源方面來看維吾爾語方言詞的特點[J]. 新疆大學學報:哲學社會科學版, 2005(1).

[4] 李經緯. 試論現代維吾爾語方言詞的類型及其對劃分方言的意義[J]. 語言與翻譯, 1986(3).

[5] 陳宗振. 維語方言研究的回顧與展望[J]. 語言與翻譯, 2000(4).

[6] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]// 第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[7] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]//第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[8] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]//第十一屆全國人機語音通訊學術會議論文集(二). 2011.

[9] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]// 第十一屆全國人機語音通訊學術會議論文集(二). 2011.

猜你喜歡
詞根詞綴
藏在英文里的希臘詞根(二十四)
英語世界(2023年12期)2023-12-28 03:36:30
藏在英文里的希臘詞根(二十三)
英語世界(2023年11期)2023-11-17 09:24:50
藏在英文里的希臘詞根(二十二)
英語世界(2023年10期)2023-11-17 09:19:18
藏在英文里的希臘詞根(十八)
英語世界(2023年6期)2023-06-30 06:29:38
藏在英文里的希臘詞根(九)
英語世界(2022年9期)2022-10-18 01:11:48
從網絡語“X精”看“精”的類詞綴化
詞尾與詞綴的區別研究
淺談現代漢語類詞綴
小說月刊(2017年16期)2017-12-01 05:14:50
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
試析否定詞綴在漢維語中的不同表現
語言與翻譯(2014年3期)2014-07-12 10:31:56
主站蜘蛛池模板: 99精品国产电影| 中国一级毛片免费观看| 97免费在线观看视频| 91九色国产porny| 国产一级裸网站| 国产精品美女免费视频大全| 成人免费黄色小视频| 久久精品无码一区二区日韩免费| 秘书高跟黑色丝袜国产91在线| 欧美国产日韩一区二区三区精品影视| 欧美午夜在线播放| 午夜性爽视频男人的天堂| 亚洲香蕉在线| 亚洲成人77777| 国产精品jizz在线观看软件| 欧美在线三级| 制服无码网站| 久久精品国产精品一区二区| 久久久久九九精品影院| 在线看片国产| 人妻丝袜无码视频| 国产精品yjizz视频网一二区| 欧美19综合中文字幕| 国产精品女同一区三区五区| 欧美19综合中文字幕| 在线国产综合一区二区三区 | 欧美人人干| 国产精品林美惠子在线观看| 国产美女在线观看| 国产精品无码AV片在线观看播放| 91欧洲国产日韩在线人成| 国产精品极品美女自在线看免费一区二区| 又黄又湿又爽的视频| 亚洲成人黄色网址| 亚洲狼网站狼狼鲁亚洲下载| 国产精品无码影视久久久久久久| 亚洲动漫h| 精品国产中文一级毛片在线看| 鲁鲁鲁爽爽爽在线视频观看 | 亚洲色图另类| 四虎影视库国产精品一区| 亚洲精品自产拍在线观看APP| 亚洲成人动漫在线观看 | 国产乱子伦一区二区=| 日韩天堂在线观看| lhav亚洲精品| 婷婷丁香色| 久久综合亚洲色一区二区三区| 亚洲一级毛片免费观看| 欧美色视频在线| 国产成人无码AV在线播放动漫 | 国产99久久亚洲综合精品西瓜tv| 国内精品小视频福利网址| 日本午夜精品一本在线观看| 亚洲国产成人久久精品软件| 再看日本中文字幕在线观看| 欧美va亚洲va香蕉在线| 伊人大杳蕉中文无码| 精品无码日韩国产不卡av| 精品国产自在在线在线观看| 五月婷婷亚洲综合| 黄色网在线免费观看| av大片在线无码免费| 九九视频免费在线观看| 青青操视频免费观看| 亚洲综合第一区| 国产黑丝一区| 久久精品无码专区免费| 久久天天躁夜夜躁狠狠| 美女国内精品自产拍在线播放 | 高清国产在线| 福利国产微拍广场一区视频在线| 久久精品女人天堂aaa| 久热精品免费| 久久99久久无码毛片一区二区| 18禁不卡免费网站| 成AV人片一区二区三区久久| 欧美成人综合视频| 尤物午夜福利视频| 福利小视频在线播放| 91在线免费公开视频| 国产成人高精品免费视频|