999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于轉(zhuǎn)換的錯誤驅(qū)動學習的藏語詞性標注研究

2019-12-23 07:24:21拉毛杰安見才讓
計算機時代 2019年12期
關(guān)鍵詞:規(guī)則

拉毛杰 安見才讓

摘? 要: 詞性標注是自然語言處理的基礎(chǔ)研究,應用的領(lǐng)域十分廣泛。基于轉(zhuǎn)換的錯誤驅(qū)動學習詞性標注是一種基于規(guī)則的算法,但由于此算法占用大量的計算機資源進行規(guī)則的提取,從而造成算法本身偏慢的問題。文章在原有算法的基礎(chǔ)上,跳過那些對語料庫的標注不夠明顯的規(guī)則,尋找應用最好的轉(zhuǎn)換規(guī)則,使語料庫錯誤標注降到最低,從而達到標注的目的。

關(guān)鍵詞: 詞性標注; 基于轉(zhuǎn)換學習; 規(guī)則; 自然語言處理

中圖分類號:TP391.1? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)12-28-02

Research on Tibetan part of speech tagging of conversion-based error-driven learning

La Maojie, Anjian Cairang

(School of Computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)

Abstract: Part-of-speech tagging is the basic research of natural language processing, and the field of application is very extensive. Conversion-based error-driven learning part-of-speech tagging is a rule-based algorithm, but the algorithm takes up a lot of computer resources to extract rules, the algorithm itself is slow. Based on the original algorithm, this paper skips the rules that are not obvious enough to mark the corpus, and finds the best conversion rules to minimize the corpus error labeling, thus achieving the purpose of labeling.

Key words: part of speech tagging; conversion-based learning; rule; natural language processing

0 引言

隨著社會信息化的日益增強,互聯(lián)網(wǎng)越來越成為人們?nèi)粘I钪械囊徊糠郑藗兛梢栽絹碓蕉嗟挠米匀徽Z言同計算機交流。但是這有個前提,就是計算機能夠理解人類的自然語言,這是一個很富有挑戰(zhàn)性的問題。這樣的問題稱作自然語言處理問題,詞性標注作為這一領(lǐng)域淺層處理中最基礎(chǔ)最重要的技術(shù)對整個語言處理起著至關(guān)重要的作用[1]。

目前,不同的高校或科研機構(gòu)在藏語詞性標注領(lǐng)域取得了很好的研究成果,但現(xiàn)階段還沒有公認的,規(guī)范的,統(tǒng)一的藏語詞性標記集[5-6]。所以,訓練集、測試集和初始標注器要基于相同的標記集,才會提高準確率。

1 轉(zhuǎn)換規(guī)則

基于調(diào)研發(fā)現(xiàn),目前詞性標注的主流方法有三種, 分別是統(tǒng)計標注法、規(guī)則標注法以及兩者融合的綜合性標注方法[2]。轉(zhuǎn)換規(guī)則是基于轉(zhuǎn)換的錯誤驅(qū)動學習算法中最重要的兩部分之一,它的設計對最終的結(jié)果有很大的影響。基于轉(zhuǎn)換的錯誤驅(qū)動學習算法盡管由于學習每條規(guī)則時對整個語料進行遍歷,這樣在訓練時消耗大量的時間[4]。但是,這些經(jīng)過學習得到的規(guī)則,只要把他們按照排好的序列逐個的應用到測試的語料庫中即可,方便快速。

一個轉(zhuǎn)換規(guī)則由兩部分構(gòu)成:一個是改寫規(guī)則,另一個是激活環(huán)境。

例如:在藏語詞性標注中,一個改寫規(guī)則為:把詞w的詞性標注改為量詞q。激活環(huán)境:它的條件為如果w的左相鄰詞為名詞(nj,nd等名詞類),w的右相鄰為數(shù)詞。應用這個規(guī)則就把下面句子中???的錯誤標注nj糾正為q。

????/nj??/ca??/f??/cp???/nd????/nj?????/q???/ve?/w

糾正后:????/nj??/ca??/f??/cp???/nd????/q?????/q???/ve?/w

2 基于轉(zhuǎn)換的錯誤驅(qū)動學習的算法描述

(1) 首先用初始標注器對Craw進行標注,得到帶有詞性標注的語料C1;

(2) 把C1與正確的語料庫進行比較和學習,根據(jù)標注規(guī)則模板得到規(guī)則集R1;

(3) 應用R1的每個規(guī)則集rj(j=1,…,n)對C1中錯誤標注進行糾正得到新的語料C1j

(j=1,2,…,n);C1j跟正確的語料標注結(jié)果C0比較,可以得到C1j中總的詞性標注錯誤

數(shù)Ej(i=1,2,3,…,n);

(4) 選擇提高語料標注正確率最高(錯誤數(shù)最小)標注規(guī)則r,并加入到規(guī)則集R2;

(5) 用r標注語料庫C1形成新的標注語料庫C2;

(6) C1=C2,重復(2)—(5),直到不能發(fā)現(xiàn)新的并能提高語料標注正確率的規(guī)則;

當需要標注新的語料庫時,首先用一個標注器進行標注,然后按有序的規(guī)則集合R2的順序依次用相應的規(guī)則對上一次標注的語料進行標注,形成最后的標注語料庫。

標注使用的規(guī)則為:

如果W的左相鄰的詞為量詞,W的右相鄰詞為名詞,則把W的動詞標注改為形容詞標注[3]。

3 實驗分析

本文實驗的測試集為200k左右的語料,通過運行系統(tǒng),生成上下文規(guī)則集,通過學習和使用每一條規(guī)則,使得準確率提高8.51%,錯誤數(shù)降低了1272個。

在圖2的例子中,一共有四個候選的轉(zhuǎn)換規(guī)則(T1,T2,T3,T4)。首先用初始標注器對C0_raw進行詞性標注,得到C1,將C1和C0比較,共有2366個錯誤標注數(shù);然后依次對C1使用轉(zhuǎn)換規(guī)則T1,T2,T3,T4,結(jié)果是T3使得錯誤數(shù)降得最低。因此,將T3作為學習到的第一條轉(zhuǎn)換規(guī)則記錄下來。然后對C13依次使用全部候選的轉(zhuǎn)換規(guī)則,這次是T2使得錯誤數(shù)降低得最多,因此,將T2作為學習到的第二條轉(zhuǎn)換規(guī)則記錄下來。然后對C22依次使用全部的轉(zhuǎn)換的候選規(guī)則,這次錯誤數(shù)沒有再降低,也就是說,沒有學到新的轉(zhuǎn)換規(guī)則,于是學習過程才停止。

4 結(jié)束語

本文在藏語詞性結(jié)構(gòu)的深入研究的基礎(chǔ)之上,利用轉(zhuǎn)換的錯誤驅(qū)動方法對藏語進行詞性標注,使得詞性標注準確率不斷地提高和錯誤數(shù)不斷地降低。這對進一步處理藏語詞性標注的研究具有重要的意義。但本文還存在規(guī)則提取時間偏長,算法偏慢的問題,對此我們?nèi)孕璨粩嗟貎?yōu)化和改進算法,不斷地突破新技術(shù),使得藏語詞性標注進一步研究和完善。

參考文獻(References):

[1] 俞士汶.計算語言學概論[M].商務印書館,2003.

[2] 羊毛卓么.基于HMM藏文詞性標注的研究[J].信息系統(tǒng)工程,2017.

[3] 劉穎.計算語言學[M].清華大學出版社,2014.

[4] 安見才讓.藏文信息處理原理與技術(shù)實現(xiàn)[M].青海民族出版社,2017.

[5] 完么才讓.安見才讓.藏語詞性標注[J].信息與電腦(理論版),2013.

[6] 洛桑嘎登.藏文自動分詞與詞性標注研究[D].中央民族大學,2016.

猜你喜歡
規(guī)則
拼寫規(guī)則歌
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
依據(jù)規(guī)則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規(guī)則
中國外匯(2019年7期)2019-07-13 05:44:52
規(guī)則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統(tǒng)規(guī)則
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
啦啦操2010—2013版與2013—2016版規(guī)則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 国产美女在线免费观看| 国产三区二区| 国产毛片基地| 欧美色图久久| 五月婷婷精品| 好吊日免费视频| 亚洲成网站| 国产欧美日韩免费| 欧美色99| 欧美日韩综合网| www.亚洲一区| 亚洲福利一区二区三区| 国产成人精品免费视频大全五级| 亚洲最大情网站在线观看| 日韩美女福利视频| 激情亚洲天堂| 日韩 欧美 小说 综合网 另类| 国产在线观看成人91| 国产精品偷伦在线观看| 最新无码专区超级碰碰碰| 美女潮喷出白浆在线观看视频| 亚洲精品色AV无码看| 国产在线观看第二页| 操美女免费网站| 国产第一页免费浮力影院| 久久精品日日躁夜夜躁欧美| 亚洲无码精彩视频在线观看| 国产成人一区免费观看| 日韩在线中文| 高清视频一区| 黄色片中文字幕| 男女男免费视频网站国产| 制服丝袜 91视频| 老司机久久99久久精品播放| 精品一区二区三区自慰喷水| 成人日韩欧美| 久草国产在线观看| 97国产在线播放| 无码人妻免费| 一级毛片无毒不卡直接观看| 国产白浆在线观看| 一级毛片基地| 国产无人区一区二区三区| 青青草国产在线视频| 中国精品久久| 午夜精品久久久久久久无码软件| 99视频精品在线观看| 乱色熟女综合一区二区| 久久综合结合久久狠狠狠97色| 亚洲欧洲自拍拍偷午夜色| 成人在线不卡视频| 狠狠五月天中文字幕| 99偷拍视频精品一区二区| 亚洲婷婷在线视频| 精品丝袜美腿国产一区| 四虎亚洲国产成人久久精品| 午夜爽爽视频| 亚洲欧美综合另类图片小说区| 97国产精品视频人人做人人爱| 国产00高中生在线播放| 亚洲AV无码精品无码久久蜜桃| 香港一级毛片免费看| 日韩亚洲高清一区二区| 久久久久亚洲精品成人网| 无码人妻热线精品视频| 欧美国产日韩在线观看| 怡红院美国分院一区二区| 青青久视频| 国产人成乱码视频免费观看| 天天综合网色中文字幕| 欧美人与牲动交a欧美精品| 国产乱视频网站| 国产成人1024精品下载| 国产精品无码影视久久久久久久| 国产情侣一区| 亚洲综合婷婷激情| 欧美第九页| 国产成人精品无码一区二| 欧美激情福利| 国产成人无码播放| 熟妇丰满人妻| 99资源在线|