999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機場的動詞細分類研究

2014-04-29 06:14:23石翠
智能計算機與應用 2014年1期

摘要:動詞細分類屬于詞性標注的一部分,是自然語言處理的重要內(nèi)容之一。基于條件隨機場在分詞和詞性標注的基礎上對動詞進行了更細致的分類。根據(jù)動詞的語言環(huán)境構建條件隨機場模型,實驗結(jié)果表明該方法取得了較高的準確率,最高取得了98.11的F值。

關鍵詞:動詞細分; 詞性標注; 條件隨機場

中圖分類號:TP391 文獻標識碼:A文章編號:2095-2163(2014)01-0083-03

0引言

詞性標注就是在給定句子中判定每個詞的語法范疇,確定其詞性并加以標注的過程。漢語詞性標注是中文信息處理的重要內(nèi)容, 已經(jīng)廣泛應用于機器翻譯、自動摘要、文本分類、文本校對和語音識別等各方面[1],并具有廣闊的應用前景。

動詞是一種常見的詞性,在漢語句子中占有很大比例。在分詞和詞性標注后對動詞進行細分有著重要的意義。動詞細分類是在分詞和詞性標注的基礎上,根據(jù)動詞在句子中的不同語法或語義特性進行更細的標注。動詞細分類可以提高句法分析的精確度,能夠有效地分析句法上的歧義結(jié)構。對其進行深入的探討分析已然成為目前學術界的關注焦點之一,本文即致力于此,展開論述。

1研究現(xiàn)狀

動詞細分類是詞性標注的一部分,當前許多學者已經(jīng)針對詞性標注發(fā)布了相關的研究成果。尹木,肖錚[1]根據(jù)動詞細分類自身的特點,提出了一種改進的隱馬爾可夫模型的方法進行動詞類別的自動劃分。孫靜[2]等提出了一種基于條件隨機場CRFs模型的無監(jiān)督的中文詞性標注方法。首先利用詞典對獲得的已分好詞的生文本進行詞性標注,得到初始標注語料,然后利用CRFs 對語料進行迭代標注,再逐步優(yōu)化標注結(jié)果。袁里馳[3]針對隱馬爾可夫(HMM)詞性標注模型狀態(tài)輸出獨立同分布等與語言實際特性不夠協(xié)調(diào)的假設,對隱馬爾可夫模型進行改進,引入馬爾可夫族模型。劉滔[4]則針對條件隨機場模型面對大規(guī)模數(shù)據(jù)傳統(tǒng)訓練算法單機處理性能不高的問題,提出一種基于MapReduce 框架的條件隨機場模型訓練并行化方法, 進而設計了條件隨機場模型特征提取及參數(shù)估計的并行算法, 實現(xiàn)了迭代縮放算法的并行。

2動詞細分類研究

2.1動詞細分類標注

本文研究的動詞細分類是在863詞性標注集的基礎上,對動詞進行了更細致的分類。動詞在整句中處于核心地位,但是863詞性標注集將所有動詞都歸為一類。本文則針對動詞在句子中的語法結(jié)構及語義特征,將動詞細分為5類,細分后動詞詞性如表1所示。

2.2基于條件隨機場的動詞細分類

本文的訓練語料包含三列,分別為詞、原始詞性、細分之后的詞性。其中,原始詞性采用863詞性標注集的詞性。細分后的詞性則包括兩類:非動詞、動詞。所有的非動詞都標注為O,動詞詞性需根據(jù)表1所示細分表,分別標注為:vx、vz、vb、vq和vg。特征一詞的本意是指一個事物異于其他事物的特點,在CRF模型中,可將特征定義為一種規(guī)則,用于描述數(shù)據(jù)中的規(guī)律性或數(shù)據(jù)的統(tǒng)計特征。利用CRF模型進行序列標注的關鍵之一在于如何針對特定的任務為模型選取特征。影響動詞細分類標注結(jié)果的主要因素有詞和詞性標注,而除了這兩個因素外,本文還根據(jù)動詞細分類的任務選取了其他的特征。文中針對動詞細分類問題所選的特征,如表2所示。第1期石翠:基于條件隨機場的動詞細分類研究智能計算機與應用第4卷

2.3.1實驗數(shù)據(jù)及評價標準

本實驗所使用的語料是經(jīng)過分詞、詞性標注的語料。該語料共包含4 000個句子,詞性標注采用863詞性標注集,實驗將前3 000句作為訓練集,后1 000句中,500句作為測試集,500句作為開發(fā)集。

從實驗結(jié)果可以看出,運用template2模板的動詞細分類識別效果最好,該模板選擇的特征與復合特征都較少。從特征選擇上看,動詞細分類主要與詞特征相關,且由于動詞在句子中的核心地位,所有的動詞都能識別為動詞,只存在動詞細分的錯誤,所以實驗獲得了相同的準確率、召回率和F值。

3結(jié)束語

動詞及動詞短語在漢語中占很大比例,對動詞進行細分類可以更好的理解句子的含義,有利于句法的分析和基于模板的翻譯。本文分析了動詞分類的特點,并將動詞的細分類轉(zhuǎn)化為傳統(tǒng)的序列標注問題,利用條件隨機場(CRF)進行統(tǒng)計決策。

參考文獻:

[1]尹木,肖錚.詞性標注與動詞細分類研究[J].電腦知識與技術,2009, 24(5): 6774-6776.

[2]孫靜,李軍輝,周國棟.基于條件隨機場的無監(jiān)督中文詞性標注[J].計算機應用與軟件,2011,28(4):21-24.

[3]袁里馳.基于改進的隱馬爾科夫模型的詞性標注方法[J].中南大學學報.2012,43(8):3051-3057.

[4]劉滔,雷霖,陳犖,等.基于MapReduce的中文詞性標注CRF模型并行化訓練研究[J].北京大學學報,2013(1):147-152.

[5]趙紅改,呂學強,肖詩斌. 搜索引擎日志中“N+V”型短語分析[J].計算機應用與軟件,2012,29(11):126-129.

[6]LAFFERTY J, MCCALLUM A, PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]//Proceedings of ICML, 2001:282-289.

[7]廖先桃. CRF理論、工具包的使用及在NE上的應用[OL].[2006-06-04]. http://wenku.baidu.com/view/dd36312fbd64783e

09122b9f.html.

[8]宗成慶. 統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008.

主站蜘蛛池模板: 亚洲永久色| 少妇极品熟妇人妻专区视频| 亚洲精品免费网站| 在线亚洲天堂| 国产在线精彩视频二区| 亚洲人成网址| 久久婷婷综合色一区二区| 国产在线观看99| 国产丝袜91| 在线国产综合一区二区三区| 国产成人永久免费视频| 久久窝窝国产精品午夜看片| 成人免费午夜视频| 日韩午夜伦| 亚洲欧洲一区二区三区| 波多野结衣一二三| 久久这里只有精品2| 精品中文字幕一区在线| 色国产视频| 亚洲中文字幕久久无码精品A| 国产成人啪视频一区二区三区| 毛片在线播放网址| 亚洲中文精品久久久久久不卡| 99伊人精品| 亚洲成人高清无码| 精品国产香蕉伊思人在线| 国产成人AV男人的天堂| 国产成人乱无码视频| 日韩 欧美 国产 精品 综合| 久久这里只有精品66| 国产一二三区在线| 欧美在线观看不卡| 国产女人在线| 久久综合伊人77777| 精品视频一区在线观看| 欧美亚洲第一页| 国产亚洲欧美在线人成aaaa| 高清不卡毛片| 久久久久久久97| 操操操综合网| 国产手机在线观看| 久爱午夜精品免费视频| 成人亚洲视频| 亚洲av无码片一区二区三区| 国产日产欧美精品| 国产凹凸一区在线观看视频| 乱系列中文字幕在线视频| 尤物在线观看乱码| 国产拍在线| 亚洲精品色AV无码看| 亚洲无码37.| 国产精彩视频在线观看| 亚洲精品视频免费观看| 亚洲精品高清视频| 不卡无码网| 亚洲大尺度在线| 69精品在线观看| 女人一级毛片| 色天堂无毒不卡| 性视频一区| 高清久久精品亚洲日韩Av| 91国内在线观看| 久久熟女AV| 亚洲综合九九| 国产高清色视频免费看的网址| 国产成+人+综合+亚洲欧美| 国产日韩丝袜一二三区| 成人毛片在线播放| 亚洲a级在线观看| AV片亚洲国产男人的天堂| 92午夜福利影院一区二区三区| 婷婷色狠狠干| 亚洲精品视频在线观看视频| 国产农村1级毛片| 为你提供最新久久精品久久综合| 国内精品久久九九国产精品| 青青国产视频| 国产18在线播放| 福利国产微拍广场一区视频在线| 久久夜夜视频| 亚洲综合第一页| 久久精品中文无码资源站|