摘要:動詞細分類屬于詞性標注的一部分,是自然語言處理的重要內(nèi)容之一。基于條件隨機場在分詞和詞性標注的基礎上對動詞進行了更細致的分類。根據(jù)動詞的語言環(huán)境構建條件隨機場模型,實驗結(jié)果表明該方法取得了較高的準確率,最高取得了98.11的F值。
關鍵詞:動詞細分; 詞性標注; 條件隨機場
中圖分類號:TP391 文獻標識碼:A文章編號:2095-2163(2014)01-0083-03
0引言
詞性標注就是在給定句子中判定每個詞的語法范疇,確定其詞性并加以標注的過程。漢語詞性標注是中文信息處理的重要內(nèi)容, 已經(jīng)廣泛應用于機器翻譯、自動摘要、文本分類、文本校對和語音識別等各方面[1],并具有廣闊的應用前景。
動詞是一種常見的詞性,在漢語句子中占有很大比例。在分詞和詞性標注后對動詞進行細分有著重要的意義。動詞細分類是在分詞和詞性標注的基礎上,根據(jù)動詞在句子中的不同語法或語義特性進行更細的標注。動詞細分類可以提高句法分析的精確度,能夠有效地分析句法上的歧義結(jié)構。對其進行深入的探討分析已然成為目前學術界的關注焦點之一,本文即致力于此,展開論述。
1研究現(xiàn)狀
動詞細分類是詞性標注的一部分,當前許多學者已經(jīng)針對詞性標注發(fā)布了相關的研究成果。尹木,肖錚[1]根據(jù)動詞細分類自身的特點,提出了一種改進的隱馬爾可夫模型的方法進行動詞類別的自動劃分。孫靜[2]等提出了一種基于條件隨機場CRFs模型的無監(jiān)督的中文詞性標注方法。首先利用詞典對獲得的已分好詞的生文本進行詞性標注,得到初始標注語料,然后利用CRFs 對語料進行迭代標注,再逐步優(yōu)化標注結(jié)果。袁里馳[3]針對隱馬爾可夫(HMM)詞性標注模型狀態(tài)輸出獨立同分布等與語言實際特性不夠協(xié)調(diào)的假設,對隱馬爾可夫模型進行改進,引入馬爾可夫族模型。劉滔[4]則針對條件隨機場模型面對大規(guī)模數(shù)據(jù)傳統(tǒng)訓練算法單機處理性能不高的問題,提出一種基于MapReduce 框架的條件隨機場模型訓練并行化方法, 進而設計了條件隨機場模型特征提取及參數(shù)估計的并行算法, 實現(xiàn)了迭代縮放算法的并行。
2動詞細分類研究
2.1動詞細分類標注
本文研究的動詞細分類是在863詞性標注集的基礎上,對動詞進行了更細致的分類。動詞在整句中處于核心地位,但是863詞性標注集將所有動詞都歸為一類。本文則針對動詞在句子中的語法結(jié)構及語義特征,將動詞細分為5類,細分后動詞詞性如表1所示。
2.2基于條件隨機場的動詞細分類
本文的訓練語料包含三列,分別為詞、原始詞性、細分之后的詞性。其中,原始詞性采用863詞性標注集的詞性。細分后的詞性則包括兩類:非動詞、動詞。所有的非動詞都標注為O,動詞詞性需根據(jù)表1所示細分表,分別標注為:vx、vz、vb、vq和vg。特征一詞的本意是指一個事物異于其他事物的特點,在CRF模型中,可將特征定義為一種規(guī)則,用于描述數(shù)據(jù)中的規(guī)律性或數(shù)據(jù)的統(tǒng)計特征。利用CRF模型進行序列標注的關鍵之一在于如何針對特定的任務為模型選取特征。影響動詞細分類標注結(jié)果的主要因素有詞和詞性標注,而除了這兩個因素外,本文還根據(jù)動詞細分類的任務選取了其他的特征。文中針對動詞細分類問題所選的特征,如表2所示。第1期石翠:基于條件隨機場的動詞細分類研究智能計算機與應用第4卷
2.3.1實驗數(shù)據(jù)及評價標準
本實驗所使用的語料是經(jīng)過分詞、詞性標注的語料。該語料共包含4 000個句子,詞性標注采用863詞性標注集,實驗將前3 000句作為訓練集,后1 000句中,500句作為測試集,500句作為開發(fā)集。
從實驗結(jié)果可以看出,運用template2模板的動詞細分類識別效果最好,該模板選擇的特征與復合特征都較少。從特征選擇上看,動詞細分類主要與詞特征相關,且由于動詞在句子中的核心地位,所有的動詞都能識別為動詞,只存在動詞細分的錯誤,所以實驗獲得了相同的準確率、召回率和F值。
3結(jié)束語
動詞及動詞短語在漢語中占很大比例,對動詞進行細分類可以更好的理解句子的含義,有利于句法的分析和基于模板的翻譯。本文分析了動詞分類的特點,并將動詞的細分類轉(zhuǎn)化為傳統(tǒng)的序列標注問題,利用條件隨機場(CRF)進行統(tǒng)計決策。
參考文獻:
[1]尹木,肖錚.詞性標注與動詞細分類研究[J].電腦知識與技術,2009, 24(5): 6774-6776.
[2]孫靜,李軍輝,周國棟.基于條件隨機場的無監(jiān)督中文詞性標注[J].計算機應用與軟件,2011,28(4):21-24.
[3]袁里馳.基于改進的隱馬爾科夫模型的詞性標注方法[J].中南大學學報.2012,43(8):3051-3057.
[4]劉滔,雷霖,陳犖,等.基于MapReduce的中文詞性標注CRF模型并行化訓練研究[J].北京大學學報,2013(1):147-152.
[5]趙紅改,呂學強,肖詩斌. 搜索引擎日志中“N+V”型短語分析[J].計算機應用與軟件,2012,29(11):126-129.
[6]LAFFERTY J, MCCALLUM A, PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]//Proceedings of ICML, 2001:282-289.
[7]廖先桃. CRF理論、工具包的使用及在NE上的應用[OL].[2006-06-04]. http://wenku.baidu.com/view/dd36312fbd64783e
09122b9f.html.
[8]宗成慶. 統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008.