□李洪政 晉耀紅
基于條件隨機(jī)場方法的漢語專利文本介詞短語識別
□李洪政晉耀紅
介詞短語作為一種重要的短語類型在漢語中分布廣泛,正確自動識別介詞短語在自然語言處理的應(yīng)用領(lǐng)域具有重要意義和積極影響。本文嘗試?yán)媚壳氨容^流行的條件隨機(jī)場模型,主要面向漢語專利文本,對其中的介詞短語進(jìn)行識別研究。首先在分詞和詞性標(biāo)注的基礎(chǔ)上對語料進(jìn)行序列特征標(biāo)注,然后利用條件隨機(jī)場工具包訓(xùn)練了識別介詞短語的模型,最后設(shè)計(jì)相關(guān)實(shí)驗(yàn)來驗(yàn)證方法的效果,實(shí)驗(yàn)準(zhǔn)確率達(dá)到90%以上。
介詞短語條件隨機(jī)場識別
專利文獻(xiàn)在國家經(jīng)濟(jì)發(fā)展和科技交流中發(fā)揮著十分重要的作用。近年來,中國專利的申請數(shù)量漲速飛快。面向?qū)@I(lǐng)域的文本信息處理(如專利文本機(jī)器翻譯)逐漸成為自然語言處理的重要應(yīng)用領(lǐng)域之一,并引起了學(xué)術(shù)界和業(yè)界的廣泛關(guān)注。
為了滿足專利文本特定的表述需要,介詞短語作為一種重要的短語類型,在漢語專利文本中分布廣泛。據(jù)統(tǒng)計(jì),在隨機(jī)抽取的500句漢語專利語料中,包含介詞短語的句子有226句,占到了樣本總量的45.2%。[1]可見介詞短語的出現(xiàn)比例非常高。漢語介詞短語的自動識別具有較大的難度,主要表現(xiàn)在以下幾點(diǎn):
1.介詞短語的內(nèi)部構(gòu)成相當(dāng)復(fù)雜。介詞短語可以由介詞與其他詞語和短語(動賓短語、名詞短語、方位短語、時(shí)間短語等)構(gòu)成,甚至可以由整個(gè)句子構(gòu)成。……