曾華琳,周昌樂,陳毅東,史曉東
(廈門大學 信息科學與技術學院,福建省仿腦智能系統重點實驗室,福建廈門361005)
基于特征自動選擇方法的漢語隱喻計算
曾華琳,周昌樂*,陳毅東,史曉東
(廈門大學 信息科學與技術學院,福建省仿腦智能系統重點實驗室,福建廈門361005)
摘要:漢語隱喻計算是中文信息處理中的棘手難題之一.已有的隱喻識別研究多以人工方式分析和抽取隱喻特征,存在著主觀性強、難以擴充的缺點,并且對于專業背景知識要求比較嚴格.本文基于大規模語料庫的機器學習,利用最大熵分類模型,提出了一種最優特征模板自動抽取的隱喻識別算法,討論了3種不同層次的特征模板,既包含了經典的簡單特征,又將跨多個詞的遠距離上下文信息,以及描述語義信息的詞語相似性引入特征模板進行考察.實驗結果表明,該算法提高了隱喻識別準確率,是一種對于漢語隱喻計算行之有效的機器學習方法.
關鍵詞:漢語隱喻計算;隱喻識別;機器學習;自動特征選擇
隱喻,廣泛存在于人類的語言生活中.從先古哲學家亞里士多德的修辭學,到現代萊可夫的認知語言學,無論是在中文語言學,抑或是在西方語言學研究中,隱喻一直是處于前沿探索階段的項目[1-7].在語言學與計算機科學的交叉學科——中文信息處理中,隱喻則屬于語義級別的范疇,至今仍然是亟待解決的棘手難題之一.
漢語隱喻的研究,主要集中在隱喻識別和隱……