摘要:為了提高關鍵詞的提取準確率,在對現(xiàn)有關鍵詞抽取方法進行研究的基礎之上,針對影響關鍵詞提取準確率的分詞技術、同義詞現(xiàn)象等難點,提出了一種基于組合詞和同義詞集的關鍵詞提取算法。該算法首先利用組合詞識別算法極大地改進分詞效果,能識別網(wǎng)頁上絕大多數(shù)的新詞、未登錄詞,為提高關鍵詞自動抽取準確率奠定了堅實的基礎;同時利用構造的同義詞集,合并同義詞的詞頻,避免了同義詞在輸出結果中出現(xiàn);利用綜合評分公式,充分考慮候選關鍵詞的位置、長度、詞性等特性。實驗數(shù)據(jù)表明,該方法有較高的提取準確率。
關鍵詞:組合詞;同義詞集;中文網(wǎng)頁;關鍵詞提取
中圖分類號:TP391.1 文獻標志碼:A 文章編號:1001-3695(2010)08-2853-04