余本功 張宏梅 曹雨蒙
知識組織與應用
基于多元特征加權改進的TextRank關鍵詞提取方法*
余本功 張宏梅 曹雨蒙
(合肥工業大學管理學院,合肥 230009)
現有的關鍵詞提取方法從文檔集或者單文檔方面考慮詞語的特征,很少考慮詞語在單文檔和文檔集中的綜合特征對關鍵詞提取效果產生的影響,因此,本文提出多元特征加權的關鍵詞提取方法。該方法通過Word2vec模型提取出詞語在文檔集中的語義關系特征與詞語在單文檔中的重要性特征,通過線性加權的方式計算出詞語的綜合影響力,用于改進TextRank模型中的概率轉移矩陣,最后迭代計算選取排名靠前的詞語作為文檔的關鍵詞。實驗結果表明,從單文檔和文檔集兩方面綜合考慮詞語的影響力,可以有效地改善關鍵詞的提取效果。
關鍵詞提取;TextRank ;Word2vec;多元特征加權
隨著互聯網技術的發展和移動互聯網的普及,以論壇、博客、頭條和知乎社區為主流的媒介平臺成為人們共享知識及發表言論的重要場所。這些平臺上存儲大量有用的非結構化文本信息,如何從承載這些信息的文本中提取對用戶有用的信息成為了一個亟需解決的難題。自然語言處理技術為解決這一難題提供了強有力的技術支撐。
關鍵詞提取作為自然語言處理的核心技術之一,對自然語言處理技術的應用有重要的作用。一方面,它為自然語言處理中的文本聚類分類、熱點識別、創新評價研究,以及知識圖譜和領域知識網絡的構建打下了基礎[1-5];……