柴 悅,趙彤洲,江逸琪,高佩東
武漢工程大學計算機科學與工程學院,湖北 武漢 430205
新聞主題詞提取是將核心詞和短語從新聞文本中挖掘出來的過程。主題詞包含有助于人們理解文本內容的主要信息,通過查看主題詞,用戶可以更輕松地找到他們需要的新聞。由于主題詞是對文本主題信息的高度凝練,人們還可以使用它們以較低的復雜度來計算文本相關性,因此為許多自然語言處理應用帶來了便利[1-3]。
傳統的主題詞提取方法主要有兩種:一種是根據詞的統計信息對關鍵詞進行排序,如詞頻-逆文檔頻率方法[4]和TextRank[5]等;另一種是應用機器學習算法,提取各種特征來訓練模型,如隱馬爾可夫模型[6]、支持向量機(support vector machine,SVM)[7]、樸素貝葉斯模型[8]等。詞頻-逆文檔頻率方法在進行文檔主題詞提取時,由于文檔主題結構特征缺少的原因,導致該方法主題詞提取效果差。TextRank 考慮了部分文檔主題結構特征,如文檔中詞與詞之間的關系,但仍然傾向于選取文檔中的高頻詞作為主題詞。應用機器學習算法進行主題詞提取,通過提取各種特征來訓練其模型已被證明可以獲得出色的性能,但這種方法依賴人工定義的規則,沒有充分考慮詞的上下文信息且對特定的數據集敏感[9]。
近年來,長短期記憶(long short-term memory,LSTM)模型在多種NLP 問題中被廣泛使用,如情感分析[10]、詞性標注[11]、命名實體識別[12]、關鍵詞抽取[13]等問題。但是LSTM 模型在進行主題提取時從句子開頭到中心詞建模,沒有考慮句子下文對該詞的影響。……