基于多任務深度學習的關鍵詞生成方法

2022-06-23 11:12:26朱浩翔張宇翔

計算機工程與設計 2022年6期

朱浩翔，張宇翔

(中國民航大學計算機科學與技術學院，天津 300300)

0 引言

循環神經網絡(recurrent neural network，RNN)和序列到序列模型的提出與應用，給文本關鍵詞的預測帶來了更多的可行性。在序列到序列模型的基礎上加入注意力機制[1]，利用編碼器和解碼器進行對齊，能有效地關注文檔的不同位置。根據統計，文檔題目中的單詞成為關鍵詞的概率遠遠高于文檔摘要。這說明標題確實包含了高度總結性和有價值的關鍵信息。合理地利用文檔標題的這一特性有助于提升關鍵詞預測的效果。最近的關鍵詞生成方法通常將文檔的標題與文檔無差別拼接[2]，作為預測模型的輸入，沒有體現文檔標題的特殊性。本文以雙任務序列到序列模型[3]為基礎，將關鍵詞短語的生成作為主要任務，將標題生成作為輔助任務，設計了雙任務的注意力聯合訓練模型Joint-MT。與一般的雙任務模型不同，根據注意力機制能衡量輸入文本中所有單詞對當前關鍵詞生成的重要性的特點，在模型訓練的過程當中加入一致性損失，計算兩個任務注意力矩陣部分向量之間的相對熵，增強了兩個任務之間注意力機制的相關性，使模型能夠利用關鍵詞和題目特殊關系提升關鍵詞預測的效果。實驗結果表明，相較于基礎的生成模型和常用的無監督和有監督提取模型，Joint-MT的預測結果都優于對比實驗。

1 關鍵詞預測

隨著文本數據數量的快速增長，如何自動地給文本設定恰當而且精準的關鍵詞就成為了自然語言處理領域之中亟待解決的基礎問題和研究熱點[4]。文本關鍵詞預測的方法可以分成提取與生成兩種。提取方法是在文檔之中抽取合適的單詞或者短語作為對文檔的關鍵詞。對于有監督的方法來說，這常常是一種二分類模型，也可以作為多分類模型，比如Alzaidy等[5]和Zhou等[6]利用條件隨機場將關鍵詞提取任務作為一種序列標注任務，找出文檔中所有可能的關鍵詞。關鍵詞提取方法只能預測在文檔中出現的關鍵詞(文內關鍵詞)。生成模型在預測關鍵詞的時候，是從詞表當中挑選合適的單詞組成關鍵詞，不管這些單詞是否出現在文檔中[7]。Meng等將序列到序列模型應用到了關鍵詞預測的領域當中，并設計了CopyRNN[2]模型。在此之上，Chan等利用強化學習增強模型的預測結果[8]。這種有監督模型依賴于大量有標記數據。為了解決這個問題，Ye等提出了一種半監督關鍵詞生成模型[3,9]，該模型使用有限的標記數據和大量未標記數據和半監督的方法訓練關鍵詞生成模型。在文檔標題信息的使用上，這兩個基于RNN的方法都把文章的摘要和標題無差別地拼接起來作為模型的輸入，忽略了文檔標題在文本總結當中的重要作用。Chen等提出了Title-Guided[10]模型，加入了模型對文檔標題信息的關注。

注意力機制是一種軟對齊方法，可以在處理文本的時候，評估文檔中不同位置的詞語的重要性。如果生成模型只使用固定的詞表，總是存在OOV問題。復制機制利用注意力機制[11,12]，通過對當前輸入文檔中的每個單詞打分，計算出文本中每個單詞在某個時刻成為關鍵詞的概率，解決OOV問題。從表1中可以看出，在KP20K驗證集當中，文檔題目中的單詞成為關鍵詞的概率為24.35%，文檔摘要的單詞成為關鍵詞的概率為7.37%，而且有相當比例的關鍵詞短語完全地包含于題目。文檔標題的關鍵信息密度高于文檔摘要，這是因為文檔標題是作者對文檔全部主旨內容的最精煉表述。本文的模型受到了Wang等和Chen等[13,14]的啟發，采用一致性學習，使多任務模型得到更有效的embedding向量和注意力，強化各任務之間注意力機制的相關性，提高主要任務的效果[15]。

表1 KP20K驗證集中文檔題目和摘要詞語中關鍵詞占比

2 多任務深度關鍵詞生模型

2.1 問題定義

2.2 序列到序列模型

本文使用的多任務深度關鍵詞生成模型由一個編碼器和兩個解碼器組成。編碼器將輸入文本壓縮成為源文本的表示，然后傳入解碼器中。一個解碼器用于生成關鍵詞，另一個解碼器用于生成標題。兩個解碼器共享編碼器中的參數，在神經網絡前向回饋的過程中對其進行優化，并且加入了一致性約束，模型的流程如圖1所示。編碼器和解碼器都使用了長短期記憶網絡LSTM(long short term memory)。長短期記憶網絡可以學習上下文信息，同時還可以應對RNN模型可能會出現的長期依賴問題。

在序列到序列模型之中，編碼器的目的是將輸入的有序文本轉化成一個稠密的向量h。本文采用雙向LSTM作為模型的編碼器，它既編碼t時刻之前的文本，也編碼t時刻之后的文本，可以更好融合上下文的信息。編碼器中編碼過程的計算公式為

(1)

(2)

(3)

St=LSTM(yt-1,St-1)

(4)

p(yt|y

(5)

其中，yt-1表示t-1時刻模型預測的單詞，St表示t時刻解碼器的隱藏狀態。g(·)表示包含注意力機制的非線性可學習函數。p表示t時刻模型預測單詞概率分布，表示選取V中單詞作為t時刻模型輸出的概率。V是模型的單詞表，里面包含了訓練集中出現頻率最高的n個單詞(本文n設為50 000)。

在模型訓練的過程中，將最小化模型的損失，提高預測正確目標序列的概率。在模型測試時，采用束搜索方法生成關鍵詞，得到關鍵詞短語候選集，在適量的短語上對模型的預測效果進行評價。

2.3 注意力機制

關鍵詞生成任務與翻譯任務類似，都是根據輸入的源文本預測可變長的目標文本。序列到序列的翻譯模型中，注意力機制使得模型能夠動態的專注于輸入文本的重要部分，根據不同的輸入文本，給文本中不同位置的信息賦予不同的權重。關鍵詞生成模型之中加入注意力機制能夠更好地理解和融合輸入文本潛在的語義信息，提高關鍵詞預測的效果。在解碼的過程中添加注意力機制計算t時刻生成概率的分布

p(yt|y

(6)

(7)

(8)

(9)

其中，a(·)是一種軟對齊函數，它衡量了St和hk之間的相似度，Wa是可學習的參數矩陣。

2.4 復制機制

應對生成模型中的OOV問題，使用了復制機制。傳統的生成模型在生成關鍵詞的時候，只能預測詞表V當中的詞語，詞表的長度有限，不能包含數據集中的所有單詞。然而，文檔中會含有不在詞表V中的單詞，這些單詞也有可能是文檔的關鍵詞。這種情況下，生成模型就不能預測出這個詞表外的關鍵詞。復制機制可以應對這個問題。復制機制和注意力機制的處理相似，它度量源文本中每一個單詞在t時刻成為關鍵詞的概率，無論這個詞是否存在于詞表V中。

與式(7)的處理一樣，復制機制計算出衡量源文本單詞重要性的向量Ct。最后通過映射的方式得到復制概率pc，也就是在預測關鍵詞的時候，直接從源文本復制這個單詞的概率

pc(yt|y

(10)

復制概率pc分布在源文本中的所有單詞上，這些單詞既有詞表V中的單詞，也可能含有不在詞表V中的單詞。最終，整個模型在t時刻的預測概率由生成概率pg與復制概率pc相加得到。相加后計算出詞表V和源文本的所有單詞成為關鍵詞的概率

p(yt|y

(11)

2.5 多任務聯合訓練損失函數

在模型訓練的過程中，以關鍵詞生成為主要的任務，題目生成為輔助任務。兩個任務在訓練的過程中的損失(目標)函數可以分別表示為

(12)

(13)

只把兩個任務的損失相加作為模型的損失(目標)函數，不能將多任務模型的優點發揮到最大。尤其是本文希望模型在預測關鍵詞的時候更加關注文檔題目中的單詞，因為這些單詞更有可能成為關鍵詞。所以本文采用一致性學習(agreement-based learning)[15]的方法。模型中的兩個解碼器對輸入文本有著不同的注意力分布AK和AT，表示解碼時對源文本不同位置的關注。本文在模型中添加額外的損失函數對這個兩個注意力分布進行約束，使兩個解碼器在處理重要單詞時具有一致性。由于文檔的關鍵詞和題目的長度不一樣，在計算損失之前需要對齊，如式(14)所示

(14)

圖2 對齊聯合訓練一致性損失

(15)

最后，聯合訓練的多任務模型的損失函數如式(16)所示，其中包含3個超參數λ1、λ2和λ3

Ltotal=λ1L1+λ2L2+λ3Lagree

(16)

3 實驗與結果分析

3.1 數據集

本文采用了Meng等[2]從各種在線庫中收集的大約57萬條數據集樣本，選取其中約53萬條數據作為模型的訓練集，兩萬條數據作為驗證集，兩萬條數據作為測試集，也就是KP20K。除此之外還在4個被廣泛使用的科學領域文檔數據集：Inspec、Krapivin、NUS和SemEval，一個新聞領域文檔測試集DUC上進行了測試。

3.2 對比實驗

根據關鍵詞預測任務的分類，選取了其中具有代表性的模型方法作為對比實驗。在文內關鍵詞預測的對比實驗中包含了兩個無監督的提取方法：TF-IDF方法和SingleRank方法[2]，兩個有監督的提取方法：Maui和Kea[2]，兩個有監督的序列到序列生成模型：CopyRNN模型和Vanilla-MT[3]模型。在缺失關鍵詞預測和其它領域文檔數據集的關鍵詞預測中，采用CopyRNN作為對比實驗。

3.3 實驗配置

模型訓練時，采用一對一模式，輸入文檔，模型將輸出一個關鍵詞短語。為了滿足模型訓練的條件在數據預處理時，將KP20K數據集中<文本，多關鍵詞短語，題目>的一對多格式數據轉變成<文本，單個關鍵詞短語，題目>的一對一格式。將文本當中所有的數字用表示，不在數值上做區分，將所有的單詞小寫化。預處理之后有約270萬條<文本，單個關鍵詞，題目>數據。

在模型的超參數方面，經過測試和調整，式(16)中的3個超參數λ1、λ2和λ3分別設置為0.7、0.3和0.3。采用維度為150的embedding，初始化在[-0.1,0.1]的隨機均勻分布中，所有的LSTM隱藏層向量的維度設置為512，其中包括一個雙向的LSTM編碼器和兩個單向的LSTM解碼器。選取訓練集中出現頻率最高的50 000個單詞作為詞表V。樣本中出現的不在詞表里的詞作為OOV。每個樣本有自己獨立的OOV。在模型訓練的過程中使用了導師驅動模式。模型使用Adam方法作為模型訓練的優化器，學習率為0.001。梯度裁剪為0.1，dropout為0.5。訓練時的批處理的大小為96，因為每一篇文章有多個關鍵詞，在每一次批處理的時候，選取的數據對的數量會小于等于96，一篇文章的關鍵詞不會在不同批次進行訓練。在預測關鍵詞時使用束搜索方法而不是貪心算法，beam size為200，最大預測長度為6。一旦在驗證數據集上確定了收斂性(連續多次驗證，評價指標沒有提升)，模型將停止訓練。

3.4 實驗評價指標

一般采用準確率、召回率和F1值作為關鍵詞預測結果的評價指標，為了能夠對比模型的效果，我們也同樣采用了這些指標評價我們的模型

(17)

式中：#c表示預測正確的數量，#p表示用于評估的預測關鍵詞的數量，#l表示了作者標注的關鍵詞的數量。和CopyRNN和Vanilla-MT模型一樣采用了top-N宏平均F1值來評價文內關鍵詞預測，R值來評價缺失關鍵詞預測。例如，F1@5表示取預測結果的前5個關鍵詞短語作為模型的預測結果進行F1值評價，R@50表示取預測結果的前50個關鍵詞短語作為模型預測結果進行R值評價。

3.5 結果分析

3.5.1 文內關鍵詞預測結果

文內關鍵詞的預測結果見表2和表3，使用序列到序列模型CopyRNN，Vanilla-MT和Joint-MT模型在文內關鍵詞預測評價指標F1@5和F1@10上都比無監督的關鍵詞提取方法TF-IDF和SingleRank和有監督的關鍵詞提取方法Maui和KEA都有了明顯的提升。在CopyRNN，Vanilla-MT和Joint-MT模型每一輪訓練結束后，都采用驗證集對模型的關鍵詞預測效果進行驗證。結果如圖3所示，Joint-MT在訓練的速度和最終的結果上都要優于CopyRNN、Vanilla-MT模型。相對于單任務的模型，雙任務模型的預測效果更好。例如，在NUS數據集上，Vanilla-MT和Joint-MT模型的F1@5值達到35.2%和36.4%，都高于CopyRNN的34.2%。說明多任務模型共享編碼器的參數，提升模型的預測效果。對比于Vanilla-MT模型，Joint-MT模型在5個數據集上的表現都優于Vanilla-MT，驗證在損失函數的部分加上關鍵詞生成和題目生成任務之間的相互約束，能夠提升模型關鍵詞預測的結果，使模型能充分利用文本題目的信息。

表2 不同模型在5個數據集上的文內關鍵詞的F1@5預測結果

表3 不同模型在5個數據集上的文內關鍵詞的F1@10預測結果

圖3 模型訓練過程中F1的值變化

3.5.2 缺失關鍵詞預測結果

關鍵詞生成方法與提取方法最大的區別就是生成的方法可以預測出缺失關鍵詞。所以和同樣是關鍵詞生成方法的CopyRNN進行了對比。由于缺失預測的準確率非常的低，所以選取了合適的召回率R@10和R@50作為對比實驗的評價指標。從表4可以看出，在5個數據集上Joint-MT的模型都比CopyRNN模型表現得好。例如，在Inspec數據集上，Joint-MT模型的R@50值達到11.8%，高于CopyRNN的10.1%。說明添加了聯合訓練的題目生成的輔助任務能夠幫助模型更好理解文本深層語義信息。

表4 CopyRNN和Joint-MT模型在缺失關鍵詞上的預測結果

3.5.3 其它領域的數據測試

Joint-MT模型在KP20K訓練集上訓練，然后在非科技論文測試集上對比這兩個模型的效果，非科技領域的數據使用了常用的一個新聞文章數據集DUC。DUC數據集中包含了308篇新聞文章和2488個人工標注的關鍵詞。

從表5中可以看出，在F1@10的指標中，相比于無監督的IF-IDF和SingleRank方法，Joint-MT模型和CopyRNN模型都遠低于它的27.0%。但是與同是經過大量科技文章數據集訓練過的CopyRNN的模型Joint-MT的預測結果從16.5%提升到了17.7%。說明Joint-MT即使應用在交叉領域，相比于基礎模型可理解更多文本深層的語義。

表5 Joint-MT模型在DUC上的關鍵詞預測效果

3.5.4 超參數的影響

本文的雙任務聯合訓練模型的損失函數中包含了3個超參數λ1、λ2和λ3。本文也對這3個超參數值的設定進行了研究，通過實驗調整得到最適合模型的超參數值。首先，在λ1與λ2的設定上，令λ1+λ2=1，不添加一致性損失的情況下(λ3=0)，λ1在[0.1,1]中每隔0.1選取一個值分別訓練模型，λ1取0.7，λ2取0.3時模型取得最好的訓練效果。在確定λ1與λ2之后，λ3在[0,1]之間每隔0.1選取一個值分別訓練模型，λ3取0.1時模型取得最好的訓練效果。調整λ3值之后，我們又重新對λ1與λ2的取值進行了驗證實驗，結果如圖4所示。通過對比實驗與驗證實驗，最終確定λ1、λ2和λ3的值。

圖4 λ1取值在5個數據集上的驗證實驗結果

4 結束語

為了利用文檔標題和關鍵詞之間的密切關系，提升序列到序列模型的關鍵詞短語的預測表現，本文提出了雙任務損失聯合訓練的序列到序列關鍵詞短語生成模型Joint-MT。在雙任務模型訓練的過程中添加一致性約束來加強兩個任務之間的相互聯系，既提升了文內關鍵詞預測的效果，又提升了缺失關鍵詞預測的效果。在未來的工作中，希望結合Transformer[1]方法，讓模型能更好地融合文本的深層語義，進一步提升缺失關鍵詞的預測效果。

基于多任務深度學習的關鍵詞生成方法

0 引 言

1 關鍵詞預測

2 多任務深度關鍵詞生模型

2.1 問題定義

2.2 序列到序列模型

2.3 注意力機制

2.4 復制機制

2.5 多任務聯合訓練損失函數

3 實驗與結果分析

3.1 數據集

3.2 對比實驗

3.3 實驗配置

3.4 實驗評價指標

3.5 結果分析

4 結束語

0 引言