結合注意力機制與循環神經網絡的序列推薦模型

2023-10-31 11:39:42成衛青

軟件導刊 2023年10期

吳曉，成衛青

（南京郵電大學計算機學院，江蘇南京 210046）

0 引言

隨著互聯網技術的迅速發展，用戶逐漸迷失在海量的信息之中，推薦系統（Recommender System，RS）作為一個信息過濾工具，以個性化的方式發現產品和服務，為用戶提供向導。從用戶角度而言，推薦系統旨在解決信息過載情況下用戶如何高效獲得感興趣信息的問題；從公司角度而言，推薦系統解決產品能夠最大限度吸引用戶、留存用戶、增加用戶黏性、提高用戶轉化率的問題。

推薦系統要解決的問題可以被定義為：對于用戶U，在特定的場景C下針對大量的物品信息構建一個函數，預測用戶對特定候選物品I的喜好程度，再根據喜好程度對所有候選物品進行排序，生成推薦列表的問題。推薦系統框架如圖1所示。

Fig.1 Recommender system framework圖1 推薦系統框架

近些年，深度學習被引入推薦系統領域。深度學習主要用來克服傳統推薦模型的缺點從而得到高質量的推薦［1-2］。其可以有效地捕獲非線性的用戶—物品關系和數據本身的復雜聯系，例如上下文、文本和視覺等豐富復雜的信息。隨著Transformer 模型在自然語言處理NLP 領域中的流行，Transformer 被嘗試應用于各領域，并且取得了不錯的效果［3］。SASRec［4］作為基于自注意力構建的序列推薦模型，雖然整個模型仍與原始的Transformer 相似，但是依然取得了較好成效。

目前，絕大多數模型都認為從用戶序列中能夠完全捕捉到用戶當前興趣，例如上文提到的SASRec 模型。但在現實中，用戶的意圖往往很難確定，特別是處于一個長期行為狀態中。其在模型中僅考慮用戶的短期興趣，沒有結合用戶的長期興趣。在模型個性化能力方面，由于沒有加入用戶信息，導致模型個性化能力也較差。在用戶的長期行為中，AttRec［5］、STAMP［6］等模型，通過對用戶行為求平均值，再進行高階線性變換以建立長期偏好模塊，采用的方法較為簡單并且忽略了數據間的時間順序，隨著用戶序列逐漸增長，準確度快速下降。

本文認為，評價一個新產品能否吸引用戶的正確方法是評估它與用戶短期偏好和長期偏好的匹配程度。為了能夠獲得較為準確的推薦結果，提出了一種基于GRU 神經網絡和注意力機制的長期偏好模塊，結合輔助損失函數，捕獲用戶一個長期行為中所有可能出現的偏好，并將它們聚合為用戶最終的長期偏好，以改善隨著用戶序列增長，用戶興趣獲取準確性逐漸下降的問題。并且，基于自注意力機制獲取用戶短期偏好，添加可學習的位置矩陣，以避免忽略物品間的時間順序。同時，探討了在何處融入用戶信息，以提高模型個性化能力。本文嘗試了3 種不同的門控函數將用戶的長期偏好與短期偏好相結合以預測用戶下一個時刻可能交互的物品。此外，本文利用隨機共享嵌入（Stochastic Shared Embeddings）技術，在模型訓練階段對用戶行為序列中交互過的物品和物品集合中的物品按照一定概率進行替換，以提高模型表現力，避免過擬合。

1 相關工作

1.1 序列推薦

序列推薦與協同過濾和基于內容的過濾不同［7］，其通過對用戶序列進行建模，從而向用戶推薦可能感興趣的物品［8］。傳統推薦模型都以靜態方式對用戶—項目交互歷史進行建模，只能捕獲用戶的靜態偏好。相反，序列推薦將用戶—項目交互視為動態序列，并考慮到順序依賴性，捕獲用戶當前偏好以獲得更準確的推薦結果［9］。

序列推薦模型普遍可以分為兩類：專注于用戶通用興趣的全局模型和強調用戶當前興趣的短期模型。獲取用戶興趣的方法一般有3 種：①基于用戶交互歷史，使用協同過濾的方法，如矩陣分解［10］；②基于領域的方法，基于共同交互物品的相似性進行推薦［11］；③基于馬爾科夫鏈的方法，利用用戶行為之間的順序進行預測［12-13］。

1.2 深度神經網絡推薦

隨著序列推薦領域的不斷發展，從馬爾科夫鏈（Markov Chain）到循環神經網絡（RNN）、卷積神經網絡（CNN）模型，以及Transformer，每個時期的序列推薦模型，基本上都對應著該時期應用較多的NLP 模型。

早期，貝葉斯模型是序列推薦中的主流模型。基于馬爾科夫鏈的FPMC［14］，通過歷史數據構建商品之間的轉移矩陣，根據轉移矩陣預測用戶下一個可能購買的商品。基于高階馬爾科夫鏈的Fossil 模型［15］則是通過高階馬爾科夫鏈學習更多的信息，再結合相似性模型解決序列推薦預測中的稀疏性問題。

當進入到深度學習時代，RNN 模型既能夠學到類似馬爾科夫鏈的轉移信息，也能夠通過一些其他方式，比如使用長短期記憶LSTM 學習用戶序列中的信息。由此，出現許多基于RNN 解決序列推薦的研究，如GRU4Rec［16］、RRN［17］、HRNN［18］等模型都是采用RNN 模型或者其變體進行序列推薦，還有一些基于CNN 的序列推薦模型。盡管序列推薦中更加關心行為之間的關聯性，而CNN 主要用于提取局部到整體的信息，但是3D-CNN［19］、Caser［20］、HierTCN［21］等模型從不同角度介紹了CNN 模型在序列推薦中應用的可能性。其中，Caser 模型提出了union-level 的概念，即通過組合前幾個行為信息，以預測用戶下一個或者下幾個行為，展現了CNN 注重于整體的特性；HierTCN 模型則是通過將卷積網絡與GRU 結合起來進行預測，這樣既保持了卷積的特性，也保持了RNN 的序列建模特性。

從NLP 中的Self-Attention 模型開始，注意力模型開始被逐漸應用于各個領域。Bert4Rec［22］作為基于Bert 模型的序列推薦，其彌補了SASRec 單向建模的缺點，采用雙向建模。SSE-PT［23］則是考慮了用戶信息在序列建模中的重要性，并且提出了使用隨機共享嵌入SSE 這一方法以提升模型表現能力。

1.3 注意力模型

隨著注意力模型在深度學習領域的廣泛應用，圖像處理、語音識別、自然語言處理和推薦系統等領域中各種不同類型的任務［24-26］中都出現了注意力模型的身影。

從注意力模型的命名方式看，其借鑒了人類的注意力機制，核心目標是從眾多信息中選擇出對當前任務目標更關鍵的信息。

注意力機制將Source 中的構成元素想象成是由一系列的＜Key，Value＞鍵值對構成，此時給定Target中的某個元素Query，通過計算Query 和各Key 的相似性或者相關性，得到每個Key 對應Value 的權重系數，然后對Value 進行加權求和，即得到了最終的Attention 數值。因此，本質上Attention 機制是對Source 中元素的Value 值進行加權求和，而Query 和Key 用來計算對應Value 的權重系數，如圖2所示。

Fig.2 Attention mechanism圖2 注意力機制

自注意力模型，顧名思義“自”即是自己，其指的不是Target 和Source 之間的Attention 機制，而是Source 內部元素之間或者Target 內部元素之間發生的Attention 機制，也可以理解為Target=Source 這種特殊情況下的注意力計算機制。

2 方法模型

2.1 模型框架

序列推薦的目標是在任何時間內，為任何給定的用戶學習獲得一個較好的物品個性化排名。現定義實驗數據集格式：設S表示一組用戶集合，物品索引集合I，其中記|S|為L1，|I|記為L2，定義用戶i的用戶序列Si=

用戶序列Si按照時間順序記錄用戶i在一段時間內交互過的物品索引。對于不同的用戶而言，其交互的序列長度是可變的，但在實驗過程中，本文選擇對于較短的用戶序列在左側進行填充，對于較長的用戶序列則選擇最近的T個交互索引，使每個用戶序列都具有相同的序列長度T。

由于序列推薦是根據用戶的交互歷史預測下一時刻用戶可能交互的物品，因此不能簡單隨意地劃分訓練集、驗證集和測試集。對于每一個用戶序列而言，將其前T-2個用戶交互索引歸入訓練集，第T-1 個交互索引歸入驗證集，最后一個交互索引T歸入測試集。

圖3為本文模型PAGRURec 簡略結構圖。本文采用排名指標NDCG@K 和HIT@K 對模型性能進行評價。

Fig.3 Schematic of model framework圖3 模型框架簡略

2.2 嵌入層

本文創建了一個可訓練的物品嵌入矩陣M∈RL2×d，并根據物品嵌入矩陣得到用戶i的初步輸入嵌入矩陣E∈RT×d。其中，0 作為填充項，dm表示物品嵌入矩陣的隱藏維度，du表示用戶嵌入矩陣的隱藏維度，本文中du=dm=d。

用戶的最終選擇不僅取決于物品信息，還需要考慮到自身信息，因而創建一個可訓練用戶信息矩陣U∈RL1×d，在輸入嵌入矩陣中加入用戶信息，以完成個性化推薦。在用戶i的輸入嵌入矩陣E∈RT×d中拼接該用戶的用戶信息得到新的輸入嵌入矩陣E∈RT×2d：

由于自注意力模型中沒有包含任何可以反映位置信息的模塊，故本文創建了一個可訓練的位置矩陣P∈RT×2d嵌入到輸入嵌入矩陣中最終得到可訓練輸入嵌入矩陣E∈RT×2d：

圖4 展示了嵌入層對用戶i的歷史行為序列所進行的操作，對用戶i每個時刻所交互過的物品拼接了用戶i的用戶信息，并加上能夠代表該物品所處位置的信息。

Fig.4 Schematic of embedded layer圖4 嵌入層簡圖

2.3 短期偏好

對于用戶的短期偏好，本文采用自注意力模型建模，通過堆疊自注意力模塊得到用戶的短期偏好ms。圖5 為SASRec 的提取用戶短期偏好的一個自注意力模塊。

Fig.5 Short term preference module圖5 短期偏好模塊

2.3.1 注意力計算公式

其中，Q代表查詢向量，K和V代表鍵值對，通過該式可計算所有值的加權和。在自注意力模型中，Q、K、V由同一輸入得到，為捕捉用戶序列中的復雜關系。

對輸入矩陣E進行3次不同的線性變換得到Q、K、V。其中，WQ、WK、WV∈RT×2d代表3種不同的線性變換，將輸入矩陣E映射至不同的空間。

2.3.2 前饋神經網絡

自注意力機制自適應地分配權重聚合了整個用戶序列的交互歷史，但其本質仍是一個線性模型。物品隱藏維度之間并不是相互獨立的，為了能夠捕捉物品隱藏維度d之間的非線性關系，在自注意力機制后加入前饋神經網絡。其中，W1、W2∈RT×2d，b1、b2是2d維向量，ReLU為激活函數。

2.3.3 殘差連接與歸一化

在一定程度上，神經網絡越深，其表達能力也越強。本文采用堆疊多層自注意力模塊獲取更加準確的興趣表達。但隨著網絡的加深，也會面臨梯度消散、梯度爆炸等問題［27］。殘差連接緩解了梯度消散、爆炸等問題，提高了模型表達能力。

殘差連接就是將輸出表述為輸入和輸入的非線性變換的線性疊加［28-29］。具體地，假設輸入為x，非線性變換為H，其參數為WH，輸出為y，殘差連接可表示為：

層歸一化用于歸一化特征的輸入，有利于穩定和加速神經網絡訓練［30］。與批量歸一化不同，層歸一化中使用的統計信息與相同批次中的其他樣本無關。具體地，假設輸入是包含樣本的所有特征的向量x，層歸一化可被定義為：

2.3.4 堆疊自注意力模塊

為了能準確獲得用戶的短期興趣，本文堆疊多個自注意力模塊以學習用戶序列中更復雜的內在聯系。將多個自注意力層之后的輸出作為用戶的短期偏好ms。一個自注意力模塊定義如下（其中，b表示堆疊自注意力模塊的數量）：

為了減輕深度神經網絡中的過擬合問題，本文使用Dropout正則化［31］。

2.4 長期偏好

對于用戶的長期偏好，本文假設其在t時刻長度內固定不變，表示為ml，圖6為本文的長期偏好模塊。

Fig.6 Long term preference module圖6 長期偏好模塊

對用戶i而言，首先使用GRU 神經網絡提取每個時間步的輸出ht作為用戶該時刻的興趣。

圖7展示了一個GRU 單元及其內部公式。

Fig.7 GRU diagram圖7 GRU簡略圖

其中，Wz、Wr、Wh∈R2d×2d，bz、br、bh∈R2d為偏置，σ()為Sigmoid 函數。zt∈(0，1)為更新門，式（15）表示當前狀態ht需要從歷史狀態ht-1中保留多少信息，以及從候選狀態中接受多少新信息。當zt=0 時，ht和ht-1之間為非線性函數關系；當zt=1 時，ht和ht-1之間為線性函數關系。rt為重置門，用來控制候選狀態的計算是否依賴上一個時刻的狀態ht-1。

用戶i的長期興趣表示為：

2.5 門控函數

考慮到在不同的時刻，用戶的長期偏好與短期偏好對正確推薦結果的貢獻不相同，本文設計了3 個類似GRU 神經網絡的門控函數，這里選擇效果最好的一種加以介紹，兩外兩種將在3.3.3中提及。

其中，W0、W1、W2、W3∈R2d×2d表示t時刻用戶i所交互的物品信息，ba∈R2d為偏置，σ()為Sigmoid 函數，Yt為用戶t時刻最終的興趣表達，β為t時刻短期興趣ms在最終興趣Yt所占的權重。

2.6 預測層

為了預測用戶i在t+1時刻可能交互的物品，取用戶在t時刻的最終興趣表示Yt，相關性分數計算如下：

其中，rj，t表示物品j在t+1時刻與用戶t時刻興趣的相關性得分，M∈RL2×d為物品嵌入矩陣，Ui表示用戶i的用戶信息。相關性得分越高，表示用戶在下一時刻（即t+1時刻）與該物品交互的可能性越高，以此為用戶生成個性化的推薦列表。

2.7 網絡訓練

對于每個用戶序列，本文通過填充或者截斷使每個用戶序列為固定長度T。本文定義ot為t時間步的預期輸出：

其中，＜pad ＞表示為填充項，模型采用用戶序列Si作為輸入，ot為相應時刻的輸出。最終交叉熵損失函數，并且計算損失函數時不考慮填充項。

為提高長期模塊中每個時間步ht的準確性，計算GRU神經網絡每個時間步輸出的興趣與用戶交互物品的交叉熵損失作為輔助損失。

首先計算t時刻用戶興趣，即GRU 神經網絡t時刻的輸出ht與t+1時刻用戶可能交互的物品相關性得分。

同時，定義ht為t時間步的預期輸出：

其中，pj，t表示物品j在t+1時刻與用戶t時刻的用戶信息相關性得分，相關性得分越高，表示通過GRU 神經網絡提取的用戶興趣更加準確。

最終的損失函數表示為：

其中，δ為權重。

2.8 模型復雜度

從空間復雜度和時間復雜度兩個方面考慮：

（1）空間復雜度。本文模型中可學習的參數主要來自于短期偏好中的自注意力層，前饋網絡層、歸一化層和長期偏好中的循環神經網絡層和注意力層。總參數量為：O(L1du+L2dm+nd+d2)。其中，d=du+dm，dm表示物品嵌入矩陣的隱藏維度，du表示用戶嵌入矩陣的隱藏維度，本文中du=dm。

（2）時間復雜度。本文模型的時間復雜度主要來自于注意力計算和前饋神經網絡等，時間復雜度為(n2d+nd2)。

3 實驗與結果分析

3.1 對比實驗

3.1.1 實驗設置

本文模型使用Pytorch 實現，選用Adam 優化器，學習率為0.001，批量尺寸為128，隱藏維度設置d為50。在嵌入層和預測層使用同一個物品嵌入矩陣和用戶嵌入矩陣，并且使用隨機共享嵌入概率為0.02。MoviesLens-1M 最大序列長度設置為200，Dropout 為0.2，其余3 個數據集最大序列長度設置為50，Dropout為0.5，權重δ為0.2。

3.1.2 數據集

本文使用4 個來自于真實世界的數據集，并將數據集劃分為訓練集、驗證集和測試集。其中，Beauty 和Games數據集是McAuley［32］等從亞馬遜爬取的產品評論數據集；Steam 數據集是游戲平臺Steam 的評論數據；Movielens1M數據集是被廣泛使用的基準數據集，包含了一百萬用戶的電影評級［33］。數據集詳細信息如表1所示。

Table 1 Dataset information表1 數據集信息

3.1.3 評估指標

本文選用兩個常見的Top-N 評價指標HIT@K 和NDCG@K 評價推薦模型的性能。HIT 是衡量召回率的一種常用指標，NDCG（歸一化折扣累計收益）是一個0 到1 之間的數，主要思想是對推薦列表中的每一項都會根據其所處位置除以一個遞增的數，然后累加得到DCG，最后對所有的DCGs 作歸一化處理得到NDCG。其代表著用戶喜歡的商品被排在推薦列表前面比排在后面能更大程度地提升用戶體驗。

為了避免對所有用戶—物品進行計算，本文遵循相應的策略［34-35］。對每一個用戶，隨機采樣100 個負樣品，并與真實交互物品一起排名，基于這101 個物品計算HIT@K和NDCG@K。

3.1.4 推薦模型

本文在對比實驗中選擇了7個推薦模型。

FPMC［14］：通過矩陣分解和一階馬爾科夫鏈，獲得物品的轉移矩陣和用戶的通用興趣，而進行推薦的模型。

GRU4Rec+［36］：GRU4Rec［16］的改進版本，采用了不同的損失函數和采樣策略，在Top-N 推薦中取得了顯著效果。

STAMP［6］：利用注意力機制構建推薦模型而不是使用RNN 或CNN 構建模型。

SASRec［4］：使用從左到右的Transformer 模型進行推薦的模型，在序列推薦中取得了顯著的效果。

Bert4Rec［22］：其彌補了SASRec［4］的單向建模，采用了雙向建模序列。

TiSASRec［37］：融入了時間戳的自注意力模型，不僅考慮物品的絕對位置，還考慮序列中物品之間的時間間隔。

LSAN［38］：利用組合嵌入的方式并且融入了上下文感知的注意力網絡，同時消除了傳統多頭自我注意力的冗余。

3.1.5 實驗結果

本文推薦模型（PAGRURec）在4 個數據集上都取得了較為明顯的效果，實驗結果如表2所示。

Table 2 Experimental result表2 實驗結果

在各數據集上，本文推薦模型與其他模型相比，各項指標得到較大提升。以Beauty 數據集為例，與非深度學習中的FPMC 模型相比，HIT@10 提升21.3%，NDCG@10 提升了26.9%；與深度學習中的SASRec 模型相比，HIT@10 提升8.8%，NDCG@10 提升14.7%；與最近的LSAN 模型相比，HIT@10提升2%，NDCG@10提升2.3%。

3.2 消融實驗

本文進行消融實驗如下：

（1）刪除位置嵌入（RemovePE）。自注意力模型本身并不具備感知位置信息的能力，刪除短期偏好中的位置信息，忽略了用戶交互歷史的順序關系。在長序列中，由于短期偏好與最近的一個或者幾個歷史行為有著較大的聯系，因而刪除位置嵌入可能會導致模型性能下降，但對用戶序列較短的稀疏數據集影響較小。

（2）刪除殘差連接（RemoveRC）。殘差網絡能將網絡的淺層信息傳遞到深層，避免產生網絡的退化等問題。刪除殘差連接使信息的傳遞出現較大問題，導致淺層網絡參數無法更新，模型性能變差。

（3）刪除Dropout（RemoveDropout）。Dropout 是指在深度學習網絡訓練過程中，對神經網絡單元，按照一定的概率將其暫時從網絡中丟棄，是防止模型過擬合和提高效果的手段，刪除Dropout使得模型性能有所下降。

（4）刪除隨機共享嵌入（RemoveSSE）。SSE［23］的主要思想是將嵌入矩陣中的某一內容以事先定義好的概率隨機替換為另一個內容，從而使嵌入層具有正則化的效果。刪除過后模型發生嚴重的過擬合現象。

（5）增加或刪除自注意力模塊數（Block=1，Block=3）。在密集數據集如ML-1M 中，堆疊更多的自注意力模塊能夠學習用戶歷史行為中更加復雜的關系，能夠在一定程度上提升模型性能。在稀疏數據集例如Beauty 中，增加或刪除自注意力模塊個數對整體影響不大。

（6）使用多頭注意力機制（Multi-Head，Head=2）。用戶的興趣往往是多方面、多維度的。例如，用戶對一件商品的喜愛可能不僅僅因為它的品牌，還可能因為它的價格或者質量等。因此，使用多頭注意力機制能夠更加準確地獲得用戶的興趣。

消融實驗結果如表3所示。

Table 3 Ablation experiment（based on NDCG@10）表3 消融實驗（以NDCG@10為例）

Table 4 Comparison of gating functions表4 門控函數比較

3.3 實驗分析

3.3.1 用戶長期偏好

用戶長期偏好中的注意力機制不同于短期偏好中的自注意力，其Q、K、V并非由同一輸入經過線性變換得到。對于輸入用戶序列，首先經過GRU 神經網絡得到用戶每個時刻的初步興趣ht，將其視為查詢向量Q，同時也視為V，并通過計算輔助損失l2提高V的準確性；然后對輸入用戶序列經過線性變換得到K；通過計算注意力，最后求和得到用戶的長期偏好。如圖8 所示，QKT表示了每個時刻用戶興趣與用戶交互物品之間的注意力權重。

Fig.8 Visual diagram of attention weight圖8 注意力權重可視化圖

從宏觀角度看，本文長期偏好與以往的長期偏好一樣是靜態、全局的，但獲取方式卻與以往求均值等方式不同，其內部是動態的，充分利用了用戶的每個交互歷史，采用每個時間點興趣ht動態組成用戶的長期偏好，解決了信息遺漏、平均等問題。

例如，在用戶一個長期購物行為中，用戶購買的商品中大多為運動鞋、運動襪等運動產品，小部分為數碼產品。隨著用戶序列的增加，根據求均值的方法獲取用戶長期興趣，數碼產品在用戶長期興趣中的占比可能被稀釋，因而占比極小，那下一個推薦的產品大概率就是運動產品。而本文長期偏好模塊能較為精確地獲取用戶一個長期行為中每個時刻的興趣，再通過注意力機制將所有的興趣融合為用戶的長期興趣，能夠充分利用用戶交互過的每個商品，避免上述問題。

如圖9所示，在稀疏數據集Beauty 中，用戶序列平均長度僅為7.6，STAMP 長期偏好模塊與本文長期偏好模塊在性能上相差不大。由于用戶序列較短，STAMP 通過對用戶序列求均值，進行高階線性變換可以簡單高效獲得用戶的長期偏好，并且用戶序列越短，準確度也越高。本文長期偏好模塊較為復雜，在短用戶序列中可能會產生過擬合現象，因此在稀疏數據集中表現一般。但隨著隱藏維度的提高，其捕捉物品隱藏維度d之間非線性關系的能力得到了體現，兩者之間的差距逐漸縮小。

Fig.9 Beauty dataset圖9 Beauty數據集

如圖10 所示，在密集數據集ML-1M 中，用戶序列平均長度為163.5，本文長期偏好模塊對比STAMP 模型取得了約60%的提升。在密集數據集中，本文長期偏好模塊通過非線性變換—注意力機制—加權求和3 個階段，結合l2損失函數，充分利用了用戶每個時刻所交互過的物品，避免了STAMP 長期偏好模塊可能導致的信息遺漏、平均現象。

Fig.10 ML-1M dataset圖10 ML-1M數據集

3.3.2 用戶信息

SASRec 模型中，預測層將用戶信息與興趣相加進行預測，實驗結果表明添加用戶信息并沒有提高模型性能，因此認為用戶興趣已經能夠充分地表示用戶信息。

但推薦模型中用戶信息顯然必不可少，其有助于提高模型個性化能力。本文在模型輸入階段，將用戶信息與用戶序列進行拼接，結合隨機共享嵌入正則化技術，按照0.02 的概率隨機替換用戶序列中交互過的物品，提高模型個性化能力。圖11 表示了ML-1M 數據集在不同隱藏維度d下添加用戶信息與不添加用戶信息NDCG@10 指標的表現情況。

Fig.11 Performance diagram of user information圖11 用戶信息性能表現圖

3.3.3 門控函數

本文先后嘗試了3 種方法將短期偏好ms和長期偏好ml相結合。除上文提到的方法外，還有2 種方法：①將短期偏好與長期偏好直接相加得到最終的用戶偏好；②分別求短期偏好與長期偏好對用戶序列的相似性權重，再進行加權求和得到最終的用戶偏好。

本文采用的方法相比于第一種直接相加的方法，能夠自適應分配短期偏好與長期偏好的權重；相較于第二種方法中短期偏好與長期偏好的權重取決于各自對用戶序列的相似度，本文中的權重β由短期偏好與長期偏好共同決定，長期偏好與短期偏好并不是孤立的，因而取得了最好的效果。

3.3.4 訓練效率

圖12 展示了ML-1M 數據集下基于GPU 的訓練效率。GRU4Rec 由于其性能較差而被省略。為了公平比較，所有模型僅使用最近的200 個操作進行訓練。在計算速度方面，本文模型只花費了1.5 s 進行一次模型更新，比LSAN和SASRec 快1 倍以上，比STAMP 快10 倍以上，比Caser 快12 倍。在ML-1M 數據集上，本文模型在大約300 s 內收斂到最佳性能，而其他模型則需要更長時間。

Fig.12 Training efficiency圖12 訓練效率

4 結語

本文提出了一種結合注意力與GRU 神經網絡的序列推薦模型，用于預測用戶下一時刻可能交互的物品。首先，探討了如何有效地將用戶信息與用戶序列相結合的問題，配合隨機共享嵌入技術，完成個性化推薦；其次，使用自注意力模型提取短期興趣，使用GRU 神經網絡和注意力機制，配合輔助損失函數提取長期興趣；最后，探索了有效結合長期興趣與短期興趣的方法。在稀疏和密集數據集上的實驗結果表明，本文模型性能相比于SASRec、注重短期偏好的STAMP 和采用循環神經網絡的GRU4REC+獲得了較大提升，與最近的Bert4Rec、LSAN 等模型相比在一些數據集上也有一些優勢。未來研究中，將結合豐富的上下文信息擴展模型，并探索處理長用戶序列的方法。