999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合時間感知與興趣偏好的推薦模型研究

2023-12-27 14:53:36汪學明
計算機工程與應用 2023年24期
關鍵詞:用戶信息模型

唐 潘,汪學明

1.貴州大學 公共大數據國家重點實驗室,貴陽 550025

2.貴州大學 計算機科學與技術學院,貴陽 550025

隨著信息技術的快速發展,人們從海量數據中獲取目標信息變得十分困難,個性化推薦系統[1-2]為此提供了一個良好的解決方案,可以幫助用戶快速地獲取到目標信息,減少用戶的時間成本。其核心是推薦模型對用戶的交互行為進行分析,精準刻畫用戶的畫像,進而實現向用戶提供感興趣的內容。

傳統協同過濾推薦[3]可以分為基于用戶的協同過濾推薦[4]和基于項目的協同過濾推薦[5],這些方法在推薦系統領域獲得了廣泛的研究和應用,但這類算法忽略了用戶興趣偏好是一個動態變化的過程[6],以及在數據稀疏時存在不能提供良好的推薦性能的問題[7]。

當前,隨著深度學習的發展,基于深度學習的推薦模型成為研究的熱點,與傳統的推薦方法相比,基于深度學習的推薦模型具有更強的深層表達能力,可以學習到更多深層的語義信息,從而解決數據稀疏以及興趣愛好特征提取不足等問題[8]。He等人[9]將神經網絡與協同過濾推薦進行結合提出神經協同過濾推薦模型(neural collaborative filtering,NCF),采用多層感知機網絡學習用戶和項目之間的交互關系,從而捕捉高階非線性特征。隨著循環神經網絡[10](recurrent neural network,RNN)、卷積神經網絡(convolutional neural network,CNN)和注意力機制[11]的興起,在許多任務中具有較好的表現,同時在推薦任務中也取得了較好的成績。然而RNN網絡在決策時需要過去所有的隱藏狀態,無法進行并行計算,存在梯度爆炸或消失等問題,以及在基于注意力機制的模型中只考慮行為序列的相對位置信息具有一定的局限性。

為了解決上述問題,本文提出了融合時間感知與興趣偏好的推薦模型(recommendation model based on time aware and interest preference,TAIP),該模型將用戶的交互時間間隔信息融入到序列嵌入矩陣中,利用多尺度時序卷積網絡和Transformer編碼器挖掘用戶細粒度的長短期興趣偏好,并從整體上融合長短期興趣偏好,從而實現更好的推薦效果。

1 相關工作

序列推薦模型的核心是從用戶的行為序列中構建用戶隨時間變化的興趣偏好,再基于興趣偏好提供個性化的推薦內容。在早期的序列推薦方法研究中,典型的代表是基于馬爾可夫鏈[12]的推薦方法,該方法從用戶的行為序列中學習下一個狀態,得到用戶點擊項目i+1 的概率,但該方法只能關注到局部信息,無法從整體構建用戶的興趣愛好,對推薦模型性能的提升有限。

近年來,由于深度學習技術具有更強的深層表達能力,基于深度學習的序列推薦研究得到了較好的發展。循環神經網絡具有能處理序列數據的特點,在序列推薦中應用比較廣泛。Feltus等人[13]利用循環神經網絡對用戶的行為序列進行學習,取得了不錯的效果。Sun等人[14]將用戶的行為序列送入到長短期記憶網絡(long shortterm memory,LSTM)中進行訓練,得到隱藏空間中不同時期的特征信息,再融合不同時期的特征從而得到了靜態的興趣愛好,也取得了不錯的成績。Tang等人[15]基于卷積神經網絡提出了Caser 模型,將用戶行為序列嵌入矩陣分別使用水平卷積核和垂直卷積核并行獲取序列中的興趣偏好信息,提高了內存的使用效率。Chen等人[16]基于時序卷積網絡(temporal convolutional network,TCN)提出了MPM模型,在模型中使用時序卷積網絡提取了用戶行為序列中的短期愛好,并訓練了一個行為檢測器判斷興趣愛好對目標項目的影響,取得了不錯的效果。但這些基于RNN 和CNN 的推薦方法在處理長距離依賴關系時,會出現梯度爆炸或者梯度消失問題,以及不具有并行計算能力的問題。Chen 等人[17]提出BST模型,采用可以并行計算的多頭注意力機制,自適應計算序列中每個項目的權重系數,在多個數據集上取得了較好的成績。

上述模型雖然可以在一定程度上獲取用戶的興趣偏好,但僅考慮行為序列的相對位置信息存在一定局限性,因為用戶的興趣偏好不是一成不變的,而是會隨著時間的變化而動態變化。為了引入用戶交互的時間信息,Li等人[18]將用戶序列中的時間間隔信息作為重要的因子,設計了一個時間間隔感知的注意力機制去學習各個項目的時間間隔權重,再進行推薦,取得了優異的成績。但通常認為距離當前時刻較遠的項目對用戶興趣偏好的影響較小,反之,較大,因此,如何準確獲取用戶的時間間隔信息是至關重要的。

在本文提出的TAIP模型中,首先,在嵌入層通過時間間隔函數和時間位置解碼器為每名用戶提供個性化的時間間隔信息,從而增強序列嵌入矩陣的位置信息表示;其次,采用多尺度時序卷積增大感受野,捕獲更多細粒度的序列關系,并通過通道和空間注意力機制得到用戶細粒度的短期興趣偏好;同時,采用Transformer編碼器從整體上提取用戶的興趣偏好,并通過注意力網絡探索待推薦項目與興趣偏好之間的關系,從而獲取用戶的長期興趣偏好特征;最后,綜合考慮用戶的長短期興趣偏好進行個性化推薦。

2 融合時間感知與興趣偏好的推薦模型

本文提出的TAIP模型,整體結構主要由嵌入層、多尺度時序卷積層、Transformer層和全連接輸出層四個部分組成,如圖1所示。通過嵌入層可以得到用戶和項目在隱藏空間中的初始嵌入向量,同時在用戶序列嵌入矩陣中引入時間位置信息加強序列的特征表示;多尺度時序卷積層采用多個尺度卷積操作獲取不同時期的興趣偏好,再利用通道和空間注意力機制對不同時期的興趣偏好進行細粒度的特征提取,獲得用戶的短期興趣偏好;Transformer層采用Transformer編碼器建模用戶的興趣偏好,并通過注意力網絡探索目標項目與興趣偏好之間的關系,從而得到用戶的長期興趣偏好;最后全連接輸出層融合用戶所有相關特征,獲得目標項目的概率分布。

圖1 TAIP模型整體結構Fig.1 Overall structure of TAIP model

2.1 嵌入層

嵌入層將用戶集合U和項目集合I分別映射為嵌入矩陣EU和EI,其中嵌入矩陣EU的第u行eu,表示用戶u的嵌入向量;嵌入矩陣EI的第i行ei,表示項目i的嵌入向量。對于用戶u的行為序列,本文使用su=(i1,i2,…,in)表示,并通過嵌入層將su映射為序列嵌入矩陣Bu=[e1,e2,…,en],其中n表示用戶行為序列的長度,en表示用戶行為序列中第n個項目的嵌入向量。

由于TAIP 模型中使用的多尺度時序卷積網絡和Transformer 編碼器不能捕捉用戶行為序列中的相對位置信息,因此本文在嵌入層中引入時間位置信息加強模型對位置信息的學習。對于每名用戶具有不同的時間間隔信息,以及不同時期的項目對當前推薦任務的重要程度也不同,所以在TAIP 模型中采用時間間隔編碼的方式獲取時間信息。首先,將用戶行為序列的交互時間定義為Tu=(t1,t2,…,tn),則在t時刻可以計算交互時間距離當前時刻的間隔;其次,為了表示距離t時刻較遠的項目具有較小的影響力,本文設計的時間間隔函數如式(1)所示,該函數可以將較遠的項目賦予較小的權值:

其中,t表示當前時刻;ti表示第i個項目的交互時間;表示用戶行為序列間隔時間的平均值。得到用戶的時間間隔后,再通過時間位置解碼器得到用戶的時間位置矩陣T,公式如下:

最后,將用戶的時間位置矩陣T融入到嵌入矩陣Bu中,得到帶有時間位置信息的序列嵌入矩陣=Bu+T。

2.2 多尺度時序卷積層

在時序卷積網絡中,膨脹因果卷積網絡保證了t時刻的輸出僅與t時刻之前的輸入有關,使得網絡無法關注到未來時刻的項目,因此在推薦任務中可以理解為根據用戶的行為序列中確定下一時刻點擊的項目。

為了從用戶行為序列中獲取用戶細粒度的短期興趣偏好,本文使用多尺度時序卷積網絡對用戶行為序列的嵌入矩陣進行建模學習,獲取用戶各時刻的興趣偏好。

在傳統的時序卷積網絡中只使用單一的卷積模板,導致一次時序卷積只能觀察到特定維度的特征信息,需要加深卷積次數或增大擴張系數才能觀察到全局特征。為了改善不足,Ma 等人[19]采用密集連接的方式在時間尺度上獲取相應的特征,從而提高時序卷積網絡的性能,但在該網絡中存在以下問題:單次卷積操作僅在一個尺度上進行運算,所有尺度不能并行運算;得到不同尺度的特征信息后,使用單一的加和方式進行特征融合;以及采用密集連接在深層時序卷積網絡中引入了大量的參數和冗余信息,導致模型容易出現過擬合現象。

為了解決這些問題,本文在多尺度時序卷積網絡中,采用不同大小的卷積核對嵌入矩陣進行并行卷積操作,以及引入不同的膨脹系數,增加卷積操作的感受野,從而得到不同尺度的特性信息,最后再利用通道和空間注意力機制計算不同尺度特征之間的重要程度進行特征融合,從而增強特征的表示。多尺度時序卷積層如圖2所示。

圖2 多尺度時序卷積網絡層結構Fig.2 Multi-scale TCN structure

其中,k為卷積核大?。沪艦榕蛎浵禂?,通常設置為2i;(k-1)×ε為Padding填充值;表示l層第j個卷積的權重參數;表示l層第j個卷積的偏置;σ(?)表示激活函數;?表示膨脹因果卷積運算,運算過程可以表示為。同時為了緩解單尺度中因時序卷積網絡疊加所導致的梯度消失和過擬合問題,在時序卷積中引入了殘差連接方式將前一層的特征信息加入到下一層。

多尺度時序卷積網絡由三個并行的時序卷積網絡組成,卷積核大小分別設置為k1=2,k2=3,k3=4,其中較大的卷積核,可以捕獲序列中較長的特征,從而提取出較大尺度的語義信息;較小的卷積核,更容易關注到較短的序列特征,從而提取出較小尺度的語義信息。在多尺度卷積網絡完成卷積操作后,分別將輸出在通道維度上進行拼接得到特征,并利用通道和空間注意力從通道和空間維度對特征F進行融合,從而得到用戶的興趣偏好。其中通道注意力分別對特征F進行全局平均和最大池化,再通過激活函數得到注意力權重矩陣,最后將注意力權重矩陣與特征F相乘得到通道注意力的輸出F′,公式如下:

其中,fc(?)表示通道注意力操作;AP(?)表示全局平均池化;MP(?)表示全局最大池化;?表示元素乘法。

在空間注意力中,首先對F′進行了全局平均和最大池化;其次,使用一層卷積網絡生成空間注意力權重矩陣fs(F′),表示不同通道上的權重系數,最后,與輸入特征相乘并在通道上進行加和,從而得到用戶的短期興趣愛好表示,公式如下:

其中,fs(?)表示空間注意力操作;k1×1表示卷積核大??;⊙表示卷積運算。

2.3 Transformer層

用戶的行為序列不僅可以學習用戶的短期興趣偏好,還可以根據用戶短期興趣偏好學習用戶的長期興趣偏好。因此,模型中Transformer層采用雙向Transformer編碼器建模學習用戶的行為序列,使得模型在任何時刻都能觀察到行為序列中的所有項目,從而學習到用戶的長期興趣偏好。

Transformer 層主要由多個疊加的Encoder-block 和注意力網絡構成。其中每個Encoder-block的結構如圖3所示,主要包括多頭注意力機制、前饋神經網絡、殘差連接和歸一化層。

圖3 Encoder-block結構Fig.3 Encoder-block structure

多頭注意力機制可以在不同的隱藏空間中對用戶行為序列的內部關系進行學習,從而捕捉到更豐富的特征。首先,將帶有時間位置信息的嵌入矩陣通過線性變換得到Q、K、V矩陣,并通過公式(6)計算第h個子空間中的輸出:

其中,Att(?)表示一般注意力機制;softmax(?)表示激活函數;Qh、Kh、Vh表示第h個子空間的嵌入矩陣;表示縮放因子,可以避免內積過大導致的梯度爆炸;T 表示矩陣的轉置。

在得到各子空間的輸出后,將輸出進行拼接,并通過參數wH進行特征變換得到多頭注意力機制的輸出,公式如下:

前饋神經網絡可以在不同維度上進行學習,增加模型的非線性特征,同時引入殘差連接和歸一化層,避免因層數疊加導致的梯度消失和過擬合問題,公式如下:

其中,LayerNorm(?)表示歸一化層;relu(?)表示激活函數;w1、w2表示全連接網絡的參數矩陣;b1、b2表示全連接層的偏置值。

為了在Transformer 層中有效地融合不同時刻的興趣偏好特征,本文在Encoder-block的基礎上引入了注意力網絡對不同時刻的特征進行聚合,探索待推薦項目與興趣偏好特征之間的關系,從而得到用戶的長期興趣偏好,公式如下:

其中,fatt(?)表示注意力網絡;表示Encoder-block輸出的第j個的興趣偏好;wl表示注意力網絡的參數矩陣;bl為偏置值;αj表示第j個興趣偏好的權重值,計算公式如式(10)所示,其中δ(?)函數表示計算不同特征之間的權重系數:

2.4 全連接輸出層

為了有效地捕捉到用戶的全局偏好,本文從用戶和項目的嵌入矩陣中檢索出用戶u和目標項目i的嵌入向量,并與多尺度時序卷積層和Transformer 層提取的細粒度長短期興趣偏好進行融合,通過全連接輸出層建模用戶-項目的交互關系,得到在t時刻用戶u點擊目標項目i的概率,公式如式(11)所示:

其中,wo表示輸出層的參數矩陣;bo表示輸出層偏置值;sigmoid(?)表示激活函數。

本文在訓練中優化的目標函數為二元交叉熵損失函數,為防止訓練中出現過擬合現象,在目標函數中引入L2正則化,對偏差較大的參數進行限制,公式如下:

其中,y表示用戶對目標項目的真實標簽;表示模型輸出的預測標簽;λ為正則化因子;w表示模型所有有效參數。

2.5 復雜度分析

對于TAIP 模型的復雜度,本文對多尺度時序卷積層和Transformer層進行了分析。假設嵌入向量在隱藏空間中的維度為d,用戶行為序列的長度為n,時序卷積網絡的尺度為m,卷積核大小為k。

在多尺度時序卷積網絡層中,每個尺度上都需要進行卷積核為k的因果卷積操作,復雜度可以表示為O(mnk);在通道和空間注意力上需要對各尺度輸出進行相似度計算,復雜度可以表示為O(mnd)。由于k≤n

在Transformer 層中利用了多頭注意力機制計算序列中每個行為之間的相似性,以及利用了注意力網絡去融合了不同時刻的特征信息得到用戶的長期偏好,兩部分的復雜度均為O(n2d),所以Transformer 層的時間復雜度可以表示為O(n2d)。

綜上所述,本文提出的TAIP 模型復雜度可以歸納為O(n2d+mnd),從復雜度可以看出,模型的復雜度主要與用戶序列長度、嵌入向量維度和尺度數有關。

3 實驗與分析

3.1 實驗數據集

為驗證TAIP 模型的有效性,本文在兩個公開數據集上進行實驗。MovieLens-1M(以下簡稱ML-1M)數據集是一個電影推薦場景的數據集,包含了6 040 名用戶對3 706部電影的1 000 209條評分數據,評分值為[1,5]之間的整數,每名用戶交互的序列長度超過20;YELP數據集是Yelp公司提供的商戶評分數據集,包含42 715名用戶對31 765個商戶的2 163 945條評分數據,評分值為[1,5]之間的整數,每名用戶交互的序列長度超過10。兩個數據集的具體統計信息如表1所示。

表1 實驗數據集的統計信息Table 1 Statistics of experimental datasets

3.2 實驗評價指標

本文采用Leave-One-Out 評估策略,將用戶最近交互的行為信息作為測試集的正樣本數據,并隨機從用戶未交互的項目集中抽取100 個項目作為測試集的負樣本數據,其余的交互行為作為訓練集數據。

本文使用的評價指標包括HR@N、NDCG@N 和MRR:其中命中率(HR@N)用于衡量長度為N的推薦列表中包含正樣本項目的比率,公式如下:

1967年,彼得·卡爾·戈德馬克提出了新媒體這一概念,但學術研究發展至今,學界也未能給予新媒體準確定義。有專家認為,以數字及互聯網技術為基礎,向人們提供信息技術服務就可以稱為新媒體;但也有專家表示,在傳媒中進行高新技術的有效運用就可以稱為新媒體。在筆者看來,新媒體應該是在信息技術支持下,具有海量性、交互性以及共享性特點的一種向受眾提供信息服務的媒介形式。

其中,U表示所有用戶集合;idxu,i表示用戶u測試集合中的正樣本項目i在推薦集合中的下標;1(idxu,i

歸一化折扣累計增益(NDCG@N)用于衡量推薦列表中正樣本項目在不同位置的相關性,排序越靠前,推薦效果越好,公式如式下:

平均倒數排名(MRR),用于衡量正樣本在推薦列表中的位置關系,位置越靠前,推薦效果越好,公式如下:

其中,idxu,i小于N取值為idxu,i,大于N取值為+∞。

3.3 對比模型與參數設置

為有效地評價TAIP 模型的推薦效果,本文選擇了以下具有代表性的模型進行比較:

(1)NCF[9]:擴展了傳統的協同過濾算法,利用用戶和項目的嵌入向量在全連接網絡中刻畫用戶與項目之間的交互關系。

(2)BST[17]:使用了單向Transformer 編碼器去捕獲用戶的行為序列中的關系,并融合用戶和項目的其他屬性提供序列推薦。

(4)BERT4Rec[20]:將NLP 領域的BERT 模型引入到推薦模型中,使用雙向的Transformer 編碼器捕捉用戶行為序列中的關系提供序列推薦。

(5)MPM[16]:訓練了一個行為檢測器判斷興趣愛好對目標項目的影響,并融合一般特征進行推薦。

(6)SRMA[21]:采用模型增強的方式對模型進行擴充,從而提高模型的推薦性能。

(7)ContrastVAE[22]:將用戶的行為數據映射到兩個不同的隱藏空間,并利用多個Transformer從兩個空間中估計相應的后驗概率分布,最后再通過一個Transformer執行推薦任務。

(8)DuoRec[23]:采用對比正則化的方法重塑用戶行為序列的表示分布,并利用無監督和有監督的對比樣本進行建模學習,從而完成推薦任務。

本文的實驗在Linux 操作系統上進行,模型實現采用Pytorch 深度學習框架,并在NVIDIA RTX 2080Ti GPU 上進行訓練。實驗中對常見的超參數進行如下設置,嵌入向量的維度在[8,16,32,64,128]之間調整,初始學習率為0.001,正則化系數為0.001,優化器為自適應梯度下降(Adam),dropout 比例為0.2,批處理大小為256,序列長度在[5,10,20,50,100]之間調整,評價指標N取值為[1,10]。對比模型的其他超參數遵循其作者原有的設置。

3.4 實驗結果及分析

3.4.1 模型性能分析

在ML-1M 與YELP 兩個數據集上對所有模型進行了測試,各模型的性能結果如表2和表3所示,其中最優的結果采用加粗表示,并在最后一行展示了TAIP 模型相較于次優結果的提升比率。

表2 ML-1M數據集上的推薦性能比較Table 2 Performance comparison on ML-1M dataset

表3 YELP數據集上的推薦性能比較Table 3 Performance comparison on YELP dataset

從表2 和表3 中可以得出結論,采用神經協同過濾的NCF 模型與其他模型相比,在各項評價指標上均低于其他模型,這是由于NCF 模型僅考慮了用戶的點擊信息,而忽略了用戶行為序列之間的特征信息。

在基于用戶行為序列的模型中,Caser 模型的性能低于MPM 模型,表明時序卷積相較于傳統的卷積網絡具有更好的學習能力,這是因為時序卷積的結構可以獲得更大的感受野;BST 模型的性能低于BERT4Rec 模型,表明利用雙向Transformer 編碼器對用戶的行為序列進行建模比單向Transformer編碼器具有更好的學習能力;對于SRMA、ContrastVAE和DuoRec模型,其性能仍低于TAIP模型,表明僅考慮模型增強和數據增強,對模型性能的提升有限。

從表2、表3 中結果可知,相較于次優模型,TAIP 模型在兩個數據集上,HR@10評價指標分別提升了4.84%和2.57%;在NDCG@10 評價指標上分別提升了6.01%和3.22%;在MRR 評價指標上分別提升了10.38%和3.37%。其中MRR 指標提升最為明顯,表明TAIP 模型對正樣本的識別能力較強。

綜上所述,本文提出的TAIP模型,相較于其他模型具有較大的提升,表明用戶交互的時間間隔信息和用戶的長短期興趣偏好對模型性能的提升具有重要作用,驗證了TAIP模型的有效性。

3.4.2 嵌入向量維度分析

在隱藏空間中,不同維度的嵌入向量對特征的表示能力是不同的,對推薦性能的影響也是不同的,本文對不同嵌入維度對推薦性能的影響進行了實驗,實驗結果如圖4 所示。本部分僅展示了NDCG@10 和MRR 評價指標的實驗結果,其他評價指標具有相同的趨勢。

圖4 不同嵌入向量維度的對比圖Fig.4 Comparison of different embedding dimension

通過圖4 對比分析可知,隨著嵌入向量維度的增加,模型的性能會越來越好,這是由于在嵌入向量維度較小時,模型的參數較少,限制了模型對用戶信息的學習,從而導致性能不好;在嵌入向量維度較大時,模型能更好地學習到用戶的隱藏信息,提升模型的推薦性能,但較大的維度會大幅度增加模型計算量,使得收斂所需要的時間更長,同時也會讓模型出現過擬合現象。在兩個數據集上,TAIP 模型在維度達到128 時,具有最佳性能,因此在兩個數據集中嵌入向量維度設置為128。

3.4.3 行為序列長度分析

圖5 展示了兩個數據集上用戶行為序列長度對推薦模型性能的影響,序列長度的取值范圍從5到100,本部分僅展示了評價指標HR@10和NDCG@10的實驗結果,其他評價指標具有相同的趨勢。

圖5 不同序列長度的對比圖Fig.5 Comparison of different sequence length

從圖5 分析可知,隨著序列長度的增加,模型的性能趨向于平穩。對于數據密度較大的ML-1M 數據集,性能曲線呈現上升后再下降的趨勢,在序列長度為20時,達到了最佳性能。在數據密度較小的YELP數據集中,性能曲線同樣呈現上升后再下降的趨勢,在序列長度超過10 后,性能開始趨向于平穩下降,這是因為在YELP 數據集中較長的序列引入更多的噪聲,使得性能退化。因此在ML-1M 數據集上序列長度設置為20,YELP數據集上的序列長度設置為10。

3.4.4 超參數分析

圖6展示了兩個數據集上不同的Dropout比率和學習率對TAIP 模型的影響。從圖6(a)可以看出,在兩個數據集上隨著Dropout比率的增加,TAIP模型的推薦性能逐漸下降,在Dropout 比率超過0.5 時,推薦性能的下降幅度較大,這是由于較大的Dropout 比率減少了有效參數,導致模型無法學習到足夠的特征,從而降低模型的性能。從圖6(b)可以看出,較大的學習率會導致模型的推薦性能處于較低水平,這是因為模型在訓練過程中無法收斂到最優解;較小的學習率會導致模型在訓練過程中收斂緩慢,需要更多的迭代才能達到最優解,同時也會讓模型陷入局部最優解,無法達到更好的性能。因此在ML-1M數據集上,Dropout比率設置為0.2,學習率設置為5E-4;YELP數據集上,Dropout比率設置為0.2,學習率設置為5E-4。

圖6 不同超參數的對比圖Fig.6 Comparison of different hyperparameters

3.4.5 優化器分析

為分析不同優化器對性能的影響,本文在兩個數據集上選取SGD、Adagrad、RMSprop 和Adam 優化器進行了對比實驗,實驗結果如圖7所示。

圖7 不同優化器的對比圖Fig.7 Comparison of different optimisers

從圖7中可以看出,在兩個數據集上不同的優化器具有不同的收斂速度,其中SGD優化器的效果較差,其主要原因是在隨機梯度下降的時只考慮了一個樣本,導致在參數更新時出現較大的偏差,從而陷入局部最優解,無法得到較好的推薦性能;Adagrad優化器可以在訓練過程中自動調整模型中每個參數的學習率,從而獲得更好的訓練效果,相比于SGD優化器提升明顯;RMSprop是在Adagrad上改進的梯度下降算法,該算法中結合了歷史梯度信息去動態的調節學習率,使得模型具有良好的訓練效率;Adam優化器結合了RMSprop和動量梯度下降算法,使得模型在訓練過程中能獲得較好的收斂速度,相較于其他優化算法具有一定的優勢。

3.4.6 消融實驗分析

在TAIP模型中,分別引入了時間位置信息、多尺度時序卷積層和Transformer 層,為了驗證各組件的有效性和對模型性能的影響,在兩個數據集上的設計了消融實驗進行研究分析,實驗結果如表4所示,實現細節如下:

表4 消融實驗結果Table 4 Results of ablation analysis

(1)Short:忽略TAIP 模型中的Transformer 層,只保留多尺度時序卷積層提取的短期興趣偏好作為全連接層的輸入。

(2)Long:忽略TAIP 模型中的多尺度時序卷積層,只保留Transformer層獲取的長期興趣偏好作為全連接層的輸入。

(3)Relative:去除TAIP 模型中的時間位置信息,采用序列的相對位置信息,探索時間位置信息對TAIP 模型性能的影響。

從表4的實驗結果可以得出如下結論:

(1)Short 模型與TAIP 模型相比,在各評價指標上的性能相差較大,表明在模型中僅使用用戶的短期偏好對模型性能的提升有限。

(2)Long 模型與TAIP 模型相比,Long 模型的推薦性能有所退化,表明在模型中僅使用用戶的長期偏好對模型性能的提升也有限。

(3)Short 模型與Long 模型相比,Short 的性能要低于Long 模型,表明通過Transformer 編碼器探索用戶的長期興趣偏好對模型性能的提升更為重要。

(4)Relative 模型與TAIP 模型相比,采用絕對位置信息的Relative 模型推薦性能有所下降,表明用戶的時間位置信息加入到用戶行為嵌入矩陣中可以有效地提升模型的推薦性能。

綜上所述,表明TAIP 模型的各組成部分對性能的提升具有積極作用,驗證了各組成部分的有效性。

3.4.7 注意力機制分析

在TAIP 模型的多尺度時序卷積層中,利用了通道和空間注意力計算不同尺度特征之間的重要程度,為了驗證有無注意力和不同類型的注意力對推薦性能的影響,在兩個數據集上的設計了實驗進行研究分析,實驗結果如表5 所示,其中None 結構表示不使用注意力機制,采用直接加和的方式融合不同尺度的輸出;Self-Attention 表示使用自注意力機制替代通道和空間注意力機制;Multi-Head表示利用多頭注意力機制替代通道和空間注意力機制。

表5 多尺度時序卷積層注意力機制實驗結果Table 5 Results on attention mechanism for multi-scale TCN

從表5的實驗結果可以看出:采用直接加和的方式融合各尺度的特征會讓推薦模型的性能退化,表明使用注意力去融合各尺度的特征是有效的。采用通道和空間注意力機制去融合各尺度的特征,相較于自注意力機制和多頭注意力機制具有一定的優勢,這是因為通道和空間注意力更能識別出卷積網絡輸出的通道和空間維度特征,從而提升性能。

在TAIP 模型中,Transformer 層也使用了注意力機制,為了驗證有無注意力和不同類型的注意力對推薦性能的影響,在兩個數據集上的設計了實驗進行研究分析,實驗結果如表6所示。

表6 Transformer層注意力機制實驗結果Table 6 Results on attention mechanism for Transformer

從表6的實驗結果可以看出,在ML-1M數據集上,不使用注意力機制推薦模型的性能退化嚴重,表明在Transformer層中注意力機制對性能的提升尤其重要。在YELP 數據集上三個結構的性能相差不大,這是由于在數據密度較小YELP數據集中,每名用戶的有效序列長度較短,使得注意力機制無法從序列中學習到足夠的有效信息去提升推薦性能。

3.4.8 復雜度分析

對于模型的復雜度,本文與MPM、SRMA、ContrastVAE和DuoRec模型在復雜度和訓練時間效率[24]上進行了對比分析,對比分析結果如表7 所示。設嵌入向量在隱藏空間中的維度為d,用戶行為序列的長度為n,時序卷積網絡的尺度為m,卷積核大小為k,經分析各模型的復雜度從小到大的排列如下:MPM

表7 不同模型復雜度比較Table 7 Complexity comparison about different models

4 結束語

本文提出了一種融合時間感知與興趣偏好的推薦模型,將用戶交互的時間間隔信息作為輔助信息引入到序列嵌入矩陣中,并設計多尺度時序卷積網絡與通道和空間注意力機制精準地提取細粒度短期偏好;同時采用Transformer 編碼器挖掘目標項目與用戶興趣之間的長期偏好;最后利用了全連接網絡實現全局特征融合,再提供推薦。在兩個公開數據集上的實驗結果表明,所提出的TAIP模型優于其他模型,驗證了模型的有效性;消融實驗也證實了各組成部分對推薦性能的提升具有積極作用。

在未來的工作中,將考慮使用圖神經網絡對用戶的社交信息進行學習,獲取用戶的社交特征,從而進一步提高模型的推薦性能,以及引入更多的輔助信息,建立一個更加健壯的推薦模型。

猜你喜歡
用戶信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 日韩欧美国产综合| 综合色在线| 国产综合精品一区二区| 国产中文一区a级毛片视频| 18禁黄无遮挡免费动漫网站| 久久精品中文字幕免费| 国产成人综合网| 精品久久久久无码| 美女高潮全身流白浆福利区| 97成人在线视频| 在线国产毛片手机小视频| 国产亚洲精品自在线| 久久国产黑丝袜视频| 中文无码伦av中文字幕| 99免费视频观看| 中文字幕人成乱码熟女免费| 国产一区在线观看无码| 九九九国产| 亚洲欧洲日本在线| 国产精品无码作爱| 久久久久国产一区二区| 国产成人精彩在线视频50| 天堂网亚洲综合在线| 97se亚洲综合在线| 特级精品毛片免费观看| 久久久黄色片| 亚洲成人www| 四虎影视8848永久精品| 国产97视频在线| 国产另类乱子伦精品免费女| 国产香蕉97碰碰视频VA碰碰看| 午夜小视频在线| 欧美日在线观看| 亚洲人成网站色7777| 在线精品视频成人网| 国产一区自拍视频| 国产午夜福利亚洲第一| 99一级毛片| 国产女人爽到高潮的免费视频| 99re热精品视频中文字幕不卡| 五月婷婷精品| 日韩在线网址| 香蕉99国内自产自拍视频| 一级毛片在线播放免费观看| 人人爽人人爽人人片| 国模极品一区二区三区| 天堂网亚洲系列亚洲系列| 免费中文字幕一级毛片| 中文一区二区视频| 国产色网站| 亚洲一区色| 欧美日韩国产成人高清视频| 香蕉视频国产精品人| 欧洲亚洲一区| 国产亚洲日韩av在线| 日韩一级二级三级| 国产视频资源在线观看| 免费A级毛片无码免费视频| 97亚洲色综久久精品| 国产亚洲高清在线精品99| 国产高清不卡视频| 欧美午夜在线播放| 九色综合视频网| 国产日韩欧美在线播放| www.亚洲色图.com| 国产无遮挡猛进猛出免费软件| yjizz视频最新网站在线| 午夜a视频| 国产浮力第一页永久地址| 蜜臀AVWWW国产天堂| 日韩高清中文字幕| 2021精品国产自在现线看| 亚洲日韩日本中文在线| 日本午夜三级| 亚洲最黄视频| 青草91视频免费观看| 在线五月婷婷| 区国产精品搜索视频| a毛片在线免费观看| 日韩在线观看网站| 国产91视频免费| www.日韩三级|