999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多層結合的多階顯式交互的融合推薦模型

2022-01-01 00:00:00孫偉智歐鷗杜雪壘羅凱耀
計算機應用研究 2022年5期

摘 要: 現有不少模型著眼于對有限數據通過生成顯式特征交互以進行挖掘來提升點擊率預測效果,但存在以下問題:對于原特征與新生成的顯式特征,直接一起輸入到一個統一的神經網絡結構進行挖掘然后輸出,由于兩者參數量差別較大導致在表征上差異巨大;同時如果直接采用多級層數的神經網絡結構還會導致低層,如第一、二層信息的丟失,但若直接將各層進行累加以結合,則一些層中有用性有限的信息可能成為噪聲以影響預測。為此設計多層權重結合的多階顯式交互的融合推薦模型,通過將原數據與生成的多階顯式特征分別放入各自對應的自注意力層中挖掘,其中各自對應結構的層數不同,同時對各層進行加權后輸出以完成多層的結合,以提高點擊率預測效果。通過在兩個公開數據集上與多個不同模型進行比較分析,并對模型進行消融對比和超參數對比實驗,證明了該模型能有效挖掘原特征與顯式交互特征信息,平衡各階特征表征能力。

關鍵詞: 推薦系統; 點擊率預測; 顯式交互

中圖分類號: TP391"" 文獻標志碼: A

文章編號: 1001-3695(2022)05-011-1349-08

doi:10.19734/j.issn.1001-3695.2021.10.0447

Multi-layer combination multi-order explicit interaction

fusion recommendation model

Sun Weizhi, Ou Ou, Du Xuelei, Luo Kaiyao

(College of Cyber Security amp; Technology(Oxford Brooks College), Chengdu University of Technology, Chengdu 610051, China)

Abstract: While many current existing models focus on mining limited data in order to improve the click-rate prediction effect,the following problems arise simultaneously:the features are directly input into a unified neural network structure for mining and subsequently output regarding both the original and newly generated explicit ones,their representation will be great different.Additionally,if the multi-level neural network structure is adopted directly,it will also result in the loss of information at low layers such as the first layer and the second layer.The information with limited usefulness in some layers may produce noise to affect prediction if they are accumulated and combined directly.This paper designed a multi-level explicit interactive fusion recommendation model with a multi-level weight combination.It mined the original data and the generated multi-level explicit features into their corresponding self-attention layers,

which had different layers of their corresponding structures.Meanwhile,it output after weighted each layer to complete the combination of layers,so as to improve the prediction effect of click rate.It shows that this model is able to mine explicit and implicit interactive features effectively and balance the ability of each order to represent features in an effective way,with the support of the comparison and analysis with several different models on two public data sets,as well as the ablation comparison experiment and super parameter comparison of the model.

Key words: recommender systems; click-through rate; explicit interaction

0 引言

在個性化互聯網的時代下,資源平臺通過推薦系統為用戶推薦更合適的資源,以提升相關資源點擊率,平臺方企業便可獲得較大收益。因此,企業需要更好的推薦模型,以根據用戶個性化數據來預測其對不同資源的喜愛程度,來提升點擊率預測的準確度。

在推薦系統中,數據僅包含用戶或者資源特征,其中不少輸入數據都為類別型,經過獨熱(one-hot)編碼處理后稀疏性較大,因此Rendle[1]提出了因子分解機(factorization machine,FM)進行特征交互學習并解決稀疏性問題。其后出現了諸如FFM(field-aware factorization machines)[2]、AFM(attentional factorization machine)[3]等多個類FM模型,但上述類FM模型均只能學習低階特征交叉。

在深度學習大火的時期,出現了通過DNN(deep neural network)層來學習特征交互的FNN(factorization-machine supported neural network)[4],通過在特征嵌入(embedding)后和DNN層之間加入內/外積層的PNN(product-based neural network)[5]模型,和通過在嵌入層和DNN層之間加入Bi-Interaction層的NFM(neural factorization machine)[6],上述模型都將注意力集中在高階特征交互上,但都沒有低階特征交互的學習。

Wideamp;Deep(wide amp; deep learning)[7]模型通過wide部分學習低階特征交互,同時通過DNN學習高階特征交互后再融合,但其中的wide模塊仍然需要特征工程。DeepFM(factorization-machine based neural network)[8]模型用上述的FM模型替代wide模塊,解決了高低階特征交互自動學習的問題,但學習的顯式交互特征均為低階,缺少中高階等非定階顯式交互特征的學習。

DCN(deep amp; cross network)[9]模型通過cross net模塊學習特征的高階顯式交互,并將不同階的顯式交互結合起來,另一邊則采用DNN,最后兩邊結合后輸出,xDeepFM(combining explicit and implict feature interactions for recommender systems)[10]模型創造了CIN模塊,以及DCN的改進型DCN-M(improved deep amp; cross network)[11]模型,均增加了對顯式高低階特征交互的學習,但不同階的顯式交互特征之間的參數量差距巨大,很容易使表征能力不平衡。

上述對于多層特征交互的學習均采用DNN模型,但DNN模型本身對特征的學習是bit-wise的,即每個特征中的元素均會與自身的其他元素交互,可能產生噪聲。而自注意力機制大火后,出現了AutoInt(automatic feature interaction learning via self-attentive neural networks)[12],其采用的多頭自注意力機制(multi-head self-attention)為vector-wise,同時結合了殘差網絡(ResNet),但該模型并不能直接用于生成顯式特征。

之后人們開始將目光投向了特征交互前的輸入和權重問題上,ONN(operation-aware neural network)[13]模型采用多種嵌入方式,且每種嵌入后特征輸出到不同后續操作中,但最終只有高階隱式特征交互作為輸出。FiBiNet(combining feature importance and bilinear feature interaction)[14]模型通過SENet對各個特征的重要性進行重新分配,然后將原特征組和新特征組分別顯式交互后拼接并放入DNN層并完成輸出預測,但進入DNN前的特征同樣均為定階的顯式交互。IFM(input-aware factorization machine)[15]和改進型的DIFM(dual input-aware factorization machine)[16]模型對原特征進行DeepFM的Deep部分和FM部分的權重進行自適應計算以完成預測,其中IFM模型的權重通過原特征輸入DNN進行計算,而DIFM模型的權重計算則分別在bit-wise part通過DNN模塊和在vector-wise part通過self-attention模塊對原始向量挖掘后進行合并。

上述大部分模型對不同階的顯式特征交互挖掘不夠,有的沒有顯式特征交互挖掘功能,有的只能挖掘特定階,缺少了高低搭配;在擁有挖掘多階顯式特征交互的模型中,DCN模型的各階之間可簡單看做標量乘積,顯式交互效果較差,而xDeepFM和DCN-M模型,不同階的顯式交互特征之間,參數量差別巨大,容易造成不同階顯式特征交互的表征能力,同時構造出來的不同階的顯式交互特征的相關性挖掘也不足。本文提出了顯式交互特征生成用于生成不同階的顯式交互特征,同時設計了多層結合自注意力交互層,用于平衡不同階的顯式交互特征參數量,同時深度挖掘各階顯式特征/原特征間的相關性,并將各層得到的信息通過注意力機制進行結合以作為輸出,保證即便深度挖掘下不同層的信息也不會丟失。本文的主要工作有:

a)提出了融合多階顯式交互的多層結合推薦模型,其中的顯式交互特征生成層可以生成多階顯式交互特征,多層結合自注意力交互層可以平衡各階參數量以平衡各階顯式交互特征表征能力。

b)將多階顯式交互特征與原特征分別作為多層結合自注意力交互層的輸入進行多層挖掘,以尋找相關性;同時為減少中低層的信息丟失,對每層都進行結合;各層通過注意力機制進行結合,以防止部分層有用性較小的信息變成噪聲。

c)通過在Criteo-10k和MovieLens-1M數據集上進行實驗,用結果證明本文模型的效果相對更好,并分析原因。

1 相關工作

深度學習當前在許多領域都大放光彩,如卷積神經網絡(convolutional neural networks,CNN)及其發展在圖像處理、自然語言處理方面成果頗豐。近年來,在推薦系統中使用深度學習方法已是大勢所趨,包括譚臺哲等人[17]對特定推薦商品的物品屬性通過注意力模型進行加權分配,以預測用戶認可度評分;周菲等人[18]提出的采用Transformer捕捉用戶歷史興趣,并將其與目標廣告關聯的算法。

1.1 FM模型及其部分變式

通過推薦模型進行點擊率預測中,FM較好地解決了輸入數據稀疏性較大的問題,FM及其各種變式包括FFM[2]、AFM[3]等,可以看做是一種低階顯式特征交互,但其方式對于挖掘更高階的顯式特征不足,對各特征間的相關性深度挖掘不夠。

1.2 基于深度學習的各種CTR模型

在FNN[4]完成了對特征進行隱式深度挖掘后,通過對其結合與改進,誕生了PNN[5]、NFM[6]模型,但由于缺少對低階顯式特征交互的挖掘,于是又出現了Wideamp;Deep[7]、DeepFM[8]等模型,而針對高低階顯式特征的結合,則出現了DCN[9]、xDeepFM[10]和DCN-M[11]等模型,但這些模型的多層挖掘均為DNN層,即采用bit-wise,可能產生額外的噪聲。

后續又針對隱式挖掘和顯式挖掘進行各種改進,誕生了基于multi-head self-attention的AutoInt[12]模型,以及對輸入數據進行更多處理的ONN[13]和FiBiNet[14]模型,基于權重學習的IFM[15]和DIFM[16]模型,還有可以自適應調整不同階的特征組合的AFN(adaptive factorization network)[19]模型。

1.3 與用戶歷史行為結合的CTR模型

為了進一步提高CTR的準確率,DIN(deep interest network) [20]和DIEN(deep interest evolution network)[21]模型通過對特征進行分類并加入用戶歷史行為,并將用戶歷史行為與目標特征進行交互。

2 融合多階顯式交互的多層結合模型

本文提出的深度顯式與隱式特征交互模型(multi-order explicit interacting multi-layer combination network)結構如圖1所示。該模型主要由輸入層(input layer)、嵌入層(embedding layer)、顯式交互特征生成層(explicit cross feature generation layer)、多層結合自注意力交互層(multi-layers combined with self-attentional interaction layers)、拼接層(concat layer)和輸出層(output layer)六個部分組成。其中輸入層對原始數據中的類別特征和多標簽特征進行編碼轉換為稀疏特征;嵌入層將稀疏特征通過嵌入矩陣映射為密集向量;顯式交互特征生成層將密集特征與來自嵌入層的密集向量進行顯式特征交互生成不同階的顯式交互向量,并將所得到的各階顯式交互向量全部拼接得到多階顯式交互矩陣;多層結合自注意力交互層將密集特征與來自嵌入層的密集向量進行深度交互,同時將來自顯式交互特征生成層的多階顯式交互矩陣在另一側進行深度交互,其中對每層得到的交互向量平鋪后計算各層權重,再將各層進行加權得到各自的多層結合交互向量;最后拼接層將兩邊分別得到的多層結合交互向量進行拼接得到融合向量,并在輸出層通過sigmoid函數計算得到點擊率預測值,即模型的最終輸出。

2.1 輸入層

原始數據集中包含多種不同的特征,其中包括密集特征、類別特征及多標簽特征,每種密集特征均通過MinMaxScaler進行歸一化;每種類別特征經過one-hot編碼轉換為二進制向量表示,其向量長度等于類別種數,且每個向量中除了索引位置的元素為1之外,其余元素均為0。比如“一周”中有“星期一”“星期二”“星期三”“星期四”“星期五”“星期六”“星期天”,當本日為“星期三”時,“星期三”索引的位置為1,其余元素均為0,則該向量為(0,0,1,0,0,0,0)。將所有類別特征進行one-hot編碼后,各個特征編碼如下:

(0,0,1,0,…,0)月份=3月(1,0)用戶性別=男(1)

對于多標簽特征,則經過multi-hot編碼轉換為二進制向量表示,其向量長度等于標簽數量,且每個向量中除了特征標簽索引位置的元素為1外,其余元素均為0。比如假設“電影風格”有“動作”“喜劇”“兒童”標簽,當前電影風格為“動作”和“喜劇”,則該向量為(1,1,0)。

3.4 實驗評價指標

本文CTR預測采用的評價指標為對數損失函數(Log-Loss)、AUC(area under curve)和AP(average precision score)。

對數損失函數指標經常被用于二分類問題中,用來表示預測值和真實值之間的差距。其本質為邏輯回歸的損失函數,因此采用對數損失函數作為評估指標能非常直觀地反映模型損失函數的變化。在實驗中,對數損失函數越小說明預測模型性能越好,其公式為

LogLoss=

-∑ni=1(label(i)log(ectr(i))+(1-label(i)log(1-ectr(i))))n(14)

其中:n為輸入數據的樣本總量;label為樣本的真實標簽;ectr為CTR預估值。

AUC指標則是受試樣本工作特征曲線(ROC)的下面積,上限為1,其受樣本正負比例影響較小。ROC的橫坐標為假陽性率(FPR),縱坐標為真陽性率(TPR),在繪制好ROC曲線后,計算ROC曲線下的面積大小,即為AUC。AUC是對CTR預測任務的一個良好的評價標準,AUC值越大,說明模型的預測能力越強,其公式為

AUC=∑ins∈positiverankinsi-M(M+1)2MN(15)

其中:M和N分別為正樣本和負樣本個數;rankinsi代表第i個樣本的序號。

AP總結了一個精確召回曲線,作為在每個閾值處獲得的精度的加權平均值,并且與以前的閾值相比,召回率的增加用于權重:

AP=∑n(Rn-Rn-1)Pn(16)

其中:Pn和Rn分別為第n個閾值時的精度和召回率,這種指標計算與采用精準率—召回率曲線下面積的方式不同,后者采用線性插值。

由于本文中針對數據集進行了8:2的比例劃分為訓練集和測試集,同時又將訓練集以9:1的比例劃分,以成為交叉驗證集,所以即便優化目標和評價指標均采用LogLoss,但由于優化僅采用交叉驗證集里的數據,所以對評價影響并不大;為了更好地驗證該觀點,本文另外采用更為廣泛使用的AUC評價指標,同時為了更好地維護評價公允性,采用AP評價指標作為補充指標,對問題a)b)的實驗進行評判,多個指標相互對照。

3.5 超參數比較分析

本節通過實驗1針對超參對本文模型的影響進行分析,在兩個數據集上進行了多個超參調整實驗對比,其中超參包括:嵌入層嵌入維度、優化器、顯式特征最大階數、多階顯式特征在多層結合中的層數、多階顯式特征在多層結合中的嵌入維度、多階顯式特征在多層結合中的多頭數量、多階顯式特征在多層結合中的注意力因子維度、原特征在多層結合中的層數、原特征在多層結合中的嵌入維度、原特征在多層結合中的多頭數量、原特征在多層結合中的注意力因子維度、多層結合自注意力交互層中的激活函數。

a)通過圖2本文可以發現,Criteo-10k數據集上的嵌入維度在4~7時相對振蕩,其中維度為7時效果最好,在維度為7之后則效果下降;而MovieLens-1M數據集則在嵌入維度為9之前相對平穩,9時效果最好,9之后平穩下降,兩者維度大后性能下降的主要原因是參數過多導致過擬合。故后續采用Criteo-10k嵌入維度為7,MovieLens-1M嵌入維度為9進行實驗。

b)通過圖3可以發現,兩個數據集都是的優化器都采用Adam效果最好,故后續均采用Adam作為優化器進行實驗。

c)通過圖4可以發現,Criteo-10k數據集上顯式特征最大階數從1~2效果遞增,2時效果最好,在3及之后則效果下降;而MovieLens-1M數據集上則在顯式特征最大階數為1時效果最差,2時效果最好,3及之后下降并振蕩。此處進行了后續實驗但后續變化不大,因此沒有放出,故后續顯式特征最大階數均采用2進行實驗。

d)通過圖5可以發現,Criteo-10k數據集上的顯式特征在多層結合中的層數為1時效果最差,2時效果最好,3之后下降;而MovieLens-1M數據集則同樣為1時效果最差,2時效果最好,3到后續振蕩,兩者在層數為1時由于沒有深度挖掘,效果不行,后續則因參數過多導致過擬合。故后續多階顯式特征在多層結合中層數均采用兩層進行實驗。

e)通過圖6本文可以發現,Criteo-10k數據集上的多階顯式特征在多層結合中嵌入維度70以前穩步上升,在達到70的巔峰后迅速下降;而MovieLens-1M數據集則在多階顯式特征在多層結合中嵌入維度為60時達到最好,在60之后平穩下降。故后續采用Criteo-10k多階顯式特征在多層結合中嵌入維度為70,MovieLens-1M多階顯式特征在多層結合中嵌入維度為60進行實驗。

f)通過圖7可以發現,兩個數據集均在多階顯式特征在多層結合中的多頭數量為2時效果最好,后續則性能下降或震蕩,故后續顯式特征在多層結合中的多頭數量采用2進行實驗。

g)通過圖8可以發現,Criteo-10k數據集上的多階顯式特征在多層結合中的注意力因子維度在250~400時穩步上升,其中維度為400時效果最好,在維度為400之后則效果下降;而MovieLens-1M數據集則在嵌入維度為350時效果最好。故后續采用Criteo-10k多階顯式特征在多層結合中的注意力因子維度為400,MovieLens-1M多階顯式特征在多層結合中的注意力因子維度為350進行實驗。

h)通過圖9可以發現,兩數據集上的原特征在多層結合中的層數均3層及之前性能穩步上升,其中3層時效果最好,在3層之后則效果下降。故后續兩數據集上原特征在多層結合中的層數均采用3層進行實驗。

i)通過圖10可以發現,兩數據集均在原數據進入多層結合自注意力交互層的嵌入維度為4~7時振蕩,其中7的效果最好,而當嵌入維度為8時效果則下降。故后續兩數據集均在原數據進入多層結合自注意力交互層的嵌入維度為7進行實驗。

j)通過圖11可以發現,Criteo-10k數據集上的原數據多頭數量在2~4時穩定上升,為4時效果最好,在4之后則效果下降;而MovieLens-1M數據集則在1~3時振蕩,3時效果最好,3之后平穩下降。故后續采用Criteo-10k原數據多頭數量為4,MovieLens-1M原數據多頭數量為3進行實驗。

k)通過圖12可以發現,Criteo-10k數據集上的注意力因子維度在80-110時上升,其中維度為110時效果最好,在維度為120及之后則效果下降;而MovieLens-1M數據集的效果相差無幾,其中AUC方面維度100和110甚至相等,但通過Logloss本文可以發現80~110效果穩步上升,在110達到最好,而在120到之后則平穩下降。故后續采用兩數據集的原特征在多層結合自注意力交互層的注意力因子維度為110進行實驗。

l)通過圖13可以發現,兩個數據集上的激活函數都是ReLU效果最好,故后續均采用ReLU為激活函數進行實驗。

本文采用超參數如下:

在Criteo-10k數據集上,嵌入層嵌入維度7,優化器為Adam,顯式特征最大階數為2,多階顯式特征在多層結合中的層數為2,嵌入維度為70,多頭數量為2,注意力因子維度為400,原特征在多層結合中的層數為3,嵌入維度為7,多頭數量為4,注意力因子維度為110,多層結合自注意力交互層中的激活函數為ReLU。

在MovieLens-1M數據集上,嵌入層嵌入維度9,優化器為Adam,顯式特征最大階數為2,多階顯式特征在多層結合中的層數為2,嵌入維度為60,多頭數量為2,注意力因子維度為350,原特征在多層結合中的層數為3,嵌入維度為7,多頭數量為3,注意力因子維度為110,多層結合自注意力交互層中的激活函數為ReLU。

通過上述實驗可以解答問題a),對每個不同的數據集,各個超參數選取合適的數值,可以有效防止欠/過擬合、產生噪聲、表征不平衡等各種情況,從而大幅提高最終的預測結果。同時可以發現,兩個數據集均在多階顯式特征的多層結合層數為2,而原特征的多層結合層數為3的情況下達到最好的效果,充分說明了通過層數的調整來平衡不同特征之間的表征能力能夠有效提升預測效果。

3.6 顯式交互特征生成層和多層結合自注意力交互層的分析

本節包括實驗2和3,針對模型進行消融實驗和內部模塊替換對比。在實驗2中,將顯式交互特征生成層與多層結合自注意力交互層進行消融實驗,其中本文模型設置二進制三維向量來表示不同模塊的分拆。001代表不生成多階顯式交互特征,直接通過多層結合自注意力交互層進行輸出;101表示生成多階顯式交互特征但直接作為輸出,同時元數據通過多層結合自注意力交互層;110表示生成多階顯式交互特征且僅生成特征通過多層結合自注意力交互層;111表示該模型,及生成多階顯式交互特征且與原數據分別通過多層結合自注意力間交互層拼接后輸出;其他模型將非顯式特征交互模塊均拆去以進行比較。

通過實驗2,從表1中發現,僅挖掘低階顯式交互特征的FM和可簡單看做原特征標量乘積的DCN_Cross效果最差,僅生成多階顯式交互特征的001和xDeepFM差不多,比DCN-M_Cross效果稍好,其中xDeepFM效果最好,說明了生成新顯式交互特征的必要性;原特征通過多層結合自注意力交互層挖掘的101效果要更好些,但提升有限;但當多階顯式交互特征與多層結合自注意力交互層相結合后,110提升了0.2%,說明了多階顯式交互特征與多層挖掘相結合的必要性,平衡了各階顯式交互特征表征能力,并挖掘了相關性;最后將原特征也通過多層結合自注意力交互層后進行輸出,效果提升了0.11%,說明了當生成特征學習參數量與原特征學習參數量達到相對平衡時,對準確率的提升作用也較大。另一方面,對生成的顯式交互特征和原特征各自進行多層結合的層數并不同,原特征所需層數多一層,以此達到各特征間參數量的相對平衡。

在實驗3中,本文將多層結合自注意力交互層替換為DNN層、每層通過attention機制結合的DNN層(DNN_att)、多頭自注意力層(MHSA),與本文的多層結合自注意力交互層(MHSA_att)進行比較,其中為了多層結合,DNN_att的每層節點數為(256,256,256)。

從表2發現,本文模型在點擊預測率的提升方面均有效果,其中傳統DNN層效果最差,DNN_att加入注意力多層結合后得到了較大的提升,MHSA相對DNN層具有一定的優勢,而多層結合下的MHSA_att效果最好,充分說明了多層注意力結合對提升準確率的必要性。

通過上述實驗可以解答問題b),將顯式交互特征進行多層結構的挖掘,相比不生成顯式交互特征和生成顯式交互特征后直接輸出,提升效果明顯,充分說明了顯式交互特征的必要性,以及將顯式交互特征與多層交互結合的必要性;而將不同結構的多層模型進行直接比較,直接說明了擁有權重結合的多層自注意力結構效果最好。

3.7 多模型的性能比較分析

本節通過實驗4,將本文模型與其他模型直接進行性能指標比較,結果如表3所示。

從表3可以看到,本文模型無論在Criteo-10k數據集還是MovieLens-1M數據集上都優于其他模型。

首先是關于Criteo-10k數據集,由于數據量較小,所有模型指標差別不大,其中DIFM、ONN效果最差,DeepFM、DCN、AutoInt、AFN、PNN效果在中間,xDeepFM、DCN-M、FiBiNet和本文模型效果均不錯,其中本文模型效果最好,但指標差距與FiBiNet差別不大。

然后是MovieLens-1M數據集,相比Criteo-10k數據集,由于數據量的增大,所有模型的效果均有所提升,但ONN的效果仍然不是很好,其次為DeepFM、PNN和DCN模型。DCN-M模型作為在DCN模型上的改進,效果明顯比DCN好,與xDeepFM效果相差無幾,但xDeepFM運算復雜度也高不少。AutoInt通過自注意力機制僅對原特征進行隱式挖掘,卻達到了驚人的效果,證明了多頭注意力機制在挖掘隱式特征交互的優越性。FiBiNet、AFN與DIFM也相對于DeepFM大幅提升了預測效果。本文模型包含了對原數據和通過原數據新生成的多階顯式交互特征進行高低層的融合挖掘,效果則是最好的。

通過上述實驗得到關于問題c)的結論,相比單純挖掘定階顯式特征交互的PNN、DeepFM,以及可看做對數據作標量乘積的DCN,針對高低階顯式特征交互進行更好挖掘的,如xDeepFM、DCN-M,確實能夠提升CTR的準確率;對數據/權重進行更好處理的,如FiBiNet和DIFM,也能有效提升準確率;自注意力機制如AutoInt相對DNN也確實更加有效,而將多階顯式交互特征作為額外輸入進行多層自注意力機制結合挖掘是最有效的。

3.8 樣本案例分析

為了更直觀地表現出本文模型在對用戶針對某項目的點擊率預測的準確性,本文在MovieLens-1M上抓取幾個用戶與其共同看過的幾部電影作為測試集中的一部分,以進行預測(二分類,評分大于3為1,小于等于3為0)。

具體而言,本文選擇的user_id為[1,9,10],選擇的movie_id列表為[1,150,720],每個用戶的喜好真實值向量為[[1,1,0],[1,0,1],[0,1,1]]。本文先用訓練集在模型上進行訓練,后將測試集輸入進訓練完成的模型中,觀測測試集中本文所選擇的幾個項的預測結果,即點擊率概率,然后與真實值進行對比。如圖14所示,本文可以得到預測結果為:[[0.641 74,0.725 4,0.484 57],[0.613 24,0.271 86,0.552 74],[0.363 94,0.776 48,0.874 21]],其中所有項均預測正確,充分說明了本文模型的準確性。

4 結束語

本文提出了一種多層結合多階顯式交互融合推薦模型,該模型首先通過顯式特征交互層生成不同階的顯式交互向量,拼接后得到多階顯式交互矩陣,在針對有限數據集中能夠生成更多特征以提高預測準確率;將多階顯式交互特征和原數據分別通過多層結合自注意力交互層,然后拼接并輸出,旨在深度挖掘各個特征之間交互特征,并保證不同層的挖掘信息不丟失,同時還能平衡各階顯式特征之間的表達能力。通過Criteo-10k和MovieLens-1M兩組數據集與其他優秀模型進行對比分析,證明了本文模型相較于其他算法能夠達到更好的效果;通過消融對比實驗證明了本文模型中的顯式交互特征生成層與多層結合自注意力交互層各自的必要性,以及將兩者結合并平衡各特征間學習參數量對預測準確率提升的必要性。

但是可以通過實驗發現,本文的改進提升有限,原因主要在于顯式交互的方式本身沒有改進,可能造成較多的噪聲,并且沒有引入更多的生成特征,如歷史行為特征等。下一步考慮將用戶歷史行為以時序形式與該模型相結合得到更好的效果,改進顯式交叉方式的同時盡量降低復雜度。

參考文獻:

[1]

Rendle S.Factorization machines[C]//Proc of IEEE International Conference on Data Mining,Piscataway,NJ:IEEE Press,2010:995-1000.

[2]Juan Y,Zhuang Yong,Chin W S,et al.Field-aware factorization machines for CTR prediction[C]//Proc of the 10th ACM Conference on Recommender Systems.New York:ACM Press,2016:43-50.

[3]Xiao Jun,Ye Hao,He Xiangnan,et al.Attentional factorization machines:learning the weight of feature interactions via attention networks[C]//Proc of the 40th International Joint Conference on Artificial Intelligence.2017:435-441.

[4]Zhang Weinan,Du Tianming,Wang Jun.Deep learning over multi-field categorical data[C]//Proc of European Conference on Information Retrieval.Berlin:Springer,2016:45-57.

[5]Qu Yanru,Cai Han,Ren Kan,et al.Product-based neural networks for user response prediction[C]//Proc of the 16th IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2016:1149-1154.

[6]He Xiangnan,Chua T S.Neural factorization machines for sparse predictive analytics[C]//Proc of the 40th International ACMSIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2017:355-364.

[7]Cheng H T,Koc L,Harmsen J,et al.Wide amp; deep learning for recommender systems[C]//Proc of the 1st Workshop on Deep Learning for Recommender Systems.2016:7-10.

[8]Guo Huifeng,Tang Ruiming,Ye Yunming,et al.DeepFM:a factorization-machine based neural network for CTR prediction[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1725-1731.

[9]Wang Ruoxi,Fu Bin,Fu Gang,et al.Deep amp; cross network for ad click predictions[C]//Proc of the 23rd ACM SIGKDD Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2017:12-18.

[10]Lian Jianxun,Zhou Xiaohuan,Zhang Fuzheng,et al.xDeepFM:combining explicit and implicit feature interactions for recommender systems[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2018:1754-1763.

[11]Wang Ruoxi,Shivanna R,Cheng D Z,et al.DCN V2:improved deep amp; cross network for feature cross learning in web-scale learning to rank systems[C]//Proc of the Web Conference.New York:ACM Press,2021:1785-1797.

[12]Song Weiping,Shi Chence,Xiao Zhiping,et al.AutoInt:automatic feature interaction learning via self-attentive neural networks[C]//Proc of the 28th ACM International Conference on Information and Know-ledge Management.New York:ACM Press,2019:1161-1170.

[13]Yang Yi,Xu Baile,Shen Furao,et al.Operation-aware neural networks for user response prediction[EB/OL].(2019-04-02).https://arxiv.org/abs/1904.12579.pdf.

[14]Huang Tongwen,Zhang Zhiqi,Zhang Junlin.Combining feature importance and bilinear feature interaction for CTR prediction[C]//Proc of the 13th ACM Conference on Recommender Systems.New York:ACM Press,2019:169-177.

[15]Yu Yantao,Wang Zhen,Yuan Bo.An input-aware factorization machine for sparse prediction[C]//Proc of the 28th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:1466-1472.

[16]Lu Wantong,Yu Yantao,Chang Yongzhe,et al.A dual input-aware factorization machine for CTR prediction[C]//Proc of the 29th International Joint Conference on Artificial Intelligence.2020:3139-3145.

[17]譚臺哲,晏家斌.基于注意力模型的混合推薦系統[J].計算機工程與應用,2020,56(13):172-180. (Tan Taizhe,Yan Jiabin.Hybrid recommendation system based on self-attention model[J].Computer Engineering and Applications,2020,56(13):172-180.)

[18]周菲,徐洪珍.基于改進 Transformer 的廣告點擊率預估模型[J].計算機應用研究,2021,38(8):2386-2389,2400. (Zhou Fei,Xu Hongzhen.Improved Transformer based model for click-through rate prediction[J].Application Research of Computers,2021,38(8):2386-2389,2400.)

[19]Cheng Weiyu,Shen Yanyan.Huang Linpeng.Adaptive factorization network:learning adaptive-order feature interactions[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:3609-3616.

[20]Zhou Guorui,Song Chengru,Zhu Xiaoqiang,et al.Deep interest network for click-through rate prediction[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2018:1059-1068.

[21]Zhou Guorui,Na Mou,Fan Ying,et al.Deep interest evolution network for CTR prediction[EB/OL].(2018).https://github.com/mouna99/dien.

主站蜘蛛池模板: 久久久久中文字幕精品视频| 中文字幕日韩丝袜一区| 99精品免费欧美成人小视频| 经典三级久久| 九色免费视频| 欧美亚洲欧美| 中文字幕第1页在线播| 国产国模一区二区三区四区| 国产女人18毛片水真多1| 一区二区三区四区精品视频| 国产一区二区视频在线| 中文字幕佐山爱一区二区免费| 91年精品国产福利线观看久久 | 国产第二十一页| www中文字幕在线观看| 国产黄网站在线观看| 国产麻豆va精品视频| 99re在线视频观看| 亚洲欧美日韩中文字幕一区二区三区 | 国产成人免费视频精品一区二区| 97久久超碰极品视觉盛宴| 无码福利视频| 国产女人综合久久精品视| 久久夜色撩人精品国产| 在线观看精品自拍视频| 免费精品一区二区h| 亚洲V日韩V无码一区二区| 影音先锋亚洲无码| 不卡的在线视频免费观看| 国产男女免费完整版视频| 美女被操91视频| 亚洲日韩国产精品综合在线观看| 亚洲高清无在码在线无弹窗| 国产主播福利在线观看| 国产成人三级| 一区二区三区四区在线| 国产尹人香蕉综合在线电影| 青青久视频| 天堂岛国av无码免费无禁网站| 真实国产乱子伦视频| 99re热精品视频国产免费| 亚洲三级色| 国产成人在线无码免费视频| 国产精品综合久久久| 免费在线a视频| 日韩小视频在线播放| 欧美一级夜夜爽www| 日本五区在线不卡精品| 新SSS无码手机在线观看| 亚洲成人动漫在线| 一级一毛片a级毛片| 夜夜拍夜夜爽| 亚洲国产精品一区二区高清无码久久| a天堂视频| 国产人成在线视频| 毛片大全免费观看| jizz在线免费播放| 中文一区二区视频| 亚洲婷婷在线视频| 91小视频在线播放| 黄色网在线| 欧美一区二区精品久久久| 日本三级欧美三级| 在线播放国产99re| 亚洲 欧美 日韩综合一区| 国产麻豆另类AV| 国产在线小视频| 国产97视频在线| 亚洲成人黄色网址| 中文字幕在线观看日本| 理论片一区| 亚洲午夜福利精品无码| 99尹人香蕉国产免费天天拍| 中文字幕av无码不卡免费| 婷婷色中文网| 在线va视频| 无码福利视频| 国产微拍精品| 欧美www在线观看| 欧美一级夜夜爽| 亚洲综合在线最大成人| 久久久久人妻一区精品|