999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶歷史序列的點擊率預估

2021-05-25 05:26:34包曉安張瑞林
軟件導刊 2021年5期
關鍵詞:特征用戶模型

包曉安,陳 昀,張瑞林,張 娜,徐 曼

(浙江理工大學信息學院,浙江杭州 310000)

0 引言

近年網絡廣告成為廣告商推廣產品和營銷的流行方式,為電商網站提供了大量收益。在按點擊付費的廣告系統中,廣告通過千次有效點擊(effective Cost Per Mille,eCPM)排序,而eCPM 是由廣告點擊率乘以點擊的期望收益計算的。點擊的期望收益與廣告產品本身性質有關,點擊率在廣告系統的收益中起關鍵性作用,所以點擊率預估模型性能直接影響到廣告系統收益。與有目標的搜索不同,用戶點擊廣告沒有明確意圖,在建立點擊率預估模型時,需要從豐富的歷史行為中提取用戶的興趣和需求。描述用戶和廣告特征是廣告系統點擊率建模的基本要素,合理利用這些特征并從中挖掘信息至關重要,Rendle[1]提出因式分解機(Factorization Machines,FM)[1],通過計算二階特征組合預估點擊率;GBDT+LR[2]通過決策樹模型對輸入特征進行訓練,然后把決策樹模型的輸出輸入到LR 模型中進行點擊率預估。

近年由于深度學習在圖像處理和自然語言處理中的成功應用,基于深度學習的點擊率預估模型成為研究熱點。這些模型有相同的模式,都是由嵌入層和多層感知機組成。先通過嵌入層把高維稀疏的原始數據變成低維稠密數據,再把低維稠密數據輸入多層感知機進行計算。多層感知機可以計算特征的高階非線性特征組合,減去了人工特征組合過程。Hengtze 等[3]提出Wide&Deep 結合LR深度神經網絡計算低階和高階特征組合;Guo 等[4]提出DeepFM 用FM 代替Wide&Deep 的Wide 部分,自動計算二階特征組合。然而這些模型只考慮了物品自身的特征組合運算,沒有考慮歷史行為隱藏的信息和用戶行為在一段時間內的聯系性。

在點擊率預估模型中特征的提取和組合十分重要,用戶的興趣和需求是多變的,但在一段時間內用戶的興趣和需求是相似的。協同過濾算法通過計算物品之間或用戶之間的相似度來預估點擊率。自注意力機制可使歷史數據根據目標物品的不同有不同的權重,卷積神經網絡可以有效提取數據特征。因此,本文提出結合協同過濾和自注意力機制并用卷積神經網絡提取特征的CANN(Collabora?tive Attention Neural Network,CANN)模型。CANN 通過自注意力機制計算歷史點擊物品與目標物品的相似度對歷史數據加權,并采用卷積神經網絡對加權后的歷史數據進行特征提取。本文主要工作如下:①結合用戶歷史行為進行點擊率預測;②提出CANN 模型,結合協同過濾和自注意力機制對目標物品和歷史行為進行計算,使得歷史行為面對不同的目標物品時有不同的側重點;③通過卷積神經網絡對加權后的歷史行為進行特征提取;④在兩個公共數據集上進行比較實驗,驗證CANN 的有效性。

1 相關工作

深度神經網絡在CTR 模型中應用十分廣泛,輸入特征越來越多,模型層數越來越深,為得到更好的特征組合結果進行了很多模型結構改進工作。

FM 可以當作只有一個隱藏層的網絡,首先在稀疏的輸入數據上使用嵌入層,然后施加專門設計的變換函數進行目標擬合,以獲取特征之間的組合關系。

Wide&Deep 用神經網絡代替了變換函數,通過一個y=WT x+b線性模型和一個深度神經網絡計算點擊率。PNN[5]在神經網絡結構中加入了一層乘積層,試圖去獲取更高階的特征組合。PNN 在嵌入層之后對特征進行兩兩相乘,再把相乘的項與原來的項一同輸入神經網絡。Deep?FM 用因式分解機代替Wide&Deep 的Wide 部分,省去了專家特征選取。xDeepFM[6]改進了DeepFM,使不同特征相乘有不同的向量。這些模型通過嵌入層和多層感知機減少了人工特征組合工作。

自注意力機制來自自然語言處理,它根據人的注意力在某時刻只會集中于某些部分的生物性特征進行設計,對詞向量進行加權求和使不同問題的關注點不同。2017 年Ashish[7]的Attention is all you need 受到關注,自注意力機制被廣泛應用到各個領域。Jun 等[8]將自注意力機制和FM 結合提出了AFM 模型。

卷積神經網絡在點擊率預估模型中的應用越來越多,如Tang[9]就使用了卷積神經網絡,FGCNN[10]通過結合卷積神經網絡和PNN 進行點擊率預估。

2 CANN

本文提出的CANN 由自注意力機制、卷積神經網絡組成,可以學習用戶歷史序列特征。下面詳細介紹嵌入層、協同過濾算法、自注意力機制、CANN。

2.1 嵌入層

由于多用戶與物品交互少,因此點擊率預估模型輸入是十分稀疏的高維輸入,如用戶U={u1,u2,…,um},物品I={i1,i2,…,in},用獨熱碼表示u1=[0,1,0,0,0,…,0],i1=[0,1,0,0,0,…,0],u1點擊過的物品S1=[1,0,0,0,0,1,…]。如果物品有1 000 個,則一個物品的獨熱碼表中就會有999 個0,1 個1,輸入量大且數據稀疏,十分不易于計算,因此引入嵌入層。

嵌入層的思想來源于自然語言處理中把單詞轉換成向量,意思相近的單詞距離相近,可通過skip-gram 計算單詞向量。在點擊率預估模型中,輸入特征稀疏且維度高數據量大,不利于計算。引入嵌入層思想,用一個向量代表一個特征值,使輸入數據變得稠密。用一個低維向量表示一個物品I∈Rm×k,k

2.2 協同過濾推薦算法

協同過濾推薦算法是根據用戶的歷史數據去推測用戶對物品的點擊率。根據對象不同,協同過濾推薦算法又分為基于物品的協同過濾、基于用戶的協同過濾和混合推薦。本節介紹基于物品的協同過濾。在基于物品的協同過濾中,用戶對某物品的點擊率預估余弦相似度公式為:

其中,i為目標物品,j為用戶u 已點擊過的物品,m 為用戶點擊過的物品總數,|N(i)∩N(j)|為同時點擊物品i和物品j的用戶數,|N(i)|,|N(j)|分別為點擊物品i的用戶數,點擊物品j的用戶數。在點擊物品i的用戶數和點擊物品j的用戶數不變時,同時點擊物品i和物品j的用戶數越多,物品i,j的相似度越大,用戶u 點擊物品i的可能性也越大。如尿不濕和啤酒問題,通過基于物品的協同過濾可以發現尿不濕和啤酒經常一起出現,因此它們會有較高的相似度。

2.3 自注意力機制

在加密—解密框架中,自注意力機制使翻譯不同的單詞時其余單詞有不同的權重。自注意力機制通過Q,K,V計算,其中,X 為輸入數據,計算公式為:

其中,dk是Q 和K 的維度,用于防止Q,K 點乘結果過大。在CANN 中,結合協同過濾算法用余弦相似度代替計算:

在計算點擊率的同時計算物品相似度,使相似物品的距離相近。不同于加密—解密框架,在CANN 中可只計算目標物品與用戶歷史行為的Attention,分別計算物品ID 和物品特征ID 的Attention。

2.4 CANN

CANN 結構如圖1 所示,總體分為兩部分:①對歷史數據進行信息提取;②全連接層。輸入由用戶ID、物品ID、物品特征ID、歷史物品ID 和歷史物品特征ID 組成,輸入數據先經過Embedding 層得到稠密數據。在自注意力機制中將物品ID 和歷史物品ID 計算,將物品特征ID 和歷史物品特征ID 計算,將計算后的數據輸入卷積神經網絡進行特征提取,最后把所有數據都輸入全連接層進行計算。卷積神經網絡計算過程如圖2 所示,每一層都用m×1的卷積核進行卷積計算,直到m=1,提取出歷史序列相應維度特征。

Fig.1 CANN structure圖1 CANN 結構

Fig.2 Convolution neural network calculation process圖2 卷積神經網絡計算過程

全連接層用ReLU 作為激活函數,計算公式為hi=,hi表示第i 個隱藏層,Wi表示第i 層權重,bi表示偏差。在輸出層用Sigmoid 作為激活函數y′=本文用交叉熵損失函數計算損失,公式如下:

其中,y?{0,1}表示標簽,y′為模型輸出值,表示用戶點擊概率。

3 實驗

3.1 實驗數據

MovieLens-1M:在推薦系統中常用此數據集,包含1 000 209 條用戶對電影的評分,3 900 部電影和6 040 個用戶,其中電影共有18 個類別。為了使數據符合點擊率預測,本文將用戶看過的電影都標注為1,并隨機從用戶未看過的電影中選取負樣本標注為0,使正負樣本比例為1∶1。本文按用戶評論時間排序,把用戶每5 個評論作為歷史數據,第6 個評論作為目標物品,預測第6 個物品的點擊率,并把每個用戶的最后一組序列作為測試集數據。嵌入層維度設置為48,優化器為Adam,學習率為0.001。

UserBehavior:UserBehavior 是阿里巴巴提供的一個淘寶用戶行為數據集,用于隱式反饋推薦問題的研究,其中包含987 994 個用戶,4 162 024 個商品,9 439 個商品類別,100 150 807 條用戶行為數據。文件中包含用戶ID、商品ID、商品類目ID、行為類型和時間戳。用戶行為數據包括4 種行為,分別為點擊商品、將商品加入購物車、購買商品和收藏商品。由于本文只預測點擊率,所以本文只使用其中的點擊商品行為。選取近5 萬個用戶,每個用戶15條點擊數據,將其按用戶和時間排序,其它處理同電影數據集一樣,最終獲得900 144 條訓練數據,99 976 條測試數據,如表1 所示。

Table 1 Data set statistics表1 數據集統計

3.2 對比模型

DNN:普通的深度神經網絡,只包含嵌入層和全連接層。

PNN:在嵌入層之后插入了一層乘積層。

DeepFM:結合因子分解機和深度神經網絡的模型。

3.3 評估標準

點擊率預估中AUC(Area Under Curve)經常被用來作為評估標準,本文使用AUC 和LogLoss(交叉熵損失)作為評估標準。

3.4 分析與結論

表2 顯示對比模型和CANN 的實驗結果。從表2 可以看出,所有模型都優于DNN,說明在DNN 上添加特征處理是有效的。在MovieLens-1M 數據集和UserBehavior 數據集上,CANN 的AUC 和LogLoss 都要明顯好于其它3 個模型,這說明對歷史序列進行特征提取的重要性。在其它3 個模型中歷史序列被當作普通的特征數據,在CANN 中歷史序列通過協同過濾自注意力機制進行處理并通過卷積神經網絡提取特征,因此CANN 的效果要好于其它3 個模型。

Table 2 Experimental results表2 實驗結果

4 結語

本文通過用戶歷史序列預測廣告點擊率,結合協同過濾和自注意力機制對歷史序列進行計算,使數據有不同的側重點,使用卷積神經網絡提取特征。在兩個公共數據集上進行實驗,通過對比驗證了本文提出的CANN 模型的有效性。無論是AUC 還是LogLoss,CANN 都要明顯好于其它3 個模型。用戶歷史序列數據是刻畫用戶特征的重點,在未來工作中可以繼續對利用歷史序列提取用戶特征進行研究,進行用戶畫像,進一步提高點擊率預估準確性。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 免费无码又爽又黄又刺激网站 | 中文字幕第4页| 国产91色在线| 亚洲无码91视频| 国产美女一级毛片| 91福利国产成人精品导航| 99精品一区二区免费视频| 亚洲精品另类| 日日拍夜夜操| 波多野结衣在线一区二区| 国产精品成人一区二区不卡 | 国产欧美日韩精品第二区| 国产一区二区人大臿蕉香蕉| 免费在线视频a| lhav亚洲精品| 日韩一级毛一欧美一国产| 99久久国产自偷自偷免费一区| 全色黄大色大片免费久久老太| 久久这里只有精品2| 91九色国产在线| 精品超清无码视频在线观看| 99re在线视频观看| 日韩av无码DVD| 99精品国产自在现线观看| 国产美女无遮挡免费视频网站 | 日韩二区三区无| 色吊丝av中文字幕| 亚洲精品成人福利在线电影| 在线观看精品自拍视频| 久久a毛片| 国产专区综合另类日韩一区| 精品一区国产精品| 无码在线激情片| 亚洲午夜福利精品无码不卡| 日本人妻一区二区三区不卡影院| 四虎永久免费在线| 91久久天天躁狠狠躁夜夜| 91午夜福利在线观看精品| 又黄又爽视频好爽视频| 亚洲日韩Av中文字幕无码| 狼友视频一区二区三区| 日韩在线第三页| 91视频首页| 国产乱人免费视频| 国模视频一区二区| 久久黄色免费电影| 国产最爽的乱婬视频国语对白| 国产精品综合久久久| 91美女视频在线| 都市激情亚洲综合久久| 日韩在线播放欧美字幕| 毛片在线播放a| 韩日无码在线不卡| 久久国产精品影院| 99r在线精品视频在线播放| 四虎国产精品永久一区| AV不卡在线永久免费观看| 国产一区二区免费播放| 婷婷亚洲视频| 久久美女精品| 国产va在线观看| 久草美女视频| 久久黄色视频影| 亚洲精品爱草草视频在线| 99re视频在线| 欧美视频免费一区二区三区| 日本伊人色综合网| 亚洲愉拍一区二区精品| 亚洲AV一二三区无码AV蜜桃| 亚洲精品成人片在线播放| 亚洲成a人片77777在线播放 | 欧美在线一级片| 婷婷午夜天| 不卡网亚洲无码| 欧美日韩在线亚洲国产人| 久久一色本道亚洲| 91热爆在线| 高清免费毛片| 国产资源站| 亚洲激情区| 欧美日韩免费| 性激烈欧美三级在线播放|