999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶歷史序列的點(diǎn)擊率預(yù)估

2021-05-25 05:26:34包曉安張瑞林
軟件導(dǎo)刊 2021年5期
關(guān)鍵詞:特征用戶模型

包曉安,陳 昀,張瑞林,張 娜,徐 曼

(浙江理工大學(xué)信息學(xué)院,浙江杭州 310000)

0 引言

近年網(wǎng)絡(luò)廣告成為廣告商推廣產(chǎn)品和營銷的流行方式,為電商網(wǎng)站提供了大量收益。在按點(diǎn)擊付費(fèi)的廣告系統(tǒng)中,廣告通過千次有效點(diǎn)擊(effective Cost Per Mille,eCPM)排序,而eCPM 是由廣告點(diǎn)擊率乘以點(diǎn)擊的期望收益計(jì)算的。點(diǎn)擊的期望收益與廣告產(chǎn)品本身性質(zhì)有關(guān),點(diǎn)擊率在廣告系統(tǒng)的收益中起關(guān)鍵性作用,所以點(diǎn)擊率預(yù)估模型性能直接影響到廣告系統(tǒng)收益。與有目標(biāo)的搜索不同,用戶點(diǎn)擊廣告沒有明確意圖,在建立點(diǎn)擊率預(yù)估模型時(shí),需要從豐富的歷史行為中提取用戶的興趣和需求。描述用戶和廣告特征是廣告系統(tǒng)點(diǎn)擊率建模的基本要素,合理利用這些特征并從中挖掘信息至關(guān)重要,Rendle[1]提出因式分解機(jī)(Factorization Machines,F(xiàn)M)[1],通過計(jì)算二階特征組合預(yù)估點(diǎn)擊率;GBDT+LR[2]通過決策樹模型對(duì)輸入特征進(jìn)行訓(xùn)練,然后把決策樹模型的輸出輸入到LR 模型中進(jìn)行點(diǎn)擊率預(yù)估。

近年由于深度學(xué)習(xí)在圖像處理和自然語言處理中的成功應(yīng)用,基于深度學(xué)習(xí)的點(diǎn)擊率預(yù)估模型成為研究熱點(diǎn)。這些模型有相同的模式,都是由嵌入層和多層感知機(jī)組成。先通過嵌入層把高維稀疏的原始數(shù)據(jù)變成低維稠密數(shù)據(jù),再把低維稠密數(shù)據(jù)輸入多層感知機(jī)進(jìn)行計(jì)算。多層感知機(jī)可以計(jì)算特征的高階非線性特征組合,減去了人工特征組合過程。Hengtze 等[3]提出Wide&Deep 結(jié)合LR深度神經(jīng)網(wǎng)絡(luò)計(jì)算低階和高階特征組合;Guo 等[4]提出DeepFM 用FM 代替Wide&Deep 的Wide 部分,自動(dòng)計(jì)算二階特征組合。然而這些模型只考慮了物品自身的特征組合運(yùn)算,沒有考慮歷史行為隱藏的信息和用戶行為在一段時(shí)間內(nèi)的聯(lián)系性。

在點(diǎn)擊率預(yù)估模型中特征的提取和組合十分重要,用戶的興趣和需求是多變的,但在一段時(shí)間內(nèi)用戶的興趣和需求是相似的。協(xié)同過濾算法通過計(jì)算物品之間或用戶之間的相似度來預(yù)估點(diǎn)擊率。自注意力機(jī)制可使歷史數(shù)據(jù)根據(jù)目標(biāo)物品的不同有不同的權(quán)重,卷積神經(jīng)網(wǎng)絡(luò)可以有效提取數(shù)據(jù)特征。因此,本文提出結(jié)合協(xié)同過濾和自注意力機(jī)制并用卷積神經(jīng)網(wǎng)絡(luò)提取特征的CANN(Collabora?tive Attention Neural Network,CANN)模型。CANN 通過自注意力機(jī)制計(jì)算歷史點(diǎn)擊物品與目標(biāo)物品的相似度對(duì)歷史數(shù)據(jù)加權(quán),并采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)加權(quán)后的歷史數(shù)據(jù)進(jìn)行特征提取。本文主要工作如下:①結(jié)合用戶歷史行為進(jìn)行點(diǎn)擊率預(yù)測(cè);②提出CANN 模型,結(jié)合協(xié)同過濾和自注意力機(jī)制對(duì)目標(biāo)物品和歷史行為進(jìn)行計(jì)算,使得歷史行為面對(duì)不同的目標(biāo)物品時(shí)有不同的側(cè)重點(diǎn);③通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)加權(quán)后的歷史行為進(jìn)行特征提取;④在兩個(gè)公共數(shù)據(jù)集上進(jìn)行比較實(shí)驗(yàn),驗(yàn)證CANN 的有效性。

1 相關(guān)工作

深度神經(jīng)網(wǎng)絡(luò)在CTR 模型中應(yīng)用十分廣泛,輸入特征越來越多,模型層數(shù)越來越深,為得到更好的特征組合結(jié)果進(jìn)行了很多模型結(jié)構(gòu)改進(jìn)工作。

FM 可以當(dāng)作只有一個(gè)隱藏層的網(wǎng)絡(luò),首先在稀疏的輸入數(shù)據(jù)上使用嵌入層,然后施加專門設(shè)計(jì)的變換函數(shù)進(jìn)行目標(biāo)擬合,以獲取特征之間的組合關(guān)系。

Wide&Deep 用神經(jīng)網(wǎng)絡(luò)代替了變換函數(shù),通過一個(gè)y=WT x+b線性模型和一個(gè)深度神經(jīng)網(wǎng)絡(luò)計(jì)算點(diǎn)擊率。PNN[5]在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中加入了一層乘積層,試圖去獲取更高階的特征組合。PNN 在嵌入層之后對(duì)特征進(jìn)行兩兩相乘,再把相乘的項(xiàng)與原來的項(xiàng)一同輸入神經(jīng)網(wǎng)絡(luò)。Deep?FM 用因式分解機(jī)代替Wide&Deep 的Wide 部分,省去了專家特征選取。xDeepFM[6]改進(jìn)了DeepFM,使不同特征相乘有不同的向量。這些模型通過嵌入層和多層感知機(jī)減少了人工特征組合工作。

自注意力機(jī)制來自自然語言處理,它根據(jù)人的注意力在某時(shí)刻只會(huì)集中于某些部分的生物性特征進(jìn)行設(shè)計(jì),對(duì)詞向量進(jìn)行加權(quán)求和使不同問題的關(guān)注點(diǎn)不同。2017 年Ashish[7]的Attention is all you need 受到關(guān)注,自注意力機(jī)制被廣泛應(yīng)用到各個(gè)領(lǐng)域。Jun 等[8]將自注意力機(jī)制和FM 結(jié)合提出了AFM 模型。

卷積神經(jīng)網(wǎng)絡(luò)在點(diǎn)擊率預(yù)估模型中的應(yīng)用越來越多,如Tang[9]就使用了卷積神經(jīng)網(wǎng)絡(luò),F(xiàn)GCNN[10]通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和PNN 進(jìn)行點(diǎn)擊率預(yù)估。

2 CANN

本文提出的CANN 由自注意力機(jī)制、卷積神經(jīng)網(wǎng)絡(luò)組成,可以學(xué)習(xí)用戶歷史序列特征。下面詳細(xì)介紹嵌入層、協(xié)同過濾算法、自注意力機(jī)制、CANN。

2.1 嵌入層

由于多用戶與物品交互少,因此點(diǎn)擊率預(yù)估模型輸入是十分稀疏的高維輸入,如用戶U={u1,u2,…,um},物品I={i1,i2,…,in},用獨(dú)熱碼表示u1=[0,1,0,0,0,…,0],i1=[0,1,0,0,0,…,0],u1點(diǎn)擊過的物品S1=[1,0,0,0,0,1,…]。如果物品有1 000 個(gè),則一個(gè)物品的獨(dú)熱碼表中就會(huì)有999 個(gè)0,1 個(gè)1,輸入量大且數(shù)據(jù)稀疏,十分不易于計(jì)算,因此引入嵌入層。

嵌入層的思想來源于自然語言處理中把單詞轉(zhuǎn)換成向量,意思相近的單詞距離相近,可通過skip-gram 計(jì)算單詞向量。在點(diǎn)擊率預(yù)估模型中,輸入特征稀疏且維度高數(shù)據(jù)量大,不利于計(jì)算。引入嵌入層思想,用一個(gè)向量代表一個(gè)特征值,使輸入數(shù)據(jù)變得稠密。用一個(gè)低維向量表示一個(gè)物品I∈Rm×k,k

2.2 協(xié)同過濾推薦算法

協(xié)同過濾推薦算法是根據(jù)用戶的歷史數(shù)據(jù)去推測(cè)用戶對(duì)物品的點(diǎn)擊率。根據(jù)對(duì)象不同,協(xié)同過濾推薦算法又分為基于物品的協(xié)同過濾、基于用戶的協(xié)同過濾和混合推薦。本節(jié)介紹基于物品的協(xié)同過濾。在基于物品的協(xié)同過濾中,用戶對(duì)某物品的點(diǎn)擊率預(yù)估余弦相似度公式為:

其中,i為目標(biāo)物品,j為用戶u 已點(diǎn)擊過的物品,m 為用戶點(diǎn)擊過的物品總數(shù),|N(i)∩N(j)|為同時(shí)點(diǎn)擊物品i和物品j的用戶數(shù),|N(i)|,|N(j)|分別為點(diǎn)擊物品i的用戶數(shù),點(diǎn)擊物品j的用戶數(shù)。在點(diǎn)擊物品i的用戶數(shù)和點(diǎn)擊物品j的用戶數(shù)不變時(shí),同時(shí)點(diǎn)擊物品i和物品j的用戶數(shù)越多,物品i,j的相似度越大,用戶u 點(diǎn)擊物品i的可能性也越大。如尿不濕和啤酒問題,通過基于物品的協(xié)同過濾可以發(fā)現(xiàn)尿不濕和啤酒經(jīng)常一起出現(xiàn),因此它們會(huì)有較高的相似度。

2.3 自注意力機(jī)制

在加密—解密框架中,自注意力機(jī)制使翻譯不同的單詞時(shí)其余單詞有不同的權(quán)重。自注意力機(jī)制通過Q,K,V計(jì)算,其中,X 為輸入數(shù)據(jù),計(jì)算公式為:

其中,dk是Q 和K 的維度,用于防止Q,K 點(diǎn)乘結(jié)果過大。在CANN 中,結(jié)合協(xié)同過濾算法用余弦相似度代替計(jì)算:

在計(jì)算點(diǎn)擊率的同時(shí)計(jì)算物品相似度,使相似物品的距離相近。不同于加密—解密框架,在CANN 中可只計(jì)算目標(biāo)物品與用戶歷史行為的Attention,分別計(jì)算物品ID 和物品特征ID 的Attention。

2.4 CANN

CANN 結(jié)構(gòu)如圖1 所示,總體分為兩部分:①對(duì)歷史數(shù)據(jù)進(jìn)行信息提取;②全連接層。輸入由用戶ID、物品ID、物品特征ID、歷史物品ID 和歷史物品特征ID 組成,輸入數(shù)據(jù)先經(jīng)過Embedding 層得到稠密數(shù)據(jù)。在自注意力機(jī)制中將物品ID 和歷史物品ID 計(jì)算,將物品特征ID 和歷史物品特征ID 計(jì)算,將計(jì)算后的數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,最后把所有數(shù)據(jù)都輸入全連接層進(jìn)行計(jì)算。卷積神經(jīng)網(wǎng)絡(luò)計(jì)算過程如圖2 所示,每一層都用m×1的卷積核進(jìn)行卷積計(jì)算,直到m=1,提取出歷史序列相應(yīng)維度特征。

Fig.1 CANN structure圖1 CANN 結(jié)構(gòu)

Fig.2 Convolution neural network calculation process圖2 卷積神經(jīng)網(wǎng)絡(luò)計(jì)算過程

全連接層用ReLU 作為激活函數(shù),計(jì)算公式為hi=,hi表示第i 個(gè)隱藏層,Wi表示第i 層權(quán)重,bi表示偏差。在輸出層用Sigmoid 作為激活函數(shù)y′=本文用交叉熵?fù)p失函數(shù)計(jì)算損失,公式如下:

其中,y?{0,1}表示標(biāo)簽,y′為模型輸出值,表示用戶點(diǎn)擊概率。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

MovieLens-1M:在推薦系統(tǒng)中常用此數(shù)據(jù)集,包含1 000 209 條用戶對(duì)電影的評(píng)分,3 900 部電影和6 040 個(gè)用戶,其中電影共有18 個(gè)類別。為了使數(shù)據(jù)符合點(diǎn)擊率預(yù)測(cè),本文將用戶看過的電影都標(biāo)注為1,并隨機(jī)從用戶未看過的電影中選取負(fù)樣本標(biāo)注為0,使正負(fù)樣本比例為1∶1。本文按用戶評(píng)論時(shí)間排序,把用戶每5 個(gè)評(píng)論作為歷史數(shù)據(jù),第6 個(gè)評(píng)論作為目標(biāo)物品,預(yù)測(cè)第6 個(gè)物品的點(diǎn)擊率,并把每個(gè)用戶的最后一組序列作為測(cè)試集數(shù)據(jù)。嵌入層維度設(shè)置為48,優(yōu)化器為Adam,學(xué)習(xí)率為0.001。

UserBehavior:UserBehavior 是阿里巴巴提供的一個(gè)淘寶用戶行為數(shù)據(jù)集,用于隱式反饋推薦問題的研究,其中包含987 994 個(gè)用戶,4 162 024 個(gè)商品,9 439 個(gè)商品類別,100 150 807 條用戶行為數(shù)據(jù)。文件中包含用戶ID、商品ID、商品類目ID、行為類型和時(shí)間戳。用戶行為數(shù)據(jù)包括4 種行為,分別為點(diǎn)擊商品、將商品加入購物車、購買商品和收藏商品。由于本文只預(yù)測(cè)點(diǎn)擊率,所以本文只使用其中的點(diǎn)擊商品行為。選取近5 萬個(gè)用戶,每個(gè)用戶15條點(diǎn)擊數(shù)據(jù),將其按用戶和時(shí)間排序,其它處理同電影數(shù)據(jù)集一樣,最終獲得900 144 條訓(xùn)練數(shù)據(jù),99 976 條測(cè)試數(shù)據(jù),如表1 所示。

Table 1 Data set statistics表1 數(shù)據(jù)集統(tǒng)計(jì)

3.2 對(duì)比模型

DNN:普通的深度神經(jīng)網(wǎng)絡(luò),只包含嵌入層和全連接層。

PNN:在嵌入層之后插入了一層乘積層。

DeepFM:結(jié)合因子分解機(jī)和深度神經(jīng)網(wǎng)絡(luò)的模型。

3.3 評(píng)估標(biāo)準(zhǔn)

點(diǎn)擊率預(yù)估中AUC(Area Under Curve)經(jīng)常被用來作為評(píng)估標(biāo)準(zhǔn),本文使用AUC 和LogLoss(交叉熵?fù)p失)作為評(píng)估標(biāo)準(zhǔn)。

3.4 分析與結(jié)論

表2 顯示對(duì)比模型和CANN 的實(shí)驗(yàn)結(jié)果。從表2 可以看出,所有模型都優(yōu)于DNN,說明在DNN 上添加特征處理是有效的。在MovieLens-1M 數(shù)據(jù)集和UserBehavior 數(shù)據(jù)集上,CANN 的AUC 和LogLoss 都要明顯好于其它3 個(gè)模型,這說明對(duì)歷史序列進(jìn)行特征提取的重要性。在其它3 個(gè)模型中歷史序列被當(dāng)作普通的特征數(shù)據(jù),在CANN 中歷史序列通過協(xié)同過濾自注意力機(jī)制進(jìn)行處理并通過卷積神經(jīng)網(wǎng)絡(luò)提取特征,因此CANN 的效果要好于其它3 個(gè)模型。

Table 2 Experimental results表2 實(shí)驗(yàn)結(jié)果

4 結(jié)語

本文通過用戶歷史序列預(yù)測(cè)廣告點(diǎn)擊率,結(jié)合協(xié)同過濾和自注意力機(jī)制對(duì)歷史序列進(jìn)行計(jì)算,使數(shù)據(jù)有不同的側(cè)重點(diǎn),使用卷積神經(jīng)網(wǎng)絡(luò)提取特征。在兩個(gè)公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過對(duì)比驗(yàn)證了本文提出的CANN 模型的有效性。無論是AUC 還是LogLoss,CANN 都要明顯好于其它3 個(gè)模型。用戶歷史序列數(shù)據(jù)是刻畫用戶特征的重點(diǎn),在未來工作中可以繼續(xù)對(duì)利用歷史序列提取用戶特征進(jìn)行研究,進(jìn)行用戶畫像,進(jìn)一步提高點(diǎn)擊率預(yù)估準(zhǔn)確性。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 成人午夜久久| 在线欧美日韩| 成人亚洲天堂| 国产精品永久久久久| 专干老肥熟女视频网站| 国产精品成人AⅤ在线一二三四| 中文字幕无码av专区久久| 久久免费视频播放| 亚洲天堂在线免费| 国产色伊人| 久久久久久国产精品mv| 少妇极品熟妇人妻专区视频| 曰AV在线无码| 无码专区在线观看| 久久精品人人做人人综合试看| 欧美精品在线观看视频| 成人免费网站在线观看| 国产XXXX做受性欧美88| 国产超碰在线观看| 亚洲成人在线免费观看| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲精选无码久久久| 波多野结衣一区二区三区四区视频 | a毛片免费在线观看| 尤物精品视频一区二区三区| 激情影院内射美女| 又爽又大又光又色的午夜视频| 国产色伊人| 欧美综合激情| 这里只有精品国产| 国产精品3p视频| 国产成人高清在线精品| 久青草网站| 欧美精品伊人久久| 国产精品九九视频| 亚洲国产精品一区二区第一页免 | 偷拍久久网| 国产午夜一级淫片| 亚洲an第二区国产精品| 青青热久免费精品视频6| 久久99国产乱子伦精品免| 91精品最新国内在线播放| 日本少妇又色又爽又高潮| 欧美在线伊人| 久久综合成人| 无码精品福利一区二区三区| 亚洲日本www| 爽爽影院十八禁在线观看| 国产又爽又黄无遮挡免费观看| 欧美日本视频在线观看| 欧美va亚洲va香蕉在线| 中文字幕在线永久在线视频2020| 久久久精品国产SM调教网站| 欧美一级高清片欧美国产欧美| 免费大黄网站在线观看| 国产成人免费| 亚洲91精品视频| 日本欧美午夜| 高清久久精品亚洲日韩Av| 69av免费视频| 亚洲国产在一区二区三区| 国产永久无码观看在线| 国产成人8x视频一区二区| 国产视频自拍一区| 亚洲女同欧美在线| 亚洲欧洲日本在线| 在线观看国产小视频| 国产福利在线免费| 精品一区二区无码av| 婷婷六月综合网| 欧美成人综合视频| 2021最新国产精品网站| 91综合色区亚洲熟妇p| 精品一区二区三区水蜜桃| 欧美成人国产| 国产成人亚洲综合A∨在线播放| 国产乱子伦视频三区| 国内精品一区二区在线观看| 五月婷婷丁香综合| 久精品色妇丰满人妻| 欧美激情伊人| 国产一区二区三区免费观看|