基于用戶歷史序列的點擊率預估

2021-05-25 05:26:34包曉安張瑞林

軟件導刊 2021年5期

包曉安，陳昀，張瑞林，張娜，徐曼

（浙江理工大學信息學院，浙江杭州 310000）

0 引言

近年網絡廣告成為廣告商推廣產品和營銷的流行方式，為電商網站提供了大量收益。在按點擊付費的廣告系統中，廣告通過千次有效點擊（effective Cost Per Mille，eCPM）排序，而eCPM 是由廣告點擊率乘以點擊的期望收益計算的。點擊的期望收益與廣告產品本身性質有關，點擊率在廣告系統的收益中起關鍵性作用，所以點擊率預估模型性能直接影響到廣告系統收益。與有目標的搜索不同，用戶點擊廣告沒有明確意圖，在建立點擊率預估模型時，需要從豐富的歷史行為中提取用戶的興趣和需求。描述用戶和廣告特征是廣告系統點擊率建模的基本要素，合理利用這些特征并從中挖掘信息至關重要，Rendle［1］提出因式分解機（Factorization Machines，FM）［1］，通過計算二階特征組合預估點擊率；GBDT+LR［2］通過決策樹模型對輸入特征進行訓練，然后把決策樹模型的輸出輸入到LR 模型中進行點擊率預估。

近年由于深度學習在圖像處理和自然語言處理中的成功應用，基于深度學習的點擊率預估模型成為研究熱點。這些模型有相同的模式，都是由嵌入層和多層感知機組成。先通過嵌入層把高維稀疏的原始數據變成低維稠密數據，再把低維稠密數據輸入多層感知機進行計算。多層感知機可以計算特征的高階非線性特征組合，減去了人工特征組合過程。Hengtze 等［3］提出Wide&Deep 結合LR深度神經網絡計算低階和高階特征組合；Guo 等［4］提出DeepFM 用FM 代替Wide&Deep 的Wide 部分，自動計算二階特征組合。然而這些模型只考慮了物品自身的特征組合運算，沒有考慮歷史行為隱藏的信息和用戶行為在一段時間內的聯系性。

在點擊率預估模型中特征的提取和組合十分重要，用戶的興趣和需求是多變的，但在一段時間內用戶的興趣和需求是相似的。協同過濾算法通過計算物品之間或用戶之間的相似度來預估點擊率。自注意力機制可使歷史數據根據目標物品的不同有不同的權重，卷積神經網絡可以有效提取數據特征。因此，本文提出結合協同過濾和自注意力機制并用卷積神經網絡提取特征的CANN（Collabora?tive Attention Neural Network，CANN）模型。CANN 通過自注意力機制計算歷史點擊物品與目標物品的相似度對歷史數據加權，并采用卷積神經網絡對加權后的歷史數據進行特征提取。本文主要工作如下：①結合用戶歷史行為進行點擊率預測；②提出CANN 模型，結合協同過濾和自注意力機制對目標物品和歷史行為進行計算，使得歷史行為面對不同的目標物品時有不同的側重點；③通過卷積神經網絡對加權后的歷史行為進行特征提取；④在兩個公共數據集上進行比較實驗，驗證CANN 的有效性。

1 相關工作

深度神經網絡在CTR 模型中應用十分廣泛，輸入特征越來越多，模型層數越來越深，為得到更好的特征組合結果進行了很多模型結構改進工作。

FM 可以當作只有一個隱藏層的網絡，首先在稀疏的輸入數據上使用嵌入層，然后施加專門設計的變換函數進行目標擬合，以獲取特征之間的組合關系。

Wide&Deep 用神經網絡代替了變換函數，通過一個y=WT x+b線性模型和一個深度神經網絡計算點擊率。PNN［5］在神經網絡結構中加入了一層乘積層，試圖去獲取更高階的特征組合。PNN 在嵌入層之后對特征進行兩兩相乘，再把相乘的項與原來的項一同輸入神經網絡。Deep?FM 用因式分解機代替Wide&Deep 的Wide 部分，省去了專家特征選取。xDeepFM［6］改進了DeepFM，使不同特征相乘有不同的向量。這些模型通過嵌入層和多層感知機減少了人工特征組合工作。

自注意力機制來自自然語言處理，它根據人的注意力在某時刻只會集中于某些部分的生物性特征進行設計，對詞向量進行加權求和使不同問題的關注點不同。2017 年Ashish［7］的Attention is all you need 受到關注，自注意力機制被廣泛應用到各個領域。Jun 等［8］將自注意力機制和FM 結合提出了AFM 模型。

卷積神經網絡在點擊率預估模型中的應用越來越多，如Tang［9］就使用了卷積神經網絡，FGCNN［10］通過結合卷積神經網絡和PNN 進行點擊率預估。

2 CANN

本文提出的CANN 由自注意力機制、卷積神經網絡組成，可以學習用戶歷史序列特征。下面詳細介紹嵌入層、協同過濾算法、自注意力機制、CANN。

2.1 嵌入層

由于多用戶與物品交互少，因此點擊率預估模型輸入是十分稀疏的高維輸入，如用戶U=｛u1,u2,…,um｝，物品I=｛i1,i2,…,in｝，用獨熱碼表示u1=[0,1,0,0,0,…,0]，i1=[0,1,0,0,0,…,0]，u1點擊過的物品S1=[1,0,0,0,0,1,…]。如果物品有1 000 個，則一個物品的獨熱碼表中就會有999 個0，1 個1，輸入量大且數據稀疏，十分不易于計算，因此引入嵌入層。

嵌入層的思想來源于自然語言處理中把單詞轉換成向量，意思相近的單詞距離相近，可通過skip-gram 計算單詞向量。在點擊率預估模型中，輸入特征稀疏且維度高數據量大，不利于計算。引入嵌入層思想，用一個向量代表一個特征值，使輸入數據變得稠密。用一個低維向量表示一個物品I∈Rm×k，k

2.2 協同過濾推薦算法

協同過濾推薦算法是根據用戶的歷史數據去推測用戶對物品的點擊率。根據對象不同，協同過濾推薦算法又分為基于物品的協同過濾、基于用戶的協同過濾和混合推薦。本節介紹基于物品的協同過濾。在基于物品的協同過濾中，用戶對某物品的點擊率預估余弦相似度公式為：

其中，i為目標物品，j為用戶u 已點擊過的物品，m 為用戶點擊過的物品總數，|N(i)∩N(j)|為同時點擊物品i和物品j的用戶數，|N(i)|,|N(j)|分別為點擊物品i的用戶數，點擊物品j的用戶數。在點擊物品i的用戶數和點擊物品j的用戶數不變時，同時點擊物品i和物品j的用戶數越多，物品i，j的相似度越大，用戶u 點擊物品i的可能性也越大。如尿不濕和啤酒問題，通過基于物品的協同過濾可以發現尿不濕和啤酒經常一起出現，因此它們會有較高的相似度。

2.3 自注意力機制

在加密—解密框架中，自注意力機制使翻譯不同的單詞時其余單詞有不同的權重。自注意力機制通過Q，K，V計算，其中，X 為輸入數據，計算公式為：

其中,dk是Q 和K 的維度，用于防止Q，K 點乘結果過大。在CANN 中，結合協同過濾算法用余弦相似度代替計算：

在計算點擊率的同時計算物品相似度，使相似物品的距離相近。不同于加密—解密框架，在CANN 中可只計算目標物品與用戶歷史行為的Attention，分別計算物品ID 和物品特征ID 的Attention。

2.4 CANN

CANN 結構如圖1 所示，總體分為兩部分：①對歷史數據進行信息提取；②全連接層。輸入由用戶ID、物品ID、物品特征ID、歷史物品ID 和歷史物品特征ID 組成，輸入數據先經過Embedding 層得到稠密數據。在自注意力機制中將物品ID 和歷史物品ID 計算，將物品特征ID 和歷史物品特征ID 計算，將計算后的數據輸入卷積神經網絡進行特征提取，最后把所有數據都輸入全連接層進行計算。卷積神經網絡計算過程如圖2 所示，每一層都用m×1的卷積核進行卷積計算，直到m=1，提取出歷史序列相應維度特征。

Fig.1 CANN structure圖1 CANN 結構

Fig.2 Convolution neural network calculation process圖2 卷積神經網絡計算過程

全連接層用ReLU 作為激活函數，計算公式為hi=，hi表示第i 個隱藏層，Wi表示第i 層權重，bi表示偏差。在輸出層用Sigmoid 作為激活函數y′=本文用交叉熵損失函數計算損失，公式如下：

其中,y?{0,1}表示標簽，y′為模型輸出值，表示用戶點擊概率。

3 實驗

3.1 實驗數據

MovieLens-1M：在推薦系統中常用此數據集，包含1 000 209 條用戶對電影的評分，3 900 部電影和6 040 個用戶，其中電影共有18 個類別。為了使數據符合點擊率預測，本文將用戶看過的電影都標注為1，并隨機從用戶未看過的電影中選取負樣本標注為0，使正負樣本比例為1∶1。本文按用戶評論時間排序，把用戶每5 個評論作為歷史數據，第6 個評論作為目標物品，預測第6 個物品的點擊率，并把每個用戶的最后一組序列作為測試集數據。嵌入層維度設置為48，優化器為Adam，學習率為0.001。

UserBehavior：UserBehavior 是阿里巴巴提供的一個淘寶用戶行為數據集，用于隱式反饋推薦問題的研究，其中包含987 994 個用戶，4 162 024 個商品，9 439 個商品類別，100 150 807 條用戶行為數據。文件中包含用戶ID、商品ID、商品類目ID、行為類型和時間戳。用戶行為數據包括4 種行為，分別為點擊商品、將商品加入購物車、購買商品和收藏商品。由于本文只預測點擊率，所以本文只使用其中的點擊商品行為。選取近5 萬個用戶，每個用戶15條點擊數據，將其按用戶和時間排序，其它處理同電影數據集一樣，最終獲得900 144 條訓練數據，99 976 條測試數據，如表1 所示。

Table 1 Data set statistics表1 數據集統計

3.2 對比模型

DNN：普通的深度神經網絡，只包含嵌入層和全連接層。

PNN：在嵌入層之后插入了一層乘積層。

DeepFM：結合因子分解機和深度神經網絡的模型。

3.3 評估標準

點擊率預估中AUC（Area Under Curve）經常被用來作為評估標準，本文使用AUC 和LogLoss（交叉熵損失）作為評估標準。

3.4 分析與結論

表2 顯示對比模型和CANN 的實驗結果。從表2 可以看出，所有模型都優于DNN，說明在DNN 上添加特征處理是有效的。在MovieLens-1M 數據集和UserBehavior 數據集上，CANN 的AUC 和LogLoss 都要明顯好于其它3 個模型，這說明對歷史序列進行特征提取的重要性。在其它3 個模型中歷史序列被當作普通的特征數據，在CANN 中歷史序列通過協同過濾自注意力機制進行處理并通過卷積神經網絡提取特征，因此CANN 的效果要好于其它3 個模型。

Table 2 Experimental results表2 實驗結果

4 結語

本文通過用戶歷史序列預測廣告點擊率，結合協同過濾和自注意力機制對歷史序列進行計算，使數據有不同的側重點，使用卷積神經網絡提取特征。在兩個公共數據集上進行實驗，通過對比驗證了本文提出的CANN 模型的有效性。無論是AUC 還是LogLoss，CANN 都要明顯好于其它3 個模型。用戶歷史序列數據是刻畫用戶特征的重點，在未來工作中可以繼續對利用歷史序列提取用戶特征進行研究，進行用戶畫像，進一步提高點擊率預估準確性。