999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶畫像的互聯網廣告點擊率預測模型研究

2021-08-19 20:55:32周親吳運辰吳俊坤
軟件 2021年2期

周親 吳運辰 吳俊坤

摘 要:本文使用某電商公司提供的廣告點擊日志流,構建基于用戶畫像的互聯網廣告點擊率預測xDeepFM模型。研究發現:xDeepFM模型對預估準確率提升明顯;用戶畫像系統可以很好的解決深度模型對高維稀疏特征的學習問題,有效提高預估準確率。

關鍵詞:互聯網廣告;用戶畫像;xDeepFM模型;點擊率預測

中圖分類號:TP274 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2021.02.052

本文著錄格式:周親,吳運辰,吳俊坤.基于用戶畫像的互聯網廣告點擊率預測模型研究[J].軟件,2021,42(02):171-174

Research on Prediction Model of Internet Advertising Click through Rate Based on User Portrait

ZHOU Qin, WU Yunchen, WU Junkun

(School of economics, Nanjing University of Posts and telecommunications, Nanjing? Jiangsu? 210023)

【Absrtact】:This paper uses the click log stream provided by an e-commerce company to build the xDeepFM model of Internet advertising click rate prediction based on user portrait. The results show that: xDeepFM model can significantly improve the prediction accuracy; user portrait system can solve the problem of learning high-dimensional sparse features from depth model, and effectively improve the prediction accuracy.

【Key words】:internet advertising;user portrait;xDeepFM model;click through rate prediction

0引言

21世紀以來,隨著智能手機與互聯網技術的逐漸成熟,互聯網廣告成為日常生活中最常見的廣告形式。同時,互聯網廣告以其精準度高、互動性強以及營銷成本相對較低等顯著特性,成為互聯網公司最為穩定的一種營收模式。

廣告點擊率是衡量互聯網廣告投放效果的重要指標。互聯網公司想要用戶愿意點擊彈跳出來的廣告,就要投放符合其“胃口”的廣告。因此需要使用更精確科學的模型對廣告點擊率進行預估,準確的估算廣告被前端用戶點擊的可能性,幫助廣告供應方在有限的預算下獲得更多的點擊機會,從而帶來更大的收益。在此背景下本文使用某電商公司提供的廣告點擊日志流,構建基于用戶畫像的互聯網廣告點擊率預測xDeepFM模型,進行深入研究。

1研究現狀

1.1關于用戶畫像的研究現狀

目前普遍接受的用戶畫像(Persona)的定義是由交互設計之父Alan Cooper提出的,他認為用戶畫像是真實用戶的虛擬代表,是根據一系列用戶的真實數據而挖掘出的目標用戶模型[1]。

用戶畫像被應用于各個行業。在營銷方面,王冬羽[2]將用戶畫像系統的分為用戶靜態信息畫像和用戶動態信息畫像,設計了用戶畫像系統,有效提高了用戶流量、增加了新用戶數;在圖書館應用方面,都藍[3]通過精確的構建用戶畫像,幫助圖書館更加直觀地了解到讀者閱讀傾向,便于館員開展精準化閱讀推廣服務。

1.2關于廣告點擊率的研究現狀

點擊率(CTR)是指某一內容被點擊次數與被展示次數的比,一般用于描述內容被用戶點擊的概率[4]。目前CTR預估研究方向主要分為兩個類別,即模型選擇層面和特征提取層面。從模型選擇層面來說:吳文偉[5]基于分布式邏輯回歸模型進行分析,最終使廣告點擊率系統的訓練速度得以明顯提升;Rendl等[6]提出一種能夠自動進行特征組合的模型——因子分解機。從特征提取層面來說:華盛頓大學教授Domingos[7]曾說,使用什么特征是很多機器學習項目成敗的關鍵因素。周永[8]基于真實廣告點擊數據發現,基于GBDT特征優化技術的LR模型能有效提高傳統LR模型的預測準確率;宋益多[9]通過LDA模型輸出用戶査詢的主題詞向量,最后基于深度神經網絡的預測模型進行分析。

2數據說明及預處理

2.1數據說明

本文所述的廣告點擊率預估方法來源于實驗室合作項目,數據來源自某電商公司提供的廣告點擊日志流,可以基于該組數據來衡量網站上廣告的吸引程度。本文數據具體時間范圍2020年3月1日至2020年3月8日共計八天。為保證用戶的相關隱私,所有數據均做脫敏處理。本文選取了日志流中的三個數據集進行后續廣告點擊率預測模型擬合,如表1所示。

首先,在該電商網站上隨機抽樣114萬用戶近8天(2020.3.1-2020.3.8)內的點擊日志,并選取合適的維度,共計2600萬記錄,構成樣本骨架數據集,數據集內的字段說明如表2。

其次在該電商網站上提取樣本骨架數據表中包含的廣告基本信息,數據集內的字段說明如表3。

再提取樣本骨架數據表中114萬用戶的基本信息,構成用戶信息表,字段信息如表4。

2.2數據預處理

通過對數據隨機抽取查看發現,可能由于電商平臺數據存儲的失敗、存儲器破壞或者歷史局限問題,數據中存在缺失值和異常值。為進一步分析數據并保證數據的完整性和可靠性,使用多重插補方法對數據預處理。

3 xDeepFM模型求解

3.1特征編碼

數據集通過數據預處理后依舊是比較臟亂,因為數據中存在各種非數字特殊符號,比如中文等,而實際上機器學習模型需要的數據是數字型的,只有數字類型才能進行計算。因此,對于各種特殊的特征值,需要通過one-hot編碼對其進行量化。

3.2 xDeepFM模型參數優化

xDeepFM要學習的參數主要包括線性FM部分的系數、Embedding層的系數、CIN中各層的系數和DNN中各層的系數,通過反向傳播算法即可求解各個系數。但是傳統的求解使用梯度下降進行參數權重更新,每一輪迭代都需要使用全部的數據來計算平均損失函數,對于本文大數據集的情況,計算效率較差,考慮相關優化方法進行求解,隨機梯度下降使用單個數據點的損失來代替整個數據記得平均損失,可以很好地解決梯度下降帶來的計算問題,但是容易帶來模型不收斂問題,同時使用單個數據點的損失來衡量平均損失也存在一定的誤差;小批量梯度下降使用一批數據來計算平均損失,代替整個數據集的平均損失,是計算速度和計算準確性之間的折中方法,因此,本文使用小批量梯度下降進行參數求解。

最終模型的預測結果還與模型各預設參數相關,如學習率、batch_size、batch_norm、layer_size、layer_shape等,不同參數的調優過程是一個NP問題,一般使用網格搜索來進行最優化,根據各參數的不同設定,可以求得模型的AUC值,最終選取擬合效果最好的參數組合來構建模型如表5。

3.3預測結果檢驗與分析

使用網格搜索求得的超參數組合進行模型訓練,損失函數變化圖像如圖1所示。可以看出,在訓練的初始階段,損失函數跳躍嚴重,無法收斂,而在經過7000多輪迭代后,損失函數趨于平緩,最終穩定在一個固定的值附近,代表模型收斂。

訓練完畢,使用tensorboard對網絡結構進行可視化導出,可以看到最終的網絡構架如圖2所示。這表明使用訓練好的xDeepFM模型,在測試集上進行預測,通過ROC曲線計算AUC值以及召回率來衡量模型的擬合優度,最終計算得到AUC為0.8532,召回率為0.9217,模型擬合較好,針對廣告點擊率預測具有實質性作用。

3.4模型優化:用戶畫像系統

已經構建的xDeepFM模型能夠很好的擬合互聯網廣告點擊問題的特征,同時可以預測用戶對于不同類型廣告的喜好程度、點擊概率,但是依然存在可優化點,例如原始特征中“User_id”這一字段為高維稀疏特征(兩千七百萬維),xDeepFM無法處理這一特征,如果直接對該特征進行熱獨編碼處理、使用,經過DNN模塊的特征交互,會使得最終學習的模型過于關注重復出現的User_id,弱化一般User_id的權重,在實際場景中,某個User_id反復出現并點擊互聯網廣告,很可能是刷流量等作弊行為,因此將其視為無效特征,不予使用。但是,不使用用戶唯一標識特征會帶來新的問題,這就意味著放棄用戶歷史數據,也就是放棄xDeepFM模型對用戶的記憶能力,這在實際生產環境中是難以取舍的問題,另一方面,不使用用戶標識特征會帶來嚴重的冷啟動問題。

為解決上述問題,考慮使用歷史數據構建用戶畫像系統,用戶畫像系統使用用戶歷史行為數據,如用戶歷史點擊廣告類型、用戶IP位置、點擊終端等特征,可以構建性別、年齡、興趣標簽,基于用戶畫像系統的結果,可以將每一個User_id映射到對應的用戶類別中,最終作為新的特征添加到模型的輸入變量中,用戶畫像系統的輸出經過熱獨編碼處理會變成低維變量,滿足xDeepFM模型學習的基礎,不會帶來維度災難、聚焦問題,同時可以充分使用已有數據,保留模型對用戶行為的記憶能力。

用戶畫像系統可以作用于互聯網廣告點擊的召回階段,也可以作用于特征生成階段,本文將用戶畫像應用于特征生成階段,衍生出新的特征進行后續學習,使用用戶畫像系統后的ROC曲線如圖3所示。根據模型訓練、預估結果發現,在相同的訓練集、測試集上,用戶畫像系統可以使模型性能得到進一步提升,主要體現在AUC和Recall上,其中AUC提高5-6個百分點,Recall提高1個百分點。因此,可以得出結論:用戶畫像系統能夠優化xDeepFM模型,提高模型的擬合優度,從而提升廣告點擊預測的準確率。

4結論

通過對本文所選的互聯網廣告數據的建模分析發現:(1)相對于其他模型(如邏輯回歸、神經網絡等),xDeepFM模型有其特有的優勢;(2)xDeepFM模型中的CIN架構可以學習數據集中的歷史關系,其中的DNN架構可以自動化學習特征高階(二階及以上)交互關系,均對預估準確率提升明顯;(3)基于海量用戶數據所構成的用戶畫像系統,可以完美解決深度模型對高維稀疏特征的學習問題,有效緩解過擬合,提高模型的擬合優度,同時可以提供模型的記憶能力,緩解冷啟動問題、提高預估準確率。

參考文獻

[1] 徐芳,應潔茹.國內外用戶畫像研究綜述[J].圖書館學研究,2020(12):7-16.

[2] 王冬羽.基于移動互聯網行為分析的用戶畫像系統設計[D].成都:成都理工大學,2017.

[3] 都藍.基于用戶畫像的高校圖書館年度閱讀報告研究[J].圖書館雜志,2019,38(4):27-33+40.

[4] 劉冶,劉荻,王硯文,等.基于多源融合特征提取的在線廣告預測模型[J].計算機工程,2019,45(1):178-185+191.

[5] 吳文偉.基于分布式邏輯回歸模型的廣告點擊率預估系統[D].北京:北京交通大學,2018.

[6] Rendle S.Factorization Machines[C].Proceedings of the 2010 IEEE International Conference on Data Mining. Washington DC:IEEE Computer Society,2010:995-1000.

[7] Pedro Domingos.A few useful things to know about machine learning[J].Communications of the ACM,2012,

55(10):78-87.

[8] 周永.基于特征學習的廣告點擊率預估技術研究[D].哈爾濱:哈爾濱工程大學,2014.

[9] 宋益多.基于用戶特征的搜索廣告點擊率預測研究[D].哈爾濱:哈爾濱工程大學,2016.

主站蜘蛛池模板: 国产99久久亚洲综合精品西瓜tv| 永久毛片在线播| 亚洲首页在线观看| 久热re国产手机在线观看| 亚洲欧美日本国产综合在线| 欧洲亚洲欧美国产日本高清| 视频二区亚洲精品| 国产人妖视频一区在线观看| 国产一二三区在线| 精品夜恋影院亚洲欧洲| 亚洲欧洲综合| 亚洲人成在线精品| 国产农村妇女精品一二区| 国产一二三区在线| 日韩欧美国产区| 国产欧美日韩免费| 国产第一福利影院| 国产69精品久久久久孕妇大杂乱 | 亚洲人成网7777777国产| 亚洲aⅴ天堂| 久久亚洲中文字幕精品一区| 久久综合亚洲色一区二区三区| 欧美精品亚洲二区| 美女无遮挡拍拍拍免费视频| 国产无码制服丝袜| 91精品啪在线观看国产60岁 | 丝袜久久剧情精品国产| swag国产精品| 午夜欧美理论2019理论| 亚洲无码精彩视频在线观看| 中文字幕日韩久久综合影院| 欧美精品不卡| 国产成人啪视频一区二区三区| 91美女视频在线| 色婷婷在线影院| 免费A级毛片无码免费视频| 亚洲精品你懂的| 日韩无码黄色| 少妇精品久久久一区二区三区| 欧美a级完整在线观看| www亚洲精品| 一区二区三区国产精品视频| 国产成人狂喷潮在线观看2345| 伊人成色综合网| 最新午夜男女福利片视频| 欧美人在线一区二区三区| 亚洲成a人在线播放www| 国产欧美日韩免费| 精品人妻AV区| 青青青国产在线播放| 亚洲国产精品一区二区第一页免 | 91精品国产综合久久不国产大片| 久久国产香蕉| a级毛片免费网站| 99在线观看国产| 99热这里都是国产精品| 国产精品成人啪精品视频| 亚洲成人免费看| 伦伦影院精品一区| 热久久综合这里只有精品电影| 中国国产A一级毛片| 亚洲三级视频在线观看| 一级毛片免费观看不卡视频| 日韩在线观看网站| 无码视频国产精品一区二区| 日韩av高清无码一区二区三区| 波多野结衣AV无码久久一区| 自偷自拍三级全三级视频| 国产激情国语对白普通话| 国产香蕉97碰碰视频VA碰碰看| 亚洲IV视频免费在线光看| 国产精品v欧美| 欧美激情第一欧美在线| 婷婷久久综合九色综合88| 日本三区视频| 欧美一级在线播放| 毛片最新网址| 亚洲中文字幕av无码区| 亚洲成a人片| 高清久久精品亚洲日韩Av| 久久久国产精品免费视频| 久操中文在线|