999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于輕量梯度提升機的廣告轉化率預估方法

2020-11-10 07:51:50劉恩伯趙玲玲蘇小紅
智能計算機與應用 2020年5期
關鍵詞:特征用戶模型

劉恩伯, 趙玲玲, 蘇小紅

(哈爾濱工業大學 計算機科學與技術學院, 哈爾濱150001)

0 引 言

計算廣告[1-4]是在給定具體的網頁內容和用戶下,通過大量的計算,將最佳廣告內容匹配給用戶的一種精準化廣告投放機制。 隨著網絡技術的快速發展,廣告投放平臺不斷迭代,廣告投放的形式加速改變,如今已經擁有龐大的市場體系,成為互聯網重要的商業模式。 廣告投放效果的好壞通過轉化、曝光和點擊等指標來權衡,因此廣告轉化率預估是計算廣告領域的關鍵問題。 通過對用戶的行為動作、興趣愛好等的分析獲得對用戶的特征抽象,通過對特征的分析建模對特定的用戶推送不同的個性化廣告內容。 不但可以提高廣告的投放效果,使廣告主的收益更大,將廣告從無用的騷擾內容變身成有價值的用戶感興趣的內容,從而為用戶的工作和生活等方面帶來了極大的便利。

廣告轉換率估算方法依賴于用戶、發布商和廣告客戶數據層次結構中的過去性能觀察值[5]。 更具體地說,是利用單獨的二項分布在不同的選擇層次上對轉換事件建模并估計分布參數, 使用邏輯回歸將這些單獨的估計量結合起來以準確識別轉換事件。 Amr Ahmed, Abhimanyu Das 等人提出了一個分層模型和可伸縮算法來執行多任務學習的推理。在聯合稀疏設置中推斷任務關聯和子任務結構,通過一個分布式次梯度預言器以及與變量組和子組相關的prox-operators 的連續應用來實現[6]。 并將此算法應用于展示廣告中的轉化問題上,精度和準度得到了很大的提升。 隨著移動廣告的增長,使得預測廣告響應的任務對于最大化業務收入至關重要。由于廣告的響應數據受限于歷史記錄的冷啟動,阻礙預測的可靠性。 為此, Richard J. Oentaryo,Ee-Peng Lim 等人開發了一個分層重要性意識因子分解機器(HIFM),它提供了一個有效的通用潛在因素框架,其中包含重要性權重和分級學習[7]。 實證研究表明,HIFM 優于當前時間潛在因素模型,冷啟動情景下的整體預測效果得到改善。 Weinan Zhang,Tianming Du 等人提出了兩種使用深度神經網絡(DNN)的新模型,以自動學習來自類別特征的有效模式,并預測用戶的廣告轉化率[8]。 解決了用戶響應預測模型必須將自身限制為線性模型或者需要手動構建高階組合功能。 Hongxia Yang,Quan Lu等人提出一種新的概率生成模型,通過將自然語言處理,動態轉移學習和可伸縮預測的組件緊密集成來預測轉化率[9]。 過度預測和過度出價是實時出價平臺中的基本挑戰。 為了解決這個問題,Quan Lu,Shengjun Pan 等人[10]提出了一個安全的預測框架,其中包含轉換分配調整以處理過度預測,并進一步緩解不同級別的過度出價[10]。

本課題采用Tencent 公開的移動社交應用廣告數據,預估廣告點擊后被激活的概率,即在給定廣告信息、用戶信息和上下文情況等外需信息和廣告日志的情況下,預估廣告被點擊并發生轉化的概率。

目前工業界常用的方法有很多,比如廣點通精排使用的LR 模型,Yahoo 和Bing 使用傳統的GBDT模型,Facebook 使用GBDT+LR 的組合模型,百度鳳巢采用FM 模型。 這些模型針對不同的應用場景和不同的廣告數據效果不盡相同,各有自己的有缺點,將傳統模型進行試驗,并用實驗結果與我們的方法進行效果對比。

輕量梯度提升機(Light Gradient Boosting Machine, LightGBM[11]), 是 一 種 基 于 Gradient Boosting[12-13]的集成學習算法。 傳統的Boosting 算法包括:AdaBoost, RankBoost, GBDT 等。 由于廣告轉化日志特征維度很高且數據量龐大,數據稀疏性高,傳統的GBDT 不能滿足搞得效率和可擴展,LightGBM 算法是傳統梯度提升模型的改進,算法性能有了極大的提升,非常適合廣告轉化日志的屬性特征。 因此,本文將LightGBM 算法應用于互聯網廣告轉化率預估中,挖掘用戶的行為和廣告等有用信息,建立回歸預估模型,調整優化參數從而得到理想的預估概率。 實驗結果表明,LightGBM 與傳統的機器學習方法相比,具有精確度高、運行速度快、內存消耗低和可擴展等特點。

1 數據與模型

1.1 數據描述

原始數據集包括訓練集和測試集,以及廣告特征,用戶特征,上下文特征等8 個數據文件。 訓練數據和測試數據每行代表一個樣本,各字段之間由逗號分隔,順序依次為:“instanceID,label,clickTime,creativeID, userID, positionID, connectionType,telecomsOperator”,其中,instanceID 唯一標識一個樣本。 數據集為廣告系統中隨機抽取某半個月的轉化日志,并遵照運營中的應用App 和用戶特征維度進行隨機采樣。 每一條訓練樣本代表一條廣告轉化日志記錄,樣本標簽label 取值1 代表該條廣告被點擊并發生了轉化,0 表示沒有發生轉化。

廣告特征包括賬戶——推廣計劃——廣告——素材四級結構。 不同的賬戶對應不同的特定廣告主;推廣計劃包含多個不同的廣告,是廣告的一個集合。 廣告主可以把預算額度情況、是否勻速投放、計劃推廣平臺等條目一致的廣告整理到同一個推廣計劃中,便于管理;廣告是指廣告商設計的廣告素材或創意以及展示等相關的設置;素材是直接展現給用戶的廣告內容,同一條廣告可以包含多個廣告素材。廣告特征還包含有各類App 的相關特征。 用戶特征包括用戶的基本特征:年齡、性別、學歷、婚戀狀態、育兒狀態、家鄉和籍貫、常住地等,還包括用戶安裝App 流水等。 上下文特征包括廣告曝光的具體位置;移動工具等的上網模式如4G、Wifi 等;移動工具的運營商如聯通、電信等;多個廣告位的聚合以及對于某些站點人工定義的一套廣告位規格分類等。

基于對轉化日志回流時間的分析,發現幾乎100%的回流時間發生在三天內,其次是兩天之內,占到了90%。 因此,考慮到硬件因素,選擇28,29 兩天為訓練集,30 天為測試集。

1.2 特征提取

數據特征的提取,主要包括以下四部分特征。

(1)基礎特征。 基礎特征即原數據集合包含的已知特征,如age、creativeID、adID、positionType、appInstallList 等。 用這些基礎特征訓練出來的模型,已經具備指導轉化率預估的能力。 即讓分類器學習這些基本屬性對于是否轉化的分布,完成最基本淺層的預估。

(2)用戶的統計特征。 一條廣告是否發生轉化,主要取決于用戶,因此提取與用戶相關的特征屬性是保證預估準度和精度的關鍵。 用戶的統計特征主要包括兩部分:基本統計和時序統計。 基本統計包括:用戶的轉化類別、轉化次數、安裝數量、點擊數量、安裝同類別App 的數量等;時序統計包括:統計點擊時間之前的App 安裝數量、種類、用戶點擊量等。

(3)Trick。 由于網速延時、帶寬等外部因素影響,用戶在短期內可能不斷重復的點擊同一條廣告,挖掘這些連續不斷的點擊日志的信息是很有價值的。 例如,對短期內連續的多條重復記錄進行編號,記錄當前點擊分別與前一次點擊和后一次點擊的時間差,統計相同時段內的點擊量等。

(4)貝葉斯平滑后的轉化率。 在某些特殊條件下,如統計同一廣告位下某App 的歷史轉化率,由于廣告位上線時間有延時,往往上線慢的廣告統計不充分,特征對其基本無影響,因此用戶歷史轉化率并不能相對準確的表示該條件下的真實轉化率。 又如大多數用戶只點擊過某個App 一次,歷史轉化率就可能會達到1,使用這些記錄訓練模型即使用標簽來訓練模型,極大的影響訓練結果。 所以,對某些特定屬性計算該屬性下的貝葉斯平滑后的轉化率。

按照上述提取方案一步步生成最終的數據集合,整體生成流程如圖1 所示。 component 1 - n 是生成的中間數據集。

圖1 數據集生成流程圖Fig. 1 Data set generation flow chart

1.3 特征重要性分析

本文對生成的數據集,使用XGBoost 工具對所選取特征進行重要性排序,從而可以判斷出哪些特征與廣告轉化與否關系較大,這是實驗的特征選取的關鍵一步。 分析結果如圖2 所示。

圖2 XGBoost 特征重要性排序Fig. 2 Importance of feature variables by XGBoost

由圖2 可知,短期內重復點擊的廣告最可能會被轉化,貝葉斯平滑對轉化率的影響也極為關鍵,一些基礎特征對轉化率的指導也很重要。 利用相關性特征,通過皮爾森相關系數對相關性排序低的特征進行篩選。

1.4 輕量梯度提升機

LightGBM 是基于GBDT 的梯度提升算法。 在此基礎上LightGBM 提出兩種新方法:Gradientbased One - Side Sampling (GOSS) 和 Exclusive Feature Bundling (EFB)。

針對數量大,GOSS 保留所有梯度較大的實例,在梯度小的實例上使用隨機采樣。 為了抵消對數據分布的影響,計算信息增益的時候,GOSS 對小梯度的數據引入常量乘數。 GOSS 首先根據數據的梯度絕對值排序,選取Top A 個實例,然后在余下的數據里通過隨機采樣B 個,接著計算信息增益時為采樣出的小梯度數據乘以(1-A)/B,這樣算法就會更關注訓練不足的實例,而不會過多改變原數據集的分布。 所以LightGBM 采用了基于Leaf-wise 的決策樹算法,這是一種按葉子生長并帶有深度限制的生長策略。 而大多數梯度提升模型使用Level-wise 的決策樹算法,這是一種按層生長的生長策略,如圖3 所示。 Leaf-wise 是一種作用更好的生長策略,它每次從當前所有葉子節結點中,找到分裂增益最大的一個葉子結點進行分裂,如此循環。 因此與Levelwise 生長策略相比,在分裂次數等條件相同的情況下,Leaf-wise 可以得到更好的結果,訓練速度更快。

針對特征維度高,高維的數據通常是稀疏的。特別的,稀疏特征空間中,許多特征是互斥的,例如他們從不同時為非零值。 EFB 算法能夠將許多互斥的特征變為低維稠密的特征,能夠有效的避免不必要零值特征的計算,能夠極大地加速GBDT 的訓練過程而且損失精度。 實際上,使用直方圖算法,用表格來標記非零元素來忽略零值特征。 通過對表格中的數據的掃描,建立直方圖的時間復雜度將從O(#data)降到O(#non_zero_data)。 從內存消耗上看,直方圖算法只需(#data* #features * 1Bytes)的內存,在尋找分割點時,直方圖算法的時間復雜度代價是O(#feature * #data),而在數據分割時,直方圖算法時間復雜度的代價只有O(#data)。 在計算上,分割結點次數得到很大的降低;在數據并行時,通信代價得到極大的降低。

圖3 Level-wise 和Leaf-wise 生長策略Fig. 3 Level-wise and Leaf-wise growth strategies

LightGBM 還直接支持類別特征,不需要進行獨熱編碼操作,從而極大地降低了數據維度。 此外,Cache 命中率、網絡通信和并行計算上都有一定程度的優化,且支持GPU 加速。

1.5 參數選取

LightGBM 參數組成主要分為調節訓練速度的參數,調節精度的參數,防止過擬合的參數三部分。在給定其他參數默認值情況下,分別使用網格搜索進行最佳參數選擇,其中重要的參數設置如:bagging_fraction+bagging _ freq 同 時 設 置 來 提 高bagging 的速度,控制樹決策樹復雜度的參數num_leaves 設置為355,此時并未選擇max_depth 來防止過擬合,提高訓練精度的參數學習率learning_rate設置為0.02,提高速度的參數feature_fraction 設置為0.5 等。

2 實驗結果與結論分析

2.1 評價標準

由于廣告轉化率數據具有數據量大且稀疏的特性,為了體現預測結果與真實值的吻合程度,評價指標采用對數損失(Logloss),公式(1)如下:

其中,N 為測試樣本總數,yi是二值變量,取值0或1,表示第i 個樣本的label,pi為模型預測第i 個樣本label 為1 的概率。

2.2 結果比較

使用LR、GBDT、GBDT+LR、FM、FFM 分別對相同特征工程處理后的數據集進行建模,其中FFM 模型是在FM 模型的基礎上進行改進,主要區別在于FM 模型中,每一個特征會對應一個隱變量,而在FFM 模型中,將不同類特征分為多個域,每個特征對應每個域分別對應一個隱變量。 通過參數優化和交叉驗證,對第30 天的轉化率進行預估。 并計算得到各自的Logloss 值與本文的模型LightGBM 進行對比,得到的實驗結果如圖4 所示。

圖4 實驗結果對比圖Fig. 4 Comparison of experimental results

實驗結果表明,在所有實驗模型中,通過對Logloss 值的對比,發現LightGBM 預估結果在準度和精度上都要好于其他五種模型。 在實驗過程中,LightGBM 的內存占用率與其他模型相比最低,CPU利用率僅為0.47,而運算速度僅次于LR,但明顯高于其他幾種模型。

3 結束語

本文采用輕量梯度提升機算法,基于騰訊社交廣告日志,對其數據進行特征選擇構造和回歸算法建模,并與LR、GBDT、GBDT+LR、FM、FFM 算法進行對比,得到了更加精準的轉化率預估結果。 對于日后互聯網廣告轉化率的提高具有重要的現實和指導意義。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 黄色网址免费在线| 国产极品美女在线播放| 久久黄色小视频| 欧美精品成人一区二区在线观看| 亚洲开心婷婷中文字幕| 亚洲国产成熟视频在线多多| 国产人妖视频一区在线观看| 欧美不卡视频在线| 亚洲精品视频免费| 999国内精品久久免费视频| 国产精品午夜电影| 一级毛片网| 日韩123欧美字幕| 日本成人福利视频| 国产女人水多毛片18| 国产av无码日韩av无码网站| 亚洲bt欧美bt精品| 国产一区二区三区精品欧美日韩| 欧美五月婷婷| 国产高清国内精品福利| 亚洲欧美成人| 久久伊人久久亚洲综合| 99人体免费视频| 亚洲天堂精品在线| 欧美第一页在线| 久久中文字幕av不卡一区二区| 99久久精品久久久久久婷婷| 蜜臀av性久久久久蜜臀aⅴ麻豆| 九九热这里只有国产精品| 欧美国产精品不卡在线观看 | 91破解版在线亚洲| 午夜性爽视频男人的天堂| 国内a级毛片| 99福利视频导航| 国产精品观看视频免费完整版| 麻豆精品久久久久久久99蜜桃| 欧美在线导航| 亚洲男人的天堂在线观看| 亚洲永久精品ww47国产| 国产综合网站| 丁香婷婷在线视频| 2024av在线无码中文最新| 欧美一级夜夜爽www| 亚洲美女一区| 国产91丝袜在线播放动漫 | 欧美一级片在线| 国产XXXX做受性欧美88| 伊人久久婷婷五月综合97色| 免费中文字幕一级毛片| 国产乱子伦手机在线| 手机精品视频在线观看免费| 男人天堂亚洲天堂| 最新痴汉在线无码AV| 国内老司机精品视频在线播出| 99在线视频精品| 91久久精品日日躁夜夜躁欧美| 亚洲高清无码精品| 午夜视频在线观看免费网站| 99爱视频精品免视看| 国产精品妖精视频| 日韩精品专区免费无码aⅴ| 国产女同自拍视频| 日韩视频福利| 亚洲乱码在线播放| 免费A级毛片无码免费视频| 99草精品视频| 亚洲第一中文字幕| 国产美女一级毛片| 91精品专区| 一区二区三区成人| 欧美午夜在线视频| 亚洲欧美在线精品一区二区| 国产男人天堂| 久青草网站| 亚洲另类色| 无码福利视频| 麻豆国产精品视频| 在线日本国产成人免费的| 超清无码熟妇人妻AV在线绿巨人 | a亚洲视频| 欧美第二区| 国产成人av大片在线播放|