999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

集成FM 的短視頻喜好率預測模型

2020-07-17 08:19:52王麗苗許青林姜文超符基高
計算機工程與應用 2020年14期
關鍵詞:特征用戶實驗

王麗苗,許青林,姜文超,符基高

廣東工業大學 計算機學院,廣州 510006

1 引言

隨著以智能手機為代表的各類智能化移動終端的日益普及,移動互聯網廣告行業得到了迅猛的發展,尤其是移動短視頻廣告。根據QuestMobile發布的數據,截止2017年9月,中國短視頻的用戶數突破3億,同比增長94.1%;而移動短視頻廣告的喜好率也遠高于其他形式的廣告。喜好率(Like-Through Rate,LTR)是衡量移動短視頻廣告投放效果的重要指標。通過對移動短視頻廣告的分析與預測,不僅能夠讓用戶瀏覽到自己感興趣的視頻,改善用戶體驗,還能輔助廣告主合理使用預算,將廣告精準傳遞給目標人群,同時提高移動媒體的網站收益。

近年來,喜好率和點擊率預測等相關問題的研究已取得了大量的進展[1]。目前工業界應用最廣泛的預測方法是利用邏輯回歸(Logistic Regression,LR)來學習點擊率預測模型[2-4]。LR的優點是簡單、非常容易實現大規模實時并行處理,但是線性模型的學習能力有限,不能捕獲高階特征攜帶的信息(非線性信息)[5],從而限制了LR的預測性能。Joachims[6]提出用支持向量機(Support Vector Machine,SVM)模型預測廣告點擊率,能夠有效地處理多維非線性數據,但無法對大數據量的稀疏廣告進行預測。Lee等人[7]從媒體、用戶和廣告主三方角度出發,對數據進行分層建模來緩解數據稀疏性,進而提高展示廣告轉化率預測的準確性。Shen等人[8]提出了基于協同過濾和張量分解的點擊率預測模型。該模型根據用戶、查詢和文檔的關系來挖掘用戶的個性化偏好,以提升預測精度。匡俊等人[9]使用矩陣分解等方法生成交叉特征,通過將用戶特征和視頻特征進行交叉組合,來提高模型的精度。潘書敏等人[10]提出了USFD模型來對廣告點擊率進行預測,該模型從用戶的角度出發,對具有相似特征的用戶進行建模分析,挖掘特征差異對用戶點擊行為的影響,來提高點擊率預測精度。Rendle[11]結合支持向量機(SVM)和分解模型的優點,提出了一種因子分解機(Factorization Machines,FM)模型,FM使用分解參數模擬變量之間的所有交互,可以在非常稀疏的數據下進行參數估計,相比于SVM有較好的預測質量,此外,FM是一種可以與任何實值特征向量一起使用的通用預測器。朱志北等[12]提出的LDA-FMS模型預測廣告點擊率,能有效地解決廣告和用戶數據量大且數據稀疏的問題,但是其沒有考慮特征工程的成本和時間。田嫦麗等[13]提出了一種基于梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)模型的高影響力特征提取方法。使用該方法降低了特征提取的人工和時間成本,具有很好的參考意義。

此外,隨著神經網絡和深度學習[14]的不斷發展,劉夢娟等人[15]提出了能夠融合不同結構的神經網絡來學習特征的高階表示,來提高模型精度;張志強等人[16]使用張量分解和神經網絡來解決廣告數據的稀疏性問題和非線性關系。深度學習方法的主要劣勢在于可解釋性差,訓練過程較為復雜,訓練耗時較長。

基于以上分析,本文從移動短視頻廣告的多主題性質出發,針對特征工程費時費力問題,采用集成的思想,提出了基于LDA-GBDT-FM的短視頻喜好率預測模型。該模型的主要貢獻如下:(1)利用LDA對原有訓練集進行基于主題的分割,分割生成的每個子訓練集顯著小于原始訓練集,在一定程度上降低了計算復雜度。(2)對不同主題下的訓練集采用GBDT模型進行特征的自動選擇以及特征的非線性轉換,減少基線算法中人工特征工程對時間和人力的依賴。(3)利用因子分解機非線性模型,可有效解決數據的高度稀疏問題。(4)通過集成不同主題的預測結果,進而提高預測精度。實驗證明基于LDA-GBDT-FM模型能有效提高預測短視頻點擊事件的準確率。

2 LDA-GBDT-FM短視頻喜好率預測模型

短視頻本身具有多主題的性質,即一個短視頻可以對應多個主題。本文從短視頻標題本身的潛在語義出發,充分利用短視頻的多主題性,提出一種基于LDAGBDT-FM的短視頻喜好率預測模型。圖1表示短視頻喜好率的預測框架。

圖1 LDA-GBDT-FM模型結構圖

如圖1所示,首先利用LDA主題模型對短視頻標題進行建模,得到短視頻的主題分布,再對原始訓練集進行基于主題的分割,得到不同主題下的子訓練集,在每個子訓練集上,利用GBDT提取連續型特征的高影響力特征,再將提取到的高影響力特征與離散型特征合并后進行獨熱編碼,訓練FM并建立子模型,最后利用合成策略將子模型集成得到最終的預測。

2.1 LDA算法建模生成不同主題的子訓練集

(1)短視頻標題集建模

對短視頻標題集進行LDA[17]建模,利用吉布斯抽樣算法(Gibbssampling)學習得到短視頻主題分布β,如式(1)所示:

其中,βnk表示短視頻n屬于主題k的概率,即:

本文將βnk稱為短視頻n與主題k的相關度。

(2)分割短視頻訓練數據集

利用短視頻主題分布β將訓練集分成不同主題的子訓練集。

定義1(短視頻主題相關閾值)當n與k的相關度βnk大于σ(0≤σ<1)時,表示n屬于k,σ稱為短視頻主題相關閾值。

假設有K個主題,則n屬于k的平均概率為1/K,當βnk大于1/K時,則說明n與k的相關度較大。因此在LDA-GBDT-FM模型中,將σ設為平均概率,即σ=1/K。

分割思想如下:對短視頻訓練數據集D進行遍歷,查看每條數據的短視頻主題分布βnk,若大于σ,則將n存到相應的子訓練集dk中。應當注意,因為短視頻具有多主題性,對于同一個短視頻,其相關度大于σ的主題會不止一個,因此,不同主題的子訓練集中可能具有相同的短視頻數據。

2.2 利用GBDT提取高影響力特征

分割短視頻訓練數據集D后,得到不同主題的子訓練集d1,d2,…,dk。利用GBDT對每個子訓練集中的連續特征提取高影響力特征。GBDT是由Friedman J H[18]在2000年提出的一種非線性模型,它采用的是Boosting集成學習方法[19],每次迭代都在殘差減少的梯度方向新建立一棵決策樹,即最終迭代次數與決策樹的數目相等,決策樹的葉子節點可以直接作為特征向量的一個維度。GBDT的這種思想使其具備很大優勢,發現多種有區分性的特征和特征組合,構造的高影響力特征可以直接作為預估模型輸入特征,節約人工成本,提高效率。圖2表示使用GBDT前后的特征選擇示意圖,融合前人工發掘有區分度的特征,融合后直接通過GBDT非線性模型提取高影響力特征。

圖2 使用GBDT前后的特征選擇示意圖

2.3 訓練不同主題下的喜好率預測模型

本文使用FM作為短視頻喜好率的預測模型。FM因子分解機可以使用分解參數模擬不同類型變量間的所有交互,并且可對任意實值向量進行預測,因此,FM在面對高度稀疏數據時具有較高的預測精度。

在短視頻喜好率預測的背景下,本文將GBDT提取到的高影響力特征與離散型特征合并后進行獨熱編碼后,作為FM的輸入,對輸入的特征向量進行兩兩因子分解,短視頻的喜好率作為輸出,短視頻喜好率預測模型如式(2)所示:

其中,xi為第i個特征的值,n是短視頻特征的維度,w0∈R為全局偏差,wi∈Rn是第i個特征的影響因子,V∈Rn×h為互異特征分量之間的交互參數。 Vi,Vj表示的是兩個維度為h的向量Vi和向量Vj的點積:

其中,Vi表示的是系數矩陣V的第i維向量,且Vi=是超參數。

本文采用隨機梯度下降(Stochastic Gradient Descent,SGD)的方法對FM模型進行參數計算。該方法通過最小化每條樣本的損失函數來達到目的,為了防止參數過多而導致的過擬合問題,在優化函數中加入正則化項L2范式,其定義如下:

其中,l(y1,y2)=(y1-y2)2為最小平方損失函數。

SGD通過遍歷訓練集中的每條數據并按照一定的學習率沿著負梯度方向更新參數,直至收斂,參數更新方法如下:

其中,α∈R+為學習速率.。

2.4 短視頻喜好率預測

短視頻喜好率預測過程中,充分考慮短視頻的多主題性,先利用2.3節中訓練得到的喜好率預測模型分別計算每個主題的短視頻喜好率;再將2.1節中得到的短視頻與主題的相關度作為每個主題的短視頻喜好率的權重;最后,將K個主題下的預測結果集成起來產生最終的短視頻喜好率。

對于一條短視頻n,其喜好率預測結果可表示為:

其中,βnk為短視頻n與主題k的相關度。

模型LDA-GBDT-FM:

輸入:訓練集D,經過步驟1和步驟2預處理的測試集X,主題數目K。

輸出:測試集中每條數據的喜好率p。

步驟1 Topic clustering

1.讀取訓練集D,提取短視頻廣告的標題特征樣本集合W

2.利用吉布斯抽樣法,得到短視頻-主題分布:β={β11,β12,…,βnk}

3.設置短視頻-主題關聯閾值σ

4.For eachninD:

5.For eachkinK:

6.Ifβnk>σ:

7.n∈dk

8.ReturnD={d1,d2,…,dk}和β

步驟2 Feature extraction

9.For eachdiinD:

10.從d中提取連續特征集U={u1,u2,…,ut}和離散特征集V={v1,v2,…,vt}

11.設置梯度提升決策樹的棵數α=30和深度η=4

12.利用GBDT訓練連續特征集U得到高影響力特征集G={g1,g2,…,gt}

13.結合G和V,得到重構訓練樣本集γi={gi}∪{vi}

14.Returnγ={γ1,γ2,…,γt}

步驟3 Training

15.For eachγiinγ:

16.訓練因子分解機FM模型y?dk

17.ReturnFM={y?d1,y?d2,…,y?dk}

步驟4 Predicting

18.For eachxinX:

19.For eachy?diinFM:

3 實驗及結果分析

3.1 實驗數據集和實驗環境介紹

本文的數據集采用Bytedance公司的短視頻廣告歷史日志。該數據集包含19 624 543條短視頻歷史數據。數據集中的一條數據包含用戶信息、短視頻廣告信息以及用戶與短視頻的交互信息,如表1所示。

表1 數據集列名

本文程序由Python3.6編寫完成,運行環境為Ubuntu16.04,內存大小64GB,Intel?CoreTMi9-7900X CPU@3.30 GHz。

3.2 實驗結果與分析

本文使用曲線下方的面積(Area Under Curve,AUC)[20]指標來檢驗短視頻喜好率預測模型的訓練效果,因為LDA-GBDT-FM模型研究的主要目的是通過提高短視頻喜好率預測的精度來對短視頻廣告的展示和排序產生一定的指導意義。

(1)GBDT的樹棵數和樹深度的設定

表2表示GBDT模型的樹棵數和樹深度以及學習率取不同值時,對LDA-GBDT-FM模型準確度的影響。如表2所示,隨著樹的數量和樹的深度的增加,AUC沒有顯著提高,綜合考慮,后面的實驗中將采用樹數量為30,樹深度為4,學習率為0.13作為最終的GBDT的模型參數。

表2 GBDT高層提取實驗記錄

(2)主題個數對喜好率預測的影響

在LDA-GBDT-FM模型和LDA-FM模型中,主題數量作為原始訓練集分割和預測結果集成的依據,是一個重要的超參數。本實驗將短視頻廣告按照不同的主題數量進行劃分,分別計算模型對不同主題數量的數據集的喜好率預測情況。

如圖3所示,隨著主題數量的增加,AUC的值逐漸上升,當達到20時,上升趨勢平緩,當主題數目為35時,能夠取得最佳的預測結果,因此,后續實驗取主題數目為35時的實驗結果。

圖3 不同主題下喜好率預測結果

(3)預測結果分析

為了檢驗模型的有效性,本實驗在相同的實驗環境和相同的參數設置下將LDA-GBDT-FM模型與邏輯回歸模型(LR)、因子分解機模型(FM)和LDA-FM模型三種點擊率預測模型進行對比,實驗結果如圖4所示。

圖4 LDA-GBDT-FM與其他喜好率預測模型對比

如圖4所示,在預測短視頻廣告的喜好率時,本文提出的模型有更高的預測準確度,具體來說,LDA-GBDTFM相較LDA-FM、FM和LR的AUC分別提高了3.0%、5.7%和8.5%。這說明GBDT對每個主題的FM預測模型是有效的,提升了模型的預測準確度,因為GBDT可以對特征進行非線性轉換,發掘高影響力特征,消除噪聲的干擾。

4 結束語

計算廣告學蓬勃發展,精準的短視頻廣告喜好率對APP運營商、廣告主和用戶都有著重要意義。本文的主要工作是從短視頻的多主題性質出發,提出了一種基于LDA-GBDT-FM短視頻喜好率預測方法,通過對不同主題的數據,提取高影響力特征來訓練模型,根據短視頻與主題的關聯度,將子模型集成來提高短視頻喜好率預測精度。實驗結果表明,LDA-GBDT-FM模型相較于以往的模型在喜好率預測方面具有更高的準確性。

猜你喜歡
特征用戶實驗
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 午夜啪啪网| 欧美日韩专区| 2019国产在线| 亚洲免费福利视频| 欧美一级片在线| 中文字幕伦视频| 成人午夜在线播放| 99人体免费视频| 国产女同自拍视频| 国产青榴视频| 国产丰满成熟女性性满足视频| 成人av专区精品无码国产| 永久成人无码激情视频免费| 欧美a在线视频| 欧美精品不卡| 国产亚洲精品在天天在线麻豆| 岛国精品一区免费视频在线观看 | 欧美三级日韩三级| 久久semm亚洲国产| 欧美一区二区三区香蕉视| 亚洲av无码牛牛影视在线二区| 幺女国产一级毛片| 日韩人妻少妇一区二区| 91po国产在线精品免费观看| 欧美天天干| 国产成本人片免费a∨短片| 91娇喘视频| 99中文字幕亚洲一区二区| 在线欧美一区| 成人午夜视频网站| 成人福利免费在线观看| 在线观看精品自拍视频| 亚洲一区二区三区麻豆| 亚洲啪啪网| jizz在线免费播放| 亚洲精品免费网站| 色老头综合网| 在线人成精品免费视频| 欧美一区二区人人喊爽| 尤物亚洲最大AV无码网站| 亚洲侵犯无码网址在线观看| 国产亚洲美日韩AV中文字幕无码成人| 亚洲综合色区在线播放2019| 午夜日b视频| 精品福利国产| 玖玖免费视频在线观看| 亚洲精品福利网站| 黄色网站在线观看无码| 亚洲精品在线观看91| 久久久久久久久18禁秘| 国产丝袜啪啪| аⅴ资源中文在线天堂| 欧美曰批视频免费播放免费| 日韩精品专区免费无码aⅴ| 色天堂无毒不卡| 国产亚洲精品自在久久不卡| 亚洲高清在线天堂精品| 欧美精品高清| 青青久视频| 精品无码日韩国产不卡av | 91蜜芽尤物福利在线观看| 精品色综合| 国产手机在线ΑⅤ片无码观看| 国产理论一区| 在线看国产精品| 国产女人18水真多毛片18精品| 国产亚洲欧美在线人成aaaa| 多人乱p欧美在线观看| 99这里精品| 国产高清在线观看91精品| 成人久久精品一区二区三区| 国产精品漂亮美女在线观看| 久久久久久久97| 天堂网亚洲系列亚洲系列| 亚洲欧美精品一中文字幕| 欧美性色综合网| 国产亚洲欧美在线视频| 91精品视频在线播放| 四虎亚洲精品| 毛片大全免费观看| 国产主播福利在线观看| 伊人激情综合网|