999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Catboost算法的優(yōu)惠券個性化投放

2018-12-18 11:09:24廣東工業(yè)大學(xué)劉嘉穗
電子世界 2018年23期
關(guān)鍵詞:特征用戶模型

廣東工業(yè)大學(xué) 劉嘉穗

優(yōu)惠券投放是O2O消費(fèi)模式的一種重要營銷手段,但隨機(jī)投放會給大多數(shù)用戶帶來無意義的攪擾,并且還會增加商家業(yè)務(wù)的營銷成本。因此,本文對真實(shí)的用戶歷史行為信息進(jìn)行挖掘,并基于Catboost算法對用戶未來是否會核銷優(yōu)惠券進(jìn)行預(yù)測,進(jìn)而個性化向用戶投放優(yōu)惠券。Catboost是一種新型的梯度提升樹算法,相較于傳統(tǒng)算法,它具有更高的準(zhǔn)確度,因此,可以更加準(zhǔn)確地預(yù)測用戶將來的消費(fèi)模式,進(jìn)而為優(yōu)惠券的個性化投放提供一種更為可靠的決策依據(jù)。

1.概述

在線上平臺消費(fèi)的過程中,人們會留下如瀏覽、搜索、點(diǎn)擊、收藏、評論等一系列行為特征指標(biāo),并最終會產(chǎn)生購買與否的消費(fèi)行為結(jié)果。國外著名電商巨頭亞馬遜,通過對用戶線上的這一系列行為特征和行為結(jié)果進(jìn)行挖掘分析,得到用戶的喜好和購買規(guī)律,預(yù)測用戶的消費(fèi)行為,以此為基礎(chǔ),構(gòu)建推薦系統(tǒng)對用戶進(jìn)行個性化推薦。據(jù)調(diào)研,其推薦轉(zhuǎn)化率高達(dá)60%(Linden,G.,Smith,B.,York,J.,2003.Amazon.com recommendations:Item-to-item collaborative filtering.Internet Computing,IEEE 7,76-80)。國外視頻網(wǎng)站Netflix(Amatriain X,Basilico J.Netflix recommendations:beyond the 5 stars(part I)[J].Netflix Tech Blog,2012,6)和社交平臺Facebook(唐穎.巴克萊卡:Facebook廣告效果頗佳[J].國際品牌觀察,2012(8):110-111)也都基于自己平臺上的用戶行為日志,打造個性化商品推薦和廣告投放服務(wù),在進(jìn)一步增加公司利潤的同時,也有效地提升了用戶體驗和用戶粘性,實(shí)現(xiàn)用戶、商家共贏。

許多學(xué)者也結(jié)合機(jī)器學(xué)習(xí)方法對推薦系統(tǒng)進(jìn)行研究,以進(jìn)一步提升推薦效果。朱奕健等人以隨機(jī)森林為模型,基于電信業(yè)務(wù)數(shù)據(jù),構(gòu)建電信運(yùn)營商外呼推薦系統(tǒng),有效提高了外呼用戶的接受率(朱奕健,張正卿,黃一清,自瑞瑞,嚴(yán)建峰.基于隨機(jī)森林模型的電信運(yùn)營商外呼推薦系統(tǒng)[J].計算機(jī)科學(xué),2016(S2))。He X等(HE X,PAN J,JIN O,et al.Practical Lessons from Predicting Clicks on Ads at Facebook[C]//Eighth International Workshop on Data Mining for Online Advertising.ACM,2014:1-9)將梯度提升樹(GBDT)和邏輯回歸(LR)相結(jié)合,通過GBDT對特征進(jìn)行非線性映射,并用LR進(jìn)行訓(xùn)練,以此提升廣告的點(diǎn)擊率預(yù)估,為廣告的個性化投放提供決策依據(jù)。O2O消費(fèi)模式自然與數(shù)以億計的消費(fèi)者相關(guān),商戶平臺記錄著海量的用戶行為日志。本文通過分析用戶的歷史交互日志,從用戶、商戶、優(yōu)惠券等多方面構(gòu)造特征,并引入新型的梯度提升樹算法Catboost進(jìn)行訓(xùn)練,預(yù)測用戶將來是否會核銷優(yōu)惠券。實(shí)驗表明,相較于傳統(tǒng)算法,Catboost具有更高的預(yù)測準(zhǔn)確度,為優(yōu)惠券的個性化投放提供了可靠的決策依據(jù)。

2.數(shù)據(jù)處理

2.1 數(shù)據(jù)描述

本文采用阿里巴巴天池大數(shù)據(jù)平臺的開放數(shù)據(jù)集,包含了用戶、商戶和優(yōu)惠券三者在2016年1月1日至2016年6月30日的真實(shí)交互行為(https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.1000 73.0.0.36ed6fc1dn1mQN&dataId=59),每條消費(fèi)記錄包含了用戶、商戶、優(yōu)惠券、優(yōu)惠率、用戶與商戶的距離、優(yōu)惠券領(lǐng)取日期以及消費(fèi)日期共7個字段。用戶的行為結(jié)果分為“使用優(yōu)惠券進(jìn)行消費(fèi)(正樣本)”、“沒有領(lǐng)取優(yōu)惠券進(jìn)行消費(fèi)(普通消費(fèi))”以及“領(lǐng)取了優(yōu)惠券但沒有進(jìn)行消費(fèi)(負(fù)樣本)”。通過挖掘歷史行為記錄,對用戶在未來15天內(nèi)是否會核銷優(yōu)惠券進(jìn)行預(yù)測。

2.2 特征構(gòu)造

原始數(shù)據(jù)包含的信息較少,不足以表征用戶的消費(fèi)行為習(xí)慣,同時原始數(shù)據(jù)也包含了大量的缺失值以及各種非數(shù)值型數(shù)據(jù),不能直接用于模型的訓(xùn)練。為此,我們對原始數(shù)據(jù)進(jìn)行統(tǒng)計歸納,構(gòu)造特征如表1所示。

表1 各類特征描述

表1分別包含用戶、商戶、優(yōu)惠券、用戶-商戶四個維度的特征。用戶特征包括用戶的總消費(fèi)次數(shù)、優(yōu)惠券的領(lǐng)取和使用次數(shù)以及優(yōu)惠券領(lǐng)取和使用的時間間隔統(tǒng)計等,反映的是用戶在此期間的消費(fèi)行為表現(xiàn)。同樣,商店和消費(fèi)券特征也僅反映商店和消費(fèi)券自身的受歡迎程度。用戶-商店屬于交叉特征,反映的是用戶對商店的喜歡程度或是消費(fèi)的可能性。

3.算法描述

化我們的損失函數(shù)并得到最終的強(qiáng)學(xué)習(xí)器,算法流程如圖1所示,訓(xùn)練集為,損失函數(shù),以及迭代次數(shù)M。

由上述算法流程我們可以很清楚地發(fā)現(xiàn)GBDT就是在函數(shù)空間中的梯度下降。我們首先求得損失函數(shù)關(guān)于F(x)的負(fù)梯度,隨后訓(xùn)練基學(xué)習(xí)器去擬合負(fù)梯度并得到最優(yōu)步長,最后將各步得到的基學(xué)習(xí)器相加,也即是不斷地減去梯度,進(jìn)而得到最終的強(qiáng)學(xué)習(xí)器FM(x)。

3.1 GBDT

梯度提升決策樹(GBDT)(Jerome H Friedman.2001.Greedy function approximation:a gradient boosting machine.Annals of statistics(2001)1189-1232)是由Friedman提出的基于boosting框架的集成學(xué)習(xí)方法,它認(rèn)為boosting在一些適當(dāng)?shù)膿p失函數(shù)中是一種優(yōu)化算法。它的核心思想類似于梯度下降,通過在函數(shù)空間中迭代地選取基學(xué)習(xí)器(通常是決策樹)來指向損失函數(shù)的負(fù)梯度方向,進(jìn)而優(yōu)

圖1 GBDT算法流程

3.2 Catboost

Catboost(A.V.Dorogush,A.Gulin,G.Gusev,N.Kazeev,L.Ostroumova Prokhorenkova,and A.Vorobev.Fighting biases with dynamic boosting.arXiv preprint arXiv:1706.09516,2017)是Gradient Boosting的一種新型實(shí)現(xiàn)。正如上一節(jié)的算法流程所示,在傳統(tǒng)的GBDT的每一步迭代中,它都是基于相同的數(shù)據(jù)集求得損失函數(shù)對于當(dāng)前模型的梯度,并基于該梯度來訓(xùn)練得到基學(xué)習(xí)器,但這會導(dǎo)致逐點(diǎn)梯度估計偏差,從而使得最終學(xué)習(xí)到的模型過擬合。Catboost通過采用Ordered Boosting的方式對經(jīng)典算法中梯度估計方式進(jìn)行改變,進(jìn)而獲得對梯度的無偏估計,以減輕梯度估計偏差的影響,提高模型的泛化能力,Ordered Boosting的算法流程如圖2所示。

圖2 Ordered Boosting流程

由上述流程可知,為了得到無偏梯度估計,Catboost對每一個樣本xi都會訓(xùn)練一個單獨(dú)的模型Mi,模型Mi由使用不包含樣本xi的訓(xùn)練集訓(xùn)練得到。我們使用Mi來得到關(guān)于樣本的梯度估計,并使用該梯度來訓(xùn)練基學(xué)習(xí)器并得到最終的模型。

3.3 評判指標(biāo)

對于顧客是否會在指定時間內(nèi)核銷優(yōu)惠券,我們將其轉(zhuǎn)換為一二分類問題進(jìn)行處理,并且我們重點(diǎn)關(guān)注模型的泛化性能力,所以我們采用ROC曲線下面積AUC來作為評判模型的指標(biāo)。我們基于模型的預(yù)測結(jié)果對樣本進(jìn)行排序,計算得到“真正例率”(True Positive Rate,TPR)和“假正例率”(False Positive Rate,FPR)并分別作為縱軸和橫軸從而得到ROC曲線,最終得到曲線下面積AUC。具體公式如下:

其中TP為正確預(yù)測的正樣本數(shù),F(xiàn)P錯誤預(yù)測的負(fù)樣本數(shù),TN為正確預(yù)測的負(fù)樣本數(shù),F(xiàn)N為錯誤預(yù)測的正樣本數(shù)。

4.實(shí)驗結(jié)果

我們從時間維度上對原始數(shù)據(jù)進(jìn)行滑窗劃分,以連續(xù)4個月作為一個窗口,一個月作為間隔,將前三個月作為特征數(shù)據(jù),后一個月作為標(biāo)簽數(shù)據(jù),以此將原始數(shù)據(jù)分為3個數(shù)據(jù)集。我們使用前兩個數(shù)據(jù)集訓(xùn)練模型,用第三個數(shù)據(jù)集來測試模型,得到模型的AUC并和傳統(tǒng)的GBDT和另一種著名實(shí)現(xiàn)Xgboost(T.Chen and C.Guestrin.Xgboost:A scalable tree boosting system.In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,pages 785-794.ACM,2016)進(jìn)行對比,ROC曲線和AUC結(jié)果如圖3和表2所示。

表2 AUC結(jié)果對比

圖3 ROC曲線

如結(jié)果所示,Catboost算法的AUC值都高于其它兩種算法,相較于其它兩種算法,Catboost具有更高的準(zhǔn)確度和更強(qiáng)的泛化能力。

5.結(jié)語

本文采用新型梯度提升決策樹Catboost算法,并基于真實(shí)的客戶歷史行為信息構(gòu)造用戶消費(fèi)模型,預(yù)測用戶是否會在指定時間內(nèi)核銷優(yōu)惠券。實(shí)驗結(jié)果表明,Catboost具有更高的準(zhǔn)確度和更好的的泛化能力,從而能更加準(zhǔn)確地預(yù)測用戶將來的消費(fèi)模式,進(jìn)而為優(yōu)惠券的個性化投放提供一種更為可靠的決策依據(jù)。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 在线视频精品一区| 日韩黄色在线| 喷潮白浆直流在线播放| 韩日免费小视频| 国产后式a一视频| 国产在线视频导航| 激情亚洲天堂| 91国语视频| 国产香蕉国产精品偷在线观看 | 2021亚洲精品不卡a| 国产香蕉一区二区在线网站| 国产成人精品男人的天堂下载| 久久人人妻人人爽人人卡片av| 91精品视频播放| 伊人网址在线| 久操中文在线| 2024av在线无码中文最新| 午夜精品影院| 天堂在线视频精品| 婷婷六月综合网| 日韩中文欧美| 午夜丁香婷婷| 国产亚洲视频免费播放| 中文字幕免费播放| 欧洲极品无码一区二区三区| 国产专区综合另类日韩一区 | 五月天久久综合| 日韩区欧美区| 日本精品中文字幕在线不卡 | 亚洲欧美国产视频| 国产嫖妓91东北老熟女久久一| 国产chinese男男gay视频网| 在线观看的黄网| 热伊人99re久久精品最新地| 伊人成人在线| 欧美一区二区三区香蕉视| 亚洲日韩久久综合中文字幕| 国产视频 第一页| 国产美女视频黄a视频全免费网站| 综1合AV在线播放| 国产成+人+综合+亚洲欧美| 中文国产成人精品久久| 波多野结衣亚洲一区| 一级做a爰片久久毛片毛片| 国产成熟女人性满足视频| 亚洲综合色婷婷中文字幕| 久久婷婷五月综合97色| 免费可以看的无遮挡av无码| 性网站在线观看| 在线视频精品一区| 欧美视频二区| 日韩免费毛片| 久久久久亚洲精品无码网站| 最新痴汉在线无码AV| 亚洲成人一区二区三区| 免费人欧美成又黄又爽的视频| 久久午夜夜伦鲁鲁片不卡| 啪啪免费视频一区二区| 国产在线一二三区| 一级福利视频| 在线一级毛片| 五月天婷婷网亚洲综合在线| 国产在线观看一区二区三区| 久久综合伊人77777| 亚洲自拍另类| 色香蕉影院| 久久综合丝袜日本网| 欧美日韩高清在线| 国产欧美网站| 国产高清又黄又嫩的免费视频网站| 国产女人综合久久精品视| 91成人免费观看| 亚洲AV无码乱码在线观看裸奔 | 国产精品19p| 亚洲婷婷在线视频| 亚洲成人免费看| 国产精品一区不卡| 亚洲第一成人在线| 国产av色站网站| 亚洲欧美不卡中文字幕| 亚洲精品第一页不卡| 久草视频精品|