999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法的手機(jī)用戶真實性別識別

2022-03-24 09:44:18
江蘇通信 2022年1期
關(guān)鍵詞:特征用戶模型

魯 涔

中國電信股份有限公司江蘇分公司

0 引言

用戶性別可細(xì)分為自然性別和互聯(lián)網(wǎng)使用行為性別兩種。自然性別是指用戶的實際性別,一般可通過入網(wǎng)實名制身份證獲得。該標(biāo)簽只需要從相應(yīng)的表中抽取數(shù)據(jù)即可,加工起來較為方便。用戶互聯(lián)網(wǎng)使用行為性別是指用戶使用手機(jī)的性別取向。例如,一位身份證性別為男性的用戶,可能經(jīng)常使用美拍類APP、教育類APP,那么這位用戶的互聯(lián)網(wǎng)使用行為性別可能是女性。目前國內(nèi)有基于用戶APP類型、打開APP的頻率,及網(wǎng)址關(guān)鍵詞統(tǒng)計匯總后進(jìn)行GBDT迭代決策樹的預(yù)測性別模型,但數(shù)據(jù)多樣性不足,缺乏運營商特有的多維度特征,如終端信息、套餐信息、上網(wǎng)行為信息等。

因此本研究通過對運營商多樣性數(shù)據(jù)進(jìn)行沉淀和梳理,利用智能手機(jī)用戶使用APP數(shù)據(jù)對用戶的性別進(jìn)行預(yù)測,明晰移動網(wǎng)絡(luò)背后用戶的性別屬性,助力企業(yè)精準(zhǔn)營銷、人口政策分析、景區(qū)人流特征、用戶畫像、客戶關(guān)懷話術(shù)用語等工作。

1 數(shù)據(jù)抽取

通過抽取整合單天翼用戶的基本信息、終端信息、套餐信息、APP信息、微信公眾號信息和行為信息,構(gòu)造分析所需要的基礎(chǔ)數(shù)據(jù)寬表。寬表數(shù)據(jù)字段如表1所示。

表1 單天翼用戶特征分類表

2 數(shù)據(jù)探索

在最簡單的情況下,采用專家經(jīng)驗if else 判斷(一棵樹)即可。但如果預(yù)測結(jié)果與眾多因素有關(guān),每一個特征的權(quán)重又不盡相同。如何把這些特征的權(quán)重合理的找出來?XGBoost正是這樣一種算法,以分類回歸樹(CART樹)進(jìn)行組合,由多個相關(guān)聯(lián)的樹聯(lián)合決策。這樣集成學(xué)習(xí)方法是指將多個學(xué)習(xí)模型組合,以獲得更好的效果,使組合后的模型具有更強(qiáng)的泛化能力。在模型訓(xùn)練中,參數(shù)的調(diào)整固然重要,但特征的辨識度更加重要,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法則是逼近上限而已。好的特征工程以及數(shù)據(jù)集才會影響模型本質(zhì)的結(jié)果。

分析思路:單天翼客戶名下有且僅有一個天翼用戶,該天翼用戶所屬的客戶性別可認(rèn)為是其真實的性別,本次分析建立在單天翼用戶的基礎(chǔ)上。

目標(biāo)用戶:2021年5月某市在網(wǎng)單天翼用戶(剔除客戶性別為空的用戶共527984戶)

特征選擇:通過初步的數(shù)據(jù)探索,發(fā)現(xiàn)以下三個因素對識別用戶性別的效果比較好,男性和女性的區(qū)分度比較大。

(1)女性APP訪問個數(shù)、次數(shù)。通過分析目標(biāo)用戶的訪問的女性APP信息發(fā)現(xiàn),女性用戶三個月的訪問量是男性的4倍(1015:266),且訪問過女性APP的用戶中,女性比例明顯高于男性,如圖1所示。(2)體育類APP訪問個數(shù)、次數(shù)。(3)男性平均每戶有2個體育類APP,三個月的訪問量達(dá)到了872次,而女性平均每戶只有0.8個,三個月的訪問量也僅有86次,均遠(yuǎn)低于男性。說明男性相比女性偏好體育類APP。(4)拍照類APP訪問個數(shù)、次數(shù)。與上面相反,女性平均每戶有7.7個拍照類APP,三個月訪問量達(dá)到263次,相比之下男性平均每戶只有4.4個,三個月的訪問次數(shù)僅有87次,不足女性的三分之一。說明女性比男性偏好拍照類APP。

圖1 TOP10女性APP的用戶性別比例

?

3 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理方法可以大致分為四類:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。模型的輸入一般對數(shù)據(jù)有要求,需要進(jìn)行預(yù)處理,以下是本文構(gòu)建的模型對字段進(jìn)行的處理:

3.1 數(shù)據(jù)清洗

數(shù)據(jù)清理(data cleaning) 的主要思想是通過填補缺失值、光滑噪聲數(shù)據(jù),平滑或刪除離群點,并解決數(shù)據(jù)的不一致性來“清理“數(shù)據(jù)。如果用戶認(rèn)為數(shù)據(jù)是臟亂的,他們不太會相信基于這些數(shù)據(jù)的挖掘結(jié)果,即輸出的結(jié)果是不可靠的。如表2所示。

表2 數(shù)據(jù)清洗說明

3.2 數(shù)據(jù)規(guī)約

數(shù)據(jù)歸約技術(shù)可以用得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近地保持原數(shù)據(jù)的完整性。這樣,在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行Вa(chǎn)生相同(或幾乎相同)的分析結(jié)果。如表3所示。

表3 數(shù)據(jù)約束說明

數(shù)據(jù)變換包括對數(shù)據(jù)進(jìn)行規(guī)范化,離散化,稀疏化處理,達(dá)到適用于挖掘的目的。如表4所示。

表4 數(shù)據(jù)轉(zhuǎn)換說明

4 模型構(gòu)建

4.1 建模字段篩選

建模字段篩選如表5所示。

表5 建模字段篩選

4.2 Python建模—調(diào)用XGBoost模塊

XGBoost是boosting算法的其中一種。Boosting算法的思想是將許多弱分類器集成在一起形成一個強(qiáng)分類器。因為XGBoost是一種提升樹模型,所以它是將許多樹模型集成在一起,形成一個很強(qiáng)的分類器。而所用到的樹模型則是CART回歸樹模型。該算法思想就是不斷地添加樹,不斷地進(jìn)行特征分裂來生長一棵樹,每次添加一個樹,其實是學(xué)習(xí)一個新函數(shù),去擬合上次預(yù)測的殘差。當(dāng)訓(xùn)練完成得到k棵樹,要預(yù)測一個樣本的分?jǐn)?shù),其實就是根據(jù)這個樣本的特征,在每棵樹中會落到對應(yīng)的一個葉子節(jié)點,每個葉子節(jié)點就對應(yīng)一個分?jǐn)?shù),最后只需要將每棵樹對應(yīng)的分?jǐn)?shù)加起來就是該樣本的預(yù)測值。

XGBoost使用了和CART回歸樹一樣的想法,利用貪婪算法,遍歷所有特征的所有特征劃分點,不同的是使用上式目標(biāo)函數(shù)值作為評價函數(shù)。具體做法就是分裂后的目標(biāo)函數(shù)值比單子葉子節(jié)點的目標(biāo)函數(shù)的增益,同時為了限制樹生長過深,還加了個閾值,只有當(dāng)增益大于該閾值才進(jìn)行分裂。同時可以設(shè)置樹的最大深度、當(dāng)樣本權(quán)重和小于設(shè)定閾值時停止生長去防止過擬合。

XGBoost是大規(guī)模并行boosted tree的工具,它是目前最快最好的開源boosted tree工具包,比常見的工具包快10倍以上。在數(shù)據(jù)科學(xué)方面,有大量kaggle選手選用它進(jìn)行數(shù)據(jù)挖掘比賽。在工業(yè)界規(guī)模方面,xgboost的分布式版本有廣泛的可移植性,支持在YARN, MPI, Sungrid Engine等各個平臺上面運行,并且保留了單機(jī)并行版本的各種優(yōu)化,使得它可以很好地解決于工業(yè)界規(guī)模的問題。

5 模型檢驗

目標(biāo)用戶共527984條數(shù)據(jù),將其中的395988(四分之三)作為訓(xùn)練集,其他的131996作為測試集進(jìn)行驗證。

通過構(gòu)建的模型對測試集進(jìn)行性別預(yù)測,得到的模型效果如表6所示。

表6 檢測樣本的預(yù)測結(jié)果

表6 模型效果

準(zhǔn)確率=預(yù)測正確的用戶數(shù)/實際性別(男性或女性)用戶數(shù)

召回率=預(yù)測正確的用戶數(shù)/預(yù)測性別(男性或女性)用戶數(shù)

6 結(jié)束語

該方案在江蘇電信屬首創(chuàng),以公司客戶服務(wù)及客戶經(jīng)營分析畫像的需求和痛點為本,創(chuàng)新地構(gòu)建了手機(jī)用戶真實使用性別識別的新思路,解決用戶畫像男女?dāng)?shù)據(jù)不全、不準(zhǔn)確的問題。通過數(shù)據(jù)挖掘完成這項工作,極大地解放人力,提升效率。在實際使用中,收到良好的反饋效果。運用互聯(lián)網(wǎng)思維,借助機(jī)器學(xué)習(xí)技術(shù),充分挖掘企業(yè)數(shù)據(jù)的價值和作用,開辟了一條數(shù)據(jù)探索新航道。

本文研究還有待提升的空間:此方案的正樣本來自于單天翼樣本量的男女性別情況,后期將著手于海量的語音文件分析,通過機(jī)器學(xué)習(xí)的方法對聲音文件進(jìn)行特征提取、分類建模訓(xùn)練,進(jìn)行男女音頻樣本的識別,補充單天翼樣本量的不足之處,增加更多正樣本量進(jìn)行訓(xùn)練,以此完善本方案。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 日韩欧美中文在线| 日韩高清在线观看不卡一区二区 | 中美日韩在线网免费毛片视频 | a欧美在线| 国产成人综合亚洲欧美在| 蜜臀AV在线播放| 狠狠色噜噜狠狠狠狠色综合久| 国产精品99久久久| 在线人成精品免费视频| 夜夜操国产| 亚洲天堂色色人体| 色天天综合久久久久综合片| 亚洲欧美成人在线视频| 在线观看视频一区二区| 国产精品浪潮Av| 毛片一级在线| 亚洲欧美精品日韩欧美| 朝桐光一区二区| 国产麻豆福利av在线播放| 99热线精品大全在线观看| 91精品国产91久无码网站| 亚洲精品在线观看91| 亚洲中文字幕97久久精品少妇| 国产成人在线小视频| 亚洲日韩Av中文字幕无码| 欧美成人aⅴ| 免费高清毛片| 黄色网址免费在线| 国产亚洲男人的天堂在线观看| 日韩午夜片| 92精品国产自产在线观看| 成年人视频一区二区| 日本91视频| 天天综合天天综合| 欧美亚洲第一页| 国产网站在线看| a级毛片网| 国产一级视频在线观看网站| 国产一在线| 国产毛片高清一级国语 | 99这里只有精品在线| 无码'专区第一页| 国产精品乱偷免费视频| 亚洲黄色高清| 国产精品性| 婷婷综合在线观看丁香| 精品福利一区二区免费视频| 最新国产成人剧情在线播放| 久久综合AV免费观看| 久久中文字幕2021精品| 视频一本大道香蕉久在线播放| 久久精品一品道久久精品| 在线色综合| 免费国产黄线在线观看| 国产女同自拍视频| 国产成人精品在线| 久久久久无码国产精品不卡 | 国产区精品高清在线观看| 成人国产精品网站在线看 | 久久天天躁狠狠躁夜夜躁| 秘书高跟黑色丝袜国产91在线| 日本成人精品视频| 亚洲成a人片77777在线播放| 国产精品播放| 亚洲一区毛片| 呦视频在线一区二区三区| 伊人中文网| 国产特级毛片| 国模视频一区二区| 亚洲欧美人成电影在线观看| 亚洲三级色| 日韩二区三区| 国产第一色| 国产对白刺激真实精品91| 国产成人精品在线1区| 午夜综合网| 国产无人区一区二区三区| 一级香蕉人体视频| 国产91视频观看| 无码专区在线观看| 国产成人亚洲精品无码电影| 夜精品a一区二区三区|