基于XGBoost算法的手機(jī)用戶真實性別識別

2022-03-24 09:44:18魯涔

江蘇通信 2022年1期

魯涔

中國電信股份有限公司江蘇分公司

0 引言

用戶性別可細(xì)分為自然性別和互聯(lián)網(wǎng)使用行為性別兩種。自然性別是指用戶的實際性別，一般可通過入網(wǎng)實名制身份證獲得。該標(biāo)簽只需要從相應(yīng)的表中抽取數(shù)據(jù)即可，加工起來較為方便。用戶互聯(lián)網(wǎng)使用行為性別是指用戶使用手機(jī)的性別取向。例如，一位身份證性別為男性的用戶，可能經(jīng)常使用美拍類APP、教育類APP，那么這位用戶的互聯(lián)網(wǎng)使用行為性別可能是女性。目前國內(nèi)有基于用戶APP類型、打開APP的頻率，及網(wǎng)址關(guān)鍵詞統(tǒng)計匯總后進(jìn)行GBDT迭代決策樹的預(yù)測性別模型，但數(shù)據(jù)多樣性不足，缺乏運營商特有的多維度特征，如終端信息、套餐信息、上網(wǎng)行為信息等。

因此本研究通過對運營商多樣性數(shù)據(jù)進(jìn)行沉淀和梳理，利用智能手機(jī)用戶使用APP數(shù)據(jù)對用戶的性別進(jìn)行預(yù)測，明晰移動網(wǎng)絡(luò)背后用戶的性別屬性，助力企業(yè)精準(zhǔn)營銷、人口政策分析、景區(qū)人流特征、用戶畫像、客戶關(guān)懷話術(shù)用語等工作。

1 數(shù)據(jù)抽取

通過抽取整合單天翼用戶的基本信息、終端信息、套餐信息、APP信息、微信公眾號信息和行為信息，構(gòu)造分析所需要的基礎(chǔ)數(shù)據(jù)寬表。寬表數(shù)據(jù)字段如表1所示。

表1 單天翼用戶特征分類表

2 數(shù)據(jù)探索

在最簡單的情況下，采用專家經(jīng)驗if else 判斷（一棵樹）即可。但如果預(yù)測結(jié)果與眾多因素有關(guān)，每一個特征的權(quán)重又不盡相同。如何把這些特征的權(quán)重合理的找出來？XGBoost正是這樣一種算法，以分類回歸樹（CART樹）進(jìn)行組合，由多個相關(guān)聯(lián)的樹聯(lián)合決策。這樣集成學(xué)習(xí)方法是指將多個學(xué)習(xí)模型組合，以獲得更好的效果，使組合后的模型具有更強(qiáng)的泛化能力。在模型訓(xùn)練中，參數(shù)的調(diào)整固然重要，但特征的辨識度更加重要，數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法則是逼近上限而已。好的特征工程以及數(shù)據(jù)集才會影響模型本質(zhì)的結(jié)果。

分析思路：單天翼客戶名下有且僅有一個天翼用戶，該天翼用戶所屬的客戶性別可認(rèn)為是其真實的性別，本次分析建立在單天翼用戶的基礎(chǔ)上。

目標(biāo)用戶：2021年5月某市在網(wǎng)單天翼用戶（剔除客戶性別為空的用戶共527984戶）

特征選擇：通過初步的數(shù)據(jù)探索，發(fā)現(xiàn)以下三個因素對識別用戶性別的效果比較好，男性和女性的區(qū)分度比較大。

（1）女性APP訪問個數(shù)、次數(shù)。通過分析目標(biāo)用戶的訪問的女性APP信息發(fā)現(xiàn)，女性用戶三個月的訪問量是男性的4倍（1015：266），且訪問過女性APP的用戶中，女性比例明顯高于男性，如圖1所示。（2）體育類APP訪問個數(shù)、次數(shù)。（3）男性平均每戶有2個體育類APP，三個月的訪問量達(dá)到了872次，而女性平均每戶只有0.8個，三個月的訪問量也僅有86次，均遠(yuǎn)低于男性。說明男性相比女性偏好體育類APP。（4）拍照類APP訪問個數(shù)、次數(shù)。與上面相反，女性平均每戶有7.7個拍照類APP，三個月訪問量達(dá)到263次，相比之下男性平均每戶只有4.4個，三個月的訪問次數(shù)僅有87次，不足女性的三分之一。說明女性比男性偏好拍照類APP。

圖1 TOP10女性APP的用戶性別比例

3 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理方法可以大致分為四類：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。模型的輸入一般對數(shù)據(jù)有要求，需要進(jìn)行預(yù)處理，以下是本文構(gòu)建的模型對字段進(jìn)行的處理：

3.1 數(shù)據(jù)清洗

數(shù)據(jù)清理（data cleaning）的主要思想是通過填補缺失值、光滑噪聲數(shù)據(jù)，平滑或刪除離群點，并解決數(shù)據(jù)的不一致性來“清理“數(shù)據(jù)。如果用戶認(rèn)為數(shù)據(jù)是臟亂的，他們不太會相信基于這些數(shù)據(jù)的挖掘結(jié)果，即輸出的結(jié)果是不可靠的。如表2所示。

表2 數(shù)據(jù)清洗說明

3.2 數(shù)據(jù)規(guī)約

數(shù)據(jù)歸約技術(shù)可以用得到數(shù)據(jù)集的歸約表示，它小得多，但仍接近地保持原數(shù)據(jù)的完整性。這樣，在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行Вa(chǎn)生相同（或幾乎相同）的分析結(jié)果。如表3所示。

表3 數(shù)據(jù)約束說明

數(shù)據(jù)變換包括對數(shù)據(jù)進(jìn)行規(guī)范化，離散化，稀疏化處理，達(dá)到適用于挖掘的目的。如表4所示。

表4 數(shù)據(jù)轉(zhuǎn)換說明

4 模型構(gòu)建

4.1 建模字段篩選

建模字段篩選如表5所示。

表5 建模字段篩選

4.2 Python建模—調(diào)用XGBoost模塊

XGBoost是boosting算法的其中一種。Boosting算法的思想是將許多弱分類器集成在一起形成一個強(qiáng)分類器。因為XGBoost是一種提升樹模型，所以它是將許多樹模型集成在一起，形成一個很強(qiáng)的分類器。而所用到的樹模型則是CART回歸樹模型。該算法思想就是不斷地添加樹，不斷地進(jìn)行特征分裂來生長一棵樹，每次添加一個樹，其實是學(xué)習(xí)一個新函數(shù)，去擬合上次預(yù)測的殘差。當(dāng)訓(xùn)練完成得到k棵樹，要預(yù)測一個樣本的分?jǐn)?shù)，其實就是根據(jù)這個樣本的特征，在每棵樹中會落到對應(yīng)的一個葉子節(jié)點，每個葉子節(jié)點就對應(yīng)一個分?jǐn)?shù)，最后只需要將每棵樹對應(yīng)的分?jǐn)?shù)加起來就是該樣本的預(yù)測值。

XGBoost使用了和CART回歸樹一樣的想法，利用貪婪算法，遍歷所有特征的所有特征劃分點，不同的是使用上式目標(biāo)函數(shù)值作為評價函數(shù)。具體做法就是分裂后的目標(biāo)函數(shù)值比單子葉子節(jié)點的目標(biāo)函數(shù)的增益，同時為了限制樹生長過深，還加了個閾值，只有當(dāng)增益大于該閾值才進(jìn)行分裂。同時可以設(shè)置樹的最大深度、當(dāng)樣本權(quán)重和小于設(shè)定閾值時停止生長去防止過擬合。

XGBoost是大規(guī)模并行boosted tree的工具，它是目前最快最好的開源boosted tree工具包，比常見的工具包快10倍以上。在數(shù)據(jù)科學(xué)方面，有大量kaggle選手選用它進(jìn)行數(shù)據(jù)挖掘比賽。在工業(yè)界規(guī)模方面，xgboost的分布式版本有廣泛的可移植性，支持在YARN， MPI， Sungrid Engine等各個平臺上面運行，并且保留了單機(jī)并行版本的各種優(yōu)化，使得它可以很好地解決于工業(yè)界規(guī)模的問題。

5 模型檢驗

目標(biāo)用戶共527984條數(shù)據(jù)，將其中的395988（四分之三）作為訓(xùn)練集，其他的131996作為測試集進(jìn)行驗證。

通過構(gòu)建的模型對測試集進(jìn)行性別預(yù)測，得到的模型效果如表6所示。

表6 檢測樣本的預(yù)測結(jié)果

表6 模型效果

準(zhǔn)確率=預(yù)測正確的用戶數(shù)/實際性別（男性或女性）用戶數(shù)

召回率=預(yù)測正確的用戶數(shù)/預(yù)測性別（男性或女性）用戶數(shù)

6 結(jié)束語

該方案在江蘇電信屬首創(chuàng)，以公司客戶服務(wù)及客戶經(jīng)營分析畫像的需求和痛點為本，創(chuàng)新地構(gòu)建了手機(jī)用戶真實使用性別識別的新思路，解決用戶畫像男女?dāng)?shù)據(jù)不全、不準(zhǔn)確的問題。通過數(shù)據(jù)挖掘完成這項工作，極大地解放人力，提升效率。在實際使用中，收到良好的反饋效果。運用互聯(lián)網(wǎng)思維，借助機(jī)器學(xué)習(xí)技術(shù)，充分挖掘企業(yè)數(shù)據(jù)的價值和作用，開辟了一條數(shù)據(jù)探索新航道。

本文研究還有待提升的空間：此方案的正樣本來自于單天翼樣本量的男女性別情況，后期將著手于海量的語音文件分析，通過機(jī)器學(xué)習(xí)的方法對聲音文件進(jìn)行特征提取、分類建模訓(xùn)練，進(jìn)行男女音頻樣本的識別，補充單天翼樣本量的不足之處，增加更多正樣本量進(jìn)行訓(xùn)練，以此完善本方案。