魯 涔
中國電信股份有限公司江蘇分公司
用戶性別可細(xì)分為自然性別和互聯(lián)網(wǎng)使用行為性別兩種。自然性別是指用戶的實際性別,一般可通過入網(wǎng)實名制身份證獲得。該標(biāo)簽只需要從相應(yīng)的表中抽取數(shù)據(jù)即可,加工起來較為方便。用戶互聯(lián)網(wǎng)使用行為性別是指用戶使用手機(jī)的性別取向。例如,一位身份證性別為男性的用戶,可能經(jīng)常使用美拍類APP、教育類APP,那么這位用戶的互聯(lián)網(wǎng)使用行為性別可能是女性。目前國內(nèi)有基于用戶APP類型、打開APP的頻率,及網(wǎng)址關(guān)鍵詞統(tǒng)計匯總后進(jìn)行GBDT迭代決策樹的預(yù)測性別模型,但數(shù)據(jù)多樣性不足,缺乏運營商特有的多維度特征,如終端信息、套餐信息、上網(wǎng)行為信息等。
因此本研究通過對運營商多樣性數(shù)據(jù)進(jìn)行沉淀和梳理,利用智能手機(jī)用戶使用APP數(shù)據(jù)對用戶的性別進(jìn)行預(yù)測,明晰移動網(wǎng)絡(luò)背后用戶的性別屬性,助力企業(yè)精準(zhǔn)營銷、人口政策分析、景區(qū)人流特征、用戶畫像、客戶關(guān)懷話術(shù)用語等工作。
通過抽取整合單天翼用戶的基本信息、終端信息、套餐信息、APP信息、微信公眾號信息和行為信息,構(gòu)造分析所需要的基礎(chǔ)數(shù)據(jù)寬表。寬表數(shù)據(jù)字段如表1所示。

表1 單天翼用戶特征分類表
在最簡單的情況下,采用專家經(jīng)驗if else 判斷(一棵樹)即可。但如果預(yù)測結(jié)果與眾多因素有關(guān),每一個特征的權(quán)重又不盡相同。如何把這些特征的權(quán)重合理的找出來?XGBoost正是這樣一種算法,以分類回歸樹(CART樹)進(jìn)行組合,由多個相關(guān)聯(lián)的樹聯(lián)合決策。這樣集成學(xué)習(xí)方法是指將多個學(xué)習(xí)模型組合,以獲得更好的效果,使組合后的模型具有更強(qiáng)的泛化能力。在模型訓(xùn)練中,參數(shù)的調(diào)整固然重要,但特征的辨識度更加重要,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法則是逼近上限而已。好的特征工程以及數(shù)據(jù)集才會影響模型本質(zhì)的結(jié)果。
分析思路:單天翼客戶名下有且僅有一個天翼用戶,該天翼用戶所屬的客戶性別可認(rèn)為是其真實的性別,本次分析建立在單天翼用戶的基礎(chǔ)上。
目標(biāo)用戶:2021年5月某市在網(wǎng)單天翼用戶(剔除客戶性別為空的用戶共527984戶)
特征選擇:通過初步的數(shù)據(jù)探索,發(fā)現(xiàn)以下三個因素對識別用戶性別的效果比較好,男性和女性的區(qū)分度比較大。
(1)女性APP訪問個數(shù)、次數(shù)。通過分析目標(biāo)用戶的訪問的女性APP信息發(fā)現(xiàn),女性用戶三個月的訪問量是男性的4倍(1015:266),且訪問過女性APP的用戶中,女性比例明顯高于男性,如圖1所示。(2)體育類APP訪問個數(shù)、次數(shù)。(3)男性平均每戶有2個體育類APP,三個月的訪問量達(dá)到了872次,而女性平均每戶只有0.8個,三個月的訪問量也僅有86次,均遠(yuǎn)低于男性。說明男性相比女性偏好體育類APP。(4)拍照類APP訪問個數(shù)、次數(shù)。與上面相反,女性平均每戶有7.7個拍照類APP,三個月訪問量達(dá)到263次,相比之下男性平均每戶只有4.4個,三個月的訪問次數(shù)僅有87次,不足女性的三分之一。說明女性比男性偏好拍照類APP。

圖1 TOP10女性APP的用戶性別比例

?
數(shù)據(jù)預(yù)處理方法可以大致分為四類:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。模型的輸入一般對數(shù)據(jù)有要求,需要進(jìn)行預(yù)處理,以下是本文構(gòu)建的模型對字段進(jìn)行的處理:
數(shù)據(jù)清理(data cleaning) 的主要思想是通過填補缺失值、光滑噪聲數(shù)據(jù),平滑或刪除離群點,并解決數(shù)據(jù)的不一致性來“清理“數(shù)據(jù)。如果用戶認(rèn)為數(shù)據(jù)是臟亂的,他們不太會相信基于這些數(shù)據(jù)的挖掘結(jié)果,即輸出的結(jié)果是不可靠的。如表2所示。

表2 數(shù)據(jù)清洗說明
數(shù)據(jù)歸約技術(shù)可以用得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近地保持原數(shù)據(jù)的完整性。這樣,在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行Вa(chǎn)生相同(或幾乎相同)的分析結(jié)果。如表3所示。

表3 數(shù)據(jù)約束說明
數(shù)據(jù)變換包括對數(shù)據(jù)進(jìn)行規(guī)范化,離散化,稀疏化處理,達(dá)到適用于挖掘的目的。如表4所示。

表4 數(shù)據(jù)轉(zhuǎn)換說明
建模字段篩選如表5所示。

表5 建模字段篩選
XGBoost是boosting算法的其中一種。Boosting算法的思想是將許多弱分類器集成在一起形成一個強(qiáng)分類器。因為XGBoost是一種提升樹模型,所以它是將許多樹模型集成在一起,形成一個很強(qiáng)的分類器。而所用到的樹模型則是CART回歸樹模型。該算法思想就是不斷地添加樹,不斷地進(jìn)行特征分裂來生長一棵樹,每次添加一個樹,其實是學(xué)習(xí)一個新函數(shù),去擬合上次預(yù)測的殘差。當(dāng)訓(xùn)練完成得到k棵樹,要預(yù)測一個樣本的分?jǐn)?shù),其實就是根據(jù)這個樣本的特征,在每棵樹中會落到對應(yīng)的一個葉子節(jié)點,每個葉子節(jié)點就對應(yīng)一個分?jǐn)?shù),最后只需要將每棵樹對應(yīng)的分?jǐn)?shù)加起來就是該樣本的預(yù)測值。
XGBoost使用了和CART回歸樹一樣的想法,利用貪婪算法,遍歷所有特征的所有特征劃分點,不同的是使用上式目標(biāo)函數(shù)值作為評價函數(shù)。具體做法就是分裂后的目標(biāo)函數(shù)值比單子葉子節(jié)點的目標(biāo)函數(shù)的增益,同時為了限制樹生長過深,還加了個閾值,只有當(dāng)增益大于該閾值才進(jìn)行分裂。同時可以設(shè)置樹的最大深度、當(dāng)樣本權(quán)重和小于設(shè)定閾值時停止生長去防止過擬合。
XGBoost是大規(guī)模并行boosted tree的工具,它是目前最快最好的開源boosted tree工具包,比常見的工具包快10倍以上。在數(shù)據(jù)科學(xué)方面,有大量kaggle選手選用它進(jìn)行數(shù)據(jù)挖掘比賽。在工業(yè)界規(guī)模方面,xgboost的分布式版本有廣泛的可移植性,支持在YARN, MPI, Sungrid Engine等各個平臺上面運行,并且保留了單機(jī)并行版本的各種優(yōu)化,使得它可以很好地解決于工業(yè)界規(guī)模的問題。
目標(biāo)用戶共527984條數(shù)據(jù),將其中的395988(四分之三)作為訓(xùn)練集,其他的131996作為測試集進(jìn)行驗證。
通過構(gòu)建的模型對測試集進(jìn)行性別預(yù)測,得到的模型效果如表6所示。

表6 檢測樣本的預(yù)測結(jié)果

表6 模型效果
準(zhǔn)確率=預(yù)測正確的用戶數(shù)/實際性別(男性或女性)用戶數(shù)
召回率=預(yù)測正確的用戶數(shù)/預(yù)測性別(男性或女性)用戶數(shù)
該方案在江蘇電信屬首創(chuàng),以公司客戶服務(wù)及客戶經(jīng)營分析畫像的需求和痛點為本,創(chuàng)新地構(gòu)建了手機(jī)用戶真實使用性別識別的新思路,解決用戶畫像男女?dāng)?shù)據(jù)不全、不準(zhǔn)確的問題。通過數(shù)據(jù)挖掘完成這項工作,極大地解放人力,提升效率。在實際使用中,收到良好的反饋效果。運用互聯(lián)網(wǎng)思維,借助機(jī)器學(xué)習(xí)技術(shù),充分挖掘企業(yè)數(shù)據(jù)的價值和作用,開辟了一條數(shù)據(jù)探索新航道。
本文研究還有待提升的空間:此方案的正樣本來自于單天翼樣本量的男女性別情況,后期將著手于海量的語音文件分析,通過機(jī)器學(xué)習(xí)的方法對聲音文件進(jìn)行特征提取、分類建模訓(xùn)練,進(jìn)行男女音頻樣本的識別,補充單天翼樣本量的不足之處,增加更多正樣本量進(jìn)行訓(xùn)練,以此完善本方案。