高 潔,張 濤,程新洲,關 鍵(中國聯通網絡技術研究院,北京100048)
隨著移動網絡和智能手機的迅速發展,幾乎每個人都離不開手機。咨詢公司的報告顯示,在近5年的時間里,智能手機在移動市場的滲透率已經從2014年的50%上升到2019年的80%,到2019年底,預計將達到85%。在日常生活中,人們幾乎每天都在使用手機瀏覽網頁、聊天和網上購物,手機的上網數據可以直觀地反映用戶的屬性特征和行為偏好。因此,運營商可以通過智能網管平臺采集移動用戶終端APP安裝列表、APP使用記錄、終端類型和終端價格等數據,再結合GiHtub上開源的機器學習算法,便可以開展移動用戶的精準畫像工作,例如預測用戶的年齡、性別等信息,這些在精準營銷中是非常重要的客戶標簽屬性。它不僅可以幫助互聯網公司了解用戶的行為特征,迭代開發產品,還可以幫助企業提高廣告投放的精準度,從而節約廣告投資成本。
在機器學習算法領域,監督學習算法中最常用的2類算法為回歸(Regression)算法和分類(Classification)算法。回歸和分類的算法區別在于輸出變量的類型,定量輸出或者連續變量預測稱為“回歸”;定性輸出或者離散變量預測稱為“分類”。而對移動用戶年齡和性別的預測過程是一個典型的分類問題,因此,可以利用分類算法對移動用戶的年齡和性別進行精準預測。
目前比較流行的分類算法包括經典的決策樹、集成學習Boosting算法中的梯度提升樹(GBDT——Gradient Boosting Decision Tree)算法和極端梯度提升(XGBOOST——eXtreme Gradient Boosting)算法。……