王曉霞,劉靜沙,許丹丹
(中國聯(lián)合網絡通信有限公司研究院,北京 100176)
大數據時代下,在企業(yè)的生產實踐中,利用大數據技術進行“用戶畫像”是各行各業(yè)的選擇。用戶畫像、語音識別、圖像識別和自然語言理解并列為當前人工智能領域最重要的四大應用場景[1]。用戶畫像的本質是從業(yè)務角度出發(fā)對用戶進行分析,了解用戶需求,尋找目標客戶。同一用戶在不同時間、不同場景下的行為有差異,而不同場景下的不同用戶畫像更是千變萬化。本文以流失預警這一業(yè)務場景為例,介紹如何利用大數據用戶畫像來實現客戶流失提前預警。
用戶畫像(給用戶打標簽)是用戶數據的形象化展示,可以理解為用一連串的用戶標簽簡短而形象地描述一個用戶的特征[2]。用戶畫像是勾畫目標用戶、聯(lián)系用戶訴求與設計方向的有效工具,它是具體商業(yè)目標下標簽的重新排列組合[3]。
用戶畫像有兩類,一是user personal(用戶角色),二是 user profile(用戶屬性)。用戶角色是產品經理、策略設計師和運營人員從用戶群體中抽象出來的典型用戶,可以借助虛擬的角色,跳出離散的需求,聚焦用戶需求。它的本質是用來描述用戶需求的工具,適合產品早期目標用戶人群的定義和研究,幫助開發(fā)者在產品設計、策略匹配階段,站在用戶的角度思考問題。用戶屬性是根據每個人在產品中的用戶行為數據,生成描述用戶的標簽的集合。利用已有數據,通過以定量為主的研究方法描繪出用戶的人口學、產品行為和人群數據屬性,適合產品中后期實體用戶的人群劃分和聚類分析[4]。用戶角色適用于產品和策略設計,針對用戶設計產品;用戶屬性適用于精準營銷,針對產品找用戶。
用戶畫像的第一步就是進行畫像架構的分級分類。畫像的維度不同,畫像結果千變萬化,所以有效的畫像必須是以商業(yè)結果為目標的標簽集合。例如存量經營的商業(yè)目的就是存量產品的精準營銷,因此畫像架構的分級依據為存量產品體系。從存量產品體系的策略、需求、產品和渠道4個維度出發(fā),建立了四級用戶畫像架構。
一級架構為基本畫像即用戶的基本維度,是用戶的生命周期畫像,如圖1所示。一級架構從產品策略維度出發(fā),根據用戶對業(yè)務的使用程度進行劃分,將用戶劃分為4個群體,分別是體驗用戶、價值提升用戶、穩(wěn)定保有用戶、離網挽留用戶。體驗用戶為新入網用戶,由于入網時間短,這類用戶對產品的感知還處于探索階段,消費需求尚不明確,其中一部分體驗用戶隨著對產品的良好體驗和品牌好感度的增加將轉為價值提升用戶;價值提升用戶介于體驗用戶和穩(wěn)定用戶之間,入網時間大于半年,對產品的消費需求非常明確,消費特征顯著,ARPU(每用戶平均收入)連續(xù)3個月呈現提升的趨勢,有些用戶同時伴隨著流量壓抑、流量超套或者流量高飽和等行為,部分價值提升用戶隨著對產品持續(xù)性的良好感知將會轉變?yōu)榉€(wěn)定用戶;穩(wěn)定用戶的在網時長一般大于1年,在4種用戶中品牌忠誠度最高,套餐變動頻率低、對資費較為不敏感,由于用戶感知良好,客服投訴量也較少;維挽用戶為即將離網的用戶,其消費特征為ARPU值連續(xù)3個月呈現持續(xù)降低的趨勢,此階段用戶有可能投訴較多,這部分趨于離網的用戶語音和流量的飽和度值呈下降狀態(tài)。

圖1 生命周期畫像
二級架構是行為畫像。從用戶的需求維度進行畫像,行為畫像根據不同的行為特征可細分為4類:通信行為、語音行為、流量行為和權益行為。通信行為反映用戶的綜合行為特征,如套餐是否經常超量,語音、短信和流量的使用度是否失衡等;語音行為用來描述用戶語音套餐的使用程度,例如國內及國際語音是否有剩余或超額;流量行為用來描述用戶流量套餐的使用程度,例如是否存在流量壓抑、流量超出套餐以及流量高飽和的行為;權益行為用來描述用戶對自身權益的敏感程度,例如是否資費敏感、ARPU值是否相對固定以及是否積極參加優(yōu)惠活動等。
三級架構是產品畫像,如圖2所示。產品畫像針對具體的產品以及產品的具體內容進行目標用戶畫像。將用戶的標簽屬性與產品內容、產品特征相結合,進行相互匹配,篩選目標用戶。例如根據現有產品冰激凌、暢越流量王、暢越視聽寶等套餐的具體內容和特征進行目標用戶畫像尋找目標用戶,實現精確的產品推薦。
四級架構是觸點畫像,如圖3所示。進行產品匹配后的用戶,需要通過用戶最常用和最容易接受的觸點,進行產品營銷。通過分析用戶行為得到用戶最常用的業(yè)務辦理渠道,有針對性地在用戶觸點渠道進行產品營銷。渠道類型分為電子渠道和實體渠道兩類。其中電子渠道包括自助終端、網上營業(yè)廳、掌上營業(yè)廳、互聯(lián)網和短信營業(yè)廳等;實體渠道包括大客戶客戶經理、營業(yè)廳和呼叫中心等。

圖2 產品畫像

圖3 觸點畫像
首先對標簽體系進行系統(tǒng)梳理,根據具體的業(yè)務場景進行用戶畫像,再將用戶畫像形成的特征標簽庫應用于實際營銷中精準的定位目標用戶。畫像流程分為4個步驟,分別是畫像數據收集、標簽梳理、用戶畫像和標簽應用。
用戶畫像的第一步是列舉相關的數據源。在對數據源進行列舉分析之前應該收集所有可以提供用戶數據的數據源,盡可能多地掌握用戶的全量數據。用戶信息分布在不同的系統(tǒng)中,一般情況下,客戶的自然人信息主要集中在客戶關系管理系統(tǒng),消費特征主要集中在渠道和產品系統(tǒng)中。畫像流程的第一步就是將這些分散在各個系統(tǒng)的用戶信息收集起來集中處理。將五大數據源信息集中起來按照設定規(guī)則生成標簽元數據體系。五大數據源包括互聯(lián)網、通信網絡、業(yè)務平臺系統(tǒng)、IT生產系統(tǒng)、合作伙伴。
其中來自通信網絡、業(yè)務平臺系統(tǒng)和IT生產系統(tǒng)的數據是企業(yè)內部數據,可信度高,采集方式為在系統(tǒng)中直接獲取。IT生產系統(tǒng)的數據源主要包括電子化銷售服務管理系統(tǒng)(ESS)、業(yè)務支撐系統(tǒng)(BSS)、企業(yè)管理域(MSS)和運營支撐域(OSS)等。ESS主要負責管理終端銷售;BSS主要負責客戶關系管理、數據采集系統(tǒng)、計費賬務、綜合結算、營銷支撐等功能,它包括總部CRM、集中 PRM 和集中集團客戶等系統(tǒng);MSS主要負責電信企業(yè)運營的流程管理,它包括ERP、OA、財務和人力資源等系統(tǒng);OSS是一個綜合的業(yè)務運營和管理平臺,同時也是真正融合了傳統(tǒng)IP數據業(yè)務與移動增值業(yè)務的綜合管理平臺。它主要由網絡管理、系統(tǒng)管理、計費、營業(yè)、賬務和客戶服務等部分組成。
來自合作伙伴的數據源主要包括公共機構和數據/知識合作伙伴,屬于外部數據,價值密度中等,包含了第三方的用戶/企業(yè)的各方面信息,需要與內部高可信數據相互驗證,獲取方式可通過合作伙伴直接獲取。
來自互聯(lián)網的數據源主要包括互聯(lián)網的訪問行為、互聯(lián)網網站內容,屬于外部數據,價值密度低,包含互聯(lián)網上的各種行為/言論,可信度低,需要與內部高可信數據驗證?;ヂ?lián)網信息庫的數據源主要來自移動用戶上網日志和互聯(lián)網數據,其中移動用戶上網日志數據是采用 FTP(文件傳輸協(xié)議)文件方式進行數據采集實現;互聯(lián)網數據是建立多臺服務器集群,通過實現分布式網絡爬蟲采集、插件采集、模擬采集等技術方式進行高效的互聯(lián)網數據采集。
用戶畫像的第二步是根據用戶數據的類型梳理用戶標簽。標簽是指對客戶行為數據與基本信息進行分析、歸納,提煉出的客戶行為特征或屬性特征(如性別標簽),即描述男女兩性區(qū)別的客戶特征?;A標簽庫主要由電信業(yè)務基礎標簽庫、互聯(lián)網基礎標簽庫兩部分組成,分為五大類,即自然人標簽、個人標簽、通信標簽、互聯(lián)網標簽以及應用標簽。電信業(yè)務基礎標簽庫以應用需求和用戶的業(yè)務使用特征為基礎,結合數據支撐能力,反映用戶全生命周期的行為特征,包括基本屬性、產品需求、業(yè)務特征、消費特征、渠道特征、終端偏好、客戶服務評價及位置軌跡八大類內容?;ヂ?lián)網基礎標簽庫(互聯(lián)網內容偏好標簽庫)的設計,參考主流互聯(lián)網門戶網站和應用商店的分類目錄,借鑒電信行業(yè)經驗,將用戶上網行為分為新聞資訊、通信交流、娛樂休閑、生活服務、商務應用、自有業(yè)務、工具和使用偏好8類[5]。
用戶畫像的第三步是對業(yè)務需求的理解,將業(yè)務語言轉化為建模語言,為下一步的數據建模做準備。
· 根據具體的業(yè)務場景需求確定用戶畫像的目的,在此基礎上制定用戶畫像標簽,形成畫像用戶的特征標簽庫。
· 確定畫像目的后,根據畫像目的找到強相關信息,剔除不重要的弱相關信息。強相關信息是指同業(yè)務場景需求直接相關的信息,可以是因果信息,也可以是相關程度很高的信息。強相關信息可以幫助定位目標客戶,了解客戶潛在需求,開發(fā)需求產品。只有強相關信息才能有效結合業(yè)務需求,創(chuàng)造商業(yè)價值。
· 集中了所有強相關數據標簽之后,依據業(yè)務需求,對標簽進行加工整理,需要對定性的標簽進行定量以方便數據分類和篩選。這部分工作一般在數據倉庫進行,定性信息進行定量分類是用戶畫像的一個重要工作環(huán)節(jié),具有較高的業(yè)務場景要求,主要目的是將復雜數據簡單化,形成用戶特征標簽庫。
通過對業(yè)務場景的理解可以確定數據建模的輸入以及建模目的。對數據源進行分析,并對數據進行清洗后,就可以進行數據建模,數據建模主要包括數據核查、數據處理、變量相關性分析、變量篩選以及模型建立。
在數據建模完成后,需要對數據模型進行可視化的展現。所以畫像步驟的最后一步就是給用戶打上標簽,即以可視化的形式清晰簡潔地將數據建模的結果傳達出來。
將業(yè)務場景與用戶畫像深度結合,篩選出具有價值的數據和客戶,精準地定位目標客戶,觸達客戶,對營銷效果進行記錄和反饋。以存量用戶保有為例,具體步驟如下。
步驟1 確定畫像的目的,通過梳理各類流失模型應用場景得出流失定義,如不出賬、極低三無、狀態(tài)不正常行為等,然后根據流失定義確定用戶畫像的目的,即對定義的預警用戶進行數量保有。
步驟 2 根據畫像目的來篩選預警用戶強相關信息標簽,如用戶的生命周期、消費行為、通信行為、產品使用和行為偏好等標簽。
步驟 3 根據步驟 1篩選出來的強相關客戶聚類信息,經過標簽定性和定量形成用戶特征標簽庫。最后通過流失預警用戶特征標簽庫篩選出實際的目標用戶,以提升客戶使用感知為手段,通過匹配維系產品資源,為篩選出的目標客戶推薦合適產品,實現客戶維挽的最終目的。
將用戶畫像技術應用在流失預警上需要對業(yè)務場景有深入的理解。確定流失預警的定義為拆機離網、不出賬、極低三無和狀態(tài)不正常。其中,離網用戶毋庸置疑是流失;不出賬用戶根據探索和市場部經驗基本可以定義為流失;極低三無用戶約占整個離網人數的 98%,且每個月離網速度在 14%左右,需將這部分用戶定義為流失用戶,作為模型目標變量,確保后期模型能夠提前在極低三無前發(fā)現目標;狀態(tài)不正常的用戶后期有67%轉為不出賬和極低三無,基本可以定義為流失用戶。綜上所述,得出流失定義為:如果用戶在T月為在網出賬、非極低三無、狀態(tài)正常的用戶,在(T+1)月及以后發(fā)生離網、不出賬、轉為極低三無、轉為狀態(tài)不正常即視為流失用戶。隨著3G與4G網絡與業(yè)務的不斷普及,用戶在行為上也出現了風格迥異的局面,對全網用戶籠統(tǒng)地構建流失模型已經完全無法適應當前情況,需要針對性差異化構建流失模型。目前,市場維系產品以合約(終端合約、單卡類合約)產品、單產品(裸機、流量包和語音包)、固網融合業(yè)務產品為主。
根據不同地區(qū)(城市人口結構、用戶特點)以及不同業(yè)務體系(2G、3G、4G)用戶行為的特點,分別搭建流失模型。如合約到期流失模型、可提前續(xù)約用戶流失模型、逾期未續(xù)約用戶流失模型、合約成長期用戶流失模型、單卡用戶流失模型等。以提前續(xù)約用戶流失模型為例,模型輸入為:選取本網3G用戶近3個月的用戶信息(使用指標、消費行為指標、終端指標等),并根據經驗創(chuàng)建出具有顯著相關性的衍生變量,通過數據清洗、單變量分析、雙變量分析和相關性分析等,最終確定建模所需變量。模型數據預處理過程如下:數據核查,根據業(yè)務標準及客觀經驗來判斷提取的建模數據是否正確、可用;數據處理,對于值域過大的非錯誤數據進行數據去極值化處理;相關性分析,提取對目標變量強相關的變量,能夠大大縮短模型的運行周期、提升模型的運行效率及精準度;變量篩選,根據業(yè)務經驗和相關性分析選取重要的模型輸入變量。然后再進行模型算法對比分析:邏輯回歸對數據整體結構的分析優(yōu)于決策樹,而決策樹對局部結構的分析優(yōu)于邏輯回歸。
離網預測準確率:S為全體用戶數,P為預測流失用戶數、C為真實流失用戶數,P與C的交集即正確預測用戶數。離網預測準確率如圖4所示[6]。

圖4 離網預測準確率
預測準確率計算式為:預測流失用戶數P=預測流失(實際非流失)+預測流失(實際流失),P∩C=預測流失(實際流失)。預測準確率(查準率)等于正確預測用戶數除以預測流失用戶數。
打標簽用戶數據組離網預測準確率計算為:預測流失用戶數P=72 022,預測流失(實際流失)P∩C=61 720,查準率
提前續(xù)約用戶流失模型訓練結果見表1。

表1 提前續(xù)約用戶流失模型訓練結果
將模型結果應用到合約到期流失預警名單、提前續(xù)約/逾期續(xù)約流失預警名單、單卡類用戶流失預警名單中,每月輸出移動互聯(lián)網用戶中流失概率為極高/高的用戶并對其進行月度維系挽留,每天輸出流失概率極高的特定人數用戶并進行預警。模型應用對比結果如下。
(1)解決目標不明確
傳統(tǒng)手段無法精準且全面地捕獲流失用戶;流失模型可以準確地捕獲流失目標。
(2)解決方向不明確
傳統(tǒng)的維系手段無法對不同流失原因的用戶差異化營銷;流失模型可以準確識別用戶離網原因。
(3)解決節(jié)奏不明確
以往的維系節(jié)奏單一,所有用戶統(tǒng)一時間段維系;流失模型能夠明確緊急流失用戶和緩期流失用戶。
(4)解決資源浪費
傳統(tǒng)手段無法區(qū)分流失風險大小,無法做到資源合理投放;流失模型針對不同流失風險的用戶,精準化維系資源投放。
用戶畫像的本質是深度分析客戶,掌握有價值數據,找到目標客戶,按照客戶需求來定制產品,利用數據實現價值變現[7,8]。運營商擁有豐富的海量數據,具有天然的大數據優(yōu)勢,在目前存量發(fā)展模式下,利用畫像技術實現企業(yè)存量用戶價值經營是必然的選擇,更為有效的畫像方法有待進一步思考和實踐。
參考文獻:
[1]李英坤.大數據背景下用戶畫像的統(tǒng)計方法實踐研究[D].北京: 首都經濟貿易大學, 2016: 2-59.LI Y K.Statistical methods of user portrait in big data background[D].Beijing: Capital University of Economics and Business, 2016: 2-59.
[2]韓晶, 張智江, 王健全, 等.面向統(tǒng)一運營的電信運營商大數據戰(zhàn)略[J].電信科學, 2014, 30(11): 154-158.HAN J, ZHANG Z J, WANG J Q, et al.The unified-operationoriented big data strategy for telecom operators [J].Telecommunications Science, 2014, 30(11): 154-158.
[3]高玉龍.基于文本挖掘的用戶畫像研究[D].汕頭: 汕頭大學,2014: 1-54.GAO Y L.Users portrait research based on text mining[D].Shantou: Shantou University, 2014: 1-54.
[4]陳如明.大數據時代的挑戰(zhàn)價值與應對策略[J].移動通信,2012(17): 14-15.CHEN R M.The challenges and strategies in big data[J].Mobile Communications, 2012(17): 14-15.
[5]張敏, 宋杰, 劉曉峰.電信運營商面對 OTT的戰(zhàn)略選擇[J].電信科學, 2014, 30(2): 142-146, 151.ZHANG M, SONG J,LIU X F, et al.Strategic selection of telecom operators to counter OTT [J].Telecommunications Science,2014, 30(2): 142-146,151.
[6]尤海浪, 錢鋒, 黃祥為, 等.基于大數據挖掘構建游戲平臺個性化推薦系統(tǒng)的研究與實踐[J].電信科學, 2014, 30(10): 27-32.YOU H L, QIAN F, HUANG X W, et al.Research and practice of building a personalized recommendation system for mobile game platform based on big data mining [J].Telecommunications Science, 2014, 30(10): 27-32.
[7]郝勝宇, 陳靜仁.大數據時代用戶畫像助力企業(yè)實現精準化營銷[J].中國集體經濟, 2016(4): 61-62.HAO S Y, CHEN J R.User portrait helps accurate marketing in big data era[J].China Collective Economy, 2016(4): 61-62.
[8]袁海, 陳康, 陶彩霞, 等.基于中文文本的可視化技術研究[J].電信科學, 2014, 30(4): 114-122.YUAN H, CHEN K, TAO C X, et al.Research on visualization techniques based on Chinese texts [J].Telecommunications Science, 2014, 30(4): 114-122.