申志偉,崔瑞媛,呂恒
(中國聯合網絡通信有限公司研究院,北京 100032)
國際漫游通信產品用戶識別模型及實證分析
申志偉,崔瑞媛,呂恒
(中國聯合網絡通信有限公司研究院,北京 100032)
針對國際漫游通信產品使用率過低的問題,基于移動用戶在通信行為和屬性上的全量數據,提出統計分析和建立識別模型相結合的方法,運用SPSS和Clementine工具,以高命中率和廣覆蓋率為目標,提煉出國際漫游通信產品用戶的潛在特征,對這些潛在特征逐一進行了實證對比分析,得出了非常高的精準識別率,這對運營商更有針對性地開展國際漫游業務具有重要參考意義。
國際漫游;用戶行為特征;識別模型;實證分析
隨著經濟的不斷發展,中國在出境旅游、商務活動、出國留學等出國行為上的人數及消費費用呈現出逐年增加的趨勢:在出境游方面,根據金棕櫚咨詢發布的數據[1],2014年中國出境人數達到 1.17億人次,同比增長18%,出境游花費約1 400億美元;根據國家旅游局的數據[2],僅僅2015年春節期間中國出境游人數就達到了518.2萬人次,并且出境人數首次超過境內旅游,2015年上半年,出境旅游達到6 190萬人次[3];而根據世界旅游組織的報告[4],自2012年起,中國已經連續3年成為世界最大的出境游市場。在商務出境方面,中國是澳大利亞第一大商務交流來源國[5]。在出國留學方面,據國家教育部統計,2014年度我國出國留學人員總數為45.98萬人[6]。對于電信運營商而言,這些數據意味著潛在的國際漫游用戶的規模和頻次不斷上升,有著廣闊的國際漫游市場,從2015年開始,三大運營商雖然都在對國際漫游資費進行大幅下調,開通國際漫游權限的用戶比例也在上升,但是使用國際漫游產品的用戶占比仍然極少,通過有效提取國際漫游用戶通信行為特征,從而有針對性地推薦國際漫游產品是運營商提升國際收入的重要手段。本文選取運營商本地網3個月的全量移動數據來建立國際漫游通信產品用戶識別模型,再用后續一個月的數據來驗證模型提取到的特征準確性。
從實際數據上來看,使用國際漫游產品的用戶幾乎都是穩定用戶,和穩定用戶相比,新用戶在較短的時間內使用國際漫游產品的規模基本可以忽略不計,因此本文所選取的用戶是剔除三無、公測等無效用戶并且在網時長超過3個月的用戶。以這些本地網1 200多萬全量移動用戶數據為基礎,把移動用戶按照2G、3G、4G來劃分,同時選取語音、流量、短信、屬性等基本數據為維度進行分析。根據3個月的實際數據,雖然開通國際漫游權限和使用國際漫游產品的占比都較低,但是2G、3G、4G用戶的占比均呈現遞增態勢,并且國際漫游收入中以國際漫游語音產品為主,同時有一定的國際漫游流量需求,但是沒有國際漫游短信的需求,這意味著移動用戶國際漫游產品提升空間較大,一方面需要加快2G向3G、4G用戶遷移,3G向4G用戶的遷移,另一方面要向移動用戶重點推薦國際漫游語音產品,同時也要不斷挖掘用戶國際漫游流量需求并加大其營銷力度。
在開通國際漫游權限同時使用國際漫游產品的用戶中,從消費能力上看,3G、4G用戶中高端用戶是其主要組成部分,占比在90%以上,并且多數都屬于穩定用戶,有著較長的在網時長,一般超過3年;從使用終端上看,使用3G、4G終端的用戶占比也都在90%以上,其中使用蘋果、三星高端品牌的終端占比高達80%;從用戶的基本屬性上看,18~50歲用戶占比在85%以上,國際漫游用戶呈現年輕化態勢,同時男性群體較多。
基于以上數據分析,總體上國際漫游用戶呈現出中高端、語音流量偏好、年輕化、穩定等特點,具體而言,2G、3G、4G用戶的特征如下。
(1)2G用戶
使用三星、蘋果、小米、華為和諾基亞的3G、4G終端;向出賬收入在300元之內的用戶重點推薦國際語音產品。
(2)3G用戶
3G用戶有一定的國際漫游需求,有進一步激發的潛力,尤其是國際流量需求;重點對有國際長途收入的用戶推薦國際漫游產品;使用蘋果、三星、華為和小米的3G、4G終端;向3G用戶同時推薦國際語音和國際流量產品。
(3)4G用戶
4G用戶有一定的國際漫游需求,但占比呈現下降趨勢,需要增強國際漫游產品營銷力度;重點對有國際長途收入的用戶推薦國際漫游產品;使用蘋果、三星、華為和小米的3G、4G終端,尤其是4G終端,需要加大4G終端營銷力度;向4G用戶同時推薦國際語音和國際流量產品。
根據有國際漫游收入用戶通信行為特征,總結歸納用戶有國際漫游收入動因,形成判定模型及判別規則;基于此規則,為在移動用戶群中推薦國際漫游產品提供模型支撐依據,在原始語音、流量、短信、終端等數據指標,基礎上,增加均值、標準差、變異系數3個基本衍生指標形成模型所需的數據輸入,模型以高覆蓋率和高命中率作為目標。

對初始數據指標利用SPSS工具[7]進行方差分析、相關性分析,剔除相關性強以及對目標變量不顯著的數據指標后作為模型的輸入文件,在Clementine工具中[8]運用決策樹C5.0進行建模。圖1給出了國際漫游通信產品用戶識別模型的建模框架。
(1)3G用戶
把用戶分為有國際漫游收入和沒有國際漫游收入兩種情況分別進行建模。在變量重要性方面,圖2和圖3給出了這兩種情況下的指標重要性排序。在有國際漫游收入用戶所有指標變量中,標準差國際語音主叫時長、均值國際語音被叫時長、標準差出賬總收入和國際漫游總流量最為重要,在沒有國際漫游收入用戶所有指標中,標準差出賬總收入、均值國際長途通話收入和均值出賬總收入最重要。

圖1 國際漫游通信產品用戶識別模型框架

圖2 3G有國際漫游收入用戶指標重要性

圖3 3G沒有國際漫游收入用戶指標重要性
在有國際漫游收入用戶方面,共提取3條規則,命中率為93.7%,覆蓋率為99.1%,具體如下:
·有任意國際漫游通信行為的用戶是國際漫游首要目標用戶群體;
· 有國際語音通信行為的用戶,出賬總收入有較大波動,向其推薦國際漫游產品;
·有國際語音通信行為的用戶,出賬總收入較為平穩,有一定的國際語音被叫行為且總流量在300 MB以上,向其推薦國際漫游產品。
在沒有國際漫游收入用戶方面,同樣提取3條規則,命中率72.5%,覆蓋率為69.4%,有國際長途語音行為,滿足下列條件之一,重點推薦國際漫游產品:
·出賬總收入有較大波動;
· 出賬總收入較為平穩,同時有較為波動的國際長途語音行為,且使用3G、4G終端;
·出賬總收入和國際長途語音行為較為平穩且年齡在19~50歲使用3G終端。
(2)4G用戶
同樣把用戶分為有國際漫游收入和沒有國際漫游收入兩種情況分別進行建模。在變量重要性方面,圖4和圖5給出了這兩種情況下的指標重要性排序。在有國際漫游收入用戶所有指標變量中,均值國際語音被叫次數、均值國際語音主叫次數最為重要;在沒有國際漫游收入用戶所有指標中,標準差出賬總收入、標準差國際主叫長途次數和終端類型最重要。
在有國際漫游收入用戶方面,共提取3條規則,命中率為99.2%,覆蓋率為99.3%,具體如下:
·有任意國際漫游通信行為的用戶是國際漫游首要目標用戶群體;

圖4 4G有國際漫游收入用戶指標重要性

圖5 4G沒有國際漫游收入用戶指標重要性
·向有被叫國際語音通信行為的用戶推薦國際漫游產品;
· 向無被叫無國際語音通信行為,且有主叫國際語音通信行為的用戶推薦國際漫游產品。
在沒有國際漫游收入用戶方面,同樣提取3條規則,命中率為73%,覆蓋率為75.7%,具體如下:
· 向近3個月有非常大的出賬總收入波動的用戶,重點推薦國際漫游產品;
· 向有國際長途通信行為,有較大的出賬總收入波動且有國內流量使用行為的用戶,重點推薦國際漫游產品;
· 向無國際長途通信行為,出賬總收入有較大波動且在60元以上,使用4G終端有國內流量使用行為的用戶,重點推薦國際漫游產品。
(3)特征總結
綜合3G、4G特征,可提取以下主要共有特征。
·有過國際漫游收入歷史記錄的用戶是使用國際漫游產品的首要目標用戶。
· 在沒有國際漫游收入歷史記錄的用戶中,滿足以下條件建議重點推薦國際漫游產品:有國際長途語音行為;出賬總收入較高,在56元以上,同時近期有較大波動;流量在300 MB以上;使用 3G、4G終端的男性。
選取建立國際漫游通信產品用戶模型后,后續一個月1 200多萬本地網全量移動用戶數據,對在總體分析和模型中提取的特征進行實證分析,以覆蓋率和提升率兩個指標來進行驗證,這兩個驗證指標和建立模型時的含義不同,以下為其具體定義。
覆蓋率:用于驗證總體分析中提取的用戶特征的準確性,在所需類型(有國際漫游收入用戶)中符合特征的用戶在其中的占比,占比越大,說明在該類型群體中該特征越理想,覆蓋越廣。
提升率:用于驗證國際漫游通信產品用戶模型提取的用戶特征的準確性,在全量移動用戶中提取符合特征的用戶,考察這些用戶中實際是該類型的用戶(全量符合特征用戶中實際有國際漫游收入用戶)在其中的占比,將這個占比和沒有根據這個特征的實際占比進行對比,這兩個占比之差為提升率。
表1、表2、表 3分別為2G、3G、4G用戶總體分析中提取特征的覆蓋率。

表1 2G用戶總體分析覆蓋率

表2 3G用戶總體分析覆蓋率

表3 4G用戶總體分析覆蓋率
表4給出了國際漫游通信產品用戶識別模型中提取特征的提升率,在其中提取的有國際漫游收入的用戶必然會使用國際漫游產品,無需再做驗證。

表4 國際漫游通信產品用戶識別模型提升率
從實際的驗證效果上看,本文建立的國際漫游通信產品用戶識別模型所提取的特征規則,無論從覆蓋廣度上還是從精準識別上都有很大的契合度和提升率,向根據這些規則選擇的移動用戶推薦國際漫游產品會更有針對性,同時節省運營商營銷成本,這里需要說明的是模型中提取的規則是根據特定本地網和近期3個月的數據進行的,因此屬于動態模型,會隨著不同本地網和不同時期的數據進行一些調整,但其中所建立的指標體系和識別模型方法可以固化成模塊,放在經分系統上進行數據的自動輸入和特征提取,雖然可能在具體的數據指標識別規則的閾值上會有所微調,但從實際數據上來看,在一定的時間內會比較穩定,因此從定量上給出方法,從定性上給出方向,本文所提取的使用國際漫游通信產品的用戶典型特征具有一定的實際指導意義,也比較符合當前運營商的總體發展策略,比如2G用戶向3G、4G的快速遷移,有國際漫游收入記錄、有國際長途語音通信行為、使用中高端的3G或4G終端、出賬收入較高的中青年群體等都屬于出國人群的典型特征。
當前國際漫游用戶在運營商移動用戶中的占比仍然很低,隨著國際漫游資費的不斷下調,出國人群中必然會有越來越多的用戶使用國際漫游通信產品,根據出國人群的通信行為特征持續優化和豐富國際漫游通信產品,將會逐步消除用戶顧慮,培養出國人群使用國際漫游通信產品的習慣,增強運營商國際競爭力,提升國際漫游通信產品資費的議價能力,從而可以進一步下調國際漫游產品資費,國際漫游用戶也就會越多,最終形成正向循環,促進運營商國際業務的拓展以及提升國際漫游用戶的滿意度。
[1]2014 年中國公民出境游達 1.17 億人次[EB/OL].[2015-01-13].http://www.traveldaily.cn/article/88133.The outbound travel of Chinese citizens amounted to 1.17 billion in 2014 [EB/OL]. [2015-01-13].http://www.traveldaily.cn/article/88133.
[2]國家旅游局.2015年春節中國出境旅游報告—信息圖[EB/OL].[2015-03-16].http://www.199it.com/archives/333033.html.National Tourism Administration of the People's Republic of China. 2015 spring festival China outbound tourism report-information map[EB/OL]. [2015-03-16].http://www.199it.com/archives/333033.html.
[3]中國旅游研究院:2015年上半年出入境旅游總人數1.27億人次, 同比增長 9.8%[EB/OL].[2015-07-22].http://www.199it.com/archives/368089.html.China Tourism Research Institute.The first half of 2015 the total number of entry and exit travel 127 million passengers,an increase of 9.8% [EB/OL].[2015-07-22].http://www.199it.com/archives/368089.html.
[4]世界旅游組織.中國連三年成為世界最大出境游市場[EB/OL].[2015-02-04]. http://news.xinhuanet.com/overseas/2015-02/04/c-127455722.htm.World Tourism Organization.China has become the world's largestoutbound tourism marketin three years [EB/OL].[2015-02-04]. http://news.xinhuanet.com/overseas/2015-02/04/c-127455722.htm.
[5]2015 中國國際移民報告 [R/OL].[2015-03-20].http://edu.sina.com.cn/a/2015-03-20/1146258457.shtml.2015 China international migration report [R/OL].[2015-03-20].http://edu.sina.com.cn/a/2015-03-20/1146258457.shtml.
[6]2014 年 中 國 出 國 留 學 人 員 超 45 萬 [EB/OL].[2015-03-05].http://www.chinanews.com/edu/2015/03-05/7103900.shtml.Chinesestudentsabroadover45millionin2014[EB/OL].[2015-03-05].http://www.chinanews.com/edu/2015/03-05/7103900.shtml.
[7]杜強,賈麗艷,嚴先鋒.SPSS統計分析從入門到精通 (第2版)[M].北京:人民郵電出版社,2014.DU Q,JIA L Y,YAN X F.SPSS Statistical Analysis from Entry to the Master (Second Edition)[M].Beijing:Posts&Telecom Press,2014.
[8]薛薇,陳歡歌.基于Clementine的數據挖掘[M].北京:中國人民大學出版社,2012.XUE W,CHEN H G.Data Mining Based on Clementine[M].Beijing:China Renmin University Press,2012.
User identification model and empirical analysis of international roaming communication products
SHEN Zhiwei,CUI Ruiyuan,LV Heng
China Unicom Research Institute,Beijing 100032,China
For the use rate of international roaming communications products are too low,based on full volume data of mobile user in communication behavior and attribute,a method of combining statistical analysis and building recognition model was proposed.Using SPSS and Clementine tools,with high hit rate and wide coverage as the target,the user potential features of the international roaming communications products were extracted.Subsequently,the empirical analysis of the potential features also was given,and the very high accuracy rate was obtained.This has important reference value for operators to carry out international roaming service better.
international roaming,user behavior characteristics,identification model,empirical analysis
TN929.5
A
10.11959/j.issn.1000-0801.2016022
2015-08-26;
2015-12-01
申志偉(1980-),男,博士,中國聯合網絡通信有限公司研究院高級工程師,主要研究方向為大數據應用、移動互聯網產品研發、用戶行為研究、物聯網及云計算等。

崔瑞媛(1985-),女,博士,中國聯合網絡通信有限公司研究院工程師,主要研究方向為物聯網、移動互聯網、通信業務與商業模式等。

呂恒(1983-),女,中國聯合網絡通信有限公司研究院工程師,主要研究方向為大數據、用戶行為研究、市場策略、互聯網金融等。
