路 瑋,李軼群,李佳俊,王蘊實
(中國聯通網絡技術研究院,北京 100048)
隨著移動互聯網終端不斷增加,目前中國聯通有將近3億移動業務用戶,假設用戶兩年換一次手機,則平均每年有1.5億用戶換機量[1],所以換機市場份額巨大。引入大數據挖掘技術對海量的換機數據進行深度挖掘,分析潛在用戶的換機需求,例如用戶喜歡的終端品牌型號、心理價位、品牌忠實度等。通過對用戶換機大數據分析,構建換機模型,挖掘出用戶換機信息,不僅有利于擴大用戶市場增加經濟效益,同時還為所在省份提供現網用戶終端使用情況,為網絡規劃部署作出參考,推動終端和網絡之間協調發展。
隨著全球及國內移動終端產業鏈發展[2],終端對網絡功能實現影響力越來越大,所以從網絡側對終端業務進行數據分析十分必要[3]。數據來源包括從省份提取的每月全網出賬用戶終端數據,體現用戶行為信息;終端TAC庫,體現終端基本屬性信息;終端價格表信息,體現終端價格基本信息。通過上千萬條數據記錄及幾十個屬性指標[4],展現出用戶換機行為特性。各數據表的關聯關系如圖1所示。
(1)省份原始數據是提取省份每月出賬的終端數據,包括終端的歸屬地市、終端移動設備國際識別碼(International Mobile Equipment Identity,IMEI)、用戶編號、國際移動用戶標識(International Mobile Subscriber Identity,IMSI)、登錄過4G網絡附著標識、3G網絡使用標識等基本字段信息,其中IMEI設定為主鍵。
(2)換機用戶關聯數據表是將換機前后終端數據信息整合到一張表中[5],在數據整合過程中過濾掉冗余字段,保留有效字段,其中IMEI_pre、TAC_pre表示為換機前終端的IMEI和TAC信息,IMEI_cur、TAC_cur表示為換機后終端的IMEI和TAC信息。由于各個終端數據表中關鍵字段不匹配,有的提供TAC信息,有的提供IMSI信息,為了統一處理,需要將TAC信息和IMSI信息進行轉化,新增TAC字段信息,從IMEI號中提取前7位號碼轉化TAC字段。其中IMEI設定為主鍵。
(3)終端庫表是終端關鍵數據信息,包括終端TAC號、終端名稱、終端ID、廠家名稱、廠家ID、網絡類型、創建時間、更新時間等基本字段信息。其中TAC號設定為主鍵。
(4)終端價格表是定義不同終端價格檔位基本信息,包括終端ID、終端型號、廠家編碼、廠家名稱,以及終端價格檔位等字段信息。其中終端ID設為主鍵。數據表中將終端價格檔位分為A~E檔,價格上差額1 000 元一個檔位,其中大于等于3 500 為A檔,小于1 000 為E檔,如表1所示。

圖1 終端數據關聯圖

表1 終端價格檔位表
(5)終端價格關聯表是將終端庫表和終端價格表進行關聯,按關鍵字段終端ID進行數據合并,將相同終端ID號的終端型號、價格檔位、終端TAC號合并為一個表。其中設TAC號為主鍵。
(6)TAC庫數據是終端的基本數據,包括TAC號、終端品牌(Marketing Name)、終端廠商(Manufacturer)、支持的頻段(Bands)、2G標識、3G標識、4G標識、雙卡、設備類型等基本字段信息。其中設TAC號為主鍵。
(7)終端換機關聯表是將終端價格關聯表、換機用戶關聯數據表、TAC庫表進行關聯[6-7],按換機前TAC號和換機后TAC號為關鍵字進行合并,包含換機標識,換機前Marketing_Name_pre、Manufacturer_pre、2G標識_pre、3G標識_pre、4G標識_pre、終端檔位_pre,換機后Marketing_Name_cur、Manufacturer_cur、2G標識_cur、3G標識_cur、4G標識_cur、終端檔位_cur等基本字段信息。換機是對比同一用戶IMSI號下不同IMEI號的終端信息,如果IMEI_pre=IMEI_cur,則表示沒有換機,換機標識為0;如果IMEI_pre≠IMEI_cur,則表示用戶換機,換機標識為1。其中設IMSI號為主鍵。
IBM SPSS Modeler具有豐富的數據挖掘算法,支持數據庫之間的數據與模型交換。在數據分析時通過數據收集、預處理、模型建立、模型評估等環節,通過若干節點,建立一條或多條數據流,調整和修改數據流中的節點和參數,完成整個數據分析任務[8]。采用SPSS Modeler進行數據處理,基礎數據流的建立和完善是數據業務分析的基礎和支撐,可以滿足不同省份的統一業務的需求分析。根據數據業務數據源分析,建立業務挖掘模型[9]。終端數據流處理過程如圖2所示。

圖2 終端數據流處理過程框架

圖3 數據節點審核統計
在數據準備階段,讀取省份當月出賬的終端原始數據、上個月的出賬終端原始數據、TAC庫數據以及終端價格檔位數據等數據信息。瀏覽數據內容,對數據進行過濾、確認字段存儲類型、讀取數據的變量類型等參數設置,例如將IMSI號和IMEI號存儲類型從字符串變更為整數。通過過濾選項卡修改變量名稱,將上個月的數據表中的IMEI變量名稱改為IMEI_pre,當月的數據表中的IMEI變量變更為IMEI_cur。通過數據審核可以觀察出統計數據中的異常數據、極端數據[10]。
對于異常數據需要在數據預處理階段進行修改或刪除。在數據預處理階段,為了提取有效數據的價值,需要提前將缺失和異常數據處理干凈,對數據進行一系列的清洗、轉化、加載等[11]。在省份當月出賬的終端原始數據里只有IMEI碼信息,沒有TAC碼信息,為了同TAC庫進行對比分析,需要根據IMEI信息派生出TAC碼。TAC碼是IMEI碼前六位數字,代表終端型號。利用函數intof(‘IMEI號’/1000000)將IMEI值轉化為TAC值,通過TAC標識,與TAC庫進行對比,可以獲得終端基本信息。IMEI是終端唯一識別碼,對于換機業務來說關注終端換機前和換機后終端IMEI對比至關重要,所以將終端IMEI號作為主鍵,唯一標識數據表中的每條記錄[12]。在數據處理過程中需要將原始數據的字段類型進行調整,將IMSI、IMEI字段從實數或字符串變更為整數,類型為連續型。同時過濾參數字段,保留IMEI號、IMSI號有效字段,剔出用戶編碼等信息。通過對原始數據轉化、過濾、類型變更、匹配合并等初步處理,可以將數據轉化為有效數據。由省份當月原始數據表和上個月原始數據表合成換機用戶關聯數據表,以IMSI標識為主鍵,用IMSI關鍵字段進行合并,并對IMEI進行去重,保留終端唯一性,IMEI_pre、TAC_pre表示為換機前終端的IMEI和TAC信息,IMEI_cur、TAC_cur表示為換機后終端的IMEI和TAC信息。終端庫和終端價格表的對比合并生成終端價格關聯表,通過終端ID關鍵字段,生成以TAC為主鍵,包含終端ID、價格檔位、終端類型等字段的數據表。TAC庫中標明了終端的屬性,包括該終端品牌、終端型號、支持2G/3G/4G頻段情況、設備類型、是否是雙卡等信息。用戶終端TAC號同TAC庫中TAC號進行匹配可以查出用戶終端包含的屬性,顯示出用戶終端的頻段支持情況。在合并時使用TAC號作為關鍵字。將TAC庫表、換機用戶關聯數據表、終端價格關聯表3張表以換機前TAC_pre為合并字段,生成換機前終端型號、終端品牌、終端支持2G/3G/4G情況、終端檔位信息;以換機后TAC_cur為合并字段,生成換機后終端信號、終端品牌、終端支持2G/3G/4G情況、終端檔位信息[13]。
模型建立,生成數據流;將分析出的結果匯總,通過表或圖形展現出來[14]。
通過換機業務模型[15]對省份連續2個月的出賬1 200 萬條的終端數據進行分析。本文從換機前后品牌占比、用戶換機忠誠度、換機后價格檔位等幾個方面進行深入分析。分析結果如圖4所示。

圖4 換機前后品牌TOP10占比統計情況
換機前后TOP5品牌均為蘋果、華為、VIVO、魅族、OPPO,其中蘋果換機減少2.62%,華為換機減少2.65%, VIVO換機減少1%,小米換機增加2.26%,魅族換機增加1.57%,OPPO換機增加1.47%[16]。如圖5所示。

圖5 終端品牌變更統計
分析可見,蘋果、魅族、OPPO換機后繼續使用同款終端品牌占比相對較高,基本在60%~68%左右,華為、VIVO繼續使用同款終端品牌占比45%,說明用戶對TOP5的終端品牌忠誠度比較高。
如圖6所示,A檔價格檔位在≥3 500占8.71%,B檔價格檔在[2 500,3 500)占比26.59%,C檔價格檔在[1 500,2 500]占比14.5%,D檔價格檔在[1 000,1 500)占比28.96%,E檔價格檔在(0,1 000)占比21.24%。

圖6 終端價格檔位百分比
如圖7所示,統計終端各檔位前5位的品牌型號,其中:
在A檔價格中,蘋果占27.37%,華為占22.32%,VIVO占19.56%,三星占9.29%,小米占5.5%;
在B檔價格中,蘋果占29.91%,VIVO占21.63%, 魅族占14.77%,小米占8.49%,華為占7.34%;
在C檔價格中,VIVO占24.27%, 魅族占16.18%,三星占13.94%,小米占13.21%,華為占10.05%;
在D檔價格中,VIVO占21.09%, 華為占13.24%,OPPO占5.87%,小米占4.58%,魅族占3.2%;
在E檔價格中,VIVO占19.76%,魅族占13.36%,OPPO占8.61%,小米占5.55%,華為占5.25%。
從價格上可以看出,蘋果在高端終端占比較大,VIVO在各個檔位均是最受歡迎的品牌。
本文根據用戶換機業務需求通過大數據分析構建一個終端換機模型,利用省份出賬的終端數據統計出用戶換機忠誠度、終端價格檔位占比、終端品牌等信息,挖掘出用戶的潛在的偏愛喜好,找出影響用戶換機行為的關鍵因素,對提升市場營銷有很大幫助。

圖7 終端數據流處理過程框架