王冰瑩 杭州東信北郵信息技術有限公司
北京郵電大學網絡與交換技術國家重點實驗室碩士研究生在讀
王晶 杭州東信北郵信息技術有限公司
北京郵電大學網絡與交換技術國家重點實驗室副教授
分維度策略的異網寬帶用戶識別方案
王冰瑩 杭州東信北郵信息技術有限公司
北京郵電大學網絡與交換技術國家重點實驗室碩士研究生在讀
王晶 杭州東信北郵信息技術有限公司
北京郵電大學網絡與交換技術國家重點實驗室副教授
目前某運營商已有的異網寬帶識別模型采用用戶使用異網IP登陸自有網站這種單一維度分析的方式,識別準確率較低且覆蓋用戶數過少。采用多維度分析的方式構建模型可以提高準確率和效率,但是不同維度的數據量級差異明顯,如果強行建立模型分析會導致出現大量的空值。針對這些問題,本文設計了一種分維度策略的異網寬帶用戶識別方案,實際應用表明,該設計行之有效。
分維度策略;異網寬帶;模型
通過從某省運營商寬帶運營業務人員處調研得知,目前已有的異網寬帶識別模型采用用戶使用異網IP登陸運營商自有網站這種單一維度分析的方式。這種方式沒有對照已辦理該運營商本網的寬帶用戶和其他用戶的多種行為交叉分析,導致識別準確率較低且覆蓋用戶數過少。
分析挖掘融合分析不同類型寬帶用戶的多種行為特征,對多種渠道采集來的信息進行數據分析和挖掘,構建識別模型可以大幅度提高識別準確率。提升對推薦異網寬帶用戶轉網、寬帶營銷的精準度,減少人力成本和提升主動服務能力,為企業進一步制定營銷策略提供依據。
但是,采用多維度的數據構建異網寬帶識別模型涉及到的數據較廣,指標較多,并且數據獲取時間先后跨度較大,不同維度的數據量級明顯差異,將不同維度的數據強行建立一個模型分析會導致出現大量的空值,影響模型的準確率和模型效率。
因此,本文采取分維度的策略進行,模型先采用用戶手機流量使用清單數據挖掘分析出疑似辦理寬帶用戶,這類輸出覆蓋率較廣;然后,使用其余數據進一步對這類用戶進行判別分析,提高模型輸出的準確率。
運營商使用客戶的寬帶使用上分為4大類,分別是辦理本網寬帶的用戶、辦理異網(其他運營商)寬帶的用戶、未辦理任何寬帶(沒有辦理寬帶的需求)的用戶、未辦理任何寬帶(有辦理寬帶的需求)的用戶,本文模型的設計是針對辦理異網寬帶的用戶。
模型所需數據分為3大類,分別是本網用戶手機流量使用清單、電渠登陸日志數據、XDR媒體面手機流量去向信息數據。另外,模型還需部分輔助信息,主要包括運營商用戶基本信息、用戶居住地信息、已辦理本網寬帶成員信息、家庭網用戶信息、異網IP信息、異網URL信息。
由于這3類數據的量級差距較大,模型首先根據已辦理該運營商寬帶的用戶的手機流量使用特征對比分析出疑似辦理寬帶的用戶,進一步融合用戶網關接觸維度分析,從疑似辦理寬帶的用戶中分析挖掘出疑似異網寬帶用戶,提高模型輸出的準確率。
因此,模型主要從用戶手機流量使用特征、網關接觸這兩個維度分析識別全省全網用戶中異網寬帶用戶,模型整體設計思路如圖1所示。

圖1 模型整體設計思路圖
用戶手機流量使用特征通過對比已辦理寬帶的用戶的手機流量使用特征和未知用戶的手機流量使用特征,從中挖掘出疑似辦理寬帶的用戶。疑似辦理寬帶用戶包括辦理異網或本網寬帶的用戶,通過K-means聚類的方法,獲得手機流量使用用戶的自然分類結果,并得知群體間屬性特征差異,分類后將已辦理本網寬帶用戶的收斂比例最多的一類劃分為目標類。
啟東市位于長江入海口,與上海隔江相望,地理位置優越。境內地勢平坦,土壤肥沃,有機質含量1.4%以上,速效氮90 mg/kg,速效磷4.63 mg/kg,速效鉀152 mg/kg,pH值7.8-8.2之間,土質以輕壤為主,土層深厚。全市屬海洋性氣候,四季分明,日照充分,雨量充沛,無霜期長,是山藥種植的理想之地。山藥能單獨種植也可與糧、棉、油、菜作物間套夾種,十分符合全市多元多熟制耕作制度,經濟效益高,畝產值可達9000元以上。
(1)提取存量客戶最近一個月的手機流量使用相關指標數據。
(2)采用K-means聚類方法將存量用戶聚成K類,K值從大到小,直到已辦理本網寬帶的用戶收斂為一類。
K-means采用歐氏距離公式分別計算該對象到K個簇內點的距離,然后迭代的改善簇內變差重新分配所有對象直到分配穩定,根據結果簇獲取用戶所屬類別。
歐氏距離公式:

其中i=(1,2,……,n)和j=(1,2,……,n)是兩個n維數據對象。
(3)對每個類別進行類別特征提取,提取類別中心指標值。
(4)將各類別特征與各階段特征進行對比,分析各類別用戶的手機流量使用特征,并與已辦理本網寬帶的用戶的流量使用特征進行對比。
3.1 提取相關指標數據
提取存量客戶最近一個月的手機流量使用相關指標數據是非常重要的步驟,模型需計算用戶在閑/忙、白天/夜間不同時段使用手機流量的特征,因此需確定這些不同時段的劃分,本文的設計是采取根據業務人員配置的方式獲取。模型啟動階段的初始值則使用以下方式獲取。根據2016年2月份的全網使用流量信息,確定模型的初始流量使用忙/閑時時段和白天/夜間時段。
全網流量使用量排前10的時間段分別為:20、21、19、22、23、12、18、11、13、17,模型初始確定這些時段為忙時時段;根據某省2016年2月份的天亮/天黑時間,
確定模型的初始白天時間為07:00—18:59。通過以上這些時段的確定,統計用戶在這些不同時段使用流量的不同特征,以用戶號碼為唯一標識對用戶手機流量使用信息表進行統計衍生并匯總,生成用戶手機流量使用分析表。
由于指標間共線性會影響聚類質量,所以需提取聚類的字段進行相關性分析,綜合考慮選擇業務分析意義較大,相關性較小的指標進入模型。根據模型設計思路,并通過對比分析各指標之間的相關性,確定模型的最終輸入指標,采用R中的聚類分析對模型的指標進行篩選,具體過程如圖2所示。

圖2 手機流量使用特征輸入指標
通過以上分析,選取不同分類內方差和均值均有顯著性差異的指標,表1所示為模型的輸入指標。

表1 手機流量使用特征輸入系統
3.2 疑似辦理寬帶用戶識別模型搭建
將輸入指標進行預處理之后,使用某一月的用戶手機流量使用數據,用K-means聚類算法進行建模,通過調整聚類個數及迭代次數,選擇合適的類間差異較大的建模結果,將絕大部分的已辦理本網寬帶的用戶聚為一類。模型采用R構建,直到絕大部分的已辦理本網寬帶的用戶聚為了同一類,達到了模型設計的分類要求。
對每個類別進行類別特征提取,確定最終聚類的中心點,對聚類結果的各指標的原始值計算均值進行特征分析,最后總結各類用戶使用手機流量特征。
網關接觸維度可以根據接觸類型分為3類,具體如圖3所示。
在第一步分析出的疑似辦理寬帶的用戶的基礎上采用異網寬帶接觸本網自有網頁、客戶端與使用本網流量接觸異網寬帶辦理頁面的相關信息數據,進行不同類型用戶行為特征判別分析來識別出疑似異網寬帶用戶。
(1)提取用戶流量特征分析模型識別出的疑似辦理寬帶用戶最近一個月的使用異網寬帶登陸某省該運營商自有網站、使用本網手機流量訪問異網寬帶相關URL的相關指標數據。
(2)通過對疑似辦理寬帶用戶信息數據進行統計衍生,生成模型輸入信息數據,采用組合規則判別分析,輸出判別公式。
(3)將判別公式作用于測試數據,輸出疑似異網寬帶用戶,并根據準確率、覆蓋率進行模型驗證。
4.1 提取相關指標數據
通過單一指標分析,分析用戶使用異網IP登陸運營商本網自有網站和訪問異網寬帶相關URL的特征,通過訪問次數、個數等所有變量初步單一識別,并統計識別的覆蓋率,初步篩選出符合分析的指標。根據單一指標的分析結果,選取覆蓋率較高的一個指標作為第一變量,逐步層層遞進組合多個變量分析篩選出最終的輸入指標,指標篩選過
程見圖4。

圖3 網關接觸維度類型

圖4 網關融合指標篩選過程
4.2 識別模型搭建
根據第一步獲取的手機流量特征維度模型規則,作用于待識別數據,識別出疑似辦理寬帶的號碼。分析這類用戶的使用異網IP登陸運營商自有網站和訪問異網寬帶相關URL的特征,通過訪問次數、個數等單一變量初步識別,統計識別的覆蓋率,并分別獲取這兩維度的判別規則。最終根據判別分析的組合規則的層層遞進分析用戶的行為特征,總結出符合異網寬帶用戶的登陸和使用手機流量的業務特征。
本文結合異網寬帶用戶識別的需求,針對多維度數據構建識別模型數據量級差異明顯的問題,設計了分維度策略構建識別模型的方案。最后,不同維度的模型建立給出了不同的設計思路,以及提取相關指標數據的方法,增加結果的準確性。并且在實際應用中,允許業務人員配置模型的相關參數,如白天時段、忙時時段等。通過本文的工作,希望滿足運營商多維度方式構建異網寬帶識別模型的需求,提高模型準確率。
[1]周穎,呂巍,井淼等.基于數據挖掘技術的移動通信行業客戶細分[J].上海交通大學學報,2007,41(7):1142-1145.
[2]Jiawei Han,Micheline Kamber.數據挖掘概念與技術范明[M].孟小峰,等譯.北京:機械工業出版社,2012.
[3]賈金柱.數據挖掘、因果推斷和變量選擇的方法和理論[D].北京大學,2008.
Afractional dimension strategy for user identification of different broadband
WANGBingying,WANGJing
Currently,some operators already adopt a method for user identification of different broadband.The method is a single dimensional analysis,that is,analysis the behavior of other IP landing operator’sown web sites.But the identification correct rate and user coverage rate is low.Adopting multi-dimensional analysis method formulates the model could improve its accuracy and efficiency.However,different dimensional data gap obvious.If forced to establish the model,it might cause many vacant data.Aiming at these problems,this paper designed a fractional dimension strategy plan and the practice shows its effectiveness.
fractional dimension strategy;different broadband;model
2016-10-25)