999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分維度策略的異網寬帶用戶識別方案

2016-12-10 08:57:32王冰瑩杭州東信北郵信息技術有限公司
信息通信技術與政策 2016年11期
關鍵詞:用戶模型

王冰瑩 杭州東信北郵信息技術有限公司

北京郵電大學網絡與交換技術國家重點實驗室碩士研究生在讀

王晶 杭州東信北郵信息技術有限公司

北京郵電大學網絡與交換技術國家重點實驗室副教授

分維度策略的異網寬帶用戶識別方案

王冰瑩 杭州東信北郵信息技術有限公司

北京郵電大學網絡與交換技術國家重點實驗室碩士研究生在讀

王晶 杭州東信北郵信息技術有限公司

北京郵電大學網絡與交換技術國家重點實驗室副教授

目前某運營商已有的異網寬帶識別模型采用用戶使用異網IP登陸自有網站這種單一維度分析的方式,識別準確率較低且覆蓋用戶數過少。采用多維度分析的方式構建模型可以提高準確率和效率,但是不同維度的數據量級差異明顯,如果強行建立模型分析會導致出現大量的空值。針對這些問題,本文設計了一種分維度策略的異網寬帶用戶識別方案,實際應用表明,該設計行之有效。

分維度策略;異網寬帶;模型

1 引言

通過從某省運營商寬帶運營業務人員處調研得知,目前已有的異網寬帶識別模型采用用戶使用異網IP登陸運營商自有網站這種單一維度分析的方式。這種方式沒有對照已辦理該運營商本網的寬帶用戶和其他用戶的多種行為交叉分析,導致識別準確率較低且覆蓋用戶數過少。

分析挖掘融合分析不同類型寬帶用戶的多種行為特征,對多種渠道采集來的信息進行數據分析和挖掘,構建識別模型可以大幅度提高識別準確率。提升對推薦異網寬帶用戶轉網、寬帶營銷的精準度,減少人力成本和提升主動服務能力,為企業進一步制定營銷策略提供依據。

但是,采用多維度的數據構建異網寬帶識別模型涉及到的數據較廣,指標較多,并且數據獲取時間先后跨度較大,不同維度的數據量級明顯差異,將不同維度的數據強行建立一個模型分析會導致出現大量的空值,影響模型的準確率和模型效率。

因此,本文采取分維度的策略進行,模型先采用用戶手機流量使用清單數據挖掘分析出疑似辦理寬帶用戶,這類輸出覆蓋率較廣;然后,使用其余數據進一步對這類用戶進行判別分析,提高模型輸出的準確率。

2 模型的整體設計

運營商使用客戶的寬帶使用上分為4大類,分別是辦理本網寬帶的用戶、辦理異網(其他運營商)寬帶的用戶、未辦理任何寬帶(沒有辦理寬帶的需求)的用戶、未辦理任何寬帶(有辦理寬帶的需求)的用戶,本文模型的設計是針對辦理異網寬帶的用戶。

模型所需數據分為3大類,分別是本網用戶手機流量使用清單、電渠登陸日志數據、XDR媒體面手機流量去向信息數據。另外,模型還需部分輔助信息,主要包括運營商用戶基本信息、用戶居住地信息、已辦理本網寬帶成員信息、家庭網用戶信息、異網IP信息、異網URL信息。

由于這3類數據的量級差距較大,模型首先根據已辦理該運營商寬帶的用戶的手機流量使用特征對比分析出疑似辦理寬帶的用戶,進一步融合用戶網關接觸維度分析,從疑似辦理寬帶的用戶中分析挖掘出疑似異網寬帶用戶,提高模型輸出的準確率。

因此,模型主要從用戶手機流量使用特征、網關接觸這兩個維度分析識別全省全網用戶中異網寬帶用戶,模型整體設計思路如圖1所示。

3 手機流量使用特征維度

圖1 模型整體設計思路圖

用戶手機流量使用特征通過對比已辦理寬帶的用戶的手機流量使用特征和未知用戶的手機流量使用特征,從中挖掘出疑似辦理寬帶的用戶。疑似辦理寬帶用戶包括辦理異網或本網寬帶的用戶,通過K-means聚類的方法,獲得手機流量使用用戶的自然分類結果,并得知群體間屬性特征差異,分類后將已辦理本網寬帶用戶的收斂比例最多的一類劃分為目標類。

啟東市位于長江入海口,與上海隔江相望,地理位置優越。境內地勢平坦,土壤肥沃,有機質含量1.4%以上,速效氮90 mg/kg,速效磷4.63 mg/kg,速效鉀152 mg/kg,pH值7.8-8.2之間,土質以輕壤為主,土層深厚。全市屬海洋性氣候,四季分明,日照充分,雨量充沛,無霜期長,是山藥種植的理想之地。山藥能單獨種植也可與糧、棉、油、菜作物間套夾種,十分符合全市多元多熟制耕作制度,經濟效益高,畝產值可達9000元以上。

(1)提取存量客戶最近一個月的手機流量使用相關指標數據。

(2)采用K-means聚類方法將存量用戶聚成K類,K值從大到小,直到已辦理本網寬帶的用戶收斂為一類。

K-means采用歐氏距離公式分別計算該對象到K個簇內點的距離,然后迭代的改善簇內變差重新分配所有對象直到分配穩定,根據結果簇獲取用戶所屬類別。

歐氏距離公式:

其中i=(1,2,……,n)和j=(1,2,……,n)是兩個n維數據對象。

(3)對每個類別進行類別特征提取,提取類別中心指標值。

(4)將各類別特征與各階段特征進行對比,分析各類別用戶的手機流量使用特征,并與已辦理本網寬帶的用戶的流量使用特征進行對比。

3.1 提取相關指標數據

提取存量客戶最近一個月的手機流量使用相關指標數據是非常重要的步驟,模型需計算用戶在閑/忙、白天/夜間不同時段使用手機流量的特征,因此需確定這些不同時段的劃分,本文的設計是采取根據業務人員配置的方式獲取。模型啟動階段的初始值則使用以下方式獲取。根據2016年2月份的全網使用流量信息,確定模型的初始流量使用忙/閑時時段和白天/夜間時段。

全網流量使用量排前10的時間段分別為:20、21、19、22、23、12、18、11、13、17,模型初始確定這些時段為忙時時段;根據某省2016年2月份的天亮/天黑時間,

確定模型的初始白天時間為07:00—18:59。通過以上這些時段的確定,統計用戶在這些不同時段使用流量的不同特征,以用戶號碼為唯一標識對用戶手機流量使用信息表進行統計衍生并匯總,生成用戶手機流量使用分析表。

由于指標間共線性會影響聚類質量,所以需提取聚類的字段進行相關性分析,綜合考慮選擇業務分析意義較大,相關性較小的指標進入模型。根據模型設計思路,并通過對比分析各指標之間的相關性,確定模型的最終輸入指標,采用R中的聚類分析對模型的指標進行篩選,具體過程如圖2所示。

圖2 手機流量使用特征輸入指標

通過以上分析,選取不同分類內方差和均值均有顯著性差異的指標,表1所示為模型的輸入指標。

表1 手機流量使用特征輸入系統

3.2 疑似辦理寬帶用戶識別模型搭建

將輸入指標進行預處理之后,使用某一月的用戶手機流量使用數據,用K-means聚類算法進行建模,通過調整聚類個數及迭代次數,選擇合適的類間差異較大的建模結果,將絕大部分的已辦理本網寬帶的用戶聚為一類。模型采用R構建,直到絕大部分的已辦理本網寬帶的用戶聚為了同一類,達到了模型設計的分類要求。

對每個類別進行類別特征提取,確定最終聚類的中心點,對聚類結果的各指標的原始值計算均值進行特征分析,最后總結各類用戶使用手機流量特征。

4 網關接觸維度

網關接觸維度可以根據接觸類型分為3類,具體如圖3所示。

在第一步分析出的疑似辦理寬帶的用戶的基礎上采用異網寬帶接觸本網自有網頁、客戶端與使用本網流量接觸異網寬帶辦理頁面的相關信息數據,進行不同類型用戶行為特征判別分析來識別出疑似異網寬帶用戶。

(1)提取用戶流量特征分析模型識別出的疑似辦理寬帶用戶最近一個月的使用異網寬帶登陸某省該運營商自有網站、使用本網手機流量訪問異網寬帶相關URL的相關指標數據。

(2)通過對疑似辦理寬帶用戶信息數據進行統計衍生,生成模型輸入信息數據,采用組合規則判別分析,輸出判別公式。

(3)將判別公式作用于測試數據,輸出疑似異網寬帶用戶,并根據準確率、覆蓋率進行模型驗證。

4.1 提取相關指標數據

通過單一指標分析,分析用戶使用異網IP登陸運營商本網自有網站和訪問異網寬帶相關URL的特征,通過訪問次數、個數等所有變量初步單一識別,并統計識別的覆蓋率,初步篩選出符合分析的指標。根據單一指標的分析結果,選取覆蓋率較高的一個指標作為第一變量,逐步層層遞進組合多個變量分析篩選出最終的輸入指標,指標篩選過

程見圖4。

圖3 網關接觸維度類型

圖4 網關融合指標篩選過程

4.2 識別模型搭建

根據第一步獲取的手機流量特征維度模型規則,作用于待識別數據,識別出疑似辦理寬帶的號碼。分析這類用戶的使用異網IP登陸運營商自有網站和訪問異網寬帶相關URL的特征,通過訪問次數、個數等單一變量初步識別,統計識別的覆蓋率,并分別獲取這兩維度的判別規則。最終根據判別分析的組合規則的層層遞進分析用戶的行為特征,總結出符合異網寬帶用戶的登陸和使用手機流量的業務特征。

5 結束語

本文結合異網寬帶用戶識別的需求,針對多維度數據構建識別模型數據量級差異明顯的問題,設計了分維度策略構建識別模型的方案。最后,不同維度的模型建立給出了不同的設計思路,以及提取相關指標數據的方法,增加結果的準確性。并且在實際應用中,允許業務人員配置模型的相關參數,如白天時段、忙時時段等。通過本文的工作,希望滿足運營商多維度方式構建異網寬帶識別模型的需求,提高模型準確率。

[1]周穎,呂巍,井淼等.基于數據挖掘技術的移動通信行業客戶細分[J].上海交通大學學報,2007,41(7):1142-1145.

[2]Jiawei Han,Micheline Kamber.數據挖掘概念與技術范明[M].孟小峰,等譯.北京:機械工業出版社,2012.

[3]賈金柱.數據挖掘、因果推斷和變量選擇的方法和理論[D].北京大學,2008.

Afractional dimension strategy for user identification of different broadband

WANGBingying,WANGJing

Currently,some operators already adopt a method for user identification of different broadband.The method is a single dimensional analysis,that is,analysis the behavior of other IP landing operator’sown web sites.But the identification correct rate and user coverage rate is low.Adopting multi-dimensional analysis method formulates the model could improve its accuracy and efficiency.However,different dimensional data gap obvious.If forced to establish the model,it might cause many vacant data.Aiming at these problems,this paper designed a fractional dimension strategy plan and the practice shows its effectiveness.

fractional dimension strategy;different broadband;model

2016-10-25)

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 日本成人精品视频| 成人福利一区二区视频在线| 国产精品主播| 欧美日韩高清在线| 日韩av电影一区二区三区四区| 国产在线一区视频| 国产成人精品在线1区| 亚洲精品国偷自产在线91正片| 欧美中出一区二区| 久久国产av麻豆| 日本国产在线| 久久人体视频| 亚洲欧美天堂网| 国产精品无码作爱| 亚洲天堂成人| 欧美成人国产| 日韩精品无码免费专网站| 天天干伊人| 另类欧美日韩| 亚洲va视频| jizz亚洲高清在线观看| 亚洲综合经典在线一区二区| 亚洲系列无码专区偷窥无码| 日韩福利在线视频| 亚洲浓毛av| 粉嫩国产白浆在线观看| 综合色亚洲| 成人无码区免费视频网站蜜臀| 国产精品思思热在线| 99热精品久久| 无码精品福利一区二区三区| 精品在线免费播放| 一级福利视频| 欧亚日韩Av| 91久久青青草原精品国产| 国内精品免费| 亚洲丝袜第一页| 国产福利一区视频| 亚洲性网站| 啪啪国产视频| 色香蕉影院| 在线精品自拍| 国产乱子伦精品视频| 91麻豆精品国产高清在线| 免费一看一级毛片| 亚洲男人的天堂网| 亚洲妓女综合网995久久| 国产丝袜丝视频在线观看| 亚洲国产日韩在线观看| 亚洲成a人在线播放www| 国产欧美日韩免费| 成人免费午间影院在线观看| 亚洲中久无码永久在线观看软件 | 在线无码九区| 成人福利在线看| 偷拍久久网| 国产精女同一区二区三区久| 国产在线八区| 中文字幕不卡免费高清视频| 538国产视频| 精品久久久久成人码免费动漫| 国产在线观看91精品亚瑟| 91国语视频| 婷婷亚洲天堂| 亚洲乱码在线播放| 中国国产A一级毛片| 在线日韩日本国产亚洲| 久久一日本道色综合久久| 亚洲AV色香蕉一区二区| 国产美女丝袜高潮| 国产欧美中文字幕| 九九热精品在线视频| 亚洲精品无码不卡在线播放| 野花国产精品入口| 天堂成人在线| 中文字幕啪啪| 刘亦菲一区二区在线观看| 久久大香伊蕉在人线观看热2| 国产地址二永久伊甸园| 高h视频在线| 欧美在线观看不卡| 国产经典在线观看一区|