999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的IPTV精準(zhǔn)營(yíng)銷(xiāo)方案研究與應(yīng)用

2016-02-08 03:56:20于洪涌聞劍峰蔡鑫邱晨旭
電信科學(xué) 2016年12期
關(guān)鍵詞:用戶(hù)分析模型

于洪涌,聞劍峰,蔡鑫,邱晨旭

(中國(guó)電信股份有限公司上海研究院,上海 200122)

基于大數(shù)據(jù)的IPTV精準(zhǔn)營(yíng)銷(xiāo)方案研究與應(yīng)用

于洪涌,聞劍峰,蔡鑫,邱晨旭

(中國(guó)電信股份有限公司上海研究院,上海 200122)

分析了大數(shù)據(jù)技術(shù)在IPTV精準(zhǔn)營(yíng)銷(xiāo)中的應(yīng)用,因地制宜地制定了“Hadoop大數(shù)據(jù)平臺(tái)+爬蟲(chóng)技術(shù)+建模工具”的框架方案,并對(duì)方案中的關(guān)鍵點(diǎn)和整個(gè)數(shù)據(jù)分析建模過(guò)程在現(xiàn)網(wǎng)中的應(yīng)用進(jìn)行了深入分析。在IPTV精準(zhǔn)營(yíng)銷(xiāo)中取得了較好的效果,具有較高的應(yīng)用價(jià)值。

大數(shù)據(jù)技術(shù);數(shù)據(jù)建模;IPTV;精準(zhǔn)營(yíng)銷(xiāo)

1 引言

隨著2015年國(guó)務(wù)院“65號(hào)文”全面開(kāi)放運(yùn)營(yíng)商進(jìn)入IPTV領(lǐng)域和運(yùn)營(yíng)商網(wǎng)絡(luò)升級(jí),IPTV迎來(lái)一個(gè)發(fā)展良機(jī)。來(lái)自流媒體網(wǎng)的數(shù)據(jù),2016年1-6月,IPTV用戶(hù)凈增1 991.7萬(wàn)戶(hù),總數(shù)達(dá)到6 581.2萬(wàn)戶(hù)。然而,在運(yùn)營(yíng)商業(yè)務(wù)體系中,IPTV主要起到寬帶業(yè)務(wù)填充和增加用戶(hù)黏性的作用,直接收入貢獻(xiàn)不突出。IPTV互聯(lián)網(wǎng)特性提供了點(diǎn)播等不同于傳統(tǒng)電視的業(yè)務(wù)模式,為IPTV業(yè)務(wù)增收另辟蹊徑。同時(shí),隨著視頻業(yè)務(wù)在網(wǎng)絡(luò)流量中比重日益增加以及政策放開(kāi)帶來(lái)的競(jìng)爭(zhēng),發(fā)展新用戶(hù)也是IPTV業(yè)務(wù)當(dāng)前的發(fā)展重點(diǎn)。

在當(dāng)前IPTV業(yè)務(wù)營(yíng)銷(xiāo)中,最大問(wèn)題是準(zhǔn)確定位 “向誰(shuí)”營(yíng)銷(xiāo)“什么業(yè)務(wù)”,傳統(tǒng)方式指向性不夠,導(dǎo)致?tīng)I(yíng)銷(xiāo)效率低下,且容易引起用戶(hù)反感。另一方面,電信運(yùn)營(yíng)商擁有豐富的用戶(hù)數(shù)據(jù),從數(shù)據(jù)中掘金,是當(dāng)前大勢(shì)所趨。現(xiàn)在數(shù)據(jù)具有體量大、類(lèi)型多樣、速度快、價(jià)值密度低4個(gè)特征,為適應(yīng)新形式下的數(shù)據(jù)挖掘,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。

2 需求分析

在IPTV業(yè)務(wù)實(shí)際運(yùn)營(yíng)中,發(fā)現(xiàn)存在以下問(wèn)題。

(1)訂購(gòu)用戶(hù)少

以某運(yùn)營(yíng)商省公司2016年5月數(shù)據(jù)為例,增值業(yè)務(wù)用戶(hù)數(shù)僅占全部IPTV用戶(hù)數(shù)的10%左右,增值業(yè)務(wù)收入占IPTV業(yè)務(wù)收入的1/4。

(2)基于用戶(hù)惰性行為的分析

增值業(yè)務(wù)訂購(gòu)有點(diǎn)播、包月、包年等不同時(shí)效的產(chǎn)品包,從用戶(hù)行為看,少有用戶(hù)不停點(diǎn)播不同內(nèi)容的,應(yīng)該更多地發(fā)展包年用戶(hù)。

(3)不同內(nèi)容產(chǎn)品包的用戶(hù)差距明顯

以某運(yùn)營(yíng)商省公司的數(shù)據(jù)為例,訂購(gòu)最多的“影院高清包年”用戶(hù)是“英超高清包年”的上百倍。

(4)高清拉動(dòng)

隨著高清電視的普及和帶寬的提升,用戶(hù)對(duì)高清視頻需求增長(zhǎng)明顯。

(5)積分訂購(gòu)和賬單訂購(gòu)用戶(hù)退訂行為差距大

積分訂購(gòu)用戶(hù)在業(yè)務(wù)到期后退訂明顯,賬單訂購(gòu)用戶(hù)退訂相對(duì)平緩。

針對(duì)以上分析,發(fā)展增值業(yè)務(wù)用戶(hù)需要考慮:用戶(hù)的視頻需求,包括觀看時(shí)間、內(nèi)容、是否高清敏感等;用戶(hù)的支付習(xí)慣,包括消費(fèi)敏感度、積分支付行為等。對(duì)于發(fā)展新用戶(hù),首先在寬帶用戶(hù)中發(fā)展,由于目標(biāo)用戶(hù)還沒(méi)有使用IPTV,應(yīng)基于運(yùn)營(yíng)商O(píng)DS(operating data store,運(yùn)營(yíng)數(shù)據(jù)倉(cāng)儲(chǔ))數(shù)據(jù)和網(wǎng)絡(luò)DPI(deep packet inspection,深度分組檢測(cè))數(shù)據(jù)對(duì)用戶(hù)進(jìn)行分析,向有視頻傾向的寬帶用戶(hù)推薦IPTV業(yè)務(wù),同時(shí)推薦用戶(hù)感興趣的增值業(yè)務(wù)。

3 方案框架

3.1 基于Hadoop大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)匯聚

本文方案用到的數(shù)據(jù)比較復(fù)雜:數(shù)據(jù)體量大,僅IPTV業(yè)務(wù)數(shù)據(jù)就包括十幾個(gè)表,每天大于5 GB的裸數(shù)據(jù)(某運(yùn)營(yíng)商省公司IPTV業(yè)務(wù)數(shù)據(jù)),而DPI數(shù)據(jù)更是體量大、價(jià)值密度低;數(shù)據(jù)類(lèi)型多,包括ODS傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)、IPTV日志類(lèi)業(yè)務(wù)數(shù)據(jù)、DPI數(shù)據(jù)和網(wǎng)上爬取的數(shù)據(jù)等;不同類(lèi)型和來(lái)源的數(shù)據(jù)需要進(jìn)行用戶(hù)和格式的統(tǒng)一;涉及的數(shù)據(jù)大多來(lái)自現(xiàn)網(wǎng)數(shù)據(jù),包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶(hù)套餐信息等,為避免影響現(xiàn)網(wǎng)業(yè)務(wù),有必要新建數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)保存處理。

采用Hadoop技術(shù)搭建大數(shù)據(jù)平臺(tái),集群規(guī)模為 “2+ 16+1”(名稱(chēng)節(jié)點(diǎn)+數(shù)據(jù)節(jié)點(diǎn)+接口機(jī)),50 TB存儲(chǔ)空間(能滿(mǎn)足同時(shí)開(kāi)展3個(gè)省公司的IPTV大數(shù)據(jù)分析的數(shù)據(jù)存儲(chǔ)),部署了 Sqoop、Flume等數(shù)據(jù)同步工具,Big、Hive、Impala、Spark等數(shù)據(jù)查詢(xún)分析工具。

3.2 基于CRISP-DM的數(shù)據(jù)挖掘流程

CRISP-DM (cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述,在數(shù)據(jù)挖掘中被廣泛采用。其流程如圖1所示。

CRISP-DM模型流程包括圖1中的6個(gè)步驟[1],說(shuō)明如下。

圖1 CRISP-DM模型處理流程示意

(1)商業(yè)問(wèn)題定義

主要從項(xiàng)目目標(biāo)和業(yè)務(wù)角度理解需求,并制定初步計(jì)劃;為發(fā)展IPTV增值業(yè)務(wù)和IPTV新用戶(hù)提供數(shù)據(jù)挖掘服務(wù),精準(zhǔn)定位需求用戶(hù),其中發(fā)展IPTV增值業(yè)務(wù)包括發(fā)展增值業(yè)務(wù)新用戶(hù)、增值業(yè)務(wù)升級(jí)(點(diǎn)播/包月轉(zhuǎn)包年)、業(yè)務(wù)升級(jí)(標(biāo)清轉(zhuǎn)高清/4K(即4K分辨率,ultra HD標(biāo)準(zhǔn)),寬帶升級(jí))等;發(fā)展新用戶(hù)主要在寬帶用戶(hù)中發(fā)展IPTV用戶(hù)。

(2)數(shù)據(jù)理解

從數(shù)據(jù)收集開(kāi)始進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部屬性;需要的數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶(hù)電信畫(huà)像數(shù)據(jù)(用戶(hù)套餐信息、家庭成員結(jié)構(gòu)、支付習(xí)慣等)、用戶(hù)視頻畫(huà)像數(shù)據(jù)等。

(3)數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備階段包括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動(dòng)。基于業(yè)務(wù)目標(biāo),對(duì)匯集的數(shù)據(jù)進(jìn)行分析,縮小數(shù)據(jù)范圍,并對(duì)不同來(lái)源數(shù)據(jù)進(jìn)行對(duì)接統(tǒng)一;Hive提供的Hive SQL非常適合熟悉SQL語(yǔ)言的人使用,本項(xiàng)目使用Hive的UDF(user defined function,用戶(hù)定義函數(shù))進(jìn)行數(shù)據(jù)提取,為數(shù)據(jù)建模提供寬表數(shù)據(jù)。

(4)建模

對(duì)數(shù)據(jù)進(jìn)行建模分析;建模可以使用R語(yǔ)言、Python言語(yǔ)、Mahout編程實(shí)現(xiàn),但對(duì)實(shí)現(xiàn)者要求高,實(shí)現(xiàn)周期長(zhǎng),管理復(fù)雜;數(shù)據(jù)探索結(jié)果顯示,經(jīng)過(guò)數(shù)據(jù)分析提取,最終用于數(shù)據(jù)挖掘的數(shù)據(jù)量并不多(以某運(yùn)營(yíng)商省公司的“包月轉(zhuǎn)包年”模型為例,經(jīng)過(guò)分析后獲取的寬表數(shù)據(jù)每個(gè)月數(shù)據(jù)量在50~70 MB),這非常適合使用成熟的建模工具進(jìn)行處理,本文采用支持CRISP-DM模型的現(xiàn)成建模工具。

(5)評(píng)估

檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo);對(duì)建模的算法、效果進(jìn)行分析比較,并基于測(cè)試分區(qū)進(jìn)行檢查。

(6)部署

將模型獲得的知識(shí)進(jìn)行應(yīng)用;模型導(dǎo)出營(yíng)銷(xiāo)用戶(hù)清單及對(duì)應(yīng)的推薦業(yè)務(wù),營(yíng)銷(xiāo)部門(mén)根據(jù)該清單進(jìn)行營(yíng)銷(xiāo),并反饋營(yíng)銷(xiāo)效果。

3.3 總體框架方案

基于上述分析,框架方案可如圖2所示,“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”基于Hadoop技術(shù)搭建,匯聚了數(shù)據(jù)分析所需的數(shù)據(jù),同時(shí)部署了爬蟲(chóng)程序用于爬取視頻相關(guān)數(shù)據(jù),構(gòu)建用戶(hù)視頻畫(huà)像(詳見(jiàn)第4.2節(jié)),還有數(shù)據(jù)的預(yù)處理分析也在“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”上進(jìn)行,經(jīng)過(guò)處理向建模工具輸出寬表數(shù)據(jù);建模工具實(shí)現(xiàn)數(shù)據(jù)的建模分析,向營(yíng)銷(xiāo)部門(mén)輸出營(yíng)銷(xiāo)用戶(hù)清單。營(yíng)銷(xiāo)由專(zhuān)門(mén)的營(yíng)銷(xiāo)部門(mén)實(shí)現(xiàn),是方案成果的使用部門(mén)和價(jià)值體現(xiàn),同時(shí)還需要根據(jù)營(yíng)銷(xiāo)結(jié)果進(jìn)行數(shù)據(jù)分析和建模的調(diào)整。

4 數(shù)據(jù)匯聚和預(yù)處理

4.1 運(yùn)營(yíng)商數(shù)據(jù)匯聚

本文用到的運(yùn)營(yíng)商數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶(hù)套餐信息、家庭標(biāo)簽、支付標(biāo)簽、ODS數(shù)據(jù)、DPI數(shù)據(jù)等,處理的方式各不相同:IPTV業(yè)務(wù)數(shù)據(jù)目前沒(méi)有匯聚到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái),需要與IPTV業(yè)務(wù)平臺(tái)對(duì)接,定期采集數(shù)據(jù)到“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”;用戶(hù)套餐信息、家庭標(biāo)簽、支付標(biāo)簽等數(shù)據(jù)從運(yùn)營(yíng)商O(píng)DS系統(tǒng)中查詢(xún)獲取,將結(jié)果保存到“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”;DPI數(shù)據(jù)已經(jīng)保存到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái),利用其租戶(hù)空間進(jìn)行數(shù)據(jù)初步分析,獲取用戶(hù)視屏標(biāo)簽數(shù)據(jù),結(jié)果匯聚到“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”。

4.2 通過(guò)數(shù)據(jù)爬取構(gòu)建用戶(hù)視頻畫(huà)像

數(shù)據(jù)爬取需求主要包括:節(jié)目信息爬取和建立視頻標(biāo)簽的數(shù)據(jù)爬取。

IPTV業(yè)務(wù)平臺(tái)只有節(jié)目的名稱(chēng),沒(méi)有視頻節(jié)目標(biāo)簽數(shù)據(jù),如節(jié)目分類(lèi)、主演、地區(qū)等;需要通過(guò)爬蟲(chóng)爬取節(jié)目信息,為用戶(hù)IPTV播放記錄打上視頻標(biāo)簽。輸入輸出樣例如下:

輸入樣例:00000050000000010000000011024895|愛(ài)回家6_26

輸出樣例:00000050000000010000000011024895|愛(ài)回家6_26|標(biāo)題=愛(ài)·回家|年份=2012|分類(lèi)=電視劇|主演=劉丹/徐榮/黎諾懿/郭少蕓/朱慧敏/林漪娸|地區(qū)=香港|導(dǎo)演=徐遇安|類(lèi)型=劇情/搞笑/時(shí)裝/家庭|編劇=冼翠貞

對(duì)于沒(méi)有使用IPTV業(yè)務(wù)的寬帶用戶(hù),可通過(guò)其DPI數(shù)據(jù)獲取視頻觀看記錄,構(gòu)建其視頻畫(huà)像,雖然運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)已有包括視頻標(biāo)簽的完整標(biāo)簽體系,但指向性不夠,兼顧目標(biāo)和效率,本文選取樂(lè)視、優(yōu)酷、愛(ài)奇藝等幾個(gè)規(guī)模大、更接近電視屏的視頻網(wǎng)站,基于用戶(hù)對(duì)這些視頻網(wǎng)站的訪問(wèn)行為構(gòu)建用戶(hù)的視頻畫(huà)像,為此本文通過(guò)爬蟲(chóng)爬取了明星庫(kù)、節(jié)目庫(kù)、基于主要視頻網(wǎng)站的視頻分類(lèi)和標(biāo)簽信息,構(gòu)建了用于刻畫(huà)用戶(hù)畫(huà)像的視頻標(biāo)簽系統(tǒng)。

圖2 IPTV精準(zhǔn)營(yíng)銷(xiāo)框架方案流程

爬蟲(chóng)程序基于開(kāi)源項(xiàng)目Scrapy自主開(kāi)發(fā),并分布式部署在“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”,爬取的數(shù)據(jù)自動(dòng)保存到“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”。其中爬取的節(jié)目信息直接通過(guò)自主開(kāi)發(fā)的程序?yàn)橛脩?hù)IPTV觀看行為數(shù)據(jù)打視頻標(biāo)簽;爬取的明星庫(kù)、節(jié)目庫(kù)、視頻分類(lèi)信息構(gòu)建了用戶(hù)視頻標(biāo)簽系統(tǒng),并運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)租戶(hù)空間中對(duì)用戶(hù)DPI數(shù)據(jù)打視頻標(biāo)簽,并將最終打上視頻標(biāo)簽的數(shù)據(jù)匯聚到“IPTV精準(zhǔn)營(yíng)銷(xiāo)大數(shù)據(jù)平臺(tái)”。

4.3 數(shù)據(jù)預(yù)處理

預(yù)處理包括從用戶(hù)維度對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一處理,并根據(jù)業(yè)務(wù)邏輯進(jìn)行數(shù)據(jù)抽取,形成統(tǒng)一的寬表數(shù)據(jù),供建模分析。預(yù)處理體現(xiàn)了建模的人工智慧——需要確定數(shù)據(jù)抽取的范圍、粒度,體現(xiàn)了數(shù)據(jù)挖掘的業(yè)務(wù)邏輯,其成果將直接影響建模的有效性。具體包括:數(shù)據(jù)的統(tǒng)一,基于用戶(hù)寬帶賬號(hào)、IPTV賬號(hào)對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)進(jìn)行數(shù)據(jù)的統(tǒng)一;數(shù)據(jù)提取,根據(jù)業(yè)務(wù)分析確定業(yè)務(wù)處理邏輯,并從原始數(shù)據(jù)中提取、匯總、比較等,生成最終用于建模的數(shù)據(jù)。“匯聚的數(shù)據(jù)—數(shù)據(jù)分析—建模分析”間的關(guān)系就如同“經(jīng)初步處理的棉麻原料—布匹—成衣”的過(guò)程。

以IPTV包月轉(zhuǎn)包年模型為例,經(jīng)過(guò)數(shù)據(jù)分析后形成的寬表數(shù)據(jù)包括以下方面。

(1)用戶(hù)基礎(chǔ)信息

包括用戶(hù)寬帶套餐、積分?jǐn)?shù)據(jù)、IPTV業(yè)務(wù)狀態(tài)、IPTV機(jī)頂盒信息(廠商、型號(hào)、清晰度、數(shù)量等)等,這些信息基本上可以直接通過(guò)數(shù)據(jù)抽取得到。

(2)用戶(hù)IPTV增值業(yè)務(wù)使用信息

包括按不同支付方式匯總近3年訂購(gòu)金額、次數(shù),在訂產(chǎn)品包個(gè)數(shù)和總金額等;用戶(hù)在訂/退訂各年包/半年包匯總數(shù)據(jù);用戶(hù)在訂、退訂的最長(zhǎng)時(shí)間產(chǎn)品包信息;用戶(hù)點(diǎn)播的高清/非高清電影、電視劇等不同種類(lèi)節(jié)目匯總的次數(shù)、天數(shù)、時(shí)長(zhǎng)、節(jié)目數(shù)等;這些數(shù)據(jù)要從匯聚的數(shù)據(jù)經(jīng)過(guò)計(jì)算、匯總得到;用戶(hù)觀看直播節(jié)目匯總信息。

(3)用戶(hù)其他畫(huà)像信息

基于用戶(hù)住宅區(qū)域、套餐信息和賬單支付形成的用戶(hù)支付畫(huà)像,基于用戶(hù)工作日寬帶網(wǎng)絡(luò)、IPTV使用情況,家庭Wi-Fi使用、網(wǎng)站訪問(wèn)搜索和購(gòu)物信息等形成的家庭人口畫(huà)像,這些已有運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)生成,可直接抽取用戶(hù)標(biāo)簽數(shù)據(jù)使用。

還有的需要進(jìn)行額外的數(shù)據(jù)比較,如通過(guò)比較用戶(hù)IPTV清晰度和帶寬信息(加上用戶(hù)高清視頻標(biāo)簽),推薦用戶(hù)進(jìn)行帶寬升級(jí)、IPTV清晰度升級(jí)或兩者均升級(jí)等;這需求比較IPTV標(biāo)清/高清/4K需要的帶寬信息、用戶(hù)套餐的帶寬信息、用戶(hù)IPTV機(jī)頂盒清晰度信息,定義用戶(hù)帶寬和IPTV滿(mǎn)足度的新字段。

經(jīng)過(guò)預(yù)處理的數(shù)據(jù)優(yōu)化了數(shù)據(jù)結(jié)構(gòu),大大降低了數(shù)據(jù)量,更易于建模分析。提交給建模的數(shù)據(jù)包括觀察數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù),觀察數(shù)據(jù)用于建模,得到“實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶(hù)模型,然后用這些用戶(hù)模型對(duì)預(yù)測(cè)數(shù)據(jù)分析,得出“下月可能實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶(hù)清單。

5 建模分析

建模過(guò)程輸入寬表數(shù)據(jù),輸出營(yíng)銷(xiāo)月用戶(hù)清單。整個(gè)分析過(guò)程包括:根據(jù)觀察數(shù)據(jù)建立用戶(hù)模型;根據(jù)用戶(hù)模型對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行分析,得出下月?tīng)I(yíng)銷(xiāo)目標(biāo)用戶(hù),并根據(jù)用戶(hù)的視頻畫(huà)像進(jìn)行聚類(lèi),向用戶(hù)推薦合適的產(chǎn)品包。本部分以“包月轉(zhuǎn)包年”模型為例描述建模分析過(guò)程。

5.1 數(shù)據(jù)建模分析

具體的建模分析過(guò)程可分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模兩部分。

其中數(shù)據(jù)預(yù)處理主要是根據(jù)建模要求,對(duì)寬表數(shù)據(jù)做進(jìn)一步處理,使其更符合建模分析的需要,以“包月轉(zhuǎn)包年”模型為例,數(shù)據(jù)預(yù)處理包括以下方面。

(1)字段處理

將寬表數(shù)據(jù)根據(jù)建模要求進(jìn)行數(shù)據(jù)統(tǒng)計(jì)、新字段定義,如統(tǒng)計(jì)用戶(hù)產(chǎn)品月齡、在訂/退訂產(chǎn)品包信息,定義“次月是否新訂年包”等;基于營(yíng)銷(xiāo)時(shí)機(jī)的處理,如選擇最近訂購(gòu)或退訂過(guò)包月業(yè)務(wù)的用戶(hù)。

(2)區(qū)別不同訂購(gòu)方式

業(yè)務(wù)分析中,發(fā)現(xiàn)用戶(hù)賬單支付和積分支付行為差距明顯,在建模前將兩類(lèi)數(shù)據(jù)區(qū)別開(kāi),分別進(jìn)行建模。

(3)數(shù)據(jù)分區(qū)

建模中將數(shù)據(jù)按訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)進(jìn)行分區(qū)。

(4)數(shù)據(jù)平衡

整體用戶(hù)中訂購(gòu)用戶(hù)相對(duì)稀疏,以某月數(shù)據(jù)為例,訂購(gòu)用戶(hù)和未訂購(gòu)用戶(hù)之比接近1∶60,在建模前需要對(duì)訂購(gòu)用戶(hù)和未訂購(gòu)用戶(hù)進(jìn)行數(shù)據(jù)平衡。

數(shù)據(jù)建模主要是選擇合適的算法對(duì)數(shù)據(jù)進(jìn)行分析,并選擇最優(yōu)模型用于用戶(hù)預(yù)測(cè)。“包月轉(zhuǎn)包年”模型建模選擇了“自動(dòng)分類(lèi)器”中的C5、判別、CHAID、C&R樹(shù)、Quest等算法進(jìn)行建模,其中賬單支付的各算法建模結(jié)果比較如圖3所示,基于“總體精確性”指標(biāo)選擇最優(yōu)算法(賬單支付中選擇判別算法),用于后續(xù)進(jìn)行用戶(hù)預(yù)測(cè)的模型。

圖3 賬單支付下各算法建模結(jié)果比較

積分訂購(gòu)建模中總體成功率更高,以選擇的“C&R樹(shù)”算法為例,訓(xùn)練數(shù)據(jù)集結(jié)果為78.299%,測(cè)試數(shù)據(jù)集結(jié)果為84.206%,這與業(yè)務(wù)分析是一致的:對(duì)于積分支付用戶(hù)來(lái)說(shuō),只要用戶(hù)喜歡這些增值業(yè)務(wù)(有視頻觀看偏向),手里又有積分,那訂購(gòu)的成功率還是較高的;對(duì)于賬單支付用戶(hù)來(lái)說(shuō),用戶(hù)要真金白銀的出錢(qián)考慮的因素就多了,況且還有樂(lè)視、優(yōu)酷等其他互聯(lián)網(wǎng)品牌可以選擇。

5.2 導(dǎo)出營(yíng)銷(xiāo)用戶(hù)清單

導(dǎo)出營(yíng)銷(xiāo)用戶(hù)清單包括數(shù)據(jù)預(yù)處理、用戶(hù)預(yù)測(cè)和推薦產(chǎn)品包選擇。數(shù)據(jù)預(yù)處理包括字段處理、用戶(hù)剔除(最近半年已營(yíng)銷(xiāo)用戶(hù)等)和區(qū)分用戶(hù)支付方式等。

數(shù)據(jù)預(yù)處理后,使用第5.1節(jié)中選定的數(shù)據(jù)模型分別對(duì)賬單支付用戶(hù)和積分用戶(hù)進(jìn)行預(yù)測(cè),得到下個(gè)月“根據(jù)模型可能訂購(gòu)業(yè)務(wù)”的用戶(hù),并設(shè)置置信度閾值,選取營(yíng)銷(xiāo)目標(biāo)用戶(hù)。

最終提交的營(yíng)銷(xiāo)清單還包括向用戶(hù)推薦的產(chǎn)品包,嚴(yán)格意義上應(yīng)該分析用戶(hù)的視頻觀看行為得到用戶(hù)的視頻畫(huà)像,向用戶(hù)推薦“用戶(hù)最感興趣”的節(jié)目,實(shí)際營(yíng)銷(xiāo)中營(yíng)銷(xiāo)的產(chǎn)品包往往是有限的——根據(jù)自身資源和統(tǒng)計(jì)“最熱門(mén)”的產(chǎn)品來(lái)確定。本次營(yíng)銷(xiāo)根據(jù)IPTV平臺(tái)的節(jié)目資源和以往用戶(hù)訂購(gòu)統(tǒng)計(jì)信息,確定了包括“影院高清年包”“熱劇年付”“全能看包年”“紀(jì)實(shí)高清半年包”“動(dòng)漫高清半年包”等在內(nèi)的十幾個(gè)產(chǎn)品包,內(nèi)容集中在電影、電視劇、動(dòng)漫、紀(jì)實(shí)上。

為此,采用k-means聚類(lèi)算法,對(duì)用戶(hù)視頻觀看行為進(jìn)行聚類(lèi),并根據(jù)營(yíng)銷(xiāo)的產(chǎn)品包顯示高清電影觀看時(shí)長(zhǎng)(vod_hd_mov_dur)、標(biāo)清電影觀看時(shí)長(zhǎng)(vod_non_hd_mov_ dur)、高清電視劇觀看時(shí)長(zhǎng)(vod_hd_tvp_dur)、標(biāo)清電視劇觀看時(shí)長(zhǎng) (vod_non_hd_tvp_dur)、高清紀(jì)實(shí)觀看時(shí)長(zhǎng)(vod_hd_doc_dur)、高清動(dòng)漫觀看時(shí)長(zhǎng)(vod_hd_ct_dur)在聚類(lèi)中的分布,結(jié)果如圖4所示,其中圖4(a)是按“總體重要性排序”的絕對(duì)分布,從中可看出對(duì)總體重要性而言,動(dòng)漫、紀(jì)實(shí)排在前兩位,這可以解釋大多用戶(hù)對(duì)電影、電視劇偏向的普遍性;圖4(b)是“聚類(lèi)內(nèi)重要性”的相對(duì)分布,基于圖4向用戶(hù)推薦產(chǎn)品包(其中聚類(lèi)2只有兩個(gè)值作為離群值概率),見(jiàn)表1。

圖4 對(duì)用戶(hù)觀看內(nèi)容的聚類(lèi)結(jié)果

表1 向不同聚類(lèi)用戶(hù)推薦不同產(chǎn)品包

5.3 模型評(píng)估優(yōu)化

模型的評(píng)估優(yōu)化包括部署前模型本身的評(píng)估和部署后根據(jù)營(yíng)銷(xiāo)反饋的優(yōu)化。

模型本身的評(píng)估包括:算法和測(cè)試分區(qū)的驗(yàn)證、平衡因子的調(diào)整、字段的調(diào)整等。首先,通過(guò)選擇不同的算法得出不同的算法模型,結(jié)合測(cè)試分區(qū)的驗(yàn)證,選擇最優(yōu)算法或算法組合;本例中通過(guò)選擇“自動(dòng)分類(lèi)器”中不同算法,并結(jié)合測(cè)試分區(qū)的驗(yàn)證確定最優(yōu)模型。然后通過(guò)調(diào)整平衡因子調(diào)整目標(biāo)用戶(hù)在整體數(shù)據(jù)中的比例,多次運(yùn)行模型,確定平衡因子的最優(yōu)范圍。還有結(jié)合建模結(jié)果中各字段的重要性進(jìn)行字段微調(diào)。

同時(shí)模型還要根據(jù)營(yíng)銷(xiāo)反饋的數(shù)據(jù)進(jìn)行優(yōu)化,可以結(jié)合建模將用戶(hù)隨機(jī)分成幾組,調(diào)整算法、置信度、字段等,結(jié)合不同的營(yíng)銷(xiāo)效果進(jìn)行模型的調(diào)優(yōu),這部分工作還在進(jìn)行中。

總之,數(shù)據(jù)挖掘中建立數(shù)據(jù)模型不是分析的結(jié)束,而是又一輪分析的開(kāi)始,要經(jīng)過(guò)各種手段的調(diào)整優(yōu)化,不斷提升數(shù)據(jù)挖掘的效果。

6 結(jié)束語(yǔ)

本次分析主要配合某運(yùn)營(yíng)商省公司的電銷(xiāo)進(jìn)行,從效果來(lái)看,營(yíng)銷(xiāo)成功率比原先提升將近一倍,效果最好的“包月轉(zhuǎn)包年”營(yíng)銷(xiāo)成功率由原來(lái)的不到5%提升到12%,應(yīng)該說(shuō)取得了比較好的效果。

當(dāng)然數(shù)據(jù)挖掘在營(yíng)銷(xiāo)過(guò)程中主要還是幕后的“軍師”,本文主要通過(guò)數(shù)據(jù)建模得出下月有可能成為“IPTV用戶(hù)”或“訂購(gòu)增值業(yè)務(wù)的用戶(hù)”。而實(shí)際營(yíng)銷(xiāo)主要是向用戶(hù)提供滿(mǎn)足用戶(hù)需求的、性?xún)r(jià)比可接受的產(chǎn)品,大數(shù)據(jù)分析在IPTV用戶(hù)需求分析、產(chǎn)品提供等其他方面也可以發(fā)揮幕后軍師的作用,全方位提升IPTV的營(yíng)銷(xiāo)效果。同時(shí),大數(shù)據(jù)分析也可以擴(kuò)大到其他更廣的領(lǐng)域,就運(yùn)營(yíng)商內(nèi)部而言,在終端換機(jī)、3G升4G、交叉營(yíng)銷(xiāo)等方面,已經(jīng)利用大數(shù)據(jù)分析技術(shù)來(lái)有的放矢提高營(yíng)銷(xiāo)成功率。可以說(shuō),大數(shù)據(jù)技術(shù)在電信行業(yè)已經(jīng)也將發(fā)揮更大的作用。

[1]CRISP-DM方法論[EB/OL].[2016-11-04].http://wiki.mbalib. com/wiki/CRISP-DM方法論.

于洪涌(1976-),男,中國(guó)電信股份有限公司上海研究院數(shù)據(jù)分析師,主要從事IPTV數(shù)據(jù)分析、智慧家庭數(shù)據(jù)分析等方面工作。

聞劍峰(1977-),男,中國(guó)電信股份有限公司上海研究院大數(shù)據(jù)智慧運(yùn)營(yíng)研發(fā)(高級(jí))工程師,主要從事大數(shù)據(jù)基礎(chǔ)架構(gòu)研發(fā)工作。

蔡鑫(1975-),男,中國(guó)電信股份有限公司上海研究院高級(jí)工程師,主要研究方向?yàn)閿?shù)據(jù)規(guī)劃、數(shù)據(jù)分析、數(shù)據(jù)標(biāo)準(zhǔn)。

邱晨旭(1973-),男,中國(guó)電信股份有限公司上海研究院高級(jí)工程師,主要從事電信數(shù)據(jù)規(guī)劃、項(xiàng)目管理等工作。

Research and application of IPTV precision marketing based on big data

YU Hongyong,WEN Jianfeng,CAI Xin,QIU Chenxu
Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China

The big data technology in IPTV precision marketing was analyzed.According to local conditions,the framework solution of“Hadoop big data platform+Web crawler+modeling tool”was developed.The key points of the solution and the whole data modeling process were analyzed.Good results were achieved in IPTV precision marketing,and higher application value was gained.

big data technology,data modeling,IPTV,precision marketing

F274

A

10.11959/j.issn.1000-0801.2016316

2016-11-08;

2016-12-13

猜你喜歡
用戶(hù)分析模型
一半模型
隱蔽失效適航要求符合性驗(yàn)證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
關(guān)注用戶(hù)
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
3D打印中的模型分割與打包
關(guān)注用戶(hù)
關(guān)注用戶(hù)
主站蜘蛛池模板: 99热国产这里只有精品无卡顿"| 女人18毛片久久| 日韩毛片在线播放| 国产一级片网址| 久久夜色撩人精品国产| 成人午夜精品一级毛片| 午夜爽爽视频| 久草视频一区| 亚洲精品无码久久毛片波多野吉| 免费可以看的无遮挡av无码 | 久久99这里精品8国产| 国产成人福利在线| 国产美女人喷水在线观看| 自拍中文字幕| 亚洲色图欧美| 国产成人久久777777| 日韩毛片视频| 无码中字出轨中文人妻中文中| jizz在线观看| 免费A∨中文乱码专区| 亚洲一区二区三区香蕉| 国产白浆视频| 亚洲综合二区| 国产欧美中文字幕| 亚洲精品手机在线| 精品无码国产自产野外拍在线| 无遮挡国产高潮视频免费观看| 中文字幕人成人乱码亚洲电影| 456亚洲人成高清在线| 中文字幕永久视频| 99精品一区二区免费视频| 国产午夜福利亚洲第一| 91网红精品在线观看| 亚洲一区第一页| 国产白浆在线观看| 日韩欧美色综合| 99久久国产综合精品2023 | 自拍偷拍欧美日韩| 综合久久五月天| 98超碰在线观看| 谁有在线观看日韩亚洲最新视频| 国产高清免费午夜在线视频| 欧美日本激情| 亚洲成人免费在线| 亚洲精品免费网站| 日本高清免费一本在线观看 | 99热这里只有成人精品国产| 伊人激情综合| 国产精品七七在线播放| 一级毛片在线免费看| av无码一区二区三区在线| 亚洲a免费| 欧美视频在线观看第一页| 亚洲成人手机在线| 精品久久久久成人码免费动漫| A级全黄试看30分钟小视频| 国产精品太粉嫩高中在线观看| 欧美国产日韩在线| 中文字幕亚洲电影| 精品亚洲国产成人AV| 女人18毛片一级毛片在线| 野花国产精品入口| 国产日韩精品欧美一区灰| 幺女国产一级毛片| 无码一区二区波多野结衣播放搜索| 久久国产精品麻豆系列| 亚洲成人在线免费| 一级毛片免费不卡在线视频| 91黄视频在线观看| 97国产在线视频| 国产白浆在线观看| 国产精品自在拍首页视频8| 亚洲黄色视频在线观看一区| 在线国产毛片| 欧美成人看片一区二区三区| 国产啪在线91| 国产18页| 国产九九精品视频| 亚洲天堂网2014| 亚洲成人精品| a色毛片免费视频| 国产精品亚洲日韩AⅤ在线观看|