賈利娟,張耀民
(陜西工商職業學院 陜西 西安 710119)
據IDC預測,未來5年全球數據量將達到35ZB,電信運營商是這些數據的傳送者,處于數據交換的中心,具有天然的優勢[1]。同時移動通信運營商積累了全網用戶的基本信息、位置信息、上網信息等數據資源,而這些數據來源于通信網絡系統以及傳統的運營支撐系統[2],電信運營商的系統本質是為用戶與用戶、設備與設備、用戶與設備之間提供通信信道,該系統每天承載著海量信息,是互聯網大數據的源頭[3]。并且Informa Telecoms&Media公司對全球移動通信運營商進行了抽樣調查,結果顯示48%的運營商已經開始實施大數據業務[4]。所以在大數據背景下移動運營商的業務已由語音業務向數據業務轉型,即時通信、支付、多媒體內容等數據業務的產品被相繼推出,而這些數據業務中最重要的產品類型要屬閱讀、音樂、視頻、動漫等內容型的產品。如何利用好移動運營商特有的全網用戶的大數據資源為內容性產品運營提供支撐是一個非常重要的并且急需解決的問題,因此基于運營商的大數據資源設計一個內容型產品的運營系統實現內容產品的營銷、個性化推薦、產品指標的監控等功能就成為比較迫切的工作了。
運營商內容產品運營系統包括指標監控子系統、產品推薦子系統、內容個性化推薦子系統。指標監控子系統實現產品運營指標監控的功能,為產品經理與運營人員提供產品相關指標的運營報表。產品推薦子系統對現有的用戶行為進行數據挖掘分析,通過分析得出現有用戶的特征,然后通過特征去全網查詢符合特定特征的目標用戶,最后通過接觸渠道面向用戶進行產品營銷,發展更多的用戶。內容個性化推薦子系統,根據用戶的偏好以及內容關聯關系為用戶推薦個性化的內容,促進用戶的活躍度。與內容產品運營系統交互的外圍系統包括:CRM(客戶關系管理系統)、BI(商業智能系統)、門戶網站、掌上營業廳客戶端、短信網關、內容產品業務平臺、內容產品客戶端等。其中CRM、BI是整個內容產品運營系統的全網數據的來源,為系統提供全網用戶的數據,包括實時數據和歷史數據。門戶網站、掌上營業廳客戶端、短信網關是觸及目標用戶的渠道,內容產品業務平臺、內容產品客戶端的主要功能是給客戶展示相關的內容。
大數據存儲、大數據分析、大數據管理是一個大數據系統面臨的三個問題[5],本系統的核心是數據分析處理,我們使用Hadoop技術在數據預處理階段和數據挖掘階段都需要對海量的數據進行存儲與計算,通過MapReduce模型把任務分配到分布式的計算機集群中,這樣既降低了成本又提供了可伸縮性, 在模型的下層使用“可插拔”的HDFS的分布式文件系統。對于產品推薦子系統、內容個性化推薦子系統因為在規則挖掘的過程中對于查詢時常要求不高,使用Hadoop架構技術是可以解決系統的需求,如果對挖掘周期和規則識別周期都要求比較短的時候就要考慮使用Spark技術。Spark技術同樣可以實現Hadoop的基于MapReduce模型的并行計算,并且任務運行中間產生的結果都保存在內存中,不需要讀寫HDFS,這樣節省了時間提高了速度,所以Spark更適合用于數據挖掘與機器學習等需要迭代的MapReduce的算法。
內容個性化推薦系統是內容產品平臺的一部分,內容個性化推薦子系統包括的主要功能模塊有:數據接入與預處理模塊、偏好分析模塊、雙層關聯規則數據挖掘模塊、內容推薦模塊、渠道管理模塊。
數據接入模塊的數據來自于BI系統的Gn口DPI解析數據以及來自于內容型產品平臺的用戶內容訪問歷史數據。DPI解析系統通過分光器從Gn口復制出一份數據,然后通過深度包解析獲取用戶與服務器交互的數據包中的有用信息[6]。DPI解析后得到用戶DPI數據表字段包括:用戶手機號碼、訪問內容名稱、訪問內容類型、次數、流量、活躍天數等。然后對數據進行解析,解析結果就是用戶訪問某個網站或者使用某個APP的行為數據,主要包括用戶標識、訪問目標名稱、類型標簽、訪問次數、流量等字段。偏好分析模塊是內容個性化推薦系統的核心,此系統是基于用戶偏好分析為用戶提供個性化內容,促進用戶的活躍度。所謂用戶的偏好就是指用戶相對來說更喜歡哪個類型的內容。在DPI數據表中記錄了用戶上網訪問內容行為的信息,我們基于DPI數據表從訪問次數、訪問流量、活躍天數三個維度計算用戶的偏好分析。偏好分析中我們使用的數據是DPI解析系統通過分光器從Gn口復制出一份數據,除此以外通信網絡中的數據在產品運營平臺中也收集了用戶對內容的訪問日志,這些數據我們作為雙層關聯規則的數據挖掘輸入,使用雙層關聯規則數據挖掘獲取內容關聯關系。
內容推薦模塊是按照內容匹配規則對用戶偏好和內容資源進行匹配,為每個具有偏好的用戶匹配相應的內容資源。因為內容資源是一個動態變化的,所以匹配過程是一個事實調用的過程。在內容個性化推薦子系統中,系統的數據來自于CRM、BI、內容產品業務平臺等系統,推薦的結果通過內容產品客戶端、門戶網站、短信網關、掌上營業廳客戶端等渠道送達到用戶。
產品推薦子系統包括的主要功能模塊有:數據接入與預處理模塊、目標特征與序列關聯規則數據挖掘模塊、產品推薦列表計算算法模塊、規則管理模塊、渠道管理模塊。該系統充分使用了運營商積累的大數據資源,結合兩步聚類特征分析與用戶訂購行為時序關聯預測分析,對現有的用戶進行數據挖掘分析,分析出現有用戶的特征,然后通過特征去全網查詢符合特征的目標用戶,通過接觸渠道面向用戶進行產品營銷,發展更多的用戶。
數據接入與預處理模塊從外圍系統中接入數據并處理成數據挖掘程序與其他模塊所需的格式。目標特征與序列關聯數據挖掘模塊使用兩步聚類特征分析和序列關聯規則數據挖掘算法得到產品存量用戶的特征規則及序列關聯規則,從而可以使用這些特征規則在全網中找到潛在用戶,序列關聯用戶行為預測分析基于產品關聯規則預測用戶訂購行為。產品推薦列表計算算法模塊依據規則庫中的特征規則及序列關聯規則根據算法計算出推薦列表,它為每個用戶計算出推薦列表。規則管理模塊存儲并管理由數據挖掘模塊產生的規則。產品推薦子系統結合了產品角度的特征分析與用戶角度的訂購行為預測為用戶推薦合適的產品,提高了產品運營效率以及產品推薦的效果。在此系統中CRM、BI、內容產品業務平臺是推薦系統的數據來源,其中CRM系統中存放用戶的基本信息,BI中收集了用戶上網行為和位置數據,業務平臺中收集了用戶在內容型產品上使用的行為數據。掌上營業廳客戶端、門戶網站、短信網關是接觸客戶的渠道,推薦信息通過這些渠道、媒介接觸到客戶。當用戶通過這些渠道訪問的時候,在相應的渠道上就給客戶展示產品的推薦信息。
指標監控子系統監控業務各項指標,主要包括常規指標監控模塊、用戶畫像模塊、用戶選擇模塊。常規指標監控是對內容型產品的用戶發展以及用戶行為的各項常規指標進行監控。用戶畫像模塊主要是對特定的用戶群體進行畫像分析,例如活躍用戶、沉默用戶等。用戶選擇模塊根據用戶畫像特征在全網范圍內圈定符合特征的用戶、可以對這些用戶進行相應的預測。常規指標監控子系統所監控的報表是由查詢維度體系與指標體系兩部分組成。查詢維度體系是指進行查詢時可以選擇的條件字段,這里設計的查詢維度字段包括時間(日、周、月、自定義)、操作系統、用戶品牌等維度。指標體系主要包括用戶發展與用戶行為兩個方面。用戶發展指標包括總用戶數、新增用戶數等等。用戶行為指標包括啟動次數、啟動時間、登錄次數、登錄時間、模塊點擊數、點擊時間、使用時長等。用戶畫像功能主要是對特定的用戶群體進行畫像分析,典型的用戶群體主要包括付費用戶群、活躍用戶群、沉默用戶群、流失用戶群等。從用戶性別、年齡、身份證戶籍地、ARPU、流量、訂購自有業務數等幾個方面對用戶群體進行特征畫像。用戶群體基于業務平臺的數據進行劃分,而畫像所選擇的特征則是從BI和CRM系統獲取的用戶的基本信息、通信行為、業務訂購等數據。用戶選擇模塊通過特征維度的選擇圈定用戶群體,圈定用戶所使用的特征維度體系與用戶畫像特征維度體系一致。通過選擇特征維度的組合篩選出符合特征組合的用戶明細,并對這些用戶進行相應的預測。這里所選出的用戶明細來自于全網用戶。
本文依據電信運營商積累的全網用戶的大數據資源,設計了一個運營商內容產品的運營系統。使用此系統為運行商的內容產品提供了更加全面精準的用戶分析與監控、用戶產品的推薦、內容個性化推薦,從而提升了內容性產品的運營效率。