基于關聯網絡的移動互聯網內容偏好分析方法及系統研究

2015-05-11 05:40:06張湛梅張曉川ZhangZhanmeiZhangXiaochuan

互聯網天地 2015年9期

張湛梅，張曉川/Zhang Zhanmei,Zhang Xiaochuan

（中國移動通信集團廣東有限公司廣州510630）

1 引言

2012年，手機用戶總數達10.52億，手機網民規模達3.88億人，手機首次超越臺式電腦成為第一大上網終端[1]。易觀國際分析曾預測，2013年中國移動互聯網市場規模將突破3 000億元人民幣，這一切意味著移動互聯時代已經全面來臨。

移動互聯網產業鏈不斷裂變和細化，使大部分增量利潤涌向了創新型技術公司，電信運營企業管道化的趨勢日漸明顯。與此同時，傳統話音業務飽和，呈現不斷減少的趨勢，運營商也面臨著不小的挑戰[2]。在此發展形勢下，運營商需要更好地發掘滿足客戶方方面面需求的互聯網內容，爭取將內容型數據業務作為公司新的利潤增長點。

2 現有內容偏好識別技術的缺點

傳統的技術需要利用爬蟲技術抓取一定量的文本內容，然后利用關鍵字匹配技術對文本進行分類。這種方法需要設置爬蟲服務器集群、分析服務器集群、搜索服務器集群，以定位內容的分類和客戶的瀏覽行為[3]。這種技術能夠精準識別客戶的具體偏好，但是成本較高，文本識別技術復雜，且其只重點關注客戶某一內容業務的偏好（主要是網頁）。但客戶對于不同內容業務，如手機上網或手機閱讀，存在著一定的關聯強度，強關聯的偏好可用來實現不同客戶不同內容業務的滲透推薦，解決新業務的用戶拓展難題。

為解決上述問題，本方案首先綜合所有不同性質、不同粒度的互聯網內容業務（如夢網業務、手機報紙、手機閱讀、手機上網等傳統的內容業務以及手機視頻、手機游戲、全曲音樂等廣義的內容業務），然后根據用戶對這些業務分類內容的瀏覽行為信息，構建一個可拓展應用的分析系統，最后通過設計偏好關聯網絡來全維度識別和剖析用戶的互聯網內容偏好?；陉P聯網絡的移動互聯網內容偏好分析系統如圖1所示。

3 基于關聯網絡的移動互聯網層次介紹

3.1 基礎數據層

管理不同數據源的數據，但只關注用戶對業務內容的閱讀行為信息。例如，對于WAP日志，涉及時間、URL、流量、會話、協議、網關、狀態等信息，但本技術方案只收集與用戶閱讀相關的行為數據。

3.2 業務拓展層

根據新增內容業務的性質，確定內容的范圍和粒度，用行為數據進行建模，為后續內容分類和偏好評分做好數據準備工作。

3.3 內容分類層

對于已有分類的內容業務，直接采用其具體的內容分類信息，并將粒度控制在閱讀行為能到達的最小層面（如中國移動的手機閱讀基地數據，粒度可以到達用戶閱讀每一本圖書的具體信息，類似地，全曲音樂具體到某一首歌，手機游戲具體到某一游戲）；對于沒有分類的內容業務，則建立標準的分類規則，并將粒度控制在三級以內，原則是用盡可能少的規則，覆蓋80%的用戶（如WAP手機閱讀，只需定位起點網、騰訊書城等幾個主流網站，就可以覆蓋絕大部分手機閱讀用戶）。例如，對于手機上網，可以利用簡單的URL匹配來定位內容分類，匹配規則樣例見表1。

3.4 偏好評分層

將用戶在不同性質內容業務的閱讀行為數據都進行標準化，再綜合這3個維度，對用戶的內容偏好程度進行量化評分。對于不同性質的內容業務，如手機報紙、手機閱讀、手機上網等，一方面是業務性質層面，如內容形式、收費標準不同；另一方面是用戶的閱讀行為特征也會有較大差異，如閱讀的次數、時間、周期等。因此，需要在業務層面對數據進行標準化，才能使不同性質、不同粒度的內容在最終的綜合評分上具有公平的比較性。例如，對于不同性質的業務（如手機閱讀與手機上網）進行內容偏好程度評分或者評級的步驟如圖2所示。

圖1 基于關聯網絡的移動互聯網內容偏好分析系統

其中，維度權重和變量權重通過最小粒度到最大粒度依次求解，而評分過程則分階層從低到高依次加權求和，計算樣例如圖3所示。

以頻度為例，通過熵值法可直接求解得到閱讀天數、閱讀次數和平均每天閱讀次數這3個三級變量的權重系數[4]，從而得到頻度的綜合評分表達式為：頻度=0.25×閱讀次數+0.65×閱讀天數+0.10×平均每天閱讀次數。類似地，可以求解得到粘度、額度的權重系數。然后將這3個評分再次輸入熵值法模型，求解得到這3個維度的權重系數。最終得到WAP內容偏好程度評分表達式為：內容偏好評分S=0.63×頻度+0.21×粘度+0.16×額度。這里用 Sui表示用戶u對于內容分類i的偏好評分。

3.5 偏好關聯層

構建和維護內容偏好的關聯網絡，包括網絡中關聯所對應的邊權計算以及邊的增加、刪除、更新。本系統的偏好關聯強度用來量化兩種業務內容之間的關系緊密程度，具體是指偏好某一內容的用戶同時偏好另一種內容的可能性大小[5]?？紤]到當前需要拓展一個內容業務到系統中，因此，對已有用戶的業務和新增無用戶的業務分情況討論。

3.5.1 已經具備一定用戶的內容業務A

如上例中的WAP手機上網業務，則可以按照上述3.1～3.4節處理，得到用戶對于業務A的每個分類的內容偏好（例如手機閱讀，則A1=玄幻，A2=言情…的分類偏好）。其中，n為業務A的內容分類個數。對于業務A，構建關聯網絡的步驟如下。

（1）對于每一個業務，構建業務內部所有內容偏好的關聯子網絡

圖2 內容偏好評分

圖3 內容偏好評分變量權重

用點代表內容分類，點的連邊代表內容之間的偏好關聯，而邊的權重則代表內容之間的偏好關聯強度。例如，某業務A內部關聯網絡的形狀如圖4所示。其中，對于業務A的任意兩個內容Ai與Aj，對應的偏好關聯連邊為AEij，而對應的關聯強度則為連邊的權重Wij。

圖4 某業務內容偏好關聯網絡

（2）計算關聯網絡每一條邊的權重即計算每一對內容的偏好關聯強度。計算表達式為

（3）檢驗關聯網絡每一條邊的可信任度

即評估兩個內容之間的偏好關聯是否可靠穩定[6]。

現有技術根據用戶閱讀信息（如網頁）來分析偏好，但由于這些信息存在噪音（如頁面捆綁、跳轉、彈出等），包含的不是用戶真實偏好的分類內容，分析結果存在誤差，不利于應用。本方案提供一種檢驗偏好可信任度的方法：對于任意一對內容偏好i與j，如果存在另一個內容偏好k，使得則確定內容偏好與的關聯是可以信任的。其中為內容偏好與的關聯強度，而與為內容偏好k與的關聯強度。這一步將剔除不符合上述不等式的所有偏好關聯。例如，對于圖4中A業務的內容偏好與假設其關聯強度為發現與和有關聯的是且假設關聯強度分別為代入上述不等式進行檢驗，由于不等式0.45×0.45≤0.50×0.46成立，因此，內容偏好A2與A4的關聯是可信任的，如圖5所示。

圖5 某業務可信任內容偏好關聯網絡

（4）計算不同業務之間的關聯強度，并檢驗其可信任程度

根據前面3個步驟的計算，已經得到每個業務內部不同內容偏好之間的關聯強度，這一步需要計算不同業務的內容偏好之間的關聯強度，且關聯強度的計算方法與（2）一致。如圖6所示，對于業務A3與C3，對應的連邊為

圖6 多業務內容偏好關聯網絡

3.5.2 完全沒有用戶或者用戶數量極少的新增內容業務B

本方案提出一種虛關聯方法，充分利用前面已經構建好的偏好關聯網絡來拓展新內容業務的潛在用戶。

①對于當前新增的內容分類，依然可以按照3.1～3.3節處理，對這個內容業務進行數據建模，得到業務 B 的內容分類其中，m 為業務B的內容分類個數。

②由于新增的業務（或內容）用戶數較少，因此與其他業務內容偏好的關聯數量很少甚至為0。為了解決這個問題，對于任意一個新增的內容分類Bi，定位一個與其內容性質最相似的其他業務內容偏好Xj（建議用專家經驗方法），建立一個虛關聯，并初始化關聯強度為對于任意一個其他業務的內容偏好Yk，其與Xj的關聯強度可以通過上述步驟計算得到。則Bi與Yk的關聯強度表達式為：

3.6 內容推薦層

利用偏好之間的關聯強度，預測出每個用戶最合適的推薦內容。對于推薦的方法，本技術方案建議采用最熱門推薦和協同過濾推薦。

（1）對用戶已經閱讀的同分類內容進行最熱門推薦

方法是選擇用戶評分排名最靠前的Top 3內容偏好，推薦對應內容分類在當前閱讀用戶數量最多的內容。

（2）對用戶從未閱讀過的分類內容進行協同過濾推薦[7,8]

本技術方案采用了經典的Item-Base算法，但做了一定的改進。用關聯強度代表相似度，則對于用戶未閱讀過的任一內容其推薦預測評分公式為

3.7 營銷活動層

結合各種服務營銷平臺，利用反饋結果對關聯網絡進行反饋優化，更新步驟如下。

①對于每個進行了推薦的用戶u，對其反饋結果為成功的推薦內容偏好進行加分，并將其偏好評分更新為而對于反饋結果為失敗的內容偏好進行減分，并將其偏好評分更新為最后對用戶u的所有內容偏好進行重新排名。

②對于每個進行了推薦的內容Xx，利用更新的偏好評分，按照3.5.1節的所有步驟，重新計算并更新與Xx有關聯的所有內容Yy的偏好關聯強度。

圖7 新增業務內容偏好關聯網絡

4 模型驗證

根據以上介紹的方法和舉例，建立手機閱讀拉新模型。各層權重見表2。

根據權重，輸出陽江、韶關、惠州2014年6月的手機閱讀拉新模型名單。從3個方面評估此模型，包括歷史數據評估模型、實驗設計評估模型以及營銷效果評估模型。評估方法如圖8所示，其中，行動組為模型打分排名靠前（前10%）的營銷客戶；對照組為非模型打分隨機抽取一定數量的客戶（1 000名）；不行動組為行動組中隨機抽取一定數量的客戶（1 000名）。歷史數據指手機閱讀基地2013年6～12月PUSH成功的最高值，包括閱讀和付費閱讀?？傮w看來，在同等營銷條件下，手機閱讀拉新模型的提升效果顯著：閱讀成功率提升了2.6倍，付費閱讀成功率提升了3倍。

（1）模型效果評估（歷史標桿對比）

以惠州為例，與2013年的6～12月PUSH成功的最高值進行對比。2014年6月利用模型名單，短信營銷了125 290個行動組用戶，成功轉化為閱讀用戶的有13.6%，提升了4.2倍；成功轉化為付費閱讀的用戶有1.5%，提升了42.6倍。

（2）模型效果評估（實驗設計對比）

以韶關為例，2014年6月營銷行動組用戶有40504個，與對照組對比，轉化為閱讀用戶的有14.8%，提升了2倍；轉化為付費閱讀用戶的有1.7%，提升了1.3倍。

（3）營銷效果評估（實驗設計對比）

以陽江為例，2014年6月營銷行動組用戶有40 062個，與不行動組對比，轉化為閱讀用戶的有15%，提升了1.2倍；轉化為付費閱讀用戶的有1.4%，提升了1.3倍。

5 結束語

本文建立了一個可拓展的內容偏好分析體系。該體系能將不同內容性質的移動互聯網業務內容納入一個統一的體系，實現客戶的內容偏好分析。同時，該體系具有可拓展性，當新的業務內容需要進行推廣時，只需將該業務納入體系，系統即可充分利用客戶其他不同業務的內容偏好，進行協同過濾，做出最合適的推薦，從而實現新業務、新客戶的拓展。

表2 手機閱讀內容偏好綜合得分

圖8 評估方法

[1]漆晨曦.電信客戶社交網絡分析方法與營銷應用探討[J].電信科學,2012,(7):5-9.

[2] 陳慶.網絡營銷與傳統營銷的比較研究[J].商業文化 (下半月),2011,(2):154.

[3] 金濤.網絡爬蟲在網頁信息提取中的應用研究[J].現代計算機,2012,(1):16-18.

[4]陸添超,康凱.熵值法和層次分析法在權重確定中的應用[J].電腦編程技巧與維護,2009,(22):19-20.

[5]馬衛東,李幼平,馬建國等.面向Web網頁的區域用戶行為實證研究[J].計算機學報,2008,31(6):960-967.

[6]馬衛東,李幼平,馬建國等.狀態行為關聯的可信網絡動態信任計算研究[J].通信學報,2010,31(12):12-19.

[7]方娟,梁文燦.一種基于協同過濾的網格門戶推薦模型[J].電子與信息學報,2010,32(7):1585-1590.

[8]傅國強.基于關聯規則的協同垃圾郵件過濾系統研究[J].深圳職業技術學院學報,2005,4(3):15-18.