朱海龍 云曉春 韓志帥
1(中國科學院信息工程研究所 北京 100093) 2(中國科學院大學網絡空間安全學院 北京 100049) 3(國家計算機網絡應急技術處理協調中心 北京 100029) 4 (北京科技大學計算機與通信工程學院 北京 100083) (zhl@cert.org.cn)
近年來,以微博為代表的部分社交網絡應用迅速融入人們的生活中,并深刻地改變了用戶之間信息傳遞的方式.在以報紙、廣播、電視為代表的傳統媒體中,信息傳播的主要方式是少數權威節點發布信息,絕大多數用戶閱讀、收聽或者觀看消息,信息傳播速度相對較慢,深度較淺,同一平臺上不同信息之間傳播范圍的差別并不是很大.而在微博平臺上,每個用戶都可以自己發布和轉發信息,信息的傳播是以發布、閱讀、轉發、再閱讀……這種不斷迭代復制的方式進行傳播的.相對于傳統媒體,微博消息傳播速度更快,信息傳播的路徑和過程隨機性更強,不同信息之間傳播的“流行度”也非常地不均衡,絕大多數消息傳播范圍很小,而極少數熱點消息卻能在極大范圍內進行傳播.
對微博消息傳播的流行度進行預測是非常有價值的一項工作,但卻是個非常困難的問題.首先,微博用戶規模大,截至2014年底,新浪微博用戶為2.49億[1];其次,影響微博消息傳播的因素很多,不僅僅與微博消息本身的內容有關,還與網絡拓撲結構、關注關系、用戶興趣、發布時間等諸多因素有關,其中很多屬性因素由于隱私保護的原因很難獲取并進行分析;最后,消息的傳播過程存在較大的隨機性,以上這些因素導致對微博的流行度預測存在較大難度.
然而,雖然我們很難在微博剛發布時準確預測其未來流行度,但在微博傳播一段時間之后預測其未來的傳播趨勢是可行的.根據多篇文獻及實際統計結果顯示,社交媒體上消息發布后一段時間內的傳播特征與其未來的傳播趨勢具有較強的相關性.對于微博來說,不同微博之間內容熱度高低、用戶影響力的大小、用戶興趣、網絡結構等因素的不同會體現在發布后短期內的傳播數量和傳播趨勢上,可根據這些早期傳播特征來預測未來流行度.
國內外很多學者對于流行度預測問題開展了大量的研究工作.2008年惠普實驗室的Szabo和Huberman[2]研究了Digg和YouTube中帖子的流行度變化趨勢,發現這2個網站中帖子的早期流行度與未來流行度在進行對數變換之后存在線性相關關系,并基于此發現提出了在線信息流行度預測SH(Szabo Huberman)模型.2013年Pinto等人[3]在SH模型上進行了改進,將YouTube視頻傳播早期時段分成多個時間片,根據每個時間片的傳播流行度來預測未來的傳播流行度,并基于這種思想提出了一種改進的多元線性(multiple liner, ML)回歸模型.
盡管使用SH模型和ML模型等能夠對在YouTube中視頻帖子的傳播流行度進行預測,但是對微博消息預測效果并不令人滿意.這主要是因為相對于Digg和YouTube來說,微博消息的傳播周期更短、速度更快、傳播機制也更復雜,所以有必要對微博消息的流行度預測問題進行進一步研究.現有方法主要是根據消息早期傳播的流行度值來進行預測,沒有考慮早期傳播速度變化趨勢.經過對微博的傳播流行度變化態勢分析發現,傳播加速度與未來流行度有一定的相關關系.另外,微博消息的流行度與消息最初發布時間密切相關,在進行預測時應充分考慮這一因素的影響.
基于以上發現,我們提出了一種新的微博消息流行度預測方法,首先基于微博發布后短時期內的傳播加速度及傳播流行度構建二元線性回歸模型,然后結合用戶相對活躍強度對流行度和傳播加速度進行修正,最終得到用戶活躍度及傳播加速度(user activity propagation acceleration, UAPA)模型.我們將UAPA模型和業內有代表性的SH,ML,RPP(reinforced Poisson process)模型進了對比,經過實驗證明新的預測模型對微博消息的流行度預測在多個指標上均具有更好的表現.本文的貢獻主要有:
1) 提出了傳播加速度這一流行度預測的新特征;
2) 提出了基于傳播加速度、早期流行度和用戶相對活躍強度的微博流行度預測模型UAPA;
3) 分析了不同模型預測效果的對比以及相關參數設置對于預測效果的影響.
近年來主流的流行度預測模型按照預測方法來分,主要可以分為基于回歸分析的方法、基于分類的方法、基于時間序列分析的方法以及其他方法.
基于回歸分析的預測方法是將消息的未來流行度作為因變量,分析帖子早期傳播的各種特征,找出與未來流行度相關的因素作為自變量,構建回歸預測模型.有代表性的工作有:Tatar等人[4]使用了簡單的一元線性回歸方法,根據網站上文章早期的評論數預測未來評論數.Kim等人[5]分析了某博客網站上博文點擊數的變化情況,發現博文早期的點擊數與最終點擊數有關,并在此基礎上提出了一種指數回歸預測模型.Bandari等人[6]基于發布源、內容特征、發布用戶等特征分別使用線性、SVM(support vector machine)和KNN(K-nearest neighbor)三種回歸分析的方法預測Twitter的未來流行度.Can等人[7]在Twitter內容特征、網絡結構特征之外考慮消息中圖片的3種視覺特征,在此基礎上使用線性、SVM和隨機森林3種回歸分析方法預測未來流行度.2013年Bao等人[8]發現微博消息的未來流行度與早期傳播的鏈路密度和傳播深度有關,并根據這2個因素分別建立了線性回歸預測模型來預測消息未來流行度.2013谷歌發布的技術白皮書[9]使用線性回歸方法根據電影早期搜索量等信息來預測電影最終的票房,可以達到92%的準確率.
基于分類的預測方法通常將消息的未來流行度人為分為若干等級,選擇部分早期傳播特征并使用分類算法預測消息最終流行度的級別.這方面的研究主要有:Bandari等人[6]根據轉發數量將Twitter消息流行度分為高、中、低3個等級,并使用Bagging、決策樹、SVM和樸素貝葉斯這4種分類方法預測Twitter消息的未來流行度.Hong等人[10]使用邏輯回歸的方法對Twitter消息的未來流行度進行預測.Tsagkias等人[11]使用隨機森林的方法對8個網站的在線文章基于多種文本特征進行2次分類:第1次分類是預測文章是否會有轉發;第2次是預測文章未來流行度是否會超過1個閾值.Figueiredo等人[12]首先使用KSC(K-spectral clustering)聚類方法[13]按照傳播態勢對視頻進行聚類,然后使用隨機樹方法基于視頻的內容、鏈接等因素預測視頻的未來流行度.孔慶超等人[14]提出了一種改進的KNN分類算法來預測豆瓣網討論帖未來流行度.Gao等人[15]構造了微博傳播中轉發網絡特征和邊際網絡特征,并結合時間特征使用多種分類方法預測微博消息的流行度.
基于時間序列分析的預測方法是將消息的傳播看作一個時間序列過程,根據早期傳播各個時間片流行度的變化來預測消息的未來流行度.例如Kuang等人[16]將微博傳播過程分為生命周期內傳播和周期外傳播2個階段,先根據轉發間隔時間、首次響應時間等因素預測微博傳播生命周期的長短,然后在周期內采用時間序列分析方法預測微博消息的流行度,周期外的流行度則采用一個簡單的Log函數來預測.Hu等人[17]使用時間序列的加法多元線性回歸(multiple liner regression, MLR)模型和乘法(holt-winters, HW)模型預測新浪和天涯新聞的未來流行度.Gao等人[18]提出了一種基于增強泊松過程的微博消息流行度預測模型,考慮了消息新穎性隨時間衰減的情況和消息轉發過程中優先鏈接的因素.
除此之外,還有一些其他的流行度預測方法,例如Zaman等人[19]基于概率模型Matchbox提出了一種Twitter消息的流行度預測方法.Lerman等人[20]詳細分析了用戶在Digg的行為規律,結合結構特征提出了一種基于用戶行為的流行度預測模型.Lee等人[21]借鑒了醫學中生存分析的方法,提出了一種基于Cox模型的在線消息流行度預測方法.Matsubara等人[22]以傳染病模型為基礎,結合流行度按冪率分布減弱和用戶關注周期性變化,提出了一種SpikeM模型.
盡管上述諸多方法對于在線消息流行度預測問題研究上有了一些有效的成果,但對于微博消息流行度的預測卻不令人滿意,這主要是因為微博消息傳播隨機性更強、周期更短、傳播機制更復雜,需要進一步研究并提出有效的研究方法.目前流行度預測主流的研究方法中,基于分類的方法只能預測流行度的大概范圍區間,無法給出一個具體的值,不適用于流行度預測這種輸出空間為連續值的預測對象;基于時間序列的方法適用于預測短期的流行度,遠期的流行度預測由于誤差累計的原因導致精度較差;另外一些方法則存在主觀上假定部分影響傳播的要素符合特定分布以及數據過擬合的問題,不能客觀地反映傳播規律.通過前期研究表明,基于回歸分析的方法可以對消息未來流行度給出一個量化的預測值,經過認真篩選解釋變量,選擇合適的回歸函數可以較為準確地對在線消息流行度進行預測.本文基于回歸分析方法提出一種新的微博消息流行度預測方法.該方法第1次將傳播加速度作為預測特征,同時結合用戶在不同時段的活躍程度,對未來流行度進行預測.經實驗表明,本文的方法能有效提高預測的準確性.
本文的研究對象為新浪微博消息,相對于閱讀數、評論數、點贊數等指標,消息的轉發數更能刻畫消息傳播的流行度,同時也更容易采集獲取并進行量化計算,因此本文用微博消息的轉發數來刻畫微博消息的流行度.
對于每一條微博樣本,我們可以得知源微博的發布時間及對其每次轉發的時間,由此可以構建按時間排序的轉發順序鏈.對于給定的1條微博消息m,我們定義其發布時間(submission time)為t0,對m第i次轉發時間用ti來表示,那么消息m的轉發順序過程可以用{t0,t1,…,ti,…,tfinal}來表示,其中tfinal表示消息m最后1次轉發的時間.

為了分析微博的傳播規律,并建立微博流行度預測模型,我們通過新浪微博的API以及模擬用戶爬取Web頁面2種方式采集了部分微博數據進行分析和實驗.我們隨機選取了2016-01-01—2016-02-06之間的44 030條源微博,并以這些源微博為源頭,跟蹤采集了對這些源微博在各個時間段的轉發微博,這樣每條源微博及其后續的轉發微博構成1個微博樣本.為了更全面地對微博數據進行分析和驗證,我們形成了2個數據集:1)隨機數據集Random,其中包含42 103個樣本,涉及100萬次轉發;2)熱門數據集Hot,其中源微博最終轉發數都大于100,包含1 927個樣本,涉及41萬次轉發.對于每個數據集我們都把樣本平均分為2部分,分別構成訓練集和測試集.后續對微博傳播特征的分析基于隨機數據集Random,對于預測模型的驗證和分析在2個不同的數據集上分別進行.
本文的研究目標是預測微博在目標時刻的流行度,對于每一條微博而言,其生命周期是不一樣的.但對于本文的預測任務來說,事先不知道微博生命周期會持續多長時間,因此需要提前設定目標時間Ttar的具體值.目標時間一方面要能涵蓋對源微博的絕大多數轉發時間,這樣才能充分反映微博的未來流行度;另一方面因為微博生命周期相對于其他社交網絡更短,為了使預測工作具有一定的時效性,目標時間也不宜設置過長.
經過統計分析發現,微博轉發數量在時間分布上存在不均衡的情況.相對于微博消息幾天甚至幾十天的生命周期而言,絕大多數轉發行為是在微博傳播最初的幾個小時內完成的,我們只需要分析并處理相對較短的時間就可以近似地得到消息最終流行度.我們統計了數據集上各條微博消息完成生命周期內85%,90%,95%的轉發量所需時間的平均值,如表1所示:

Table 1 The Selection of Target Time表1 目標時間的選擇
從表1中我們看出,90%的轉發都發生在微博發出后24 h之內,而完成95%的轉發量則平均需要43 h,微博發出24 h之后轉發量增長得很緩慢.在本文后續的工作中我們把目標時間Ttar設定為24 h,一方面是24 h之內發生的轉發量占總轉發量接近90%,能夠較好地體現微博最終的流行度;另一方面是24 h涵蓋了源微博發布后一個完整的用戶活動周期,可以更全面地體現微博在不同時段的傳播情況.
目前,社交網絡信息流行度預測領域中,應用較為廣泛的是SH[2]模型和ML[3]模型,但對微博流行度的預測效果卻不能令人滿意.原因在于上述2個模型都是針對YouTube中視頻的流行度進行預測,而YouTube視頻的流行度變化規律與微博具有明顯的差別.Figueiredo在文獻[12]中詳細分析了視頻消息流行度變化的4種模式,如圖1所示.其中圖1模式A中視頻消息的流行度隨著時間穩定的增加,其變化趨勢較穩定;而圖1模式B,C,D都存在1個突然的流行度急劇增加隨后又下降的尖峰,不同的是三者上升與下降的速度略有不同,在大多數時間內變化趨勢很小.王巍等人[23]統計了微博的流行度變化趨勢,大體可分為3種模式,如圖2所示.其中圖2模式A和圖2模式B都有1個流行度較高的時間段,區別在于時間長短不一樣,而圖2模式C有2個流行時段,但無論哪種模式,其變化趨勢都較為明顯.對比視頻和微博流行度的變化趨勢來看,視頻消息流行度變化趨勢較為穩定,而微博的變化趨勢變化較大.

Fig. 1 Varying mode of video popularity[12]圖1 視頻流行度變化模式[12]

Fig. 2 Varying mode of Weibo popularity [23]圖2 微博流行度變化模式[23]
我們經過分析發現,微博未來的轉發數不僅與其在參考時刻轉發數量的絕對數值有關,還與其在t0~Tref這段時間內轉發數的變化趨勢有關.如圖3所示,2條微博消息ma與mb,在4 h時二者的轉發數目相差并不明顯,但二者的轉發數的變化趨勢有著明顯差別,mb的轉發呈明顯加速態勢,而ma的轉發過程比較平穩,二者在10 h時最終的轉發數量具有明顯的差別.綜上所述,現有的主流預測方法不能對微博這種變化趨勢變動較大的消息進行有效的流行度預測,有必要充分考慮消息傳播變化趨勢這一重要特性,重新建立模型來預測微博的流行度.

(1)
得到A(Tref)之后,我們進一步分析傳播加速度與未來流行度的關系,畫出了二者之間關系的散點圖(圖4中Tref=4 h,Ttar=24 h,k=4),如圖4所示.從圖4可以看出,總體上傳播加速度與未來流行度呈現一定的正相關關系,在大多數情況下,傳播加速度較大的微博未來流行度也較高.因此,我們認為微博的傳播加速度可作為一項預測未來流行度的重要因素,我們在SH模型的基礎上增加傳播加速度這一特征,構建了一個二元線性回歸模型:

(2)
其中α0,α1,α2為模型參數,通過在訓練數據集上最小二乘估計獲得.最終的未來流行度預測模型為

(3)

Fig. 4 Propagation acceleration and popularity at target time圖4 傳播加速度與未來流行度
與其他社交網絡平臺一樣,微博上用戶的轉發活動具有明顯的周期性.以1天24 h為例,我們統計了數據集中各個時間段用戶發布轉發微博數量的曲線圖,如圖5所示:

Fig. 5 Weibo user activity in a day圖5 微博用戶活躍度

Fig. 6 Early propagation acceleration, popularity at reference time and popularity at target time of two Weibo messages圖6 2條微博的早期傳播加速度、流行度與未來流行度
從圖5可以看出,微博平臺上用戶在1天24 h不同時間段的活躍度相差懸殊,在午夜2時到早8時這段時間活躍度最低,在上午10時至晚21時處在一個比較活躍的狀態,22時至次日1時則是1天中微博用戶最活躍時段,比下午和晚上的轉發量多出50%左右.相應地,單條微博在參考時刻的流行度以及在早期的傳播加速度除了與微博內容、參與用戶和社交關系有關以外,還與早期傳播過程中用戶的活躍度有關.例如對于2條相似的微博ma和mb,其中ma首發時間為早上5時而mb為上午10時,圖6展示了2條微博在參考時刻(Tref=4 h)的流行度、傳播加速度和在目標時刻(Ttar=24 h)的流行度.
微博ma其首發時間在早上5時,處于微博用戶最不活躍的時間段,因此其在參考時刻的流行度并不高,同樣的原因,ma在傳播初期這段時間的傳播加速度也不高,但是我們發現其在目標時刻的流行度卻比較高,這可能是ma本身具有較強的流行性因素,因此在目標時刻的流行度較高.而對于微博消息mb,其首發時間在上午10時,是微博用戶比較活躍的階段,其參考時刻的流行度和早期傳播加速度都比較高,但其在目標時刻的流行度卻不是很高,這可能是因為mb本身流行度不是特別強,只是因為其首發時間為熱門時間段,所以其在傳播早期的流行度和加速度都較高,但其本身相對較弱的流行性導致其未來的流行度不高.
因此,僅僅考慮參考時刻的流行度和早期加速度來預測未來流行度是不全面的,還應充分考慮微博消息首發時微博平臺的活躍度.我們提出了微博用戶相對活躍強度的概念,它是一個向量,代表每天24 h中第i小時平臺的活躍強度.其定義如下:首先計算微博平臺上平均每小時轉發的微博數u,然后在計算每個小時內平均的轉發量為V[i](1≤i≤24).每個小時平臺的相對活躍強度為

(4)
它反映了微博平臺上1天時間周期內各個時間段用戶的活躍度.在此基礎上我們修正微博在參考時刻的流行度N(Tref)和早期傳播加速度A(Tref),分別除以參考時刻的微博用戶相對活躍強度,得到相對流行度N*(Tref)和相對傳播加速度A*(Tref),

(6)
并替代式(3)預測模型中的N(Tref)和A(Tref),得到1個新的預測模型UAPA,其具體形式為

(7)
其中β0,β1,β2為模型參數,通過訓練集上的最小二乘法估計獲得.
為了驗證本文提出的微博流行度預測模型的有效性,我們將它們與3種常用的社交媒體消息流行度預測模型進行比較,本節實驗中使用的方法包括:
1) SH模型.Szabo和Huberman在文獻[2]中提出的一種基于一元對數線性回歸的流行度預測模型,該模型表示為

(8)


Fig. 7 Performance comparison on MAE of models圖7 各種模型平均絕對誤差的性能比較
2) ML模型[3].是一種對SH模型的改進模型,它將消息傳播早期t0~Tref這段時間分為k個時間片,基于每個時間片的內消息的流行度構建面向未來消息流行度的多元線性回歸模型,但與SH模型不同的是,ML模型不是基于對數線性相關性的回歸模型,而是基于多元線性回歸的預測模型.該模型具體的形式為

(9)
其中,參數N(Tk)是第k個時間片內微博消息的轉發數,θ為模型參數,通過事先對訓練集最小二乘法獲得,在本文中k=4.
3) RPP模型[18].是一種基于增強泊松過程的模型,集成了消息強度、消息隨時間衰減的時間松弛方程、刻畫消息傳播過程中優先鏈接現象的增強方程3種因素,其中設模型參數ε=10,時間松弛方程為冪率方程,增強方程為指數方程,另外增加了時間映射過程.
4) UAPA模型.如本文式(7)所示.
在實驗中我們采用3種測試指標來評價各個模型的性能,分別為平均絕對誤差(mean absolute error,MAE)、平均百分比絕對誤差(mean absolute percentage error,MAPE)和準確度Accuracy評價指標.其中MAE衡量了在實驗數據集上預測值與真實值之間的平均絕對誤差.對于含有n條源微博消息的測試集C,MAE的定義為
(10)
MAPE指標衡量了測試集上平均預測值與真實值的相對誤差,其定義為
(11)
Accuracy指標衡量了在測試集上預測相對誤差小于0.1的比例,其中I[X]是一個指示函數,X為真結果為1,否則為0.

(12)
在本節中我們進行3組實驗,首先在隨機數據集Random和熱門數據集Hot上分別對比各個預測模型預測性能,然后基于隨機數據集Random分析不同的目標時間長度對于預測效果的影響,最后分析UAPA模型中參數k的取值與預測性能的關系.

Fig. 8 Performance comparison on MAPE of models圖8 各種模型平均百分比絕對誤差的性能比較

Fig. 9 Performance comparison on Accuracy of models圖9 各種模型準確率性能對比
首先,我們分別在2個數據集上測試了各個模型性能并進行了比較.其中我們目標時間固定設置為一個完整的時間周期,即Ttar=24 h;Tref分別取2~24 h的各種情況分別計算各模型的預測結果,從直觀的意義上來講,Tref代表了模型訓練時間的長短.對于ML和UAPA模型,其中均設參數k=4,圖7~9給出了3個實驗指標下各模型的實驗結果.從總體來看, UAPA模型對于所有的Tref在各個性能指標上均明顯優于其他3種模型.
對于MAE指標,我們發現隨著Tref的增加,各種模型的預測誤差減小的速度相對均勻,這說明對于同一模型,影響絕對預測誤差的主要因素是Tref時間的長短.橫向對比來說,UAPA模型比ML,SH,RPP模型明顯預測誤差更小,SH誤差最大.另外,各種模型在熱門數據集Hot上的絕對誤差都小于在隨機數據集Random的誤差,這主要是因為對于熱門微博來講,早期傳播特征與未來流行度關系更緊密,各預測模型更能體現出這種關系;而對于非熱門微博,早期流行度與未來流行度差別不大,模型預測效果也較差.UAPA模型相對于RPP模型在熱門數據集Hot上的性能提升比在隨機數據集Random上更大,這主要是因為傳播加速度這一特征對于熱門微博更加突出,也說明UAPA模型更適用于熱門微博的流行度預測.
對于MAPE指標,從圖8中我們看到Tref從2~4 h時,各個模型的MAPE都有明顯的下降,但之后隨著Tref的延長,相對預測誤差的下降幅度明顯減緩,增加Tref對于性能的提高作用在減小.相對于隨機數據集Random,各模型在熱門數據集Hot的預測精度都有明顯的提升,其總體變化趨勢與隨機數據集Random相似.
另一方面,對于預測用戶來說,Tref越短預測結果價值越大.因此,平衡Tref和預測誤差,我們認為Tref=4 h是一個比較好的折中設置,當Tref=4 h時,UAPA模型的相對誤差小于20%,在熱門數據集Hot上甚至小于15%,可以獲得一個比較理想的準確度,同時一般用戶也能夠接受這個參考時間.
對于各個模型來說,UAPA模型在4 h≤Tref≤14 h這一區間相對于ML和SH模型的性能改善更為顯著,這可能是由于Tref≥4 h時傳播加速度和用戶活躍度才能有比較明顯的差別.在4 h≤Tref≤14 h時段,UAPA模型在隨機數據集Random上雖然優于RPP模型但提升不大,但在熱門數據集Hot中,UAPA比RPP預測精度有較大程度的提高.由此可見,UAPA模型在4 h≤Tref≤14 h時間段,尤其是對熱門微博的預測場景更能發揮其優勢.
從Accuracy指標來看,UAPA模型大幅優于另3種基準模型.與MAPE指標不同的是:在隨機數據集Random上當Tref=2 h時UAPA模型就獲得了90.38%的準確率,在熱門數據集Hot上則達到了91.6%,而且隨著Tref的增加,準確率并沒有明顯的提高,即便是Tref達到24 h以上時,模型的準確率也沒有達到100%,這可能是由于模型參數的誤差導致一部分樣本預測值與實際值偏差較大,而且這種偏差主要分布在傳播早期,增加Tref不會減少這種誤差.總體來說,即便是存在5%的不可消除的預測誤差,UAPA模型可提供很高的預測精度,適用于大多數預測場合.
我們注意到UAPA模型在Accuracy指標和MAPE指標表現有所差異,對于MAPE指標,UAPA模型隨著Tref的增加,誤差逐漸減小;而對于Accuracy指標,UAPA隨著Tref增加準確率小幅提升之后基本穩定在一個較高的水平.這可能是在測試集中有部分樣本的相對誤差值較大,平均之后提高了整個樣本集MAPE值,而根據Accuracy的定義,這部分樣本只會從樣本數量上影響Accuracy指標,相對來說對樣本集的指標影響較小.這也說明Accuracy指標從某些角度講更能科學、準確評價模型性能.
在第2組實驗中,我們在隨機數據集Random上把Tref固定設為4 h,通過調整Ttar來看不同模型MAPE的性能表現.從圖10中我們可以看出,隨著Ttar的延長,所有模型的MAPE值都隨之增大,這表明對于各個模型來說,延長目標時間都會降低預測性能.然而,從圖10中可以看出,MAPE值增加的相對幅度隨著目標時間Ttar的延長而減小.例如,對于UAPA模型,當Ttar從8 h增加到12 h,MAPE值增長了122.14%;而Ttar從20 h增加到24 h,MAPE值只增長了44.05%.這說明預測模型性能下降的邊際效果隨著目標時間的延長而逐漸減小.導致這種現象的原因是對源微博的轉發大多集中在生命周期前段,隨著Ttar的增加,源微博在第i個小時獲得的轉發次數通常會小于第i-1小時獲得的轉發次數,也就是說Ttar雖然線性增加,但是轉發量卻沒有成比例的增加,相應的預測誤差也會增大的慢一些.

Fig. 10 Target time and prediction performance on MAPE圖10 目標時間長短對于MAPE預測效果的影響
最后,我們分析UAPA模型中參數k對預測性能的影響.從3.3節所述我們可以得知k是把訓練時間段Tref分片的數量,我們通過設定Tref=4 h,Ttar=24 h,分別取k為2,3,4,5,6,7,對UAPA模型的MAPE指標進行了分析對比.圖11給出了實驗結果對比,從圖11中我們可以看出,隨著k值的增大,誤差有所減小.但是當k=5或者更大數值時,預測性能提高得很有限.例如對于UAPA模型,當k=4比k=3時MAPE值降低了14%,而當k=6比k=5的情況下MAPE僅僅降低了1%.在Tref=4 h前提下,k=4或k=5是較為理想的值.

Fig. 11 Parameter k and prediction performance on MAPE圖11 參數k對MAPE預測效果的影響
在本文中,我們分析了微博消息在發布初期傳播趨勢與未來流行度的關系,提出了傳播加速度的概念和計算方法,并基于早期傳播加速度和流行度并結合用戶周期性的活躍強度提出了一種微博流行度預測UAPA模型.通過在微博真實數據集上進行驗證表明,本文提出的模型可以對微博未來流行度進行準確的預測,效果優于主流的預測方法.最后分析了模型參數取值對于預測效果的影響.
雖然本文模型能較為有效地預測微博未來的流行度,但在Tref較短的情況下預測效果仍有較大的改進空間.為進一步能更早對流行度進行準確預測,本文未來的工作主要從2個方面開展:1)把微博傳播的過程歸納為幾種典型模式,為每種模式建立不同的預測模型,在實際預測時首先根據發布后的傳播特點預測其傳播模式,然后在根據不同的模型來預測其未來的流行度;2)進一步分析用戶活躍度的周期性,目前的做法都是按1天不同時段分析用戶活躍性的不同,但經統計發現工作日與節假日微博用戶的活躍情況差別十分明顯,后續的工作可進一步區分工作日和節假日的用戶活躍度.
[1]Internet Society of China. China Internet Development Report 2015[M]. Beijing: Publishing House of Electronics Industry, 2015 (in Chinese)(中國互聯網協會. 中國互聯網發展報告2015[M]. 北京: 電子工業出版社, 2015)
[2]Szabo G, Huberman B A. Predicting the popularity of online content[J]. Communications of the ACM, 2008, 53(8): 80-88
[3]Pinto H, Almeida J M, Gon?alves M A. Using early view patterns to predict the popularity of YouTube videos[C]Proc of the 6th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2013: 365-374
[4]Tatar A, Leguay J, Antoniadis P, et al. Predicting the popularity of online articles based on user comments[C]Proc of the Int Conf on Web Intelligence, Mining and Semantics. New York: ACM, 2011: 67-74
[5]Kim S D, Kim S H, Cho H G. Predicting the virtual temperature of Web-blog articles as a measurement tool for online popularity[C]Proc of the 11th Int Conf on Computer and Information Technology (CIT). Piscataway, NJ: IEEE, 2011: 449-454
[6]Bandari R, Asur S, Huberman B A. The pulse of news in social media: Forecasting popularity[C]Proc of the 6th Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2012: 26-33
[7]Can E F, Oktay H, Manmatha R. Predicting Retweet count using visual cues[C]Proc of the 22nd ACM Int Conf on Information & Knowledge Management. New York: ACM, 2013: 1481-1484
[8]Bao Peng, Shen Huawei, Huang Junming, et al. Popularity prediction in microblogging network: A case study on Sina Weibo[C]Proc of the 22nd Int Conf on World Wide Web. New York: ACM, 2013: 177-178
[9]Panaligan R, Chen A, Quantifying movie magic with Google search[OL]. [2016-02-28]. https:ssl.gstatic.comthinkdocsquantifying-movie-magic_research-studies.pdf
[10]Hong Liangjie, Dan O, Davison B D. Predicting popular messages in Twitter[C]Proc of the 20th Int Conf on World Wide Web. New York: ACM, 2011: 57-58
[11]Tsagkias M, Weerkamp W, De Rijke M. Predicting the volume of comments on online news stories[C]Proc of the 18th ACM Conf on Information and Knowledge Management. New York: ACM, 2009: 1765-1768
[12]Figueiredo F. On the prediction of popularity of trends and hits for user generated videos[C]Proc of the 6th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2013: 741-746
[13]Broxton T, Interian Y, Vaver J, et al. Catching a viral video[J]. Journal of Intelligent Information Systems, 2013, 40(2): 241-259
[14]Kong Qingchao, Mao Wenji. Predicting popularity of forum threads based on dynamic evolution[J]. Journal of Software, 2014, 25(12): 2767-2776 (in Chinese) (孔慶超, 毛文吉. 基于動態演化的討論帖流行度預測[J]. 軟件學報, 2014, 25(12): 2767-2776)
[15]Gao Shuai, Ma Jun, Chen Zhumin. Popularity prediction in microblogging network[C]Proc of APWeb 2014: Web Technologies and Applications. Berlin: Springer, 2014: 379-390
[16]Kuang Li, Tang Xiang, Guo Kehua. Predicting the times of retweeting in Microblogs[OL].[2016-03-05]. http:dx.doi.org10.11552014604294
[17]Hu Changjun, Hu Ying, Xu Wenwen, et al. Understanding popularity evolution patterns of hot topics based on time series features[C]Proc of APWeb 2014: Web Technologies and Applications. Berlin: Springer, 2014: 58-68
[18]Gao Shuai, Ma Jun, Chen Zhumin. Modeling and predicting retweeting dynamics on microblogging platforms[C]Proc of the 8th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2015: 107-116
[19]Zaman T R, Herbrich R, Van Gael J, et al. Predicting information spreading in Twitter[OL].[2016-04-06]. https:www.microsoft.comen-usresearchwp-contentuploads201012NIPS10_Twitter_final.pdf
[20]Lerman K, Hogg T. Using a model of social dynamics to predict popularity of news[C]Proc of the 19th Int Conf on World Wide Web. New York: ACM, 2010: 621-630
[21]Lee J G, Moon S, Salamatian K. An approach to model and predict the popularity of online contents with explanatory factors[C]Proc of the Int Conf on Web Intelligence and Intelligent Agent Technology. Piscataway, NJ: IEEE, 2010: 623-630
[22]Matsubara Y, Sakurai Y, Prakash B A, et al. Rise and fall patterns of information diffusion: Model and Implications[C]Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data mining. New York: ACM, 2012: 6-14
[23]Wang Wei, Li Ruiguang, Zhou Yuan, Microblog burst topic diffusion prediction algorithm based on the users and node scale[J]. Journal on Communications, 2013, 34(z1): 84-91 (in Chinese)(王巍, 李銳光, 周淵, 等. 基于用戶與節點規模的微博突發話題傳播預測算法[J]. 通信學報, 2013, 34(z1): 84-91)
ZhuHailong, born in 1978. PhD candidate. His main research interests include social network and machine learning.

YunXiaochun, born in 1971.PhD, professor and PhD supervisor. His main research interests include network security and Internet modeling.

HanZhishuai, born in 1993. Maser candidate. His main research interests include deep learning and machine vison.