基于觀點動力學的在線評分人數預測

2014-06-07 05:53:21蘇炯銘劉寶宏馬宏緒

計算機工程 2014年10期

關鍵詞：模型

蘇炯銘,劉寶宏,李琦,馬宏緒

(國防科學技術大學a.機電工程與自動化學院;b.信息系統與管理學院,長沙410073)

基于觀點動力學的在線評分人數預測

蘇炯銘a,劉寶宏b,李琦b,馬宏緒a

(國防科學技術大學a.機電工程與自動化學院;b.信息系統與管理學院,長沙410073)

多數觀點動力學研究采用基于Agent的建模和仿真方法,與現實社會現象嚴重脫節。針對該問題,利用現實社會在線評分的統計數據驗證和改進觀點動力學模型的解釋和預測能力。在評分過程中,個體的觀點受到自身初始觀點和群體觀點的共同影響,產生的最終觀點將決定個體是否加入評分群體,如果加入將產生評分行為,進而影響后續個體的觀點及行為。據此過程建立一個連續觀點動力學模型,對在線評分的人員數量進行預測。使用豆瓣網站的影片在線評分數據進行實驗,分析各評分觀點變化對在線評分數量的影響,結果表明,該模型能夠有效預測在線評分人數;個體的最終觀點主要受群體差-中-好評分觀點的影響,而與自身初始觀點基本無關;泊松參數值偏離最優值越遠,預測準確率越低。

在線評分;觀點動力學;模型預測;連續觀點;泊松分布;實驗驗證

1 概述

在線評分包含了一個社會群體對某個事物的評價和看法,被廣泛應用于各個購物、消費以及點評網站,如國外的 Amazon,CellarTracker,RateBeer, BeerAdvocate,國內的淘寶、當當、卓越、京東、豆瓣、大眾點評網等網站。這些網站通過用戶對商品、服務、影片等進行在線打分與評論的回饋信息,來影響潛在的消費者的觀點傾向,輔助進行決策,從而使更多反饋信息加入,構成一個相互促進的良性循環。

觀點動力學,又稱為輿論動力學,是運用數學、物理以及計算機,特別是基于Agent的建模和仿真方法,研究群體觀點趨于一致或者產生聚類分離現象的演化過程和規則[1]。觀點動力學的研究對象非常廣泛,包括個體觀點演化、群體決策、一致性達成、少數觀點的幸存、極端主義、謠言的擴散與傳播、市場滲透等各種社會現象[2-3]。觀點是個體對待事物或議題的看法、選擇或者傾向。根據觀點的描述方式,可以將觀點動力學模型分為離散模型和連續模型。離散模型采用二元值或其他離散的整數值對觀點進行建模,如0和1,-1和+1,0和±1,就像現實世界中表示的買和賣、左和右、中立、支持和反對等一樣,包括 Ising模型[4]、Sznajd模型[5]、投票者模型(Voter Model)[6]和多數決定模型(Majority Rule Model)[7]及其擴展模型。連續模型采用介于一段區間的連續實數值來描述個體的觀點,主要包括基于有界信任假設的 Deffuant-Weisbuch(DW)模型[8]和Hegselmann-Krause(HK)模型[9]及其擴展模型。在早期研究中,個體社會結構主要集中在一維(環)鏈、網格、規則網絡或者全連通網絡上。隨后研究者發現現實世界以及互聯網社區中的個體交互結構滿足復雜網絡的特征。因此,復雜網絡上,如小世界(有向)網絡[10-11]、無標度網絡[12-13]和包含社團的網絡[14]等,以及自適應復雜網絡[15]上的觀點動力學逐漸成為研究的熱點。

目前大部分觀點動力學研究采用基于Agent的建模和仿真方法,關注的是模型的理論性質,存在仿真模型與現實社會現象嚴重脫節的問題;模型的應用研究又普遍存在參數和規則設置的依據不足以及缺乏驗證的問題[16]?；诨ヂ摼W的虛擬社區上的觀點動力學成為其理論和仿真研究與實際應用的橋梁和紐帶。應用現實社會系統的統計數據可以驗證和改進觀點動力學模型的解釋和預測能力,而這方面的工作還不充分。Sznajd模型較好地模擬了政治競選過程,發現所有被選舉者的支持者滿足冪率關系,但模擬只是一個統計平均過程,并不能提前預測某次真實的政治競選的獲勝者[17]。文獻[18]根據在線點評模式的觀點傳播過程,基于DW和HK模型構建了在線點評模式下的觀點動力學模型,對淘寶評論中實際觀點演化過程進行了仿真實驗。

本文通過建立在線評分中個體觀點的影響模型,預測個體的觀點和行為,從而判斷其是否將加入評分群體,并采用互聯網豆瓣網站上的影片在線評分數據進行實驗驗證。

2 在線評分的觀點動力學模型

在線評分的觀點動力學模型與一般觀點動力學模型有所不同:一般觀點動力學模型研究的是一個固定數量的個體之間觀點相互影響而不斷演化,產生一致性或者聚類分離的現象。在線評分的觀點動力學模型中個體的數量不是固定的,而是隨著時間的推進不斷的增加,直到個體數量達到最大值,并且群體內同一個體的觀點發表以后也不會變化。而兩者的相同點在于,個體觀點都是受自身初始觀點和群體觀點的綜合影響。

在在線評分過程中,正在瀏覽評分信息、尚未加入評分群體的個體稱為瀏覽個體。瀏覽個體的觀點受到自身初始觀點和評分群體觀點偏好的共同影響,生成的最終觀點決定是否加入評分群體,如果加入將產生評分行為,進而影響后續瀏覽個體的觀點和行為。

瀏覽個體按照一定的時序關系閱讀在線評分信息,形成自己的觀點傾向來決定是否加入該群體。以影片的在線評分為例,瀏覽用戶通過觀察原有觀眾群對某部影片的在線評分,決定自己是否觀看,如果選擇觀看將進而對其進行在線評分。在線評分的觀點動力學模型將估計瀏覽個體的到達模式并計算他們的最終觀點,確定個體是否加入評分群體,實現對評分群體中個體數量的預測。

2.1 到達模式

假設瀏覽個體閱讀在線評分的時間間隔概率滿足泊松分布。這是一種常用的分布,很多系統的人員到達模式都滿足泊松分布。

在區間[a,a+m]內有l個個體到來的概率與a無關,而只與m和l有關,此概率記為Pl(m):

其中,λ稱為泊松常數。在泊松分布中,個體到達的時間是完全隨機的,僅受到給定的平均到達率λ的限制,λ=n/m表示在單位時間m內平均將有n名瀏覽個體閱讀在線評分。

在第i個產生m個在線評分的時間內,共有n名瀏覽個體依次閱讀在線評分,他們閱讀的評分數間隔滿足泊松分布。這n名瀏覽個體的初始觀點p0為連續觀點,在區間[0,1]內隨機分布。每個瀏覽個體的最終觀點p根據觀點更新模型進行計算,并確定是否加入評分群體。最終有n′i(n′i≤n)名個體加入評論人群,產生評分行為。所以,在k個評分時間后,預測得到的評分數量N′k=∑kn′k,真實的評分數量為Nk=mk。整個預測過程如圖1所示。

圖1 觀點動力學模型對在線評分人數的預測過程

2.2 觀點更新模型

在產生第t(t＞0)個評分時,某個瀏覽個體閱讀了所有的在線評分。此時,基于連續觀點動力學中的觀點更新理論,他的最終觀點p是所有他瀏覽的觀點(包括自身的觀點)的加權求和值,得到:

或者:

式(3)或式(4)是相互等價的,式(3)從群體平均觀點的角度考慮對觀點p0的影響,而式(4)為單個觀點對觀點p0的影響之和取平均值。式(3)和式(4)均可寫成式(1)的形式:

瀏覽個體的最終觀點p表達了其加入評分群體、進行在線評分的偏好。p∈[0,1],其值越大,表示瀏覽個體加入評分群體的意愿越強烈,加入的概率越大。p=0表示個體絕對不會加入,p=1表示其肯定加入。因此,假定瀏覽個體將以概率p加入評分人群。第k批次的n名瀏覽個體根據此模型判斷是否加入評分群體,初始時加入的人數n′k=0,隨著瀏覽個體加入評分,n′k不斷增加。t評分時刻瀏覽個體觀點的處理流程如圖2所示。其中,Rd為區間(0,1)上的隨機數。

圖2 t評分時刻瀏覽個體觀點的處理流程

在第k批次加入后的預測準確率rk為:

其中,kmax表示最大批次值。

3 實驗與結果分析

觀點動力學預測模型采用Matlab 2012a實現,泊松分布數由Matlab內的泊松分布函數產生。實驗數據來源于互聯網上豆瓣網站影片評分的在線數據。該網站上用戶對影片的評分分為1星～5星,映射至區間[0,1]后的觀點值分別為0.2,0.4,0.6,0.8和1.0。為便于模型分析,可以將1星～5星映射為差-中-好評:1星和2星為差評,3星為中評,4星和5星為好評。在差-中-好評分方法中,差評、中評和好評映射的觀點值分別為0,0.5和1。分別采用式(2)和式(5)對評分人數進行預測,通過對預測結果的比較分析,驗證和選擇評分方法和預測模型公式及其參數。

3.1 在線評分的觀點變化

在豆瓣網站影片評分數據庫中隨機選擇3組評分數較多的影片數據,設定泊松分布參數m=400,最終時刻各組評分數如表1所示。

表1 典型數據

各組數據的觀點比例變化如圖3和圖4所示。

圖3 3組數據各觀點比例變化(1星～5星評分方法)

圖4 3組數據各觀點比例變化(差-中-好評分方法)

統計點分別為:m,2m,…,kmaxm。可以看出,這3組數據的評分都比較好,好評率比較高,能夠吸引大量的觀眾觀看影片,進而進行評分。影片的評分數越多,一般說明觀看該影片的觀眾越多。最大的評分數為16 400,最少的評分數為10 000,評分數的多寡受到影片的評分影響。因為人們一般傾向于觀看評分高的影片,觀看過后對影片進行評分,進而影響后續對此影片感興趣的瀏覽用戶的觀點和行為。

從1星～5星的評分方法來看,各個評分的比例隨著評分數的增加都在不斷變化,但變化幅度不斷減小,如圖3所示。從差-中-好評分方法來看,隨著N的增加,各評分比例變化的幅度更小,有趨于穩定的趨勢,能更清楚地反映對評分數量的影響。因此,以下從差-中-好評分方法來進行解釋和說明:隨著評分人數增加,好評率緩慢增加,促進了更多的人觀看影片,進而評分。影片的好評率和觀看人數將相互促進。如果好評率都一直增加,則好評率高的觀影人數會更多,如第1組和第2組的比較結果所示;隨著評分人數增加,初始時好評率下降,中、差評率之和增加,這使得觀看人數增加后勁不足,雖然初始好評率較大。此時觀影人數反而不如初始好評率低于它的影片,如第2組和第3組的比較結果所示。這是因為初始出現的好評率較高,可能來自于商業宣傳和炒作,大批觀眾觀看后,影片真正的評分值逐漸出現,進而影響后續的擬觀看人群的觀點。如果首批觀眾對影片反映良好,將吸引更多的觀眾關注,反之,則使得影片逐漸冷淡,人們對其逐漸失去觀看和評論的興趣。

3.2 模型預測

基于觀點動力學模型在評分數量點m,2m,…,kmaxm處對評分人數進行統計,將預測值與實際值進行比較得到預測的準確率rk。預測系統與真實系統同步運行,模型中個體進行觀點更新時所用的其他個體的觀點數據總是使用當前時刻的真實評分數據,以提高預測的準確率。

在模型中,設平均每400次評分,隨機加入500個瀏覽個體,加入的時間間隔滿足泊松分布λ=1.25,初始觀點服從區間[0,1]上的隨機分布,即m=400,n= 500。個體的最終觀點選擇式(2)和式(5)分別進行計算。統計結果為100次實驗的平均值。圖5和圖6所示的是采用式(2)、式(5)的計算方法以及2種不同的評分統計方法的評分數量預測準確率?？梢钥闯?采用相同的式(2)或式(5)進行計算,1星～5星評分方法的平均準確率的增長速度普遍來說都要略低于差-中-好評分方法。不同的是,采用式(2)平均準確率隨著N的增加達到峰值后趨于緩慢下降,而式(5)則是初始時迅速上升而后緩慢增加。在相同的評分方法下,式(2)的預測準確率大大優于式(5),由此可見如果加大對個體初始觀點的權重將不利于觀點的預測,使得與實際情況不符。

圖5 采用式(2)時平均預測準確率隨N的變化

圖6 采用式(5)時平均預測準確率隨N的變化

由式(2)和式(5)的觀點計算方法所得到的結果進行比較,個體的初始觀點對其觀點的形成影響應該較小,主要是受到群體的平均觀點的影響。這也是符合實際的情況,因為一般來說,個體初始時對影片的認識比較模糊,不能確定其是否真正值得一看,所以主要通過閱讀其他已觀看該影片的人員的評分來輔助自己做出觀看與否的決定。在相同的觀點計算公式下,采用差-中-好評分方法計算得到的預測準確率普遍較1星～5星評分方法的高,可以更準確地預測實際個體的觀點和行為,這說明雖然1星～5星評分方法所包含的信息更多、更加詳細,但是在實際的決策過程中,人們對評分的粒度并不要求如此細致,只需了解差-中-好評分的數量,就可做出較為符合實際情況的決策。

綜合比較,式(2)的計算方法和差-中-好評分方法所對應的預測準確率較好,在較大范圍內保持了較高的準確率,如圖5(b)所示。雖然本文只有選擇3組數據進行研究,但是經過檢驗對其他的豆瓣影片在線評分數據都有相似的結果,采用式(2)和差-中-好評分方法,評分數的最終平均預測準確率均能達到0.9左右或以上。

3組數據最終的預測平均準確率及其總的均值隨泊松常數λ的變化規律如圖7所示,其中,取m= 400,n=350,400,450,500,550,600,650,即λ= 0.875,1.0,1.125,1.25,1.375,1.5,1.625?？梢钥闯?平均準確率隨參數λ呈分段線性關系,每組數據都有一個最優的λ值,在此最優值前,準確率呈線性增長,此后呈線性下降,上升與下降的速率相當。這說明單位時間內,過多或者過少的瀏覽個體數量都不利于在線評分人員數量的預測,與最優λ值相距越遠,預測準確率將越低。綜合3組數據,對其準確率求平均值,可以得出最優λ值為1.25左右,這也是在前面實驗中選擇λ=1.25的原因。

圖7 采用式(2)和差-中-好評分方法的最終平均預測準確率

各組評分比例的變化趨勢表明:影片的好評率和觀評分人數將相互促進,好評率緩慢增加,促進了更多的人觀看影片,進而評分。在同種變化趨勢下,好評率更高的影片的觀影人數會更多。但是如果初始時好評率下降,中評率和差評率之和增加,使得評分人數增加后勁不足,最終評分人數反而不如初始時好評率低于它而好評率一直上升的影片。

模型的實驗結果較為準確地預測了在線評分的人數,說明個體的觀影以及在線評分行為傾向符合觀點動力學模型的假設。從預測的效果來看,采用式(2)即個體的觀點取所有群體觀點(包括自身觀點)的平均值以及差-中-好評分方法較好。這說明個體的觀點以及行為傾向受其初始觀點的影響很小,受群體平均觀點的影響較大。并且其關注的評分等級也只需3級,過于細致的評分反而不利于個體觀點和行為的預測,這也是許多評分網站將評價等級只需定為3級的原因。預測準確率受泊松常數λ的影響,存在最優的參數值(1.25),偏離該值越遠預測準確率將越低。

4 結束語

本文通過建立在線評分觀點影響的動力學模型,同時考慮個體的初始觀點的重要性和評分的粒度影響,提出采用2種不同的觀點更新方式和評分方法對豆瓣網站的影片在線評分人數進行分析和預測。實驗結果表明,本文所提出的觀點動力學模型能夠對個體觀點進行準確預測,同時揭示了評分比例變化對在線評分人員數量影響的若干現象和規律,結論有利于加深對瀏覽個體在閱讀在線評分后的觀點和行為的理解。后續工作將考慮評分發布的具體時間序列因素以及個體對其他個體評分的評價信息,進一步對在線評分的觀點動力學進行研究。

[1] Xia Haoxiang,Wang Huili,Xuan Zhaoguo.Opinion Dynamics:A Multidisciplinary Review and Perspective on Future Research[J].InternationalJournalof Knowledge and Systems Science,2011,2(4):72-91.

[2] Castellano C,Fortunato S,Loreto V.Statistical Physics of Social Dynamics[J].Reviews of Modern Physics, 2009,81(2):591-646.

[3] 王龍,伏鋒,陳小杰,等.復雜網絡上的群體決策[J].智能系統學報,2008,3(2):95-108.

[4] Galam S,Gefen Y,Shapir Y.Sociophysics:A New Approach of Sociological Collective Behavior[J].The Journal of Mathematical Sociology,1982,9(1):1-13.

[5] Sznajd-Weron K,Sznajd J.Opinion Evolution in Closed Community[J].InternationalJournalofModern Physics C,2000,11(6):1157-1165.

[6] Holley R,Liggett T.Ergodic Theorems for Weakly Interacting Infinite Systems and the Voter Model[J]. Annals of Probability,1975,3(4):643-663.

[7] Galam S.Minority Opinion Spreading in Random Geometry[J].European Physical Journal B,2002, 25(4):403-406.

[8] Deffuant G,Neau D,Amblard F,et al.Mixing Beliefs Among Interacting Agents[J].Advances in Complex Systems,2000,3(1-4):87-98.

[9] Hegselmann R,Krause U.Opinion Dynamics and Bounded Confidence Models,Analysis,and Simulation [J].Journal of Artificial Societies and Social Simulation, 2002,5(3):1-8.

[10] Gandica Y,del Castillo-Mussot M,Vázquez G J,et al. Continuous Opinion Model in Small-world Directed Networks[J].Physica A,2010,389:5864-5870.

[11] Li Pingping,Zheng Dafang,Hui P M.Dynamics of Opinion Formation in a Small-world Network[J]. Physical Review E,2006,73.

[12] 羅植,楊冠瓊,狄增如.具有空間因素的社會網絡上的輿論形成[J].物理學報,2012,61(19).

[13] 何敏華,張端明,王海艷,等.基于無標度網絡拓撲結構變化的輿論演化模型[J].物理學報,2010,59(8): 5175-5181.

[14] Wang Ru,Chi Liping,Cai Xu.Opinion Dynamics on Complex Networks with Communities[J].Chinese Physics Letters,2008,25(4):1502-1505.

[15] Fu Feng,Wang Long.CoevolutionaryDynamicsof Opinions and Networks:From Diversity to Uniformity [J].Physical Review E,2008,78.

[16] Sobkowicz P.Modelling Opinion Formation with Physics Tools:Call for Closer Link with Reality[J].Journal of Artificial Societies and Social Simulation,2009,12 (1):11.

[17] Bernardes A T,Stauffer D,Kertesz J.Election Results and the Sznajd Model on Barabasi Network[J]. European Physical Journal B,2002,25:123-127.

[18] 萬巖,張涵.在線點評模式下的輿論動力學模型研究[J].北京郵電大學學報:社會科學版,2012, 14(4):9-14.

編輯金胡考

Number Prediction for Online Rating Based on Opinion Dynamics

SU Jiong-minga,LIU Bao-hongb,LI Qib,MA Hong-xua
(a.College of Mechatronics Engineering and Automation;b.College of Information System and Management, National University of Defense Technology,Changsha 410073,China)

Most studies of opinion dynamics adopt Agent-based modeling and simulation for theoretical research and have serious gap with the real social problems.Aiming at this problem,this paper verifies and improves the interpretation and forecasting capabilities of the model with social statistical data of online rating.On the process of online rating,the individual opinion is influenced by its initial opinion and the group’s opinions.The final opinion determines whether the individual to join the group and makes a rate or not.The rating of the individual affects the opinions and the behaviors of subsequent individuals.A simple dynamic model with continuous opinion based on this process is introduced to predict the number of personnel in online rating.It carries out experiments with the online rating data of film on the Internet website of Douban and analyses the effects of change of score proportion.Experimental results show that the model can effectively predict the number of online rating;Individual final opinion is mainly affected by the opinions of bad-normalgood in the group and almost has nothing to do with its initial opinion;The larger deviation of the Poisson parameter to optimum value leads to the lower accuracy of prediction.

online rating;opinion dynamics;model prediction;continuous opinion;Poisson distribution;experimental verification

1000-3428(2014)10-0155-06

TP18

10.3969/j.issn.1000-3428.2014.10.030

國家自然科學基金資助項目(61374185)。

蘇炯銘(1984-),男,博士,主研方向:人工智能,群決策支持系統,觀點動力學;劉寶宏、李琦,副教授、博士;馬宏緒,教授、博士、博士生導師。

2013-10-24

2013-12-16E-mail:sjm.nudt@gmail.com

中文引用格式:蘇炯銘,劉寶宏,李琦,等.基于觀點動力學的在線評分人數預測[J].計算機工程,2014,40(10): 155-160,167.

英文引用格式:Su Jiongming,Liu Baohong,Li Qi,et al.Number Prediction for Online Rating Based on Opinion Dynamics[J].Computer Engineering,2014,40(10):155-160,167.