張霄宏,王盼盼,王雅萍,翟海霞
1(河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000)2(河南理工大學(xué) 測繪與國土信息工程學(xué)院,河南 焦作 454000)
近幾年,隨著移動智能設(shè)備的大量使用和各種社交網(wǎng)絡(luò)應(yīng)用的不斷推出,移動社交網(wǎng)絡(luò)迅速興起并受到了廣泛關(guān)注[1].然而,大量移動社交網(wǎng)絡(luò)用戶頻繁地上傳和下載信息(比如文本、圖片、視頻、音頻等)急劇地消耗移動通信網(wǎng)絡(luò)帶寬資源,給底層的通信網(wǎng)絡(luò)帶來沉重的負(fù)擔(dān).為了減輕移動通信網(wǎng)絡(luò)的負(fù)擔(dān),基于Device-to-Device技術(shù)(D2D)的移動社交網(wǎng)絡(luò)開始出現(xiàn)[2-5].這類網(wǎng)絡(luò)借助D2D技術(shù)傳輸信息,不消耗移動通信網(wǎng)絡(luò)帶寬資源,但要求用戶只有在物理位置鄰近時才能進(jìn)行信息傳輸.因此,基于D2D的移動社交網(wǎng)絡(luò)中的用戶行為與現(xiàn)實(shí)社會網(wǎng)絡(luò)中的用戶行為更為接近.
社交網(wǎng)絡(luò)中的用戶行為分析可以用用戶忠誠度、用戶畫像、用戶影響力等進(jìn)行刻畫.其中,用戶影響力與輿情導(dǎo)向、廣告投放等密切相關(guān),具有非常重要的研究和應(yīng)用價值.
然而,現(xiàn)有的研究在對用戶影響力進(jìn)行度量時,卻存在四個方面的問題.第一,大量的用戶影響力度量標(biāo)準(zhǔn)比較泛化,缺乏針對性.具體來講,在度量影響力時只考慮用戶的總體影響力,而未充分考慮用戶對某一領(lǐng)域的影響力[6].雖有極少的研究者考慮到了領(lǐng)域因素,但領(lǐng)域劃分標(biāo)準(zhǔn)存在爭議.比如,微博的內(nèi)容劃分大多是用算法對用戶所發(fā)內(nèi)容進(jìn)行分析處理并進(jìn)行領(lǐng)域劃分[7],領(lǐng)域歸屬較模糊.第二,未考慮到影響力的全局性(從社交網(wǎng)絡(luò)全局角度分析所有用戶行為和用戶傳輸信息的特征)和局部性(從用戶個體角度分析傳輸文件信息的行為特征)[8].第三,度量用戶影響力時,模糊了用戶的易被影響程度、影響他人的能力以及影響力最大化的問題[9].第四,以Xender為代表的、致力于文件共享的D2D移動社交網(wǎng)絡(luò)沒有回復(fù)數(shù)、被提及數(shù)等在計(jì)算用戶影響力時常用的因素,關(guān)于微博、Twitter等的影響力研究成果不能用來評估該類網(wǎng)絡(luò)中的用戶影響力.因此,需要開展基于D2D技術(shù)的用戶影響力研究工作.
本文通過分析真實(shí)D2D移動社交網(wǎng)絡(luò)中的文件分享日志,挖掘用戶在分享文件時的特征,并根據(jù)這些特征建立了多維用戶影響力模型.該模型不僅考慮了某種類型文件自身的傳播性以及用戶對該類型文件的接觸率等全局性因素,同時也考慮了用戶個體發(fā)送某類型文件的概率以及用戶對類型文件的偏好等局部性因素.
Rogers等[10]將更容易影響其他人的個體定義為“影響力個體”.Cialdini等[11]將個人行為直接或者間接地影響其他人的觀點(diǎn)、情感以及行為定義為“社會影響力”.Aggarwal等[12]將因網(wǎng)絡(luò)中其它用戶的影響而產(chǎn)生個人行為的改變定義為“社會網(wǎng)絡(luò)中的影響力”.張玥等[13]在PageRank算法基礎(chǔ)上提出了用戶影響力排序算法MAR用以識別網(wǎng)絡(luò)論壇中有影響力用戶.Cha等[14]通過分析微博用戶的粉絲數(shù)、被提及數(shù)以及微博轉(zhuǎn)發(fā)數(shù),發(fā)現(xiàn)大部分高影響力用戶在許多主題中都具有高影響力.Bakshy等[15]針對大量的潛在影響力,提出了影響力均值的概念.Jin等[16]討論了用戶之間的社會連接和互動、考慮了移動環(huán)境中的社會行為的特點(diǎn).段松青等[17]提出了基于傾向性轉(zhuǎn)變的用戶影響力排序方法.王楠等[18]在評估SNS網(wǎng)絡(luò)用戶影響力時考慮了區(qū)域交互的影響.
近幾年,在研究[19-22]用戶影響力時也開始考慮用戶領(lǐng)域這一因素.朱郭峰等[19]結(jié)合微博內(nèi)容的跨領(lǐng)域性和領(lǐng)域交叉性,根據(jù)微博內(nèi)容與所屬領(lǐng)域的相關(guān)性對微博進(jìn)行領(lǐng)域劃分,從而更準(zhǔn)確的計(jì)算用戶在各個領(lǐng)域的影響力.李敏等[20]以嘀咕網(wǎng)在線用戶數(shù)據(jù)為對象,對用戶發(fā)布的信息內(nèi)容進(jìn)行領(lǐng)域分類,并度量了用戶在不同領(lǐng)域的影響力.肖宇[21]提出了Weibo-Rank用戶傳播影響力識別算法,該算法在PageRank算法的基礎(chǔ)上對不同領(lǐng)域用戶的影響力進(jìn)行計(jì)算.
上述關(guān)于社交網(wǎng)絡(luò)用戶影響力的研究多是針對微博、Twitter[19,21-25]等應(yīng)用,而在基于D2D技術(shù)的移動社交網(wǎng)絡(luò)中還鮮有關(guān)于用戶影響力的研究.同時,上述研究多以微博數(shù)、關(guān)注度、轉(zhuǎn)發(fā)數(shù)、被提及數(shù)、粉絲數(shù)等作為用戶影響力建模的參數(shù),建立影響力模型.而在Xender用戶所構(gòu)成的基于D2D的移動社交網(wǎng)絡(luò)中并沒有粉絲數(shù)、關(guān)注度等概念,因此需要研究適用于此類網(wǎng)絡(luò)的影響力建模和分析方法.
本文收集了Xender的日志數(shù)據(jù),這些日志記錄了用戶分享文件的活動.通過分析這些數(shù)據(jù)可以找出與用戶影響力密切相關(guān)的因素.
Xender(閃傳)[5,26]是一款面向智能移動設(shè)備的文件共享軟件,利用D2D技術(shù)為多種類型的文件提供傳輸服務(wù).Xender用戶通過相互之間的文件傳輸活動形成了一個基于D2D技術(shù)的移動社交網(wǎng)絡(luò).由于采用D2D技術(shù),Xender用戶只有在物理位置臨近時才能進(jìn)行文件傳輸,Xender用戶組成的移動社交網(wǎng)絡(luò)與真實(shí)的社會網(wǎng)絡(luò)更為接近.本文主要對D2D移動社交網(wǎng)絡(luò)中的用戶影響力進(jìn)行分析.
我們收集了Xender的日志數(shù)據(jù),所有日志文件都進(jìn)行了脫敏處理,去除了用戶敏感信息.這些日志信息時間跨度長達(dá)一個月,數(shù)據(jù)總量達(dá)560GB.Wang等在文獻(xiàn)[5]中對日志數(shù)據(jù)的屬性信息做了詳細(xì)介紹,本文僅關(guān)注5個屬性,分別是Content Name(文件名)、Content Md5(文件Md5值)、Content Type(文件類型)、Sender ID(發(fā)送者ID)和Receiver ID(接收者ID).
由于數(shù)據(jù)規(guī)模較大,我們專門搭建了一個基于Hadoop的云平臺來處理該數(shù)據(jù).云平臺的硬件和軟件信息如表1.

表1 數(shù)據(jù)平臺信息Table 1 Data platform information
為使本文易于理解,文中多處借用特殊記號對重要內(nèi)容進(jìn)行闡述.表2展示了本文采用的各個記號及其含義.

表2 本文所用記號及含義Table 2 Marks and meanings used in this article


圖1 文件傳播場景Fig.1 File dissemination scenario
為了度量用戶在傳播文件時的傾向性,引入了類型用戶的定義.
定義1. 類型用戶:如果用戶分享了某類型的文件,則此用戶屬于對應(yīng)類型用戶.
具體來講,ui如果分享了ti類型的文件,則ui為ti類型用戶.
為了刻畫用戶之間的關(guān)系及用戶間傳遞文件的喜好引入了好友和類型好友的定義.
定義2. 好友:如果一個用戶給另一個用戶分享了一個文件,則這兩個用戶互為好友.
具體來講,ui如果分享了一個文件給uj,則ui和uj互為好友.
定義3. 類型好友:如果一個用戶給另一個用戶分享某種類型的文件,則這兩個用戶互為對應(yīng)類型好友.
具體來講,如果ui給uj分享了一個tk類型的文件,則ui和uj互為tk類型好友.
在圖1中,u2、u3、u4是u1的好友,u2、u3、u4是u1的t1類型的好友.u2、u3是u1的t2類型的好友.u3、u4是u1的t3類型的好友.由圖可知,u1有3個好友,即Fsum(u1)的值為3;u1有3個t1類型好友,即Fsum(u1,t1)的值為3.u1的t2類型好友數(shù),即Fsum(u1,t2)的值為2,u1的t3類型好友數(shù),即Fsum(u1,t3)的值為2.
文件傳播過程包括用戶與用戶、用戶與文件兩方面.在度量用戶的影響力時應(yīng)充分考慮用戶與用戶之間的關(guān)系和用戶之間傳輸內(nèi)容兩大因素.其中,用戶與用戶之間的關(guān)系包括用戶的好友數(shù)和類型好友數(shù);用戶之間傳輸內(nèi)容包括用戶發(fā)出的文件數(shù)量和類型文件的數(shù)量兩個方面.
通過對數(shù)據(jù)的初步分析,發(fā)現(xiàn)用戶之間分享文件的類型包括 App、Audio、File、Folder、Image、Music、Video等文件類型.其中,Image類型文件分享次數(shù)最多,其次是Video和Audio類型的文件.這三類文件的分享次數(shù)占文件分享總次數(shù)的比率高達(dá)91.5%,而Folder、Music、File三類文件的分享比率相對較少.各類型文件的分享比率如圖2所示.
我們分析了用戶分享文件的類型情況.通過分析發(fā)現(xiàn),50%左右的用戶只分享了一種類型的文件,只有不到20%左右的用戶分享了三種類型的文件.圖3展示了用戶分享不同類型文件的情況.由圖可知,隨著文件類型的增多,參與分享的用戶迅速減少.這說明用戶對分享的文件有很強(qiáng)的傾向性.我們還對各類型用戶進(jìn)行比較,結(jié)果如圖4所示.由圖可知,Video、App、Image、Audio類型的用戶數(shù)所占比率較大,達(dá)到了97.9%.而Folder、File、Music類型的用戶數(shù)相對較少.

圖2 類型文件分享數(shù)Fig.2 Share times of different types of files

圖3 用戶分享文件類型數(shù)Fig.3 Number of file types shared by each user

圖4 類型用戶數(shù)Fig.4 Type user number
在圖2和圖4中,App、Audio、Image、Video類型的用戶數(shù)和文件分享數(shù)占比較大.文件分享數(shù)和類型用戶數(shù)之間并不是正比關(guān)系,即文件分享數(shù)大并不意味著相應(yīng)的類型用戶數(shù)多.比如,App類型文件分享數(shù)占比較少,但App類型用戶卻占比較大;Image類型文件分享數(shù)占比最大,但其用戶數(shù)卻占并不是最高.這說明用戶在分享文件時有很強(qiáng)的傾向性,喜好明顯.綜合以上分析,本文認(rèn)為在以Xender為代表的、致力于文件共享的D2D移動社交網(wǎng)絡(luò)中,用戶參與文件傳播的程度和用戶對傳播內(nèi)容的偏好等因素對用戶影響力有直接影響.
本文將用戶影響力表達(dá)為一個多維向量,每一維表示用戶對一種類型文件傳輸?shù)挠绊懥?影響力的維度由社交網(wǎng)絡(luò)中傳播的文件類型總數(shù)m決定,影響力的計(jì)算模型則與文件傳播特性、用戶傳播行為等方面的因素相關(guān).
在D2D移動社交網(wǎng)絡(luò)中,用戶ui與各個好友之間的不同文件類型的文件傳輸行為可以用矩陣表示.
其中,矩陣的每一列代表用戶ui與其某一好友之間的文件傳輸行為;矩陣的每一行代表用戶ui與其各個好友之間的傳輸某一類型文件的行為.故,此m×n矩陣表示用戶ui有n個好友,傳輸了m種文件類型的文件.其中,ckj表示用戶ui給用戶uj傳輸tk類型文件的文件總數(shù).
模型fri(ui,uj,tk)用來判斷用戶uj是否為用戶ui的tk類型好友,該模型由式(1)描述.若fri(ui,uj,tk)=1則用戶uj是用戶ui的tk類型好友.反之,則不是.據(jù)此,用戶ui的tk類型好友數(shù)Fsum(ui,tk)可依式(2)計(jì)算,用戶ui發(fā)送的tk類型文件總文件數(shù)Dsum(ui,tk)可依式(3)計(jì)算,用戶ui發(fā)送的總文件數(shù)Dsum(ui)可依式(4)計(jì)算.
(1)
(2)
(3)
(4)
本文用多維向量描述用戶影響力,每個向量分量表示用戶對某類型文件的影響力.本文引入了用戶接觸率和用戶擴(kuò)散率來描述用戶參與文件傳播的程度和用戶對文件類型的偏好,并利用這兩個概念來刻畫影響力分量.
定義4. 用戶接觸率:指用戶為某種特定類型用戶的概率,反映用戶參與傳播特定類型文件的可能性.具體來講,用戶對tk類型文件的接觸率可記為Touch(tk),其值可根據(jù)式(5)計(jì)算.
(5)
特別說明,若用戶多次發(fā)送同一文件給同一用戶,文件傳輸次數(shù)按一次計(jì)算.
定義5. 文件擴(kuò)散率:指傳輸?shù)哪硞€文件為某種特定類型的概率. 具體來講,傳輸?shù)奈募閠k類型的概率即為該類文件的擴(kuò)散率,記為Spread(tk),其值可根據(jù)式(6)計(jì)算.
(6)
Ik表示用戶對tk類型文件傳輸?shù)挠绊懥Γ筛鶕?jù)式(7)進(jìn)行計(jì)算.
(7)
根據(jù)式(2)、(3)和(4),式(7)可轉(zhuǎn)換為式(8)

(8)
基于以上分析用戶的綜合影響力表示為:
(9)


(10)
根據(jù)多維度用戶影響力計(jì)算模型度量用戶對各類型文件傳輸?shù)挠绊懥Γ脩粲绊懥Ψ至坑?jì)算結(jié)果如圖5所示.
在圖5中,App、Audio、Image、Video類型用戶影響力取值范圍主要集中在100-103之間,F(xiàn)older、File、Music類型用戶影響力取值范圍主要集中在100-101之間.這是因?yàn)镕older、File、Music類型用戶數(shù)比其他四種類型用戶數(shù)少,而且這三種類型文件分享數(shù)比其他四種類型文件分享數(shù)也少.各類型用戶影響力取值均符合長尾分布,則說明高影響力值的各類型用戶人數(shù)較少,而低影響力值的各類型用戶人數(shù)較多,也就是說,少部分人影響大部分人.

圖5 用戶影響力分量Fig.5 User influence component

圖6 用戶影響力Fig.6 User influence
從用戶總影響力角度分析,用戶數(shù)與用戶影響力之間的關(guān)系如圖6所示.在圖6中,用戶影響力取值范圍主要集中在100-103之間.人數(shù)最多的用戶影響力取值在101左右說明大部分用戶的總體影響力不高,而擁有極低或極高的用戶總體影響力的用戶人數(shù)很少.
本文主要研究致力于文件共享的D2D移動社交網(wǎng)絡(luò)中的用戶影響力.通過對傳輸文件進(jìn)行分類,建立基于文件類型的用戶影響力模型,并利用該模型在真實(shí)數(shù)據(jù)集上對用戶影響力進(jìn)行了分析.分析結(jié)果表明:
1)用戶對不同類型文件的影響力不同;
2)用戶的影響力值與對應(yīng)用戶數(shù)成長尾分布.
下一步將開展對用戶綜合影響力的研究和評價工作.