張亞茹, 唐錫晉
(1.中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,北京 100190;2.中國科學(xué)院大學(xué),北京 100049)
當今社交媒體迅速發(fā)展,越來越多的人習(xí)慣通過微博、論壇和媒體網(wǎng)站瀏覽感興趣的內(nèi)容,獲取網(wǎng)絡(luò)輿情,參與話題討論,發(fā)表個人所感.Mohbey 等[1]以意大利選舉期間的帖子為語料,定義了政治界主要討論的農(nóng)業(yè)、基礎(chǔ)設(shè)施建設(shè)、教育以及就業(yè)等9 大類選舉問題,并使用深度學(xué)習(xí)方法將用戶發(fā)表的言論劃分為上述9類,以預(yù)測用戶關(guān)注的焦點.目前也有許多關(guān)于輿情事件與社會網(wǎng)絡(luò)用戶影響力的研究.學(xué)者們研究了確定高影響力事件,抽取事件要素的方法[2,3],開展了文本聚類、話題分析等工作[4?6].對于社會網(wǎng)絡(luò)中用戶影響力的研究,主要是從用戶網(wǎng)絡(luò)屬性,用戶行為方式和互動規(guī)律,用戶距離等角度出發(fā)進行探索的[7?11].隨著粉絲經(jīng)濟,直播帶貨,廣告推薦,新聞推送的興起,挖掘網(wǎng)民興趣偏好,精準定位用戶群,為不同群體推薦其感興趣的事物,對于提高網(wǎng)絡(luò)營銷效益,及時獲取民意具有重要意義.Liao 等[12]研究了一種基于關(guān)聯(lián)規(guī)則的推薦方法.首先通過問卷調(diào)查考察了多種社會網(wǎng)絡(luò)用戶進行在線社會網(wǎng)絡(luò)營銷的經(jīng)歷.接著根據(jù)這些用戶的網(wǎng)絡(luò)行為和偏好對他們聚類,并探索用戶畫像、社會網(wǎng)絡(luò)管理、社會網(wǎng)絡(luò)行為、在線購買行為、社會網(wǎng)絡(luò)營銷以及個性化推薦間的關(guān)聯(lián).最后基于關(guān)聯(lián)規(guī)則得到的知識圖為每個群體推薦其可能會購買的物件.用戶分組的效果是群體推薦的關(guān)鍵.
社會網(wǎng)絡(luò)用戶的分組依賴于圖上的社區(qū)劃分.目前已有許多對單部圖進行社區(qū)劃分的方法,如基于模塊度優(yōu)化的算法[13],基于節(jié)點表示學(xué)習(xí)的方法[14,15].由于現(xiàn)實中存在很多包含兩種節(jié)點類型的二部圖,學(xué)者們也研究了二部圖上的社區(qū)劃分方法.二部圖的社區(qū)劃分,分為兩種情形,一種是在整個二部圖上同時對兩種類型的節(jié)點進行社區(qū)劃分,另一種是通過某種方式將二部圖映射為僅包含同一節(jié)點類型的單部圖,從而對每一類節(jié)點執(zhí)行單部圖上的社區(qū)劃分.對于前者, 主要是在單部圖社區(qū)劃分算法基礎(chǔ)上改進距離度量方式[16],或者是模塊度衡量方式[17,18].這類方法沒有區(qū)分節(jié)點類型,未充分利用二部關(guān)聯(lián)關(guān)系.Tackx等[19]提出COMSIM 算法用于二部圖社區(qū)劃分.首先以同類節(jié)點的共同鄰居數(shù)作為單部圖中相應(yīng)邊的權(quán)重(節(jié)點間的相似度),接著將映射得到的單部圖中每個環(huán)具有最大連接權(quán)重的兩節(jié)點作為各社區(qū)的核心,最后對于每個非核心節(jié)點選擇其與社區(qū)所有節(jié)點間相似度總和最大的社區(qū)作為其所屬社區(qū).該方法通過直接映射的方式獲取單部圖,會造成節(jié)點連接稠密,且包含相似性不高的連邊.Cui 等[20]使用二部網(wǎng)絡(luò)中的單部社區(qū)結(jié)構(gòu)實現(xiàn)節(jié)點聚類.首先通過二部網(wǎng)絡(luò)的拓撲性質(zhì),構(gòu)造二部聚類三角形,接著通過這種二部聚類三角形將二部網(wǎng)絡(luò)映射為兩個加權(quán)的單部網(wǎng)絡(luò),然后從加權(quán)的單部網(wǎng)絡(luò)中抽取全部最大子圖,通過聚類閾值合并最大子圖實現(xiàn)節(jié)點聚類.該方法基于對子圖的合并得到社區(qū),可能會造成同一社區(qū)多種不一致子類節(jié)點群的情況.已有的社會網(wǎng)絡(luò)用戶分組研究主要根據(jù)用戶畫像相似性、直接的交互關(guān)系建立用戶間的連邊,進而借助單部圖的社區(qū)劃分算法得到用戶群[21?23].但是面臨著很多用戶未填寫個人信息或者所提供信息與分組類別關(guān)聯(lián)性不大、大型社會網(wǎng)絡(luò)中用戶連接稀疏等瓶頸.社交媒體中的用戶按照熱度,可以分為兩個層級,一類是發(fā)布熱點話題的熱門用戶或者頂級用戶,另一類是普通用戶,通常普通用戶傾向與熱門用戶建立社會關(guān)系,如回復(fù)、轉(zhuǎn)發(fā)等,此關(guān)聯(lián)可能蘊含了用戶的話題偏好.如果能夠利用這種關(guān)聯(lián)進一步衡量頂級用戶間的相似性,那么將為用戶分組提供新思路.
社會影響力研究用于獲取社會網(wǎng)絡(luò)層面富有影響力的關(guān)鍵節(jié)點,而對于個體層面的自我網(wǎng)絡(luò),則更關(guān)注與其關(guān)聯(lián)緊密的群體,以及他們間的交互、相互作用.已有的相關(guān)研究大多集中于后者,如預(yù)測個體所發(fā)帖子的回復(fù)者,預(yù)測回復(fù)內(nèi)容等.回復(fù)者預(yù)測是網(wǎng)絡(luò)用戶回復(fù)行為研究方向的熱點,按照任務(wù)設(shè)定有分類、排序兩大類方法.Schantl 等[24]基于回復(fù)者關(guān)注話題與帖子話題相似性這一話題特征,描述社會關(guān)系的社會特征,以及帖子流行特征來對用戶是否會回復(fù)某條帖子進行二分類預(yù)測,并發(fā)現(xiàn)相比于話題偏好,社會關(guān)系是更為重要的回復(fù)行為影響因子.Yuan 等[25]基于互惠、時序和上下文特征考慮友誼關(guān)系動態(tài),并結(jié)合排序模型預(yù)測用戶的哪些朋友將更有可能回復(fù)其發(fā)布的某條帖子.但是很多時候用戶的好友僅僅點贊或者瀏覽,特別是對于頂級用戶,好友關(guān)系并不是一個用于預(yù)測回復(fù)者的較為有效的社會特征.如果事先識別出用戶的歷史重要回復(fù)者,并添加這一社會關(guān)系特征可增加預(yù)測的準確性.本文聚焦于確定個體的歷史重要回復(fù)者,即易與該個體建立回復(fù)關(guān)系的群體,這將有助于回復(fù)者預(yù)測任務(wù)的開展,且在消息傳播機制中,其它用戶的回復(fù)也加大了原帖的可見性,因此對于用戶發(fā)布的負面新聞,輿情管理者通過限制其重要回復(fù)者的發(fā)言或制約消息傳播;對于用戶發(fā)布的正面新聞,即時推送給重要回復(fù)者,引起追隨,加速消息傳播.
Saracco 等[26]提出了一種基于熵的空模型——二部配置模型(bipartite configuration model,BICM),實現(xiàn)了將二部圖映射為單部圖,這為二部圖上單模節(jié)點的社區(qū)劃分提供了可能.已有基于該模型的實際應(yīng)用,如在世界貿(mào)易網(wǎng)絡(luò)中,確定國家群以及產(chǎn)品群;在用戶影評網(wǎng)絡(luò)中,確定電影的分組;以關(guān)于選舉的帖子為數(shù)據(jù)源,根據(jù)未驗證用戶對驗證用戶的轉(zhuǎn)帖行為,確定用戶的政治聯(lián)盟,考慮用戶與帖子間的發(fā)帖與轉(zhuǎn)發(fā)貼有向關(guān)系識別社會網(wǎng)絡(luò)的重要傳播者[27].受以上研究工作的啟發(fā),本文嘗試將BICM 應(yīng)用到社交媒體場景下頂級用戶、帖子和普通用戶間基于發(fā)帖關(guān)系以及回復(fù)關(guān)系的二部圖中,期望獲取具有不同話題偏好的用戶組,并識別頂級用戶的重要回復(fù)者.相較于文獻[28]在移動情境感知環(huán)境下挖掘用戶行為模式,以開展精準營銷的個性化推薦服務(wù),本文所開展的用戶分組研究工作則強調(diào)從個體行為獲取群體特征,以推動下游基于群體的新聞推薦的任務(wù).具體的,以天涯論壇為例,視天涯雜談版塊“年度拾英”用戶為頂級用戶,頂級用戶一年內(nèi)在天涯雜談發(fā)帖的回復(fù)者為普通用戶,由普通用戶的回復(fù)行為使用BICM 建立頂級用戶間的連邊,進而對圖劃分,實現(xiàn)頂級用戶分組,并根據(jù)用戶發(fā)帖類型探索每組用戶的話題偏好.接著根據(jù)普通用戶對各頂級用戶組的極化回復(fù),確定普通用戶組別.再建立頂級用戶與發(fā)帖間的二部圖、全部回復(fù)者與回帖間的二部圖,聯(lián)合BICM 與二部部分配置模型(bipartite partial configuration model,BIPCM)確定頂級用戶的重要回復(fù)者.通過該方式得到的每組用戶,內(nèi)部關(guān)聯(lián)緊密,外部稀疏連接,且具有較為一致的話題偏好.獲取的重要回復(fù)者對相應(yīng)的頂級用戶依附度很高,是相應(yīng)頂級用戶的高概率消息受體及反饋者.此外,發(fā)現(xiàn)存在重要回復(fù)者的頂級用戶多發(fā)表負面情緒的新聞,此時重要回復(fù)者帶有負面情緒的回復(fù)也居多.因此對于影響網(wǎng)絡(luò)環(huán)境的負面新聞,除了對相應(yīng)發(fā)帖人進行管控外,限制重要回復(fù)者的回復(fù)也很重要.
天涯論壇是目前中國最活躍的論壇之一,包括天涯雜談、時尚資訊和球迷一家等多個版塊,其中天涯雜談是關(guān)于民生的版塊,它以一年內(nèi)用戶在該版塊所發(fā)帖子的總點擊量為排序指標,給出了前80 位天涯拾英用戶,本文以之為頂級用戶,于2019–11–07 爬取這些頂級用戶過去一年中的發(fā)帖,發(fā)帖下的回復(fù)(并解析得到各頂級用戶的回復(fù)者),用戶畫像,以及頂級用戶所做的回復(fù).其中2 位用戶因為被封殺或者刪除賬戶無法爬取.
頂級用戶一年內(nèi)在天涯雜談的發(fā)帖共566 條,一年內(nèi)在天涯雜談回復(fù)的帖子數(shù)共742 條,使用自然語言處理中的預(yù)訓(xùn)練模型Bert1https://zhuanlan.zhihu.com/p/48612853表示每個帖子標題向量,形成1 308×768 的二維數(shù)組,已有研究表明低維度的向量聚類效果更好[4],因此本文訓(xùn)練自編碼器,將768 維數(shù)據(jù)壓縮到2 維.
具體的,從均隸屬于天涯雜談版塊的頂級用戶發(fā)帖以及所回復(fù)的原貼的標題向量中選取1 108 條作為訓(xùn)練集,另外的200 條作為測試集,設(shè)置一個編碼器與一個解碼器,當解碼得到的向量與原向量的均方差損失很小時,以編碼器結(jié)果作為標題低維向量表示.設(shè)置batch_size = 64,當?shù)啍?shù)為200 時,訓(xùn)練損失達到0.068 7,測試集損失達到0.065 0,迭代終止,保存模型,得到高維向量編碼結(jié)果.?
使用K-Means 對表達成二維向量的頂級用戶一年內(nèi)在天涯雜談的發(fā)帖進行聚類,根據(jù)帖子標題向量在二維坐標系中的分布,本文將簇數(shù)設(shè)置為4,最終得到的4 個帖子簇分別是日常生活型,社會風(fēng)險型,故事敘述型,地區(qū)風(fēng)險型.圖1 分別顯示每位用戶各種類型發(fā)帖數(shù)目以及比例.發(fā)帖數(shù)目多的用戶,其發(fā)帖類型呈現(xiàn)多樣性,但仍有偏重.
使用K-Means 對二維向量表示的頂級用戶一年內(nèi)在天涯雜談所回復(fù)的原帖對應(yīng)的標題聚類,仍然聚集成了上述4 種類型的簇.圖2 分別顯示每位用戶回復(fù)的帖子中各種類型帖子的數(shù)目以及比例.

圖2 頂級用戶回復(fù)的帖子類型分布Fig.2 Distribution of types of posts replied by top users
各用戶回復(fù)的帖子類別分布與發(fā)貼類別分布相似,這種相似性源于用戶的話題偏好.
若要實現(xiàn)對頂級用戶的分組,一種以發(fā)帖類型為指導(dǎo)的方法是將用戶歸到發(fā)帖類型最多的那一組.但是這種方式忽略了用戶興趣的多樣性與不同類別帖子間的關(guān)聯(lián)性.下面介紹二部配置模型,并應(yīng)用該模型實現(xiàn)頂級用戶分組.
R,S分別表示頂級用戶集與普通用戶集,各自有NR,NS位用戶.若某用戶s回復(fù)過頂級用戶r的發(fā)帖,則建立兩者間的無向連邊.該部分旨在根據(jù)普通用戶的回復(fù)行為,確定相似的頂級用戶,以實現(xiàn)分組.單射指的是若兩個頂級用戶有共同回復(fù)者則建立兩者間的連邊,但僅僅依據(jù)單射,會形成一個較為密集的頂級用戶網(wǎng)絡(luò),并且這種相似性很不可靠.一般來說,只有兩個頂級用戶擁有統(tǒng)計意義上足夠多的共同鄰居,才能夠認為它們是相似的,如圖3 中r1,r2用戶有3 個共同回復(fù)者,若“3”為統(tǒng)計意義上的“大量”,那么可以認為這兩個頂級用戶間存在相似性連邊.BICM 提供了一種假設(shè)檢驗的方法來確定兩頂級用戶間連邊的存在性,這使得頂級用戶間的相似性連接更可信.
在同節(jié)點的所有可能圖中某種圖結(jié)構(gòu)M 出現(xiàn)的概率可表示為

若設(shè)定兩種類型節(jié)點的連接概率為prs,mrs為圖M 的0/1 鄰接矩陣中相應(yīng)的值,則圖M 出現(xiàn)的概率也可使用下列概率公式表示,即

綜合式(1)和式(2),可得

用〈kr〉,〈ks〉表示兩類節(jié)點的期望度,k?r,k?s為兩類節(jié)點的實際度,最大化實際圖出現(xiàn)的概率,兩者的關(guān)系為進而有

其中LM為二部圖M 中實際的邊數(shù),則得到兩類節(jié)點的連接概率prs=k?rk?s/LM.
對于任意的兩個頂級用戶r,r′有共同回復(fù)者s的概率Pr(V srr′)=prspr′s=(k?rk?s/LM)(k?r′k?s/LM),兩者的期望回復(fù)者數(shù)目以及實際回復(fù)者數(shù)目分別為

假設(shè)r,r′之間不存在連邊(即r,r′的共同回復(fù)者不是足夠的多),以Vrr′作為代表r,r′間共同回復(fù)者數(shù)目的隨機變量,取值范圍0,1,...,NS,其服從泊松二項分布fPB,Sn為全部可能的S中的n節(jié)點集構(gòu)成的集合,則

不等式右邊較小,為了簡化計算,用泊松分布代替泊松二項分布,則泊松分布以期望值〈Vrr′〉為參數(shù).
得到系列φ后,使用多重檢驗方法FDR 對原假設(shè)進行聯(lián)合檢驗.將計算得到的φ從小到大排列

設(shè)t=0.05,求滿足φ(i)≤it/C2NR的i最大值i?,并以φ(i?)為閾值,拒絕小于等于閾值的原假設(shè),確定頂級用戶間連邊.當兩頂級用戶沒有共同回復(fù)者時,V ?rr′=0,因為NS很大,φ接近1,肯定會接受原假設(shè),即兩者間不存在連邊.
頂級用戶與普通用戶的二部圖中共有43 336 個節(jié)點,66 963 條邊.如果采用文獻[19]的方法,對頂級用戶單射后,得到78 個節(jié)點,1 635 條加權(quán)邊,其中的71 個節(jié)點形成一個最大的閉環(huán),其余7 個節(jié)點與該閉環(huán)相連,則最終會形成一個社區(qū),無法區(qū)分不同用戶組.
使用上述BICM 確定頂級用戶間的相似性連邊, 得到頂級用戶單模網(wǎng)絡(luò).使用基于模塊度優(yōu)化的Louvain 算法[13]對網(wǎng)絡(luò)進行社區(qū)劃分.頂級用戶網(wǎng)絡(luò)包含78 個節(jié)點,520 條邊,平均聚類系數(shù)0.635,圖密度0.173.經(jīng)圖劃分后得到4 個大的用戶組,另有6 個孤立節(jié)點.
為說明每個社區(qū)用戶的話題偏好,統(tǒng)計各社區(qū)頂級用戶發(fā)布各種類型帖子的數(shù)目,結(jié)果如圖4 所示.

圖4 各社區(qū)頂級用戶發(fā)帖類型統(tǒng)計Fig.4 Statistics of post types of top users in each community
圖4 中,C0 頂級用戶組的發(fā)帖以故事敘述型為主,另有部分日常生活型,少部分社會風(fēng)險型;C1 頂級用戶組的發(fā)帖以日常生活型為主,兼具故事敘述型與社會風(fēng)險型;C2 頂級用戶組發(fā)帖以社會風(fēng)險型為主,另有部分日常生活型及少量地區(qū)風(fēng)險型與故事敘述型;C3 頂級用戶組發(fā)帖以地區(qū)風(fēng)險型為主,兼具社會風(fēng)險型,日常生活型.
圖5 為頂級用戶社區(qū)分布圖,各個社區(qū)基本呈現(xiàn)內(nèi)部連接緊密,外部稀疏連接的狀態(tài),但C0 與C1 社區(qū)外部連接也相對緊密,這是由于故事敘述型發(fā)帖與日常生活型發(fā)帖兩者間存在共性.介數(shù)中心性最大的前4 個節(jié)點: (49)“cotton 2000”(日常生活型與故事敘述型對半)、(58)“厚黑教主李宗吾”(社會風(fēng)險、地區(qū)風(fēng)險對半)、(2)“少華集團高董”(地區(qū)風(fēng)險)和(24)“百財2019”(故事敘述型、日常生活型、社會風(fēng)險型和地區(qū)風(fēng)險型),從這些用戶所在社區(qū)與發(fā)帖類型來看,確實起著連接各社區(qū)的中介作用.

圖5 頂級用戶社區(qū)分布Fig.5 Top user community distribution
為進一步說明每個社區(qū)用戶話題的偏好性,提取每個主貼的前20 個TextRank 關(guān)鍵詞,帖子標題的前3個TextRank 關(guān)鍵詞.將每個頂級用戶組的發(fā)帖關(guān)鍵詞合并,取詞頻最大的前10 個關(guān)鍵詞(對于第10 位次的詞語,則將其相同詞頻的詞語一并陳列):
C0(故事敘述型為主):[(‘沒有’,7),(‘人類’,6),(‘人生’,6),(‘朋友’,5),(‘理論’,5),(‘孩子’,5),(‘七絕’,5),(‘世界’,4),(‘原理’,4),(‘中國’,4),(‘引力’,4),(‘速度’,4),(‘光速’,4),(‘宇宙’,4),(‘時間’,4)];
C1(日常生活型為主):[(‘沒有’,39),(‘時候’,34),(‘開始’,25),(‘感覺’,24),(‘孩子’,15),(‘知道’,13),(‘覺得’,13),(‘看到’,12),(‘事情’,12),(‘生活’,12),(‘早起’,12),(‘鍛煉’,12),(‘可能’,12)];
C2(社會風(fēng)險型為主):[(‘圖片’,66),(‘沒有’,52),(‘發(fā)布’,49),(‘問題’,41),(‘社會’,30),(‘造成’,27),(‘不能’,27),(‘進行’,26),(‘知道’,26),(‘需要’,25)];
C3(區(qū)域風(fēng)險型為主):[(‘公司’,18),(‘沒有’,18),(‘有限公司’,13),(‘法院’,12),(‘相關(guān)’,11),(‘投資’,10),(‘詐騙’,6),(‘法律’,6),(‘事實’,6),(‘項目’,6),(‘證據(jù)’,6),(‘師范類’,6)].
C0 社區(qū)中的“人生”、“七絕”體現(xiàn)出用戶在論壇中談?wù)撟约旱慕?jīng)歷以及連載個人小說; C1社區(qū)中的“孩子”、“生活”表現(xiàn)出用戶發(fā)布日常生活中的問題等;C2 社區(qū)的特征詞“問題”、“社會”、“造成”體現(xiàn)了用戶關(guān)注社會風(fēng)險型話題;C3 社區(qū)中的“公司”、“法院”和“詐騙”等體現(xiàn)了用戶談?wù)摰氖悄硞€機構(gòu)或者某個管轄區(qū)域的風(fēng)險.
上文使用第三方普通用戶來建立頂級用戶間的連邊,并對頂級用戶網(wǎng)絡(luò)做了社區(qū)劃分.各社區(qū)頂級用戶的實際交互情況如圖6 所示.圖6 的橫坐標表示每個頂級用戶組,縱坐標表示所回復(fù)各社區(qū)的總?cè)藬?shù).C2中的頂級用戶回復(fù)的其它用戶最多,其中大部分為C2 中的人.C3 組的用戶所回復(fù)的用戶也大多處在C3組.這是由于同一社區(qū)中的用戶偏好相似,往往會產(chǎn)生交互,也說明了本文社區(qū)劃分的合理性.

圖6 各社區(qū)頂級用戶實際交互情況Fig.6 Actual interaction of top users in each community
考慮二部圖中度大于等于2 的普通用戶(回復(fù)的頂級用戶數(shù)目多于1),計算每位普通用戶回復(fù)每個組的頂級用戶數(shù)占總數(shù)目的比例,若最值僅一個且大于0.25,認為出現(xiàn)了極化,得到7 253 位極化用戶.
根據(jù)比例,極化于C0 的普通用戶組,將其歸到I0 普通用戶組,計算I0 組中普通用戶對各頂級用戶組回復(fù)比例的平均值,以相同的方式計算普通用戶的其它組別,得到極化熱度圖(圖7).分布結(jié)構(gòu)顯示普通用戶極化現(xiàn)象明顯,特別是I3 對于C3 社區(qū)的極化較為突出,即地區(qū)風(fēng)險型話題更容易引起極化.

圖7 普通用戶極化熱度圖Fig.7 Polarization heat map of ordinary users
極化分析根據(jù)回復(fù)體現(xiàn)的話題偏好實現(xiàn)了普通用戶的分組.將C3 與I3 用戶合并,該組別的用戶偏向于關(guān)注地區(qū)風(fēng)險型話題.圖8 對這些用戶所在地進行了統(tǒng)計,網(wǎng)民參與了關(guān)于太原師范大學(xué)校園暴力,張家口化工廠爆炸,內(nèi)蒙古赤峰市2 000 名入學(xué)師范類定向大專生就業(yè)派遣訴求的地區(qū)風(fēng)險型事件的討論,而該組別中山西、河北和內(nèi)蒙古的用戶居多,即該組用戶主要集中在風(fēng)險發(fā)生地.其它3 個相應(yīng)的合并用戶組中用戶主要所在地基本都為北京、廣東和江蘇等.

圖8 關(guān)注于地區(qū)風(fēng)險型話題的用戶所在地Fig.8 Location of users focusing on regional risk topics
上文基于用戶發(fā)帖與回帖所體現(xiàn)的話題偏好實現(xiàn)了頂級用戶與普通用戶的分組,并說明了社區(qū)劃分的合理性,這有助于為各組別用戶精準推薦其感興趣的帖子,并進一步獲取民意.而根據(jù)這種回復(fù)關(guān)系,尋找每位頂級用戶的歷史重要回復(fù)者,對于回復(fù)者預(yù)測具有重要意義.由于在論壇中,通過用戶界面的回復(fù)歷史,就可以溯源到相應(yīng)原貼,因此回復(fù)行為會擴大消息的傳播.重要回復(fù)者是頂級用戶眾多回復(fù)者中較為穩(wěn)定的一部分,當頂級用戶發(fā)布負面新聞時,通過限制這些重要回復(fù)者的發(fā)言,有利于及時阻滯負面消息的傳播,加強網(wǎng)絡(luò)治理.當頂級用戶發(fā)布正面新聞時,即時推送給重要回復(fù)者,引起追隨,起到加速消息傳播的效果.下面將結(jié)合兩個二部圖以及相應(yīng)模型嘗試尋找頂級用戶的重要回復(fù)者.
R,Q,C分別表示頂級用戶集,帖子集,收集到的全部用戶集,節(jié)點數(shù)目分別為NR,NQ,NC.圖9 為基于發(fā)帖與回帖關(guān)系的聯(lián)合二部圖,圖中的兩個部分,一個表示發(fā)帖關(guān)系,另一個表示回貼關(guān)系.若某用戶回復(fù)了另外一位用戶統(tǒng)計意義上的大部分帖子,那么,認為這個用戶是另外一位用戶的重要回復(fù)者,如c2為r1的重要回復(fù)者.

圖9 基于發(fā)帖與回帖關(guān)系的聯(lián)合二部圖Fig.9 Joint bipartite graph based on post and reply relationship
利用圖9 中的兩個二部圖, 尋找頂級用戶的重要回復(fù)者.將左邊的二部圖記為M1, 右邊的二部圖記為M2,則Pr(M1)=
M1中帖子的度都為1,不需要對其度進行限制,因此采用二部部分配置模型來獲取頂級用戶r發(fā)布帖子q的概率prq,則

圖M2仍采用二部配置模型,按照式(1)~式(3),類似地得到用戶c回復(fù)帖子q的概率pcq=k?ck?q/LM2,其中LM2為圖M2中的實際邊數(shù).
普通用戶c回復(fù)了頂級用戶r的發(fā)帖q的概率Pr()=prqpcq=k?rk?ck?q/(NQLM2),普通用戶c回復(fù)了頂級用戶r的期望帖子數(shù)〈Vrc〉與實際帖子數(shù)分別為

對于R,C中的每一組節(jié)點(共NRNC組),假設(shè)c不是r的重要回復(fù)者(即c回復(fù)r的帖子不是足夠的多).令隨機變量Vrc代表c回復(fù)r的帖子數(shù),取0,1,2,...,NQ,其服從式(4)所示的泊松二項分布fPB,Qn為全部可能的帖子集Q中的n節(jié)點集構(gòu)成的集合.

進而

如果從超過平均值的角度確定頂級用戶的重要回復(fù)者,計算過程分為兩步:
1)對于僅回復(fù)過一個頂級用戶,且回帖數(shù)目(指回復(fù)頂級用戶發(fā)布的不同帖子的數(shù)目)不為1 的用戶,初步確定其為該頂級用戶的重要回復(fù)者.除此以外,若用戶回復(fù)某個頂級用戶的帖子數(shù)超過其平均回帖水平,則初步認為該用戶為相應(yīng)頂級用戶的重要回復(fù)者;
2)對于初步確定的重要回復(fù)者,如果其對相應(yīng)頂級用戶的回帖數(shù)超過該頂級用戶所有回復(fù)者回帖數(shù)目的平均值,則將其確定為該頂級用戶的重要回復(fù)者.
考慮78 位頂級用戶所發(fā)布的452 條帖子以及涉及到的43 237 位回復(fù)者,使用上述方法,得到4 783 對重要回復(fù)關(guān)系,3 742 位重要回復(fù)者,統(tǒng)計重要回復(fù)者對相應(yīng)頂級用戶的回復(fù)比例(回復(fù)該頂級用戶的帖子數(shù)目/總回貼數(shù)目),繪制圖10 所示的頻數(shù)分布直方圖.圖10 表明4 個區(qū)間頻數(shù)相差不大.

圖10 回復(fù)比例分布圖Fig.10 Distribution of reply proportion
如果從回復(fù)比例角度確定頂級用戶的重要回復(fù)者,首先排除回復(fù)頂級用戶帖子數(shù)全為1 的回復(fù)者、發(fā)帖數(shù)目僅為1 的頂級用戶, 若某回復(fù)者回復(fù)某頂級用戶的帖子數(shù)與該頂級用戶總發(fā)帖數(shù)之比大于75%,將其視為相應(yīng)頂級用戶的重要回復(fù)者.得到110 對重要回復(fù)關(guān)系, 它們在上述4 個區(qū)間的分布比例為63:15:14:17,重要回復(fù)者對頂級用戶的依附不強.
根據(jù)發(fā)貼關(guān)系與回貼關(guān)系建立兩個二部圖,結(jié)合5.1 節(jié)的模型,從統(tǒng)計意義上確定每位用戶的重要回復(fù)者.有65 位頂級用戶有重要回復(fù)者,共計8 546 對重要回復(fù)關(guān)系,重要回復(fù)者8 543 位,幾乎一位回復(fù)者依附于一位頂級用戶.圖11 統(tǒng)計了頂級用戶回復(fù)者的數(shù)目.

圖11 各頂級用戶總回復(fù)者數(shù)目與重要回復(fù)者數(shù)目Fig.11 Total number of responders and number of important responders per top user
在這8 546 對重要回復(fù)關(guān)系中,有8 471 對的重要回復(fù)者僅僅回復(fù)了該頂級用戶的一個帖子,再無其它發(fā)言.統(tǒng)計另外175 對中重要回復(fù)者的回復(fù)比例,圖12 為頻數(shù)分布直方圖.

圖12 175 對重要回復(fù)關(guān)系中回復(fù)比例分布圖Fig.12 Distribution of reply proportion in 175 important reply relationships
圖12 中有122 對重要回復(fù)關(guān)系,其重要回復(fù)者對所依附的頂級用戶的回復(fù)比值達到75%以上,相比于圖10,回復(fù)偏重性明顯.因此本文提出的基于統(tǒng)計驗證確定頂級用戶重要回復(fù)者的方法,在保證重要回復(fù)者回復(fù)頂級用戶足夠多帖子的同時, 也保證了重要回復(fù)者對頂級用戶的回復(fù)偏重, 且自動給予了“足夠多”、“偏重”合理的限定.175 對重要回復(fù)關(guān)系中包含22 位存在重要回復(fù)者的頂級用戶,這些用戶中有9 個屬于C3 社區(qū)(以地區(qū)型風(fēng)險發(fā)帖為主),6 個屬于C2 社區(qū)(以社會型風(fēng)險發(fā)帖為主),4 個屬于C1 社區(qū)(以日常生活型發(fā)帖為主),其余3 個是不在社區(qū)內(nèi)的孤立節(jié)點,由此可見,關(guān)注于風(fēng)險型話題的頂級用戶易存在重要回復(fù)者.
本小節(jié)將分析頂級用戶發(fā)帖內(nèi)容情感極性與重要回復(fù)者相應(yīng)回復(fù)內(nèi)容情感極性間的關(guān)系.由于天涯雜談帖子正文通常很長,且多引用事例,而標題一般概括了作者的態(tài)度,因此,本文僅考慮帖子標題.因為旨在探索首次回復(fù)關(guān)系的建立,僅考慮重要回復(fù)者對相應(yīng)帖子的第一次回復(fù).
具體的, 對于每位存在重要回復(fù)者的頂級用戶, 使用百度情感分析API2https://ai.baidu.com/tech/nlp/sentiment classify分析其全部重要回復(fù)者對其發(fā)帖的回復(fù)及相應(yīng)帖子標題對(總計2 958 對)的情感極性,獲取正面情緒發(fā)帖–正面情緒回復(fù),正面情緒發(fā)帖–負面情緒回復(fù),負面情緒發(fā)帖–負面情緒回復(fù),負面情緒發(fā)帖–正面情緒回復(fù)的比例,見圖13.

圖13 頂級用戶不同情感對比例分布Fig.13 Proportion distribution of top users’different emotion pairs
這些頂級用戶多發(fā)表負面情緒的新聞,且負–負比值大于負–正比值的用戶有11 個,前者小于后者的用戶有5 個,兩者相等的用戶有6 個.這說明了在負面情緒新聞居多,負面情緒易被重要回復(fù)者放大的網(wǎng)絡(luò)環(huán)境中,識別重要回復(fù)者并在相應(yīng)頂級用戶發(fā)表極負面新聞情境下對該重要回復(fù)者進行制約的重要性.
本文以天涯論壇為例,定義頂級用戶與普通用戶,開展了用戶分組與重要回復(fù)者識別研究工作.用戶分組研究借助于二部配置模型,通過第三方普通用戶的統(tǒng)計意義上足夠多的回復(fù)行為來構(gòu)建頂級用戶網(wǎng)絡(luò),進而實現(xiàn)頂級用戶社區(qū)劃分.不僅所得到的相似性連邊是可信的,而且避免了由直接回復(fù)關(guān)系構(gòu)建頂級用戶稀疏單模網(wǎng)而無法劃分社區(qū)的后果.帖子標題聚類結(jié)果表明網(wǎng)民們關(guān)注的話題包含日常生活型、社會風(fēng)險型、故事敘述型、地區(qū)風(fēng)險型4 大類,得到的4 個用戶組各自主要發(fā)帖類型對應(yīng)這4 個帖子簇類型,同組的用戶具有相似的話題偏好,且交互密切.對于普通用戶,則以回復(fù)行為能夠體現(xiàn)興趣偏好為視角,使用極化分析的方法確定所屬組別.用戶分組有助于下游任務(wù)——用戶個性化推文,這對于網(wǎng)絡(luò)精準營銷與民意及時獲取具有實際意義.本文著眼于使用統(tǒng)計驗證的方法確定頂級用戶的重要回復(fù)者,從而推動回復(fù)者預(yù)測研究.具體的,結(jié)合了BICM 與BIPCM 兩種模型建模發(fā)帖和回帖關(guān)系的二部圖,這是對于配置模型僅用于單一二部圖的擴展.篩選出的重要回復(fù)者,不僅是經(jīng)過驗證的高頻回復(fù)者,且對相應(yīng)頂級用戶的回復(fù)偏重性明顯.此外,發(fā)現(xiàn)存在重要回復(fù)者的頂級用戶多發(fā)表負面情緒的新聞,此時重要回復(fù)者帶有負面情緒的回復(fù)也居多.因此,識別重要回復(fù)者并適時對其進行制約有助于輿情管理與凈化網(wǎng)絡(luò)環(huán)境.
文章所建立的回復(fù)關(guān)系二部圖未考慮權(quán)重,多次回復(fù)與單次回復(fù)在強度上還是有差異的,今后嘗試將頻次因素加入到研究中,探索其對實驗結(jié)果的影響,并進一步分析這種影響是否帶來了本質(zhì)的改變.未來也將參考不同流派的研究工作,集成各自優(yōu)勢,改進模型.