郭 奕,徐 亮,熊雪軍
西華大學 電氣與電子信息學院,成都610039
移動互聯網技術的應用已經取得卓越成效,催生了各種各樣的社交平臺,全球每天有數十億人活躍在互聯網中,消息的傳播速度、傳播廣度、影響力與日俱增。人們既是消息的接收者,也是傳播者和生產者,能在網絡中進行觀點輸出,對商業產品、公共事件以及政府政策等事物發表自己的看法。社交網絡中的每個個體都會受到其他個體觀點的影響或擁有影響其他個體觀點的能力。但是每個個體影響其他個體的能力大小不同,在社交網絡的消息傳播過程中,對普通個體的觀點或行為具有極強的引導力和影響力的那些人可以被稱為意見領袖。
社交網絡中的意見領袖挖掘(opinion leader mining),又稱意見領袖識別(opinion leader identification)或意見領袖發現(opinion leader discovery),其實質是在復雜的社交網絡中,找出那些對其他個體的觀點形成、行為趨勢起著重要作用的少數個體。挖掘出這些少數個體并發揮他們的特殊作用,可以在政治、經濟、社會等領域產生積極效果。政治上可以促進政府政策與制度的宣傳與實施,經濟上可以幫助企業推廣產品,社會上一方面可以引起大家對社會公共問題的廣泛討論、引領輿論的方向、引導社會價值取向朝著健康方向發展;另一方面可以針對網絡上的輿情進行監控,預防和及時處理重大輿論事件,維護社會穩定。
本文參考了眾多學者的論文,主要包括收錄于SCI 和IEEE Xplore 中的期刊論文、會議論文以及CNKI 上的碩博畢業論文。這些論文對“意見領袖”的起源、挖掘、應用這三方面進行了廣泛的研究,給本文提供了豐富的參考資源。中英文檢索關鍵詞如表1 所示。對于在CNKI上檢索到的文獻進行了摘要關鍵詞詞頻分析,生成詞云圖如圖1 所示,從中可以看出意見領袖挖掘所用到的技術和應用場景。
本文首先詳細闡述了意見領袖的定義和特點以及挖掘意見領袖的意義;然后整理了現有的意見領袖挖掘方法,將其歸納為四類實現方法,并分別闡述了這四類實現方法的基本思想、關鍵技術以及各自的優缺點;最后,結合現有方法的不足以及相關領域的最新研究動態,探討了意見領袖挖掘的未來研究方向。

Table 1 Retrieve keywords表1 文獻檢索關鍵詞

Fig.1 Wordcloud of keywords圖1 文獻關鍵詞詞云圖
“意見領袖”一詞起源于拉扎斯菲爾德的著作《人民的選擇》[1],書中拉扎斯菲爾德定義了兩級傳播理論,即消息的傳播遵循這樣一個過程:消息由大眾媒體經過意見領袖再傳到普通受眾。拉扎斯菲爾德等人認為,意見領袖最先知曉消息,根據自己經驗、知識對消息進行處理,再將其傳播給其他普通個體。對消息的處理工程中往往包含他們自己的觀點,這對他人的態度,甚至是行為起著重要的導向作用。
有很多學者對社交網絡中意見領袖做出了解釋,目前并沒有一個比較權威的定義,但是這些定義大都體現了意見領袖對人們態度、觀點、行為的影響[2-5]。經過總結,本文將意見領袖定義為:在社交網絡的消息傳播過程中,對普通個體的觀點或行為具有極強的引導力和影響力,直接或間接地推動普通個體觀點的形成,影響其觀點傾向甚至是行為趨勢,擴大了消息的傳播廣度和深度的少數個體。
意見領袖可以分為三類:觀點型意見領袖、群體型意見領袖、事件型意見領袖[6]。意見領袖對普通個體展現出的強大影響力與他們自身的特點密不可分,而不同意見領袖往往具有不一樣的特點。
觀點型意見領袖:這一類意見領袖往往具有一定的專業性,掌握了一個或多個領域一定的專業知識,擁有較為權威的背景和豐富的經驗。在相關的網絡社區中,他們的觀點往往能被多數人認可。
群體性意見領袖:這一類意見領袖可能并不是在某一領域的專家,但是他們擁有豐富的信息資源和廣泛的關注度。例如一些官方媒體或自媒體賬號,他們憑借高超的信息整合能力也能形成較為專業的內容而被大眾廣泛接受。
事件型意見領袖:這一類意見領袖指的是某個熱點事件的主體或與之相關的人。他們可能不具備專業性,但因為他們處于熱點事件之中從而擁有廣泛的關注度,他們的觀點、行為同樣對大眾擁有極強的影響力,只是這種影響力具有一定的時效性,大多會隨著事件熱度的降低而逐漸消失。
其中事件型意見領袖隨熱點事件而產生,通過熱點事件就能夠發現,本文提到的意見領袖挖掘,主要是指觀點型意見領袖與群體型意見領袖。
在社交網絡的消息傳播過程中,意見領袖既有積極影響也有消極影響。積極的影響力包括:設置網絡議事日程、掌握輿論走向、吸引眾人發聲。消極的影響力包括:濫用話語權、誤導受眾群體[7]。
積極的影響力可以加以利用,而消極的影響力則應當得到管控。目前意見領袖在眾多領域中都發揮著極其重要的作用。在商業營銷中,意見領袖可以提高商品的知名度,開展更加吸引人的互動式營銷,以此來提高商品的銷量[8-10];在輿情監控方面,意見領袖對社會輿論的方向有一定的引導作用,挖掘出意見領袖有助于對社會網絡輿情進行有效的引導和防控[11];在政策宣傳方面,通過意見領袖對政策的廣泛傳播能夠讓大眾了解政策的內容并引發討論,使民眾積極參與到政策的制定過程中,這有助于政策的推行和完善。
根據所采用的技術不同,本文將現有的意見領袖挖掘方法歸納為四類,分別為基于評分規則的方法、基于社交網絡圖的方法、基于影響傳播模型的方法、多維融合的方法。下文將分別闡述這些方法的基本思想、關鍵技術以及各自的優缺點。
2.1.1 方法概述
基于評分規則的意見領袖挖掘方法的主要思想是為社交網絡中的用戶影響力建立一定的評價規則,利用這些規則來衡量一個用戶是否為意見領袖。其實現思路如圖2 所示,基本步驟如下:
步驟1選取特定的用戶信息作為特征信息;
步驟2基于選定的特征信息構建評分公式;
步驟3根據評分公式計算所有用戶的得分并排序,將得分高的用戶視為意見領袖。

Fig.2 Methods based on scoring rules圖2 基于評分規則的方法
這類方法的關鍵在于選取哪些用戶信息作為特征信息,以及如何基于這些信息來構建評分公式。因此,基于此方法的研究成果主要集中在特征信息的選取和評分規則的構建這兩方面。
2.1.2 特征信息選取
網絡社交平臺上可以提取出用戶的眾多信息,其中主要包含屬性信息和行為信息。不同的平臺含有的用戶信息不同,本文以包含用戶信息較多的新浪微博平臺為例,列出了該平臺中擁有的用戶信息類型及具體內容,如表2 所示。

Table 2 Users'information on Weibo表2 微博平臺用戶信息
目前并沒有研究或者理論表明,哪種用戶信息最能體現用戶的意見領袖特性,即便是“粉絲數”這樣能直接反映用戶影響力的信息都會因為“水軍”和“僵尸粉”等因素的干擾而使得其可信度降低。因此研究者們都是從邏輯推理的角度選擇適當的用戶信息作為特征信息。如張倩基于發布推文數量、轉發數量、回復數量等作為特征信息,提出用戶領導力(包括用戶活躍度、用戶影響力、用戶擴散中心度)計算公式來確定最終的意見領袖[12]。Li等人以轉發、評論、發文、瀏覽行為等為特征信息,提出以專業性、創新性、影響力和活躍度的綜合值來選出意見領袖[13]。袁竹星提出3 個一級指標(用戶歷史活躍度、用戶歷史傳播力、用戶活躍度)和8 個二級指標(包括原創微博活躍度、粉絲數、被轉發數等)來計算用戶的初始影響力[14],如表3 所示。

Table 3 Example of feature extraction表3 特征信息提取示例
2.1.3 評分規則的構建
目前的評分規則多種多樣,主流方式是提取多種特征信息進行線性或非線性組合,也有提取較少的特征信息并引入其他理論構建的評分規則。本小節主要從特征信息、創新點和局限三方面分析三個典型的評分規則,如表4 所示。
TTV(total trust value)由Aghdam 等人提出[15],僅僅選取了用戶的評論數作為特征信息,基于此計算JC(Jaccard)系數來衡量某一用戶與其他用戶信任關系強度,其評分公式便于計算,但特征信息僅僅包含用戶的評論數,準確性不高;帶懲罰項的評分公式由王君澤等人提出[16],其在一定程度上能夠抑制數據中的一些非自然現象的影響,優化領袖的識別結果,但這要求懲罰項設置要合理,否則效果適得其反;MilestonesRank 由Riquelme 等人提出[17],Milestones的提出意味著不同時段的數據所能夠表征的用戶重要性程度不同,邏輯上這符合社交平臺中話題討論的規律,考慮時間因素,提高了意見領袖的識別結果,實現過程相比于其他一般的評分規則稍加復雜。

Table 4 Comparison among three scoring rules表4 三個評分規則的比較
2.1.4 方法述評
某些社交網絡中蘊含了許多能夠反映意見領袖特征的信息,基于評分規則的方法充分利用這些信息來構建評分規則對用戶進行評分,從而挖掘意見領袖。當可以獲得的用戶信息比較單一時,構建的評分規則并不能夠很好地體現用戶在社交網絡中的重要性。因此該方法僅僅適用于擁有較為豐富的用戶信息的場景。在構建評分規則之前,應當結合實際的應用場景挑選反映領袖特質的用戶信息作為特征信息。多數評分規則是特征信息之間的線性組合,因此分析不同特征信息之間的關系及其重要性程度以構建合理的評分規則尤為重要。
基于評分規則的最大的優點在于原理簡單,復雜度低,能夠在較短時間內獲取較為可靠的結果,適用于大型網絡。然而,此方法也存在著如下不足:(1)此方法會對社交網絡中所有用戶進行無差別的計算,但意見領袖是少數用戶,大多數用戶明顯不可能是意見領袖,這無疑耗費了大量不必要的時間和算力;(2)遷移性差,不同社交網絡蘊含的用戶信息不同,針對某一社交網絡設計的規則無法遷移到另一社交網絡中進行使用;(3)片面性,僅僅考慮了一些數量信息,沒有考察社交網絡中的文本信息和用戶間的拓撲結構關系。
2.2.1 方法概述
如果將社交網絡中每一個用戶看成一個節點,用戶之間各種交互行為,比如點贊、轉發、評論等蘊含了這些節點之間的某種聯系。如果把這種聯系用連接節點之間的線來表示,那么社交網絡就可以被表示為一個復雜的社交網絡圖。社交網絡圖中蘊含著豐富的拓撲結構信息,于是大量的研究從用戶間拓撲結構的角度探索用戶重要性的計算方法,進而挖掘出意見領袖,該方法的實現過程如圖3 所示。

Fig.3 Procedure of method based on social network圖3 基于社交網絡圖的方法處理流程
從圖3 中可以看出,基于社交網絡圖的意見領袖挖掘方法的重點在于社交網絡圖的構建以及節點重要性的計算,下面將分別對這兩個重點內容的研究進行介紹。
2.2.2 社交網絡圖的構建
一般來說社交網絡圖可以被定義為G=(V,E,W)。其中V代表節點集合,即社交網絡中的所有用戶;E是連接用戶之間的邊的集合,邊代表節點之間的聯系;W代表各邊的權重集合,可以表征節點之間聯系的強弱。將圖抽象為數學表達即可以表示為一個鄰接矩陣。
權重的確定可以根據實際網絡中用戶間的交互關系來確定,例如肖宇等人通過BBS 網絡中用戶共同參與討論的次數來確定權重[18],仇麗青等人通過用戶之間發布微博數與轉發數的比例作為權重[19]。
根據網絡圖有向或無向,有權重或無權重,可以構建出有向有權網絡圖、有向無權網絡圖、無向有權網絡圖、無向無權網絡圖,如圖4 所示。
有向網絡中節點間交互是單向的,而無向網絡中節點間交互是雙向的。針對不同類型的社交網絡,就可以構建不同的社交網絡圖。例如在知乎這樣的問答網絡中,問題回答者占主導地位,則可以理解為有向網絡,節點方向由回答者指向提問者和其他閱讀者。相比于知乎,微博這樣的社交平臺中會存在大量的評論信息,評論者的影響力不可忽略,可以理解為無向網絡。
2.2.3 重要性計算
社交網絡圖中的重要性計算主要是從拓撲結構角度對網絡中所有節點的重要性進行衡量,反映網絡中節點在網絡中的位置或拓撲關系的重要性。本小節主要分析圖論中常見的幾個中心性度量指標以及經典的PageRank 算法。

Fig.4 Four types of social network graph圖4 四類社交網絡圖
(1)中心性度量
中心性是衡量網絡中節點重要性的指標,早在20 世紀Freeman 就提出了兩種節點中心性指標:度中心性(degree centrality,DC)和中介中心性(betweenness centrality,BC)[20]。后續又有人提出了接近中心性(closeness centrality,CC)和特征向量中心性(eigenvector centrality,EC)[21]等多種中心性衡量指標,它們的含義如表5 所示,表中N代表網絡中的節點數量。

Table 5 Four types of centrality measures表5 四種中心性度量指標
度中心性在無向圖中表征某一節點與網絡鄰居節點的關聯程度,是節點直接的、局部的重要性衡量指標[20,22];接近中心性表征的是網絡中某一節點與其他節點的接近程度,以節點之間的距離表征節點的重要性程度[23-25];中介中心性表示經過節點vi的最短路徑數,即網絡中其他節點之間的最短路徑必須經過節點vi,這樣的路徑越多則表示該節點對信息傳播越重要[20,26-27];特征向量中心性是一種同時考慮鄰居節點數量及其重要性的衡量指標[28-29],更能反映社交網絡中的用戶間關系,其中PageRank 的應用和研究最為廣泛,故在后文單獨進行分析。
(2)PageRank 及其改進
PageRank 由Page 和Brin 于1998年提出[30],本質上屬于Eigenvector Centrality 中的一種,被用于計算網頁的重要性,其計算表達式如式(1)所示。式中N為網頁數量,PR(pi)代表網頁pi的PageRank值,M(pi)是指向網頁pi的所有網頁的集合,L(pj)是網頁pi所指向網站的數量,d是一個值為0 到1 的阻尼系數,經實驗驗證將d設為0.85 比較合適[31-32]。

將PageRank 算法應用于意見領袖挖掘任務時主要存在兩個問題:
問題1原始算法中每個節點的初始PR 值相同,這與社交網絡中不同節點間影響力大小不同的情況不符,該如何確定節點影響力初值?
問題2原始算法中節點PR 值平均分配給與其相連的節點,這與社交網絡中同一個節點對不同節點的影響力大小不同的情況不符,該如何確定節點影響力分配權重?
研究者們對上述問題進行算法改進,形成了多種更加適用于社交網絡中意見領袖挖掘的算法,較為典型的如表6 所示。從表中可以看出改進后的PageRank 算法通過將用戶的屬性信息和行為信息納入考慮,解決了初值問題和權重問題。雖然各種方法采用的數據集或評價指標不同,但可以肯定的是,它們都不同程度地提高了挖掘效果。除此之外,文獻[39-41]也對PageRank 進行了改進,但是基本思路與表格中方法的思路類似,故而沒有列出。
2.2.4 方法述評
基于社交網絡圖的意見領袖挖掘方法著重從用戶間拓撲結構關系,利用網絡分析中的一系列重要性衡量指標來挖掘意見領袖,著重表現用戶在網絡中位置上的重要性。社交網絡圖的構建與節點重要性的計算是此方法的兩個關鍵步驟。構建社交網絡圖要參考實際網絡中的用戶信息和交互行為,如果無法構建社交網絡圖,就不能使用此方法。
節點重要性的計算方法中,度中心性、鄰近中心性、中介中心性從不同方面都能在一定程度上表征節點在網絡中的重要性。但單獨使用三者中任何一個指標直接挖掘意見領袖都不能得到比較可靠的結果,因此它們往往只作為挖掘任務的一部分影響因素而不單獨使用。
PageRank 算法作為特征向量中心性中的一種,同時考慮與節點相連的數量及其重要性,可靠性相對較高,可以將其單獨應用于意見領袖挖掘。針對PageRank 算法的不足,一系列改進的PageRank 算法將豐富的用戶信息與用戶間拓撲關系結合起來,彌補了基于評分規則的方法沒有考慮用戶間拓撲關系的缺點,使挖掘結果可靠性大幅提升。但由于Page-Rank 算法迭代過程需要進行大量的計算,耗時長,其僅僅適用于數十萬節點數量的網絡,對百萬級節點的大型網絡不具備適應性。

Table 6 Comparison of different methods based on PageRank表6 改進的PageRank 算法對比
2.3.1 方法概述
挖掘意見領袖的目的就是希望發揮其影響力,盡可能多地影響他人,即最大化影響范圍。如果能刻畫出一個人的影響力范圍,那么影響范圍大的則可以認為是意見領袖。因此意見領袖的挖掘可以看成是一個影響最大化問題,即嘗試在網絡中找出給定數目的K個節點使得其在網絡中的影響范圍最大,然后認定這K個節點為意見領袖。該方法的大致流程如圖5 所示。

Fig.5 Procedure of methods based on influence transmission model圖5 基于影響傳播模型的方法處理流程
(1)基于用戶信息構建社交網絡,與2.2 節所述社交網絡圖的構建相同,但一般構建為有權有向圖;(2)選擇一個傳播模型來確定消息傳播規則;(3)設計算法實現傳播模型,模擬消息在社交網絡中傳播,以此尋找影響范圍最廣的K個節點,將它們視為意見領袖。該方法的研究重點并不在社交網絡圖的構建,而主要集中在影響傳播模型和消息傳播模擬這兩部分。
2.3.2 影響傳播模型
影響最大化問題的研究需要基于特定的傳播模型,傳播模型規定了用戶的影響是如何在網絡中進行擴散的。根據傳播模型設定規則,就可以表征出一個節點的影響范圍。目前研究最多、應用最廣泛的模型有兩個:獨立級聯模型(independent cascade,IC)[42]與線性閾值模型(linear threshold,LT)[43]。
線性閾值模型[43-45]由Granovetter 于1978 年提出,在該模型中,網絡中的節點存在激活和靜默(未被激活)兩種狀態。節點V是否能被激活由它的激活閾值和它所有前驅節點的作用及權重共同決定。線性閾值模型如圖6 所示,圖中V表示節點,特別地,VS0和VS1表示初始節點,E表示節點間影響大小,T表示節點的激活閾值。

Fig.6 Linear threshold model圖6 線性閾值模型
獨立級聯模型最早由Goldenberg 等人提出,與線性閾值模型相區別,線性閾值模型中的激活條件并不是一個閾值,而是一個概率,它是一個基于概率的模型[42,45-47]。如果給定K個初始激活節點,那么該模型下的影響傳播過程如下:K個初始節點可以激活與自己相連的靜默態節點,激活成功的概率一定,且這一概率在不同節點之間是相同的,稱為傳播概率。對某一靜默態的節點V,激活態節點只有一次機會去激活。獨立級聯模型示意圖如圖7 和圖8 所示,P表示傳播概率。

Fig.7 Independent cascade model(activation failed)圖7 獨立級聯模型(激活失敗)

Fig.8 Independent cascade model(activation succeeded)圖8 獨立級聯模型(激活成功)
除了上述的兩個模型之外,研究者們還提出很多其他的模型,比如觸發模型(triggering model)[48]、遞減級聯模型(decreasing cascade model)[48]、加權級聯模型(weighted cascade model)等[49]。這些模型都是在上述兩種模型上的改進,不再贅述。
2.3.3 影響最大化問題
影響最大化問題就是給定傳播模型,在網絡中找出K個節點,模擬消息傳播,使得K個節點的影響范圍最大。針對這一問題,目前的研究中主要有如下三類算法:
貪心算法:最基本的貪心算法是Kempe 等人提出的BasicGreedy 算法[48],此類算法尋求最廣的影響范圍,但時間復雜度極高,不具有伸縮性。
啟發算法:最基本的啟發算法同樣由Kempe 等人提出,叫作Degree Centrality[48]。此類算法的影響范圍無法匹配貪心算法,但特點是時間復雜度非常低,具有伸縮性。
其他算法:指基于貪心算法或者啟發算法進行外部改進而形成的算法,多是將貪心算法和啟發算法進行結合,或是對傳播模型進行改進。
三類算法的研究成果如表7 所示。表中僅僅展示了一部分較為代表性的算法,并分析了它們各自的創新點和是否具備伸縮性。伸縮性指當網絡節點數量劇增時,其運行時間是否還能保持可接受范圍。具備伸縮性則說明該方法能夠應用于百萬級大型網絡,反之不行。此外需要說明的是,大多數學者從研究影響最大化問題本身出發,主要是對貪婪算法效率低與啟發算法傳播范圍小兩方面進行改進,而少有結合社交網絡中意見領袖挖掘任務的特點進行相應優化,類似的還有文獻[60-63]中提及的方法。
2.3.4 方法述評
基于影響傳播模型的方法同樣要基于社交網絡圖,但與2.2 節中基于社交網絡圖的方法不同的是,該方法是一種動態的方法,通過模擬信息的傳播過程,捕捉拓撲結構上承載的動態信息,量化網絡中節點的影響范圍以挖掘出意見領袖。影響傳播模型是對現實世界消息傳播過程的簡單抽象,規定影響在社交網絡的傳播規則。基于傳播規則解決影響最大化問題就是實現意見領袖挖掘的過程。這是一種客觀的方法,可靠性高,只要用戶間拓撲關系已知就可以采用此方法取得較為可靠的結果。

Table 7 Comparison of different methods based on influence diffusion model表7 基于影響傳播模型的挖掘方法對比
目前解決影響最大化問題的算法在追求最大的影響范圍的同時,盡可能地降低時間復雜度。雖已經取得一些重大進步,但仍存在如下三個問題:(1)貪心算法以節點為單位模擬信息傳播使得計算量隨著網絡規模的上升而急劇上升,且無法避免。面對實際情況中百萬級甚至是千萬級節點個數的社交網絡時,該方法并不適用。(2)現實中的消息傳播規律復雜得多,傳播模型中傳播規則的設定并不一定能很好地模擬社交網絡中的消息的傳播規律。(3)沒有充分利用社交網絡中豐富的用戶信息。
上述問題中,問題1 和問題2 實際是一對矛盾體。要讓傳播模型更加貼近真實世界就需要添加相應的規則,這必然會增加模型的復雜度,對大型網絡的適應性更差。針對問題3,本文認為可以借鑒2.2節PageRank 的改進思路,利用豐富的用戶信息設定傳播模型中的閾值、權重或概率。在不改變傳播規則的前提下,即不改變傳播模型算法復雜度,使其更加適用于社交網絡中的意見領袖挖掘任務。
前文所述的三種方法各有優缺點,研究者們綜合考慮各個方法的優點,提出了融合拓撲結構信息的評分規則的方法。此外,在使用原始方法之前加入主題社區劃分和文本情感傾向分析,分別形成了面向主題的意見領袖挖掘方法與融合文本信息的挖掘方法。本節將敘述分析上述三種方法各自的思路與特點。
2.4.1 融合拓撲信息的評分規則
基于評分規則的意見領袖挖掘方法僅僅考察了用戶的一些基本的數量信息,并沒有考慮到用戶之間形成的拓撲結構關系。而基于社交網絡圖的方法中有多種重要性衡量指標。兩種方法具有互補性,因此研究者們將社交網絡圖中的節點重要性衡量指標引入評分規則作為其中的重要組成部分,這樣同時考慮了用戶信息和結構信息,如圖9 所示。
將兩種方法結合后,挖掘效果得到進一步提高。例如,宋倩倩等人提出基于用戶粉絲關注度、粉絲影響力、用戶轉發消息率等信息的用戶領導力計算公式,然后結合度中心性來挖掘意見領袖,將領導力得分高且中心性明顯的用戶視為意見領袖[64]。Cao等人提出了PCA-SNA(principal component analysissocial network analysis)算法[65],該算法結合節點的度中心性、鄰近中心性、中介中心性,采用主成分分析法(PCA)確定三者的權重得出用戶最終的重要性結果,從而挖掘出意見領袖。

Fig.9 Scoring rules integrated with topological information圖9 融合拓撲信息的評分規則
2.4.2 面向主題社區的意見領袖挖掘
社交網絡中用戶之間的交互通常以某一特定的主題而展開,不同的主題下都存在著意見領袖,張米等人通過實驗也證明主題特征是意見領袖不可忽略的一個特征[46]。因此針對網絡中明顯存在的社區特性,研究者們提出了面向主題的意見領袖挖掘[66],先對社交網絡中的用戶進行主題社區劃分,再使用傳統的挖掘方法進行挖掘,如圖10 所示。

Fig.10 Opinion leader mining for thematic community圖10 面向主題社區的意見領袖挖掘
典型的面向主題社區的挖掘方法有文獻[67-72]中所提出的一系列方法,它們之間的最大區別在于主題社區劃分方法不同,社區劃分后所采用的意見領袖挖掘方法不同。而社交網絡中的主題社區發現方法有多種,主要可以分為啟發式算法、基于優化的算法、聚類算法[73]。其中啟發式算法有GN(Girvan and Newman)算法、派系過濾算法等[74-75];KL(Kernighan and Lin)算法、基于最大流或最大割的算法[76-78];聚類算法中又分為基于相似度的層次聚類和混合聚類算法[73]。主題社區發現本身就是一個重要的研究課題,但不屬于本文主要研究內容,故不再贅述。
綜上所述,面向主題的意見領袖挖掘將整個網絡劃分成多個主題社區,分別挖掘出各個主題下的意見領袖。此方法具有如下特點:
(1)針對性:可以剔除其他不感興趣的社區,僅針對感興趣的社區挖掘,大幅提高挖掘效率,這對于商業中的精準營銷有重要意義。
(2)局部性:針對社區的挖掘獲取到的是局部的意見領袖,其在社交網絡中的全局影響力并不高,因此不適用于對全局影響力有所需求的場景。
2.4.3 融合文本信息的挖掘方法
社交網絡中的文本信息蘊含了某一用戶對其他用戶或是對某件事的情感態度。有研究者將這些能夠反映意見領袖影響力的情感態度考慮到意見領袖的挖掘過程之中,結合一般的挖掘方法,進一步提高了意見領袖的挖掘準確率。
文本的情感傾向性分析是自然語言處理領域的一個重要研究方向,大致的傾向分析可以分為正向、負向、中性三種情感。考慮社交網絡上推文、評論、回復等文本內容的情感傾向性分析有助于提高意見領袖挖掘結果的可靠性。例如,陳志雄等人通過對文本進行情感分析,實現對意見領袖的情感傾向的分類,可以挖掘帶有特定情感傾向的意見領袖[79]。曹玖新等人采用用戶的結構特征、行為特征和情感特征來度量用戶的影響力,其中情感特征正是通過對粉絲的評論進行情感傾向分析,將其正向評論數占總評論數的比例定義為粉絲對該用戶的情感支持度[80]。
2.4.4 方法述評
多維融合的方法并沒有提出新方法,只是在已有方法的基礎之上進行改進融合,考慮更多的因素以此提高意見領袖挖掘的質量。
融合拓撲結構信息的評分規則彌補了傳統評分規則方法未考慮用戶間拓撲結構關系的缺點,以此使結果更加準確。但這與2.2 節中改進的PageRank的融合有著本質的區別,因為其實質還是評分規則的建立,所以算法復雜度并沒有明顯增大,仍然能適用于大型的網絡。而那些融合了用戶信息的PageRank算法卻不能夠適用于大型網絡。
面向主題社區的意見領袖挖掘方法,將社交網絡劃分成一個個小的社區再使用一般方法以社區為單位進行意見領袖識別,獲取的局部性意見領袖對商業上的精準營銷有重要意義。這種方法適用于具有明顯社區特性的網絡,而且結果依賴于社區劃分的準確性,因此社區劃分是其關鍵的一步。
融合文本信息的挖掘方法利用自然語言處理的相關技術對社交平臺中的文本信息進行文本傾向性分析,與一般辦法結合進一步提升挖掘效果。其最大的優點在于能夠得到用戶對所挖掘出的意見領袖的傾向,這在輿情監控方面具有重要價值。
研究者們提出了很多方法來衡量意見領袖挖掘結果優劣,但是目前并沒有一個普遍公認的評價方法。經過整理總結,本文將已有的評價方法分為三類:影響范圍、主觀邏輯推理分析、客觀指標,如表8所示。其中影響范圍實際也是一種客觀指標,但其需要基于傳播模型計算,故單獨列出。

Table 8 Three types of evaluation indicators表8 三類評價指標
“影響范圍”源于本文2.3 節所述的基于傳播模型挖掘方法,該方法使用“影響范圍”和算法效率判斷自身優劣,而其中影響范圍同時也能夠作為衡量其他方法挖掘結果優劣的指標。基于LT、IC、SIR 進行消息模擬計算影響范圍,從而比較不同算法的效果。這種評價指標是一種客觀的指標,在已有的評價方法中具有較強的說服力。但是現實傳播情況遠比傳播模型復雜得多,需提高傳播模型與現實情況的相似度以進一步提高評價的合理性。
主觀邏輯分析的評價方法從用戶的屬性信息、行為信息等方面分析各方法挖掘結果的差異,試圖對這種差異做出合理解釋并以此來說明某一方法的優點。此評價方法依賴于大量的用戶信息,主觀性強,說服力不高,不適用于僅知拓撲結構關系而無其他信息的網絡。
客觀指標中覆蓋率指受影響用戶數占所有用戶數的比例;支持率指正向評論的數目與所有評論數量之比;核心率指所得結果與用戶之間相互聯系的緊密程度;標準差用來描述用戶影響力值的離散情況,標準差越大,影響力越離散,則用戶影響力排名區分度越大。Kendall 系數與Spearman 系數用于衡量不同挖掘方法產生的結果的相關性。在文獻[12]中,作者用人工評價結果與算法挖掘結果進行相關性分析說明其算法的準確性;在文獻[16]中,作者將單一的中心性指標的挖掘結果與所提算法的結果進行相關性分析,從而說明其所提算法的準確性。上述客觀指標都具有一定合理性,但局限在了各自挖掘方法的結果集合之中。只有文獻[72]提到的評價方法綜合考慮了多種挖掘方法的結果,使用準確率、召回率、F系數作為評價指標,相較而言具有更強的說服力。
綜上所述,無論哪種挖掘方法都具有一定的合理性,如果某種方法能與多種方法結果的并集取得最大交集,則能夠從一定程度上說明該方法的優越性。因此本文認為,文獻[37]中的準確率、召回率、F系數是目前較為合理評價方法之一。而基于傳播模型的方法通過模擬的消息的傳播取得的影響范圍同樣是一個較為合理的評價方法,可應用于已知用戶拓撲信息的場景。
社交網絡中的意見領袖在商業營銷、政策宣傳、輿情監控、環境保護等領域發揮著巨大的作用。本文以社交網絡中意見領袖的挖掘方法為切入點,較為全面地總結了現代的意見領袖挖掘方法。根據方法思路的不同,本文將其分為四類:基于評分規則的方法、基于社交網絡圖的方法、基于影響傳播模型的方法、多維融合的方法。通過對四類方法的細致分析,本文總結了它們的優點和面臨的挑戰。
四大類方法的對比分析如表9 所示,此表概括總結了這四大類方法的適用條件、優點、局限和關鍵內容。適用條件主要考慮是否擁有用戶信息和用戶間拓撲結構關系;優點主要考慮各種方法的突出特點;局限主要考慮方法的伸縮性、復雜度和需要使用到的復雜技術;關鍵內容則是這些方法的關鍵技術步驟或重要分支。
應當注意的是,沒有哪種方法能完全適用于所有的現實場景,現實中不同的社交平臺可以形成不同的網絡類型。方法的選取要依據實際情況而定,主要根據社交平臺所能提供的用戶信息類型、數據量大小、挖掘準確度、挖掘效率來選取合適的方法。
社交網絡中的意見領袖挖掘方法不斷發展,取得了一定成效。但隨著時代的進步和技術的革新,值得去探索一些新技術并將其應用于社交網絡意見領袖的挖掘之中。針對已有方法的不足和最新的相關理論,本文探討了以下三個未來的研究方向。
(1)基于圖神經網絡的聚類挖掘方法
圖神經網絡(graph neural network,GNN)是目前處理網絡圖相關問題的一種有效工具,其核心思想是將通過神經網絡學習的方法,經由學習到的權重參數,可以將鄰居節點的特征信息融入到自身節點的特征信息之中,最終可以得到網絡中每一個節點的新的特征向量。一般認為,如果一個節點的鄰居節點影響力越大,則其自身的影響力就會越大。將鄰居節點的影響力考慮在內,能夠提高意見領袖的挖掘效果。而GNN 正好可以巧妙地將鄰居節點的信息融合到每一個節點自身特征向量,不需要計算所有節點在網絡中的各種中心性指標就可以將拓撲結構信息融合到節點自身信息之中。

Table 9 Comparison of four types of opinion leader mining methods表9 四種意見領袖挖掘方法對比
因此,基于GNN 的聚類挖掘方法是一個值得嘗試的未來研究方向,大致思路如下:挑選能夠反映意見領袖品質的信息來初始化每一個節點的初始特征向量,各分量越大則越可能是意見領袖;使用GNN 網絡得出包含鄰居節點信息的新的特征向量;對新的特征向量進行聚類,找出最具有意見領袖品質的聚類簇作為意見領袖集合。此方法大致流程如圖11所示。

Fig.11 Procedure of clustering mining method based on GNN圖11 基于GNN 的聚類挖掘方法流程
(2)設計動態模型
目前大多數研究集中于靜態的網絡,即從某一時間點或時間段的社交網絡中挖掘出意見領袖。然而在線社交網絡每時每刻都在發生著變化,隨著時間推移,每一個用戶都可能是下一個意見領袖,而網絡中原來的意見領袖的地位也可能在一段時間以后被其他人取代。因此,設計出一種有效的,能夠根據社交網絡的變化而不斷更新信息,快速挖掘出最新的意見領袖的挖掘方法,在商業營銷此類對時間較為敏感的領域意義重大。
(3)劃分意見領袖等級
大型社交網絡中,影響力較大用戶的數量較多,其影響力大小分布會比較連續而集中。目前的挖掘方法致力于尋找影響力排名最靠前的部分用戶,這樣不僅忽略了其他影響相對較小但仍然擁有意見領袖品質的用戶,還造成了挖掘結果的同質性,即挖掘出的意見領袖之間的影響力區分度小,處在同一量級。同時,領袖影響力越大,商業成本越高。一些研究者在新浪微博中挖掘出的“人民日報”“今日頭條”“騰訊新聞”等類似的官方媒體自然擁有強大的影響力,但其利用此類意見領袖進行營銷的商業成本卻不是一般企業所能夠負擔的。
因此,設定一個意見領袖影響力等級劃分規則以區分不同量級的意見領袖滿足不同層次的需求。本文認為,可以使用覆蓋率作為等級劃分的指標,即網絡中受該意見領袖影響的用戶數占整個網絡用戶數的比例。所謂“受影響”可以用關注關系、交互行為等來定義,即有關注關系或交互行為就可以認為用戶受到該意見領袖的影響。例如可以將意見領袖設置為四個等級:一級、二級、三級、四級,分別對應覆蓋率40%、60%、80%、90%。研究者們可以根據實際情況探索一個更合理、更有理論依據的劃分比例。