基于綜合影響力和情感特征的意見領袖發現方法

2021-09-17 09:43:42王嘉麒杜義華趙以霞

數據與計算發展前沿 2021年4期

王嘉麒，杜義華，趙以霞

1.中國科學院計算機網絡信息中心，北京 100190

2.中國科學院大學，北京 100049

引言

隨著互聯網的快速發展，公眾較以往更加積極地使用網絡社交平臺參與對社會熱點事件的討論。以推特和新浪微博為代表的網絡社交平臺逐漸成為了大量公眾獲取信息的重要渠道，在近年來所有輿情事件的傳播中都產生了重要影響[1]。社交平臺的龐大規模使得輿情事件更容易快速傳播和發酵，如果缺乏合理的輿情分析與引導，會導致輿論迅速惡化，加劇社會矛盾。研究表明，社交平臺上的意見領袖能夠對大量用戶產生影響，在很大程度上左右輿論走向[2]。“意見領袖”這一概念最初由Lazarsfeld提出，指在信息傳播過程中通過發表觀點和引導輿論，對其他用戶的態度造成影響，并受到媒體和知名人士關注，從而在輿情事件中產生極大影響力的重要人物[3]。對意見領袖的發現，在輿情分析與引導等方面具有不可忽略的價值[4]。

目前關于意見領袖發現的研究主要基于用戶和帖子的數據特征構建影響力指標以衡量用戶在輿情事件中的影響，并根據相關指標進行排序或聚類以發現意見領袖，屬于典型的多方面評分問題[5]。傳統方法大多將用戶個人屬性和帖子互動行為視為互相獨立的特征，較少涉及用戶和帖子的綜合作用與相互影響，因此會忽略部分信息，導致部分意見領袖被遺漏，不利于相關的輿情分析與引導[6]。此外，有研究表明意見領袖在輿情事件中會表現出特定的情感特征，在基于影響力的意見領袖發現方法的基礎上引入情感分析手段，有助于更有效地發現意見領袖[7]。

本文融合用戶個人屬性和帖子行為特征，提出基于綜合影響力和情感特征的意見領袖發現方法（opinion leader discovery based on comprehensive influence and sentiment characteristics，簡稱CI-SC）。CI-SC 方法綜合考慮用戶個人屬性和帖子互動行為兩方面的影響力特征，并在此基礎上引入用戶的情感特征，通過聚類分析實現意見領袖發現。

1 相關研究

1.1 基于影響力的意見領袖發現方法

現有的意見領袖發現方法主要通過用戶的部分數據特征，如粉絲數和轉發數等，構建影響力指標以衡量不同用戶的影響力大小，從而發現具有較大影響力的意見領袖。根據采用的數據特征的區別，影響力指標主要分為用戶影響力和帖子影響力兩大類。

用戶影響力指某一用戶發表的言論被推送給其他用戶并影響其他用戶的能力。相關方法主要基于用戶個人屬性特征計算用戶影響力，包括關注數、發帖數和粉絲數等[8]。部分研究在此基礎上參考google 的PageRank 算法[9]，康奈爾大學的HITS 算法[10]及相應變種[11-14]，將社交網絡結構納入用戶影響力的計算。王君澤等提出了基于粉絲數、關注數和發博數的微博意見領袖識別模型[15]。Kwak 等依據粉絲數和PageRank 算法對Twitter 用戶進行影響力排名，發現意見領袖的影響力排名并不完全受限于其個人屬性[16]。Weng 等提出TwitterRank 算法，將用戶的影響力定義為其所有粉絲的影響力之和[17]。石磊等則在粉絲數基礎上，進一步引入了活躍指數來計算用戶影響力[18]。

帖子影響力指的是某帖子成為熱門內容并影響大量用戶的能力。相關研究主要基于帖子的互動行為特征構建帖子影響力，包括評論數、轉發數和點贊數等。童薇等提出一種基于微博互動行為特征的檢測算法，該算法可檢測出影響較大的熱門微博[19]；李華等提出了計算熱度值的IEED 算法，該算法同時考慮了帖子的互動行為數據和發布用戶粉絲數[20]；郭跇秀等則將用戶影響力和文本特征結合作為微博影響力[21]。

目前已有的基于影響力的意見領袖發現方法在構造影響力指標時，往往只考慮一部分數據信息，這使得關于用戶影響力的研究主要局限于用戶本身的個人屬性數據，而沒有考慮該用戶發表的帖子在傳播過程中產生的影響，如轉發等互動行為所蘊含的影響力都未被考慮。一些研究表明，僅考慮用戶個人屬性得出的意見領袖，在其他評價指標下并不一定具有較強的影響力[22]。另一方面，基于PageRank 和HITS 算法的發現方法為了構建社交網絡結構，需要額外獲得所有用戶之間的關注關系，這極大提高了數據采集的復雜度，限制了此類方法在用戶數量較多的場景中的應用。關于帖子影響力的研究也主要局限于帖子的互動行為特征本身，如評論數等，此類數據只能反映與帖子的互動行為產生的影響力，而很多用戶被推送帖子后，不一定會發生評論、轉發等互動行為，因此僅憑互動行為特征也不能全面客觀地反映出帖子產生的實際影響[18]。即傳統的基于影響力的意見領袖發現方法局限于部分數據特征，并不能全面客觀地反映出用戶在具體話題中實際表現出的影響力。

1.2 基于情感分析的意見領袖發現方法

基于情感分析的意見領袖發現方法通過分析用戶發表的文本內容的情感傾向，以獲得用戶的情感特征，并基于情感特征構建相關分類指標。目前相關的意見領袖發現方法主要采用情感詞典或機器學習方法進行情感分析[23]。肖宇等提出了基于情感詞典的LeaderRank 算法，該算法提高了意見領袖發現的準確度[6]。曹玖新等結合情感詞典和決策樹模型，從情感維度度量意見領袖的影響[24]。陳濤等通過BERT 實現了短文本的情感特征提取與融合[25]。

情感詞典法將帶有情感傾向的情感詞集合映射到一個情感詞典，每一個情感詞在詞典中都對應一個標簽。對于給定文本，可以在情感詞典中查找到每個情感詞的對應極性值，從而把情感分類轉化為一個數值計算問題。英語語料主要采用Gerneral Inquirer[26]或SentiWordNet[27]作為詞典，中文語料則主要采用知網情感詞典HowNet[28]、清華大學中文褒貶義詞典和大連理工大學中文情感詞匯庫[29]等。機器學習方法則將情感傾向分析視為分類問題，使用較多的模型有樸素貝葉斯（Na?ve Bayes）、最大熵（Maximmum Entropy）、支持向量機（SVM）等[30]。情感詞典無需額外訓練，使用成本較低，但效果和詞典質量高度相關；機器學習方法則需進行預訓練，實際應用中的成本較高。

2 基于綜合影響力和情感特征的意見領袖發現方法流程設計

針對傳統意見領袖發現方法因局限于部分數據特征導致無法全面反映用戶實際具有的影響力，使得部分意見領袖被忽略的問題，本文提出一種基于綜合影響力特征和情感特征的意見領袖發現方法（CI-SC），同時考慮用戶影響力和帖子影響力作為綜合影響力，并引入用戶的情感特征作為篩查依據。CI-SC 以綜合影響力特征和情感特征對社交平臺用戶進行聚類，篩查發現在話題下具有較大影響力和明顯情感特征的意見領袖。主要步驟如圖1所示。

圖1 基于綜合影響力和情感特征的意見領袖發現方法（CI-SC）流程圖Fig.1 Flowchart of opinion leader discovery based on comprehensive influence and sentiment characteristics(CI-SC)

CI-SC 的算法流程如圖2所示。

圖2 偽代碼形式的CI-SC 算法流程Fig.2 Algorithm of CI-SC in pseudo-code form

2.1 計算綜合影響力特征

基于用戶的個人屬性特征，計算每個用戶的基本影響力InfUseru，表示用戶對其粉絲在理論上具有的影響力，定義InfUseru的計算公式如下：

其中，WBu為用戶u的微博數，WBmax為數據集中微博數最大值，WBmin為微博數最小值，FANu為用戶u的粉絲數，FANmax為數據集中粉絲數最大值，FANmin為粉絲數最小值，FOu為用戶u的關注數，FOmax為數據集中關注數最大值，FANmin為關注數最小值。由于相關指標的數據跨度較大，不利于后續計算，對原始數據進行對數歸一化處理。Wwb，Wfan和Wfo分別為微博數、粉絲數和關注數的權重。采用層次分析方法AHP 構建判斷矩陣計算出各因素權重，根據該矩陣能否通過一致性檢驗判別是否接受該組權重。通過AHP 法得出的權重值為Wwb=0.2583，Wfan=0.637，Wfo=0.1047，一致性檢驗結果為0.0331（小于閾值0.1），表明應接受該組權重。

基于帖子的互動行為特征，計算每個帖子的互動指標RCLScorei，表示轉發、評論和點贊等行為具有的互動影響力，計算公式如下：

其中，Ri、Ci、Li表示帖子i的轉發、評論和點贊數，Wr、Wc、Wl為轉發、評論和點贊數的權重，分別為0.4、0.4、0.2[31]。threshold為數據集中上訴指標加權和的最大值。

基于發帖用戶的基本影響力InfUseru和帖子i的互動指標RCLscorei，計算帖子i的綜合影響力InfScorei，該影響力表示帖子在傳播過程中發生的互動行為與單向推送產生的全部實際影響力。計算公式如下：

其中α∈[0,1]，表示用戶基本影響力和帖子互動影響力的相對權重，本方法設置α=0.5。

將屬于同一用戶u的所有帖子的綜合影響力相加，得到用戶u的總影響力TotalInfu和平均影響力AvgInfu，總影響力表示用戶的實際影響，平均影響力表示用戶造成影響的效率。計算公式如下：

其中D={D1,D2,…,Dn}為用戶u在此話題下發表的所有帖子的集合，n為集合D的帖子數量。

2.2 計算情感特征

CI-SC 基于中文情感分析，需構建針對中文文本的情感詞典。目前在中文語料上最為常見的情感詞典有知網Hownet、清華大學褒貶義詞典和大連理工大學中文情感詞匯本體庫3 種。其中，清華大學褒貶義詞典只標注了每個詞語的褒貶義傾向，沒有標注極性強度值，且無除褒貶義詞外的其他詞語，如程度副詞與否定詞等，因此無法用于需要進行數值計算的CI-SC 方法中。相比而言，大連理工大學中文情感詞匯本體庫包含更多數值特征，如詞語的詞性、情感類別、情感強度和極性等多方面的信息，因而更適合作為CI-SC 的基礎情感詞典。其一般格式如表1所示。

表1 情感詞匯本體庫格式樣例Table 1 Sample of the affective lexicon ontology

在情感詞匯本體庫中，詞語的情感被分為了7個大類下的21 個小類；情感強度被分為1 至9 檔，其中1 強度最弱；極性則根據正負面分為4 類，0 代表中性，1 代表正面，2 代表負面，3 代表同時具有正負兩面。該詞匯庫的情感強度值和極性值將用于CI-SC 方法的數值化計算過程，因此使用該詞匯庫作為CI-SC 詞典中的情感詞典。

除情感詞外，CI-SC 的計算過程還需要程度副詞詞典，目前中文詞典中，程度副詞質量較高的是知網Hownet。其將常見的近400 個中英文程度副詞分為6 個等級，分別為“最”、“很”、“較”、“稍微”、“略微”、“超過”。其程度副詞詞典較情感詞匯庫的副詞更為直觀簡潔，更適合用于CI-SC 方法的后續計算。

CI-SC 綜合使用知網Hownet 和大連理工大學情感詞匯庫作為情感詞典，對帖子文本的情感極性進行計算。其中情感詞匯本體庫作為基礎情感詞典，Hownet 作為程度副詞詞典。

通過詞典查找每條帖子中出現的所有情感詞的極性強度值，如存在程度副詞和否定詞，則對相應情感詞的極性強度乘以對應權重，將所有情感詞的極性強度值加權求和作為帖子的極性值Sentid。計算公式如下：

其中L是帖子d包含的所有情感詞的集合，Wi是情感詞i在程度副詞和否定詞影響下的權重，Sentii是情感詞i在詞典中的極性強度值。

由于不同用戶在同一話題下發表的帖子數量不同，為減少發帖量對后續情感分析的影響，對每個用戶的所有帖子的情感極性取均值，作為用戶的情感極性特征AvgSentiu，計算公式如下：

其中D={D1,D2,…,Dn}為用戶u在話題下發表的所有帖子的集合，n為集合D的帖子數量。

通過對帖子所持立場進行標注，得出每個用戶的立場傾向值Attitudeu，代表用戶對于話題主體的態度，數值越大表示用戶越傾向于支持話題主體，反之則越傾向于反對話題主體，計算公式如下：

其中D={D1,D2,…,Dn}為用戶u在話題下發表的所有帖子的集合，Wd表示帖子d的立場權重，由帖子d的立場標記tag決定。由于帖子的情感傾向和立場傾向相互獨立，一個立場上支持話題主體的帖子的情感可能是正面的也可能是負面的，因此在計算立場值時只需考慮情感極性值的絕對值。

2.3 用戶聚類和意見領袖發現

基于用戶綜合影響力特征和情感特征對所有用戶進行聚類分析，根據聚類分析結果發現具有較大影響力和明顯情感特征的意見領袖。

3 實驗驗證

3.1 實驗數據和環境

使用爬蟲工具weibo-search 和weibo-crawler，爬取微博 “方方日記”話題下所有熱門帖子的互動行為數據和發帖用戶的個人屬性數據作為實驗數據集。采集時間為2020年9月，采集范圍為2020年2月1日0 時至2020年6月30日23 時，共采集到2000條帖子的互動行為數據和920 名用戶的個人屬性數據。該數據集包含的具體特征如表2所示。

表2 數據特征一覽表Table 2 List of data features

實驗的硬件配置是Intel(R)Core(TM)i7-9750H 2.60GHzCPU，內存16GB，操作系統Windows10。

3.2 實驗流程

計算用戶綜合影響力特征。按照2.1 綜合影響力計算公式，計算所有用戶的總影響力TotalInfu和平均影響力AvgInfu作為用戶的綜合影響力特征。

計算用戶情感特征。按照2.2情感特征計算公式，計算所有用戶的情感極性值AvgSentiu和在此話題下的立場值Attitudeu作為用戶的情感特征。

依據綜合影響力特征和情感特征，對采集到的所有用戶進行聚類，發現具有較大影響力和明顯情感特征的意見領袖。

3.3 實驗結果分析

使用綜合影響力特征和情感特征對所有用戶進行K-均值聚類，如圖3所示。

圖3 CI-SC 方法的K-均值聚類結果Fig.3 K-means clustering results of CI-SC

用戶被分為4 類。第3 類占94.67%，其影響力較低，代表主流人群；第2 類占0.87%，其影響力和主流人群沒有出現明顯區別，但情感特征值出現了明顯極化，代表主流人群中的少數極端派；第1 類和第4 類分別占3.91%和0.54%，其影響力指標顯著高于主流人群，情感特征也表現出了明顯不同于主流人群的模式，其中第4 類的影響力指標最為突出，故第4 類代表最為關鍵的核心意見領袖，第1 類代表普通意見領袖。4 類人群的綜合影響力特征和情感特征統計見表3。意見領袖的各類綜合影響力特征和情感特征都表現出了與主流人群的顯著差異，尤其以核心意見領袖最為突出。

表3 聚類結果的綜合影響力特征和情感特征對比Table 3 Comparison of comprehensive influence and sentiment characteristics among clustering results

核心意見領袖與普通意見領袖的平均影響力差別較小，平均值較主流人群高約0.12 到0.14，標準差較主流人群低20%，說明意見領袖在輿情事件中造成影響的效率明顯高于主流人群，且意見領袖之間的效率差別小于主流人群內部的效率差別，即意見領袖能夠更高效且穩定地對輿論造成影響。在總影響力方面，核心意見領袖和普通意見領袖區別較大，但均與主流人群表現出顯著差距，其中普通意見領袖約較主流人群高1 個數量級，核心意見領袖約高2 個數量級，說明意見領袖在輿情事件中造成的總影響遠大于普通人，尤其是少數的核心意見領袖，其影響極為突出。

相比于主流人群，意見領袖同時表現出差異性和相似性。核心意見領袖的情感極性均值為-26.67，與主流人群均值-26.51 幾乎一致，但標準差僅為19.04，遠小于主流人群的101.19，表明核心意見領袖在輿情事件中表現出的情感與主流人群非常相似，但變化更小，說明核心意見領袖能夠得到主流人群廣泛共情與認同。普通意見領袖的情感極性均值為-77.07，與主流人群區別較大，但標準差較為接近，為86.12，表明普通意見領袖在輿情事件中表現出的情感只與主流人群中的部分人相似，且變化更大，說明普通意見領袖只能得到部分人群的共情與認同。

在立場值方面，意見領袖相比主流人群，表現出了極為明顯的負面立場。其中核心意見領袖的立場最為堅定，均值達到-1788.8，普通意見領袖次之，達到-734.4，而主流人群的立場均值僅為-2.3。說明意見領袖不同于主流人群，在輿情事件中會表現出非常明確的立場偏向。

聚類結果的顯著性檢驗結果表明，在所有特征上得到的P 值都小于0.001，說明CI-SC 方法發現的意見領袖在綜合影響力特征和情感特征上都與主流人群表現出了極其顯著的統計學差異。

為進一步驗證CI-SC 方法發現結果的正確性，對發現的意見領袖進行其他特征的分析。由于目前并不存在一個公認精確的意見領袖評價標準，因此采用Rogers 等提出的觀察法[32]，通過用戶的其他身份信息和社交網絡關系判定發現結果是否符合意見領袖的定義。

CI-SC 方法發現的核心意見領袖的各項數據指標均遠超主流人群平均水平，且在身份類型、活躍領域上表現出相似性（表4）。在個人屬性特征方面，核心意見領袖的粉絲數超過主流人群中的大部分人，粉絲最多的“地瓜熊老六”高于主流人群中98%的用戶，粉絲最少的“騎掃帚的老道士”高于主流人群中69%的用戶。在互動行為方面，主流人群的人均被轉發數、人均被評論數、人均被點贊數分別為294、342、3358，而核心意見領袖的對應數據分別為2428 到50232、3062 到46881、21792 到631000，高出主流人群1 到2 個數量級。在身份類型方面，4名核心意見領袖具有自媒體身份，另外1 名則是知名互聯網社區的官方代表，這兩類身份的用戶在輿情事件的討論中都較為活躍。在活躍領域方面，“帝吧官微”、“上帝之鷹_5zn”、“地瓜熊老六”均為時政類話題下的知名大V；另外2 名的活躍領域雖不明確集中于時政類，但其發帖大量涉及新聞內容，與輿情事件聯系較大。

表4 CI-SC 的核心意見領袖發現結果Table 4 Core opinion leaders identified by CI-SC

圖4 展示了核心意見領袖的部分社交網絡關系。研究發現核心意見領袖內部普遍存在關注關系，“帝吧官微”、“上帝之鷹_5zn”、“地瓜熊老六”三人互相關注，“作者海菱”和“帝吧官微”互相關注，“騎掃帚的老道士”則關注了所有人。核心意見領袖還普遍得到公認具有較大影響的其他用戶的關注，如國家級媒體和知名公眾人士等。“帝吧官微”被“共青團中央”、“中國日報”等官方媒體關注，“上帝之鷹_5zn”被“政委燦榮”等智庫專家關注，“地瓜熊老六”被“觀察者網”等半官方媒體關注。說明CI-SC 方法發現的意見領袖受到了媒體、公眾人物和其他意見領袖的普遍關注，符合意見領袖的定義。

圖4 核心意見領袖的部分關注關系Fig.4 Part of the core opinion leaders’ following relationships

CI-SC 發現的意見領袖在信用度和認證狀態等方面都表現出了和主流人群的明顯區別（圖5、圖6），其信用更好、認證比例更高，說明CI-SC 發現的意見領袖的個人信息更為真實，信用更好，因而容易得到更多人認同。

圖5 意見領袖和主流人群的信用等級對比圖Fig.5 Comparison of credit ratings between opinion leaders and mainstream people

圖6 意見領袖和主流人群的身份認證狀態對比圖Fig.6 Comparison of the authentication status between opinion leaders and mainstream people

綜上，CI-SC 方法能夠發現在話題下具有較大影響力和明顯情感特征的意見領袖。通過對發現結果的檢查，可以驗證CI-SC 方法發現結果的正確性。

3.4 對比實驗

為驗證CI-SC 相對于傳統意見領袖發現方法的創新性，在實驗數據集上進行CI-SC 方法和傳統的基于影響力的意見領袖方法的對比實驗。選用的對比算法為基于用戶粉絲數的UserRank 算法[17]，基于交互數據的意見領袖識別算法，基于用戶重要性得分的微博客意見領袖識別算法和引入活躍指數的微博用戶排名算法。以不同算法發現的意見領袖集合的重合率作為評價指標，計算公式如下：

其中K為發現的意見領袖數量，a和b代表進行對比的算法，TopResult表示基于對應算法發現的Top-K意見領袖集合。實驗結果如圖7所示。

圖7 CI-SC 與各對比算法的結果重合率Fig.7 Overlap of results between CI-SC and each comparison algorithm

實驗結果顯示，在選取的意見領袖數量Top-K較少時，本方法和選用的所有對比算法的結果重合率都較低，隨著選取的意見領袖數量上升，重合率也逐漸上升并趨于平穩。在選定的意見領袖數量不高于CI-SC 發現的意見領袖數（41 人）時，四種對比算法的重合率分別不高于0.136、0.601、0.166和0.155。其中，CI-SC 與基于交互數據的識別算法的結果重合率相對較高，但波動較大，與其他三種算法的重合率則相對較低。由3.3 中的分析可知，CI-SC 方法的發現結果符合意見領袖的定義，且表現出了統計學顯著性，說明CI-SC的發現結果正確有效。故對比實驗中重合率較低的部分表明，CI-SC 方法發現了被傳統算法忽視的部分用戶，這些用戶在傳統意義上影響力有限，但實際上其發表的內容在話題下能夠得到其他用戶的廣泛傳播和互動，屬于應當被發現的意見領袖。除基于交互數據的識別算法外，其他三種算法的重合率曲線非常相似，說明這三種算法較為類似，都遺漏了相同一部分意見領袖，而CI-SC 方法能夠作為此類傳統方法的有效補充，用于發現這部分被遺漏的意見領袖。

3.5 CI-SC 適用范圍的廣泛性論證

上述實驗基于新浪微博平臺“方方日記”話題下的相關數據，對CI-SC 方法的有效性和正確性進行了驗證。事實上，除微博平臺的此話題外，CI-SC也可以有效用于其他網絡平臺和事件中的意見領袖發現。

CI-SC 的核心數據是基于用戶個人資料數據構建的用戶基本影響力、基于用戶在選定話題下發言的統計數據的RCL 指標和基于用戶發言內容的情感特征。這三大類數據指標的獲取實際上是平臺無關的，即在任何網絡平臺上都可以獲得用戶的這三類數據，并以此進行后續的相關計算與意見領袖發現，不同平臺的區別僅僅在于最原始數據特征的名稱與對應權重的取值。

以知乎平臺為例，其用戶的公開個人資料中包括“創作數”、“我關注的（人數）”和“關注我的（人數）”三項基本數據，分別對應微博平臺的“微博數”、“關注數”和“粉絲數”，即公式（1）中的WB、FO和FAN，因此僅需要將上述數據帶入（1）中的對應項，并修改對應權重，即可使用CI-SC 獲得知乎用戶的基本影響力。另一方面，知乎帖子的數據指標與微博僅有微小不同，沒有“轉發數”，但同樣具有“點贊數”和“評論數”指標，且另增了“喜歡數”和“收藏數”兩個指標，因此僅需對（2）中的分子部分略作修改，將“點贊數、評論數、轉發數的加權和”修改為“點贊數、評論數、喜歡數、收藏數的加權和”即可得到知乎帖子的RCL 指標。此外，針對帖子文本內容的情感極性計算和立場計算僅僅與文本所用的語言種類有關，而不與平臺直接相關，在知乎等中文平臺上，CI-SC 中情感分析部分的流程是完全一致的，都是對用戶在話題下發表的中文文本進行分詞后，調用中文情感詞典進行計算。而在得到用戶基本影響力、帖子RCL指標、情感特征后，CI-SC流程中剩余的數據都可被同樣的計算公式得出。即在所有的中文平臺上，CI-SC 方法都可被應用，需要調整的部分僅包括計算用戶基本影響力或帖子RCL指標時所采用的具體原始數據的個數與權重。

除中文平臺外，CI-SC 也可用于其他語言平臺。以推特為例，其使用的原始數據與微博完全一致，用戶具有“發推數”、“關注數”、“粉絲數”等數據，帖子具有“點贊數”、“轉發數”、“評論數”等數據，其用戶基本影響力和帖子RCL 指標的計算與微博平臺幾乎完全相同；唯一的區別在于情感分析部分，對于推特上的其他語言用戶，需要使用其他語言的情感詞典。替換為對應語言詞典后，CI-SC 即可用于外語網絡平臺上的意見領袖發現。

CI-SC 所使用的“發帖數”、“粉絲數”、“點贊數”等數據是應用最為廣泛的數據特征，幾乎所有主流平臺都擁有上述數據，因此CI-SC 可以在主流平臺得到廣泛應用。

除與平臺無關外，CI-SC 同樣與具體的輿情事件無關。輿情事件的不同只意味著被收集到的原始數據不同，但每個事件能夠收集到的原始數據最終都是確定的。而CI-SC 是定量方法，在原始輸入數據確定后，其輸出結果就將確定。因此，不存在CI-SC 只適用于某些輿情事件而不適用于另一些的可能性。只要確定了輿情事件對應的原始數據，CI-SC就可從中發現較為重要的意見領袖。

綜上，CI-SC 是平臺無關與事件無關的，并不僅僅適用于微博平臺的“方方日記”事件。在其他網絡平臺和其他輿情事件中，CI-SC 同樣可以對相關數據進行分析，并從中發現對應的意見領袖。CI-SC能夠適用于大多數主流平臺，對當前多平臺輿情事件的意見領袖發現具有一定的實際價值。

4 總結與展望

本文針對傳統的基于影響力的意見領袖發現方法局限于部分數據特征，使得一些在話題下產生了較大實際影響的意見領袖被忽略的問題，提出一種基于綜合影響力和情感特征的意見領袖發現方法CI-SC。

CI-SC 綜合考慮用戶的個人屬性特征和帖子的互動行為特征，并在此基礎上引入用戶的情感特征，通過聚類實現意見領袖發現。相比于pageRank 和HITS 類發現算法，CI-SC 不需要獲取用戶之間的評論等互動關系，只需要獲得用戶自身的數據，因而數據采集的難度較低；此外，pageRank 和HITS 本質上是基于數種指標的排序算法，將對應指標排名靠前的用戶視為意見領袖，而CI-SC 的發現過程基于綜合考慮影響力和情感特征的聚類算法，在得到類別后再使用影響力指標進行類內排序。實驗表明，CI-SC 方法的發現結果符合意見領袖的定義，表現出了統計學顯著性，且與傳統意見領袖發現方法的結果的重合率較低。說明CI-SC 方法可以發現傳統算法容易忽略的，在輿情事件中具有較大實際影響和明顯情感特征意見領袖，在輿情分析與引導中具有一定的實際意義與應用價值。

目前對CI-SC 方法的研究集中在有限規模的數據集，可在更大規模的數據集上進行進一步實驗，并引入更多方面的特征，從而實現更有效的意見領袖發現。

利益沖突聲明

所有作者聲明不存在利益沖突關系。