基于支持向量機的微博水軍賬號識別

2018-05-07 03:27:23王淑琪王未央

現代計算機 2018年9期

王淑琪，王未央

（上海海事大學信息工程學院，上海 201306）

0 引言

網絡技術深入千家萬戶，互聯網社交平臺隨之蓬勃發(fā)展。不管是國外的Twitter、Facebook，還是國內的微博、QQ，這些社交應用已成為每個互聯網用戶的必備軟件。在閑暇時，人們登錄社交軟件，或與親朋好友聯系感情，或觀察網絡中發(fā)生的各種事件。人們享受于社交平臺便捷性和及時性。然而，網絡水軍的發(fā)展卻使得社交平臺信息的真實性發(fā)生轉變。網絡水軍是一群網絡中針對特定內容發(fā)布特定信息的、被雇傭的網絡槍手。他們混跡于貼吧、論壇、微博等各個社交平臺，當受到有心人士雇傭，他們便會偽裝成普通用戶對目標內容進行回復、評論和傳播，以此對正常用戶產生影響。

社交網絡平臺上廣大的用戶群體所隱藏的巨大商機，催生了網絡水軍這一灰色產業(yè)的發(fā)展。他們利用微博輿論，發(fā)布廣告，傳播虛假信息，劫持熱門話題，更有甚者帶動敏感話題，刺激激動的網絡用戶造成惡劣的社會影響。時至今日，由網絡水軍策劃、炒熱的微博事件屢見不鮮。為遏制網絡水軍的發(fā)展，及時制止網絡水軍造成的惡劣影響，識別出隱藏在數以萬計的普通用戶中的網絡水軍已成當務之急。

本文主要對微博網絡水軍賬號的識別做出研究。網絡水軍作為大量水軍賬號構成的群體，其基礎就是賬號本身，故此本文提取出所有微博賬號信息，劃分出粉絲數、關注數、粉絲關注比，平均微博數、信息完整度、勛章數、陽光信用度等七大特征屬性，利用支持向量機進行模型建立，從而將模型用于微博網絡水軍識別。

1 相關研究

識別網絡水軍的方法主要有基于內容特征、用戶特征、環(huán)境特征和綜合特征四個方向的研究。在網絡水軍發(fā)展早期，網絡水軍主要利用郵件進行運作，其產生的郵件內容易于識別、容易處理，主要采用文本分類[2]、文本情感分析[3]以及文本傾向性[4]等方法。隨著網絡技術的發(fā)展，用戶意識開始提高，傳統的網絡水軍不再能給網絡用戶造成影響，新型網絡水軍開始滋生，他們的行為趨向于正常用戶，發(fā)布內容不再有顯著特征，這使得傳統的依靠內容特征識別方法不再有效，相關學者基于此事實開始對網絡水軍的用戶特征進行分析。Ghosh等人[5]通過在Twitter中識別一組垃圾郵件賬戶并監(jiān)控其鏈接創(chuàng)建策略來分析當前垃圾郵件發(fā)送者在線社交網絡中采用的策略。除了對網絡水軍的用戶特征分析外，相關學者另辟蹊徑，從網絡自身環(huán)境特征來分析網絡水軍特點。Las-Casas等人[6]提出了一種在源網絡中檢測垃圾郵件發(fā)送者的新方法，使用從巴西寬帶ISP收集的實際數據集采用監(jiān)督分類計數來進行水軍識別。基于綜合特征的網絡水軍識別的方法是為了彌補特定類型網絡水軍識別方法無法全面分析而誕生的。

目前，國內對微博平臺網絡水軍的識別方法研究有限。張良等人[7]利用累計分布函數提取用戶特征屬性，利用邏輯回歸算法建立識別水軍模型。袁旭萍等人[8]使用熵值法確定指標權重，采用綜合指數和熵值法確立微博水軍自動識別模型。程曉濤等人[9]利用水軍用戶無法改變與網絡中正常用戶的鏈接關系，采用了基于用戶關系圖特征的微博水軍賬號識別方法。諸如以上研究均是從對用戶賬號信息的特征屬性提取入手，但其算法對用戶賬號信息提取不全面，在網絡水軍行為逐漸趨于正常用戶的條件下，仍然不能全面識別微博水軍。

2 特征屬性定義

通過對以往微博網絡水軍識別方法的對比研究發(fā)現，這些研究一般從用戶信息和用戶行為信息兩方面提取特征屬性，用戶信息方面簡單提取基本信息，用戶行為信息一般提取微博內容的URL率和文本自相似度。在特征提取這方面，以往研究用戶信息提取不全，用戶行為信息提取單一，而隨著網絡水軍運轉方式轉變，不再單純的以發(fā)布廣告和惡意鏈接的方式運營，其賬號背后有水軍操作而變得越來越隱藏化、用戶化，提取URL率和文本自相似度這兩條屬性已不再適合。故此，本文將提取出用戶賬號所具有的全部累計信息，經過相關整理篩選得出有效的網絡水軍特征屬性。

粉絲數：該用戶賬號被其他用戶賬號關注總數。由于水軍賬號一般為完成雇主任務而產生，此賬號上一般和其他用戶不具有交互性，排除被正常用戶意外關注，水軍賬號的粉絲數一般比正常用戶粉絲數少。

關注數：該用戶關注其他用戶賬號總數。網絡水軍的灰色產業(yè)鏈下存在粉絲數買賣的情況，即有正常用戶為滿足其高關注度的要求，購買僵尸粉對自身關注，從而提高用戶的粉絲數。另外，由于水軍接受各個雇主任務，需要關注各類熱點話題，其本身就要對大量賬號進行關注。綜上兩種情況，水軍賬號的關注數要遠遠高于正常用戶的關注數。

粉絲關注比：每個用戶的粉絲數同其關注數的比值。為了排除個別正常用戶因為特別需要而產生的低粉絲數或高關注數的情況，采用用戶粉絲數與關注數的比值可以更好地區(qū)分水軍和正常用戶，即粉絲關注比越高，該用戶越可能是認證用戶，粉絲關注比越低，則可能是水軍賬號。其公式如下：

微博數：用戶賬號已經發(fā)布的微博總數。水軍賬號在進行制造和傳播輿論時，會大量的發(fā)布和轉發(fā)相關微博，而正常用戶一般只會因為某些事件而發(fā)布微博作為傾述或吐槽需要，不會大量發(fā)布微博，故而水軍用戶的微博數量比正常用戶要多得多。

平均微博數：自創(chuàng)建微博賬號起，該用戶賬號平均每天發(fā)布的微博數。

資料完善度：此為綜合評價指標，其中包括性別、生日、所在地、QQ、大學、工作經歷六個基本資料，每個小指標填寫則為1，不填寫則為0。資料完善度為各小指標的加和總值。

是否有簡介：由用戶手動編寫，方便其他用戶了解該賬號用戶，具有極強的個性化。簡介填寫則該指標為1，沒有則為0。

標簽數：標簽是用戶為讓更多志趣相同之人找到自己的個性化描述詞語，如校園生活、讀書分享等。標簽數多少則反應該用戶興趣廣泛程度和其活躍度。

微博等級：微博等級是用戶活躍和榮譽的見證。隨著用戶在微博上的探索和成長，等級會隨之增加。

勛章個數：勛章是用戶參與微博上各類活動所授予的圖標。其個數能反應該用戶的活躍程度。

會員信息：用戶為獲得微博特權服務而付費開通的標志，微博會員等級為1-7級。

陽光信用：微博陽光信用致力于成為自然人網絡身份的一個固有價值屬性。它結合了用戶的發(fā)言歷史、活躍度、違規(guī)記錄、商業(yè)記錄、實名以及社交關系等行為，是微博用戶在網絡上陽光討論、積極表達、理性交流的衡量標尺。陽光信用劃分為5個等級，等級越高信用極好，等級越低信用極低。

3 基于支持向量機的水軍賬號識別模型

網絡水軍識別實際上是一個二分類問題，以微博平臺所有用戶為一個大集合，所有用戶的行為模式基本類似，因此對單個用戶賬號的判別只有兩種情況，一種是網絡水軍，一種不是網絡水軍。設U為微博用戶集合，Uy為網絡水軍集合，Un為非網絡水軍集合，則U={Uy,Un}。設 x為用戶特征向量，則 x={x1,x2,…,xi,…,xn}，其中xi表示上一節(jié)提到的各個用戶特征屬性。存在一個目標函數F，使得，即目標函數 F→{0,1}的映射。當F(x)=1時，表示該特征向量標志的用戶信息屬于水軍集合，反之，F(x)=0，則表示屬于正常用戶集合。

支持向量機是由Corinna Cortes和Vapnik在1995年提出的一種前饋類型網絡的傳統機器學習分類算法，它以訓練誤差作為優(yōu)化問題的約束條件，以置信范圍值最小化作為優(yōu)化目標，即SVM是一種結構風險最小化準則的學習方法。

SVM的工作原理便是將原始數據通過變換映射到高緯度特征空間，這樣即使數據不是線性可分，也可以對數據點進行分類，然后使用變換后的新數據進行預測分類。

從線性可分模式分類角度來理解，SVM的主要思想是建立一個最優(yōu)決策超平面，使得該平面兩側平面最近的兩類樣本之間的距離最大化，從而對分類問題提供良好的泛化能力。

定義1最優(yōu)超平面有n個線性可分樣本{(x1,y1),(x2,y2),…,(xn,yn)}，對于任意輸入樣本 xi，期望輸出 yi=±1（代表兩類類別標志）。用于分類的超平面方程為wTx+b=0，其中，x為輸入向量，w為權值，b為偏置，則有wTx+b＞0,y=+1;wTx+b＜0,y=-1。

超平面與最近的樣本點之間的間隔成為分離邊緣，支持向量機的目標是找到一個分離邊緣最大的超平面，即最優(yōu)超平面，也就是要確定分離邊緣最大時w和b的值。這樣，分離邊緣最大化等價于使權值向量范數‖w‖最小化。通過對一個復雜的最優(yōu)化問題的求解簡化為對原有樣本數據的內積運算。在d(wTx+b)≥1的約束下，可得最小化代價函數：

該約束優(yōu)化問題的代價函數是w的凸函數，且關于w的約束條件是線性，因此可用langrange系數方程解決約束最優(yōu)問題。

而對于復雜的模式分類問題非線性地投射到高位特征空間可能是線性可分的，因此只要特征空間的維數足夠高，則原始模式空間能變換為一個新的高位特征空間，使得在特征空間中模式以較高的概率為線性可分的，這樣就可以解決非線性可分數據的分類問題。

然而，如何將低位空間向量集映射到高位空間？這邊涉及到SVM的關鍵，核函數的選擇。核函數可以巧妙地解決計算復雜度的問題，只要選用適當的核函數，就可以得到高維空間的分類函數，采用不同的核函數得到不同的SVM算法。常見的核函數類型有以下幾種：

（1）線性核函數：K(x,xi)=x·xi

（2）多項式核函數：K(x,xi)=((x·xi)+1)d

（4）Sigmoid 核函數：K(x,xi)=tanh(κ(x,xi)-δ)

其中，RBF核主要用于線性不可分的情形，適用于參數多，分類結果非常依賴于參數的實際問題。根據微博數據特征屬性特點，本文選擇RBF核解決數據分類問題。

4 實驗結果及分析

4.1 數據處理與準備

為獲取實驗相關數據，需要對大量用戶數據進行收集處理。新浪微博用戶信息可以利用新浪微博開放的API進行，但是考慮到使用API調用的用戶信息不夠全面，且新浪微博API調用防非法操作措施，通過API調用獲取數據并不能滿足實驗數據要求。本文選擇采用爬取程序從新浪微博開放平臺采集微博用戶信息。由于支持向量機本身在解決小樣本識別中表現出特有的精確優(yōu)勢，故而使用爬取程序獲取用戶信息1036條。經過對數據有效性篩選，獲得934條正常用戶信息數據。通過網絡購買水軍的方式，手動獲取到200條水軍用戶信息數據。

對上述獲得的數據信息進行預處理：

數據清理：填寫少量缺失值、光滑噪聲數據、刪除離群點。

數據變化：對某些字段進行規(guī)范化，使其適用于SVM。本文采用IBM SPSS Modeler作為本實驗的軟件工具。SPSS自身集成SVM功能，且提供了可視化的操縱方便，界面友好，操作方便。

4.2 實驗模型及結果

（1）創(chuàng)建基本流，建立模型

圖1

（2）模型測試結果圖

從圖2實驗結果我們可以看出，基于支持向量機的微博水軍賬號識別精確度達到94.22%，同文獻[7]實驗結果比較，本文實驗結果精確度基本高于文[7]精確獻度，說明相較于采用邏輯回歸算法作水軍檢測，采用支持向量機模型具有更高的識別精確率，更加有效。

圖2

5 結語

網絡技術日新月異，越來越多的用戶加入到互聯網大軍中，網絡水軍這一灰色產業(yè)產生了巨大的利益誘惑，要及時遏制網絡水軍造成的輿論誤導、熱點綁架等影響，就要從源頭抓起，揪出隱匿在微博用戶群體中的水軍賬號。本文采用了一種基于支持向量的水軍賬號檢測模型，針對目前水軍行為特征趨向正常用戶的混同表現，收集代表用戶的全部客觀信息作為檢測依據，實驗結果表明本文的模型可以更精確的識別出網絡水軍。在今后的研究中，可以對支持向量機做出優(yōu)化，使其能適應各種不同平臺的水軍檢測。

參考文獻：

[1]莫倩,楊珂.網絡水軍識別研究[J].軟件學報,2014,25(7):1505-1526.http://www.jos.org.cn/1000-9825/4617.html

[2]Sriram B,Fuhry D,Demir E,Ferhatosmanoglu H,Demirbas M.Short Text Classification in Twitter to Improve Information Filtering.In:Crestani F,Marchand-Maillet S,Chen HH,eds.Proc.of the 33rd Int'l ACM SIGIR Conf.on Research and Development in Information Retrieval(SIGIR 2010).New York:ACM Press,2010：841-842.

[3]Zhao YY,Qin B,Liu T.Sentiment Analysis.Ruan Jian Xue Bao.Journal of Software,2010,21(8):1834-1848(in Chinese with English abstract).http://www.jos.org.cn/1000-9825/3832.html.

[4]Liu B.Sentiment Analysis And Subjectivity.In:Indurkhya N,Damerau FJ,eds.Handbook of Natural Language Processing.Boca Raton:CRC Press,2010：627-666.

[5]Ghosh S,Korlam G,Ganguly N.Spammers'Networks Within Online Social Networks:A Case-study on Twitter.In:Sadagopan S,Ramamritham K,Kumar A,Ravindra MP,Bertino E,Kumar R,eds.Proc.of the 20th Int’l Conf.on World Wide Web(WWW 2011).New York:ACM Press,2011：41-42.

[6]Las-Casas PHB,Guedes D,Almeida JM,Ziviani A,Marques-Neto HT.SpaDeS:Detecting Spammers at the Source Network.Computer Networks,2012,57(2):526-539.

[7]張良,朱湘,李愛平,等.一種基于邏輯回歸算法的水軍識別方法[J].信息安全與技術,2015(4):57-62.

[8]袁旭萍,王仁武,翟伯蔭.基于綜合指數和熵值法的微博水軍自動識別[J].情報雜志,2014(7):176-179.

[9]程曉濤,劉彩霞,劉樹新.基于關系圖特征的微博水軍發(fā)現方法[J].自動化學報,2015,41(9):1533-1541.

[10]張艷梅,黃瑩瑩,甘世杰,等.基于貝葉斯模型的微博網絡水軍識別算法研究[J].通信學報,2017,38(1):44-53.

[11]楊臻,張明慧,肖漢.基于多特征的網絡水軍識別方法[J].激光雜志,2016(12):110-113.

[12]謝忠紅,張穎,張琳.基于邏輯回歸算法的微博水軍識別[J].微型機與應用,2017(16):67-69.

[13]韓忠明,許峰敏,段大高.面向微博的概率圖水軍識別模型[J].計算機研究與發(fā)展,2013,50(s2):180-186.