仲麗君,楊文忠,袁婷婷,向進(jìn)勇
ZHONG Lijun,YANG Wenzhong,YUAN Tingting,XIANG Jinyong
新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
隨著互聯(lián)網(wǎng)的迅速發(fā)展,社交網(wǎng)絡(luò)在不同應(yīng)用領(lǐng)域日益增多,已經(jīng)成為人們?nèi)粘I钪械闹匾缃还ぞ摺5c此同時(shí),伴隨著社交媒體的爆炸式增長(zhǎng),許多非法用戶將其作為牟取利益的平臺(tái),國(guó)外的Twitter、Facebook,以及國(guó)內(nèi)的網(wǎng)易、新浪等在線社交系統(tǒng)的許多用戶經(jīng)常受到各種異常用戶的困擾。一些用戶在社交網(wǎng)絡(luò)中大肆傳播虛假消息、垃圾信息等有害信息,向用戶推送虛假?gòu)V告,進(jìn)行惡意傳銷,擾亂了社交平臺(tái)的正常營(yíng)銷和推廣,侵犯了公眾的利益,污染了社交網(wǎng)絡(luò)環(huán)境,對(duì)社會(huì)造成了不良的影響。因此,識(shí)別這些異常用戶是社交網(wǎng)絡(luò)研究領(lǐng)域的一個(gè)重要課題,對(duì)凈化網(wǎng)絡(luò)環(huán)境,維持網(wǎng)絡(luò)秩序,提高用戶上網(wǎng)體驗(yàn),促進(jìn)社會(huì)的和諧發(fā)展等具有重要作用。
異常檢測(cè)在許多應(yīng)用領(lǐng)域得到了廣泛的應(yīng)用,如垃圾郵件識(shí)別、入侵檢測(cè)、欺詐檢測(cè)、金融詐騙、故障檢測(cè)、惡意用戶識(shí)別、用戶異常情緒、人類行為分析、網(wǎng)絡(luò)詐騙、醫(yī)學(xué)和公共衛(wèi)生、工業(yè)損傷、圖像處理、傳感器網(wǎng)絡(luò)等。Markou等人[1]于2003年在監(jiān)督學(xué)習(xí)的基礎(chǔ)上對(duì)異常檢測(cè)的新穎性進(jìn)行了研究。文獻(xiàn)[2-3]提出了有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)以及基于聚類技術(shù)的各種異常檢測(cè)方法,但是沒(méi)有對(duì)網(wǎng)絡(luò)中的異常進(jìn)行檢測(cè)。文獻(xiàn)[4]提出了一種基于一個(gè)樣本類和兩個(gè)類別的支持向量機(jī)的混合異常檢測(cè)機(jī)制。文獻(xiàn)[5]對(duì)金融領(lǐng)域中基于聚類的異常識(shí)別方法進(jìn)行了總結(jié),并從不同的角度對(duì)其進(jìn)行了比較。Fire等人[6]根據(jù)社交網(wǎng)絡(luò)自身的拓?fù)涮卣鳎瑢?duì)多種類型社交網(wǎng)絡(luò)中的惡意行為進(jìn)行檢測(cè),可以檢測(cè)出多種類型的惡意配置文件,取得了良好的性能。
目前有關(guān)社交網(wǎng)絡(luò)異常用戶的識(shí)別研究,沒(méi)有一個(gè)統(tǒng)一的歸類,相關(guān)的綜述性文章多是對(duì)其中一種類型進(jìn)行總結(jié),沒(méi)有一個(gè)系統(tǒng)的介紹。因此本文將社交網(wǎng)絡(luò)中的異常用戶劃分為具體的7個(gè)類別,并對(duì)每種不同類型異常用戶的研究現(xiàn)狀進(jìn)行概要的介紹。然后,對(duì)異常用戶識(shí)別技術(shù)進(jìn)行了詳細(xì)的闡述,并對(duì)它們的優(yōu)缺點(diǎn)進(jìn)行了比較。
異常是一種由各種異常活動(dòng)產(chǎn)生的與常規(guī)不符的現(xiàn)象或事件,隨著時(shí)間的演變,不同的作者對(duì)異常有不同的定義,表1給出了一些最常用的定義。結(jié)合已有定義以及對(duì)社交網(wǎng)絡(luò)異常產(chǎn)生方式的分析,本文中的異常是指在社交網(wǎng)絡(luò)中,個(gè)人或群體的行為不符合正常模式定義的特征行為或與其同齡人以明顯不同的方式進(jìn)行的互動(dòng),其表現(xiàn)為在同一結(jié)構(gòu)中與其他用戶行為不同的活動(dòng),比如異常的觀點(diǎn)、情緒、行為等。
針對(duì)社交網(wǎng)絡(luò)中存在的異常用戶類型多樣、邊界不清、目的不同(騷擾、廣告、引導(dǎo)輿論走向、欺詐等)等問(wèn)題,本文從異常用戶在社交網(wǎng)絡(luò)上具有的屬性特征出發(fā),總結(jié)歸納了不同種類的異常用戶的特點(diǎn),將社交網(wǎng)絡(luò)異常用戶劃分為7種獨(dú)立不相交的類別。
(1)惡意用戶,發(fā)布內(nèi)容含指向病毒網(wǎng)頁(yè)、釣魚網(wǎng)站或惡意網(wǎng)站的有害鏈接,往往會(huì)給人們?cè)斐山?jīng)濟(jì)損失。
(2)僵尸用戶,自動(dòng)或手動(dòng)地生產(chǎn)大量“僵尸”賬號(hào),增加粉絲量,提高影響力,主要意圖是追隨、熱捧那些迫切需要成為熱門用戶、熱門話題的用戶,絕大多數(shù)情況下它們不會(huì)向其他用戶發(fā)布垃圾信息,暴露自己,而是盡可能地將自己偽裝成正常用戶。
(3)垃圾用戶,主要是利用社交平臺(tái)頻繁發(fā)布不請(qǐng)自來(lái)的大量相似或相同的信息,通常是單個(gè)用戶,一般只是傳播一些垃圾信息,不會(huì)對(duì)公司、組織造成很大的傷害。
(4)虛假用戶,大量注冊(cè)的偽造賬戶,發(fā)布虛假信息、虛假評(píng)論。
(5)網(wǎng)絡(luò)水軍,為了達(dá)到某種目的(營(yíng)銷、推廣、上熱搜、政治、公關(guān)等),大量發(fā)表、回復(fù)、轉(zhuǎn)發(fā)、評(píng)論、提及他人,使目的信息大量傳播,散播謠言,混淆事實(shí),影響人們的判斷,引導(dǎo)輿論走勢(shì),網(wǎng)絡(luò)水軍通常具有很強(qiáng)的群體特征,行為也更隱蔽,不易被察覺(jué)。
(6)異常情緒用戶,從用戶發(fā)布內(nèi)容映射的情緒狀態(tài),找出隱藏在大量文本中的特定時(shí)間內(nèi)情緒發(fā)生突然變化的用戶。
(7)不良言論用戶,該類用戶不滿足上述6類異常用戶的任何特征,看似一切正常,但是在有關(guān)民族、宗教、黨建政策等大是大非的問(wèn)題上,發(fā)表含有反動(dòng)、反黨反人民、辱華、煽動(dòng)民族團(tuán)結(jié)、支持三股勢(shì)力等言論的極端思想用戶。
表2給出了這些異常用戶的相關(guān)定義。
本文將社交網(wǎng)絡(luò)異常用戶劃分為7個(gè)類別:惡意用戶、僵尸用戶、垃圾用戶、虛假用戶、網(wǎng)絡(luò)水軍、異常情緒用戶、不良言論用戶,并分別對(duì)這7類異常用戶識(shí)別的研究現(xiàn)狀進(jìn)行了分析。
無(wú)論是國(guó)外的Twitter、Facebook,還是國(guó)內(nèi)的網(wǎng)易、騰訊、新浪等,近年來(lái)都飽受惡意用戶的困擾。他們發(fā)布惡意鏈接、釣魚網(wǎng)站、傳播病毒程序,污染了網(wǎng)絡(luò)環(huán)境,嚴(yán)重威脅到人們的財(cái)產(chǎn)安全,許多專家學(xué)者對(duì)惡意用戶的識(shí)別展開了大量的研究。Stringhini等人[12]采用隨機(jī)森林算法對(duì)三大社交網(wǎng)絡(luò)上的惡意用戶進(jìn)行檢測(cè),取得了較好的分類準(zhǔn)確率。Chu等人[13]使用貝葉斯對(duì)Twitter上發(fā)布惡意內(nèi)容的用戶進(jìn)行檢測(cè)。Zheng等人[14]使用支持向量機(jī)對(duì)新浪微博上的惡意用戶進(jìn)行檢測(cè),但時(shí)間開銷較大,所提出的特征提取方法對(duì)于數(shù)據(jù)量巨大時(shí)并不適應(yīng)。鑒于此,國(guó)內(nèi)的談磊等人[15]提出了一種改進(jìn)的復(fù)合分類模型。Elmendili等人[16]使用基于內(nèi)容和行為的技術(shù)檢測(cè)惡意用戶。微博由于文本較短,字?jǐn)?shù)較少,從中可以提取的特征有限,單一地根據(jù)用戶發(fā)布消息的內(nèi)容來(lái)識(shí)別惡意用戶具有局限性,不能很好地識(shí)別惡意用戶。為了彌補(bǔ)這方面的不足,文獻(xiàn)[17]通過(guò)在MySpace上設(shè)置蜜罐賬戶,從而獲得惡意用戶關(guān)注的方式,對(duì)這些惡意用戶樣本進(jìn)行分析,提取特征,開發(fā)了一個(gè)基于機(jī)器學(xué)習(xí)的分類器。由于大多數(shù)的惡意檢測(cè)技術(shù)是針對(duì)國(guó)外的Twitter、Facebook等社交網(wǎng)站進(jìn)行的研究,不一定適用于國(guó)內(nèi)的微博。因此,林成峰[18]在此基礎(chǔ)上,將3種分類算法進(jìn)行整合,檢測(cè)新浪微博上的惡意用戶。許翰林[19]根據(jù)動(dòng)態(tài)信任模型檢測(cè)社交網(wǎng)絡(luò)中的惡意用戶。劉佳[20]通過(guò)使用BP和RBF兩種算法對(duì)網(wǎng)絡(luò)中的文本進(jìn)行分類來(lái)檢測(cè)異常用戶。Hong等人[21]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的惡意用戶檢測(cè)方法。

表1 異常的不同定義

表2 異常用戶的不同定義
僵尸用戶,最為熟知的就是僵尸粉,它們并不參與正常的社交活動(dòng),也不具備攻擊性,而是追隨、熱捧其他用戶、話題或者發(fā)布少量不良鏈接。僵尸粉由最早的“三無(wú)”,即無(wú)頭像、無(wú)粉絲、無(wú)微博逐漸發(fā)展為“三有”,即有頭像、有粉絲、有微博,其關(guān)注的用戶有真實(shí)用戶也有僵尸用戶。隨著微博用戶基數(shù)的增加以及微博管理員管理力度的加大,這種僵尸粉已經(jīng)不能滿足互聯(lián)網(wǎng)市場(chǎng),隨之而來(lái)的是人工添加的虛假粉絲,即“活粉”,資料、頭像等信息完整,與真實(shí)的微博用戶沒(méi)有什么差別,每天定時(shí)更新微博,活躍度很高,粉絲數(shù)量不再是瞬間暴增而是穩(wěn)定地增加,且多為真實(shí)用戶。
由于僵尸粉通常是由機(jī)器自動(dòng)產(chǎn)生的,其生成的注冊(cè)名和人填寫的注冊(cè)名存在一定的不同。考慮到這一點(diǎn),方明等人[22]提出了一種改進(jìn)的分類方法進(jìn)行僵尸用戶的檢測(cè)。針對(duì)新浪微博中偽裝策略不斷升級(jí)的虛假粉絲,文獻(xiàn)[23]在用戶的社交關(guān)系和關(guān)系屬性兩個(gè)特征的基礎(chǔ)上,從圖特征的角度,即雙向關(guān)注的百分比和追隨者數(shù)量與被追隨者數(shù)量的比率,用來(lái)檢測(cè)虛假粉絲。岳紅等人[24]將靜態(tài)與動(dòng)態(tài)特征相結(jié)合對(duì)僵尸粉進(jìn)行檢測(cè)。王一博[25]使用支持向量機(jī),根據(jù)用戶的關(guān)系屬性和內(nèi)容屬性實(shí)現(xiàn)異常用戶的檢測(cè)。Zhang等人[26]對(duì)爬取到的新浪數(shù)據(jù)進(jìn)行分析,分析得到僵尸用戶和正常用戶不同的特征,手動(dòng)將合法用戶中的僵尸用戶進(jìn)行標(biāo)注,再利用SVM機(jī)器學(xué)習(xí)分類器自動(dòng)檢測(cè)僵尸追隨者。為了提高檢測(cè)算法的準(zhǔn)確性,文中增加了一些檢測(cè)新特征,并將用戶的配置文件和推文相結(jié)合,實(shí)驗(yàn)表明該方法比以前的檢測(cè)方法更有效,準(zhǔn)確率達(dá)到99.78%,誤檢率為11.57%。Li等人[27]使用圖的方法根據(jù)用戶的行為屬性檢測(cè)新浪微博上的僵尸賬戶。陶永才等人[28]在用戶關(guān)系構(gòu)成的社交網(wǎng)絡(luò)上,對(duì)用戶的粉絲進(jìn)行聚類,然后與用戶的社交網(wǎng)絡(luò)關(guān)系相結(jié)合,建立僵尸用戶的檢測(cè)模型,結(jié)果表明,召回率和精確率良好,查全率相對(duì)偏低。王越等人[29]使用C4.5決策樹對(duì)新浪微博中的僵尸粉進(jìn)行檢測(cè)。
垃圾用戶頻繁發(fā)布大量重復(fù)的信息,對(duì)其他用戶造成了騷擾。國(guó)內(nèi)外有許多學(xué)者對(duì)垃圾用戶的檢測(cè)進(jìn)行了研究。Wang等人[30]使用40多種分類算法對(duì)社交網(wǎng)站單個(gè)的垃圾信息進(jìn)行檢測(cè),但是無(wú)法滿足大量垃圾用戶的檢測(cè),針對(duì)這個(gè)問(wèn)題,Zhang等人[31]在信息論原理的基礎(chǔ)上對(duì)垃圾用戶進(jìn)行分類,提出了一種基于URL驅(qū)動(dòng)的評(píng)估方法。McCord等人[32]根據(jù)用戶與內(nèi)容兩方面的特征,構(gòu)建了4個(gè)分類器(分別是隨機(jī)森林、SVM、樸素貝葉斯和KNN)來(lái)區(qū)分垃圾用戶與正常用戶,實(shí)驗(yàn)表明,隨機(jī)森林的效果最好,精確度為95.7%。李赫元等人[33]使用支持向量機(jī)對(duì)中文微博垃圾用戶進(jìn)行檢測(cè)。吳斌等人[34]考慮了微博垃圾用戶的文本、行為以及社交網(wǎng)絡(luò)信息并建模分析,識(shí)別垃圾用戶。鄒永潘等人[35]使用混合的方法從統(tǒng)計(jì)和語(yǔ)義兩方面進(jìn)行檢測(cè)。趙斌等人[36]在對(duì)微博垃圾用戶的檢測(cè)中,提出了一種基于重用檢測(cè)模型的過(guò)濾算法,在考慮文本特征的同時(shí),將用戶的行為特征也考慮在內(nèi),從文本粒度的角度,分為語(yǔ)句級(jí)檢測(cè)SRD和詞項(xiàng)級(jí)檢測(cè)TRD,SRD重于檢測(cè)用戶行為,TRD重于檢測(cè)垃圾信息的主題。文獻(xiàn)[37]在以往研究的基礎(chǔ)上做了進(jìn)一步的完善,將內(nèi)容、用戶行為與圖形相結(jié)合,通過(guò)分析用戶的行為及其與用戶的關(guān)系,提出了一種基于圖的檢測(cè)方法。在兩種情況下使用多種分類算法進(jìn)行了實(shí)驗(yàn),第一種是使用整個(gè)數(shù)據(jù)來(lái)構(gòu)建和評(píng)估模型,誤報(bào)率較高;第二種將普通用戶與垃圾用戶的數(shù)量比設(shè)為2∶1,與多種分類算法相比,邏輯回歸算法準(zhǔn)確率最高,達(dá)到了99.569%。
針對(duì)現(xiàn)有對(duì)虛假用戶的研究,Cao等人[38]使用基于圖的方法,開發(fā)了一種新工具SybilRank,結(jié)合社交屬性,使在線社交網(wǎng)絡(luò)根據(jù)用戶感知到的虛假可能性對(duì)虛假賬戶進(jìn)行排名,其中排名較低的多為虛假賬戶,通過(guò)對(duì)200000個(gè)賬戶進(jìn)行測(cè)試,準(zhǔn)確率為90%。文獻(xiàn)[39]將微博用戶考慮在內(nèi),將微博自身的文本特征和發(fā)布者的社交網(wǎng)絡(luò)特征相結(jié)合,形成一個(gè)特征向量,然后作為支持向量機(jī)的輸入,從而進(jìn)行分類,檢測(cè)結(jié)果比單一的特征要好,準(zhǔn)確率分別提高了13%和29%。文獻(xiàn)[40]用混合的方法對(duì)社交網(wǎng)絡(luò)中的虛假用戶進(jìn)行檢測(cè),準(zhǔn)確率為98%。現(xiàn)有很多研究在采用機(jī)器學(xué)習(xí)方法檢測(cè)虛假用戶時(shí)需要人工標(biāo)注大量的數(shù)據(jù)集進(jìn)行訓(xùn)練,代價(jià)較大,而且存在樣本不足的問(wèn)題,鑒于這一點(diǎn),方勇等人[41]使用層次聚類的方法對(duì)海量數(shù)據(jù)中的虛假用戶進(jìn)行檢測(cè),可以有效找出一定比例的虛假用戶。Zhang等人[42]考慮到賬戶存在的目的,使用星型抽樣的方法來(lái)發(fā)現(xiàn)所有高級(jí)賬戶的追隨者列表中重復(fù)或相似的微博賬戶,實(shí)現(xiàn)虛假賬戶的檢測(cè)。針對(duì)Twitter的研究較多,而Facebook相對(duì)較少,Gupta等人[43]使用基于規(guī)則的方法,收集了用戶賬戶上的所有活動(dòng),根據(jù)用戶個(gè)人資料及與其他用戶的互動(dòng)行為對(duì)Facebook上的虛假賬戶進(jìn)行檢測(cè)。Ersahin等人[44]利用信息論知識(shí),提出了一種在Twitter社交網(wǎng)絡(luò)上檢測(cè)虛假賬戶的分類方法,準(zhǔn)確率為90.41%。譚侃等人[45]使用基于K-means的主動(dòng)學(xué)習(xí)方法對(duì)社交網(wǎng)絡(luò)中的虛假用戶進(jìn)行檢測(cè)。
傳統(tǒng)對(duì)網(wǎng)絡(luò)水軍的研究多是基于內(nèi)容特征、黑名單、規(guī)則進(jìn)行分析的,隨著互聯(lián)網(wǎng)的迅速發(fā)展,用戶的防范意識(shí)不斷增強(qiáng),傳統(tǒng)檢測(cè)方法已經(jīng)無(wú)法發(fā)現(xiàn)這些隱蔽的水軍。現(xiàn)有對(duì)網(wǎng)絡(luò)水軍的研究中,Moh等人[46]考慮到用戶具有的社交關(guān)系,如關(guān)注的好友、粉絲等,由特征矩陣計(jì)算該用戶的可信任度,對(duì)該用戶是否為網(wǎng)絡(luò)水軍進(jìn)行識(shí)別。Wang等人[47]提出將社交網(wǎng)絡(luò)水軍間的關(guān)系作為特征,利用圖模型對(duì)網(wǎng)絡(luò)水軍之間的關(guān)系進(jìn)行建模。這種基于關(guān)系交互的方法在水軍識(shí)別的準(zhǔn)確率上有了一定的提高,但數(shù)據(jù)獲取較困難。Husna等人[48]使用主成分分析以及K-means聚類算法對(duì)水軍機(jī)器人進(jìn)行識(shí)別。Bhat等人[49]提出了一種基于規(guī)則的水軍檢測(cè)方法,分析了許多郵件水軍的行為,并根據(jù)其中兩種行為特征構(gòu)建了一個(gè)分類器。陳侃等人[50]通過(guò)構(gòu)建決策樹實(shí)現(xiàn)微博水軍的檢測(cè)。張良等人[51]使用邏輯回歸算法對(duì)新浪微博中的網(wǎng)絡(luò)水軍進(jìn)行檢測(cè),檢測(cè)特征包括好友數(shù)、粉絲數(shù)、發(fā)文頻率、所發(fā)博文數(shù)、離線時(shí)間、博文含URL率等。上述基于行為特征的識(shí)別方法,對(duì)隱藏很深的網(wǎng)絡(luò)水軍和復(fù)雜多變的特征屬性,識(shí)別準(zhǔn)確率較低,張艷梅等人[52]進(jìn)行了改進(jìn),根據(jù)貝葉斯理論和遺傳算法進(jìn)行水軍的識(shí)別。Subrahmanian等人[53]根據(jù)句法和語(yǔ)義特征、時(shí)間的行為特性、用戶資料等特征,先進(jìn)行最原始的檢測(cè),然后根據(jù)LDA算法進(jìn)行聚類分析,再用SVM識(shí)別Twitter和Facebook上的機(jī)器人水軍。Chen等人[54]使用改進(jìn)的分類算法,將循環(huán)神經(jīng)網(wǎng)絡(luò)與自動(dòng)編碼器相融合,檢測(cè)網(wǎng)絡(luò)水軍。
微博、Twitter等已經(jīng)成為人們?cè)诰€交流和傳播情感的主要社交平臺(tái),用戶可以在上面自由地發(fā)表個(gè)人的意見和觀點(diǎn),發(fā)泄自己的情感,表達(dá)他們對(duì)生活、服務(wù)、政策、產(chǎn)品、當(dāng)前事件、熱點(diǎn)話題和其他主題的看法。異常情緒用戶的識(shí)別通常在語(yǔ)義特征的基礎(chǔ)上對(duì)單用戶或群體用戶的情感進(jìn)行研究,根據(jù)用戶發(fā)布的內(nèi)容,了解他們的情緒狀態(tài),從而可以分析網(wǎng)絡(luò)輿情,及時(shí)發(fā)現(xiàn)異常情緒用戶,并對(duì)他們進(jìn)行開導(dǎo),從而預(yù)防一些極端事件和群體事件的發(fā)生。Jain[55]設(shè)計(jì)了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的跟蹤單個(gè)用戶情感的移動(dòng)應(yīng)用程序,將用戶輸入的文本、瀏覽器的歷史記錄以及社交媒體相結(jié)合進(jìn)行情感分析,判斷一個(gè)人是否表現(xiàn)出長(zhǎng)期的負(fù)面情緒。Wang等人[56]提出了一種改進(jìn)的情感分類方法,即將文本對(duì)象考慮在內(nèi),提高了分類的準(zhǔn)確率,對(duì)Twitter數(shù)據(jù)進(jìn)行異常檢測(cè),通過(guò)比較負(fù)面情緒所占的比例來(lái)觀察一天的異常情況。劉翠娟等人[57]使用基于規(guī)則的方法,從多情感角度對(duì)社會(huì)群體情感的變化進(jìn)行了分析,首先計(jì)算群體情感強(qiáng)度,然后通過(guò)人工方式標(biāo)注情感詞的強(qiáng)度,最后與句法分析相結(jié)合,計(jì)算出微博文本的情感類型和強(qiáng)度,采用可視化的方法對(duì)群體情感進(jìn)行展示。熊建英等人[58]將基于規(guī)則的技術(shù)與圖的方法相融合,在把句法分析和情感詞典相結(jié)合的基礎(chǔ)上,加入了社交網(wǎng)絡(luò)互動(dòng)關(guān)系,即計(jì)算與用戶互動(dòng)頻繁的節(jié)點(diǎn)之間的信任值,從而通過(guò)可信反饋,識(shí)別出情緒異常節(jié)點(diǎn)。Sun等人[59]爬取了5年來(lái)100個(gè)用戶的10275個(gè)微博,按用戶和月份分為5類:中立、快樂(lè)、驚訝、悲傷、憤怒,將這5類作為與用戶情緒相關(guān)的變量進(jìn)行建模,5種情感用五元高斯模型來(lái)模擬,檢測(cè)出異常情緒狀態(tài)。實(shí)驗(yàn)表明,單個(gè)用戶的中性、快樂(lè)和悲傷情緒服從正態(tài)分布,群體的微博情緒服從冪律分布,個(gè)人用戶異常檢測(cè)準(zhǔn)確率為83.49%,不同月份為87.84%。文獻(xiàn)[60]在此基礎(chǔ)上提出了一個(gè)將統(tǒng)計(jì)與神經(jīng)網(wǎng)絡(luò)方法融合的改進(jìn)模型用于檢測(cè)微博異常情緒用戶。
由于微博、論壇等具有發(fā)布方式便捷多樣,傳播速度快等特點(diǎn),對(duì)很多敏感和突發(fā)事件的傳播更敏捷,成為很多輿情傳播的載體。諸多社交平臺(tái)的發(fā)布門檻極低,一些用戶就一些政治問(wèn)題,發(fā)表諸如暴力、反動(dòng)、煽動(dòng)民族團(tuán)結(jié)、鼓吹民族分裂等敏感言論。比如2014年8月新疆網(wǎng)民發(fā)布暴恐言論,稱武警轟炸莎車3個(gè)村,將婦女孩子全部擊斃,達(dá)到煽動(dòng)民族仇恨的目的,給人們?cè)斐闪藰O大的恐慌;2017年1月烏魯木齊市張某在“百度貼吧-烏魯木齊吧”惡意攻擊自治區(qū)維穩(wěn)措施,給政府帶來(lái)了負(fù)面的影響。雖然相關(guān)部門對(duì)其進(jìn)行了管控和監(jiān)測(cè),但仍有一些用戶會(huì)繞過(guò)這些敏感關(guān)鍵詞,將它們以其他的方式表達(dá)出來(lái)。比如2018年4月發(fā)生的“潔潔良事件”,在微博使用辱華詞語(yǔ)“支那”,對(duì)社會(huì)產(chǎn)生了十分惡劣的影響。
對(duì)不良言論用戶的識(shí)別多是從用戶發(fā)布的話題進(jìn)行檢測(cè)的,而且這些話題多是一些敏感話題。敏感話題是話題的一種,只是這些話題中含有一些敏感關(guān)鍵詞,因而對(duì)話題的研究既涉及敏感話題的研究,又包括熱點(diǎn)話題的研究。目前針對(duì)文本進(jìn)行話題發(fā)現(xiàn)和跟蹤的研究還不是很成熟,對(duì)社交網(wǎng)絡(luò)敏感話題的檢測(cè)與跟蹤,一般是根據(jù)國(guó)家的需要制定,雖然有一些相關(guān)的產(chǎn)品應(yīng)用,但是這方面的研究相對(duì)薄弱,參考文獻(xiàn)也比較少。
翟東海等人[61]提出了基于CRF的敏感話題檢測(cè)模型,對(duì)敏感話題具有的敏感性特征進(jìn)行擬合和推斷,與貝葉斯方法相比,具有較好的識(shí)別性能。王亮等人[62]考慮到圖像、視頻中含有的潛在信息,提出了基于SP&KM的改進(jìn)的聚類算法檢測(cè)敏感話題。潘大慶[63]使用層次聚類檢測(cè)敏感話題。孫勝平[64]使用改進(jìn)Single-Pass和層次聚類算法進(jìn)行微博話題的發(fā)現(xiàn)。丁藎[65]通過(guò)Single-Pass算法進(jìn)行修改,過(guò)濾掉與話題不相關(guān)的微博文本,最后使用樸素貝葉斯算法進(jìn)行分類來(lái)實(shí)現(xiàn)對(duì)話題的跟蹤。Ishikawa等人[66]針對(duì)同一個(gè)話題可能會(huì)使用不同的詞匯來(lái)進(jìn)行描述,提出一種與圖算法混合的話題檢測(cè)方法,該方法首先抽取一段時(shí)間和地域內(nèi)的Twitter文本,然后抽取出文本中具有代表性的詞,根據(jù)維基百科找到這些詞的相關(guān)語(yǔ)義信息,并選擇出表達(dá)意思相似的特征詞作為主題詞匯,最后根據(jù)這些新定義的詞匯進(jìn)行話題的檢測(cè)。張?jiān)浇竦热薣67]提出了一種基于相似哈希的增量型文本聚類算法。馮雪坪[68]根據(jù)微博具有時(shí)間周期的特點(diǎn),在一定的時(shí)間窗口內(nèi)先對(duì)微博進(jìn)行分組,然后在每個(gè)分組中使用高頻詞對(duì)微博進(jìn)行排序處理,最后使用改進(jìn)的Sing-Pass算法對(duì)這些微博文本聚類。李勇等人[69]使用混合的方法檢測(cè)話題,先使用LDA主題模型對(duì)微博文本進(jìn)行建模,在檢測(cè)出話題簇的基礎(chǔ)上使用支持向量機(jī)發(fā)現(xiàn)話題。Ding等人[70]針對(duì)Twitter實(shí)時(shí)更新要求高以及內(nèi)容少等特點(diǎn),提出了一種混合的半監(jiān)督狄利克雷處理過(guò)程來(lái)進(jìn)行Twitter中的話題檢測(cè)與跟蹤。
分類是從一組標(biāo)記的數(shù)據(jù)實(shí)例中學(xué)習(xí)模型,然后用訓(xùn)練的分類器將測(cè)試實(shí)例分類到其中一個(gè)類中。分類屬于監(jiān)督學(xué)習(xí)的范疇,基于分類的異常檢測(cè)技術(shù)分為兩個(gè)階段:首先用標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練分類器,即訓(xùn)練階段;其次用分類器將待測(cè)樣本分為正常或異常兩個(gè)類別,即測(cè)試階段。以下是異常識(shí)別中常見的機(jī)器學(xué)習(xí)技術(shù)。
4.1.1 貝葉斯分類
貝葉斯分類器是基于貝葉斯理論的分類器,它首先計(jì)算特征值屬于每個(gè)類別的先驗(yàn)概率,再根據(jù)人工標(biāo)記文本類別的概率,計(jì)算其后驗(yàn)概率,把概率最大的那個(gè)類當(dāng)作最終的分類結(jié)果。
在對(duì)惡意用戶的識(shí)別中,文獻(xiàn)[13]在傳統(tǒng)檢測(cè)方法的基礎(chǔ)上,通過(guò)構(gòu)造信息熵,結(jié)合機(jī)器學(xué)習(xí)技術(shù),將用戶分為三大類,提取用戶的內(nèi)容、屬性和行為特征,構(gòu)建了一個(gè)貝葉斯分類系統(tǒng),在50萬(wàn)用戶發(fā)布的4000多萬(wàn)條推文上進(jìn)行實(shí)驗(yàn),結(jié)果表明檢測(cè)準(zhǔn)確率有了一定的提高。但是該方法計(jì)算量大,而且基于屬性間的獨(dú)立性假設(shè),對(duì)真實(shí)社交網(wǎng)絡(luò)進(jìn)行檢測(cè)時(shí),分類準(zhǔn)確率會(huì)受到影響。文獻(xiàn)[30]提出了一個(gè)適用于所有社交網(wǎng)站的單個(gè)實(shí)例的垃圾信息檢測(cè)框架,檢測(cè)特征包括內(nèi)容特征和行為特征,該方法可以實(shí)現(xiàn)單個(gè)垃圾用戶的檢測(cè)。文獻(xiàn)[52]利用貝葉斯模型識(shí)別微博中的水軍,選取了粉絲關(guān)注比、平均發(fā)布微博數(shù)、互相關(guān)注數(shù)、綜合質(zhì)量評(píng)價(jià)、收藏?cái)?shù)等行為特征,與邏輯回歸算法相比,該方法可以在學(xué)習(xí)一定量的樣本后,對(duì)微博用戶進(jìn)行分類,即水軍和非水軍,準(zhǔn)確率高達(dá)97%。
4.1.2 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是由多個(gè)神經(jīng)元按照一定的層次結(jié)構(gòu)連接起來(lái)的,也就是一組相互連接的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)與相鄰層中的其他幾個(gè)節(jié)點(diǎn)有一個(gè)加權(quán)連接,單個(gè)節(jié)點(diǎn)將從連接節(jié)點(diǎn)接收到的輸入數(shù)據(jù)與一個(gè)簡(jiǎn)單函數(shù)一起使用,來(lái)計(jì)算輸出值。
在對(duì)僵尸用戶的識(shí)別中,針對(duì)BP神經(jīng)網(wǎng)絡(luò)存在處理大量數(shù)據(jù)時(shí)收斂速度較慢、容易陷入局部極小等不足,文獻(xiàn)[29]提出了一種將模擬退火算法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,從個(gè)人信息特征如關(guān)注數(shù)、粉絲數(shù)、人氣指數(shù)等,和微博內(nèi)容特征如微博數(shù)、微博轉(zhuǎn)發(fā)率等,對(duì)新浪微博的5000個(gè)用戶進(jìn)行檢測(cè),結(jié)果表明,該判別模型的準(zhǔn)確率和召回率均為93%。文獻(xiàn)[24]從靜態(tài)與動(dòng)態(tài)兩方面,將磷蝦群優(yōu)化算法和人工免疫算法的變異操作引入到網(wǎng)絡(luò)連接權(quán)值和閾值的優(yōu)化過(guò)程中,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用URL比值、用戶關(guān)注度,將微博發(fā)布時(shí)間的隨機(jī)性、用戶被關(guān)注度等作為僵尸粉的檢測(cè)特征。文獻(xiàn)[21]提出了利用CNN提取用戶發(fā)布內(nèi)容的文本特征和圖像特征,再用分類器進(jìn)行分類,實(shí)現(xiàn)惡意用戶的檢測(cè),實(shí)驗(yàn)平均精確率為79.93%。
4.1.3 支持向量機(jī)
支持向量機(jī)算法是建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的近似實(shí)現(xiàn),其基本原理是找到一個(gè)超平面,實(shí)現(xiàn)正面和負(fù)面兩類樣本之間的分離邊緣最大化。SVM算法既可以進(jìn)行有監(jiān)督的訓(xùn)練,也可以調(diào)整為無(wú)監(jiān)督的學(xué)習(xí)。
在對(duì)僵尸用戶的檢測(cè)中,文獻(xiàn)[71]將用戶的行為特征關(guān)注數(shù)、微博數(shù)、轉(zhuǎn)發(fā)數(shù)、微博中的被轉(zhuǎn)發(fā)的微博數(shù)、微博中被評(píng)論的微博數(shù)等作為檢測(cè)特征,準(zhǔn)確率高于91%。文獻(xiàn)[33]通過(guò)對(duì)垃圾用戶行為的分析,從用戶與微博內(nèi)容這兩方面,提出了適用于中文微博特點(diǎn)的7個(gè)用于檢測(cè)垃圾用戶的新特征,分別是用戶權(quán)威度、用戶關(guān)注度、純粉絲度、用戶頭像特征、近期活躍度、用字多樣性等,使用SVM對(duì)垃圾用戶進(jìn)行檢測(cè),分類準(zhǔn)確率為94%,但該方法需要對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,花費(fèi)代價(jià)較大。文獻(xiàn)[14]通過(guò)對(duì)新浪微博3萬(wàn)多名用戶和1600多萬(wàn)條消息的分析,提取出與消息內(nèi)容和用戶行為有關(guān)的18個(gè)特征,如點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)、URL的平均數(shù)量等,使用SVM對(duì)惡意用戶進(jìn)行檢測(cè),實(shí)驗(yàn)表明,該方案分類準(zhǔn)確度達(dá)99%,性能出色。文獻(xiàn)[25]考慮到用戶的關(guān)系屬性和內(nèi)容屬性特征,選取5個(gè)特征值,分別是關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、是否有評(píng)論和點(diǎn)贊,用SVM進(jìn)行訓(xùn)練,結(jié)果表明,僵尸用戶的測(cè)試精確度達(dá)到了96%。但是由于數(shù)據(jù)集是人工進(jìn)行標(biāo)注的,具有主觀性,會(huì)對(duì)結(jié)果造成影響,不僅如此,對(duì)于一些偽裝的高級(jí)用戶,還應(yīng)該考慮更多的特征。
4.1.4 基于規(guī)則的技術(shù)
基于規(guī)則的異常識(shí)別技術(shù)是學(xué)習(xí)并捕獲系統(tǒng)正常行為規(guī)則的過(guò)程,任何不包含在系統(tǒng)中的東西都被認(rèn)為是異常的。常見的算法有決策樹、隨機(jī)森林等。
在對(duì)惡意用戶的檢測(cè)中,文獻(xiàn)[12]在Facebook、MySpace和Twitter上創(chuàng)建一組蜜罐賬戶,采集社交網(wǎng)絡(luò)用戶的信息,通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,挖掘出其六大行為特征,分別是跟隨者與關(guān)注者的比值、發(fā)送消息中的URL比、消息相似度即用戶發(fā)送的消息之間的相似性、朋友選擇、發(fā)送的消息數(shù)量、朋友數(shù)量,采用隨機(jī)森林算法對(duì)用戶分類,其準(zhǔn)確性最好且誤判率最低。在對(duì)虛假用戶的識(shí)別中,文獻(xiàn)[43]采用兩種分類算法,即決策樹與貝葉斯網(wǎng)絡(luò),檢測(cè)Twitter上發(fā)布虛假消息的用戶,提取了粉絲數(shù)、好友數(shù)、賬戶年齡、推文長(zhǎng)度等用戶和內(nèi)容特征,結(jié)果表明,決策樹的分類準(zhǔn)確率更高,對(duì)文本特征的貢獻(xiàn)度也更大。文獻(xiàn)[72]使用C4.5決策樹分類算法對(duì)垃圾用戶進(jìn)行檢測(cè),檢測(cè)特征包括用戶的關(guān)注粉絲比、鏈接比、互粉數(shù)、平均評(píng)論數(shù)等,檢測(cè)準(zhǔn)確率為92%。文獻(xiàn)[29]使用C4.5決策樹對(duì)新浪微博中的僵尸粉進(jìn)行檢測(cè),準(zhǔn)確率和召回率均為92.8%,檢測(cè)特征包括用戶個(gè)人信息、用戶微博內(nèi)容和用戶鏈接關(guān)系等。
4.1.5 基于多種分類器的組合
單一的分類算法不能產(chǎn)生很好的結(jié)果,為了提高分類的準(zhǔn)確率,可以將多種算法進(jìn)行組合,彌補(bǔ)單一算法的不足,對(duì)異常用戶進(jìn)行檢測(cè)。
由于樸素貝葉斯遵循類條件獨(dú)立原則,在現(xiàn)實(shí)問(wèn)題中不一定成立,因而對(duì)分類結(jié)果也會(huì)產(chǎn)生影響,而KNN算法準(zhǔn)確率較好,但計(jì)算量大。為了彌補(bǔ)這兩種算法的不足,文獻(xiàn)[15]對(duì)惡意用戶的識(shí)別進(jìn)行了優(yōu)化,提取用戶屬性和行為的特征,如注冊(cè)時(shí)間、發(fā)文方式、好友數(shù)、粉絲數(shù)等,根據(jù)用戶屬性的相關(guān)性選擇合適的分類算法,在確保分類準(zhǔn)確率的同時(shí),減少了時(shí)間開銷。文獻(xiàn)[18]在這些研究者的基礎(chǔ)上,先收集大量的惡意用戶數(shù)據(jù),人工進(jìn)行標(biāo)注,對(duì)數(shù)據(jù)進(jìn)行分析,將惡意行為分為3類,提取粉絲數(shù)、好友數(shù)、關(guān)注數(shù)等特征,對(duì)這3種惡意行為分別進(jìn)行訓(xùn)練,再把這些分類器整合到一起,實(shí)現(xiàn)惡意行為和用戶的自動(dòng)檢測(cè)。文獻(xiàn)[22]從用戶個(gè)人屬性特征的角度,以注冊(cè)的用戶名為特征,采用SVM、ANN對(duì)僵尸用戶進(jìn)行分類,實(shí)現(xiàn)對(duì)僵尸用戶的甄別,準(zhǔn)確率均高于92%,但是該方法沒(méi)有考慮到動(dòng)態(tài)檢測(cè)特征,因而對(duì)高級(jí)僵尸用戶不能很好地識(shí)別。在對(duì)水軍的識(shí)別中,Chen等人[54]考慮到微博評(píng)論中含有潛在的有價(jià)值信息,提出了新的檢測(cè)特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)評(píng)論中的特征進(jìn)行時(shí)間序列的分析,把RNN模塊的輸出和微博本身的特征結(jié)合,作為自動(dòng)編碼器(AE)的輸入;AE通過(guò)學(xué)習(xí)正常的行為模式產(chǎn)生輸出,根據(jù)AE輸入與輸出的差值進(jìn)行判斷,實(shí)驗(yàn)準(zhǔn)確率為92.49%,F(xiàn)1值為89.16%。
聚類被定義為將大量數(shù)據(jù)劃分為以相似度為基礎(chǔ)的集合,每個(gè)類或簇由彼此相似且與其他群組不同的對(duì)象組成,屬于無(wú)監(jiān)督學(xué)習(xí)的范疇,不需要預(yù)先標(biāo)記數(shù)據(jù)。根據(jù)聚類的不同標(biāo)準(zhǔn),聚類過(guò)程會(huì)基于對(duì)象的相似性度量產(chǎn)生數(shù)據(jù)集的不同簇類,不在任何簇中的對(duì)象認(rèn)為是異常的。聚類方法有多種,下面對(duì)一些常見的基于聚類的[73]異常識(shí)別技術(shù)進(jìn)行介紹。
4.2.1 劃分聚類
劃分法要提前設(shè)定類簇的個(gè)數(shù),然后通過(guò)反復(fù)地迭代將數(shù)據(jù)集劃分為多個(gè)互斥的類簇,且同一類簇中對(duì)象相似度比較大,而不同類簇中的對(duì)象相似度比較小。
文獻(xiàn)[48]通過(guò)對(duì)垃圾郵件發(fā)送者的行為特征進(jìn)行分析,提取出郵件的發(fā)送頻率、內(nèi)容類型、到達(dá)時(shí)間、內(nèi)容長(zhǎng)度等特征,使用K-means聚類算法進(jìn)行分析,計(jì)算其相似性大小,實(shí)驗(yàn)結(jié)果精確度為90%。文獻(xiàn)[45]使用排序與K-means聚類相結(jié)合的雙層采樣算法,提取用戶的屬性特征如關(guān)注數(shù)、粉絲數(shù)、賬戶年齡等,內(nèi)容特征如URL數(shù)、評(píng)論數(shù)等,行為特征如發(fā)帖數(shù)目、文章轉(zhuǎn)發(fā)數(shù)等,鄰居特征如該用戶鄰居用戶的粉絲數(shù)、關(guān)注數(shù)等,以及關(guān)系圖特征如雙向關(guān)注比、Page Rank值等,對(duì)社交網(wǎng)絡(luò)中的虛假用戶進(jìn)行檢測(cè)。文獻(xiàn)[62]提出了改進(jìn)的識(shí)別方法,他們認(rèn)為只分析用戶發(fā)布的文字信息,不能得到精確的檢測(cè)結(jié)果,因而在此基礎(chǔ)上,對(duì)用戶發(fā)布的圖像、視頻進(jìn)行預(yù)處理,提取其中的信息,針對(duì)Single-Pass算法全局性能不好,K-means初始點(diǎn)選取困難等問(wèn)題,提出了改進(jìn)Single-Pass和K-means組合的敏感話題檢測(cè)系統(tǒng)。先用Single-Pass算法進(jìn)行聚類,形成一個(gè)個(gè)小簇,再利用K-means算法,挑選這些微型簇進(jìn)行二次聚類,從而實(shí)現(xiàn)不良言論用戶的檢測(cè)。文獻(xiàn)[74]為了提高K-means在聚類中的效果,根據(jù)最大距離選擇初始聚類中心,并引入信息熵原理,計(jì)算各個(gè)屬性的權(quán)重,使用賦權(quán)的歐式距離計(jì)算相似度。結(jié)果表明,該方法提高了異常檢測(cè)率,降低了誤報(bào)率。
4.2.2 層次聚類
層次聚類是通過(guò)對(duì)數(shù)據(jù)對(duì)象進(jìn)行一層一層的聚類,最后形成一個(gè)聚類樹的過(guò)程。根據(jù)聚類樹的生成方式可以分為兩類:凝聚和分裂的算法。凝聚式聚類方法是自底而上的,先將每個(gè)對(duì)象視為一個(gè)單一的聚類,再將其與最近的數(shù)據(jù)點(diǎn)迭代合并。分裂層次聚類方法與其相反,但計(jì)算上復(fù)雜度較高。
文獻(xiàn)[63]提出了一種基于層次聚類的敏感話題檢測(cè)算法,不僅可以實(shí)現(xiàn)對(duì)微博輿論的監(jiān)測(cè),還可以檢測(cè)發(fā)布敏感話題的不良言論用戶,結(jié)果表明,算法的檢測(cè)精度為95.3%,話題誤判率低于6%。文獻(xiàn)[41]根據(jù)惡意注冊(cè)的虛假賬戶具有很大相似性的特點(diǎn),提出了使用層次聚類的方法,識(shí)別虛假用戶。核心思想是先根據(jù)用戶的字符串模式對(duì)海量數(shù)據(jù)進(jìn)行分類,然后計(jì)算每個(gè)類別中元素的字符串相似度的大小,進(jìn)行層次聚類,從而發(fā)現(xiàn)海量數(shù)據(jù)中的虛假用戶。該方法不需要人工收集大量的數(shù)據(jù),但是時(shí)間復(fù)雜度較高。
4.2.3 密度聚類
傳統(tǒng)大部分的聚類算法是通過(guò)文本距離進(jìn)行聚類的,而基于密度的聚類算法通過(guò)使用密度對(duì)不同的簇進(jìn)行劃分。該聚類算法可以克服基于距離的聚類算法只能發(fā)現(xiàn)球狀簇的缺點(diǎn),能夠發(fā)現(xiàn)任意形狀的簇。
Yoshida等人[75]提出了一種基于密度的垃圾用戶檢測(cè)方法,該方法需要從大量的電子郵件中提取信息,使用文檔空間密度作為基本特征,實(shí)驗(yàn)表明,該方法處理速度快,準(zhǔn)確率和召回率也非常高。Zabihi等人[76]使用基于密度的聚類算法,考慮到DBSCAN算法對(duì)維數(shù)較敏感,選擇了4個(gè)特征識(shí)別異常用戶,實(shí)驗(yàn)表明,該方法可以有效地區(qū)分正常用戶和惡意用戶,并且集群質(zhì)量和準(zhǔn)確性較高。Nguyen等人[77]提出了一種將分類與基于密度的聚類相結(jié)合的方法來(lái)檢測(cè)網(wǎng)絡(luò)中的僵尸用戶。
4.2.4 增量式聚類
Single-Pass算法是TDT評(píng)測(cè)中應(yīng)用最多的增量式聚類算法。核心思想是把到來(lái)的第一篇文檔作為一個(gè)話題,分別計(jì)算后續(xù)輸入的文本和已有話題的相似度。若相似度值大于給定閾值,則把該文本分到這個(gè)話題類別中;若小于給定閾值,表明該文本不屬于已有的話題類別,需要新建一個(gè)話題類別。
在對(duì)不良言論用戶的識(shí)別中,文獻(xiàn)[64]針對(duì)微博內(nèi)容更新快、文本字?jǐn)?shù)受限等特點(diǎn),提出了使用改進(jìn)的Single-Pass算法和層次聚類算法進(jìn)行微博話題的發(fā)現(xiàn),該方法能夠有效進(jìn)行微博的話題發(fā)現(xiàn)。文獻(xiàn)[67]也對(duì)Single-Pass算法進(jìn)行了改進(jìn),提出了一種基于相似哈希的增量型文本聚類算法,利用相似哈希算法對(duì)文本向量進(jìn)行降維,通過(guò)該算法得到的文本 Simhash指紋用海明距離來(lái)計(jì)算文本與文本簇之間的相似程度,在此基礎(chǔ)上用改進(jìn)的Single-Pass對(duì)新增的文本實(shí)時(shí)聚類。實(shí)驗(yàn)表明,該算法比于原Single-Pass在聚類效率上有了明顯的提升,保證了時(shí)效性,有較高的實(shí)用價(jià)值。
統(tǒng)計(jì)的方法先假設(shè)數(shù)據(jù)樣本符合某種分布,然后結(jié)合數(shù)理統(tǒng)計(jì)和概率論方法,根據(jù)樣本中的正常和異常數(shù)據(jù)建立概率模型,判斷給定的實(shí)例是否屬于該模型。判斷準(zhǔn)則依賴于統(tǒng)計(jì)異常檢測(cè)技術(shù)的如下假設(shè):正常的數(shù)據(jù)實(shí)例通常分布在概率較高的區(qū)域,而異常數(shù)據(jù)則分布在概率較低的區(qū)域。用來(lái)擬合統(tǒng)計(jì)模型的方法有參數(shù)化方法和非參數(shù)化方法兩種。參數(shù)化方法假設(shè)樣本取自服從已知模型的某個(gè)分布,從給定的樣本估計(jì)分布的參數(shù),把這些估計(jì)放到假設(shè)的模型中,并得到估計(jì)的分布,然后使用它進(jìn)行決策[78]。常見的參數(shù)化技術(shù)有高斯模型、卡方檢驗(yàn)等。非參數(shù)化方法對(duì)數(shù)據(jù)的假設(shè)較少,不需要假定數(shù)據(jù)分布的先驗(yàn)參數(shù),模型結(jié)構(gòu)由給定的數(shù)據(jù)決定。常用的方法有直方圖估計(jì)、核估計(jì)、KNN。
文獻(xiàn)[32]從每個(gè)Twitter用戶的帳戶中提取出基于用戶的特征,有好友數(shù)量、粉絲數(shù)量、用戶信譽(yù)、在24小時(shí)內(nèi)平均發(fā)布百分比,以及基于內(nèi)容的特征,如發(fā)布的話題標(biāo)簽、推文中“@”其他人的數(shù)目、推文單詞數(shù)、推文中URL數(shù),構(gòu)建了4個(gè)分類器來(lái)區(qū)分垃圾用戶與正常用戶,其中KNN的準(zhǔn)確率和召回率均為92.8%。文獻(xiàn)[79]通過(guò)卡方檢驗(yàn)從話題標(biāo)簽、@其他用戶的情況、URL、詞語(yǔ)中找出了最具有代表性的10個(gè)特征,從內(nèi)容、網(wǎng)絡(luò)結(jié)構(gòu)等方面利用Adaboost檢測(cè)Twitter中的水軍。Torabi等人[80]提出一種基于隱馬爾可夫模型的檢測(cè)方法,將內(nèi)容特征和URL鏈接作為檢測(cè)特征,從而實(shí)現(xiàn)垃圾發(fā)送者的識(shí)別。文獻(xiàn)[60]在此基礎(chǔ)上,提出了一種基CNN-LSTM的混合模型,然后將其與多元高斯分布相結(jié)合,檢測(cè)微博上的異常情緒用戶,提出的混合模型可以獲得更多有關(guān)上下文結(jié)構(gòu)的信息,提高了泛化能力。
由于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法都存在各自的不足,單獨(dú)使用任何特定的方法都不會(huì)得到精確的結(jié)果。為了克服這兩種方法的缺點(diǎn),提出了一種將兩者相結(jié)合的混合方法。研究表明混合方法可以提高異常檢測(cè)的準(zhǔn)確率,能夠獲得更好的性能。
Chitrakar等人[81]將SVM算法和K-medoids聚類算法相結(jié)合進(jìn)行異常檢測(cè),首先用K-medoids算法將數(shù)據(jù)進(jìn)行分組,然后將得到的每一個(gè)簇使用SVM進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,該方法提高了異常檢測(cè)準(zhǔn)確率,但在數(shù)據(jù)集非常大時(shí),時(shí)間復(fù)雜度較高。大多數(shù)對(duì)虛假賬戶的檢測(cè)是針對(duì)一個(gè)賬戶進(jìn)行的,但在實(shí)際的社交網(wǎng)絡(luò)中,每天都可能注冊(cè)數(shù)十萬(wàn)個(gè)新賬戶,因此文獻(xiàn)[40]首先用聚類算法將賬戶分組形成簇群,然后對(duì)這些分組形成的賬戶集群使用SVM、隨機(jī)森林等算法分類為正常或虛假的用戶,從而判斷它們是否是由同一用戶創(chuàng)建的。該方法中使用的主要特征是針對(duì)整個(gè)群集的,如名稱、電子郵件地址、公司或大學(xué)等。文獻(xiàn)[35]從統(tǒng)計(jì)特征和語(yǔ)義特征兩方面對(duì)垃圾微博進(jìn)行檢測(cè),先提取微博的顯式特征(用戶特征、內(nèi)容特征);再利用LDA模型對(duì)隱含主題特征進(jìn)行提取,構(gòu)建特征向量,再用SVM進(jìn)行分類。
根據(jù)信息論的相關(guān)知識(shí),如熵、條件熵、相對(duì)熵、相對(duì)條件熵、信息增益和信息成本等,可以描述數(shù)據(jù)集的相關(guān)特征并建立合適的異常檢測(cè)模型。通常情況下,基于信息論的異常識(shí)別技術(shù)需要對(duì)訓(xùn)練數(shù)據(jù)集的特征進(jìn)行研究,然后根據(jù)這個(gè)特征建立模型并用一個(gè)測(cè)試數(shù)據(jù)來(lái)評(píng)估這個(gè)模型的性能,從而利用信息理論測(cè)度來(lái)確定模型是否適合測(cè)試新數(shù)據(jù)集。
文獻(xiàn)[50]根據(jù)社交網(wǎng)絡(luò)中的用戶與其他用戶建立的交互關(guān)系(回復(fù)、評(píng)論、轉(zhuǎn)發(fā)、點(diǎn)贊等)定義了3種6個(gè)特征,對(duì)傳播行為進(jìn)行量化,通過(guò)信息論原理計(jì)算樣本節(jié)點(diǎn)的信息熵和各屬性的信息增益比率,完成分類器的構(gòu)建,該方法可用于多場(chǎng)景下的微博水軍檢測(cè)。在對(duì)Twitter上的垃圾用戶檢測(cè)的研究中,文獻(xiàn)[31]提出了一種基于URL驅(qū)動(dòng)的評(píng)估方法,利用香農(nóng)信息論計(jì)算發(fā)布內(nèi)容含URL的兩個(gè)賬戶之間的相似性,將相似性較高的帳戶關(guān)聯(lián)起來(lái),提取平均發(fā)布時(shí)間間隔、帳戶發(fā)布的URL的平均數(shù)量等多個(gè)特征來(lái)進(jìn)行分類,通過(guò)檢測(cè)Twitter上的垃圾用戶,驗(yàn)證了該方法的有效性。文獻(xiàn)[44]研究了熵最小化離散化(EMD)的離散技術(shù)對(duì)虛假賬戶檢測(cè)準(zhǔn)確率的影響,實(shí)驗(yàn)通過(guò)EM對(duì)數(shù)據(jù)集進(jìn)行處理,提取推文數(shù)量、朋友數(shù)量等行為特征,然后使用樸素貝葉斯進(jìn)行分類,結(jié)果表明,對(duì)Twitter上的虛假賬戶的檢測(cè)準(zhǔn)確率從85.55%增加到90.41%,為其他社交媒體平臺(tái)如Facebook、Instagram等提高虛假賬戶的檢測(cè)準(zhǔn)確率提供了新思路。
社交網(wǎng)絡(luò)可以看成是一個(gè)圖形結(jié)構(gòu),用戶以節(jié)點(diǎn)的形式表示,用戶之間的交互行為用邊表示。社交網(wǎng)絡(luò)中的異常通常是基于行為、結(jié)構(gòu)以及光譜進(jìn)行的檢測(cè)。
文獻(xiàn)[19]從動(dòng)態(tài)信任模型的角度出發(fā),設(shè)計(jì)了一種基于信任計(jì)算和交互信息的社交網(wǎng)絡(luò)信任模型,對(duì)用戶節(jié)點(diǎn)進(jìn)行評(píng)價(jià),使社交網(wǎng)絡(luò)的信任度計(jì)算更加有針對(duì)性,更適應(yīng)于社交網(wǎng)站快速的發(fā)展變化,將提出的信任模型作為判斷機(jī)制用于惡意用戶檢測(cè)。文獻(xiàn)[16]使用一種基于協(xié)同過(guò)濾的安全策略來(lái)檢測(cè)和識(shí)別行為突然發(fā)生變化的帳戶,開發(fā)了一種工具來(lái)過(guò)濾數(shù)據(jù),并根據(jù)用戶的配置文件訪問(wèn)安全數(shù)據(jù),確定社交網(wǎng)絡(luò)中偽造身份的惡意用戶,這種方法速度更快而且也更有效。文獻(xiàn)[27]考慮到用戶的行為屬性,根據(jù)賬戶之間的社交關(guān)系構(gòu)建社會(huì)關(guān)系矩陣,每個(gè)賬戶的PageRank值通過(guò)PageRank迭代計(jì)算得到,然后根據(jù)這個(gè)值對(duì)賬戶進(jìn)行排名,從而檢測(cè)出僵尸用戶,兩種測(cè)試情況下的準(zhǔn)確率分別為84%和92%。該方法易于實(shí)現(xiàn)且只考慮賬戶之間的關(guān)系,沒(méi)有考慮特征維度,因而排序結(jié)果的準(zhǔn)確率會(huì)受到時(shí)間延遲的影響。Ying等人[82]根據(jù)惡意用戶與正常用戶處于不同的頻譜空間區(qū)域,通過(guò)計(jì)算光譜或光譜坐標(biāo)來(lái)識(shí)別正常和異常用戶的特征值或特征向量,根據(jù)隨機(jī)攻擊鏈接來(lái)識(shí)別惡意節(jié)點(diǎn),實(shí)現(xiàn)基于光譜技術(shù)的異常用戶檢測(cè)。
不同的方法具有不同的特點(diǎn),表3給出了幾種異常識(shí)別方法的優(yōu)缺點(diǎn)[83]。
本文對(duì)社交網(wǎng)絡(luò)的異常用戶進(jìn)行了分類,并對(duì)每種異常用戶的發(fā)展現(xiàn)狀進(jìn)行了概述,同時(shí)對(duì)主要的異常識(shí)別技術(shù)進(jìn)行了分類概括,并比較了它們的優(yōu)缺點(diǎn)。最后,提出了異常用戶檢測(cè)中存在的問(wèn)題:對(duì)一些高級(jí)偽裝的異常用戶進(jìn)行異常檢測(cè)相對(duì)比較困難;目前對(duì)異常用戶的識(shí)別多是從一個(gè)或幾個(gè)少量特征進(jìn)行的檢測(cè),如何將內(nèi)容、行為、屬性、鄰居等多個(gè)特征融合在一起,提高異常用戶檢測(cè)率是一個(gè)有價(jià)值的問(wèn)題,與此同時(shí),雖然有一些學(xué)者考慮到了時(shí)間特征,但沒(méi)有受到廣泛的關(guān)注,尤其是在動(dòng)態(tài)社交網(wǎng)絡(luò)中;對(duì)異常的檢測(cè)還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),因?yàn)閷?duì)不同的應(yīng)用領(lǐng)域,異常的定義也是不同的,所以在一個(gè)領(lǐng)域中的異常檢測(cè)技術(shù)不一定適用于其他領(lǐng)域,不僅如此,正常的行為模式是會(huì)隨著時(shí)間的推移而變化的,當(dāng)前的異常檢測(cè)技術(shù)在未來(lái)不一定適用。今后的工作將主要集中在從大數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)新的特征以及正常和異常的行為模式;此外,將獨(dú)立的異常檢測(cè)技術(shù)進(jìn)行連接并應(yīng)用于復(fù)雜的多系統(tǒng)檢測(cè)也是未來(lái)值得探索的問(wèn)題。

表3 幾種方法的比較