分享式Spam攻擊的輕量級檢測方案

2015-01-06 01:08:08呂少卿范丹張玉清

通信學報 2015年7期

呂少卿，范丹，張玉清,2

（1. 西安電子科技大學綜合業務網理論及關鍵技術國家重點實驗室，陜西西安710071；2. 中國科學院大學國家計算機網絡入侵防范中心，北京 100190；3. 中國科學院信息工程研究所信息安全國家重點實驗室，北京 100093）

1 引言

隨著社交網絡的快速發展，越來越多的互聯網用戶通過社交平臺進行交流溝通，以Facebook為例，2014年月活躍用戶數達到 12.8億[1]；國內人人網2012年用戶數也已達到2.2億[2]。這些社交平臺已經深入地影響了人們的生活、工作、學習以及交流的方式。

社交網絡的快速發展也吸引了一些攻擊者的目光，他們將社交網絡作為獲取利益的新平臺[3]。攻擊者在社交網絡中創建大量的虛假賬號來發布廣告信息、釣魚信息以及Drive for Download[4]。Spam攻擊已經成為社交網絡受到的最主要的攻擊方式，以2008年的研究為例，83%的社交網絡用戶在當年接收到至少一條Spam消息[5]。因此對Spam攻擊的檢測引起了學術界和工業界的廣泛關注。如文獻[6～10]采用基于行為的檢測方案，利用社交網絡中Spam賬號的行為特征進行檢測。文獻[11～13]采用基于內容的檢測方案，針對社交網絡中用戶發布的URL進行檢測，判斷是否為Spam URL。雖然這些工作能夠以較高的準確率檢測出 Spam賬號或Spam URL，但它們針對的都是傳統的Spam攻擊方式，即Spam賬號通過社交網絡的狀態、微博、回復、評論等功能發送、傳播大量包含惡意內容的文本消息，這些文本消息在每次發送或傳播的過程中都攜帶有惡意URL。

Spam攻擊與檢測是一個交替進行的過程，Spam攻擊者在面對社交網絡中的檢測機制時能夠很快找到繞過的策略[14]。當前在社交網絡中出現了一種新的 Spam 攻擊方式[15]，攻擊者利用社交網絡的分享功能傳播包含有Spam信息的相冊，當正常用戶訪問到該分享相冊，在瀏覽照片時就會在照片描述中顯示這些Spam信息，稱其為分享式Spam攻擊。與傳統Spam攻擊相比，分享式Spam攻擊將Spam信息的存儲與傳播割裂為 2個獨立的部分，在傳播過程中只表現為相冊或照片的分享，不直接攜帶有惡意內容。因此現有的檢測算法，無論是基于內容的檢測，還是基于行為的檢測都不再適用。

針對新型的分享式Spam賬號的檢測，目前只有Wang等[15]利用正常賬號與 Spam 賬號在鼠標點擊方面的不同來進行，但他們的工作只能夠檢測Spam相冊傳播者，因為只有傳播者會有大量分享操作，而Spam相冊上傳者只執行一次上傳操作。同時他們采用的是對社交網絡中所有用戶都進行深度檢測，隨著用戶數量的不斷增加，對于用戶數量巨大的社交網絡這種完全的檢測算法是不現實的[16]。因此本文主要關注點是在有限時間、有限資源情況下檢測出更多的分享式Spam賬號。

本文針對分享式Spam攻擊，分析了其具體攻擊過程和特征，根據這種攻擊方式的特征，設計了輕量級迭代檢測算法（LIDA, lightweight iterative detection algorithm），利用本文所提的檢測算法通過對人人網的4次迭代實驗，共檢測到9 568個Spam賬號、30 732個Spam相冊以及2 626 780條Spam URL。

本文的主要貢獻和創新點如下。

1) 針對分享式Spam攻擊的檢測：本文檢測算法充分利用分享式Spam攻擊中Spam信息存儲與傳播分離的特征，能夠有效檢測分享式 Spam攻擊賬號，從人人網的實驗結果來看，比之前的工作更加有效。

2) 輕量級算法：本文針對分享式Spam攻擊的檢測算法是一種輕量級迭代檢測算法，避免了傳統算法對每個用戶都做深度檢測，能夠在有限時間和資源情況下檢測到更多Spam賬號。

3) 基于檢測結果的特征分析：分析了檢測到的Spam賬號、Spam相冊和Spam URL的特征，這些特征可作為下一步Spam檢測工作的基礎。

2 背景介紹

2.1 人人網

人人網是國內類似于美國 Facebook的實名制社交網絡，與Twitter、新浪微博等非實名制社交網絡不同，在人人網中用戶之間的好友關系需要2個用戶共同同意才能夠建立。用戶好友的動態信息將在用戶的新鮮事中顯示，這些動態信息包括發布以及分享狀態、日志、視頻和照片(相冊)。用戶點擊這些動態信息就能夠訪問到好友上傳或分享的日志、視頻和照片的具體內容。在人人網中，用戶上傳的照片都屬于某個相冊。分享照片后，其他用戶通過點擊此分享即可訪問到被分享的照片，然后點擊下一張即可訪問到該相冊內的其他照片，分享式Spam攻擊就利用了分享照片的功能。

2.2 傳統Spam攻擊

在實名制社交網絡中，傳統的Spam攻擊方式是攻擊者通過創建大量的虛假賬號，以發布狀態、評論、回復等方式在發布的文本中嵌入惡意 URL誘使正常用戶點擊[11]。對于非實名制社交網絡，攻擊者通過發布微博、轉發微博、回復、私信、@等方式傳播帶有惡意URL的Spam信息[17]。傳統Spam攻擊方式中每一個Spam賬號都相對獨立，在攻擊過程中所承擔的功能都相同，而且每次傳播 Spam信息的操作本身都攜帶有惡意URL[18]。

3 分享式Spam攻擊

當前社交網絡中存在一種新的Spam攻擊方式[15]，稱其為分享式Spam攻擊。分享式Spam攻擊利用社交網絡中分享照片的功能，通過分享對Spam信息進行傳播。具體的攻擊流程如圖 1所示。在分享式Spam攻擊的過程中，有2類作用不同的Spam賬號參與，其中一類負責上傳夾雜有Spam信息的相冊（Spam相冊），稱其為上傳者，另一類負責傳播Spam相冊，即對相冊進行分享，稱其為傳播者。整個Spam攻擊分為2步。

1) 上傳者將Spam相冊上傳到社交網絡中，即Spam信息存儲在上傳者的賬號中。

2) 傳播者對Spam相冊進行分享，傳播者的好友（正常用戶）在新鮮事中就會接收到該分享信息。

這 2步不需要有密切的關聯，當上傳者上傳Spam相冊后，傳播者就能夠在任何時間對Spam相冊進行分享，即進行Spam攻擊。有些賬號會同時承擔上傳者與傳播者的功能，稱其為分享者。

為了吸引正常用戶的訪問，上傳者在上傳Spam相冊時會以吸引用戶的相冊名稱以及相關照片作為藍本，然后在其中插入Spam照片和Spam URL。當正常用戶點擊傳播者的分享信息，瀏覽該相冊內其他照片時，就會接收到上傳者添加的Spam照片和Spam URL。

圖1 分享式Spam攻擊模式

如圖2所示，上傳者在正常相冊中插入了Spam照片，其中粗線框中的照片即為Spam照片，并且在照片的描述部分加入了Spam URL。圖3為該相冊內的Spam照片，當用戶瀏覽Spam相冊時就會被迫接收到Spam信息，其中包含Spam URL，即圖中粗線框中部分。

與傳統Spam攻擊相比，分享式Spam攻擊具有如下特點。

1) 檢測更難。傳統的基于內容或基于行為的檢測方法是針對用戶發布信息的文本內容或者用戶添加好友、發布信息等行為的特征進行檢測。但對于分享式Spam攻擊，整個攻擊過程被割裂為2個部分，Spam信息只存儲在上傳者的賬號中，而Spam信息的傳播是通過傳播者的分享操作，并不直接攜帶有Spam信息，因此傳統的檢測算法不再適用。

圖2 Spam相冊

圖3 Spam相冊中的照片以及Spam URL

2) 危害更大。傳統的Spam攻擊中，Spam信息主要出現在用戶的新鮮事或者微博中[6]，用戶能夠直接忽略這些Spam信息。而在分享式Spam中，攻擊者會利用吸引用戶的相冊名和照片創建夾雜有Spam照片和URL的相冊，屬于干擾式Spam。用戶在瀏覽此相冊的過程中注意力不斷被打斷，嚴重危害正常用戶的訪問體驗。

4 LIDA：輕量級迭代檢測算法

針對分享式 Spam攻擊傳播與存儲分離的特性，并且考慮到傳統的完全檢測算法在用戶數巨大的社交網絡中對每個用戶都做深度檢測是不現實的情況[16]，本文提出了用于檢測分享式Spam攻擊的輕量級迭代檢測算法。分享式Spam攻擊是以相冊作為基本的傳播單位，因此LIDA也以相冊作為基本的檢測單元，利用分享式Spam攻擊的傳播特征獲取可疑相冊，然后利用分享式Spam攻擊的存儲特征檢測可疑相冊的內容，避免對社交網絡中所有用戶都進行深度檢測。

具體算法如圖4所示，LIDA在一次迭代中主要分為2個步驟：1) 目標篩選，基于分享式Spam攻擊的傳播特征，利用初始Spam賬號種子篩選出最有可能是Spam的可疑相冊；2) 內容檢測，基于分享式Spam攻擊的存儲特征對篩選出的可疑相冊進行基于內容的檢測，判斷可疑相冊是否的確為Spam相冊，以及Spam相冊的擁有者是否為Spam賬號。在新一次迭代過程中將上一次迭代結果中檢測到的Spam賬號作為新的Spam賬號種子。

4.1 目標篩選

分享式Spam攻擊割裂了Spam信息的存儲與傳播，在傳播的過程中Spam信息沒有直接參與。因此Spam攻擊的效果與被分享的照片是否吸引正常用戶有很大關系，只有正常用戶訪問該分享后才能接收到Spam信息。基于此特征，提出針對分享式Spam攻擊的目標篩選算法，能夠通過已知Spam內容找到最有可能是Spam的其他可疑內容。

類似文獻[16]，將從 Spam 攻擊者的開銷與收益的角度來考慮。由于在整個Spam攻擊過程中，攻擊者的時間開銷主要分為：上傳者賬號的創建、Spam相冊的創建、傳播者賬號的創建與維持、傳播者的分享操作。攻擊者的收益即為正常用戶點擊Spam URL的次數，正常用戶對Spam URL點擊次數越多，Spam攻擊者的收益越多。與傳統的直接發送 Spam信息相比較，分享式 Spam攻擊增加了Spam相冊創建的開銷。在分享式Spam攻擊傳播過程中Spam信息沒有直接參與，正常用戶只能接收到傳播者分享了某個Spam相冊名稱的信息，因此攻擊者需要精心構建相冊名稱以及部分正常相冊的內容，然后將Spam照片和信息夾雜在正常相冊中，這將會花費攻擊者大量的時間。因此，攻擊者為了利益最大化，會做如下操作：為了降低上傳者創建的開銷，攻擊者會在一個上傳者中上傳多個Spam相冊；為了降低Spam相冊創建的開銷，Spam相冊內容會被重復利用，多個上傳者會上傳同一個Spam相冊。

基于以上分析，提出以下2條假設。

假設1一個上傳者會上傳多個Spam相冊。

假設2一個Spam相冊的內容會被多個上傳者上傳。

在實驗部分將根據實驗結果驗證所做的假設是合理且有效的。

基于以上2條假設，提出自己的目標篩選算法。

1) 獲取Spam用戶其他相冊。利用初始的Spam賬號種子，根據假設1，上傳者會上傳多個Spam相冊，因此獲取Spam賬號的其他相冊作為可疑相冊。

2) 搜索同名Spam相冊。根據假設2，一個Spam相冊會被重復使用，通過Spam相冊名稱搜索同名相冊分享，將被分享相冊作為可疑相冊。

上述這2步就能夠通過已知的Spam賬號找到更多可疑相冊，然后對可疑相冊進行基于內容的檢測，而不需要對所有用戶的相冊都進行檢測，即完成對目標的篩選。

4.2 內容檢測

當前存在大量基于其他信息的Spam賬號檢測算法，如基于用戶個人信息、網絡結構、用戶行為等。但是社交網絡中Spam賬號有著明顯的內容特征即發送Spam信息，因此通過內容檢測算法對可疑相冊進行檢測，判斷是否為 Spam，這樣就能從根本上判斷一個賬號是否為Spam賬號。

4.2.1 URL獲取

Spam攻擊者會在照片描述中嵌入URL并進行混淆，針對不同的 URL混淆采用不同的獲取方式來提取文本中的URL。

普通 URL。直接通過對以“http://”開始的字符串進行匹配。

混淆URL。被混淆的URL，一般在URL中間加入漢字，或者將 http://頭去掉，針對此類型的URL，采用匹配字符串，然后將其組合為正常的可訪問的URL。

圖4 檢測算法原理

URL在評論。一些攻擊者為了防止在照片描述中的URL被檢測到，會通過對該Spam照片評論的方式發布Spam URL，同時會在照片描述部分添加相關“地址在一樓”等提示信息，因此針對此類型的URL，先匹配關鍵字符，然后獲取URL。

4.2.2 URL解析

社交網絡中為了減少字符的長度，對用戶發布的URL都采用短網址的形式。攻擊者為了防止社交網絡自身檢測系統的檢測會利用其他的短網址服務將Spam URL轉為短網址，這樣對于社交網絡來說，攻擊者只是發布了一個短網址，但不知道該網址真實的地址[19]。短網址采用的跳轉方式主要有30x、JavaScript、meta標簽等。通過對獲取到的URL進行逐層解析，對于每一個短網址域名構建數據結構，根據這個數據表，就能夠采用不同的方式對短網址進行解析。

4.2.3 Spam URL判斷

由于分享式 Spam攻擊的主要內容為廣告信息，即Spam URL的最終地址主要指向一些購物網站，所以一般的Google Safe Browsing[20]、Spamhaus DBL[21]、Wepawet[22]等 Spam 檢測服務或列表并不能用來判斷 URL是否為惡意。本文采用了類似文獻[11]的URL判斷方法，對每個URL解析獲得的最終地址采用多種方式進行判斷。

1) 最終跳轉地址。通過URL解析獲得的最終跳轉地址，如果該地址是指向一些購物網頁，那么就判斷為Spam URL。

2) 短網址域名判斷。存在專門為Spam攻擊者提供短網址服務的網站或域名。對于使用此類惡意短網址域名的URL，通過域名將其判斷為Spam。

3) 照片描述。對于一些最終地址已經不能被訪問到的URL，結合其使用的短網址以及照片描述內容的關鍵詞來確定是否為Spam URL。

4) 手動確定。一些最終跳轉地址為人人網內部相冊、博客地址、微博等 URL，通過手動訪問該URL，根據其內容是否是商品推廣網頁來判斷是否為Spam URL。

4.2.4 Spam相冊判斷

對于可疑相冊Sus_Albumi，通過該相冊內照片描述中嵌入Spam URL的數量Numi和相冊的總照片數Sizei的比值，利用式(1)對相冊是否為Spam相冊進行判斷。其中，Q為相應閾值。

4.2.5 Spam賬號判斷

對于被檢測賬號是否為Spam賬號，通過式(2)進行判斷。其中，Count為可疑賬號所上傳的Spam相冊數，P為相應的閾值。

4.2.6 迭代控制

LIDA采用迭代算法，隨著迭代過程的進行會獲取到大量采用系統命名或字符數較少的Spam相冊，這些Spam相冊作為目標篩選的相冊名將降低可疑相冊中Spam相冊的比例，而本文算法的目的是在有限時間、有限資源情況下檢測到更多 Spam相冊。因此通過式(3)判斷是否結束迭代。

對于第i次迭代，Spam相冊Spam_albumi的數量與可疑相冊Sus_albumi的數量的比值如果超過閾值T，則繼續迭代，否則，結束迭代。

5 針對人人網的實驗

根據所提出的檢測算法，本文從2013年12月到2014年4月對人人網做了檢測分享式Spam攻擊實驗。

5.1 實驗數據獲取

與文獻[23]類似，通過蜜罐賬號來獲取初始Spam賬號。2013年12月14日在人人網中創建了20個蜜罐賬號，為了防止正常用戶發送好友申請并降低實驗數據偏差，蜜罐賬號的個人信息采用虛假個人信息，并采用不同的性別、學校、年齡、網絡等。到2014年1月14日對向蜜罐賬號發送好友請求的可疑賬號進行人工檢測，以及利用賬號搜索功能，共獲得了76個Spam賬號，將其作為初始Spam賬號種子。

根據人人網的隱私保護策略[24]，用戶的相冊列表默認不能直接訪問，這對獲取Spam賬號的其他相冊造成了一定的困難。通過對人人網的分析，最終利用人人網VIP會員中心的訪問控制策略，能夠獲取Spam賬號的6個相冊。

人人網提供了開放搜索功能[25]，能夠搜索同名相冊的分享。為了防止Spam攻擊者在上傳相冊時對相冊名所做的混淆（在實驗過程中發現攻擊者會改變 Spam相冊名的部分關鍵詞的順序），利用NLPIR漢語分詞系統[26]對相冊名進行分詞，然后對關鍵詞進行搜索。

對于Spam相冊判斷的閾值Q，發表于2012年WWW會議中的文獻[16]選取URL與tweets的比值0.1作為social promoters的判斷閾值取得較好的結果，“ We extract those social promoters whose URL ratios(the ratio of the number of URLs to the number of tweets) are higher than 0.1”，即在一個群體中如果某類物體所占比例超過10%，就認為這個群體屬于另一個狀態，會認為這樣的判斷閾值在Spam相冊判斷中比較合理，因此，選取Q=0.1作為Spam相冊判斷的閾值。

對于Spam賬號判斷的閾值P，由于大量Spam上傳者只上傳一個 Spam相冊，在實驗中，69%的上傳者只上傳了一個Spam相冊，因此，采用P=1，即只要用戶上傳了一個Spam相冊，那么就判斷其為Spam賬號。

由于在社交網絡中 Spam賬號的比例約為3%～5%[11]，在具體實踐中，如果LIDA檢出率降到5%，則算法中目標篩選完全失效。為了保證本文算法LIDA的高效，并且降低數據獲取數量，采用3倍Spam賬號比例作為迭代控制的閾值T，即15%，如果低于此閾值就認為現有的Spam賬號種子中已經存在較大的誤差，因此停止迭代，然后選取新的Spam賬號種子開始新一輪檢測。

5.2 實驗結果

利用初始的76個Spam賬號種子，經過4次迭代共獲得了126 930個相冊（如表1所示），其中，包含有2 710 361條URL，經過去重后有940 200條獨立URL（如表2所示）。通過不同的URL判斷方式，共確定了915 922條Spam URL (97.42%)、30 732個Spam相冊，以及9 568個Spam賬號。將向人人網提供所檢測到的Spam內容，并協助清除這些Spam賬號。

從4次迭代的結果發現，第1次迭代所獲得的Spam相冊比例最高，這是因為初始作為Spam賬號種子都是經過人工過濾選擇，因此，搜索后的結果中Spam 相冊的比例達到65.44%。而在第2次以及第4次迭代過程中，作為Spam賬號種子的相冊中包含有“手機相冊”、“應用相冊”等系統在用戶創建過程中產生的相冊名稱，對實驗結果的影響較大。在第4次迭代后Spam相冊的比例已經降到 14.28%，低于所設置的閾值T=0.15，結束迭代過程。

表1 迭代次數與Spam相冊、Spam賬號

表2 Spam URL判斷方式與所判斷URL數

5.3 實驗結果評估

與文獻[27]類似，本文的檢測算法是輕量級檢測算法而不是一個完全的檢測算法，因此不考慮漏報率和誤報率，而是以命中次數(hit count)或檢出率作為衡量的標準。在實驗中共檢測了126 930個相冊，包含50 785個用戶，其中檢測出9 568個Spam賬號，檢出率為18.84%。由于目前無法獲得與文獻[15]中同樣的數據集，無法在相同的環境或標準下與其進行對比。不過從算法思想的角度出發，WANG等[15]的算法是完全檢測算法，即需要對社交網絡中所有用戶都進行檢測。而本文的算法先進行目標篩選，篩選出最有可能是Spam的可疑相冊，然后進行檢測。當本文算法中目標篩選完全失效時，本文的檢測率與 WANG等[15]的相同。而在現實環境中面對社交網絡中數十億用戶，在有限時間有限資源情況下，由于本文的算法先進行目標篩選，因此，所需檢測的賬號更少，單位時間內的檢出率會更高、更有效，能夠在較短時間內檢測到大量Spam賬號，有效降低社交網絡中Spam賬號的比例。

在此對所提出的假設進行驗證。對于假設 1，通過對實驗結果中Spam賬號的Spam相冊數分布進行分析，如圖 5所示，31%的Spam用戶上傳了1個以上Spam相冊，11%的Spam用戶上傳了5個以上Spam相冊。其中，在獲取到的數據集中最多上傳Spam相冊數是125，通過這些上傳多于1個Spam相冊的Spam賬號，能夠獲得更多Spam相冊。即一個Spam賬號會上傳多個Spam相冊，說明假設1是有效的。

圖5 Spam相冊數分布

在實驗中只能獲得一個賬號最近創建的 6個相冊，還包括頭像相冊、手機相冊等系統自動創建的相冊，這會造成Spam賬號上傳的Spam相冊數減少。

對于假設2，通過對同名Spam相冊數的分析，如圖 6所示，72.14%的Spam相冊存在同名相冊，即一個Spam相冊內容會被多個Spam賬號重復使用，說明本文的假設2是有效的。

圖6 同名Spam相冊數對數累積分布

6 Spam分析

針對所獲得的30 732個Spam相冊、9 568個Spam賬號，以及2 710 361條URL，分別對Spam相冊、Spam賬號以及Spam URL進行了分析。

6.1 Spam相冊分析

為了分析 Spam相冊隨時間的變化，對 Spam相冊的創建時間進行了分析。

從圖7中可以看出實驗中所檢測到的Spam相冊主要為2012年創建的相冊（63.99%）。這是因為一方面在初始 Spam賬號種子中存在較多2012年創建的相冊，目標篩選通過相冊名獲取可疑相冊，而相冊名具有時效性，因此在目標篩選中獲取了大量 2012年創建的可疑相冊；另一方面從 2013年以后人人網部署了基于文獻[15]的檢測系統，能夠在一定程度降低分享式 Spam相冊的傳播。但該系統只能夠檢測傳播者，而且Spam攻擊者通過降低分享速率就能夠繞過該系統的檢測，事實證明依然存在大量新創建的分享式Spam賬號。

圖7 Spam相冊創建年份時間分布

本文分析了不同創建時間的 Spam相冊中包含Spam URL的照片數Num與整個相冊內照片數Size比值的累積分布，如圖8所示，可以看出75%的 2014年創建的 Spam相冊Num/Size值小于50%，即包含Spam URL的照片數占總照片數的比值較小；2013年創建的相冊中50%的Spam相冊Num/Size的值小于50%。而對于2012年以及2011年之前92%的Spam相冊中全部照片都包含有Spam URL。

通過手動抽樣分析不同年份創建的 Spam相冊，發現對于2012年以前的Spam相冊，一般是推廣性質的相冊，即整個相冊都包含Spam URL；而對于2013年之后創建的Spam相冊是在正常相冊中插入Spam照片以及Spam URL，偽裝為正常相冊來吸引用戶的瀏覽。這表明隨著時間的推移以及社交網絡檢測算法的改變，Spam攻擊者的攻擊方式也在變化。

圖8 Num/Size隨年份變化

6.2 Spam用戶分析

針對檢測到的9 568個Spam賬號，獲取了這些賬號的基本信息，如好友數、來訪數、總的分享數以及相冊分享數。其中671個賬號已經被封禁。對剩余8 897個能夠訪問的Spam賬號，通過獲取的數據集，發現其中1 027個Spam賬號同時承擔傳播者的功能，即屬于分享者。

本文分析了2種類型Spam賬號的好友數，如圖9所示，49.51%上傳者好友數不超過10個。只有7.01%分享者的好友數小于10，而59.21%的分享者好友數超過了100。即攻擊者通過新創建的Spam賬號作為主要上傳者，利用好友數較多的Spam賬號作為分享者。

圖9 Spam用戶好友數對數累積分布

針對上傳者與分享者在分享方面的區別，如圖10所示，58.33%上傳者的相冊分享數與總分享數的比值小于0.25；53.94%分享者的相冊分享數與總分享數的比值超過0.75，有31.16%的分享者(320位)的相冊分享數與總分享數的比值超過0.9。即對于分享者，在其整個分享內容中，對相冊的分享占到了主要部分。這是因為分享者承擔著傳播Spam相冊的功能，攻擊者通過不斷分享Spam相冊來獲得更大的收益。

圖10 相冊分享數與總分享數比值累積分布

6.3 Spam URL分析

針對人人網的實驗中共獲取了126 930個相冊，這些相冊共包括7 072 685張照片，其中2 710 361張照片包含有URL。通過對這些URL進行去重，共有940 200條獨立URL。本文對URL的重復數進行了分析，如圖 11所示，雖然76.37%的Spam URL只出現了一次，但依然有1.95%(1 782條)獨立Spam URL的重復出現超過100次，占整個Spam URL的23.82%(625 775條)。與Spam URL相比，正常URL重復次數主要小于10次，而Spam URL的重復次數在10到100之間的比例要超過正常URL。

本文統計了Spam URL以及正常URL的短網址使用情況，如表3所示。

表3 短網址使用分布

與正常URL相比，Spam URL使用短網址服務的比率更高，并且在使用短網址的正常 URL中86.68%是使用新浪微博的短網址服務t.cn，這些照片的內容都來自新浪微博。

對Spam URL所使用的短網址域名進行分析，列出了使用頻率最多的前10個域名，如表4所示。

圖11 Spam URL重復數對數累積分布

表4 Spam URL短網址域名分布

排名前10的短網址域名占整個Spam URL的51.34%。在前 10的短網址域名中既有專業的短網址服務提供商(url7.me、bit.ly、tinyurl.com)，也有互聯網企業提供的短網址服務（t.cn、dwz.cn、126.am、url.cn）以及專門為購物網站推廣者提供的短網址服務（taourl.com、feiyiban.cn），而且有些短網址利用了云計算平臺（sinaapp.com）。可見Spam攻擊者能夠充分利用現有的Web服務為Spam攻擊提供便利。雖然一些短網址服務部署了Spam檢測系統[28]，但由于Spam攻擊者發布的網址一般是指向購物網站，混淆了與正常商品推廣的界線[29]，因此，短網址服務依然被濫用。

7 討論

本節將對文中沒有考慮的問題進行討論。

1) 傳播者的檢測

LIDA主要是針對上傳者進行檢測，因為對于分享式Spam攻擊，Spam信息只存儲在上傳者的相冊內，只要此Spam相冊被清除，正常用戶就不會接收到Spam信息。并且之前已經有相關工作對傳播者進行檢測[15]。

2) 初始Spam賬號種子

由于本文提出的算法需要初始Spam賬號作為種子，并且通過對表1的分析，初始Spam賬號種子與下一次迭代的檢測效率有很大關系，如果初始Spam賬號種子中包含有大量以系統命名的Spam相冊，將會在一定程度降低LIDA的檢測效率。在實驗中第1次迭代的檢出率是65.44%，而第4次迭代的檢出率是14.28%，就是因為在Spam賬號種子中包含大量以系統相冊命名的Spam相冊。但是由于本文的算法會對Spam相冊的內容進行檢測，因此初始Spam賬號種子的選取并不會影響檢測結果的準確率。由于本文算法的目的是在有限時間和有限資源情況下檢測到更多Spam賬號，因此只利用人工獲得的Spam賬號作為初始種子進行檢測，沒有進行不同初始Spam賬號種子的對比實驗。考慮在下一步工作中，分析不同初始Spam賬號種子（不同的Spam賬號數量、不同的Spam相冊數量、不同的Spam相冊創建時間等）對檢測結果以及檢測效率的影響情況，進一步提高成果的水平。

3) 不同類型Spam相冊

通過圖8，發現不同時期創建的Spam相冊所包含的Spam URL數量有很大的區別，在2012年之前創建的相冊主要為推廣性質的Spam相冊，而在2013年之后的Spam相冊主要是偽裝成正常相冊吸引正常用戶的點擊。由于這 2種相冊都包含有Spam URL，因此沒有做進一步的區分，都將其判定為Spam相冊。而且通過手動檢測，這2種Spam相冊的上傳者有很大一部分是重復的，即這些相冊的擁有者都是Spam賬號，只是在不同創建時間所創建的Spam相冊形式不同。

4) 優勢與不足

本文首次對分享式Spam攻擊的過程和特征進行了分析，利用此特征設計了專門針對分享式Spam攻擊的輕量級迭代檢測算法 LIDA，由于采用輕量級設計，有效避免了對社交網絡中所有用戶都進行深度檢測的問題，通過人人網的實驗結果表明，本文的算法與之前的工作相比能夠在有限時間和資源下檢測到更多Spam賬號。但本文所提到的算法主要是利用了分享式Spam攻擊中上傳者的特征來進行目標篩選，沒有利用傳播者的特征，這是下一步的工作。

8 相關工作

當前學術界在社交網絡中Spam攻擊檢測方面已經有很多相關工作。在此簡要介紹并與本文的工作進行比較，具體如表5所示。

現有的檢測算法從方法上主要分為基于行為的檢測算法和基于內容的檢測算法。

基于行為的檢測算法主要有 Egele等[6]通過檢測用戶之后的行為是否違反了之前建立的模型來判斷賬號是否被劫持。文獻[7]中作者利用人人網中用戶的好友請求以及網絡結構等 4個特征構造分類器檢測虛假賬號。Zhu等[8]通過有監督的機器學習對用戶的行為如訪問相冊、分享、發狀態等進行建模來檢測Spam賬號。Stringhini等[9]利用蜜罐賬號收集 Spam賬號種子，通過分析這些Spam賬號種子的特征來檢測Spam賬號。Thomas等[10]通過購買120 019個Twitter虛假賬號，根據這些賬號在注冊時的命名規則以及注冊過程中的特征來檢測Spam賬號。但是這些基于用戶行為特征的檢測算法主要針對傳統的 Spam攻擊方式，在分享式Spam攻擊中，上傳者只負責存儲Spam相冊，沒有其他的操作；而傳播者只分享相冊，因此，這些算法無法檢測分享式Spam攻擊賬號。

基于內容的檢測算法有 Gao等[11]針對Facebook用戶新鮮事中的URL，通過判斷URL是否為Spam URL，并對Spam URL進行聚簇來檢測Facebook中大規模Spam攻擊。Lee等[12]根據Twitter中攻擊者只有有限資源，所生成的短網址在跳轉過程中會有重復出現的特點，利用短網址跳轉以及tweets文本內容的特征來檢測Spam信息。Kurt等[13]根據Spam URL在HTTP頭信息、JavaScript事件、跳轉行為等特點對Twitter用戶發布的URL進行檢測。但是這些工作只是針對社交網絡中新鮮事或者微博內容中出現的 URL進行檢測，而對于分享式Spam攻擊，在傳播的過程中并不直接帶有URL，因此，這些方法不能夠直接用來檢測分享式 Spam攻擊。

目前只有Wang等[15]能夠檢測分享式Spam攻擊。作者利用虛假賬號與正常賬號在使用社交網絡時鼠標點擊事件的區別來檢測虛假賬號。通過 3個不同角度分析鼠標點擊事件：Session-level、Activities、Click Transitions。隨后利用SVM對這些特征進行區分，最后對人人網中100萬用戶進行測試，發現22 000個可疑賬號。雖然此工作跟本文的工作都檢測分享式Spam攻擊，但是LIDA是輕量級檢測算法，不需要對每個賬號都進行檢測，而且作者利用的特征是鼠標點擊，只能夠檢測Spam攻擊中的傳播者，因為只有傳播者會進行大量的分享操作，而對于上傳者只需要進行一次上傳操作。本文主要側重于上傳者的檢測。

表5 相關工作比較

在文獻[16]中，Yang等分析了Twitter中的網絡犯罪生態系統（cyber criminal ecosystem），將虛假賬號分為2類：Criminal賬號和Criminal支持賬號，然后分析這 2種賬號內部以及兩者之間的網絡結構。最后作者利用這種網絡結構和語義相似性設計了CIA檢測算法來檢測Twitter中的虛假賬號。與本文類似，作者提出的CIA檢測算法也是輕量級檢測算法，但只是利用Twitter中的following- follower關系以及相鄰2個賬號之間所發布內容的語義相似度，而利用了分享式Spam攻擊的特征并結合了基于內容的檢測。

9 結束語

隨著社交網絡的飛速發展，Spam攻擊者也將其作為獲取利益的樂土。針對社交網絡中出現的分享式 Spam攻擊，首次分析其特點并據此提出了輕量級迭代檢測算法LIDA。通過人人網的實驗表明，本文算法對分享式 Spam攻擊的檢測是有效的，并且與現有工作相比，本文算法檢測所需的基數更少且能檢測上傳者，能夠作為社交網絡現有檢測算法的補充。通過對檢測到的 Spam相冊、賬號、URL的分析，發現Spam攻擊者能夠有效利用各種 Web資源輔助針對社交網絡的Spam攻擊。下一步工作，將考慮根據傳播者的分享結構來獲取更多Spam賬號，并對Facebook中的分享式Spam攻擊進行檢測。

[1] FaceBook[EB/OL]. http://en.wikipedia.org/wiki/Facebook.2014.

[2] RenRen[EB/OL]. http://en.wikipedia.org/wiki/Renren. 2013.

[3] MICHAEL F, ROY G, YUVAL E. Online social networks: threates and solutions[J]. IEEE Communications Surveys & Tutorials, 2013, 11(4):1-19.

[4] WANG A. Don’t follow me: spam detection in twitter[A]. International Conference on Security and Cryptography (SECRYPT)[C]. Athens,Greece, 2010. 142-151.

[5] HARRIS. A Study of Social Networks Scams Interactive[R]. Public Relations Research, 2008.

[6] EGELE M, STRINGHINI G, KRUEGEL C. COMPA: detecting compromised account on social networks[A]. Network & Distributed System Security Symposium[C]. San Diego, CA, USA ,2013.

[7] YANG Z, WILSON C, WANG X. Uncovering social network sybils in the wild[A]. Proceedings of the ACM SIGCOMM Conference on Internet Measurement[C]. Berlin, Germany, 2011. 259-268.

[8] ZHU Y, WANG X, ZHONG E. Discovering spammers in social networks[A]. Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence[C]. Toronto, Canada, 2012. 171-177.

[9] STRINGHINI G, KRUEGEL C, VIGNA G. Detecting spammers on social networks[A]. Annual Computer Security Applications Conference[C]. Austin, Texas, USA, 2010.1-9.

[10] THOMAS K, MCCOY D, GRIER C. Trafficking fraudulent accounts:the role of the underground market in twitter spam and abuse[A].USENIX Security Conferences[C]. Washington D C, USA, 2013.

[11] GAO H, HU J, WILSON C. Detecting and characterizing social spam campaigns[A]. Proceedings of the ACM SIGCOMM Conference on Internet Measurement[C]. New York, USA, 2010.35-47.

[12] LEE S, KIM J. WARNINGBIRD: detecting suspicious URLs in twitter stream[A]. Network & Distributed System Security Symposium[C].San Diego, California, USA. 2012.

[13] THOMAS K, GRIER C, MA J. Design and evaluation of a real-time URL spam filtering service[A]. IEEE Symposium on Security &Privacy[C]. Oakland, California, USA, 2011.447-462.

[14] YANG C, HARKREADER R, GU G. Empirical evaluation and new design for fighting evolving twitter spammers[J]. IEEE Transactions on Information Forensics and Security, 2013,8 (8): 1280-1293.

[15] WANG G, KONOLIGE T, WILSON C. You are how you click:clickstream analysis for sybil detection[A]. USENIX Security Conferences[C]. Washington D C, USA, 2013.241-256.

[16] YANG C, HARKREADER R, ZHANG J. Analyzing spammer’s social networks for fun and profit[A]. Proceedings of the 21th International Conference on World Wide Web[C]. Lyon, France, 2012.71-80.

[17] GRIER C, THOMAS K, PAXSON V,et al. @spam: the underground on 140 characters or less[A]. Proceedings of the 17th ACM Conference on Computer and Communications Security[C]. Chicago,USA, 2010.27-37.

[18] LUPHER A, ENGLE C, XIN R. Detecting Spam on Social Networking Sites: Related Work[R]. University of California Berkeley, 2012.

[19] FLORIAN K, STROHMAIER M. Short links under attack:geographical analysis of spam in a URL shortener network[A].Proceedings of the 23rd ACM Conference on Hypertext and Social media[C]. Milwaukee, WI, USA, 2012. 83-88.

[20] Google safe browsing[EB/OL]. https://developers.google.com/ safe-browsing/. 2014.

[21] DBL - the spamhaus project[EB/OL]. http://www.spamhaus.org/ dbl/.2014.

[22] Wepawet[EB/OL]. http://wepawet.iseclab.org/. 2014.

[23] LEE K, EOFF B, CAVERLEE J. Seven months with the devils: a long-term study of content polluters on twitter[A]. Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media[C].Barcelona, Spain, 2011. 185-192.

[24] RenRen privacy statement[EB/OL]. http://www.renren.com/siteinfo/privacy. 2013.

[25] RenRen search[EB/OL]. http://browse.renren.com/. 2013.

[26] [EB/OL]. http://ictclas.nlpir.org/, 2014.

[27] ZHANG J, PORRRAS P, ULLRICH J. Highly predictive blacklisting[A]. USENIX Security Conferences[C]. San Jose, CA,USA, 2008.

[28] Spam and malware protection[EB/OL]. http://blog.bitly.com/post/263859706/spam-and- malware -protectio, 2014.

[29] THOMAS K, GRIER C, PAXSON V. Suspended accounts in retrospect: an analysis of twitter spam[A]. Proceedings of the 2011 ACM SIGCOMM Conference on Internet Measurement Conference[C]. Berlin, Germany, 2011. 243-258.