999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于廣告聯盟的虛擬身份畫像方法研究

2017-07-10 10:27:26彭如香孔華鋒王永劍
計算機應用與軟件 2017年6期
關鍵詞:關聯用戶

彭如香 楊 濤 孔華鋒 王永劍

(公安部第三研究所 上海 201204) (信息網絡安全公安部重點實驗室 上海 201204)

基于廣告聯盟的虛擬身份畫像方法研究

彭如香 楊 濤 孔華鋒 王永劍

(公安部第三研究所 上海 201204) (信息網絡安全公安部重點實驗室 上海 201204)

目前,網絡虛擬賬號繁多,大多數賬號無需實名認證便可使用,這樣不利于網絡空間的安全維護與監管。針對這一情況,提出一種以虛擬賬號為屬性的網絡空間身份畫像方法。該方法首先利用大數據預處理技術實現從無關聯的http post數據提取網絡虛擬賬號;然后,基于廣告聯盟機制,利用頁面標簽技術中Cookie存儲用戶唯一ID,將虛擬身份進行關聯綁定與關聯分析,進而構建虛擬身份畫像原型;最后通過相似度計算方法,完成相似畫像原型的重組。實驗結果表明,該方法能有效刻畫網絡空間身份。

廣告聯盟 虛擬身份畫像 數據挖掘 相似度計算

0 引 言

隨著互聯網技術日新月異,各種互聯網應用應運而生,通過互聯網進行溝通交流、商品交易等已經成為人們生活的一部分;互聯網應用的便捷性與高效性,使得人們的生活更廣泛地融入的互聯網環境中。然而,這些應用大多數無需實認證就可使用,一個人可以注冊多個相同種類或不同種類的虛擬賬號,這給網絡空間安全管理提出了艱巨難題[3],如何尋找到一種有效的虛擬身份刻畫方法,成為解決該問題的重要突破口。本文基于廣告聯盟機制,提出一種有效的虛擬身份串并關聯方法,實現網絡空間身份的刻畫,為網絡空間安全管理提供有力的支撐。

1 廣告聯盟機制

廣告聯盟,通常指網絡廣告聯盟。網絡廣告聯盟,又稱聯盟營銷,指集合中小網絡媒體資源(又稱聯盟會員,如中小網站、個人網站、WAP 站點等)組成聯盟,通過聯盟平臺幫助廣告主實現廣告投放,并進行廣告投放數據監測統計,廣告主則按照網絡廣告的實際效果向聯盟會員支付廣告費用的網絡廣告組織投放形式。

為了實現準確計費與廣告匹配,廣告聯盟平臺通常采用頁面標簽技術通過訪客瀏覽器收集數據,并將這些數據發送到遠程數據接收服務器,分析人員可以從遠程服務器查看數據報告。圖1展示廣告聯盟原理。這些信息通常通過放置在網站每個頁面中的JavaScript代碼進行收集[1-2]。頁面標簽技術使用cookie追蹤訪客,通常會在用戶的瀏覽器端創建唯一用戶ID,用戶訪問參與廣告聯盟加盟站點時,通過Cookie攜帶用戶ID表明身份信息,用于計費、用戶偏好刻畫等。表1為通過賬號jackcat111訪問www.cshn.net時抓取的Cookie數據,表2為通過賬號jackcat訪問www.7k7k.com時抓取的數據。表中數據顯示,這兩次不同的網站訪問,BAIDUID卻是相同的。此處BAIDUID為百度廣告聯盟機制中追蹤訪客的用戶ID,該用戶ID存儲在Cookie中。上述的BAIDUID跟設備、瀏覽器相關,并由這些因素決定,且在一定時間內保持不變,而且唯一。從而,我們可以認定賬號jackcat111和jackcat為關聯賬號,進而通過有效的關聯分析算法,將其他網絡虛擬信息串并起來,從另一視角刻畫網絡用戶。

圖1 廣告聯盟原理圖

表1 訪問csdn網站的Cookie數據表

續表1

表2 訪問7k7k游戲網站Cookie數據表

2 虛擬身份畫像模型

通過第1節的介紹,我們可以以廣告聯盟用戶ID為突破口,串并出關聯的虛擬身份,然后通過設定的關聯分析規則,歸整出身份屬性(虛擬賬號),并通過不斷的迭代更新,完善身份特征刻畫模型?;趶V告聯盟的虛擬身份畫像模型如圖2所示。該模型構建過程分為兩個主要過程:關聯綁定、關聯分析。

圖2 基于廣告聯盟的虛擬身份畫像模型

2.1 關聯綁定

關聯綁定[4-5]即通過廣告聯盟用戶ID將無關聯的虛擬身份綁定為關聯虛擬身份;關聯綁定分為廣告聯盟內虛擬身份關聯綁定、廣告聯盟間虛擬身份關聯綁定。

廣告聯盟內虛擬身份關聯綁定規則為來自不同Cookie信息中的虛擬身份,若Cookie信息中的同一廣告聯盟用戶ID相同,則認為這些虛擬身份為關聯虛擬身份,并稱為初始關聯組。圖3為一初始關聯組,是通過百度聯盟用戶ID(BAIDUID)9E304CC9357C1E000 9336A1EB49E0E86:FG=1進行虛擬身份綁定的。

圖3 初始關聯組

廣告聯盟間虛擬身份綁定建立在廣告聯盟內虛擬身份關聯綁定的基礎上,同一時間同一IP地址上抓取的cookie信息中包含不同廣告聯盟用戶ID,則可以將這些廣告聯盟用戶ID對應的初始關聯組合并,形成合并關聯組。圖4為一合并關聯組,由于鳳凰博客網既使用百度聯盟,也使用了淘寶聯盟,通過鳳凰博客賬號jackman111訪問該網站,抓取的Cookie信息中既包含百度聯盟用戶ID,又包含淘寶聯盟用戶ID,從而可將這兩個用戶ID對應的初始關聯組合并,進而可知淘寶賬號Jackman與csdn賬號jackcat111為關聯賬號。經過關聯綁定形成的組統稱為關聯組。

圖4 合并關聯組

2.2 關聯分析

通過2.1節的關聯綁定后,構建了一張虛擬身份關系網大圖[6-7],該大圖可能包含重復的信息以及不準確的信息,由此我們需要預設一些關聯分析規則,進一步完善大圖信息,最后對虛擬身份畫像進行特征描述。

通過第1節介紹我們知道,廣告聯盟用戶ID跟設備、瀏覽器相關,并由這些因素決定;當不同的用戶使用同一臺設備的相同瀏覽器時,同一關聯組中將出現同一網站的不同賬號。如圖5所示,csdn網站的不同賬號Jackcat111與tina屬于同一關聯組,這種情況下,將無法確定開心網賬號547687927@qq.com與哪個csdn賬號關聯。另外同一用戶使用不同的設備或不同的瀏覽器訪問網站時,這些用戶ID也會不同,這種情況可能出現某網站賬號(如csdn賬號tina)出現在不同的關聯組。如圖6所示。

圖5 出現同一網站不同賬號的關聯組示意圖

圖6 同一用戶不同賬號被分到不同的關聯組示意圖

為了解決上述問題,首先我們引入關聯度的定義。

定義1 關聯度不同虛擬賬號之間的緊密程度稱為關聯度。關聯度的取值范圍為[0,1]。不同虛擬賬號之間初始的關聯度為0;若兩個虛擬賬號關聯度為1,則表示這兩個虛擬賬號屬于同一用戶;關聯度為1時,具有傳遞性;即若虛擬賬戶A與虛擬賬號B之間關聯度為1,虛擬賬戶A與虛擬賬號C之間關聯度為1,則虛擬賬號B與虛擬賬號C之間的關聯度也為1。

接下來,引入以下規則:

1) 初始設置關聯組內的虛擬賬號之間的關聯度記為0.5。

2) 關聯組中同一時間同一IP獲取的虛擬賬號之間的關聯度記為1,所有相互之間關聯度為1的虛擬賬號組成不同用戶組。

3) 不同用戶組中,存在兩個及以上相同虛擬賬號的,判定為同一用戶組,并合并這些組。

反復運用規則1)~ 3)對大圖進更新,直到不滿足條件為止。至此可以得到用戶組群(虛擬賬號之間的關聯度為1)和剩下的關聯組群(虛擬賬號之間的關聯度為0.5)。用戶組群中每個用戶組內不同虛擬身份我們可以認定為同一畫像,從而構建虛擬身份畫像原型[8-9](以下簡稱原型)。

以下為關聯分析算法:

算法1 關聯分析算法

新建一個n*n關聯度矩陣A,初始值為0;這里矩陣A為上三角矩陣;

對于初始數據列表:

If 第k行與第m行的廣告聯盟類型與廣告聯盟值相同(0

對于所有A[k][m] = 0.5(0

If 初始數據列表中第k行與第m行的時間與IP相同,則 A[k][m] = 1;

對于所有的j,k,m (0

找出所有用戶組集合A1、A2、…、Ak,每個用戶組集合滿足:

1) 元素由序號組成,且大于0小于n;

2) 對于任意x,y屬于該集合,A[x][y]=1,(假設x

2.3 相似度計算

通過研究發現,Cookie有一定的有效期,且可以被清空,這樣用戶ID將重新分配;或者用戶在不同的設備進行上網,這就出現同一個人將分配不同的用戶ID,這樣的我們也將構建的多個虛擬身份畫像原型。另外,同一個人對用的用戶ID所關聯的虛擬身份可能不盡相同,為了使得構建的原型的更加全面,計算上一節所構建的原型之間的相似系數,計算公式采用的是改進的Jaccard相似系數,如下所示:

(1)

這里的X、Y表示為不同虛擬身份畫像原型。X={x1,x2,…,xn},由n個虛擬賬號組成,xi表示原型X第i個虛擬賬號;Y={y1,y2,…,ym},由m個虛擬賬號組成,yk表示原型Y的第k個虛擬賬號;當X、Y之間的IM_Jaccard相似系數超過某閾值,我們認定X、Y原型為同一原型,將X、Y原型合并,取X∪Y,組成新原型。

3 虛擬身份畫像方法實現與分析

3.1 數據獲取

通過數據截取的方式獲取某局域網絡一段時間的全量數據,且在該段時間內不定期地使用不同計算機使用如表3所示的賬號登錄網絡,所獲取的數據采用Redies方式存儲,總的數據量大小為25.6 GB。

表3 測試賬號

3.2 數據預處理

首先,從redies數據抽取包含表4所示域名以及對應用戶ID標識的報文。對符合要求的報文,采用UTF-8的格式存儲;處理后的數據形式如表5所示。

表4 數據抽取類型

表5 報文處理后的格式

然后,抽取Cookie中含有表6中字段標識的報文。對于這些報文,按照時間、源IP、目的域名、目的網站、虛擬賬號、廣告聯盟類型、廣告聯盟值獲取相應的數據,并進行相應的數據格式轉換,如時間格式統一轉換為“yyyy-MM-dd HH:mm:ss”格式。

表6 不同網站虛擬賬號字段標識

3.3 仿真實現

仿真實驗在PC機上進行,PC機的基本配置為:Intel Core i5 CPU,8 GB內存,Windows 7 操作系統;采用Python 2.7語言,使用PyCharm開發環境;采用MongoDB存儲數據。實驗步驟如下:

(1) 原型構建

按照3.2的預處理方法,抽取相關的字段插入到MongoDB數據表中,共102 356條記錄。 根據3.2節的算法1實現原型的構建,這里n取值為12 356。

構建出5 356個原型,即5 356個虛擬賬號集合;每個集合的長度不一,通過計算這些集合平均長度為4.78;測試賬號分成3個原型,A={Jackcat,Jackman111, 2315424713, 2315424713@qq.com },B={Jackman111,Jackcat111,2315424713@qq.com, 13574101446},C={13574 101446 , 2315424713@ qq.com, 2315424713},平均長度為3.67,少于實際長度。

(2) 相似度計算

通過式(1),計算不同原型之間的相似度系數,將不同IM_Jaccard相似系數大于設定的閾值原型合并。這里的閾值取值情況如表7所示。

表7 不同閾值下的原型情況表

由表7可知,隨著閾值不斷減小,原型數也不斷減小,原型平均長度不斷增加;當減小到一定值時,這兩個值趨于穩定,由此表明最后的1 897個為獨立的無冗余的原型;另外,測試賬號的最終原型為所有的測試虛擬賬號,進一步證明本文提出方法的有效性。這樣,我們可以認定每個原型即代表網絡空間虛擬身份,其通過若干個虛擬身份刻畫該虛擬身份。

4 結 語

本文介紹了一種基于廣告聯盟機制的網絡空間身份畫像方法。該方法首先采用大數據預處理、清洗技術,實現了從無關聯的http post數據提取網絡虛擬賬號,并利用廣告聯盟用戶ID的唯一性將虛擬賬號進行關聯;然后通過虛擬賬號關聯分析算法,實現了虛擬身份畫像原型的構建;最后采用改進的Jaccard相似系數計算算法,將相似度高的原型合并,進一步完善了畫像模型,實現了網絡空間虛擬身份的有效全面刻畫,為網絡安全管理工作提供有效的手段。

[1] 克利夫頓.流量的秘密[M].人民郵電出版社,2013.

[2] Brad Geddes.Advanced Google AdWords[M].3rd ed.Avinash Kaushik,2014.

[3] 李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領——大數據的研究現狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.

[4] 劉中淼,王宇翔,陶小龍,等.一種面向安全領域的身份識別與關聯方法[J].軟件導刊,2016,15(2):170-174.

[5] Li L,Zhang M.The Strategy of Mining Association Rule Based on Cloud Computing[C]//International Conference on Business Computing and Global Informatization.IEEE Computer Society,2011:475-478.

[6] 賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013,23(2):69-72.

[7] Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C]//Conference on Symposium on Opearting Systems Design & Implementation,2004:107-113.

[8] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.

[9] 杜亞軍,陳曉亮,范永全,等.微博知識圖譜構建方法研究[J].西華大學學報自然科學版,2015(1):27-35.

[10] Wang Yuanzhuo,Jia Yantao,Liu Dawei,et al.Open Web knowledge aided information search and data mining[J].Journal of Computer Research and Development,2014,52(2):456-474 (in Chinese).

[11] Zhao Jun,Liu kang,Zhou Guangyou,et al.Open information extraction[J].Journal of Chinese Information Processing,2011,25(6):98-110(in Chinese).

[12] Guo Jianyi,Li Zhen,Yu Zhengtao,et al.Extraction and relation prediction of domain ontology concept instance,atribute and atribute[J].Journal of Nanjing University:Natural Sciences,2012,48(4):383-389 (in Chinese).

RESEARCH ON VIRTUAL IDENTITY PORTRAIT METHOD BASED ON ADVERTISEMENT ALLIANCE

Peng Ruxiang Yang Tao Kong Huafeng Wang Yongjian

(ThirdResearchInstituteofMinistryofPublicSecurity,Shanghai201204,China) (KeyLabofInformationNetworkSecurity,Shanghai201204,China)

At present, the network virtual account is too numerous, most accounts do not need real-name authentication can be used. This is not conducive to the safety of network space maintenance and supervision. Aiming at this situation, this paper presents a network space identity portrait method with virtual account as attribute. The method first uses the big data preprocessing technique to extract the network virtual account from unrelated http post data; then, based on the mechanism of advertising alliance, this paper uses the cookie ID of the page tag technology to store the user unique ID, and the virtual identity is correlated with the binding analysis and then the virtual identity prototype is constructed; finally, the portrait of similar prototype is completed by the similarity calculation. The experimental results show that the method can effectively depict the identity of network space.

Advertisement alliance Portraits of virtual identity Data mining Similarity computation

2016-06-27。廣州市科技計劃項目(2014Y2-00022)。彭如香,助理研究員,主研領域:信息安全,數據挖掘。楊濤,副研究員。孔華鋒,研究員。王永劍,副研究員。

TP301.6

A

10.3969/j.issn.1000-386x.2017.06.018

猜你喜歡
關聯用戶
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 久久a级片| 日本一区高清| 亚洲成人在线网| 国产女人18毛片水真多1| 9cao视频精品| 91福利在线看| 国产精品所毛片视频| 狠狠色综合网| 国产精品播放| 日韩一区精品视频一区二区| 亚洲免费播放| 日本欧美精品| 久久熟女AV| 白浆视频在线观看| a毛片免费在线观看| 久草热视频在线| 一区二区日韩国产精久久| 午夜不卡福利| 国产亚洲精品91| 四虎成人免费毛片| 亚洲美女一区| 国产成人艳妇AA视频在线| 亚洲欧美日韩动漫| 一级毛片在线播放免费观看| 丁香五月婷婷激情基地| 中文字幕2区| 国产sm重味一区二区三区| 色亚洲成人| 国产成人av一区二区三区| 久久国产亚洲偷自| 伊人久久大线影院首页| 日韩A∨精品日韩精品无码| 国产噜噜在线视频观看| 99久久精品无码专区免费| 国产在线观看91精品| 亚欧成人无码AV在线播放| 2021国产乱人伦在线播放 | 日韩专区欧美| 超碰91免费人妻| 日本免费高清一区| 国产一级小视频| 99久久99视频| AV网站中文| 高h视频在线| 91蜜芽尤物福利在线观看| 72种姿势欧美久久久大黄蕉| 日韩国产亚洲一区二区在线观看| 老色鬼久久亚洲AV综合| 国产精品女熟高潮视频| 看av免费毛片手机播放| 三级国产在线观看| 亚洲日韩精品无码专区97| 欧美啪啪网| www欧美在线观看| 久久久久人妻一区精品| 国产jizzjizz视频| 一本二本三本不卡无码| 制服丝袜亚洲| 亚洲综合专区| 欧美在线一二区| 国产网站黄| 激情在线网| 暴力调教一区二区三区| 日韩欧美中文字幕在线韩免费| 啪啪免费视频一区二区| 91高清在线视频| 91视频首页| 久久国产高潮流白浆免费观看| 第一页亚洲| 国产精品极品美女自在线网站| 亚洲最新地址| 亚洲二三区| 精品国产美女福到在线直播| 2020最新国产精品视频| 国产综合亚洲欧洲区精品无码| 亚洲最大在线观看| 丝袜高跟美脚国产1区| 午夜啪啪福利| 欧美一级夜夜爽www| 国产在线第二页| 久久天天躁夜夜躁狠狠| 中文字幕天无码久久精品视频免费|