999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網(wǎng)絡(luò)敏感數(shù)據(jù)獲取方法研究

2018-03-26 02:14:46張章學(xué)
軟件導(dǎo)刊 2018年3期
關(guān)鍵詞:用戶信息

張章學(xué)

摘要:

隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)變得至關(guān)重要,但是數(shù)據(jù)獲取一直是數(shù)據(jù)挖掘的一個(gè)難題。社交網(wǎng)絡(luò)的成熟使得數(shù)據(jù)獲取變得便捷,但是獲取方法仍然有待研究。通過(guò)分析社交網(wǎng)絡(luò)中的信息存儲(chǔ)狀況,構(gòu)造了社交網(wǎng)絡(luò)敏感數(shù)據(jù)獲取模型。從獲取用戶的個(gè)人簡(jiǎn)介信息中得到用戶性別、出生日期、所在地等信息, 并通過(guò)瀏覽記錄對(duì)用戶興趣進(jìn)行分析,最后利用好友列表獲取其整個(gè)社交網(wǎng)中用戶的敏感數(shù)據(jù)。以新浪微博為例研究了用戶敏感數(shù)據(jù)獲取率。實(shí)驗(yàn)發(fā)現(xiàn),在所有數(shù)據(jù)獲取中職業(yè)獲取率是最低的,而其它信息獲取率較高。

關(guān)鍵詞:

社交網(wǎng)絡(luò);敏感數(shù)據(jù);網(wǎng)絡(luò)爬蟲

DOIDOI:10.11907/rjdk.172235

中圖分類號(hào):TP301

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)003005603

英文摘要Abstract:With the advent of the age of big data, the data becomes critical. But accessing to data has been a problem for data mining. Social network of mature makes get data convenient, but the method still to be researched. The paper constructed social network sensitive data acquisition model by the analysis of social network in information storage condition. In the user's personal profile, we get some information such as user gender, date of birth, location, etc., and analyse user interest through the browsing record. Finally we get the entire users sensitive data of social network by the list of friends. By python,the paper make web crawler algorithm get network sensitive data. In the case of sina weibo , we get users sensitive data. In the experiment, we found that the acquisition rate of careers was the lowest, while the other information acquisition rate was higher.

英文關(guān)鍵詞Key Words:social network; sensitive data; web spider

0引言

社交網(wǎng)絡(luò)通俗來(lái)講便是人與人交流的不同于現(xiàn)實(shí)而依附于虛擬網(wǎng)絡(luò)存在的人際關(guān)系網(wǎng),如常見的社交平臺(tái)Facebook、微博、人人網(wǎng)等,但它比現(xiàn)實(shí)中人們的關(guān)系網(wǎng)更為復(fù)雜。隨著社交網(wǎng)絡(luò)的不斷發(fā)展,網(wǎng)絡(luò)安全問(wèn)題變得不可忽視。由于人們對(duì)個(gè)人隱私數(shù)據(jù)不重視,使得個(gè)人敏感信息泄漏,這種泄漏可能造成的結(jié)果可從兩個(gè)層面分析:①對(duì)用戶本人而言分兩種情況,一種是由于商業(yè)用途被獲取的敏感數(shù)據(jù),可能導(dǎo)致得到一些商業(yè)推廣信息,包括給郵箱發(fā)廣告、電話推銷,以及在瀏覽網(wǎng)頁(yè)時(shí)向用戶推薦鏈接等。另一種是某些團(tuán)體惡意獲取數(shù)據(jù),例如詐騙,在社交網(wǎng)絡(luò)中獲取個(gè)人信息如手機(jī)號(hào)、家庭地址等,進(jìn)行一些犯罪行為;②對(duì)于商業(yè)團(tuán)體而言,敏感數(shù)據(jù)的獲取能夠更好且有效地推廣產(chǎn)品。

敏感數(shù)據(jù)指用戶年齡、性別、所在地、聯(lián)系方式、興趣等,社交網(wǎng)絡(luò)上敏感數(shù)據(jù)極易泄露,因?yàn)樯缃痪W(wǎng)絡(luò)平臺(tái)都需要注冊(cè)后才能進(jìn)行交流,而大部分用戶都會(huì)采用郵箱或手機(jī)號(hào)進(jìn)行注冊(cè),這導(dǎo)致該社交網(wǎng)絡(luò)平臺(tái)擁有用戶聯(lián)系方式。其次在用戶注冊(cè)后均需填寫個(gè)人信息,種種原因?qū)е旅舾须[私數(shù)據(jù)暴露,而敏感數(shù)據(jù)的獲取大部分采用爬蟲軟件進(jìn)行程序編寫。Jinhyung Jung、Chorong Jeong、Keunduk Byun、Sangjin Lee[1]提出利用越獄的方法獲取隱私數(shù)據(jù),或者使用獲取備份信息的方法。俞忻峰[2]提出兩種采集方法,一種是基于API,一種是網(wǎng)絡(luò)爬蟲。采取對(duì)比試驗(yàn),分別用這兩種方法獲取數(shù)據(jù)然后對(duì)比獲取的數(shù)據(jù)多少。高夢(mèng)超、胡慶寶、程耀東等[3]基于眾包模式,采用C/S架構(gòu),通過(guò)主題 Deep Web 爬蟲的分布式機(jī)器節(jié)點(diǎn)自動(dòng)向服務(wù)器請(qǐng)求爬蟲任務(wù)并上傳爬取數(shù)據(jù),再利用 Hadoop 分布式文件系統(tǒng)對(duì)獲取到的數(shù)據(jù)進(jìn)行處理。周思思、袁曉紅[4]針對(duì)微博類網(wǎng)站設(shè)計(jì)了支持Ajax(Asynchronous Java Script and XML)技術(shù)的網(wǎng)絡(luò)爬蟲,采用協(xié)議驅(qū)動(dòng)和事件驅(qū)動(dòng)結(jié)合的采集策略,實(shí)現(xiàn)了微博數(shù)據(jù)的成功抽取和存儲(chǔ)。

本文通過(guò)分析社交網(wǎng)絡(luò)用戶敏感數(shù)據(jù)的存儲(chǔ)方式進(jìn)行敏感數(shù)據(jù)獲取研究。從獲取用戶的個(gè)人簡(jiǎn)介信息中得到用戶性別、出生日期、所在地等信息 ,再通過(guò)瀏覽記錄對(duì)用戶興趣進(jìn)行分析,最后利用好友列表獲取其整個(gè)社交網(wǎng)絡(luò)中用戶的敏感數(shù)據(jù)。

1模型建立

1.1模型假設(shè)

敏感數(shù)據(jù)獲取也就是一種網(wǎng)絡(luò)數(shù)據(jù)的獲取,而數(shù)據(jù)獲取離不開網(wǎng)絡(luò)爬蟲的應(yīng)用。網(wǎng)絡(luò)爬蟲,顧名思義就是在網(wǎng)絡(luò)上獲取數(shù)據(jù)的工具,而社交網(wǎng)絡(luò)應(yīng)用傳統(tǒng)爬蟲無(wú)法獲取全部信息,因此本文采用網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲能夠處理兩方面信息,一類是不需登錄便可獲取的信息,另一類是需要用戶注冊(cè)登錄后才能獲取的信息[5],而社交網(wǎng)絡(luò)中的數(shù)據(jù)是后一類。網(wǎng)絡(luò)爬蟲的工作原理見圖1。

本文根據(jù)爬蟲工作原理作出如下假設(shè):

(1)用戶的敏感數(shù)據(jù)為姓名、出生日期(或者年齡)、所在地、社交狀況、興趣愛好。

(2)社交狀況分為兩個(gè)方面:一方面為好友數(shù),一方面是好友關(guān)系。其中好友關(guān)系比較抽象,本文將其具象化為好友間的互動(dòng),以此作為衡量他們之間關(guān)系的標(biāo)度,互動(dòng)行為分為互動(dòng)時(shí)間以及互動(dòng)頻率。

(3)好友興趣愛好以用戶瀏覽的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分析。本文根據(jù)上述假設(shè)建立模型,并編程封裝數(shù)據(jù)對(duì)象的類,包含要獲取的用戶ID、用戶名、年齡、性別、地域、網(wǎng)站來(lái)源、獲取該數(shù)據(jù)的時(shí)間點(diǎn)等。

1.2模型分析與建立

根據(jù)敏感數(shù)據(jù)的精確定義,在社交網(wǎng)絡(luò)中利用網(wǎng)絡(luò)爬蟲建立數(shù)據(jù)獲取模型構(gòu)架,見圖2。用戶性別、所在地、職業(yè)以及出生日期等信息可以輕易地在用戶簡(jiǎn)介里找到,將其聚類起來(lái)便可使用,麻煩的是社交狀況和興趣狀況,這兩種信息需要對(duì)社交用戶具體分析。

為了方便計(jì)算,本文將社交關(guān)系最好的用1表示,沒(méi)有社交關(guān)系則為0。為了使抽象的社交狀況轉(zhuǎn)為具象的數(shù)字,定義用戶i的粉絲集合為Gi,關(guān)注集合Hi,為用戶i與用戶j在t天內(nèi)評(píng)論、贊或者轉(zhuǎn)發(fā)過(guò)的項(xiàng)目集合,Tpij為用戶在t天內(nèi)進(jìn)行互動(dòng)行為的時(shí)間,n(Gi)、n(Hi)、n(Iij)分別為各個(gè)集合所包含的元素個(gè)數(shù),本文定義用戶i的社交狀況Si必須滿足以下方程:

n(fi)=n(G∩H)(1)

Si=a*n(fi)+b*∑j∈Gi∪HiTpijt*(n(Gi)+n(Hi))+c*Iijt(2)

利用關(guān)鍵詞法[68]將用戶關(guān)注過(guò)的網(wǎng)頁(yè)與興趣進(jìn)行關(guān)聯(lián),明星關(guān)鍵詞集合S、養(yǎng)生關(guān)鍵詞集合Y、時(shí)尚關(guān)鍵詞集合F、美食關(guān)鍵詞集合E、文化關(guān)鍵詞集合W、娛樂(lè)關(guān)鍵詞集合L,見表1。

將不同的關(guān)注詞聯(lián)系不同的興趣類型,然后進(jìn)行關(guān)注度分析。關(guān)注度即用戶對(duì)某種事物關(guān)注的程度,分析發(fā)現(xiàn),關(guān)注度與瀏覽數(shù)量瀏覽時(shí)間有關(guān)聯(lián)。因?yàn)樵诂F(xiàn)實(shí)生活中,只有感興趣用戶才會(huì)去花時(shí)間查找瀏覽。因此,定義用戶喜好與時(shí)間作為評(píng)價(jià)標(biāo)準(zhǔn),最后定義用戶興趣度表示用戶對(duì)該興趣的喜好程度。根據(jù)用戶i在t時(shí)間里登錄社交網(wǎng)絡(luò)的總時(shí)間t1,出現(xiàn)的關(guān)鍵詞集合Ri,以及每個(gè)關(guān)鍵詞k出現(xiàn)的時(shí)間tRik,本文定義用戶i的興趣狀況Hoi必須滿足以下方程:

Z=max∑k∈Ri∩StRik,∑k∈Ri∩YtRik,∑k∈Ri∩FtRik,

∑k∈Ri∩EtRik,∑k∈Ri∩WtRik,∑k∈Ri∩LtRik(3)

Hoi=明星if Z=∑k∈Ri∩StRik

養(yǎng)生if Z=∑k∈Ri∩YtRik時(shí)尚if Z=∑k∈Ri∩FtRik美食if Z=∑k∈Ri∩EtRik文化if Z=∑k∈Ri∩WtRik娛樂(lè)if Z=∑k∈Ri∩LtRik(4)

對(duì)用戶敏感信息進(jìn)行具體分析,明確所有的用戶敏感數(shù)據(jù)以及定義敏感數(shù)據(jù)值,其中最為重要且較難處理的是用戶社交狀況以及興趣。

對(duì)上述兩個(gè)最復(fù)雜的數(shù)據(jù)進(jìn)行分析,將文本信息轉(zhuǎn)化為具體數(shù)值。利用網(wǎng)絡(luò)爬蟲工具進(jìn)行數(shù)據(jù)爬取,應(yīng)用Mysql數(shù)據(jù)庫(kù)語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行整理。

2仿真

以微博為例,獲取用戶的敏感數(shù)據(jù)包括性別、出生日期、所在地、職業(yè)、社交關(guān)系及興趣愛好。由于現(xiàn)實(shí)的社交網(wǎng)絡(luò)平臺(tái)存在一些沒(méi)有具體意義的數(shù)據(jù),為了排除這些數(shù)據(jù)在試驗(yàn)中的干擾,在數(shù)據(jù)獲取過(guò)程中加入判斷語(yǔ)句,只有當(dāng)用戶滿足某種情況時(shí)才執(zhí)行數(shù)據(jù)收集[910]。首先,獲取用戶關(guān)注對(duì)象列表,進(jìn)行遍歷,依次進(jìn)入其頁(yè)面進(jìn)行關(guān)鍵詞獲取,再利用公式(3)和公式(4)求得其興趣愛好,如出現(xiàn)并列便是擁有多個(gè)愛好。其次,社交網(wǎng)絡(luò)狀況復(fù)雜,本文利用公式(1)和公式(2)對(duì)數(shù)據(jù)進(jìn)行處理,以獲取微博用戶的社交狀況。網(wǎng)絡(luò)爬蟲敏感數(shù)據(jù)的獲取率如圖3所示。

從圖3可以發(fā)現(xiàn),在所有獲取數(shù)據(jù)中,職業(yè)獲取率是最低的,這是由于在社交網(wǎng)絡(luò)中只有進(jìn)行服務(wù)推廣或比較知名的用戶才會(huì)對(duì)職業(yè)進(jìn)行備注,而其它信息由于在基本簡(jiǎn)介中屬于需要填寫的信息因此獲取率較高。興趣則由于用戶注冊(cè)微博很大一部分原因是為了獲取自己感興趣的內(nèi)容,所以根據(jù)用戶關(guān)注信息就能夠推斷出大部分用戶的興趣狀況。社交狀況同樣如此,由于用戶會(huì)和自己的朋友互粉,根據(jù)粉絲等信息分析用戶的社交狀況還是比較容易的。而用戶性別獲取率是最高的,可以發(fā)現(xiàn)性別對(duì)用戶而言是不影響用戶隱私的,甚至有些用戶并不認(rèn)為性別屬于用戶隱私的范疇。

為了充分了解用戶敏感數(shù)據(jù)的獲取與實(shí)現(xiàn)情況,利用所獲取數(shù)據(jù)進(jìn)行社交用戶的興趣分析。根據(jù)所得數(shù)據(jù)計(jì)算不同用戶的興趣度,得到用戶興趣的分布情況如圖4所示。對(duì)能夠體現(xiàn)社交網(wǎng)絡(luò)特點(diǎn)的用戶進(jìn)行分析,以了解用戶詳細(xì)的社交狀況。篩選出滿足各項(xiàng)需求的用戶,從而使數(shù)據(jù)更為理想。部分用戶的社交狀況比較分析如圖5所示。

從圖5可以看出,本文方法以及數(shù)據(jù)處理的方式能很好地獲取用戶敏感數(shù)據(jù),并對(duì)其進(jìn)行處理。可以發(fā)現(xiàn)用戶對(duì)明星的關(guān)注度最高,對(duì)養(yǎng)生的關(guān)注度最低,而社交狀況中,大部分用戶的社會(huì)關(guān)系值集中在0.45左右,少部分用戶社會(huì)狀況不太理想。

3結(jié)語(yǔ)

本文根據(jù)社交網(wǎng)絡(luò)用戶敏感數(shù)據(jù)存儲(chǔ)特點(diǎn),以微博為例,構(gòu)架了網(wǎng)絡(luò)爬蟲對(duì)敏感數(shù)據(jù)進(jìn)行獲取,定義了用戶之間興趣度,進(jìn)行社交狀況計(jì)算,然后分析了微博用戶之間的興趣度分布狀況和社交狀況,得出社交網(wǎng)絡(luò)中敏感數(shù)據(jù)的實(shí)現(xiàn)方法。傳統(tǒng)的敏感數(shù)據(jù)是基于語(yǔ)義對(duì)網(wǎng)絡(luò)信息進(jìn)行挖掘,本文利用社交網(wǎng)絡(luò)獲得用戶的社交狀況和興趣,使用python語(yǔ)句對(duì)用戶信息進(jìn)行采集并分析,使仿真結(jié)果更為完善。

參考文獻(xiàn)參考文獻(xiàn):

[1]JINHYUNG JUNG, CHORONG JEONG, KEUNDUK BYUN, et al. Epidemic information sensitive privacy data acquisition in the iPhone for digital forensic analysis[J]. Verlag Berlin Heidelberg, 2011(3):172186.

[2]俞忻峰.社交網(wǎng)絡(luò)挖掘方案研究[J].現(xiàn)代電子科技,2015(38):2535.

[3]高夢(mèng)超,胡慶寶,程耀東,等.基于眾包的社交網(wǎng)絡(luò)數(shù)據(jù)采集模型設(shè)計(jì)與實(shí)現(xiàn)社交網(wǎng)絡(luò)中信息傳播預(yù)測(cè)的研究綜述[J].計(jì)算機(jī)工程,2015(41):3640.

[4]繆健美,姜華強(qiáng),項(xiàng)潔.社交網(wǎng)絡(luò)信息采集技術(shù)研究與實(shí)現(xiàn)[J].電子世界,2012(2):4041.

[5]陳興蜀,尹雅麗,李衛(wèi),等.面向“人人網(wǎng)”的用戶信息采集及拓?fù)鋄J].電子科技大學(xué)學(xué)報(bào),2014(51):126137.

[6]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):15.

[7]CETINKAYA A. Regular expression generation through grammatical evolution[C]. Genetic and Evolutionary Computation Conference, GECCO 2007, Proceedings, London, England, UK, 2007, Companion Material, 2007:26432646.

[8]LINZ P. An introduction to formal languages and automata[M]. Jones and Bartlett Publishers, Inc. 2011.

[9]龍怡翔,李海濤,胡薇.戰(zhàn)術(shù)網(wǎng)絡(luò)中基于策略的網(wǎng)絡(luò)管理技術(shù)研究[J].信息安全與通信保密,2012(7):8789.

[10]彭冬,蔡皖東.面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2011,33(1):157160.

責(zé)任編輯(責(zé)任編輯:杜能鋼)

猜你喜歡
用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬(wàn)用戶
如何獲取一億海外用戶
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美激情福利| 欧美午夜精品| 人妻21p大胆| 香蕉久人久人青草青草| 国产精品成| 久久99国产精品成人欧美| 午夜激情婷婷| 国产99视频免费精品是看6| 影音先锋亚洲无码| 色综合热无码热国产| 欧美日韩亚洲国产| 日韩精品免费一线在线观看| 国产精品男人的天堂| 97人妻精品专区久久久久| 国产裸舞福利在线视频合集| 国产一区二区网站| 91av成人日本不卡三区| 免费不卡在线观看av| 无码区日韩专区免费系列| 色悠久久久| 欧美啪啪视频免码| 欧美在线黄| 91麻豆精品国产91久久久久| 亚洲精品大秀视频| 91精品综合| 91在线无码精品秘九色APP| 国产网站免费观看| 色窝窝免费一区二区三区| 国产农村妇女精品一二区| www.99在线观看| 国产精品自在拍首页视频8| 超清无码熟妇人妻AV在线绿巨人| 亚洲成综合人影院在院播放| 国产在线精彩视频二区| 伊人蕉久影院| 四虎影视无码永久免费观看| 亚洲无码精品在线播放| 国产极品粉嫩小泬免费看| 日韩欧美国产综合| www欧美在线观看| 日本免费a视频| 欧美日韩亚洲综合在线观看| 青草91视频免费观看| 免费人成网站在线观看欧美| 国产无码高清视频不卡| 婷婷亚洲天堂| 亚洲色图欧美在线| 亚洲不卡av中文在线| 欧洲成人在线观看| 久久久精品久久久久三级| 国产视频a| 亚洲美女久久| 999精品在线视频| 精品久久久久无码| 国产香蕉一区二区在线网站| 有专无码视频| 欧美日本不卡| 国产精品任我爽爆在线播放6080 | 亚洲中字无码AV电影在线观看| 国产亚洲欧美在线人成aaaa| aa级毛片毛片免费观看久| 亚洲第一区欧美国产综合| 日本国产精品一区久久久| 欧美精品亚洲精品日韩专| 国产精品不卡片视频免费观看| 国产精品永久不卡免费视频| 精品国产美女福到在线不卡f| 高清国产va日韩亚洲免费午夜电影| 国禁国产you女视频网站| 福利在线不卡一区| 国产一级毛片网站| 亚洲伊人电影| 精品视频一区二区观看| 97免费在线观看视频| 亚洲欧美日韩精品专区| 日韩人妻无码制服丝袜视频| 精品伊人久久大香线蕉网站| 国产天天射| 欧美午夜理伦三级在线观看| 国产高颜值露脸在线观看| 26uuu国产精品视频| 香蕉色综合|