999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博社交網(wǎng)絡(luò)數(shù)據(jù)挖掘與用戶(hù)權(quán)重分析

2019-12-25 21:08:32魏利梅
關(guān)鍵詞:用戶(hù)信息

◆魏利梅

微博社交網(wǎng)絡(luò)數(shù)據(jù)挖掘與用戶(hù)權(quán)重分析

◆魏利梅

(山西警察學(xué)院 山西 030000)

信息技術(shù)水平的不斷進(jìn)步使得信息的獲取方式也越來(lái)越豐富,但是在目前的信息領(lǐng)域中網(wǎng)絡(luò)爬蟲(chóng)以及網(wǎng)頁(yè)信息解析仍然是應(yīng)用最為廣泛的兩種信息獲取方式。而如果將這兩種信息獲取方式應(yīng)用在微博方面,則很難保證數(shù)據(jù)信息獲取的速率,這主要是因?yàn)槲⒉┍旧砭哂旋嫶蟮挠脩?hù)群體,隨時(shí)隨地都有用戶(hù)在進(jìn)行信息更新,導(dǎo)致整體的信息更新量以及更新速率都非??欤又脩?hù)之間的信息交流量也比較大,因此,常規(guī)的信息獲取方式已經(jīng)不再適用。目前,微博在信息獲取方面主要使用的是API接口,這種接口主要是相關(guān)的服務(wù)提供商針對(duì)微博的大數(shù)據(jù)量以及數(shù)據(jù)信息交流量而應(yīng)用的一種數(shù)據(jù)查詢(xún)和獲取的方式。

數(shù)據(jù)采集;特性;數(shù)據(jù)挖掘

對(duì)于所有微博用戶(hù)的數(shù)據(jù)以及微博本身產(chǎn)生的數(shù)據(jù)量,服務(wù)商都可以獲取,而這些數(shù)據(jù)本身都是非常重要的數(shù)據(jù)形式,雖然利用API能夠?qū)崿F(xiàn)微博的大數(shù)據(jù)量獲取和查詢(xún),但是其作為一種服務(wù)器,本身存在一定的負(fù)荷極限,鑒于這種情況,必須要針對(duì)各個(gè)API的結(jié)構(gòu)設(shè)置相應(yīng)權(quán)限,這樣才能充分保證其在運(yùn)行的過(guò)程中不會(huì)出現(xiàn)崩潰或者數(shù)據(jù)丟失的現(xiàn)象。

1 微博數(shù)據(jù)采集特點(diǎn)

1.1 數(shù)據(jù)采集分析

目前,充分利用API開(kāi)放接口能夠完全滿足微博運(yùn)行中的數(shù)據(jù)采集工作,但在此基礎(chǔ)上還必須要有效解決用戶(hù)身份認(rèn)證的核心問(wèn)題。用戶(hù)使用微博必須要經(jīng)過(guò)嚴(yán)格的身份認(rèn)證,而在認(rèn)證過(guò)程中產(chǎn)生的用戶(hù)信息應(yīng)該要受到保護(hù),用戶(hù)的賬戶(hù)以及密碼要堅(jiān)決杜絕出現(xiàn)第三方獲悉的情況,也不能出現(xiàn)第三方查看用戶(hù)個(gè)人信息的現(xiàn)象。為了實(shí)現(xiàn)對(duì)用戶(hù)的身份認(rèn)證信息的保護(hù),新浪微博使用的OAUTH認(rèn)證,這種認(rèn)證方式具有較高的安全性,而且其本身的結(jié)構(gòu)比較簡(jiǎn)單,實(shí)用性也比較強(qiáng),目前新浪微博針對(duì)API的用戶(hù)驗(yàn)證協(xié)議主要使用的就是這種認(rèn)證方式。用戶(hù)在注冊(cè)微博賬戶(hù)的時(shí)候,首先必須要經(jīng)過(guò)OAUTH授權(quán),在申請(qǐng)過(guò)程中,API會(huì)結(jié)合用戶(hù)實(shí)際發(fā)送出來(lái)的申請(qǐng)請(qǐng)求,產(chǎn)生XML或者JSON文件并將其發(fā)送給用戶(hù),將上述兩種類(lèi)型的文件進(jìn)行解析之后,就能快速獲取到原始的數(shù)據(jù)[2]。

1.2 微博特性

每一個(gè)微博用戶(hù)個(gè)體實(shí)際受到的關(guān)注程度存在很大的差異,為針對(duì)用戶(hù)的受關(guān)注程度主要是根據(jù)其微博的恢復(fù)以及轉(zhuǎn)發(fā)數(shù)據(jù)統(tǒng)計(jì)來(lái)進(jìn)行評(píng)價(jià)。微博用戶(hù)在發(fā)布相關(guān)的微博信息后,別的微博用戶(hù)主要利用以下三種方式來(lái)進(jìn)行關(guān)注:首先是通過(guò)直接回復(fù)博主的信息進(jìn)行關(guān)注,他人的信息回復(fù)會(huì)讓微博的評(píng)論數(shù)增加一條;其次是對(duì)微博進(jìn)行轉(zhuǎn)達(dá)來(lái)關(guān)注,這種操作會(huì)使得微博的轉(zhuǎn)發(fā)數(shù)量增加一條;最后是同時(shí)進(jìn)行回復(fù)和轉(zhuǎn)發(fā),這種關(guān)注方式會(huì)使得微博的回復(fù)數(shù)以及轉(zhuǎn)發(fā)數(shù)同時(shí)增加。由此可見(jiàn),微博的回復(fù)和轉(zhuǎn)發(fā)既存在一定的聯(lián)系,也存在一定的區(qū)別。

與其他的社交平臺(tái)相比較,新浪微博具備的功能更加全面,多媒體信息就是微博本身所具備比較重要的一種功能。根據(jù)相關(guān)的數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),與單純的發(fā)布文字信息相比較,圖片以及其他多媒體形式的信息會(huì)對(duì)其他用戶(hù)形成更大的吸引力,也會(huì)進(jìn)一步增加微博的回復(fù)量以及轉(zhuǎn)發(fā)量。另外,除了多媒體信息的發(fā)布之外,提及關(guān)系的信息發(fā)布會(huì)受到更多的關(guān)注,而關(guān)注度本身會(huì)隨著提及關(guān)系用戶(hù)的數(shù)量的增加而進(jìn)一步增加。

2 微博用戶(hù)

與世界知名的Facebook相同,微博也是一種社交網(wǎng)絡(luò),但是微博在本質(zhì)上與其還存在較大的差異,具備了自身獨(dú)特的特點(diǎn)。例如,微博能夠?qū)崿F(xiàn)用戶(hù)友好關(guān)系的雙向發(fā)展,A用戶(hù)在關(guān)注B用戶(hù)的時(shí)候,不需要通過(guò)其審核,在這種關(guān)注關(guān)系中,B用戶(hù)如果本身不存在關(guān)注A用戶(hù)的意愿,那么在B用戶(hù)的關(guān)注名單中并不會(huì)因?yàn)锳用戶(hù)的關(guān)注而出現(xiàn),那么兩個(gè)用戶(hù)之間的關(guān)系會(huì)呈現(xiàn)出一種復(fù)雜的狀態(tài),兩者之間并不是普通的好友關(guān)系,由于A用戶(hù)關(guān)注了B用戶(hù),但是A用戶(hù)并沒(méi)有受到B用戶(hù)的關(guān)注,因此,A用戶(hù)就成為B用戶(hù)的粉絲。在這種社交網(wǎng)絡(luò)中,可以用G=( U,E)來(lái)表達(dá)這種網(wǎng)絡(luò)結(jié)構(gòu),U代表是整個(gè)社交網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn),就也就是微博的每一個(gè)用戶(hù),E代表的是不同用戶(hù)之間產(chǎn)生的一種有向聯(lián)系關(guān)系[3]。利用這種網(wǎng)絡(luò)拓?fù)潢P(guān)系來(lái)表達(dá)用戶(hù)之間的聯(lián)系,需要對(duì)其出度以及入度都進(jìn)行設(shè)定,出度主要是用來(lái)表示用戶(hù)實(shí)際關(guān)注的好友數(shù)量,而入度則表示的是用戶(hù)實(shí)際擁有的粉絲數(shù)量,出入度共同構(gòu)成了整個(gè)社交網(wǎng)絡(luò)節(jié)點(diǎn)度的分布特性。

微博針對(duì)用戶(hù)設(shè)置了不同的等級(jí),通過(guò)對(duì)新浪微博數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),用戶(hù)在認(rèn)證過(guò)程中會(huì)被劃分能普通用戶(hù)以及認(rèn)證用戶(hù)。而隨著微博版本的不斷更新,針對(duì)認(rèn)證用戶(hù)也實(shí)現(xiàn)了進(jìn)一步精細(xì)分類(lèi)。通過(guò)分析可以知道,認(rèn)證用戶(hù)通常擁有的粉絲數(shù)量更多,而且微博的回復(fù)以及轉(zhuǎn)發(fā)數(shù)量也明顯要超過(guò)普通用戶(hù),由此可見(jiàn),微博的傳播在很大程度上取決于認(rèn)證用戶(hù)。對(duì)于微博認(rèn)證用戶(hù)來(lái)說(shuō),其微博的回復(fù)量以及轉(zhuǎn)發(fā)量在很大程度上都取決于其粉絲數(shù)量,粉絲數(shù)量與微博回復(fù)以及轉(zhuǎn)發(fā)量之間存在一種緊密的關(guān)聯(lián),但是通過(guò)研究發(fā)現(xiàn)這種關(guān)系呈現(xiàn)出模糊的狀態(tài)。

用戶(hù)使用微博的時(shí)候,關(guān)注好友的最新微博動(dòng)態(tài)是首先呈現(xiàn)出來(lái)的,這些動(dòng)態(tài)信息會(huì)按照時(shí)間進(jìn)行排列。而用戶(hù)將頁(yè)面向下滑動(dòng)的時(shí)候會(huì)呈現(xiàn)出更多的微博信息,因此,每次使用微博都會(huì)呈現(xiàn)大量的信息,而這些信息在用戶(hù)進(jìn)行簡(jiǎn)單的瀏覽之后,大多數(shù)都會(huì)被忽略。而用戶(hù)實(shí)際情況的不同也會(huì)導(dǎo)致其微博的關(guān)注度受到影響,當(dāng)在微博用戶(hù)活躍時(shí)間段來(lái)更新微博,那么這些信息在很可能會(huì)被用戶(hù)關(guān)注,而在用戶(hù)不活躍時(shí)間段更新信息則會(huì)很少被關(guān)注,由此可見(jiàn),微博的傳播在一定程度上會(huì)受到用戶(hù)活躍時(shí)間特性的影響[4]。

3 基于HITS算法的節(jié)點(diǎn)權(quán)重研究

人與人的相互關(guān)系是社會(huì)網(wǎng)絡(luò)中重要的一個(gè)因素,因此,如果微博的作者本身具備較強(qiáng)的權(quán)威性,其微博信息也會(huì)被廣泛傳播。由上述的分析可以知道,微博用戶(hù)的權(quán)重會(huì)受到用戶(hù)自身影響力、活躍度等多種因素的影響。HITS算法嚴(yán)格的來(lái)講是一種權(quán)重排序法,互聯(lián)網(wǎng)領(lǐng)域?qū)Υ说膽?yīng)用非常廣泛,在網(wǎng)頁(yè)中會(huì)同時(shí)存在指向所有網(wǎng)頁(yè)authority值的hub值,以及指向某一個(gè)網(wǎng)頁(yè)的所有的網(wǎng)頁(yè)的hub構(gòu)成的該網(wǎng)頁(yè)的authorty值。分析互聯(lián)網(wǎng)網(wǎng)頁(yè)信息可以知道,很多情況下一些權(quán)威性的網(wǎng)頁(yè)通常都會(huì)值相加未知網(wǎng)頁(yè),而且未知網(wǎng)頁(yè)也有極大的可能會(huì)指向權(quán)威性網(wǎng)頁(yè)[5]。

互聯(lián)網(wǎng)中的網(wǎng)頁(yè)基本上包含很多各型各色的連接,例如,一些權(quán)威性網(wǎng)頁(yè)中也經(jīng)常會(huì)包含著一些廣告連接,在這種情況下,權(quán)威性網(wǎng)頁(yè)本身就很可能會(huì)賦予了廣告權(quán)威性;又如當(dāng)用戶(hù)瀏覽某一個(gè)主體網(wǎng)頁(yè)的時(shí)候,經(jīng)常會(huì)出現(xiàn)一些與本出題沒(méi)有任何關(guān)聯(lián)的頁(yè)面,但是這個(gè)頁(yè)面很可能本身具有較高的權(quán)威性,這種情況的大量出現(xiàn)必然會(huì)對(duì)HITS算法公正性形成一定的影響。而微博用戶(hù)個(gè)體本身的差異性比較大,研究微博的傳播可以知道,如果具有較高權(quán)威性的微博用戶(hù)實(shí)際關(guān)注的用戶(hù)越多,那么其關(guān)注好友通常情況下重要性也有待考究,而如果少量關(guān)注好友,則表示其關(guān)注好友很重要。由于微博好友具有雙向性的特征,因此,為了避免用戶(hù)自身權(quán)威性的無(wú)限傳遞,那么久必須要針對(duì)HITS算法進(jìn)行一定的改進(jìn),結(jié)合微博雙向關(guān)系與互聯(lián)網(wǎng)網(wǎng)頁(yè)連接的相似性,在針對(duì)HITS算法進(jìn)行改進(jìn)的時(shí)候就可以充分參照互聯(lián)網(wǎng)的方式。

互聯(lián)網(wǎng)技術(shù)在當(dāng)今社會(huì)科技不斷發(fā)展的形式取得了巨大的進(jìn)步,微博等一些社交網(wǎng)絡(luò)在人們的日常生活中已經(jīng)逐漸成為一種必不可少的部分。社交的網(wǎng)絡(luò)的信息傳播速度以及傳播范圍都比傳統(tǒng)網(wǎng)絡(luò)會(huì)好很多,而且微博本身的特征也更加復(fù)雜,因此,針對(duì)微博等社交網(wǎng)絡(luò)不能利用傳統(tǒng)研究理論和模型進(jìn)行分析,必須要針對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)信息獲取和傳播進(jìn)行研究具有更高的價(jià)值。

4 結(jié)束語(yǔ)

在針對(duì)API接口在微博的實(shí)際應(yīng)用進(jìn)行研究,對(duì)微博的數(shù)據(jù)采集等幾個(gè)方面進(jìn)行分析,揭示了影響微博用戶(hù)權(quán)威性和微博傳播的一些因素。對(duì)于微博來(lái)說(shuō),具備了自身的一些特征,因此信息的發(fā)布會(huì)受到發(fā)布內(nèi)容、發(fā)布人權(quán)威性等因素的影響。

[1]孫萌.面向社交網(wǎng)站的數(shù)據(jù)挖掘應(yīng)用研究—用戶(hù)關(guān)系分析[D].南京郵電大學(xué),2014.

[2]李鵬宇.微博社交網(wǎng)絡(luò)中的學(xué)生用戶(hù)抑郁癥識(shí)別方法研究[D].哈爾濱工業(yè)大學(xué),2014.

[3]張劭捷.基于微博社交網(wǎng)絡(luò)的輿情分析模型及實(shí)現(xiàn)[D].華南理工大學(xué),2011.

猜你喜歡
用戶(hù)信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶(hù)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
Camera360:拍出5億用戶(hù)
100萬(wàn)用戶(hù)
如何獲取一億海外用戶(hù)
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 制服丝袜一区二区三区在线| 狠狠色噜噜狠狠狠狠色综合久| 国产18在线播放| 亚洲男人的天堂视频| 国产一级毛片yw| 久久精品人妻中文系列| 成人免费网站在线观看| 亚洲欧美成人| 天天做天天爱天天爽综合区| 亚洲综合第一页| 欧美日韩久久综合| 色综合手机在线| 97视频在线观看免费视频| 青青草原偷拍视频| 黄色网站在线观看无码| 国产精品一区二区在线播放| 久久综合伊人 六十路| 国产欧美亚洲精品第3页在线| 国产嫖妓91东北老熟女久久一| 亚洲人成成无码网WWW| 国产精品尤物铁牛tv| 久久五月视频| 免费三A级毛片视频| 色天堂无毒不卡| 无码粉嫩虎白一线天在线观看| 精品撒尿视频一区二区三区| 特级欧美视频aaaaaa| 日韩欧美国产三级| 一级高清毛片免费a级高清毛片| 亚洲香蕉在线| 91精品网站| 国产麻豆永久视频| 自拍亚洲欧美精品| 都市激情亚洲综合久久 | 99热这里只有精品国产99| 92午夜福利影院一区二区三区| 九九九国产| 2020国产在线视精品在| 欧美精品亚洲精品日韩专| 久青草国产高清在线视频| 九色国产在线| 久久久久九九精品影院| av在线无码浏览| 91黄色在线观看| 日韩天堂视频| 狠狠五月天中文字幕| 精品伊人久久久香线蕉 | 五月婷婷导航| 99久久国产综合精品2020| 一区二区自拍| 国产一级裸网站| 高清无码手机在线观看| 成人自拍视频在线观看| 欧美一级特黄aaaaaa在线看片| 色135综合网| 国产欧美自拍视频| 热伊人99re久久精品最新地| 亚洲精品无码人妻无码| 亚洲,国产,日韩,综合一区 | 国产地址二永久伊甸园| 国产欧美在线| 欧美日韩中文国产va另类| 蜜芽国产尤物av尤物在线看| 国产精品无码久久久久久| 成人福利在线观看| 国产午夜精品一区二区三| 浮力影院国产第一页| 中文精品久久久久国产网址| 奇米精品一区二区三区在线观看| 天天躁夜夜躁狠狠躁躁88| 2020国产精品视频| 色香蕉影院| 国产精品不卡永久免费| 国产精品毛片一区视频播| 亚洲不卡影院| 久久精品人人做人人综合试看| 91探花在线观看国产最新| 久一在线视频| 国产黄在线观看| 国产手机在线观看| 国产成人精品一区二区秒拍1o| 免费aa毛片|