999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡數據挖掘技術淺談

2015-07-17 01:25:18邵佩佩湖北省武漢大學遙感信息工程學院武漢430072
山東工業技術 2015年8期
關鍵詞:數據挖掘數據庫文本

邵佩佩(湖北省武漢大學遙感信息工程學院,武漢 430072)

社交網絡數據挖掘技術淺談

邵佩佩
(湖北省武漢大學遙感信息工程學院,武漢 430072)

進入大數據時代,各類社交網站包涵大量的信息數據,本次研究在開源的網絡爬蟲代碼的基礎上加以創新,研究出了一種新型比較高效的爬蟲算法。通過對社交網絡進行有目的的數據挖掘,并進行過濾提取所需信息,存儲進預先設定的數據庫。

大數據;網絡爬蟲;數據挖掘;數據庫

1 引言

在信息爆炸的時代,互聯網使我們可以得到海量數據,但并不是這些信息中只有一部分為能為我們所用。如何在海量數據中獲取所需的信息,本次研究基于這個問題展開。在社交軟件中,我們知道每個ID對應的都有一系列的屬性信息,包括性別、年齡、出生地、所在地等等。首先是數據的獲取,參考各類已有的工具,使用網絡爬蟲作為主要數據遍歷的工具。其次,由于網站對IP設置了訪問次數的限制,還需解決如何獲取足夠多數據的問題,通過借鑒其他的案例,我們采取了線程控制的機制,來控制單位時間的訪問次數。接著是對數據的加工處理,并且通過編程的方式,使用程序將無用信息剔除,存儲有用信息,讀入數據庫,構建信息鏈。

2 爬蟲的實現

本次研究在開源爬蟲代碼的基礎上進行創新,通過模擬登陸,并且結合實際網絡特性利用線程方法控制單位時間內的訪問次數,最后完成對數據的析取。

2.1 Python 模擬身份登陸

過程:首先利用加密的用戶名和密碼進行登陸,然后通過微博等社交網絡的服務器得到cookies(Cookies就是服務器暫時存放在你的電腦里的資料,好讓服務器用來辨認你的計算機)。

2.2 控制訪問次數

由于新浪微博等網站對訪問次數有限制,所以本次研究在單位時間內控制訪問次數:(1)構造高級搜索對應的請求參數字符串。(2)發送請求并保存搜索結果。通過線程控制,程序等待一定時間。(3)根據設定的終止條件判定是否抓取完畢,否則循環進行步驟(1)。

2.3 進行數據分析與提取

通過網絡爬蟲抓取的為含有大量冗余無關數據的HTML文本數據,本次研究采用基于內核IE的網頁抓取算法剔除所獲數據中的冗余部分,最終保存相關數據到MySQL 數據庫中。

3 數據組織與過濾

3.1面向內容的初步過濾

爬蟲軟件只能針對開源網頁上的種子進行廣度遍歷,然而不可避免地會收集到重復的信息,如鏡像網頁等,這是可采取多種算法進行篩選重復信息,亦即網頁消重。

算法1:排除相同的URL:在開源的爬蟲代碼基礎上,分析不同網頁的URL,規則是相同的URL代表相同的網頁,此時需要去除重復的URL。本方法簡單易實現,但沒有利用文本內容信息,不能對轉載等大體內容相近的網頁進行區分篩選。

算法2:基于聚類去重法[1]:該方法是將網頁的整體文本內容視為多維向量,以7000個字符作為向量的一個基,文本中某組或某個漢字所出現的頻率就構成了代表網頁的向量,通過計算向量的夾角確定是否是相同的網頁。

由于每個字符對整個文本的重要性是不一樣的,所以我們可以給不同字符賦予不同的權重,而所有字符的權重構成了網頁文本的空間向量。類似于理論向量的計算過程,需要先計算兩個網頁文本空間向量的夾角,然后依據該夾角來評估兩個網頁的相似程度。當夾角小于某一個閾值時,就認為他們是同一類別[2]。

3.2 面向客戶的高級過濾

4數據存儲

通過調用MySQL來存儲通過網絡爬蟲獲取到的社交網絡用戶的信息數據。MySQL由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,所以選擇了MySQL作為數據庫,將數據保存在各種不同的表格中,這提高了存儲速度。調用MySQL所使用的SQL語言是最常用標準化語言。

我們通過Twisted來連接mysql。Twisted 是一個異步網絡框架, 意味著標準數據庫模塊無法直接使用。同時,對于異步框架而言,這些延遲是無法接受的。因此, Twisted 提供了 twisted.enterprise. adbapi, 遵循DB-API 2.0協議的一個異步封裝。從而將指定數據存儲進數據庫中。

[1]李毅.基于向量機的數據流聚類學習方法研究[Z],2013.

[2]王睿.面向垂直搜索引擎的網頁抓取器的設計和實現[D].中國海洋大學計算機技術,2009(11).

[3]Matthew A.Russell.Mining the Social Web[M].機械工業出版社,2012.

猜你喜歡
數據挖掘數據庫文本
探討人工智能與數據挖掘發展趨勢
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲一级毛片免费观看| 国产爽歪歪免费视频在线观看| 在线综合亚洲欧美网站| 国产高潮流白浆视频| 免费视频在线2021入口| 亚洲人成网线在线播放va| 欧美a在线视频| a级毛片一区二区免费视频| 国产精品亚洲天堂| 成人国产小视频| 婷婷六月在线| 婷婷六月天激情| 在线中文字幕网| 漂亮人妻被中出中文字幕久久| 国内精品九九久久久精品| 九九视频免费在线观看| 成人亚洲国产| 久久精品国产精品一区二区| 亚洲三级片在线看| 亚洲日韩精品伊甸| 影音先锋亚洲无码| 97在线公开视频| 国产91av在线| 国产微拍精品| 青青草国产精品久久久久| 看你懂的巨臀中文字幕一区二区| 色哟哟精品无码网站在线播放视频| 亚洲无码熟妇人妻AV在线| 国产日本视频91| 久久a级片| 国产视频入口| 国产精品免费福利久久播放| 亚洲天堂自拍| 国产欧美日韩资源在线观看| 国产高清在线精品一区二区三区 | 中文字幕在线永久在线视频2020| 免费观看无遮挡www的小视频| 亚洲精品天堂自在久久77| 999精品视频在线| 亚洲人成影院在线观看| 国产又爽又黄无遮挡免费观看| 成人综合在线观看| 黄色不卡视频| 免费激情网站| 国产毛片高清一级国语| 欧美一级高清片欧美国产欧美| 亚洲AV无码乱码在线观看裸奔| 国产xxxxx免费视频| 国产精品成| 日韩123欧美字幕| 久久青草精品一区二区三区 | 欧美一区二区自偷自拍视频| 国产视频自拍一区| 国产午夜福利片在线观看| 日韩麻豆小视频| 国产一区二区免费播放| 免费一极毛片| 亚洲av无码久久无遮挡| 国产欧美视频综合二区| 在线欧美国产| 手机精品视频在线观看免费| 在线亚洲小视频| 欧美日本一区二区三区免费| 就去吻亚洲精品国产欧美| 午夜在线不卡| 中文字幕乱码中文乱码51精品| 亚洲高清日韩heyzo| 嫩草国产在线| 国产区在线观看视频| 国产欧美自拍视频| www.youjizz.com久久| 免费视频在线2021入口| 国产情精品嫩草影院88av| 亚洲另类国产欧美一区二区| 亚洲精品无码人妻无码| 伊人大杳蕉中文无码| 制服丝袜一区| 91国内在线观看| 99久久精品国产自免费| 国产精品亚洲αv天堂无码| 永久在线精品免费视频观看| 在线看免费无码av天堂的|