999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的社交網絡數據分析研究

2021-01-04 07:11:08晁緒耀王穎穎
科技創新與生產力 2021年9期
關鍵詞:單詞文本用戶

晁緒耀,王穎穎

(1.鄭州職業技術學院,河南 鄭州450007;2.鄭州升達經貿管理學院,河南 新鄭450001)

1 系統需求分析

社交網絡已經成為人們日常生活的重要組成部分,是人們傳播信息、交流互動的重要途徑。用戶在社交網絡上活動時,會通過文本信息、轉發信息、評論等行為產生大量數據信息,分析、挖掘這些大數據具有重要意義。目前在世界范圍內Twitter,Facebook是用戶最為活躍的社交網絡平臺,因此本研究針對這兩個平臺提出一種分析其數據信息的系統。本系統的主要需求包括以下3個方面。

一是數據采集與融合。大數據分析必須以數據采集與融合為前提,可以通過種子URL實時采集或通過設定關鍵詞實時采集,利用網絡爬蟲從Twitter,Facebook中采集數據信息。雖然社交網絡平臺的功能結構不同,界面樣式也千差萬別,但是其都包含文本信息、評論信息、轉發信息、互動關系信息等,系統可以從中抽取存在共性的數據進行分析、融合,再以結構化的方式存儲于數據庫[1]。

二是信息檢索需求分析。信息檢索方式主要有兩種:一種是新任務檢索,即不保留之前的檢索數據,開啟一個新的檢索任務;另外一種是當前任務檢索,在開啟一個新任務檢索時,上次任務檢索的數據也保留起來,兩次檢索得到的數據求交集或并集,最終實現多任務數據融合。兩種檢索方式都可以實現以下功能:關鍵詞檢索,即輸入關鍵詞即可獲取用戶信息、關系信息等相關結果;排除關鍵詞檢索,即輸入需要排除的關鍵詞后搜索結果中不包含關鍵詞相關的信息;人物檢索,即輸入人物相關的關鍵詞即可檢索到相關信息;時間檢索,可以實現在特定時間范圍內的時間檢索;來源檢索,可以檢索到信息的來源數據等。

三是數據分析與可視化需求。數據分析模塊主要對社交網絡數據進行挖掘、分析,其也是整個系統的核心部分,主要功能包括內容分析、行為分析、用戶畫像、發現熱點話題等。其中內容分析中的內容包括用戶發布、回復及轉發的相關信息,除了顯性的信息數據外,系統還可以對信息中隱含的內容做出情感分析,將用戶感興趣的信息標記出來;行為分析是指分析用戶在社交網絡平臺上的所有操作行為,將用戶的操作過程完整地記錄下來,將用戶的行為軌跡完整地構建、預測出來;用戶畫像是將用戶信息進行標簽化處理,用標簽將用戶的行為、觀點、屬性等個性化特征描述出來,并對用戶個性化的觀點、關注的話題進行總結、分析;發現熱點話題主要是對用戶的帖子數據進行聚類分析,發現用戶關注的熱點話題[2]。

2 系統功能設計

根據上述需求可知,該系統需要實現數據采集、數據預處理與融合、信息檢索、數據分析與可視化功能,其中核心功能為數據分析,下文詳細介紹系統各功能設計開發過程。

2.1 數據采集

數據采集是整個系統完成數據分析的基礎模塊,傳統數據分析過程中多采用社交網絡開放的應用程序接口(Application Programming Interface,API)獲取數據,但卻易受到限制。利用網絡爬蟲技術采集數據,可以不受數據限制。網絡爬蟲可以根據特定的規則實現網頁內容程序或腳本的自動采集,通過網絡爬蟲可以將Twitter,Facebook上的網頁下載到本地,再抽取數據信息。具體采集過程如下。

第一步,信息準備。由于系統爬取的社交網絡平臺需要登錄才能正常訪問、下載網頁,因此需要準備社交網絡平臺賬號、密碼等信息,而種子統一資源定位符(Uniform Resource Locator,URL)、爬蟲數據存放目錄等則需填寫于爬蟲配置文件中。第二步,使用代理服務器。使用代理服務器的主要目的是通過IP欺騙的形式抓取網站信息,因為固定的IP在短時間內頻繁訪問一個網站,服務器會判斷出這個IP是機器爬蟲而將其屏蔽,影響到正常抓取數據。具體設計時要將代理服務器的賬號、密碼填寫在爬蟲屬性文件中。第三步,構造登錄請求,獲取Cookie。服務器會在用戶第一次訪問時將用戶狀態記錄下來并向客戶端發送一小段文本信息,即Cookie,保存這個Cookie,服務器會據此判斷用戶的登錄狀態,這就無需用戶頻繁登錄網站。第四步,發送頁面請求。本系統采取根據URL爬取及根據關鍵字爬取兩種方式采集社交網絡數據,這兩種方式最終都是通過獲取網頁的URL發送頁面請求。第五步,解析超文本標記語言(Hyper Text Markup Language,HTML)頁面,并存儲數據。應用WebCollector集成的Jsoup對HTML頁面進行解析,抽取系統需要的文本數據存儲于json格式文件中,注意在爬蟲配置文件中要對json格式文件的最大行數進行設定,且單個文件只能存儲于固定行數,以便于后續預處理。第六步,進行下次爬取。抽取需要爬取的URL后要對其進行判斷,如果是相對URL則要轉換為絕對URL,待爬取的URL加入待爬取隊列,網絡爬蟲再針對待爬取隊列中的URL進行下一次爬取[3]。

2.2 數據預處理與融合

在采集社交網絡平臺數據時,網絡爬蟲易受到噪聲干擾,從而采集到殘缺的、錯誤的、無關的數據信息,因此要針對這部分采集到的初始數據進行預處理,具體步驟如下:第一步,對數據進行定時掃描。本研究采用Java Timer定時器對存放json格式文件的文件夾進行定時掃描,將文件名結尾為.success.json的文件轉換成.load.json結尾的文件格式。第二步,針對重復的、無價值的空數據等進行預處理。剔除空格、HTML標簽等信息;如果采集到空的文本數據,系統也會自動剔除。第三步,針對多源異構數據進行融合,對其進行匹配、整合。明確表示出帖子的屬性內容、關系內容、用戶屬性內容等信息。第四步,將預處理好的數據存儲于數據庫中,并進行同步索引構建及內容情感分析。

2.3 信息檢索

社交網絡平臺每天都會產生大量的數據信息,因此信息檢索是系統的重要組成部分。本研究采用全文搜索引擎Lucene構建倒排索引進行全文檢索,倒排索引是相對于正向索引而言,其通過構建單詞-文檔矩陣,根據單詞快速獲取與其相關的文檔列表,實現從待檢索數據中提取信息并合理組織存儲結構,大大提高了檢索效率,該技術可提供創建索引、查詢索引等應用程序接口。全文檢索最大的優勢在于可以快速檢索海量數據,并按照相關度對搜索結果進行排序,以更好地滿足用戶需求。具體步驟如下:第一步,創建文檔對象。文檔包括帖子內容、發布位置、時間、類型及相關鏈接等。第二步,分析文檔。主要分析帖子的文本內容,注意將一些普通的、無意義的單詞去除,將余下的單詞進行詞根化處理,并將大寫字母轉換為小寫。第三步,創建索引。將詞根化處理好的所有單詞構建成一個詞典創建索引,根據字母順序排序,構造單詞-文檔矩陣,通過詞語找到文檔,完成倒排索引的創建。第四步,索引查詢。索引查詢的過程就是信息搜索的過程,用戶可以通過查詢接口實現關鍵詞、人物信息、時間信息、來源、排除關鍵詞等相關檢索操作[4]。

2.4 數據分析與可視化

數據分析與可視化模塊的主要功能包括內容分析、行為分析、用戶畫像及發現熱點話題等。其中內容分析主要采用卷積神經網絡算法對文本信息進行情感分類,其具有局部感知、權值共享的特點,可以大幅減少訓練參數的數目,提高計算效率。卷積神經網絡包括卷積層與池化層,其中若干卷積核組成了卷積層,可用于提取輸入的不同特征,池化層常用的有最大池化法和平均池化法,其主要作用是減少特征圖,將數據信息最顯著的特征提取出來。卷積層使用3種不同大小的卷積核提取文本不同粒度的特征,池化層對卷積層獲取的特征進行池化處理,降低特征維度,保證提取到的特征具有最強表達能力[5]。

行為分析主要是對用戶的轉發、點贊、評論、發布帖子的行為進行描述、統計、分析,將用戶的操作過程直觀地記錄下來,整理、統計用戶之間的關系,檢測其行為軌跡。用戶在訪問社交網絡平臺時,社交平臺啟用的地理定位功能可以獲取用戶的地理位置信息,根據用戶在平臺上的活動時間、地理位置信息,可以檢測到用戶的行為軌跡。當然,社交平臺都會為用戶提供是否暴露地理位置的選擇,有些用戶可能不愿意暴露自己的地理位置,因此檢測用戶行為軌跡時要先判斷其地理位置信息的內容,如果用戶的操作行為不包含地理位置信息,系統只會在時間軸上顯示帖子信息[6]。

用戶畫像主要對用戶信息進行標簽化處理,系統不僅會展示出用戶的頭像、昵稱、地點、簡介、個人網址等相關內容,而且會對用戶發布的信息內容進行整合,抽取其中的關鍵詞,用以確定用戶所關注的話題及表達的觀點。用戶畫像的實現包括以下5個步驟:第一步,搜索用戶信息。包括昵稱、簡介及所處位置。第二步,搜索用戶所發布的信息。如果帖子數量過多,系統會抽取1 000條相關信息進行分析。第三步,對用戶發布的信息進行合并、預處理。主要是去除噪聲信息。第四步,抽取關鍵詞。將所有預處理好的數據視為一個大文檔,計算其單詞TF值,獲取單詞的IDF值,根據單詞的TF-IDF值進行排序,數值較高的單詞即為抽取到的關鍵詞。第五步,展示用戶畫像。將用戶特征用相關信息及關鍵詞標簽化構建出用戶畫像展示在系統前端界面。

發現熱點話題的具體過程如下:第一步,對用戶發布的信息文本進行預處理。同樣是分詞、去除噪聲信息等。第二步,對文本信息進行向量化處理。其過程類似于關鍵詞抽取的過程,即計算單詞的TF-IDF值,將其作為單詞的詞向量連接起來,實現文本信息的向量化處理。第三步,文本聚類。采用K-Means聚類算法,先從文本信息數據中隨機選K個對象作為初始聚類中心,然后計算出數據對象到聚類中心的距離,再重新計算K個聚類中心作為新的聚類中心,重復上述操作,直至聚類中心不再變化。第四步,抽取關鍵詞。與用戶畫像功能中抽取關鍵詞的操作相同,即根據單詞的TF-IDF值進行排序,權重大的單詞即為關鍵詞。第五步,展示熱點話題。系統前端會通過繪制聚類圖展示信息數據,并展示熱點話題。

3 結束語

隨著社交網絡的普及與發展,社交網絡每天都會產生海量數據,這些數據與人們的日常生活息息相關,具有實用價值、經濟價值及社會價值,對這些數據進行分析具有重要意義。本研究提出的社交網絡數據分析系統實現了數據采集、數據預處理及融合、信息檢索、數據分析與可視化等功能。還有一些問題有待解決,例如用戶行為分析未針對用戶的行為進行深層分析,后續需要通過深度學習技術對這些數據進行挖掘。

猜你喜歡
單詞文本用戶
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 黄色网站不卡无码| 五月天久久婷婷| 视频国产精品丝袜第一页| 九色在线观看视频| 日韩精品毛片| 亚洲精品无码抽插日韩| 日本高清有码人妻| 经典三级久久| 性激烈欧美三级在线播放| 中国美女**毛片录像在线 | 亚洲第一成人在线| 国产在线观看精品| 2021最新国产精品网站| 中文字幕在线视频免费| 欧美激情伊人| 欧美亚洲国产一区| 大乳丰满人妻中文字幕日本| 伊人大杳蕉中文无码| 亚洲专区一区二区在线观看| 激情国产精品一区| 欧美三级日韩三级| 亚洲成人黄色网址| 亚洲综合久久一本伊一区| 亚洲高清在线播放| 久久成人18免费| 国产成人免费视频精品一区二区| 欧美一级黄色影院| 欧美成人看片一区二区三区| 欧美无专区| 99国产精品免费观看视频| 国产无人区一区二区三区| 中文字幕久久波多野结衣| 97人人做人人爽香蕉精品| www欧美在线观看| 又爽又大又黄a级毛片在线视频| 欧美色亚洲| 亚洲香蕉久久| 国产亚洲欧美在线专区| 无码aaa视频| 国产精品无码一区二区桃花视频| 亚洲天堂精品视频| 99草精品视频| 国产成人一区在线播放| 欧美国产日韩在线| A级毛片高清免费视频就| 伊人大杳蕉中文无码| 日本免费高清一区| 久久九九热视频| 99久久免费精品特色大片| 91精品视频播放| 成人国产小视频| 欧美a级在线| 奇米精品一区二区三区在线观看| 国产偷倩视频| 亚洲天堂福利视频| 国产福利免费视频| 中日韩一区二区三区中文免费视频 | 久久精品免费看一| 成人午夜网址| 欧美午夜视频在线| 亚洲最新网址| 一级毛片中文字幕| 午夜国产大片免费观看| 热久久这里是精品6免费观看| 91人人妻人人做人人爽男同| 亚洲系列无码专区偷窥无码| 视频一本大道香蕉久在线播放| 欧美视频免费一区二区三区| 亚洲精品视频免费看| 白浆免费视频国产精品视频| 日本一区二区不卡视频| 国产精品白浆无码流出在线看| 午夜无码一区二区三区| 在线欧美日韩国产| 就去色综合| 重口调教一区二区视频| 日本高清在线看免费观看| 色综合激情网| 欧美成人影院亚洲综合图| 中文字幕在线日本| 日韩无码白| 亚洲男人的天堂在线观看|