999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言的社交網絡數據信息挖掘

2021-09-18 02:57:48孫澤龍
電子測試 2021年16期
關鍵詞:數據挖掘文本用戶

孫澤龍

(西安職業(yè)技術學院,陜西西安,710077)

1 R 語言的特點

R 語言是數據分析并進行可視化展示實現的實用工具,數據科學的不斷發(fā)展,使得我們需要把數據映射成為方便查看的圖形、圖像或微視頻等,用戶對數據的交互更為方便,容易從中理解和讀取數據。R 語言擁有靈活性和多樣性的特點,使用它可以根據用戶的不同需求,通過R 語言工具本身提供的大量R 函數,可以完成相對應的圖形圖標繪制,依據函數的幫助信息,對于特殊圖形要求的還可以自己編寫程序,繪制符合個性化要求的圖形。

生活中全國春運客流數據,氣象云圖數據、用戶搜索生成搜索網絡數據,微博用戶相互關注和傳播的數據,電子商務購物網站等都可以稱得上是大數據產生的源頭聚集地,數據爆發(fā)式增長和社會化趨勢是大數據產生的本質原因。爆發(fā)式增長是現在實時數據、非結構化數據、機器數據產生的迅速是以前無法想象的。摩爾定律中全球每18 個月產生的數據量是之前有計算機歷史以來數據的總和,現在更新后需要的時間更短了。用戶的行為和關系產生大量的碎片化信息被互聯網所記錄。大數據體量之大使得現有數據庫技術無法承載,視頻、音頻等存儲遇到問題,實時生成數據之快傳統數據庫和網絡架構無法滿足,數據產生的價值密度低,需要挖掘展現其中的價值。

2 社交網絡的特點

互聯網上擁有用戶實時生成的海量數據,這些數據往往具有碎片化,當然也存在著N 度好友理論,說的是你的好友的好友依次往下不超過六個的好友可以覆蓋你所在區(qū)域或更廣的所有人,由于社交網絡工具的便捷,使得生成的這些數據記錄著上網用戶的情緒和智慧,這些龐大的群體用戶蘊含著社交網絡的價值。比如利用社交網絡挖掘價值,可以進行預測天氣的變化,通過各個地區(qū)很熱的人數來進行監(jiān)測,在微博網絡上選取一些關鍵詞種子描述很”熱”的詞需要關注的,在一定語境下的熱才指天氣熱,選取相應數據并進行文本集合算法的規(guī)則處理,當然關于’熱’的方言相關詞和綜合語境都要提取文本處理相關語境,根據語法結構判斷真正的天氣熱。經過這些處理后再統計出各個地區(qū)很熱的人數,然后得到”熱”的數據,加上日期后可以根據時間的推移看出不同地區(qū)天氣的變化情況。預測選用的方法會對結果產生影響。

社交網路也存在著問題和挑戰(zhàn),有時同一個句子不同語境所表達的意思會不一樣,這就涉及到機器對自然語言規(guī)則的處理,不同場景中情感分析中詞匯本題庫的積累,微博或論壇數據中涉及大都是稀疏文本或表情符號信息提取、垃圾信息地處理等面臨一定的問題,抽樣數據中不是所有的信息都有用,有用的數據是否抽取全面和抽樣方法的合理性都可能影響最后的處理結果。

3 數據信息挖掘

把從數據源文本中抽取出的特征詞,進一步量化的過程來進行表示文本信息。將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。文本挖掘是從大量文本數據中提取前所未知的、有用的、可理解的、可操作的知識的過程。文本挖掘包含了學術或技術報告、新聞、網頁、用戶手冊等都是文本挖掘的數據來源,文本挖掘的主要任務是包含對詞或短語的關鍵字提取;對詞條的關系建立對應文本的主要概念,進行概念提取;從多角度出發(fā)進行分析,實現可視化的顯示或導航;文本挖掘與數據挖掘有著緊密的聯系,主要區(qū)別如表1 所示。

表1 對比數據挖掘與文本挖掘

使計算機能夠通過對這種模型的計算和操作來實現對文本的識別。短語提取是提取文本集中所有相關的短語。概念提取是對這些短語之間的關系,建立一個該文本集中的主要概念。可視化顯示和導航是從多個視角出發(fā)進行分析。本文數據來源是一個班級群里,近一個月時間里群里消息文本資料,班級群里面應該有老師,學生,學生里面有學生的班干部等,通過對此數據進行挖掘分析,從下圖2 所示,來找出群內高頻詞匯,分析群里面近期關注的熱點信息等。

圖1 高頻詞挖掘圖

4 數據分析應用

聊天時間統計后發(fā)現,群里早上10 點前基本很少有人聊天,11 點后聊天數量逐步上升,一天時間段中晚上9-11點聊天是最為活躍的。從下圖2 所示時間分布圖中,可以看出群聊里在一天中聊天的活躍度分布情況。這樣就可以看出,如果需要討論或者通知相關事宜,就可以適當選擇合適的時間進行,比如早上方便通知消息或發(fā)布文件資料等信息,這樣重要信息就不會被吞沒,而討論適合在晚間進行。

圖2 聊天時間分布圖

5 結語

隨著大數據與云計算的發(fā)展,網絡上的信息內容和文本類型將變得日趨豐富。本文在對文本內容分析為研究目的和文本挖掘模型的基礎上對高頻詞、時間分布兩個參數為研究對象進行了分析。從高頻詞和時間分布的圖表中,我們可以判斷出來群信息最近談論的最熱的話題等。以上分析的數據只是建立在現有的數據之上的,統計數據只能統計出大概的事情發(fā)展趨勢,可能會有許多的誤差,所以還需進一步完善和優(yōu)化進而做出更準確的判斷。今后教學實踐將繼續(xù)以數據挖掘案例為載體,“新工科”建設為指導,設計更多基于有數據挖掘價值的應用案例,提升教育教學水平和激發(fā)學生學習興趣。

猜你喜歡
數據挖掘文本用戶
探討人工智能與數據挖掘發(fā)展趨勢
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
主站蜘蛛池模板: 国产真实乱人视频| 无码AV动漫| 伊人久热这里只有精品视频99| 在线国产资源| 欧美精品成人一区二区视频一| 尤物国产在线| 自拍亚洲欧美精品| 国产精品任我爽爆在线播放6080 | 一本综合久久| 孕妇高潮太爽了在线观看免费| 国产成人凹凸视频在线| 青青青国产视频| 40岁成熟女人牲交片免费| 午夜视频免费试看| 成人久久精品一区二区三区| 亚洲制服中文字幕一区二区| 日本中文字幕久久网站| 亚洲有无码中文网| 精品国产www| 午夜福利免费视频| 国产精品久久久久无码网站| 国产一区二区人大臿蕉香蕉| 国产黄色片在线看| 在线色综合| 伊人久久大线影院首页| 99久久国产自偷自偷免费一区| 丝袜无码一区二区三区| 婷婷六月激情综合一区| 亚洲第一区精品日韩在线播放| 国产av剧情无码精品色午夜| 欧美视频在线播放观看免费福利资源| 国产乱人免费视频| 天天摸夜夜操| 99热这里只有精品在线观看| 97成人在线视频| 天天综合色网| 国产又色又刺激高潮免费看| 香蕉综合在线视频91| 久久久久国产精品嫩草影院| 无码高清专区| 色综合激情网| 亚洲一区免费看| 国产精品成人第一区| 久久综合伊人77777| 国产凹凸视频在线观看 | 国产女人爽到高潮的免费视频| 久久超级碰| 精品三级在线| 伊人丁香五月天久久综合| 亚洲a级在线观看| 日本影院一区| 亚洲中久无码永久在线观看软件| 中文字幕在线一区二区在线| 国产夜色视频| 国产精品爆乳99久久| 欧美激情视频二区| 色综合狠狠操| 精品福利一区二区免费视频| 国产成人久久综合一区| 青青青伊人色综合久久| 国产精品久久久久无码网站| 亚洲欧美成人| 99精品热视频这里只有精品7| 国精品91人妻无码一区二区三区| 无遮挡一级毛片呦女视频| 自拍中文字幕| 9丨情侣偷在线精品国产| 黄色免费在线网址| 蜜桃视频一区二区三区| 精品人妻无码中字系列| 最新国产高清在线| 国产精品毛片一区| 亚洲av无码成人专区| 久久国产精品波多野结衣| 色国产视频| 2020精品极品国产色在线观看 | 国产福利微拍精品一区二区| 午夜少妇精品视频小电影| 国产精品天干天干在线观看| 99热国产这里只有精品无卡顿"| 欧美亚洲一二三区| 午夜精品影院|