999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的高校網絡輿情分析系統設計與實現

2017-03-06 22:02:19陳藝卓
電子技術與軟件工程 2016年23期
關鍵詞:數據挖掘

摘 要

本文將數據挖掘技術引入輿情分析處理中,研究了網絡輿情從信息收集到傳播控制需要解決的重點問題,重點解決了分布式環境下海量數據的分析和處理難題,最終構建了基于數據挖掘的高校網絡輿情分析系統。

【關鍵詞】數據挖掘 高校網絡 輿情系統

1 概述

目前計算機網絡已經和學校的學習生活緊密的聯系在了一起,在給高校師生帶來便利的同時,也為高校的學生管理工作帶來諸多挑戰。目前在校的高校學生,年齡普遍不超過20歲,年紀小極容易受到網絡上不良信息的影響,比如國際國內的新聞、社會熱點、關乎切身利益的問題、失實或反動的輿論等等,這些信息會促使他們在網絡上展開討論,形成網絡輿論,如果不及時進行干預,就可能引起嚴重的群體事件。

為了解決高校的這種困境,本文設計了一個基于數據挖掘的網絡輿情分析系統,該系統采用分布并行方式采集數據,利用多線程、多任務分解處理海量數據,能夠有效的對網絡輿情進行預警和應對,一定程度上緩解了網絡輿情帶來的負面影響。

2 研究現狀和意義

網絡輿情監控平臺主要是針對海量數據進行網絡輿情分析。網絡輿情分析一直都是數據挖掘研究的重點,目的是通過對海量網絡數據進行挖掘,分析出隱藏在數據背后的輿情觀點,核心的技術重點包括數據采集、文本分類、文本聚類、主題跟蹤等。

文本分類這里重點關注的是中文的文本分類,隨著研究的不斷深入,中文文本分類領域提出了很多優秀的方法,如KNN算法、樸素Bayes算法、支持向量機(SVM)算法、決策樹算法等,其中中國科學院計算技術研究所在多年研究工作積累的基礎上,研制出了漢語詞法分析系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數據壓縮后不到3M,號稱當前世界上最好的中文文本分類工具。

文本聚類的目標是按照文本的相似度將文本進行聚合。文本聚類作為一種無監督的機器學習方法,不需要訓練過程,不需要預先對文檔進行標注,具有較高的靈活性和自動處理能力,成為組織文本信息、摘要的重要手段。文本聚類的算法非常多,有劃分法、層次法、基于密度的方法等,其中劃分法中的K-Means算法,在實現難度和計算速度方面都有不錯的表現,尤其適合挖掘大數據集。

主題跟蹤的目標是跟蹤用戶感興趣的主題,在海量的信息里,找到屬于該主題的內容。在主題跟蹤中訓練樣本數、訓練與分類的算法都是影響跟蹤質量的重要因素。和文本分類問題類似,經典的KNN算法、SVM算法、決策樹算法等都能夠發揮很好的作用。

目前,隨著核心技術的發展,網絡輿情監控也得到了長足的發展,國內外已經開發出很多用于實際場景的商業平臺,但由于高校輿情的特殊情況,使得這些成熟的商用系統并不能很好的在高校發揮作用。

3 基于數據挖掘的高校輿情分析系統設計與實現

為了驗證系統的設計,測試系統的性能和效率,本文搭建的原型系統為:5臺PC機組成分布式計算平臺,操作系統選擇Fedora,軟件平臺使用JDK1.6,云平臺使用Hadoop。

輿情數據的來源主要源于論壇、微博、空間、新網網站等,采用API與網頁抽取相結合的采集方法。采集到的數據并不能直接用于挖掘,這些數據是有噪聲的、不完整的,數據預處理的工作就是將原始的數據進行提取、分離、合并,將其轉換成適合進行數據挖掘的數據格式,保存到關系數據庫表或數據倉庫中。

數據分析部分是系統的核心,這部分采用MapReduce模型搭建。MapReduce是一種編程模型,用于大規模數據集的并行運算。網絡輿情規模巨大、維度超高,如何降維、去噪就是文本聚類算法首先要解決的重要問題,聚類算法一般常用的算法有K-Means、 Canopy、BIRCH等,在本系統中為了解決數據量巨大的問題,首先使用了Canopy算法進行粗聚類,由于Canopy只用計算重疊部分的數據向量,所以能夠大大的降低運算量,而且使用Canopy算法粗聚類后的聚類個數可以直接確定K-Means算法的K值,然后就可以使用K-Means算法進行進一步的聚類了,由于實現方便,而且K值已經比較準確,能夠達到較好的聚類效果。將Canopy-Kmeans算法在MapReduce中加以實現,Map算法負責生成輸出Canopy中心點集合,Reduce算法負責生成中心點和區域半徑,最終由K-Means算法迭代調用Map和Reduce函數,具體過程如圖1所示。

4 結束語

本文設計并實現了一個基于數據挖掘的高校網絡輿情分析系統,系統采用分布式文件系統存儲數據,結合云計算技術,保證了系統的執行效率和穩定性,通過話題發現和輿情分析跟蹤,及時監控和正確引導網絡輿情,對高校學生管理工作起到重要幫助。

參考文獻

[1]董堅峰.面向公共危機預警的網絡輿情分析研究[D].武漢:武漢大學,2013.

[2] 陳藝卓. Web日志挖掘中數據預處理的研究[J].信息與電腦:理論版,2011(02):94-94.

[3] 吳明友. 校園網絡輿情的應對策略分析[J].中國教育信息化,2008(24).

[4]李瓊,張菁,馬素偉.微時代高校網絡輿情應對路徑研究[J].青少年研究(山東省團校學報),2014(01).

[5]陳藝卓.基于數據挖掘的輿情觀點挖掘研究[J].電子技術與軟件工程,2015(14).

作者簡介

陳藝卓,男,副教授,現為海南軟件職業技術學院教師。主要研究方向為數據挖掘,云計算。

作者單位

海南軟件職業技術學院 海南省瓊海市 571400

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲精品卡2卡3卡4卡5卡区| 欧美日韩第二页| 亚洲乱码精品久久久久..| 99视频免费观看| 国产高清又黄又嫩的免费视频网站| 新SSS无码手机在线观看| 国产欧美日韩一区二区视频在线| 久久国产成人精品国产成人亚洲| 久久青草视频| 香蕉久久永久视频| 久久99国产综合精品1| 久草视频精品| 亚洲精品无码在线播放网站| 国产真实乱了在线播放| 无码网站免费观看| 中文字幕人妻av一区二区| 国产国产人免费视频成18| 欧美在线伊人| 亚洲国产成人麻豆精品| a毛片在线免费观看| 色婷婷国产精品视频| 2020国产免费久久精品99| 91精品综合| 无码内射在线| 中文字幕人成人乱码亚洲电影| 国产熟睡乱子伦视频网站| 欧美成在线视频| 三区在线视频| 国产无遮挡猛进猛出免费软件| 欧美午夜久久| 国产91九色在线播放| 制服无码网站| 国产微拍一区二区三区四区| 乱色熟女综合一区二区| 国产精品九九视频| 国产成年女人特黄特色毛片免 | 亚洲中文字幕国产av| 国产高清在线精品一区二区三区| 国产精品久久久久久久久kt| 2020久久国产综合精品swag| 国产永久免费视频m3u8| 试看120秒男女啪啪免费| 波多野结衣AV无码久久一区| 国产乱人激情H在线观看| 国产精品手机在线播放| 亚洲熟女偷拍| 97成人在线视频| 5388国产亚洲欧美在线观看| 无码丝袜人妻| 免费不卡视频| 在线永久免费观看的毛片| 欧美丝袜高跟鞋一区二区| 国产最新无码专区在线| 国产在线观看人成激情视频| 欧美一级在线看| 久热中文字幕在线| 国产农村1级毛片| 免费A级毛片无码无遮挡| 四虎国产精品永久一区| 午夜高清国产拍精品| 91人妻日韩人妻无码专区精品| 福利在线一区| 一区二区三区四区精品视频| 2021精品国产自在现线看| 亚洲欧美日韩成人在线| 毛片网站观看| 国产成人综合日韩精品无码首页 | 91精品国产综合久久香蕉922 | 99热国产这里只有精品9九 | 国产精品主播| 亚洲视频二| 欧美一区中文字幕| 18禁影院亚洲专区| 1769国产精品免费视频| 人禽伦免费交视频网页播放| 久久综合色视频| 精品日韩亚洲欧美高清a| 日本色综合网| 久久久久亚洲av成人网人人软件| 波多野结衣久久高清免费| 亚洲午夜久久久精品电影院| 国产成人综合日韩精品无码首页|