999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術(shù)的網(wǎng)絡(luò)輿情特征研究

2019-12-10 09:48:22駱明王含含盛博廖安靈
電腦知識(shí)與技術(shù) 2019年28期
關(guān)鍵詞:文本挖掘

駱明 王含含 盛博 廖安靈

摘要:隨著互聯(lián)網(wǎng)時(shí)代的到來,新媒體產(chǎn)業(yè)發(fā)展迅速,移動(dòng)互聯(lián)網(wǎng)成為網(wǎng)絡(luò)輿情傳播的主要媒介。而網(wǎng)絡(luò)通信的日漸發(fā)達(dá)也給網(wǎng)絡(luò)社會(huì)安全帶來了很大的隱患。該文擬通過對(duì)在線社交網(wǎng)絡(luò)中的輿情傳播問題進(jìn)行研究,并對(duì)傳播數(shù)據(jù)的進(jìn)行特征分析,揭示輿情傳播的內(nèi)在規(guī)律。該文首先利用Python網(wǎng)絡(luò)爬蟲技術(shù)對(duì)新浪微博“#溫州11歲男孩失聯(lián)5天# 家人重金50萬求線索”這一事件的轉(zhuǎn)發(fā)數(shù)據(jù)和評(píng)論數(shù)據(jù)進(jìn)行了爬取。然后,針對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,并利用情感得分算法算出每條評(píng)論的情感得分,繪制出情感得分隨時(shí)間變化的情感極性圖,從理論上論證了輿情被證實(shí)前后,用戶評(píng)論的情感極性逐漸由積極變?yōu)橄麡O。最后,針對(duì)轉(zhuǎn)發(fā)數(shù)據(jù)繪制了轉(zhuǎn)發(fā)時(shí)間的頻率分布直方圖,進(jìn)一步論證了輿情傳播的兩大特點(diǎn)——高效性和時(shí)效性。

關(guān)鍵詞:網(wǎng)絡(luò)輿情;網(wǎng)絡(luò)爬蟲技術(shù);文本挖掘;情感分析

中圖分類號(hào):TP393? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)28-0010-03

1 網(wǎng)絡(luò)輿情概述

1.1 輿情

輿情是社會(huì)個(gè)體民眾基于某個(gè)社會(huì)熱點(diǎn)問題,在特定的社會(huì)范圍內(nèi),對(duì)社會(huì)所持有的針對(duì)熱點(diǎn)事件的發(fā)生和發(fā)展所產(chǎn)生的對(duì)某個(gè)特定群體具有重要意義的觀點(diǎn)和看法,也是個(gè)體民眾對(duì)社會(huì)中某個(gè)熱點(diǎn)問題的態(tài)度。

1.2 移動(dòng)互聯(lián)網(wǎng)下的網(wǎng)絡(luò)輿情

近年來,新媒體時(shí)代的到來改變了網(wǎng)絡(luò)輿情信息傳播的主流方式,主要體現(xiàn)在移動(dòng)互聯(lián)網(wǎng)在信息傳播方面占據(jù)更重要的地位。當(dāng)前輿論傳播模式主要有兩種,傳統(tǒng)傳播媒體(如電視、報(bào)紙等)和新興傳播媒體(如互聯(lián)網(wǎng)和手機(jī))。傳統(tǒng)的輿情傳播模式是 20 世紀(jì)的主流傳播模式,隨著 web2.0 的到來,人們從公眾變成網(wǎng)民,在移動(dòng)互聯(lián)網(wǎng)平臺(tái)上瀏覽輿情信息、發(fā)表評(píng)論,使輿情得到了比傳統(tǒng)傳播媒體更快速的發(fā)展,成為輿情信息傳播的主要力量。

2 數(shù)據(jù)的獲取與處理

2.1 數(shù)據(jù)源的選擇

本文以移動(dòng)互聯(lián)網(wǎng)環(huán)境下新浪微博中的熱點(diǎn)話題“兒童拐賣”為例,進(jìn)行了樣本數(shù)據(jù)的采集及其信息傳播特點(diǎn)研究。

2.2 采用的技術(shù)手段

2.2.1 網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲就是模擬用戶對(duì)網(wǎng)頁進(jìn)行訪問,接受請(qǐng)求響應(yīng),然后根據(jù)需求設(shè)計(jì)相應(yīng)的提取規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序。

在設(shè)計(jì)爬蟲算法時(shí),首先需要對(duì)網(wǎng)頁的內(nèi)容進(jìn)行分析,分析出所需要提取信息的加載方式,然后針對(duì)不同的加載方式設(shè)計(jì)不同的爬蟲算法。

針對(duì)靜態(tài)加載方式,只需要對(duì)網(wǎng)頁的源碼進(jìn)行分析,找到所需信息的存儲(chǔ)位置,設(shè)計(jì)相應(yīng)的XPath提取規(guī)則,利用Selenium模塊進(jìn)行提取即可。

2.2.2? 特征詞詞頻分析技術(shù)

目前做詞頻分析的方法有多種,主要思想都是先將非結(jié)構(gòu)化的文本內(nèi)容進(jìn)行分詞處理,然后構(gòu)建詞袋模型,進(jìn)行詞頻統(tǒng)計(jì)分析。本文首先通過Python中的jieba分詞對(duì)文本評(píng)論進(jìn)行分詞處理,隨后調(diào)用CountVectorizer函數(shù)將文本評(píng)論向量化,并根據(jù)特征詞構(gòu)建詞袋模型,統(tǒng)計(jì)特征詞詞頻進(jìn)行詞云圖分析。

2.2.3 文本情感分析技術(shù)

文本情感分析的根本是識(shí)別文檔中重要的文本特征,如詞性和詞頻率、情緒詞、詞語強(qiáng)度以及否定詞等。本文采用基于樸素貝葉斯模型的SnowNLP情感得分算法對(duì)文本評(píng)論進(jìn)行情感分析。

2.3 數(shù)據(jù)說明

在此本文利用Python網(wǎng)絡(luò)爬蟲技術(shù)對(duì)新浪微博“#溫州11歲男孩失聯(lián)5天# 家人重金50萬求線索”的評(píng)論數(shù)據(jù)和轉(zhuǎn)發(fā)數(shù)據(jù)進(jìn)行了爬取,選取的爬取字段如表1和表2所示。

3 評(píng)論數(shù)據(jù)的分析

3.1 評(píng)論數(shù)據(jù)的預(yù)處理

3.1.1 原始數(shù)據(jù)處理

由于評(píng)論數(shù)據(jù)中存在大量的空白評(píng)論、表情評(píng)論以及重復(fù)評(píng)論等雜數(shù)據(jù),為了有利于后文對(duì)文本數(shù)據(jù)的處理,本文首先對(duì)評(píng)論數(shù)據(jù)進(jìn)行了清洗,去除空白評(píng)論、表情評(píng)論等雜數(shù)據(jù),得到了9316條有效評(píng)論數(shù)據(jù)。

然后統(tǒng)計(jì)出每個(gè)分詞出現(xiàn)的頻數(shù)即為該詞的詞頻。針對(duì)特征詞詞頻的分析,本文采用比較直觀的詞云圖分析法(詞頻越高,該詞在詞云圖中的字體越大)進(jìn)行研究。

本文以時(shí)間作為分析維度,對(duì)證實(shí)為輿論前后的數(shù)據(jù)分別進(jìn)行特征詞詞頻分析,并將結(jié)果保存為Excel文件格式。然后,利用Python中的wordcloud模塊繪制詞云圖如圖2和圖3所示。

從詞云圖來看,證實(shí)為輿論前,“希望”“孩子”“平安”等詞出現(xiàn)的頻率較高,表明人們對(duì)孩子安全的關(guān)注,希望孩子平安無事。而證實(shí)為輿論后,詞云圖中出現(xiàn)了“造謠”“傳謠”“家里人”等詞,表明了人們對(duì)利用這種事件來制造輿論的做法的普遍不滿。

3.2 情感分析

主觀性的評(píng)論文本包含著一些情感色彩,情感是一種態(tài)度、思想,是一種感覺引發(fā)的判斷。

情感分析也被稱為意見挖掘,用來研究人們對(duì)某些實(shí)體的情緒。情感分析相比于傳統(tǒng)的市場(chǎng)研究方法,例如調(diào)查或民意調(diào)查,具有在成本和時(shí)間上的優(yōu)勢(shì),它是通過非侵入性的方法來提取用戶的意見和情緒的。本文基于樸素貝葉斯模型,運(yùn)用SnowNLP進(jìn)行評(píng)論的情感分析。

3.2.1 基于文本的樸素貝葉斯算法

樸素貝葉斯算法適用于獨(dú)立的特征屬性之間,它的基本思想是通過特征屬性對(duì)樣本進(jìn)行分類,包括待分類項(xiàng)、分類器、類別這三要素,其中分類器的質(zhì)量和分類器的構(gòu)造方法、樣本特性和樣本數(shù)量有關(guān)。

基于文本的樸素貝葉斯算法描述過程為:

3.2.2 數(shù)據(jù)集的構(gòu)造

在所有數(shù)據(jù)中隨機(jī)抽取出出了1000條數(shù)據(jù)進(jìn)行人工標(biāo)注,一共得到了710條積極情感和248條消極情感評(píng)論,其余42條評(píng)論無法確定其情感傾向。(如表4所示)

3.2.3 模型的訓(xùn)練

得到標(biāo)注的數(shù)據(jù)后,將其中766條作為訓(xùn)練集,192條作為測(cè)試集,帶入模型進(jìn)行訓(xùn)練,并利用測(cè)試集測(cè)試模型進(jìn)度為83.33%。

情感得分示例如圖4和圖5所示,評(píng)論“假的。虛假報(bào)警。央視新聞剛講”,很明顯這是一個(gè)消極評(píng)論,利用模型計(jì)算其情感得分為0.046852330033,與實(shí)際相符。評(píng)論“希望孩子平平安安,趕快回家”為積極評(píng)論,利用模型計(jì)算其情感得分為0.919668529778,同樣與實(shí)際情況吻合。

3.2.4 輿情情感極性分析

利用模型計(jì)算得到每條評(píng)論的情感得分,并與時(shí)間繪制成情感極性變化圖(如圖6),圖中虛線部分表示該條輿論被證實(shí)的時(shí)刻。

4 轉(zhuǎn)發(fā)數(shù)據(jù)的分析

轉(zhuǎn)發(fā)行為,是微博用戶之間進(jìn)行信息傳播一種方法。本文通過研究用戶發(fā)生轉(zhuǎn)發(fā)行為的時(shí)間來研究移動(dòng)互聯(lián)網(wǎng)下的輿情傳播的特點(diǎn)。

從圖中可以看出,在該條輿論發(fā)布時(shí),較短時(shí)間內(nèi)發(fā)生了大量的轉(zhuǎn)發(fā)體現(xiàn)出了輿情傳播的高效性;并且一經(jīng)被證實(shí)后轉(zhuǎn)發(fā)數(shù)量驟減,體現(xiàn)出了輿情傳播的時(shí)效性。

5 總結(jié)與展望

5.1 總結(jié)

本文利用Python網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行數(shù)據(jù)的獲取,得到了兩種數(shù)據(jù),一種是微博的轉(zhuǎn)發(fā)數(shù)據(jù),另一種是微博的評(píng)論數(shù)據(jù)。并分別利用這兩種數(shù)據(jù)對(duì)移動(dòng)互聯(lián)網(wǎng)下的網(wǎng)絡(luò)輿情傳播的特點(diǎn)進(jìn)行了研究。

①評(píng)論數(shù)據(jù)

從文本挖掘、情感分析方面出發(fā),構(gòu)建情感得分算法,計(jì)算出每條評(píng)論的情感得分,研究情感極性隨時(shí)間的變化。研究發(fā)現(xiàn)在輿情被證實(shí)前后用戶評(píng)論的情感極性逐漸由積極變?yōu)橄麡O。

②轉(zhuǎn)發(fā)數(shù)據(jù)

繪制轉(zhuǎn)發(fā)時(shí)間的頻率分布直方圖。研究證實(shí)了,移動(dòng)互聯(lián)網(wǎng)下的網(wǎng)絡(luò)輿情傳播的特點(diǎn):高效性、時(shí)效性。

5.2 展望

①本文采用的是基于樸素貝葉斯模型的情感得分算法,得到的模型精度只有83.33%。后續(xù)研究可以考慮采用一些其他的深度學(xué)習(xí)模型來提高模型的預(yù)測(cè)精度,例如:卷積神經(jīng)網(wǎng)絡(luò)。

②本文雖然獲取了兩種數(shù)據(jù),但是主要利用的確是評(píng)論數(shù)據(jù),后續(xù)研究將利用轉(zhuǎn)發(fā)數(shù)據(jù)構(gòu)建微博信息傳播網(wǎng)絡(luò),深入的分析移動(dòng)互聯(lián)網(wǎng)下的網(wǎng)絡(luò)輿情傳播特點(diǎn)。

參考文獻(xiàn):

[1] 王永友,黃揚(yáng)琦.網(wǎng)絡(luò)輿情異質(zhì)種群對(duì)大學(xué)生價(jià)值觀形成的影響及消解機(jī)制[J].重慶郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2018,30(06):80-87.

[2] 邢云菲. 移動(dòng)環(huán)境下網(wǎng)絡(luò)輿情信息傳播特征及路徑研究[D].吉林大學(xué),2016.

[3] 崔樹娟,賓晟,孫更新,等.基于大數(shù)據(jù)分析的多關(guān)系社交網(wǎng)絡(luò)輿情傳播模型研究[J].中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,37(02):114-120.

[4] 張碩.基于復(fù)雜網(wǎng)絡(luò)的輿情信息傳播機(jī)制研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2018.

[5] 付璐.新浪微博傳播機(jī)制研究[J].科教導(dǎo)刊(中旬刊),2018(05):138-139.

[6] 張嵐嵐.新浪微博的網(wǎng)絡(luò)輿情分析研究[D].華東師范大學(xué),2011.

[7] 劉敏,王向前,李慧宗,等.基于文本挖掘的網(wǎng)絡(luò)商品評(píng)論情感分析[J].遼寧工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,38(05):330-335.

[8] 封麗.面向微博短文本的情感分析和特征抽取[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2018,30(09):56-60.

[9] 劉貴香,蔡永明,劉璐,英玉超.社交網(wǎng)絡(luò)信息傳播機(jī)制研究——以新浪微博為例[J].經(jīng)貿(mào)實(shí)踐,2018(06):69-70.

[10] 孫海燕.網(wǎng)絡(luò)輿情傳播模型研究[D].山東大學(xué),2014.

[11] 邢長征,李珊.文本情感分析的深度學(xué)習(xí)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(08):102-106.

[12] 王晰巍,張柳,李師萌,等.新媒體環(huán)境下社會(huì)公益網(wǎng)絡(luò)輿情傳播研究——以新浪微博“畫出生命線”話題為例[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(06):93-101.

[13] 吳信東,李毅,李磊.在線社交網(wǎng)絡(luò)影響力分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(04):735-752.

[14] 孔杏,林慶.主觀性文本情感分類研究綜述[J].信息技術(shù),2018,42(08):126-130+134.

【通聯(lián)編輯:代影】

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識(shí)
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評(píng)論要素挖掘
基于評(píng)論信息的淘寶服裝類評(píng)分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘
慧眼識(shí)璞玉,妙手煉渾金
主站蜘蛛池模板: 青青青国产视频手机| 亚洲欧美h| 夜精品a一区二区三区| 亚洲人成网18禁| 98超碰在线观看| 青草免费在线观看| 呦女精品网站| 日本91在线| 天天爽免费视频| 国产成人免费高清AⅤ| 欧美翘臀一区二区三区| 婷婷色丁香综合激情| 国产成人无码Av在线播放无广告| 国产精品青青| 色欲国产一区二区日韩欧美| 亚洲国产高清精品线久久| 99久久精品久久久久久婷婷| 国产精品亚欧美一区二区三区| 亚洲国产欧洲精品路线久久| 天天色天天操综合网| 2021国产精品自拍| 免费a在线观看播放| 日韩欧美成人高清在线观看| 中文字幕永久在线看| 无遮挡国产高潮视频免费观看| 亚洲欧美自拍中文| 亚洲精品无码高潮喷水A| 亚洲性网站| 精品国产中文一级毛片在线看| 久久青青草原亚洲av无码| 亚洲Av综合日韩精品久久久| 99久久国产综合精品2023| 日韩第九页| 日韩在线播放欧美字幕| AV片亚洲国产男人的天堂| 亚洲中久无码永久在线观看软件| 精品久久香蕉国产线看观看gif| 亚洲欧洲日韩综合| www.精品视频| 亚洲精品第一在线观看视频| 亚洲成人黄色在线观看| 亚洲精品波多野结衣| 国产一线在线| 国产微拍一区| 一本久道久综合久久鬼色| 日本午夜影院| 久久久久久久久亚洲精品| 久久99精品久久久久久不卡| av在线5g无码天天| 久久国产香蕉| 欧美一级高清视频在线播放| 中文无码日韩精品| 国产成人麻豆精品| 美女无遮挡免费视频网站| 久久久91人妻无码精品蜜桃HD| 国产成人亚洲毛片| 97在线观看视频免费| …亚洲 欧洲 另类 春色| 1769国产精品视频免费观看| 国产中文在线亚洲精品官网| 久久中文电影| 欧美69视频在线| 国产熟女一级毛片| 天天综合网色中文字幕| 亚洲一区二区三区国产精品| 蜜芽一区二区国产精品| 91视频区| 黄色福利在线| 黄色网页在线播放| 国产91成人| 国产国拍精品视频免费看| 97视频免费看| 精品视频一区在线观看| 日韩二区三区无| 白浆视频在线观看| 国产午夜看片| 久久婷婷五月综合色一区二区| 青青操国产| 免费va国产在线观看| 精品久久人人爽人人玩人人妻| 国产黑丝视频在线观看| 一级毛片不卡片免费观看|