999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義情感分析的網絡熱點爬蟲輿情分析系統

2020-10-09 11:01:23田煜
軟件 2020年8期

摘 ?要: 網絡熱點作為在互聯網上短期爆發、形成一定公眾關注和討論的社會事件,公眾情感分析是進行測度輿情話題的有效手段。本文以某網絡熱點事件為例,使用Scrapy框架收集微博評論數據并保存至本地,利用jieba中文分詞工具分別以TF-IDF和TextRank兩種算法對文本數據進行處理并且對實驗結果進行比較,利用SnowNLP類庫進行情感分析,借助NLPIR分詞系統進行依存句法分析與可視化,最后利用Wordcloud庫生成詞云以快速直觀的獲取主要信息,展現了熱點話題事件中公眾對于輿論的態度。本文為有效控制和應對網絡熱點事件、從不同維度處理分析事件和增強網絡熱點事件輿情管控等工作提供技術支撐。

關鍵詞: 網絡數據獲取;輿情分析;語義情感;網絡熱點

中圖分類號: TP391.1 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.08.026

本文著錄格式:田煜. 基于語義情感分析的網絡熱點爬蟲輿情分析系統[J]. 軟件,2020,41(08):89-93

【Abstract】: Network hot spots as a short-term burst on the Internet, become a public concern and discussion of the media. Public sentiment analysis is an effective method to measure public option topics. This paper takes an example to crawl weibo comments and save the data to the local collection thorough Pythons Scrapy crawler framework. Jieba Chinese word segmentation tools was used to process the text data with two algorithm, TF-IDF and TextRank, and the experimental results were compared. Then SnowNLP classlib was used for sentiment analysis, and NLPIR word segmentation system carried out dependency syntax analysis and visualization. Finally, wordcloud library was used to generate word clouds to get the main information quickly and directly, which shows the public's attitude towards public opinion in hot topic events. This paper provides technical support for effectively controlling and responding to network hot events, dealing with and analyzing events from different dimensions, and strengthening public opinion control of network hot events.

【Key words】: Network data acquisition; Public opinion analysis; Semantic emotion; Network hot spots

0 ?引言

中國互聯網絡信息中心(CNNIC)在2019年8月發布了第44次《中國互聯網絡發展狀況統計報告》,報告顯示,截止2019年6月,我國網民規模達8.54億,較2018年底提升1.6%,其中手機網民所占的比例為99.1%,達8.47億。微博是一種基于用戶關系信息分享、傳播以及獲取的通過關注機制分享簡短實時信息的廣播式的社交網絡平臺。據微博發布的2019年第四季度及未經審計的財務報告顯示,微博月活躍用戶達到5.16億。微博以其自身信息傳播的快捷性和信息量的海量性、互動的及時性和共享性等原因,日益成為網絡輿論發生群體極化現象的重要平臺[1]。大數據時代的來臨使得以微博為代表的自媒體取代傳統媒體成為輿論的重要產生地[2]。網民通過發表言論所體現出的態度,呈現出一定的情感傾向,網民的情感表達和動員能力成為推動輿情發展演變的重要力量[3]。

依靠移動互聯網組織起來的粉絲圈,不僅在演藝界存在影響,更是影響著整個社會文化環境,此種現象逐漸成為引發爭議的焦點。在明星的影響力方面,微博是輿情導向的主戰場。明星的言論會給粉絲以及其他普通網民群體的不同方面的影響,但粉絲群體行為極端化傾向明顯,容易給網絡環境造成消極影響。所以做好網絡熱點輿情分析至關重要。

本文主要分為數據采集與預處理、文本分類、情感分析與可視化、以某網絡熱點事件為例的輿情分析四個部分:第一節介紹了數據采集與預處理,利用基于Python的Scrapy框架實現網絡爬蟲爬取微博評論數據并保存至本地;第二節介紹了文本分類,采用TF-IDF方法和TextRank方法并且進行了結果的比較;第三節介紹了情感分析與可視化,利用SnowNLP庫和NLPIR工具分別進行情感分析和依存句法分析,利用基于Python語言的Wordcloud庫生成詞云;第四節將上述方法用在以某網絡熱點事件為例的網絡熱點輿情分析系統中。對于熱點事件的輿情預測預警、研判以及監管的系統自動化實現具有一定的參考價值,實現對微博輿情監管分析,為有效應對網絡熱點事件,從不同維度不同尺度分析處理事件,給網絡熱點輿情管控等工作提供技術支撐。本文所設計的輿情分析系統框架圖如圖1所示。

1 ?數據采集與預處理

1.1 ?數據采集

數據采集的主要工作是從網絡數據系統中采集數據。采集數據則主要是通過讀取器實現。讀取器通過封裝實現與互聯網數據系統簡捷便宜的連接,然后負責讀取外部數據源并將外部數據轉化成通用格式的數據[4]。

對新浪微博網站爬取的過程可以考慮兩種方式:采用微博開放平臺API接口獲取數據或者使用編寫的爬蟲進行數據的爬取。由于微博開放平臺API對于數據有訪問次數的限制,所以制定合適的爬取策略十分重要。本文采用Scrapy開源框架進行數據獲取。

Scrapy框架是一個基于Twsited的異步處理框架,是通過Python實現的爬蟲框架,架構清晰,模塊之間的耦合程度相對較低,而且可擴展性也比較強,能夠給靈活完成各種需求[5]。Scrapy的組成框架如圖2所示。

爬蟲Spider的工作流程:首先解析第一個URL,獲取它的請求,在其返回時檢索回調函數;之后再回調函數中,對解析網頁進行響應,返回項目對象和請求對象的迭代,請求中還將包含一個回調信息,由Scrapy下載;然后對其進行回調處理,在回調函數中,對網站內容進行解析,使用Xpath選擇器生成解析后的數據項;最后,從爬蟲返回的信息通常都進入到項目管道中[6]。

在對于微博網站爬取過程中,會出現驗證身份的信息。常用的方法主要有:提交表單、帶著Cookie進行請求,通過直接獲得Ajax動態加載的數據接口進行數據提取,以及遠程文檔保存等[7]。本文所需數據量為一個月內,相較于超大數據挖掘,對于用戶登錄的需求并不明顯,所以采用的是帶Cookie的請求。

1.2 ?數據預處理

數據的預處理主要是對原始數據的清洗、抽取元數據,對于網絡的文本信息預處理主要是文本的分詞、去停用詞(主要是一些標點、單字和一些沒有具體意義的詞,如:的、了等重復出現的詞)、文本特征向量提取、詞頻統計、文本的模型化表示等操作[8]。不同的預處理方法會導致不同的分類性能[9]。數據預處理的主要目的在于:識別以及去除嚴重影響分析的言論以及對于輿情發展無用的言論,確保數據分析的效率和準確性。由于某些主流媒體導向性言論可能會對評論造成一定影響,對輿論本身正面和負面的明顯態度對立嚴重,且時間間隔短導致的評論爬取數量少,為避免出現較大的判斷誤差另外,還需要取出無意義的詞語比如語氣助詞,這樣可以在避免出現較大誤差的同時減少一部分運算量。

在網絡熱點事件分析中,數據預處理最主要的步驟是數據清洗。首先查找缺失值,在獲取到第一份原始數據時,需要檢查數據的完整性。對數據缺失值的查找和計算相應的比例利用Python實現。對于缺失值的處理有兩種方式:直接將缺失值所在的行或者列刪除;用其他數據的平均值,眾數,或者上下值來填充這個數據表格中的缺失值。可以利用基于Python語言的Pandas工具進行數據清洗。Pandas是Python的一個數據分析包,提供強大的類庫,通過清洗數據最后得到清晰明了的數據。Pandas有三種數據結構形式,分別是Series、DataFrame和索引對象,其中DataFrame是最常見的Pandas對象,它是一種表格型數據結構,類似于Excel,每一個值都有一個行索引和一個列索引,不同列的數據類型可以不一樣。將爬取的網絡熱點事件評論數據Excel或者csv表格導入并轉換為DataFrame對象,進行相關的操作,比如處理缺失數據、刪除不完整行等。

2 ?文本分類

在文本分類階段采用TF-IDF算法。TF-IDF是Term Frequency- inverse Document Frequency的縮寫,它作為一種簡單有效的詞加權方法,在信息檢索和數據挖掘領域得到了廣泛的應用。若一個詞條頻繁出現于一個類的文檔內,那么表示此詞條可很好體現這個類的文本屬性,對于此類詞條,應賦予其較高權重,同時可將其當作此類文本的特征詞,用來和其他類文檔作鑒別[10]。

其中,d為阻尼系數,取值范圍為0到1,代表從圖中某一特定點指向其他任意點的概率,一般取值為0.85。使用TextRank算法計算圖中各點的得分時,需要給圖中的點指定任意的初值,并遞歸計算直到收斂,即圖中任意一點的誤差率小于給定的極限值時就可以達到收斂,一般該極限值取0.0001。

TF-IDF方法與TextRank方法各有優劣,體現在兩個方面:從依賴語料方面,TF-IDF的IDF值依賴于語料環境,這給他帶來了統計上的優勢,即它能夠預先知道一個詞的重要程度,這是它優于TextRank的地方,而TextRank算法認為每個詞的重要程度是一樣的。從詞語的互相關聯性,TF-IDF是純粹用詞頻的思想來計算一個詞的得分最終提取關鍵詞,而TextRank用到了詞之間的關聯性。分析網絡熱點事件需要將這兩種算法結合起來,詞頻是重要的一方面,同時詞之間的關聯性也是需要考慮的方面。

3 ?情感分析與可視化

文本情感分析(也稱意見挖掘)是指用自然語言處理、文本挖掘以及計算機語言學等方法來識別和提取原素材中的主觀信息。文本情感分析是自然語言處理領域的一個重要的研究課題,也是網絡監控領域的一個重要課題[12]。

從自然語言處理技術的角度來看,情感分析的任務是從評論的文本中提取出評論的實體,以及評論者對該實體所表達的情感傾向,情感分析在數據挖掘、web挖掘、文本挖掘和信息檢索方面有廣泛額研究。本文將對提取出的數據做出一分為二的極性分析:即“正向情感”和“反向情感”。

由于當前自然語言處理庫基本都是針對英文的,而中文沒有空格分割特征詞,Python做中文文本挖掘較難,后續開發了一些針對中文處理的庫,例如SnowNLP、jieba、BosonNLP等。SnowNLP是一個常用的Python文本分析庫,是受到TextBlob啟發而發明的。SnowNLP的基本模型是貝葉斯模型(Bayes),貝葉斯模型的訓練過程實質上是在統計每一個特征出現的頻次。

4 ?以某網絡熱點事件為例的輿情分析

4.1 ?數據采集流程

微博網站分為移動端和網頁版,主要爬取移動版,域名為https://m.weibo.cn/。考慮到遇到crontab定時爬取時,帶有一個cookie需要不定期更換,本文在采集時,先用requests庫請求請求登錄地址得到response對象后,調用cookie()方法得到的cookie請求url鏈接。

4.2 ?文本分類

jieba分詞工具是基于python的第三方中文分詞組件,用于自然語言處理,支持三種分詞模式:精確模式、全模式、搜索引擎模式。jieba庫中已經對TF-IDF進行了實現,并預先統計出了漢語中每個詞的逆文檔頻率。其分詞算法總體是:使用基于前綴詞典的詞圖掃描,生成所有可能生成詞所構成的有向無環圖,再采用動態規劃查找最大概率路徑,找到基于詞頻的最大切分組合;對于未登錄詞,采用基于漢字成詞能力的HMM模型(使用Viterbi算法)來預測分詞[13]。

用jieba庫進行詞頻統計,如圖3所示。

再分別用analyse.extract_tage(text)和analyse.tex-trank(text)方法提取出兩組不同的關鍵詞。本文列出兩種方法提取前20個關鍵詞的結果和結合結果,如下表所示。

TF-IDF注重詞頻,詞頻和IDF的乘積越大越關鍵,TextRank注重詞語之間的關聯,和別的詞關聯性越大的詞越重要。TextRank算法雖然考慮到了詞之間的關系,但是仍然傾向于將頻繁詞作為關鍵詞,由于涉及到構建詞圖及迭代計算,所以提取速度較慢。在網絡輿情分析的場景下,更加注重結果的時效性和運算的效率。因此,在網絡熱點輿情分析上,TF-IDF算法更切合輿論范圍。

4.3 ?情感分析與數據可視化

可視化圖表是輿情分析的最重要的手段,能夠將數據信息直觀的展示出來,對數據的深度挖掘和信息直觀感受起到至關重要的作用,將雜亂無章的數據進行可視化展示,能夠更直觀的反映數據間的關系,更好地了解數據間的比例關系及變化趨勢,對研究對象做出合理的推斷和預測[14]。

本文的情感分析利用基于Python語言的Snow-NLP類庫進行情感傾向分析,借助NLPIR大數據搜索與挖掘共享平臺進行依存句法分析,將分析結果以可視化圖的方式展現。NLPIR漢語分詞系統是由中科院張華平團隊開發,支持多種編碼、多種操作系統、多種開發語言的平臺,其主要功能包括中英文分詞、關鍵詞提取、新詞識別與自適應分詞、情感分析等[15]。

4.3.1 ?情感分析

相關資料顯示SnowNLP類庫在購物類的評論的準確率較高,所以在進行情感分析前替換其自帶語料庫為網絡熱點所在領域的相關語料庫。在網絡熱點輿論事件情感分析中,需要將數據訓練情感分析的模型。準備正負樣本,并分別保存,利用SnowNLP訓練新的模型,保存新模型。在其核心代碼中,classify函數和train函數是兩個核心的函數。其中,train函數用于訓練一個情感分類器,classify函數用于預測。這兩個函數同時使用到了handle函數,handle函數的主要工作為:對輸入文本分詞和去掉停用詞。在SnowNLP類庫中,詞性標注主要通過s.tags,計算情感分數為s.sentiments,s.summary()方法表示輸出一個關鍵句子。為了更加直觀的顯示情感分析結果,將數據輸入NLPIR平臺生成可視化圖如下圖所示。

NLPIR平臺進行情感分析的主要技術有兩點:情感詞的自動識別與權重自動計算,利用共現關系,采用Bootstrapping的策略,反復迭代,生成新的情感詞及權重;情感判別的深度神經網絡:基于深度神經網絡對情感詞進行擴展計算,綜合為最終的結果。從情感分析圖中可以得知,公眾的負面情緒占主要部分。

4.3.2 ?依存句法分析

NLPIR提出使用Yamada算法的結構化轉移依存句法分析模型,在Yamada算法的基礎上,加入全局的訓練以及預測,優化了特征集合。在該模型的精度(85.5%)接近于目前轉移依存句法最好結果(86.0%),并且在所有精度85%以上的依存句法模型中,達到了最快的分析速度。基于詞表的文本挖掘方法有較明顯的缺點,只基于詞表,相當于只應用詞本身的意思,而不考慮詞的多義性和其在句子中有上下文時的特定含義。這樣就會使得結果混入較多噪聲,準確率較低[16]。通過NLPIR對輸入文件的分析,其依存句法可視圖如圖5所示。

參考Stanford Corenlp工具的詞性分析表,在圖5中出現的縮寫符號和釋義見表2。

4.3.3 ?詞云圖

“詞云”顧名思義就是將網絡文本中詞頻最高的詞語通過突出的形式表現出來,是互聯網媒體時代出現的新型展示方式[15]。“詞云”就是對網絡文本中出現頻率較高的“關鍵詞”予以視覺上的突出,形成“關鍵詞云層”或“關鍵詞渲染”,從而過濾掉大量的文本信息,使讀者快速領略文本的主旨[17]。目前互聯網上已經有很多在線詞云工具,例如國外的WordArt、Wordle、WordItOut、Tagxedo、Tagul等。

本文利用Python中的wordcloud庫生生詞云。利用wordcloud制作詞云時,一般經過三個步驟:一是使用wordcloud.WordCloud函數設置詞云對象的有關屬性(或者參數);二是利用wordcloud.generate(text)函數或wordcloud.generate_from_frequencies (frequen-cies[,…])函數生成詞云,前者是根據文本生成詞云,后者是根據詞頻生成詞云;三是利用word?cloud. to_file(file_name)函數將詞云輸出到文件進行保存[18]。

5 ?總結與展望

網絡平臺擔負傳播和弘揚社會主義核心價值觀的使命,引導追星群體樹立正確的榜樣觀和追星觀。目前數據挖掘和數據分析的技術越來越成熟,本文以某網絡熱點事件為例進行基于語義情感分析的網絡熱點輿情分析。首先使用Scrapy框架收集微博評論數據,在設計過程中增加了關鍵詞匹配,令爬蟲更加精確地搜索相關內容并爬取至本地,利用jieba分詞功能分別以TF-IDF和TextRank兩種算法對數據進行處理并且進行比較,并且將兩種方法結合起來生成20個關鍵詞,情感分析方面利用SnowNLP進行情感分析,借助NLPIR工具進行依存句法分析,最后利用基于Word-cloud庫生成詞云以快速直觀的獲取主要信息。通過本文的網絡熱點輿情分析,完善網絡監督和舉報機制,明確上網規范,各大社交網站平臺落實好監督審核機制,調動廣大網民積極抵制不良行為,構建和諧社會。本文設計的網絡熱點輿情分析方法具有一定的參考價值,在今后的研究及實踐中,有助于為相關機構從數據中挖掘出更多有用的信息。

本文所設計的網絡熱點輿情分析系統涉及多方面的理論、方法和技術,本系統還有許多新的問題需要解決,需要在實際應用中不斷積累和完善。在以下幾個方面需要做進一步的研究和開發:擴大時間范圍數據并劃分為輿情發展的各個階段,觀察網絡熱點事件的階段性變化和大眾情感變化,實現更精確的提取關鍵詞和情感分析的方法;考慮數據文本中的中性詞語的不同情感傾向,使網絡熱點輿情分析的結果更完整和準確。

參考文獻

[1] 唐笑. 網絡輿論中群體極化現象的擴散及規制[D]. 山東師范大學, 2019.

[2] 張聰聰, 李思彤, 湯藝, 殷復蓮. 基于數據挖掘的國際涉華輿情分析關鍵技術研究[J]. 軟件, 2018, 39(12): 172-176.

[3] 郭子鈺. 微博輿情的情感分析與社會動員[D]. 云南師范大學, 2019.

[4] 陳硒. 面向大數據處理的劃分聚類新方法[J]. 數碼世界, 2017(1): 107.

[5] 吳霖. 分布式微信公眾平臺爬蟲系統的研究與應用[D]. 南華大學, 2015.

[6] 王海玲, 周志彬. 基于Scrapy框架的爬蟲設計[J/OL]. 軟件導刊: 1-5[2020-04-15]. http://kns.cnki.net/kcms/detail/42. 1671.TP.20200102.1625.034.html.

[7] 劉宇, 鄭成煥. 基于Scrapy的深層網絡爬蟲研究[J]. 軟件, 2017, 38(07): 111-114.

[8] 王書夢, 吳曉松. 大數據環境下基于MapReduce的網絡輿情熱點發現[J]. 軟件, 2015, 36(07): 108-113.

[9] Changming Zhu, Daqi Gao. Influence of Data Prepro?ces-sing[J]. Journal of Computing Science and Engineering, 2016, 10(2).

[10] Lynnette Purda, David Skillicorn. Accounting Variables, De?ce?ption, and a Bag of Words: Assessing the Tools of Fraud De?tection[J]. Contemporary Accounting Research, 2015, 32(3).

[11] 李志強, 潘蘇含, 戴娟, 胡佳佳. 一種改進的TextRank關鍵詞提取算法[J/OL]. 計算機技術與發展, 2020(03): 1-5 [2020- 03-29]. http://kns.cnki.net/kcms/detail/61.1450.TP.20191205. 1104.002.html.

[12] FengXu, XuefenZhang, 2, et al. Investigation on the Chinese Text Sentiment Analysis Based on Convolutional Neural Networks in Deep Learning. 2019, 58(3): 697-709.

[13] 嚴明, 鄭昌興. Python環境下的文本分詞與詞云制作[J]. 現代計算機(專業版), 2018(34): 86-89.

[14] 徐會軍, 盧靖煌. 基于大數據視角的微博輿情演化分析[J]. 電子技術與軟件工程, 2019(23): 183-185.

[15] 齊小英. 基于NLPIR的人工智能新聞事件的語義智能分析[J]. 信息與電腦(理論版), 2019, 31(20): 104-107.

[16] 任彬, 車萬翔, 劉挺. 基于依存句法分析的社會媒體文本挖掘方法——以飲食習慣特色分析為例[J]. 中文信息學報, 2014, 28(06): 208-215.

[17] 盛成成, 朱勇, 劉濤. 基于微博社交平臺的輿情分析[J]. 智能計算機與應用, 2019, 9(01): 57-59+64.

[18] 嚴明, 鄭昌興. Python環境下的文本分詞與詞云制作[J]. 現代計算機(專業版), 2018(34): 86-89.

主站蜘蛛池模板: 国产不卡在线看| 九九热视频在线免费观看| 久久国产精品影院| 好吊色妇女免费视频免费| 国产偷国产偷在线高清| 精品无码人妻一区二区| 亚洲乱码在线视频| 无码国产伊人| 欧美日韩久久综合| 中文字幕在线免费看| 白丝美女办公室高潮喷水视频| 亚洲欧美日韩成人在线| 午夜欧美在线| 久久这里只精品国产99热8| 午夜不卡视频| 国产精品久久久久久久伊一| 国产欧美高清| 国产麻豆福利av在线播放 | 精品人妻无码区在线视频| 一级高清毛片免费a级高清毛片| 中文字幕中文字字幕码一二区| 日本久久久久久免费网络| 国产成人精品18| 久久免费视频播放| 一级毛片网| 国产成人综合网在线观看| 在线播放91| 97人人模人人爽人人喊小说| 综合人妻久久一区二区精品| 久久久久无码精品| 免费xxxxx在线观看网站| 久久99国产精品成人欧美| 天天做天天爱夜夜爽毛片毛片| 亚洲有码在线播放| 青青青亚洲精品国产| 国产精品19p| 制服丝袜国产精品| 免费一极毛片| 日韩欧美国产综合| 波多野结衣中文字幕久久| 色天天综合久久久久综合片| 国产成人无码Av在线播放无广告| 久久久久亚洲AV成人人电影软件 | 亚洲AV电影不卡在线观看| 欧美亚洲另类在线观看| 日韩精品专区免费无码aⅴ| 午夜不卡视频| 天天操精品| 亚洲无码高清一区| 在线观看视频99| 免费毛片全部不收费的| 精品撒尿视频一区二区三区| 丁香亚洲综合五月天婷婷| 自偷自拍三级全三级视频| 日本欧美精品| 高潮毛片免费观看| 97国产在线视频| 白浆视频在线观看| 欧美一区二区福利视频| 亚洲国产天堂久久综合| 国产h视频在线观看视频| 成年人午夜免费视频| 国产区在线看| 青青草国产在线视频| 最新午夜男女福利片视频| 高清欧美性猛交XXXX黑人猛交 | 欧美成一级| 欧美天堂在线| 国产日本欧美在线观看| 亚洲区第一页| 久久a毛片| 人人艹人人爽| 亚洲欧美日韩动漫| 国产精品3p视频| 午夜精品一区二区蜜桃| 91啦中文字幕| 青青青草国产| 97影院午夜在线观看视频| 亚洲人精品亚洲人成在线| 国产精品视屏| 亚洲久悠悠色悠在线播放| 热久久综合这里只有精品电影|