999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下微博輿情文本關聯度分析與設計

2020-02-22 01:28:51程子文曾豪姜斌陳國俊王鶯
現代信息科技 2020年18期
關鍵詞:大數據

程子文 曾豪 姜斌 陳國俊 王鶯

摘? 要:為了深入分析大數據背景下微博輿情文本關聯度,探索和分析用戶微博發帖時話題及其情感態度,有效提高應對突發網絡事件的處理效率并顯著減少調查的時間。首先采用詞頻分析的方法實現對微博發帖用戶評論內容的整體認識;然后利用樸素貝葉斯算法對評論文本信息的特征結構、語義內容進行自動分析,進而通過云端情感詞典進行篩選遍歷比對計算權重;最后對帖子文本進行情感傾向分析,得到微博文本情感傾向的分析情況。

關鍵詞:大數據;微博輿情;情感分析;文本關聯度;Java

中圖分類號:TP391.1? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)18-0115-04

Abstract:In order to deeply analyze the relevance of microblog public opinion text under the background of big data,explore and analyze the topic and emotional attitude of users when posting on microblog,effectively improve the processing efficiency of dealing with network incidents and significantly reduce the investigation time. Firstly,the word frequency analysis method is used to realize the overall understanding of the users comments on microblog posts;then use the Naive Bayes algorithm to automatically analyze the feature structure and semantic content of the review text information,and then use the cloud sentiment dictionary to filter and traverse to calculate the weight. Finally,analyze the sentiment tendency of the post text to get the analysis of the sentiment tendency of the microblog text.

Keywords:big data;microblog public opinion;sentiment analysis;text relevance;Java

0? 引? 言

二十一世紀是大數據的時代,對大數據的理解在于對數據的發現以及理解信息與信息之間的關系。近年來,互聯網中社交媒體信息量迅速增長,人們以往參與社會事件的形式已經從走訪申訴向著網絡發表言論轉變[1]。面對快速增長的微博信息量,如何及時、全面、精準地分析微博輿論的熱點話題,如何利用好這些網絡事件文本數據,是微博輿情分析過程中所需要解決的首要問題[2]。

本課題來源于無錫太湖學院江蘇省物聯網重點實驗室相關科研項目延伸,課題獲批為江蘇省高等學校大學生創新創業訓練計劃一般項目。本團隊成員是主要是物聯網工程學院的學生,主持人及組員已經在前期較為系統的學習過Python編程技術和數據庫方面的課程知識。本文借助上述技術,對微博輿情分析的相關技術進行研究,結合微博的特點,設計微博輿情文本關聯度分析系統的解決方案,并最終加以實現。

1? 大數據背景下微博輿情情感分析算法需求分析

1.1? 理論需求分析

通過對網絡事件情感分析算法的設計內容、實現功能、操作難度以及配置情況進行研究。針對情感分析文本需求,開發出的整合算法加載模擬系統,該系統分為前臺與后臺。從前臺數據保存的數據庫中取值,通過分類算法以及遍歷計算權重,就可以得出對應的情感傾向分析結果。通過對關鍵詞搜索,可以對所有帖子情況進行遍歷,計算出文中相關聯的情感分析情況,得出分析結論。

1.2? 算法需求分析

情感分析需要對文本內容的各個單獨詞語進行拆分,隨后需要對拆分好的詞語進行情感詞典的匹配以獲取權重值,接著進入設定好的邏輯進行總體文本的情感計算,這樣可以計算得出情感傾向比例。如圖1所示,完成情感分析需要四個步驟:

(1)用算法將輸入的文本分割為一個個單獨的詞語;

(2)需要能夠逐個篩選情感詞語的情感詞典庫,并且對不同的情感詞語設定不同的權重值,這可以有效地提高分析結果的精準度;

(3)需要詳細的情感權重計算邏輯,對不同詞語做出不同情況的計算處理,通過對每個詞語的計算可以得出總體情感權重結果,能夠體現正面、負面以及中性情感;

(4)對關鍵詞的分析,需要對分割出的詞語進行分類,對經過處理的分類算法進行詞語分析,取出能夠代表文本的關鍵詞,最終輸出分析結果。

2? 微博輿情情感分析算法設計

2.1? 算法接入平臺模塊設計

微博輿情情感計算方法研究的算法是否有效需要部署到項目中才得到能驗證,所以需要建立模擬網絡平臺,其基礎功能有前臺用戶模擬發帖評論及跟帖操作、后臺系統模擬發布網絡事件。模擬的網絡平臺模塊如圖2所示。系統開發用到了AJAX,該技術可以將對應的數據內容傳入用戶管理以及等級管理,極大地提高了操作效率。

2.2? 算法總體設計

通過需求分析可知,算法需具備拆分文本、權重匹配、權重計算、關鍵詞分析等功能。所以本課題開發的整個算法,應由多種方法及算法組成。將這些算法整合到一起,可以完整的實現對網絡事件的情感計算分析,最終將算法加載至設計出的模擬平臺進行實現、測試與優化。

2.2.1? 拆分詞語算法設計

在對中文文本進行分析時較為有效的算法為MaxMatch文本匹配算法,該算法在大多數應用到中文詞語分割時都有不錯的表現,所以國內詞語分割技術大多采用該算法。計算結果得出的數組,就是該文本信息所拆分下來的詞語集合,將這些詞語進行權重計算,可以得出相應的情感傾向結果[3]。MaxMatch的方法原理流程如圖3所示。

2.2.2? 事件詞語情感權重設計

拆分后的詞語需要進行權重計算,可采用情感詞典分類方法進行情感分析。原理為:構建好數據情感詞典(本次開發采用百度AI情感詞典),通過發送請求可以將所拆分的詞語發送云端進行分析字符串匹配,同時對反饋過來的詞語進行權重分析,從而得出正面、負面及中性詞語信息。總體規則如圖4所示。

其中具體對情感詞典字符串匹配的規則邏輯如圖5所示,對所抽取的詞語進行分析后,計算權重信息,從而得出正面、負面以及中性詞語[4]。

通過導入情感詞典中的向量詞組,逐個遍歷對比匹配詞典庫中對應的詞語,且其中每個詞語所在情感詞典庫中匹配的權重值都有特定的值。檢測到詞語為否定詞、消極詞時,需要進一步檢測該詞語的前一詞語,當前一詞語為否定詞時,記+1,為程度副詞時,乘前一詞語的權重值,為其他詞語時,減去該權重值;檢測到詞語為積極詞語時,需要檢測出前后詞語,如果前一詞語為否定詞或前后詞語為消極詞,記為-1,如果前一詞語為程度副詞時,需要乘該詞的權重,如果該詞語為其他,則加上該權重;檢測到該詞語為否定詞語時,直接記-1處理。最終將權重值輸出,可以區分正面、負面以及中性情感。

2.2.3? 關鍵詞算法設計

計算出段落粒度的文本數據,本課題開發采取樸素貝葉斯分類器,由于其包含的算法眾多,這里選用貝葉斯方法。在對短文本數據分析時,用它可以得到較為精準的分析結果。

貝葉斯定理,樸素貝葉斯的核心算法如下:

P(A|B)時已知B發生后A的條件概率,反之P(B|A)相同原理,P(A)為A的先驗概率或者邊緣概率,同理P(B)亦如此。貝葉斯定理可以理解為:后驗概率=(相似度*先驗概率)/標準化常量。

在套用該算法后,將其應用至貝葉斯分類中,它對所處理的文本內容,可以作為一個數組進行處理,即設e={e1,e2,e3,……,en},將集合D定義為D={d1,d2,d3,……, dn},計算出P(d1|e),P(d2|e),……,P(dn|e)。分類出的結果即為拆分后的詞語信息。

2.2.4? 綜合檢索數據情感分析設計

本課題采用的MaxMatch分詞算法、情感詞典權重方法應用后,僅能實現對一組數據的文本情感分析,本課題擬突破的研究為:對檢索某一事件后引發的多記錄數據,綜合分析這些帖子的文本內容。應用以上算法后,加以改造設計出邏輯構造,如圖6所示。

對搜索出的多條數據進行判斷,將每條數據進行權重計算,同時需要計算出各文本數量比例,通過該比例乘情感權重分析結果,即可得出該記錄的情感分析比例[5]。將這些數據的結果加在一起,就可得出對這一檢索事件的綜合情感分析。

3? 大數據背景下微博輿情情感計算方法研究實現

3.1? 微博輿情情感分析文本數據存取

微博輿情情感文本分析需要將分析的文本數據存入本地數據表中,首先將發布的網絡事件文本內容存入t_new表中,將用戶評論文本信息存入t_comment表中。對某一事件的評論搜索可以進行模糊查找,查找出所有記錄,并將對應的記錄信息提取出來進行情感文本分析。

情感計算分析的實現先后順序分為:文本拆分詞語,詞語在情感詞典中的權重匹配,多詞語的權重邏輯計算,關鍵詞算法分析。該流程即先實現將網絡事件文本拆分為一個個單獨的詞語;其次將這些詞語傳入情感詞典中匹配獲取權重值信息;然后將整體文本分割的詞語進行權重邏輯計算,即可計算出情感傾向值;最后對關鍵詞進行分析,在詞語拆分后調用樸素貝葉斯算法計算出結果。

3.2? 網絡事件拆分詞語實現

使用MaxMatch文本匹配算法進行文本詞語的拆分,由于算法為基層算法,輸出的結果一般作為參數傳入其他方法中,所以在前端無須顯示[6]。算法執行出的結果以JSON形式輸出,所以需要將其內容轉換為HashMap格式,取出其中包含拆分詞語的“items”字段。同理繼續轉換為HashMap格式,繼續取出items中的“item”字段,拼接加入list數組中。

3.3? 情感詞典獲取權重實現

將拆分好的詞語進行情感詞典的數據匹配,每一個詞語在情感詞典中都可以對應上各自的權重值,將這些權重值結合起來傳入邏輯代碼中,即可計算出情感傾向。

3.4? 情感文本傾向分析實現

成功獲取詞語的權重值后,需要對總體文本的全部詞語進行邏輯運算,即權重值計算得出結果,利用上文已經得出結果的文本分割詞語方法以及權重值設定,進一步進行邏輯處理操作。對發布的網絡事件帖子可以進行情感傾向分析,計算出權重值比例,設定為積極情感占比以及消極情感占比,然后通過算法計算出分析后的精確率,如圖7所示。

4? 結? 論

微博是網絡輿情發生和傳播的重要場域,對微博進行輿情分析具有極為重要的意義。本文利用微博平臺中的輿情數據,通過相關算法進行文本關聯度研究,以情感詞典計算情感傾向分析,以情感詞典暫時處于主導地位為依據,將微博輿情的傳播控制在情感理論的框架中,實現社會和諧穩定。

參考文獻:

[1] 王曉晨,關碩,于文博,等.體育賽事網絡輿情的傳播特征研究——基于2019年女排世界杯的文本情感分析 [J].成都體育學院學報,2020,46(5):74-81.

[2] 陳炳豐.面向文本數據的情感計算研究 [D].廣州:廣東工業大學,2019.

[3] 謝澤澄.基于深度學習的文本識別與文檔切分的研究和應用 [D].廣州:華南理工大學,2019.

[4] 曾江峰.基于深度學習的文本情感計算研究 [D].武漢:華中科技大學,2019.

[5] 徐康.基于主題模型的文本情感和話題建模的研究 [D].南京:東南大學,2017.

[6] 任巨偉,楊亮,吳曉芳,等.基于情感常識的微博事件公眾情感趨勢預測 [J].中文信息學報,2017,31(2):169-178.

作者簡介:程子文(1998—),男,漢族,江西九江人,本科在讀,研究方向:物聯網工程;曾豪(1997—),男,漢族,河南鄧州人,本科在讀,研究方向:通信工程;姜斌(1997—),男,漢族,江蘇鹽城人,本科在讀,研究方向:計算機科學與技術;陳國俊(1978—),男,漢族,江蘇無錫人,副教授,計算機科學專業碩士,研究方向:人工智能、量子通信、物聯網技術;王鶯(1987—),女,漢族,江蘇金壇人,講師,軟件工程碩士,研究方向:大數據分析、算法設計、圖像處理。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 久久伊人色| 婷婷综合色| 色成人亚洲| 色偷偷一区二区三区| 99久久精品免费看国产免费软件| 久久精品人人做人人爽电影蜜月| 亚洲一区免费看| 国产欧美日韩另类| 久久男人视频| 99热最新网址| 国产乱人伦精品一区二区| 国产第一福利影院| 国产打屁股免费区网站| 亚洲综合专区| 国产精品亚洲日韩AⅤ在线观看| 免费观看精品视频999| www亚洲天堂| 久久久受www免费人成| 精品视频91| 久久黄色一级视频| 精品91视频| 超清无码一区二区三区| 无码丝袜人妻| 午夜限制老子影院888| 四虎成人在线视频| 精品久久久无码专区中文字幕| 亚洲国产成人综合精品2020 | 99re热精品视频中文字幕不卡| 国产久草视频| 亚洲AⅤ无码国产精品| 成人精品午夜福利在线播放| 国产激情第一页| 在线观看亚洲成人| 国产美女叼嘿视频免费看| 久久久噜噜噜久久中文字幕色伊伊 | 国产午夜一级毛片| 97se亚洲综合不卡| a级毛片免费播放| 欧美日韩导航| 久久一日本道色综合久久| 99久久精品无码专区免费| 久久福利网| 精品久久综合1区2区3区激情| 日韩中文无码av超清| 欧美色综合网站| 国产不卡在线看| 欧美黄色网站在线看| 亚洲综合极品香蕉久久网| 孕妇高潮太爽了在线观看免费| 欧美成人午夜视频| 91午夜福利在线观看| 乱色熟女综合一区二区| 丁香五月婷婷激情基地| 精品无码人妻一区二区| 欧美一区二区丝袜高跟鞋| 在线国产欧美| 国产精品视频白浆免费视频| 亚洲人成影视在线观看| 四虎国产在线观看| 91亚洲免费| 国产在线观看91精品亚瑟| 国产性生大片免费观看性欧美| 性欧美在线| 毛片视频网址| 男女精品视频| 青青草91视频| 亚洲色欲色欲www网| 国产女人在线| 四虎影视库国产精品一区| 精品福利视频导航| 999福利激情视频| 亚洲成综合人影院在院播放| AV片亚洲国产男人的天堂| 国产69精品久久久久孕妇大杂乱 | 日韩毛片免费观看| 99人体免费视频| 成年网址网站在线观看| 国产一区二区三区在线观看视频| 久久久久亚洲精品成人网| 国产综合欧美| 最新亚洲av女人的天堂| 999精品视频在线|