999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交網絡的輿情關鍵技術研究

2020-09-10 10:42:09宋麗娜
新教育論壇 2020年13期

宋麗娜

本文主要研究基于微信平臺的輿情監測分析技術,解決微信平臺公眾號文章數據獲取問題,并對網絡輿情進行情感分析。

1引言

微信作為新興的自媒體平臺,體現了鮮明的媒體屬性,已發展成為主流的輿論聚集平臺。然而,微信的信息傳遞更為私密、信息難以獲取等問題,使得目前國內針對微博輿情監測的研究已日漸成熟,微信方面卻鮮有問津。因此,本文將針對網絡輿情具有的特性進行分析,并基于微信平臺,進一步深入研究輿情監測分析系統的關鍵技術。

2設計系統總體架構

秉承著軟件工程中高內聚、低耦合的思想,系統采用模塊化設計,對信息采集、傾向性判斷等各功能進行設計,以方便后續對系統功能的添加及修改。系統總體框架如圖2-1所示。

在系統框架中,第一層為數據采集與存儲層,主要包含數據獲取、數據采集、數據存儲,應用Python爬蟲和Hook技術從微信服務器中獲取信息,存入MySQL數據庫中。采集任務來源于已在數據庫中設定的任務隊列,任務列表的初期構造通過人工手動建立,之后程序識別新任務對象,由抓取策略確定任務順序。第二層為分析層,主要包括自然語言處理、輿情分析等功能,中文文本可根據需要,對文本分詞、去停用詞及詞性標注等文本預處理過程進行選擇。目前輿情分析系統中,主要有文本傾向性分析、話題發現與跟蹤、突發事件檢索等多個方向,本文重點研究文本傾向性分析。第三層為展示層,形成可視化信息,提供決策依據,并為進一步系統研究提供數據分析支持。展示方式多元化,PDF文件可方便存儲,提供相關證據支撐,HTML網頁可讀性強,方便數據分析,可進行信息交互。

在數據獲取及存儲方面,本文通過Python爬蟲及Hook技術相結合的方式,實現微信平臺公眾號文章的自動獲取,并存儲于MySQL數據庫中。在輿情分析方面,本文重點研究機器學習方法,對各類特征選擇算法及分類算法進行分析和實驗后,選擇出適合微信平臺文本傾向性分析的分類模型。在此基礎上,通過研究Google提出的word2vec模型,將其與機器學習方法結合,進行中文文本傾向性分析,并與傳統分類模型作對比研究,通過對模型調優,使其在微信平臺文本傾向性分析中表現更優。在輿情分析結果方面,實現HTML網頁、PDF文件等多元化成果展示方式。

首先由數據采集模塊負責數據爬取,并將數據完整信息保存至數據存儲模塊中。然后當需要進行文本處理時,從數據存儲模塊中提取相關信息,進行文本預處理。根據不同功能應用選擇不同功能模塊,文本傾向性分析根據語料來源,評論類短文本由卡方統計算法進行特征選擇,微信文本由已訓練好的word2vec詞向量模型處理,經過機器學習分類算法給出結果。關鍵詞:檢索選擇word2vec訓練模型,給定事件輸入,輸出關鍵詞:,然后由HTML或PDF展示。

3詳細設計

3.1設計實現數據采集模塊

在數據采集模塊中,將主要研究微信數據的自動化獲取。本文數據采集需要做到以下四個目標:第一,微信在數據采集時,由于搜狗微信網頁的數據有限,且有反爬取設置,因此,需要利用移動端獲取數據。第二,手機實現自動化操作,提高爬取效率。第三,數據自動存儲到服務器數據庫中。第四,多設備協調工作,加快采集速度。

3.2設計數據存儲模塊

數據存儲模塊采用MySQL數據庫,是一種開放源代碼的關系型數據庫,使用結構化查詢語言(SQL)進行數據庫管理。關系型數據庫一般由一個或數個表格組成:表頭(header),每一列的名稱;列(row),具有相同數據類型的數據的集合;行(col),每一行用來描述某個對象的具體信息;值(value),行的具體信息,每個值必須與該列的數據類型相同;鍵(key),表中用來識別某個特定的對象的方法,鍵的值在當前列中具有唯一性。在數據存儲模塊中,主要包含以下兩個表:data_source表,存儲數據對象的主要特征信息,建立數據對象ID,存儲數據對象名稱、添加時間、監測狀態等信息。data_article表,存儲文章特征信息,建立文章ID,存儲文章標題、文章所屬數據對象ID、文章內容、文本傾向性標識等信息。

3.3文本傾向性分類模塊

網絡輿情傾向性分析主要是對網絡文章及評論進行類別判斷,掌握目前針對某論點的主流態度,判斷其是支持、反對,或是客觀陳述,屬于分類問題,研究機器學習在傳統文本分類中的應用是網絡輿情分析的重要環節。本文針對評論文本、微信文章數據的不同特點,研究相適應的特征選擇方法及分類算法,并對實驗結果進行對比和分析。

在分類模塊當中應用傾向性分類算法,標記數據庫中未標記的文本,具體見下圖3-1所示。

3.4輿情報告展示模塊

輿情報告展示主要包括網頁模式和PDF模式,并已實現從數據獲取到文本分析、網頁展示、PDF文件保存的自動化操作。網頁模式采用B/S結構,即瀏覽器和服務器結構,用戶工作界面是通過WWW瀏覽器來實現。B/S主要分三層架構:表現層(UI)、業務邏輯層(BLL)、數據訪問層(DAL)。

4總結及展望

本文基于社交網絡的輿情監測分析需求,設計系統總體架構,解決微信平臺文章數據獲取問題,并對網絡輿情進行情感分析,提出word2vec模型與機器學習相結合的微信數據輿情分析模型,能夠有效提高分類準確率、精確度、召回率。

網絡輿情監測分析對互聯網海量信息自動獲取、采集、存儲,對大數據信息進行挖掘,實現網絡輿情傾向性判斷、自動分類聚類、主題關鍵詞:聚焦等功能,最終形成簡報、圖表等分析結果,提供決策依據。

近年來,中文輿情監測分析系統快速發展,并取得了豐碩的研究成果,但微信數據資源較少的問題,使得微信平臺在輿情監測分析系統中一直比較空缺,在情感分析方面,由于開放的中文數據資源較少,情感標注質量較高的數據少之又少,無法形成統一的對比標準,造成大量成果結論無法復現。本文在數據處理方面,雖然已經采用交叉驗證的方法,但分類器訓練數據難免存在人為主觀判斷偏差問題,造成分類模型的性能降低。另外,在word2vec向量模型建立時,由于采用平均值作為向量,忽略了詞的順序問題,也會造成分類不準確,未來需要進一步研究和完善。

主站蜘蛛池模板: 97青青青国产在线播放| 天堂成人在线| 亚洲黄色成人| 无遮挡国产高潮视频免费观看| 久久人搡人人玩人妻精品一| 99re经典视频在线| 奇米影视狠狠精品7777| 狠狠综合久久久久综| 一级一级特黄女人精品毛片| 欧美伦理一区| 国产微拍一区二区三区四区| 欧美啪啪网| 国产精品综合久久久 | 久久久久久尹人网香蕉| 国产资源站| 免费一极毛片| 欧美日韩综合网| 亚洲精品第一在线观看视频| 国产乱码精品一区二区三区中文| 久久国产热| 亚洲精品图区| 欧类av怡春院| 婷婷丁香在线观看| 99精品热视频这里只有精品7| 亚洲VA中文字幕| 国内熟女少妇一线天| 久久无码av一区二区三区| 黄色网站在线观看无码| 色综合婷婷| 久精品色妇丰满人妻| 国产99久久亚洲综合精品西瓜tv| 国产精品网址在线观看你懂的| 岛国精品一区免费视频在线观看| 99热精品久久| 99热这里只有精品在线观看| 精品视频91| 午夜国产不卡在线观看视频| 亚洲综合婷婷激情| 成人一区专区在线观看| 女人毛片a级大学毛片免费| 欧美日韩北条麻妃一区二区| 亚洲高清在线天堂精品| 午夜限制老子影院888| 国产午夜看片| 91麻豆精品视频| 啊嗯不日本网站| 中国国产高清免费AV片| 国产无码精品在线| 97久久超碰极品视觉盛宴| 国产一区二区影院| 国产精品网拍在线| 国产91丝袜| 最新国产成人剧情在线播放| 日本精品视频一区二区| 国产91无码福利在线| 欧美区日韩区| 第一区免费在线观看| 一区二区三区四区精品视频| 欧美日韩国产成人高清视频| 成人国产精品网站在线看| 美女一级毛片无遮挡内谢| 日本a∨在线观看| 国产精品视频系列专区| 激情亚洲天堂| 国产 在线视频无码| 久久国产亚洲偷自| 亚洲日韩精品无码专区| 免费无码在线观看| 久久免费精品琪琪| 成人中文字幕在线| 视频二区亚洲精品| 99精品视频九九精品| 热伊人99re久久精品最新地| 2022精品国偷自产免费观看| 国产一级小视频| 露脸一二三区国语对白| 亚洲香蕉伊综合在人在线| 中文字幕在线日本| 欧美不卡视频一区发布| 欧美一区精品| 日韩精品无码一级毛片免费| 不卡午夜视频|