999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的酒業輿情信息監測平臺

2020-06-02 03:36:12鄒佳成馬遠遠唐伯超劉振國
釀酒科技 2020年3期
關鍵詞:分類情感

鄒佳成,馬遠遠,劉 婷,唐伯超,劉振國,高 輝

(1.電子科技大學計算機科學與工程學院,四川成都 611731;2.成都數之聯科技有限公司,四川成都 610094;3.宜賓五糧液股份有限公司,四川宜賓 644000;4.中國酒業協會,北京 100831)

隨著移動互聯網用戶的大規模增長,互聯網已經成為人們生活的重要組成部分。如今社會,眾多熱點事件層出不窮,負面敏感信息可以在短時間內得到快速放大傳播,制造嚴重輿情危機,給相關人員的聲譽造成嚴重影響。相關部門和企業部門越來越關注公眾輿論熱點,面對洶涌的輿論,對大數據在線網絡輿情的挖掘、方法和預警等方面的研究具有重要的社會價值和理論意義。無論是電視、報刊、網絡、還是新媒體微博、論壇等,都在不斷發布和傳播各級政府的最新政策法規,全面監測這些媒體,可以及時獲得自己關心的相關政策動向。同時根據自己所在部門和行業所關注的社會熱點新聞,每天能夠從輿情監測中獲得所有的相關信息。

目前,輿情監控已引起政府部門和先進企業的重視[1],在大數據技術的支持下,相繼開發了屬于自己的輿情監測平臺[2]。如,新浪推出了自己輿情平臺“新浪輿情通”,可對某一網絡事件在互聯網上的整體傳播情況,收集全網數據進行分析,自動生成涵蓋事件簡介、事件走勢、網站統計、數據類型、關鍵詞云、熱門信息、熱點網民、傳播路徑、相關詞、網民觀點、輿情總結等11 個維度的全網事件分析報告。政府部門也在開發各領域下的大數據輿情平臺。同樣,對于酒業,輿情同樣影響著每一個品牌和企業。假酒事件常有出現,騙財害命也影響了品牌的形象。

酒業輿情較為龐雜,各業務部門、業務人員對于輿情的訴求各有所異,因此酒業輿情的處理不僅僅是對于酒業相關輿情的獲取,更需要將酒業輿情結合酒企的業務場景,為其提供高效的分主題輿情,使得各業務主體均可通過酒業輿情快速定位業務問題,為企業相關業務的開展提供充分的外部決策數據,給業務部門提供參考與指導。本次研究的酒業輿情信息涵蓋了從百度貼吧、搜狐、新浪微博、騰訊、鳳凰網、網易、知乎、同花順、微信、今日頭條、人民網、宜賓零距離、央視網、新浪、東方財富網多個渠道所獲取的關于五糧液、茅臺、古井貢、洋河、瀘州老窖、劍南春6 個相關酒企的新聞、博客和帖子。

針對此而基于大數據開發的酒業輿情信息監測平臺,能夠實時采集酒企及主要競爭對手在主流社交媒體上的酒業輿情信息,整理分類為“營銷生產”:與白酒生產、營銷、白酒價格升降相關的新聞、論壇帖子、公眾號文章等內容;“金融投資”:與白酒企業股票、基金、期貨、投資、并購等相關的財經類內容;“公司動態”:與白酒企業人事調動、公司高層動態、公司對外合作等相關的文章;“產品討論”:討論白酒產品口味、真假、售價高低、包裝、物流等相關的評論文章;“社會新聞”:與白酒品牌相關的貪污受賄、清掃造假窩點、行業宣傳活動等相關報道文章;“行業動態”:討論整個白酒行業的評論性文章,白酒行業數據解讀類文章以及文章評論,并分析相關網帖、事件,判斷新聞情感傾向,跟蹤事件發展趨勢、事件熱度并實時預警,從而幫助酒企全面了解自己及競爭對手在網絡媒體上的輿情動態,為制定品牌形象優化策略提供指引,提前把握緊急事件。

1 基于大數據的酒業輿情信息監測平臺架構

圖1 平臺框架圖

本平臺能夠對五糧液及其競爭品牌的電商銷售數據與輿情數據進行采集與分析,分別監控各酒類品牌的電商銷售、渠道營銷、用戶評價以及輿情口碑情況,幫助五糧液全面地了解線上市場、競爭對手、用戶偏好以及實時跟蹤輿論事件發展動態,從而在線上銷售策略的制定、產品的渠道投放和用戶口碑建設等方面,為五糧液提供基于大數據的支撐和指引。平臺共分為7個層次,框架如圖1所示。

數據接入層包含酒企電商銷售數據及輿情數據,采用基于Redis的增量式爬蟲,接入天貓、京東、酒仙網等各大電商平臺,以及微博、微信公眾號、東方財經、同花順等各大社交媒體和信息門戶,每小時定時爬取數據,并將其自動導入系統。數據標準化層檢查數據接入層獲取數據的完整性、有效性和規范性,并對其做元數據提取等預處理操作。數據存儲層利用分布式文件系統HDFS 和數據倉庫工具HIVE對各類數據實現高效存儲。資源調度層采用airflow,對各層內部、層與層之間,統一進行資源的管理與調度。計算框架層主要包含可視化分析、深度學習框架和大數據計算框架,為平臺提供算法支撐。數據計算層根據具體需求對預處理后的數據進行分類、聚類、情感分析等。應用服務層用于建立和維護用戶管理系統、輿情系統、綜合展示系統,真正實現可視化輿情信息并實時告警功能。

2 主要功能模塊介紹

平臺每小時自動爬取網絡數據,并利用數據預處理模塊對原始數據進行數據清洗和特征提取,得到處理好的待分類數據,每條數據稱為網帖。利用分類模塊對網帖數據進行分類,將網帖分為6 個類別。在每個類別內部,利用聚類模塊進行聚類,每個聚類結果稱為一個事件。最后利用聲量計算和情感分析模塊,根據熱度計算每個網帖的聲量,并對其進行情感分析,確定網帖的正負情感傾向;將每個事件下所有網帖聲量之和作為事件的聲量,統計事件下網帖正負情感傾向,得到事件的情感正負向占比。數據處理流程如圖2所示。

2.1 數據預處理

圖2 數據處理流程

網帖指輿情新聞話題,由屬性和文本兩部分組成,其中屬性包括時間、酒企標簽、轉發量、瀏覽量、聲量、情感正負向等,文本包括標題和正文文本。屬性用于計算聲量及平臺前臺按條件篩選展示網帖,文本數據用于網帖分類、聚類及情感分析。平臺直接從網絡中獲取的網絡數據分散、零亂、標準不統一,需要對其進行數據清洗和元數據提取。首先,以五糧液、瀘州老窖、洋河、茅臺、劍南春、古井貢為正則化規則,剔除原始數據庫中與六大白酒企業無關的網帖。另外,剔除微博數據中,標簽大于3或者以http開頭的網帖;剔除微博粉絲數少于200的微博用戶發布的網帖數據;剔除標題中出現“小說”“故事”短語的網帖數據。由于網絡數據中可能包含大量的CSS、HTML 等特殊字符,影響后續數據處理的準確性,所以再次利用正則匹配的方法,剔除網帖中的無關成分;對于沒有標題的數據,用文本的前十位進行填充。對清洗后的數據進行元數據提取,更新網帖屬性和文本對應字段。最后,將處理好的數據壓縮,并存入清洗結果數據庫中。

2.2 網帖分類

Bert 模型[3]是Google 公司于2018 年發布的一種新的語言編碼模型,它在ELMO[4]、Word2Vec[5]等模型的基礎上,采用雙向語言模型進行預訓練,使用Transformer[6]代替循環神經網絡或卷積神經網絡作為特征提取器。Bert 模型一經提出,就在11 個NLP 任務上刷新了記錄,它具有非常好的效果和很強的普適性,只需要預訓練和微調,就能將Bert 模型應用到不同的任務上。Bert-Base,Chinese 模型是Google 在原始Bert 模型基礎上預訓練的中文文本分類模型,在使用過程中,只需要再對其進行微調,就能得到非常好的結果。

經過對酒業輿情數據和輿情訴求數據的分析,得知酒企重點關注的業務領域如下:自身及競爭產品在營銷生產方面的動態與市場反應、行業企業的投資并購金融近況、企業內部運營變動情況、行業突發緊急輿情、行業評論文章與網民態度。因此,本平臺將酒業輿情進行主題輿情分類,并對分類結果進行聚類,以更好地為酒企提供輿情服務。根據以上需求,我們通過人工標注的方式,將10000 條網帖分為營銷生產、金融投資、公司動態、產品討論、社會新聞、行業觀察六個類別,用這些標注后的樣本對Bert-Base,Chinese模型進行微調,得到能夠滿足酒業輿情分類需求的分類模型。利用該模型,將所有輸入的未分類網帖分為對應類別,并自動更新網帖屬性中對應的類別字段。

由于模型以字為粒度對文本進行切分,不需要任何分詞、去停用詞和詞嵌入操作,將清洗后的文本截取前200 個字直接送入模型,就可以得到分類結果。

在與傳統的分類模型對比發現,平臺使用的模型分類準確率能夠提升7%。可見,我們選擇的模型,不僅能夠縮減分類步驟,減少分類所需時間,同時也能夠提高分類準確率。

2.3 網帖聚類

使用網帖分類模塊將網帖分為6 個類別后,每類別中包含的網帖可能與某一相同事件有關,將這樣具有相似性的網帖聚類成相同事件,有助于更加直觀的描述現實中的輿情事件。網帖包含我們將網帖文本字段分詞后得到文本詞語集合,利用doc2vec[7],將每條網帖數據分詞后的詞語集合嵌入到300 維的文檔向量。使用single-pass[8]計算兩個網帖向量的余弦相似度。

式中:A、B 表示A 網帖和B 網帖的文檔向量。將余弦相似度0.75 作為閾值,當cosθ大于0.75 時,將A、B 網帖聚為一個類別。事件包含的ID、聲量和正負向占比等字段。用不同ID 表示不同的事件,一個事件下的網帖有相同ID。對于已有事件,將事件中所有的網帖的文檔向量取均值作為該事件的聚類中心向量。對于每天新增的網帖,將計算其與已有事件的余弦相似度。當余弦相似度大于閾值時,網帖歸屬于余弦相似度最大的事件下,并更新當前事件的中心向量;當余弦相似度小于閾值時,生成新事件ID,將新增網帖歸為此事件,且該新事件的聚類中心為網帖的文檔向量。

2.4 聲量計算與情感分析

輿情平臺關注媒體熱度高、群眾關注度高的網帖,該類網帖是非常重要的輿情信息。本平臺中,用聲量來衡量網帖的熱度,作為輿情熱度指標,以聲量的變化來描述現實生活中輿情熱度的變化,并為平臺提供輿情監控和告警設置提供衡量標準。聲量(volume)定義如下:

式中:bi指評論數、點擊數、喜愛數、收藏數、轉發數5 個網帖的相關信息,wi指bi對應的權值,分別為0.3、0.2、0.2、0.1、0.2。

通過聲量公式直接計算網帖的聲量,用事件中所有網帖的聲量之和作為事件的聲量。每次更新數據時,同時計算網帖的聲量增量和事件的聲量增量,并更新網帖和事件相應字段,以便于畫出輿情的聲量走勢圖。對于連續7 天內,網帖數量增量或網帖聲量增量為0 的事件,將其設置為停止事件,不再對其進行關注。

此外,了解網帖的正負情感傾向,有助于了解其是正向輿情還是負向輿情,掌控輿情發展狀況。故平臺實現了對網帖的情感分析,并對事件中網帖的情感傾向進行統計,得到事件的正負情感傾向占比。我們將原始網帖數據分詞并去停用詞后,基于正負情感詞詞庫,匹配網帖詞語集合中的所有詞語。網帖初始情感值設為0,匹配到正向詞語時情感值做+1 操作,匹配到負向詞語時情感值做-1 操作。匹配完所有網帖詞語后,得到最終的網帖情感值,對其進行sigmoid 平滑處理。當處理的平滑值大于0 時,網帖情感傾向為正向,否則為負向。情感傾向示意圖如圖3所示。

圖3 情感分析流程圖

事件不區分具體情感傾向,對事件中所有網帖情感傾向做統計,得到事件的正負情感傾向比例,用該比例描述事件的性質。當正向網帖占比較大時,認為該事件屬于正向事件;當負向網帖占比較大時,認為該事件屬于負向事件。

3 平臺展示

平臺能夠實時采集酒企及主要競爭對手在主流社交媒體上的輿情信息,分析識別相關網帖、事件,判斷新聞情感傾向,跟蹤事件發展趨勢、事件熱度并實時預警并根據其整理出輿情統觀信息。

輿情統觀功能利用每日在“騰訊”“搜狐”“網易”等新聞門戶網站,“百度貼吧”“今日頭條”“知乎”等論壇,“同花順”“東方財富”等財經類網站,新浪微博等社交網站渠道收集的中國酒業輿情網帖信息(圖4),利用Bert 分類與情感傾向詞匯統計分析并動態展現每日網帖聲量走勢,橫向對比各渠道網帖數量及正負向情緒占比。

該功能直觀的展現了酒類品牌網帖的實時聲量走勢,討論熱度,情緒正負向占比及熱議關鍵詞。為酒企輿情監測,突發事件公關提供詳細數據指導。

平臺每日監控新聞類、論壇類、微博類等社交平臺及媒體渠道,實時采集“五糧液”“茅臺”“瀘州老窖”等中國酒業代表品牌相關的輿情網帖,統計各個網帖產生的輿情聲量。聲量大小體現了網帖的輿情熱度,圖5 展示了2019 年6 月聲量靠前的部分網帖,可見“張藝興,迪麗熱巴在五糧液生產間”網帖聲量大幅高于其余網帖,也體現了明星相關網帖熱度往往高于一般網帖,對企業的推廣有著積極的效果。

同時,對各個渠道所獲取的網帖,平臺會分析網帖的情感正負向,統計網帖在一天、一周、一月的時間內的數量并根據渠道來源展示其網帖的情感正負類,展示結果見圖6。

圖4 中國酒業輿情網帖聲量走勢及渠道分布

圖5 當月中國酒業輿情事件及事件聲量

圖6 中國酒業輿情渠道及正負向網帖數量占比

對于事件與網帖,平臺會利用每日的新聞數據統計與分類跟蹤其聲量走勢,以便酒企直觀的查看其對輿情造成的影響。也可查看具體網帖及其聲量走勢。圖7 展示了根據網帖聚類后所形成的事件“一噸新酒加一勺老酒就是陳釀,企業受到起訴”的前5 網帖及其事件輿情聲量近一個月的走勢。可見該事件一出現便引起了社會的廣泛關注,然后在一月時間內討論熱度持續下降,但仍有一定的關注度。

告警系統如圖8 所示,可設置事件熱度閾值和通知方式及人員,閾值以每天的網帖數量,每天的聲量,每天微博大v 的博客數量來設定。對于熱度超過設定值的事件,平臺會向指定的相關人員以短信或郵件的方式發起告警,以及時做出處理緊急事件。

4 討論與總結

該平臺運行近一年來,在處理重大輿情事件的過程中,充分體現了快捷、高效、準確的優勢。面對突發事件,輿情平臺可以幫助酒企及時的獲得消息,及時地做出處理,以免事件發酵,造成更大的輿論影響,網絡輿情監控對于了解社情民意,緩解輿論壓力具有重要作用和意義;同時,在輔助決策方面,平臺提供了完整的統計信息,為酒企制定未來規劃提供了參考。

圖7 網帖詳情與其單月內聲量走勢

圖8 事件告警系統

在平臺的進一步優化方面,可以通過深化和豐富互聯網輿情基礎理論,不斷修正模型;通過理論和實踐的相互促進,提升互聯網輿情監測分析基礎模型的科學性,優化完善互聯網輿情監測分析系統。另一方面,在對大量網絡輿情事件開展測試應用,可以利用隨機森林進行分析,使平臺能夠自動確定或推薦事件聲量的合理告警閾值,加強平臺的自動化性能。

猜你喜歡
分類情感
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
如何在情感中自我成長,保持獨立
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 欧美A级V片在线观看| 欧美三级视频网站| 国产福利小视频高清在线观看| 青草91视频免费观看| 黄色网址手机国内免费在线观看| 无套av在线| 亚洲av日韩av制服丝袜| 国产在线观看91精品亚瑟| 在线观看免费国产| 无码中字出轨中文人妻中文中| 日日噜噜夜夜狠狠视频| 99久久无色码中文字幕| 26uuu国产精品视频| 无码又爽又刺激的高潮视频| 香蕉蕉亚亚洲aav综合| 婷婷激情亚洲| 欧亚日韩Av| 欧美自慰一级看片免费| 最新日本中文字幕| 国内丰满少妇猛烈精品播| 99精品影院| 国产欧美日韩专区发布| 人妻精品久久久无码区色视| 精品福利网| AV在线麻免费观看网站| 国产区在线看| 欧美在线导航| 亚洲另类色| 国内精品久久九九国产精品| 日韩av电影一区二区三区四区 | 中国丰满人妻无码束缚啪啪| 国产高清免费午夜在线视频| 日韩高清中文字幕| 亚洲免费三区| 中文字幕色站| 91人妻日韩人妻无码专区精品| 91伊人国产| 久久综合伊人 六十路| 国产欧美视频在线| 亚洲一区二区约美女探花| 日韩高清一区 | 欧美三级不卡在线观看视频| 日韩黄色大片免费看| 国产精品极品美女自在线网站| 国产黄色爱视频| 日韩欧美国产中文| 亚洲日本中文字幕乱码中文 | 嫩草影院在线观看精品视频| 99热这里只有精品在线播放| 国产欧美日韩在线一区| 最新亚洲人成网站在线观看| 亚洲欧美在线综合一区二区三区| 91精品视频网站| 波多野结衣无码中文字幕在线观看一区二区| 中国一级特黄视频| 99国产精品国产高清一区二区| 日a本亚洲中文在线观看| 91小视频在线| 一级毛片在线播放| 午夜国产精品视频黄| 国产精选自拍| 亚洲一级毛片免费看| 久久精品国产亚洲AV忘忧草18| 国产在线一区二区视频| 国产在线视频欧美亚综合| 福利小视频在线播放| 伊人久久大线影院首页| 在线观看免费国产| 亚洲无码91视频| 久久精品丝袜| 欧美日韩资源| 亚洲人成成无码网WWW| 女人18一级毛片免费观看| 无码精品福利一区二区三区| 超清人妻系列无码专区| 日韩无码精品人妻| 香蕉伊思人视频| 国产精品视频久| 亚洲最大综合网| 精品国产一区二区三区在线观看| 欧美日在线观看| 在线a网站|