999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向輿情監(jiān)控的智能化自然語言處理算法設計

2023-11-10 05:42:40羅濤謝鳳祥李光華
電子設計工程 2023年21期
關(guān)鍵詞:文本信息模型

羅濤,謝鳳祥,李光華

(國能大渡河流域水電開發(fā)有限公司,四川成都 610000)

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡信息的規(guī)模和數(shù)量均呈現(xiàn)出爆炸式增長,任何輿情信息通過互聯(lián)網(wǎng)均可在短時間內(nèi)大范圍傳播,從而造成嚴重的輿情風暴[1-2]。而企業(yè)針對網(wǎng)絡輿情進行分析,有利于及時獲取網(wǎng)絡評價、市場動向、品牌形象及廣告效果等關(guān)鍵信息,并為企業(yè)經(jīng)營決策提供重要參考[3-5]。

自然語言處理(Natural Language Processing,NLP)是一種利用人工智能算法對自然語言進行分析處理,從而完成目標任務的技術(shù)。其在智能翻譯、語音識別和人機交互等領域的應用較為廣泛[6-9]。傳統(tǒng)輿情監(jiān)控基于詞庫統(tǒng)計分析的方法,但其在數(shù)據(jù)爆炸的互聯(lián)網(wǎng)時代,應用效果并不理想。因此將自然語言處理技術(shù)應用于網(wǎng)絡輿情分析,以提高分析效率及準確性,成為一種前沿研究趨勢。針對此,該文開展了自然語言處理技術(shù)在網(wǎng)絡輿情智能監(jiān)控中的應用研究,實現(xiàn)了對網(wǎng)絡輿情的準確分析。

1 智能輿情監(jiān)控技術(shù)框架

1.1 總體技術(shù)框架

基于自然語言處理的智能輿情監(jiān)控框架如圖1所示[10]。該框架各層的主要功能如下:1)數(shù)據(jù)源層是輿情監(jiān)控分析的數(shù)據(jù)來源,承載著眾多網(wǎng)絡輿情信息。2)數(shù)據(jù)采集層則利用智能網(wǎng)絡爬蟲技術(shù)來實現(xiàn)輿情信息的采集。3)數(shù)據(jù)處理層實現(xiàn)對獲取頁面信息的預處理。4)輿情分析應用層利用深度學習算法對預處理后的數(shù)據(jù)進行挖掘分析,并實現(xiàn)分析結(jié)果的應用與可視化。

圖1 智能輿情監(jiān)控技術(shù)框架

1.2 網(wǎng)絡爬蟲技術(shù)

網(wǎng)絡爬蟲是在互聯(lián)網(wǎng)技術(shù)快速發(fā)展、數(shù)據(jù)規(guī)模急劇增加的背景下,所誕生的一種模擬人類閱讀瀏覽習慣的互聯(lián)網(wǎng)網(wǎng)頁自動獲取技術(shù)[11-13]。該技術(shù)通過不斷循環(huán)訪問URL 列表來實現(xiàn)頁面信息的獲取與存儲,具體的工作流程如圖2 所示。

圖2 網(wǎng)絡爬蟲流程

文中采用的網(wǎng)絡爬蟲軟件為Scrapy 引擎爬蟲框架。該引擎是爬取過程中數(shù)據(jù)和信息交換的核心;調(diào)度器負責對待訪問URL 列表進行管理維護,并安排訪問任務順序;下載器根據(jù)來自調(diào)度器的請求從互聯(lián)網(wǎng)上下載相關(guān)信息,且將應答返回給引擎;而爬蟲負責對獲取的應答內(nèi)容進行分析處理,根據(jù)項目需求提取數(shù)據(jù),再提交新的訪問請求;管道則負責管理和處理爬蟲項目數(shù)據(jù)。

2 基于NLP的智能輿情監(jiān)控算法設計

該文提出基于自然語言處理的智能輿情監(jiān)控算法,如圖3 所示。首先利用網(wǎng)絡爬蟲技術(shù)獲取與輿情相關(guān)的語料集,并進行初步的分詞、標注等預處理操作;然后利用CBOW(Continuous Bag-of-Words)詞向量模型實現(xiàn)文本語料的結(jié)構(gòu)轉(zhuǎn)化;最終將其作為多維注意力機制網(wǎng)絡(Multi-Dimensional Attention Network,MDAN)的輸入,再經(jīng)過特征學習實現(xiàn)輿情風險等級劃分。

圖3 智能輿情監(jiān)控算法框架

2.1 CBOW詞向量模型

詞向量模型通過智能算法將文本非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為矩陣等結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的詞向量模型采用獨熱表示法(One-Hot Representation),該方法僅能表示詞語在文本中出現(xiàn)的次數(shù),而無法保留原始文本結(jié)構(gòu)中所蘊含的信息,且高維度向量的表示方式大幅降低了求解速度。CBOW 模型是一種改進的分布式文本表示模式,其利用上下文詞語信息預測目標位置詞語的概率分布,故可較為完整地保留上下文語義。因此,CBOW 模型在繁雜文本的挖掘中應用廣泛[14],其模型如圖4 所示。

圖4 CBOW詞向量模型

假設i為目標位置,b為目標詞語,集合Z由b的所有可能取值構(gòu)成。則原始文本前后n個詞語,可表示為:

式中,bi+1為目標位置的后一個詞語,其余變量定義同理。則輸入文本向量x為:

式中,e(bj)為詞語bj的詞向量。則目標詞語b為b′的概率分布如下:

式中,e(b′)是目標詞語b為b′時的詞向量。若整個文本庫表示為A,則CBOW 模型的最終優(yōu)化目標G為:

2.2 注意力機制

注意力機制是模擬人類大腦在搜尋信息時聚焦重要的部分,而忽略不重要的部分,從而高效完成任務的模式[15-16]。其應用于自然語言處理中可理解為由n個詞語構(gòu)成的輸入x=[x1,x2,…,xn],在某個查詢?nèi)蝿誶下,索引位置γ=i分配的注意力系數(shù),具體可表示為:

式中,f(xi,r)為注意力分配函數(shù)。其可表示如下:

式中,U、V和W為可優(yōu)化的網(wǎng)絡參數(shù),q為位置參數(shù)。

進一步計算輸入文本x的所有分詞向量加權(quán)和,該權(quán)重即為分詞的注意力系數(shù):

最后將式(7)作為注意力機制的輸出,可以看到對于查詢?nèi)蝿誶而言,越重要的分詞,權(quán)重系數(shù)越大,其對注意力機制的輸出結(jié)果影響也越大。注意力機制可看成是基于信息選擇機制對輸入文本向量x進行的一次編碼。

2.3 融合多維注意力機制的算法

融合多維注意力機制的輿情監(jiān)控算法架構(gòu),如圖5 所示。輸入文本向量x經(jīng)過多維注意力機制計算,可得到前后向的句子特征ξq(x,xj)、ξh(x,xj),再通過句子特征獲取層及最后Softmax 層得到輿情風險等級。

圖5 輿情監(jiān)控算法設計

該文在注意力計算中引入位置信息,改進后的注意力分配函數(shù)為:

式中,λ為偏置參數(shù),Q為與位置信息相關(guān)的參數(shù)。

將 式(8)代入式(5)和 式(7)可計算得到ξq(x,xj)、ξh(x,xj),并進行拼接操作。進而獲得總分詞特征向量,其規(guī)格為m行2n列,具體公式為:

句子特征獲取層對拼接后的特征矩陣按列求取平均值,以得到句子特征向量:

式中,si為句子特征向量第i個元素值。故句子特征向量為:

最后,利用Softmax 層計算得到輿情風險等級:

式中,y為輿情風險等級;Ω為整個模型的網(wǎng)絡參數(shù)集合;W′和b′分別為Softmax 層的連接權(quán)重與偏置。

上述輿情監(jiān)控算法通過語料集B 進行學習訓練,并利用反向傳播算法(Back Propagation,BP)優(yōu)化網(wǎng)絡參數(shù)Ω,使得以下?lián)p失函數(shù)最小:

2.4 模型評價指標

文中采用F1 值評估輿情風險監(jiān)控模型的性能:

式中,P和R分別為準確率與召回率,α是調(diào)制系數(shù)。

3 算例分析

從互聯(lián)網(wǎng)爬取的正負向文本各一萬條,并按4∶1的比例劃分為訓練集與測試集,再將其作為該實驗數(shù)據(jù)集進行仿真驗證。

3.1 CBOW模型性能分析

為了使CBOW 模型的準確率最高,以不同詞向量維數(shù)進行訓練,得到的準確率如圖6 所示,當詞向量維數(shù)為200 時,CBOW 模型的準確率最高,達到了95.6%。因此,該文所有實驗中的詞向量維數(shù)均取為200。

圖6 不同詞向量維數(shù)的準確率

CBOW 模型與n元模型(N-Gram)、神經(jīng)網(wǎng)絡語言模型(Neural Network Language Model,NNLM)的性能對比,如表1所示。由表可知,CBOW 模型在處理網(wǎng)絡輿情文本信息時,具有更高的計算速度與準確率。

表1 詞向量模型性能對比

3.2 輿情風險識別效果分析

將該文所提MDAN 模型與卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)、長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)進行對比驗證,結(jié)果如表2 所示。

表2 算法模型性能對比

從表中可以看出,在網(wǎng)絡輿情風險監(jiān)控方面,CNN 及LSTM 模型的性能相差較小,而文中所提MDAN 模型明顯優(yōu)于二者,且輿情風險等級識別的準確率可達96.5%。

3.3 應用效果分析

將所提算法應用于某企業(yè)實際網(wǎng)絡輿情監(jiān)測,連續(xù)30 天內(nèi)的輿情風險等級如圖7 所示。由圖可知,在第9 天時輿情風險等級提升至第II 級。這是因為該企業(yè)發(fā)布重大決策引起網(wǎng)絡輿論關(guān)注,故相應輿論風險等級得以提升[17-19]。隨著關(guān)注度的下降,風險等級也逐漸降低,最后恢復至正常等級,且因該事件引起網(wǎng)絡的關(guān)注持續(xù)了約1 周時間。

圖7 輿情風險等級評價

4 結(jié)束語

該文利用網(wǎng)絡爬蟲技術(shù)獲取網(wǎng)絡輿情信息,并提出了一種融合多注意力機制模型實現(xiàn)對輿情信息的分析處理。通過仿真分析表明,所提的CBOW 模型相比于N-Gram 和NNLM 模型在處理網(wǎng)絡文本方面具有更高的準確率及更快的計算速度;而所提的MDAN 模型相比于CNN 與LSTM 模型,在輿情風險等級預測上具有更優(yōu)的準確度;所提智能輿情監(jiān)控算法則在實際應用中能夠準確監(jiān)測輿情事件,并為企業(yè)的及時應對處理提供技術(shù)指導。但文中未能實現(xiàn)輿情風險的分類,這將在下一步研究中展開。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 青草娱乐极品免费视频| 午夜日本永久乱码免费播放片| 欧美日韩91| 亚洲黄色视频在线观看一区| 成人蜜桃网| 亚洲成人精品| 夜精品a一区二区三区| 全部免费毛片免费播放 | 久久精品国产精品青草app| 国产精品一区二区无码免费看片| 国产女人18毛片水真多1| 欧美一区二区三区欧美日韩亚洲| 国产二级毛片| 青青极品在线| 久久综合成人| 色综合五月婷婷| 日日噜噜夜夜狠狠视频| 国产91在线免费视频| 精品91在线| 伊在人亞洲香蕉精品區| 亚洲日韩AV无码精品| 新SSS无码手机在线观看| 永久免费av网站可以直接看的| 亚洲V日韩V无码一区二区| 天天色综合4| 国产噜噜噜视频在线观看| 国产成在线观看免费视频| 制服丝袜亚洲| 扒开粉嫩的小缝隙喷白浆视频| 黄色免费在线网址| 亚洲成人在线网| 中字无码av在线电影| 国产精品三区四区| 色呦呦手机在线精品| 久久中文电影| 性欧美精品xxxx| 婷婷综合亚洲| 91精品国产福利| 九九热精品在线视频| 亚洲美女AV免费一区| 久久婷婷六月| 中文字幕在线不卡视频| 69av免费视频| 亚洲高清在线播放| 国产高清精品在线91| 无码一区中文字幕| 亚洲中文字幕精品| 国产小视频a在线观看| 人妻丰满熟妇AV无码区| 久久精品一品道久久精品| 亚洲an第二区国产精品| 992tv国产人成在线观看| 91国内在线视频| 亚洲日本一本dvd高清| 婷婷五月在线视频| 中文字幕亚洲精品2页| 日韩人妻无码制服丝袜视频| 日本高清成本人视频一区| 国产高潮流白浆视频| 91精品免费久久久| 久久这里只有精品66| 巨熟乳波霸若妻中文观看免费| 青青草原国产精品啪啪视频| 巨熟乳波霸若妻中文观看免费| 99热亚洲精品6码| 欧美日韩高清在线| 免费毛片在线| 国产女人在线观看| 亚洲视频无码| 日本在线欧美在线| 国产农村1级毛片| 亚洲va欧美va国产综合下载| 五月婷婷综合网| 国产人成在线观看| 亚洲成人精品在线| 婷婷六月综合网| 色天天综合久久久久综合片| 久久国产热| 欧美成人区| 日韩无码视频播放| 99精品在线看| 国产另类视频|