999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Bert 與Bi-LSTM 的輿情信息情感識別

2021-07-16 06:13:24湯世松練麗萍賀成龍梁增玉李惠柯劉蟄高峰
關(guān)鍵詞:分類文本情感

◆湯世松 練麗萍 賀成龍 梁增玉 李惠柯 劉蟄 高峰

(1.南京萊斯網(wǎng)信技術(shù)研究院有限公司 江蘇 210000;2.中電科新型智慧城市研究院有限公司 廣東 518000)

近年來,隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,我國網(wǎng)民人數(shù)日益增加,截止到2020 年3 月,我國的網(wǎng)民總數(shù)已經(jīng)突破9 億。諸如微信、微博等社交媒體的快速發(fā)展,使得網(wǎng)民在輿論事件中的參與度越來越高,對海量的輿情信息進行情感傾向分析,能夠更好發(fā)現(xiàn)輿情,篩選輿情,為網(wǎng)絡(luò)輿情業(yè)務(wù)提供最基礎(chǔ)的分析能力[1-4]。

1 情感分類技術(shù)

目前的情感分類分為基于情感知識的方法和基于特征學(xué)習(xí)的分類方法[5]。基于情感知識的方法主要是通過一些情感詞典或領(lǐng)域詞典的結(jié)合,輔以程度副詞、否定詞等形成規(guī)則,經(jīng)過規(guī)則命中和權(quán)值計算來判斷文本的極性,如圖1 所示。此類方法優(yōu)點是不需要標注數(shù)據(jù),簡單直觀,缺點是過于依賴于詞典的構(gòu)建和判斷規(guī)則的質(zhì)量,詞典的準確性、全面性、新穎性直接影響到了判斷的準確性。

圖1 基于情感知識的分類方法

基于特征學(xué)習(xí)的分類方法主要是使用有監(jiān)督的方法,包括機器學(xué)習(xí)和深度學(xué)習(xí),通過選取大量有意義的特征來完成文本表示,即將字符串類型的文本轉(zhuǎn)換為在數(shù)學(xué)上處理起來更為方便的向量,并最終實現(xiàn)下列分類任務(wù)。如圖2 所示。

圖2 基于特征學(xué)習(xí)的分類方法

文本表示分為離散表示和分布式表示。離散表示方法包括one-hot、TF-IDF、n-gram 等,該種表示雖然能夠進行詞語或者文本的向量表示,進而用模型進行情感分析,但其不能表示詞語間的相似程度或者詞語間的類比關(guān)系,同時該種表示往往存在著數(shù)據(jù)稀疏,向量的維度過高等問題。相較于離散表示,分布式表示具有連續(xù)、低維、稠密等優(yōu)點,同時能夠很好表達詞與詞之間的距離關(guān)系,以word2vec為代表的該類表示方法就是將詞表征為實數(shù)值向量的一種高效的算法模型,為文本數(shù)據(jù)實現(xiàn)了字詞級別更深層次的特征表示。

近年來,計算機硬件水平的不斷提升推動了深度學(xué)習(xí)的再次興起,尤其是注意力和記憶力機制成功應(yīng)用于各類自然語言處理任務(wù),使得基于深度學(xué)習(xí)的情感分析方法能夠取得最優(yōu)的效果。該方法最大的優(yōu)勢就是不依賴人工定義特征,神經(jīng)網(wǎng)絡(luò)可以自行學(xué)習(xí)文本中蘊含的情感信息[6]。Bert 是谷歌公司AI 團隊在2018 年10 月發(fā)布的一種基于深度學(xué)習(xí)的新的語言表示模型,全稱為 Bidirectional Encoder Representation from Transformers,意為基于轉(zhuǎn)換器的雙向編碼表征模型,當時它在11 種不同的自然語言處理(NLP)測試中創(chuàng)出最佳成績,是NLP 領(lǐng)域最重要的進展之一。

本文將 Bert 模型應(yīng)用于輿情領(lǐng)域,并構(gòu)建了一種基于Bert+Bi-LSTM 的網(wǎng)絡(luò)模型實現(xiàn)對輿情領(lǐng)域數(shù)據(jù)情感分類,該網(wǎng)絡(luò)通過Bert 預(yù)訓(xùn)練模型將文本信息轉(zhuǎn)換為文本向量,作為雙向長短記憶網(wǎng)絡(luò)的輸入并進行深度學(xué)習(xí),實現(xiàn)情感二分類。根據(jù)初始近1.6 萬條系統(tǒng)中標注的輿情數(shù)據(jù),采用近義詞反義詞替換、相似文本搜索等擴充為2 萬余條數(shù)據(jù)作為實驗數(shù)據(jù),通過對比實驗,驗證了該方法的有效性。

2 實驗數(shù)據(jù)準備

本文使用的數(shù)據(jù)一部分是基于系統(tǒng)中人工標注的近1.6萬條基本數(shù)據(jù),為了采用更多的數(shù)據(jù),分別通過實體替換、近義詞替換和相似文本搜索實現(xiàn)數(shù)據(jù)擴充。

2.1 實體替換、近反義詞替換擴充數(shù)據(jù)

如圖3 所示為實體、近反義詞替換流程。通過對已標注的文本進行分詞、實體識別及詞性分析。針對不同的實體類別(人物、地點、機構(gòu))從對應(yīng)的實體類別庫中找對替換的實體,生成新文本;針對不同的詞性,通過查找近反義詞庫進行詞匯替換,生成新文本;最終通過原始文本標簽與替換方式,確定最終生成的新文本的標簽。為了保證標簽的準確性,會采用人工對數(shù)據(jù)做進一步的核對。

圖3 近義詞、反義詞替換流程

表1 為所述樣例語料,原始語料為人工標注語料,衍生語料為實體詞,近反義詞替換后的語料。

2.2 相似文本搜索擴充數(shù)據(jù)

相似文本搜索是基于已知的數(shù)據(jù),從消息隊列中拉取的流式數(shù)據(jù)中,尋找和已知數(shù)據(jù)相似的文本。如圖4 所示為相似文本搜索擴充數(shù)據(jù)流程圖。

圖4 相似文本搜索擴充數(shù)據(jù)流程圖

采用word2vec 將已知的m 個已標注數(shù)據(jù)進行向量化,形成m×n維矩陣A,即:

其中,矩陣A 的每一行對應(yīng)一條已標注數(shù)據(jù)的向量。對于消息隊列中的新數(shù)據(jù),采用word2vec 對其向量化,形成1×n 維向量B,即:

采用余弦相似度計算向量B 與矩陣A 中各橫向向量的相似度S,即:

λi代表新數(shù)據(jù)與已標注的第i條數(shù)據(jù)的相似度,如果存在超過相似度閾值的λi,則新數(shù)據(jù)標簽與第i個已標注數(shù)據(jù)標簽一致,否則,丟棄該條數(shù)據(jù)。由于采用word2vec 生成向量矩陣是采用將詞各個維度疊加求平均的方式,為保證準確性,本文在相似度閾值滿足的同時,會比對原文本和相似文本的長度差,若文本長度差超出一定的閾值,也不認為相似。同時為了保證標簽的準確性,依舊會采用人工對數(shù)據(jù)做進一步的核對。

表2 為根據(jù)相似文本搜索擴充的數(shù)據(jù)示例。

表2 相似文本搜索擴充的數(shù)據(jù)

2.3 Bert+Bi-LSTM 的網(wǎng)絡(luò)模型

Bert+Bi-LSTM 網(wǎng)絡(luò)模型主要有輸入層、Bert 層、Bi-LSTM 層、全連接和輸出層。輸入層將文本輸入到Bert 層,通過預(yù)訓(xùn)練模型得到包含上下文語義信息的向量表示,本文選取[CLS]作為Bi-LSTM 網(wǎng)絡(luò)的輸入端進行深度學(xué)習(xí),Bi-LSTM 的輸出經(jīng)過兩層全連接層后輸出二維的數(shù)據(jù),最終使用Sigmoid 函數(shù)獲取最終的文本的情感類別。如圖5 所示為網(wǎng)絡(luò)模型結(jié)構(gòu)圖。

圖5 Bert+Bi-LSTM 網(wǎng)絡(luò)模型結(jié)構(gòu)圖[7]

3 實驗與分析

本文采用了三種方式在同樣的數(shù)據(jù)集上做對比實驗,分別是Bert+Bi-LSTM,Bert+LR,Word2Vec+Bi-LSTM。

對于Bert+Bi-LSTM 方式,Bert 采用的是Google 開源的與中文預(yù)練模型“chinese_L-12_H-768_A-12”,該預(yù)訓(xùn)練模型采用了12 層Transformer,Multi-head Attention 參數(shù)為12,輸出embedding 維度為768 維,本文采用的max_len 為128。在Bert+Bi-LSTM 中,Bi-LSTM第一層隱藏單元數(shù)為128,第二層為96,全連接層第一層輸出維度為32,第二層輸出維度為2。

對于Word2Vec+Bi-LSTM 方式,采用的是靜態(tài)Word2Vec 方式,維度為256,采用的是6G 的新聞類輿情數(shù)據(jù)預(yù)先訓(xùn)練所得。Bi-LSTM層和后續(xù)的全連接層同Bert+Bi-LSTM 結(jié)構(gòu)一樣。

對于Bert+LR 方式,所用Bert 預(yù)訓(xùn)練模型同Bert+Bi-LSTM 一致,但僅使用[CLS]向量作為文本的輸入。

表3 為采用在三種不同的方式下,模型在測試集上的結(jié)果。

表3 不同方式下對比實驗結(jié)果

通過對比Bert+Bi-LSTM和Word2Vec+Bi-LSTM兩種方式的結(jié)果,可以得出,Bert 與訓(xùn)練模型相較于Word2Vec,在文本表示方面更為優(yōu)秀。對比Bert+LR 和Bert+Bi-LSTM 結(jié)果可以得出,Bi-LSTM 在情感分類方面相較于傳統(tǒng)的LR 分類方法有一定的提升。因此,采用Bert+Bi-LSTM 的方式在情感分類方面具有良好的表現(xiàn),驗證了本文模型的有效性。

4 結(jié)束語

本文主要研究了輿情領(lǐng)域情感研判的方法,提出了基于實體、近反義詞替換和相似文本搜索的文本語料擴充方式,并采用了三種不同的方式進行輿情領(lǐng)域情感研判實驗,結(jié)果表明基于Bert+Bi-LSTM 方式在輿情領(lǐng)域情感研判中效果最佳,為后續(xù)網(wǎng)絡(luò)輿情中情感的研判提供了一種有效的方法。誠然,該方式也存在著一些不足,比如Bert和Bi-LSTM 的網(wǎng)絡(luò)的計算都較為復(fù)雜,在實際輿情監(jiān)測中呈現(xiàn)的海量數(shù)據(jù)場景落地具有很大挑戰(zhàn),同時相較于Bert+LR 這種接簡單網(wǎng)絡(luò)的方式,Bert+Bi-LSTM 效果雖更好,但犧牲了較大的計算代價,換取了有限的效果提升,在實際的工程領(lǐng)域應(yīng)用中,需要權(quán)衡性能和效果。在今后的工作中,將對這部分工作進行研究,從性能和效果等多方面因素考慮,以期獲得在工程領(lǐng)域的落地。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 国产真实乱子伦视频播放| 欧美激情综合| 欧美综合中文字幕久久| 成年女人a毛片免费视频| A级毛片无码久久精品免费| 国产香蕉国产精品偷在线观看| 午夜毛片免费观看视频 | 久久黄色一级片| 国产免费高清无需播放器| 99热精品久久| 日韩无码真实干出血视频| 欧美中文字幕第一页线路一| 少妇精品在线| 欧美精品成人一区二区视频一| 欧美成人影院亚洲综合图| 国产乱子伦无码精品小说| 国产网站免费观看| 久久综合伊人77777| 国产aaaaa一级毛片| 激情网址在线观看| 亚洲无码高清视频在线观看| 九九视频免费在线观看| 亚洲色图另类| 欧美日本中文| 久久久久青草大香线综合精品| 在线观看亚洲人成网站| 91久久国产综合精品| 欧洲一区二区三区无码| 色综合a怡红院怡红院首页| 久久无码免费束人妻| 欧美日韩中文字幕在线| 久久久久久久久亚洲精品| 999在线免费视频| 欧美成人精品在线| v天堂中文在线| 亚洲伊人电影| 欧美成人免费午夜全| 人妻精品全国免费视频| 伊人久久大香线蕉成人综合网| 黄色网站在线观看无码| 操国产美女| 国产人人乐人人爱| 美女内射视频WWW网站午夜| 久久久久国产精品嫩草影院| 四虎影视8848永久精品| 女人18一级毛片免费观看| 国产成人精品18| 毛片最新网址| 色综合天天综合中文网| 潮喷在线无码白浆| 国产日韩欧美一区二区三区在线 | 国产精品亚洲专区一区| 免费xxxxx在线观看网站| 国产午夜精品一区二区三区软件| 亚洲精品少妇熟女| 国产91视频观看| 国产精品免费久久久久影院无码| 国产精品一区二区不卡的视频| 国产激情在线视频| 国产乱子伦一区二区=| 中文字幕有乳无码| 亚洲午夜天堂| 国产在线自揄拍揄视频网站| 久久99国产综合精品1| 色播五月婷婷| 丁香婷婷激情综合激情| 99热这里只有成人精品国产| 91精品国产一区自在线拍| 国内毛片视频| 天堂在线www网亚洲| 麻豆国产在线观看一区二区| av在线5g无码天天| 日韩一级毛一欧美一国产| 国产精品55夜色66夜色| 国产玖玖玖精品视频| 亚洲美女一区二区三区| 黄色网在线| 91视频免费观看网站| 成人中文在线| 东京热av无码电影一区二区| a级毛片一区二区免费视频| 久久精品无码一区二区日韩免费|