999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer的新聞情感分析算法

2021-10-18 08:13:46王天宇張麗珩臧天昊文一涵
現代計算機 2021年24期
關鍵詞:特征文本情感

王天宇,張麗珩,臧天昊,文一涵

(1.北京工業大學計算機學院,北京100124;2.北京工業大學軟件學院,北京100124)

0 引言

文本情感分析是自然語言處理的一個重要的研究方向,由于一詞多義、情感轉折、反語等現象的存在,導致情感分析較為困難,模型分類效果不理想。而新聞作為一種記錄與傳播信息的文體,不但篇幅較長,情感的表達也較為分散。文本中既有客觀的事實報道,也有主觀的情感表達,一個主觀句中也可能含有多種情感,這使得新聞文本情感分析成為更具挑戰性的任務。由于新聞文本較長,大多需要對其內容進行精簡,以便進一步分析。目前的工作的降維方法對于標題和正文各有側重,但大多沒有綜合二者考量。此外,融合知識圖譜的方法在短文本的情感分析中已經證明其有效性,但是目前有關新聞情感分析的工作大多忽略了外部知識的輔助作用。

針對目前工作存在的不足,本文以網絡新聞為研究對象,創新性地提出了基于情感重點句融合知識圖譜的Transformer模型分類方法。該方法借助Trans?former的Seq2Seq結構,從根本上將新聞分為標題和正文兩個獨立的部分考慮,既突出了新聞標題的特殊地位,又可以較為全面地把握正文信息。同時,通過知識圖譜引入的外部信息,改善了文本信息缺失和二義性等問題。結果表明,該模型可以有效提升情感分析的正確性,且知識圖譜是提升新聞文本情感分析模型性能的有效手段。

1 相關研究

文本的情感分析技術有基于情感詞典的方法、基于機器學習的方法和基于深度學習的方法三大類。

情感詞典是一種判斷情感傾向性的傳統方法,其依賴于人工總結的情感用詞,通過文本用詞與情感詞典的比對來總體把握文本的情感傾向。顯而易見的是,詞典中有限列舉的情感用詞,既不能全面地表征情感用詞在不同語境下的語義差別,也無法應對隨著時代發展而快速演變的用詞習慣。盡管學者們以情感詞典為基礎,嘗試了結合搜索引擎拓展詞典,針對語義層次設定不同判斷標準,在情感詞典中加入表情符號等多種手段[1-2],但文本情感分析效果并不理想。

機器學習方法在分類任務中已有廣泛的應用,并同樣適用于情感的分類任務。特征工程是分類任務的關鍵,目前常用的分類特征有:情感詞、詞性、句法結構、否定表達模板、連接、語義話題等[3],采用文本頻率、CHI統計量、互信息、信息增益等方法進行特征選擇[4],并使用樸素貝葉斯、支持向量機、神經網絡等作為分類器。基于機器學習的方法,相較基于情感詞典的方法具有更強的泛化能力,但其分類效果受特征工程的構建影響較大,構建的特征無法表示復雜語義,且需要人工進行數據標注,工作量較大。

深度學習方法與以上兩類方法相比,具有明顯的優勢。這種方法可以自動完成文本特征的抽取和學習,所學習到的特征也更加復雜,可以提高文本分類的正確性。Xu等[5]對LSTM模型進行改進,提出了CLSTM模型,對Context-Level詞向量序列進行情感預測,進一步提升了情感極性判斷的正確性。梁斌等[6]提出了基于詞向量注意力機制,詞性注意力機制和位置注意力機制的多注意卷積模型,改善了模型應對情感反轉的能力。

新聞文本情感分析不同于一般性文本,由于其篇幅較長而存在大量無情感流露的中立表達,因此,在進行情感分析前大多需要對文本內容進行精簡。目前主要有提取文本子集和標題情感分析兩種思路:馮亮祖[7]構建了情感關鍵句抽取算法,在得到的關鍵句集合的基礎上使用CHI統計法構建特征向量,并進一步訓練了神經網絡和支持向量機作為分類器。李天賜等[8]將新聞標題作為全文的代表,并將標題分為兩個半句,構建了前半句、后半句和全標題三輸入通道卷積神經網絡。以上兩種方法各有側重,但均沒有將標題與正文綜合考量。

綜上所述,結合注意力機制的深度學習模型是解決長文本情感分類的較為有效的處理手段。目前,有關新聞文本情感分析的工作大多缺乏對新聞結構的考量,也沒有借助外部知識輔助情感分析。本文針對以上問題提出基于情感重點句融合知識圖譜的Transformer模型,改善了情感分析模型性能。

2 基于情感重點句融合知識圖譜的新聞文本情感分析算法

其中n為全部重點句包含的詞語數。

其中W3∈Rd×q,b3∈Rq,q為情感傾向性類別數。

圖1基于Transformer的情感分析模型結構

3 多特征情感重點句抽取算法

在前人工作的基礎上,本文構建了融合關鍵詞特征、句子位置特征、線索詞特征、情感詞特征和新聞標題相關性特征的情感重點句抽取算法。通過對上述特征評價指標加權求和,得到綜合評價分數,由此衡量各句的重要程度,以便提取重點句,從而降低文本緯度、減少噪音。

3.1 文本預處理

首先,對語料進行了分句、分詞和詞性篩選處理,刪除了連詞、擬聲詞、介詞、代詞、數詞、助詞等對文本情感分析無意義的詞匯。其中分句的依據為中文常用標點符號,分詞與詞性篩選使用了Python語言編寫的jieba分詞工具。

3.2 關鍵詞特征

本文使用了前人提出的關鍵詞特征計算方法[11],由于新聞用詞豐富,可能出現一些分詞詞典以外的詞語,為避免遺漏首先使用TF-IDF算法得到新聞的關鍵詞,記為ipw1,詞頻記為tf1,其對應的集合記為關鍵詞表IP W1,而后使用N-Gram新詞發現算法,發現的新關鍵詞記為ipw2,詞頻記為tf2,其對應的集合記為關鍵詞表IPW2。用于關鍵詞ipw2可能包含ipw1,因此,還需根據IPW2對IPW1進行更新,再將兩個關鍵詞表融合得到最終的關鍵詞表IPWfinal,具體生成算法如下所示。

在得到新聞文本的關鍵詞表IPWfinal后,對其賦權以體現重要性的不同。首尾句子數φ確定方法為:φ=0.04m+2。其中m為文章中句子總數。各關鍵詞的權重設置如關鍵詞權重表(表1)所示。若同一個關鍵詞在文章中不同位置出現,則取其權重最高值。最后,得出文章中各句關鍵詞特征值:

表1不同位置關鍵詞權重

3.3 句子位置特征

按文本位置來說,新聞的開頭導語與結尾總結部分往往包含與主題相關的重點信息、作者觀點以及情感傾向。即在文章開篇提出包含重要信息的提要,中部陳述新聞事實,在文章結尾集中發表觀點與態度[12]。因此,文章開頭與結尾的句子在情感分析中往往更為重要,由此不同位置的句子需要計算其重要性,即:

其中si表示新聞文本的第i句句子,m為該文本的句子總數。

3.4 線索詞特征

作者在表達情感時可能出現:“因此”、“可以預見”、“不難看出”等流露傾向性的線索詞,參照以往工作提出的線索詞表可以構造各句傾向性表述程度計算公式[11],如下式所示。

3.5 情感詞特征

一般來說,句子中包含的情感詞越多,其表達的情感傾向越強烈。本研究使用中國知網HowNet與清華大學李軍的中文褒貶義詞典作為漢語情感詞典,根據句子所包含的情感詞來衡量句子情感的表達程度,其衡量指標為fewf(si),即:

3.6 標題相關性特征

其中 |h|為標題所含詞語數,|si|為第i句所含詞語數。

最后,在以上計算的基礎上通過計算二者的余弦相似度ftf(si),即:

得到標題相關性特征,其中w2v(h)為標題的向量表示,w2v(si)為句子的向量表示。

3.7 特征融合

在上文中,分別考量了關鍵詞特征、句子位置特征、線索詞特征、情感詞特征以及標題相關性特征,現在,以加權求和的方式對這些特征進行融合,獲得文章中句子si最終重要性評分fweight,即:

其中λ代表各特征權重,其總和為1。

上述5個特征權重的取值,如特征權重表(表2)所示。通過對各句重要程度的量化計算,可以按fweight值從高到低選取適當數量的句子,來作為一篇新聞的情感重點句集,以實現文本的降維。

表2本文五個特征值的權重

4 使用知識圖譜技術對關鍵句進行特征加強

在文本信息中引入知識圖譜可以增加外部知識,豐富情感重點句的文本特征,在一定程度上可以提高情感分析的效果。因此,本文使用ConceptNet 5的中文部分作為知識圖譜。ConceptNet是常識知識庫,由RDF三元組形式的關系型知識構成,節點與節點間的關系由關系類型和關系權重來標識。

5 實驗結果

5.1 實驗數據

本文新聞數據集來源于網絡,共計2283篇新聞資訊,將其情感傾向性標注為正面、中立和負面3類,數據集較為平衡。數據集中的新聞按7:3劃分為訓練集和測試集,采用F1-score作為評價指標。

5.2 實驗結果與分析

為驗證模型結構的有效性,本文由于算力有限本文使用Albert-tiny預訓練語言模型和TextRCNN作為基線模型,并進行了消融實驗,以驗證知識圖譜的有效性,實驗結果見模型性能對比表(表3)。由該表可見,相較于基線模型,本文的模型有較為明顯的性能提升,相較于去除知識圖譜的模型也有一定的提升,這表明本文提出的算法具有一定的實用性和有效性。

表3 模型性能對比

6 結語

本文基于情感重點句對新聞情感展開研究,通過Transformer模型的注意力機制有效地捕捉了長文本的情感信息,并結合其Seq2Seq的模型結構在突出了標題的重要性的同時兼顧了正文,使得文本信息的把握更加全面合理。通過引入ConceptNet知識圖譜,增加了上下文的常識信息,豐富了文本的維度。

本文的模型算法在與基線模型的對比中具有一定的優越性,但同時也存在一些不足:本文使用的情感重點句抽取算法較為依賴統計自然語言處理方法,缺乏對于上下文語境的考量,在后續的工作中可以考慮使用預訓練語言模型,結合深度學習網絡結構的方法完成重點句的自動抽取。

最后,本文使用的知識圖譜嵌入方法雖然簡潔有效,但是部分知識圖譜內容陳舊,在一定程度可能引入噪音,需要構建更加貼合現代常識認知的知識圖譜。且該方法也忽略了同一詞語在不同知識關系中的語義差別,在后續的工作中將使用TransE、TransR等知識圖譜嵌入模型表征這些語義差別,進一步提升模型性能。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲人人视频| 日韩欧美国产精品| 欧美激情二区三区| 久操中文在线| 日韩成人在线网站| 亚洲区第一页| 动漫精品中文字幕无码| 性色一区| 青青国产视频| 日韩国产另类| av色爱 天堂网| 97在线免费| 亚洲三级电影在线播放| 天天综合网亚洲网站| 国产精品视频系列专区| a级毛片在线免费| 天天躁狠狠躁| 日韩一区二区三免费高清| 中文天堂在线视频| 国产精品第一区| 亚洲男女在线| 亚洲国产亚综合在线区| av天堂最新版在线| 人妻精品久久久无码区色视| 亚洲Av综合日韩精品久久久| 四虎永久在线精品国产免费| 亚洲欧美h| 国产在线91在线电影| 国产精品女人呻吟在线观看| 91精品在线视频观看| 自拍中文字幕| 啪啪永久免费av| 青青操视频在线| 国产成人精品优优av| 精品亚洲国产成人AV| 日韩欧美国产中文| 亚洲精品天堂自在久久77| 久久久成年黄色视频| 色婷婷久久| 日本黄色a视频| 日韩成人在线网站| 高清色本在线www| 亚洲一级毛片在线观播放| 影音先锋亚洲无码| 欧美亚洲欧美| 国产精品欧美激情| 国产99在线观看| 国产区成人精品视频| 国产Av无码精品色午夜| 91香蕉视频下载网站| 久久国产精品娇妻素人| 免费 国产 无码久久久| h网站在线播放| 大陆国产精品视频| 日韩欧美中文| 日韩无码真实干出血视频| 日韩欧美中文| 特级毛片免费视频| 日本一本在线视频| 国产成人亚洲欧美激情| 亚洲欧美成人综合| 宅男噜噜噜66国产在线观看| 久久久久人妻精品一区三寸蜜桃| 欧美午夜在线播放| 72种姿势欧美久久久大黄蕉| 国产欧美视频一区二区三区| 国产成人乱码一区二区三区在线| 国产SUV精品一区二区| 一级香蕉人体视频| 婷婷伊人久久| 久久精品人人做人人综合试看| 欧美性爱精品一区二区三区| 亚洲欧美成人在线视频| 九色视频一区| 国产日产欧美精品| 中文一区二区视频| 日韩欧美国产成人| 久久国产精品国产自线拍| 无码网站免费观看| 国产好痛疼轻点好爽的视频| 国产美女精品一区二区| 亚洲av日韩av制服丝袜|