譚翠萍
情感分析又名意見挖掘[1],主要研究如何從文本中發(fā)現(xiàn)或挖掘人們對于某種事物、產(chǎn)品或服務(wù)所表達(dá)出的情感、意見或情緒[2]。情感分析結(jié)果為主觀態(tài)度,一般分為三類:積極的、消極的和中立的。隨著大數(shù)據(jù)時代的到來,情感分析已經(jīng)成為一個活躍的研究領(lǐng)域,目前在產(chǎn)品評論、社交媒體和在線博客等領(lǐng)域均有一定應(yīng)用[3]。從分析的粒度層次來看,文本情感分析可分為粗粒度和細(xì)粒度層次分析,粗粒度層次分析有篇章級(文檔級)和句子級情感分析,細(xì)粒度層次情感分析則是基于評價對象及其屬性的分析[4]。由于實際應(yīng)用場景中,人們不光要識別一篇文檔或者一個句子中包含的觀點,還需要識別觀點或情感所表達(dá)或評價的對象,以及針對這些對象所具體表達(dá)的觀點傾向[5]。在這種情況下,學(xué)者們逐步深入細(xì)粒度情感分析領(lǐng)域,研究基于方面、屬性或主題、實體的情感抽取、分類[6-9]。
為了深入研究細(xì)粒度情感分析方法,歸納現(xiàn)有成果、存在問題與面臨挑戰(zhàn),本文以“細(xì)粒度情感分析”[4,10]、“方面級情感分析”[4,10]、“屬性級情感分析”[4]、“實體級情感分析”[4]、“意見挖掘”[10];“Fine Grained Sentiment Analysis”[4,10]、“Aspect Level Sentiment Analysis”[4,10]、“Attribute Level Sentiment Analysis”[4]、“Entity Level Sentiment Analysis”[4]、“Opinion Mining”[10]為關(guān)鍵詞在CNKI平臺、Web of Science核心合集檢索近十年細(xì)粒度情感分析研究文獻(xiàn),發(fā)現(xiàn)2017年至今該領(lǐng)域發(fā)展較快(見圖1),值得深入研究與總結(jié);其中:Web of Science 2017—2021年相關(guān)文獻(xiàn)932篇,CNKI2017—2021年相關(guān)文獻(xiàn)166篇。筆者結(jié)合文獻(xiàn)相關(guān)度、引用情況、最新發(fā)表情況,對重點文獻(xiàn)向前追溯、向后追蹤,精讀有代表性研究87篇,發(fā)現(xiàn)隨著細(xì)粒度情感分析研究的深化,不同層次粒度的情感分析研究也得到了推動與發(fā)展。

圖1 2012—2021年細(xì)粒度情感分析研究文獻(xiàn)數(shù)量
經(jīng)研究,筆者發(fā)現(xiàn)細(xì)粒度情感分析在社交媒體、在線評論、商業(yè)投資等領(lǐng)域有了一定應(yīng)用[11]。實際的應(yīng)用需求不斷倒逼領(lǐng)域研究發(fā)現(xiàn)新問題,產(chǎn)生新任務(wù),創(chuàng)造新方法。本文利用Citespace工具,采用基于研究主題數(shù)量變化的定量分析與基于代表性文獻(xiàn)調(diào)研的定性分析相結(jié)合的方法,從細(xì)粒度情感分析領(lǐng)域年度研究主題變化(如圖2),發(fā)現(xiàn)現(xiàn)階段細(xì)粒度文本情感分析研究的新任務(wù)及新技術(shù);同時結(jié)合文獻(xiàn)精讀,對該領(lǐng)域最新任務(wù)、最新技術(shù)的研究進(jìn)展進(jìn)行總結(jié)。

圖2 2017—2021年細(xì)粒度情感分析研究文獻(xiàn)主題變化圖
從最新任務(wù)角度,筆者欣喜地發(fā)現(xiàn)方面級情感分析三元組、多粒度情感分析、隱式情感分析、情感依賴關(guān)系抽取等任務(wù)不僅引起國外學(xué)者們的關(guān)注,成為領(lǐng)域研究熱點,同時也取得了一定的實質(zhì)性進(jìn)展。尤其是方面級情感分析三元組任務(wù)研究成果,可以一次性給出方面術(shù)語、觀點詞與情感極性的解決方案,可使細(xì)粒度情感分析向?qū)嶋H應(yīng)用更進(jìn)一步。從最新技術(shù)角度,筆者發(fā)現(xiàn)機器學(xué)習(xí)、情感詞典、遷移學(xué)習(xí)為細(xì)粒度情感分析的主要技術(shù),其中圖卷積神經(jīng)網(wǎng)絡(luò)GCN等深度學(xué)習(xí)方法在處理情感依賴關(guān)系抽取方面表現(xiàn)優(yōu)異,而遷移學(xué)習(xí)技術(shù)在解決跨語言、跨領(lǐng)域的情感分析方面潛力巨大。具體研究框架如圖3所示。

圖3 本文研究框架
篇章級情感分析(Document-Level Sentiment Analysis,DLSA)是對整個篇章(文檔)進(jìn)行情感極性分類的任務(wù),一般分為積極或消極[5]。這一層次的分析是假設(shè)該文檔表達(dá)了對單個實體的意見,因此它不適用于評估或比較多個實體的文檔[9]。文檔級情感分析一般采用基于監(jiān)督的情感分類方法,比如SVM、樸素貝葉斯等機器學(xué)習(xí)算法;或采用基于詞典的無監(jiān)督情感分類方法,比如SentiWordNet等[10]。雖然文檔級情感分析研究早期是特征工程與機器學(xué)習(xí)算法在實際中的直接應(yīng)用,但隨著細(xì)粒度情感分析研究的深入,該領(lǐng)域研究也由粗及細(xì),由細(xì)補粗,成為多粒度相互結(jié)合的應(yīng)用場景[12-14]。郝飛(Hao F)等從細(xì)粒度情感分析中得到啟發(fā),嘗試首先了解文檔背后潛在的目標(biāo)意見分布,然后利用這些細(xì)粒度的先驗知識進(jìn)行分類[12]。吳正浩(Wu Z H)等針對現(xiàn)有的基于方面的情感分類主要是從短文本(少于100字)中獲取情感極性,幾乎沒有分析長文檔(超過500字),提出了面向方面的長文檔分層框架[13]。魏凌偉(Wei L W)等提出了一種層次交互網(wǎng)絡(luò)(Hierarchical Interactions Networks,HIN),用于探索摘要和文檔之間在多粒度上的雙向交互學(xué)習(xí),以提高情感分類性能[14]。
從以上篇章級情感分析研究可以看出,隨著細(xì)粒度情感分析方法的研究深入,粗粒度情感分析也得到了改進(jìn)與提升。
相較于篇章,句子較短,包含的情感信息也更少,因此句子級情感分析(Sentence-Level Sentiment Analysis,SLSA)較篇章級情感分析更難。句子級情感分析假設(shè)一個句子只表達(dá)一個觀點,即一種情感[5]。無法使用劉冰(Liu B)的五元組(ej; ajk; soijkl; hi; tl) 對其定義,因為句子級情感分析不關(guān)注觀點評價對象ej、觀點持有者h(yuǎn)i和觀點發(fā)布時間tl等信息的抽取與識別[15]。句子級情感分析與篇章級情感分析的技術(shù)方法相似,但解決的重點問題不同。(1)該項任務(wù)的第一步為主客觀分類,即是對含觀點和不含觀點的句子進(jìn)行劃分[16]。針對這一問題,桑吉塔(Sangeetha K)等利用雙積分條件隨機場(Bi-Integrated Conditional Random Fields,Bi-CRF)來尋找給定句子的目標(biāo),取得了很好的效果[17]。(2)每個句子在一篇文檔中,不是單獨存在的,需要理解上下文信息。針對這一問題,亞達(dá)夫(Yadav A)等提出了一種基于深度語言無關(guān)的多級注意的卷積雙門控網(wǎng)絡(luò)(A Deep Language-independent Multilevel Attention-based Conv-BiGRU Network,MACBiG-Net),通過關(guān)注文本的局部特征以及上下文信息,來捕捉文檔中句子情感分類線索[18]。(3)原有句子級情感分析往往忽略每個句子對整個文本重要性的差異。針對這一問題,王平(Wang P)等提出一種多頭自我注意的句對句注意網(wǎng)絡(luò)(A Sentence-To-Sentence Attention Network,S2SAN)[19],取得較好的效果。
盡管篇章級、句子級情感分析已較為成熟,但它們都是假定一段文本表達(dá)的情感是統(tǒng)一的、一致的,這在現(xiàn)實中往往不成立,如“這是一個超薄、時尚、好看的計算機,但是觸摸板非常令人沮喪!”在這個描述中,“計算機”有三個正向觀點:“超薄”“時尚”“好看”,“觸摸屏”有一個負(fù)向觀點:“令人沮喪”;無法簡單將句子歸結(jié)成統(tǒng)一情感,因此篇章級、句子級情感分析方法無法滿足更細(xì)粒度的情感分析需求[4,20-21]。
細(xì)粒度情感分析,主要包括方面級情感分析(Aspect-Level Sentiment Analysis,ALSA;或Aspect-based Sentiment Analysis,ABSA),旨在明確特定方面相關(guān)的情感,一般包括三個要素[22]:方面術(shù)語(Aspect Term )、觀點詞(Opinion Term)和情感極性(SP,Sentiment Polarity)。如圖4所示:

圖4 方面級情感分析的三要素關(guān)系示例
句子中“meat”“bread”為方面術(shù)語,情感極性都為正向,“delicious”“very good”為觀點詞。圍繞這三個要素,共有7項任務(wù)[23],如表1所示。

表1 細(xì)粒度情感分析的子任務(wù)
方面提取(Aspect Term Extraction,ATE):從句子中提取所有方面術(shù)語。觀點提取(Opinion Term Extraction,OTE):從句子中提取所有觀點詞。方面級情感分類(Aspect-level Sentiment Classification,ALSC):預(yù)測句子中每個給定方面術(shù)語的情感極性。面向方面的觀點抽取(Aspect-oriented
Opinion Extraction,AOE):為句子中的每個給定方面抽取成對的觀點詞。方面提取和情感分類(Aspect Term Extraction and Sentiment Classification,AESC):同時提取方面術(shù)語以及相應(yīng)的情感極性。關(guān)聯(lián)對抽取(Pair Extraction,Pair):同時抽取方面術(shù)語和相應(yīng)的觀點詞。三元組抽取(Aspect Sentiment Triplet Extraction,ASTE):同時抽取方面術(shù)語、相應(yīng)的觀點詞和情感極性。
其中,方面級情感三元組抽取(Aspect Sentiment Triplet Extraction,ASTE)是方面級情感分析領(lǐng)域最新的子任務(wù)[24],在本文第3章會重點闡述。
為清晰反映現(xiàn)階段細(xì)粒度文本情感分析領(lǐng)域的研究熱點,發(fā)現(xiàn)領(lǐng)域最新研究任務(wù)與研究方法,筆者將2020—2021年的細(xì)粒度情感分析數(shù)據(jù)導(dǎo)入Citespace工具,通過Keyword聚類,對比各個年度關(guān)鍵詞分布,發(fā)現(xiàn)方面提取(對應(yīng)圖5中aspect extration、aspect level、aspect category detection、aspect weight、aspect term extraction等關(guān)鍵詞)、方面級情感分類(對應(yīng)圖5中emotion recognition、feature extraction等關(guān)鍵詞)等傳統(tǒng)子任務(wù)仍為研究熱點,同時也發(fā)現(xiàn)了一些新的研究任務(wù)與技術(shù)方法(詳見第3、4節(jié))。

圖5 2020—2021年方面級情感分析的研究熱點
細(xì)粒度情感分析領(lǐng)域的研究是循序漸進(jìn)的,新任務(wù)的發(fā)展離不開傳統(tǒng)子任務(wù)的成果積淀。傳統(tǒng)子任務(wù)主要解決的是顯性方面、觀點的提取與情感分類,并取得了一定成果,如拉馬斯瓦米(Ramaswamy S L)等人在Rest16測試集上的方面級情感分析F1值達(dá)到93.77%[25]。而伴隨著細(xì)粒度情感分析方法的深入應(yīng)用,方面級情感分析研究由單項任務(wù)到組合任務(wù),方面提取研究也從顯式走向隱式,相繼產(chǎn)生了一些新的任務(wù)。
筆者通過分年度對比細(xì)粒度情感分析最新任務(wù)(圖4紅色框標(biāo)注部分),結(jié)合文獻(xiàn)精讀,總結(jié)出近兩年細(xì)粒度文本情感分析的最新任務(wù)為方面級情感分析三元組、多粒度情感分析、隱式情感分析、依賴關(guān)系抽取。
方面級情感三元組抽取(Aspect Sentiment Triplet Extraction,ASTE)是方面級情感分析領(lǐng)域最新的子任務(wù)[24],包括方面術(shù)語、觀點詞、情感極性,即:

表2 ASTE研究對比表
現(xiàn)有針對ASTE任務(wù)的解決方法可分為基于分層、機器閱讀理解、文本生成、端到端的三元組抽取方法。
(1)分層/分階段的ASTE方法
彭海云(Peng H Y)等人構(gòu)建了雙層LSTM神經(jīng)結(jié)構(gòu),用于方面抽取、方面情感分類和觀點詞抽取,并使用圖卷積網(wǎng)絡(luò)組件捕獲依賴信息,一次性回答了方面術(shù)語是什么(What)、其情感極性如何(How)以及為什么是這樣的情感極性(Why)[24]。該方法第一階段通過聯(lián)合標(biāo)記抽取候選方面術(shù)語、情感極性及觀點詞。第二階段將候選方面術(shù)語和觀點詞結(jié)合起來,確定它們之間的成對情感關(guān)系。該方法無需特定領(lǐng)域或三元組的訓(xùn)練數(shù)據(jù),通過距離來獲取方面術(shù)語與觀點詞之間的關(guān)系,該研究在14Rest數(shù)據(jù)集上ASTE任務(wù)的F1值達(dá)到51.89,成為ASTE領(lǐng)域的重要基線。
經(jīng)過后面的研究(詳見表2),發(fā)現(xiàn)該方法存在一定的不足,主要是方面情感往往由方面上表達(dá)的觀點詞所決定,這種分階段的方法打破了三元組結(jié)構(gòu)中的相互作用。此外,流水線方法通常會遇到錯誤傳播問題。這在后面的研究中得到了改進(jìn),從而提升了性能。
簡(Jian S Y B)等(2021)采用分層強化學(xué)習(xí)方法,將ASTE任務(wù)分解為面向方面的情感分類、觀點詞抽取、方面術(shù)語抽取等3個子任務(wù),并將其分為兩個層級[26]。首先通過高層級的情緒掃描,識別并標(biāo)記某個方面數(shù)據(jù)表達(dá)的情感極性;然后在低層級開展觀點詞和方面術(shù)語抽取,并將抽取結(jié)果作為情緒的參數(shù)進(jìn)行序列標(biāo)注;從低層級處理完后返回高層級情感掃描,直至完成。該模型中加入了多輪機器閱讀理解方法,以進(jìn)一步改進(jìn)子任務(wù)間的交互。經(jīng)實驗,ASTE任務(wù)在14Rest數(shù)據(jù)集的F1值為69.61%。
徐璐(Xu L)等提出了一種雙通道span剪枝策略,該策略結(jié)合了來自方面術(shù)語抽取(ATE)和觀點詞抽取(OTE)任務(wù)的監(jiān)督[28]。該策略不僅提高了計算效率,而且能更準(zhǔn)確地區(qū)分觀點和目標(biāo)范圍。該模型使用BiLSTM、BERT編碼器在4個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了驗證,其中14Rest數(shù)據(jù)集的F1值為71.85%。
(2)基于端到端的ASTE方法
嚴(yán)航(Yan H)等將包含方面級情感三元組抽取等7個子任務(wù)目標(biāo)重新定義為由指針?biāo)饕颓楦蓄愃饕旌系男蛄校髮⑺凶尤蝿?wù)轉(zhuǎn)換為統(tǒng)一的生成公式[23]。在統(tǒng)一公式的基礎(chǔ)上,利用BART預(yù)訓(xùn)練模型在端到端框架中求解所有子任務(wù)。經(jīng)實驗證明,該框架性能優(yōu)異,基于14Rest數(shù)據(jù)集的ASTE任務(wù)F1值為65.25%。
(3)基于文本生成的ASTE方法
基于彭海云(Peng H Y)的研究[24],張文軒(Zhang W X)等提出基于生成方面的情感分析(the Generative Aspect-based Sentiment analysis,GAS),為此定制了兩種范式,即注釋樣式和提取樣式建模[27]。在注釋風(fēng)格范例中,為了指出方面和觀點術(shù)語之間的關(guān)系,以[aspect | opinion | sentiment polarity]的形式將相關(guān)的觀點修飾符附加到每個方面術(shù)語,以構(gòu)建目標(biāo)句子;在提取樣式建模中,將所需的方面(包括隱式方面)三元組(aspect1,opinion1,sentiment polarity1);(aspect2,opinion2,sentiment polarity2)串聯(lián)起來作為目標(biāo)輸出。基于上述GAS統(tǒng)一框架,張文軒(Zhang W X)等對包含ASTE在內(nèi)的4種方面級情感分析任務(wù)進(jìn)行了對比實驗,經(jīng)實驗驗證,該框架在14Rest數(shù)據(jù)集上ASTE任務(wù)的F1值達(dá)到72.16[27]。該研究是將ABSA任務(wù)轉(zhuǎn)化為文本生成問題的初步嘗試。
(4)基于機器閱讀理解框架的ASTE方法
機器閱讀理解MRC方法是基于給定的上下文來回答特定的問題。基于BERT的MRC一般會把問題和上下文進(jìn)行拼接,送入BERT中得到隱藏層表示。陳少偉(Chen S W)等將ASTE任務(wù)轉(zhuǎn)化為多輪機器閱讀理解(Multi-turn Machine Reading Transform, MTMRC)任務(wù),并提出了一個雙向機器閱讀理解框架,設(shè)計了三種類型的查詢,包括非限制性抽取查詢、限制性抽取查詢和情感分類查詢,以建立不同子任務(wù)之間的關(guān)聯(lián)[29]。此外,考慮到一個方面情感三元組可以來自一個方面或一個觀點表達(dá),設(shè)計了一個雙向機器閱讀理解結(jié)構(gòu)。一個方向依次識別方面、觀點和情感極性以獲得三元組,而另一個方向首先識別觀點,然后識別方面,最后識別情感極性。這兩個方向相互補充,可以更全面地識別方面情感三元組。經(jīng)實驗驗證,該研究在14Rest數(shù)據(jù)集上ASTE任務(wù)的F1值達(dá)到70.69。
經(jīng)過以上研究,相較于最初彭海云(Peng H Y)的研究結(jié)果[24],ASTE任務(wù)在4個基準(zhǔn)數(shù)據(jù)集的F1值增長超過10個百分點,總體而言,針對句子中單個方面的情感分析三元組方面抽取有了很大進(jìn)步,但在多重三元組抽取方面仍不夠理想,是未來努力的方向。
多粒度情感分析(Multi-grained Sentiment Analysis)是根據(jù)表達(dá)情感信息量的多少來區(qū)分粒度層次[30],并對不同粒度層次的內(nèi)容進(jìn)行情感分析。在線評論的細(xì)粒度情感分析在許多應(yīng)用中發(fā)揮著越來越重要的作用,這里的關(guān)鍵技術(shù)是如何有效地提取多粒度方面,識別相關(guān)的觀點,并對情感極性進(jìn)行分類,如圖6所示。

圖6 多粒度情感分析元素關(guān)系示例
在這個描述中,需提取多個方面,即一個是一般方面“computer”和一個特殊方面“touch pad”。其中有三個具體意見“slim”“fashion”“good-looking”,以及一個總體意見“frustrating”。最后,對提取的方面進(jìn)行分類和匯總。“computer”上的“slim”“fashion”“good-looking”是積極的觀點,而“touch pad”上的“frustrating”是消極的觀點。
由此可見,多粒度情感分析對于分析復(fù)雜語境、明確多重方面的總體觀點具有實際的研究意義,具有代表性的方案有:
在粒度的區(qū)分方面,一些研究者通過粗細(xì)粒度分類器或變換器,以獲得上下文的短語級表示,取得了一些進(jìn)展[31-32]。唐飛龍(Tang F L)等提出了一種聯(lián)合的基于方面的情感主題模型(Joint Aspect-Based Sentiment Topic,JABST),用于識別方面和觀點粒度的方法,該模型對方面、觀點、情感極性和粒度聯(lián)合建模,以提取多粒度的方面和觀點[33]。在這項工作中,方面和觀點粒度分為一般和特定粒度。一般方面和觀點指的是大多數(shù)評論中包含的基本觀點或背景詞,而特定方面和觀點則用于捕捉一些細(xì)粒度的特征,因此特定方面的觀點可以在評論中捕捉到比單粒度情緒分析更準(zhǔn)確的信息。最后,對提取的方面進(jìn)行分類和匯總。此外,通過監(jiān)督學(xué)習(xí),提出了基于最大熵的JABST模型(MaxEnt-JABST),以提高觀點和方面提取的準(zhǔn)確性和性能。該模型通過對電子設(shè)備和餐廳的評論實驗結(jié)果表明,所提出的模型優(yōu)于基線,可以較好地識別細(xì)粒度的方面和觀點。
注意力機制被廣泛應(yīng)用于多粒度情感分析領(lǐng)域[34-36]。其中,甘陳泉(Gan C Q)等提出了一種用于多實體情緒分析的基于自注意的分層擴張卷積神經(jīng)網(wǎng)絡(luò)(SA-HDCNN,Self-Attention based Hierarchical Dilated Convolutional Neural Network),該網(wǎng)絡(luò)將任務(wù)直接轉(zhuǎn)化為避免分解的序列標(biāo)記問題,并適用于并行計算[35]。具體來說,SA-HDCNN主要由編碼、特征提取和解碼模塊組成。編碼模塊將輸入句子映射到一個包含語義和情感信息的單詞嵌入矩陣中。接下來,由特征提取模塊分別通過HDCNN結(jié)構(gòu)和自我注意機制學(xué)習(xí)編碼句子的多尺度局部特征和詞間全局相關(guān)性。然后,解碼模塊輸出標(biāo)簽序列,從而完成對多個目標(biāo)實體及其對應(yīng)情感極性的自動識別。該模型在Review(F1:63.33%)和Twitter(F1:73.04%)多方面數(shù)據(jù)集上進(jìn)行了驗證,既不限制目標(biāo)實體的數(shù)量,也不依賴任何特定領(lǐng)域的信息或優(yōu)先功能,表明該方法具有很好的適用性。
在提升多粒度預(yù)訓(xùn)練任務(wù)方面,陳越澤(ChenY Z)等提出了基于ALBERT的多粒度注意力表示方法(MGAR-ALBERT),它可以學(xué)習(xí)句子和多個方面的相關(guān)信息表示,同時將其集成到多粒度的句子建模過程中,最終得到全面的句子表示;同時在n-gram中引入噪聲線性余弦衰減方法,以避免預(yù)訓(xùn)練中對方面遮掩的影響,優(yōu)化預(yù)訓(xùn)練任務(wù)[36]。該方法基于Rest14數(shù)據(jù)集得到的F1值為77.68%。
國內(nèi)也有一些研究者利用序貫三支決策方法來構(gòu)建多層粒結(jié)構(gòu),從最粗粒度層級到最細(xì)粒度層級進(jìn)行一系列的多階段三支決策,在每步?jīng)Q策時對信息不充分的對象采取延遲決策的策略[30,37-39]。三支情感分類決策分別是正向決策、負(fù)向決策和延遲決策。在每一粒層,當(dāng)現(xiàn)有信息充分時,可以直接作出接受或拒絕的判斷;而對當(dāng)前信息不能支持其作出決策時,可以將對象劃分到邊界域中,并在更細(xì)粒層下獲取更充分的信息后對其進(jìn)行劃分,依此類推,直到邊界域中的對象被逐漸劃分到正域或負(fù)域中。楊新等在原有的基礎(chǔ)上,提出了基于時空多粒度的序貫三支情感分析方法,利用隨時間增加的數(shù)據(jù)和擬合度較高的特征空間,構(gòu)造具有時空特性的多層粒結(jié)構(gòu),平衡誤分類代價和訓(xùn)練代價[39]。
總體而言,多粒度情感分析復(fù)雜度較高,目前在分層或分類決策、注意力機制等方面開展了一些研究,但其性能、準(zhǔn)確度仍有待進(jìn)一步提高。
隱式情感分析(Implicit Sentiment Analysis)的核心任務(wù)是對隱式方面的提取。在方面級情感分析過程中,特征提取是一個關(guān)鍵過程,它可以是隱式的,也可以是顯式的[40]。已有研究多數(shù)都是針對顯式方面進(jìn)行抽取,而較少對隱式方面進(jìn)行深入研究。圖比沙(Tubishat M)等、甘甘沃(Ganganwar V)等對2005年至2018年間的隱式方面情感分析文獻(xiàn)進(jìn)行調(diào)研,發(fā)現(xiàn)以往研究主要是基于無監(jiān)督和半監(jiān)督的方法提取句子中的隱性特征[40-41]。筆者重點對2020年以來的隱式方面抽取進(jìn)行了研究,發(fā)現(xiàn)研究主要通過詞共現(xiàn)、屬性聚類、依賴關(guān)系分析等方法提高隱式方面抽取效果(見表3)。

表3 隱式方面抽取研究對比表
拉納(Rana T A)等提出了一種使用共現(xiàn)和基于相似性技術(shù)來識別隱含方面的多層次方法[44]。該模型不僅使用了觀點詞共現(xiàn),而且還利用了顯式方面和領(lǐng)域相關(guān)的觀點詞(概念)來正確識別用戶意見的隱含方面。該研究的重點是提取用戶意見的隱式方面線索(Implicit Aspect Clues,IACs),并借助隱式方面線索識別用戶意見的真實目標(biāo)。具體方法分為兩步: 第一步是制定句子中隱式方面線索的識別規(guī)則;第二步是將提取出來的線索分配給句子中的方面。該模型不僅可以提取與意見詞相關(guān)的隱式方面線索,還可以將線索分配給未識別出關(guān)聯(lián)的觀點詞。該方法基于SemEval 2014、數(shù)碼產(chǎn)品用戶評論數(shù)據(jù)集進(jìn)行了實驗,結(jié)果優(yōu)于Importance Score(IS)、Context-based(CB)、Context-Weight(CW)等3種隱式方面識別基線方法。許倩楠(Xu Q N)等提出了一種基于非負(fù)矩陣分解(NMF)的隱式方面識別方法[45]。該方法基于方面和觀點詞之間的相互關(guān)系對方面進(jìn)行聚類,并利用方面集合和觀點集合之間的內(nèi)在關(guān)系來提高聚類性能;同時構(gòu)造了一個分類器來識別和預(yù)測目標(biāo)隱含方面。該研究在CR和ABSA15數(shù)據(jù)集上得到了驗證,F(xiàn)1值為0.722,取得了很好的性能,尤其適合在大型數(shù)據(jù)集上的隱式方面識別。
現(xiàn)有的隱式方面識別研究大多是針對特定方面的產(chǎn)品評論,而忽略了句子的依賴性。針對這一問題,米爾(Mir J)等提出了一種多層次的電影隱式方面識別知識工程方法[42]。第一步是使用BiLSTM-CRF來識別顯式方面,而后將識別出的顯式方面作為方面映射算法的輸入來推斷隱式方面。它可以從獨立句和三種依賴句中識別隱式方面。這項研究基于5萬條大型電影評論數(shù)據(jù)集進(jìn)行了實驗。結(jié)果表明,隱式方面提取的F1值為0.76,優(yōu)于NMFIAD和ML-KB+模型。
為了識別隱藏在在線評論中的評價屬性,張晶(Zhang J)等提出了一種結(jié)合詞嵌入、共現(xiàn)信息和依賴性分析的方法,該方法可以幫助以無監(jiān)督方式獲取詞義信息和依賴關(guān)系,并能有效地發(fā)現(xiàn)隱藏的屬性[43]。該研究定義了一個情緒三元組(名詞、形容詞和副詞)來表示在線評論中包含的情緒元素,并使用依賴關(guān)系解析技術(shù)來識別情緒元素之間的依賴關(guān)系,有效地提高了評價屬性及其情感值的識別性能。該方法基于攜程網(wǎng)在線酒店評論數(shù)據(jù)進(jìn)行了驗證,F(xiàn)1值為0.73。結(jié)果表明,這種結(jié)合詞嵌入、共現(xiàn)信息和依賴性分析的隱式方面提取方法優(yōu)于單一方法。
多個方面的情感極性之間的潛在相關(guān)性,即為情感依賴(Sentiment Dependency),情感依賴問題是方面級情感分析需要解決的問題[46-50]。目前主要是基于句法結(jié)構(gòu)的情感依賴關(guān)系抽取。
(1)基于句法結(jié)構(gòu)樹的情感依賴建模
雖然情感依賴和句法依賴不是嚴(yán)格等價,但研究人員試圖基于句法依賴樹建立情感依賴模型,并取得了一些進(jìn)展。孫凱(Sun K)等提出了基于獨立樹的情感依賴關(guān)系抽取模型,并獲得了很好的性能[46]。徐寬弘(Xu K H)等和張晨(Zhang C)等, 使用帶有注意機制的GCN(Graph Convolutional Network)來學(xué)習(xí)依賴樹,依賴樹可以縮短語法相關(guān)單詞之間的距離,可以有效地從圖形結(jié)構(gòu)數(shù)據(jù)中提取信息,以獲得預(yù)期效果[47-48]。
(2)基于情感模式的情感依賴建模
楊航(Yang H)等發(fā)現(xiàn)大多數(shù)情感依賴發(fā)生在相鄰的方面之間,并將具有相同情緒的連續(xù)方面定義為情緒簇[49]。基于此,該研究提出了利用情緒模式(Sentiment Patterns)來指導(dǎo)模型的依賴關(guān)系學(xué)習(xí)。該情緒模式包括情緒集群(Sentiment Cluster)、情緒一致性(Sentiment Coherency)兩種,情緒集群是指用戶傾向于根據(jù)情感極性類別對方面進(jìn)行聚類;情緒一致性,是指在啟發(fā)式思維的情況下,用戶可能會在任何思維暫停時,提出一個與預(yù)先評論的方面具有相同極性的方面。情緒一致性模式分為全局一致性和局部一致性。
該研究引入局部情緒聚合(LSA)機制,重點學(xué)習(xí)情緒聚類中的情緒依賴性;同時提出了聚合窗口構(gòu)建的差異權(quán)重來衡量情緒依賴的重要性,并在Lap14(F1:78.35%)、Rest14(F1:81.04%)、Rest15(F1:72.22%)、Rest16(F1:79.50%)等四個公共數(shù)據(jù)集上進(jìn)行實驗,實現(xiàn)了很好的性能。由于沒有額外的依賴矩陣構(gòu)造和建模,該方法比原有基于依賴樹的模型更有效。
基于原有研究成果[4,6,11,50-55],筆者通過分年度對比細(xì)粒度情感分析最新技術(shù)情況(見前文圖2、圖5),發(fā)現(xiàn)目前細(xì)粒度文本情感方法仍為基于機器學(xué)習(xí)的方法、基于情感詞典的方法,其中在機器學(xué)習(xí)方法中,深度學(xué)習(xí)方法被廣泛應(yīng)用。現(xiàn)階段使用最多的技術(shù)方法依次為CNN、DNN、GCN、SVM、LSTM/BiLSTM、RNN、Ontology、LDA、lexicon等,如前文圖5藍(lán)色框標(biāo)注部分所示。
細(xì)粒度情感分析是一個活躍而蓬勃發(fā)展的研究領(lǐng)域,具有很強的實際應(yīng)用價值。在該領(lǐng)域,研究人員不斷提出、評估和比較不同的方法,目的是提高細(xì)粒度情感分析的性能,找到可以解決該領(lǐng)域挑戰(zhàn)的方法。本節(jié)的目的是對細(xì)粒度情感分析的近期常用方法進(jìn)行概述。
深度學(xué)習(xí)方法優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法,目前已被廣泛應(yīng)用于細(xì)粒度情感分析領(lǐng)域,主要包括圖形卷積網(wǎng)絡(luò)GCN、深度神經(jīng)網(wǎng)絡(luò)DNN、卷積神經(jīng)網(wǎng)絡(luò)CNN、遞歸神經(jīng)網(wǎng)絡(luò)RNN等,相關(guān)理論方法已在相關(guān)研究中有所闡述[51-52],本節(jié)重點總結(jié)現(xiàn)階段細(xì)粒度情感分析領(lǐng)域的深度學(xué)習(xí)技術(shù)特點、基線,具體見表4。

表4 深度學(xué)習(xí)方法對比表
利用情感詞典和語言規(guī)則的方式解決方面級情感分析任務(wù),更接近于傳統(tǒng)情感分析方法利用情感詞典的解決思路,需要使用標(biāo)注好的情感詞典或語言規(guī)則來判別情感極性[63]。隨著網(wǎng)上一些新詞匯的大量出現(xiàn),基于情感詞典的方法在這些新的語料上表現(xiàn)不佳,甚至出現(xiàn)錯誤[64]。目前SentiWordNet在細(xì)粒度情感分析領(lǐng)域使用最為廣泛[52],如:伊曼(Aboelela E M )等將SentiWordnet應(yīng)用于方面術(shù)語提取,構(gòu)建了基于語義關(guān)系的方面術(shù)語提取(SALOM)模型,該模型在M-phone數(shù)據(jù)集上的F1值達(dá)到97.7,效果很好[65]。經(jīng)歸納,筆者認(rèn)為基于詞典的情感分析研究呈現(xiàn)以下趨勢。
(1)情感詞典逐漸不再獨立使用,而是與深度學(xué)習(xí)算法相結(jié)合,通過知識增強[66],提升細(xì)粒度情感分析的性能。如:梁斌(Liang B)等將SenticNet與GCN相結(jié)合,構(gòu)建圖神經(jīng)網(wǎng)絡(luò),以增強句子的依賴圖,取得了很好的效果[56]。詹恩(Jain P K)等將SenticNet納入BERT-DCNN模型,使其能夠?qū)崿F(xiàn)概念層面的情感分析[67]。
(2)MPQA、How net、NTUSD、情感詞匯本體庫等傳統(tǒng)情感詞典逐漸成為種子詞典,成為特定領(lǐng)域情感詞典構(gòu)建的基礎(chǔ)組件[68-71]。
本節(jié)對常用的情感詞典進(jìn)行了梳理,并總結(jié)了相應(yīng)特點與最新利用情況,具體見表5。

表5 常見的詞典
遷移學(xué)習(xí)(Transfer Learning,TL)是一種利用數(shù)據(jù)、數(shù)據(jù)分布、模型任務(wù)等的相似性,將一個領(lǐng)域中已經(jīng)學(xué)習(xí)到的知識應(yīng)用到新領(lǐng)域的方法[77]。方面級情感分析是針對一個評論中涉及多種方面類別時的情感分析,現(xiàn)有方法通常利用方面級數(shù)據(jù)集在神經(jīng)網(wǎng)絡(luò)模型上直接進(jìn)行訓(xùn)練,但已標(biāo)注的方面級訓(xùn)練數(shù)據(jù)規(guī)模較小,導(dǎo)致模型不能充分學(xué)習(xí)而性能受限[44]。遷移學(xué)習(xí)非常有用,可用于將獲得的情感分類能力從一個領(lǐng)域轉(zhuǎn)移到另一個領(lǐng)域,快速構(gòu)建方面級數(shù)據(jù)集[78-79]。孫佳慧等通過目標(biāo)函數(shù)及注意力融合方法,將文檔級情感分析模型中的注意力權(quán)重融合到方面級情感分析模型中,從而使方面級文本情感分析性能得到提升[78]。
原有遷移學(xué)習(xí)模型輸出層使用的softmax功能僅支持單標(biāo)簽分類任務(wù),故原有遷移學(xué)習(xí)模型并不支持多標(biāo)簽分類[77-79];針對這一問題,陶杰(Tao J)等設(shè)計了一種多標(biāo)簽的語義分析方法,并在Yelp 數(shù)據(jù)集上做了驗證,效果超過基線[80]。另外在跨語言學(xué)習(xí)方面,苯索坦(Bensoltane R)等提出一種面向阿拉伯語的方面級情感分析遷移學(xué)習(xí)模型,該模型在方面術(shù)語提取、方面類別檢測任務(wù)的總體增強率分別超過基線6%和19%[81]。
近年來細(xì)粒度情感分析研究熱度很高,對于方面和觀點抽取、情感分類等基礎(chǔ)任務(wù)已經(jīng)有了很多研究與闡述[4,11,15,51-55],本文重點聚焦該領(lǐng)域的新近問題,探討細(xì)粒度情感分析的最新任務(wù)、關(guān)鍵技術(shù)與發(fā)展趨勢。
本文基于Citespace對文本細(xì)粒度情感分析領(lǐng)域文獻(xiàn)進(jìn)行了主題變化研究,研究發(fā)現(xiàn),方面級情感三元組抽取、多粒度情感分析、隱式情感分析、情感依賴關(guān)系抽取為本領(lǐng)域最新任務(wù),且取得了明顯的研究進(jìn)展。筆者認(rèn)為,隨著深度學(xué)習(xí)、遷移學(xué)習(xí)等技術(shù)在該領(lǐng)域的不斷深化,以上任務(wù)有望取得更大進(jìn)步。
盡管細(xì)粒度情感分析領(lǐng)域發(fā)展整體走勢良好,但長期以來一直橫亙于該領(lǐng)域科學(xué)研究與實際應(yīng)用之間的難點仍然存在,主要包括諷刺識別、復(fù)指與共指消解、語義消歧、跨語言情感分析等,這些難點不僅屬于文本細(xì)粒度情感分析領(lǐng)域,更是自然語言處理范疇需要解決的難題。
(1)諷刺識別
由于諷刺表達(dá)在我們?nèi)粘I钪斜粡V泛使用,而諷刺的復(fù)雜性和模糊性使得諷刺識別成為一項極具挑戰(zhàn)性的工作[82]。雖然一些研究者已經(jīng)開展了這方面的研究[82-84],其中:任路(Ren L)等采用基于BERT的方面級情感分析方法提取上下文關(guān)系,并確定其是否具有諷刺性,該模型在Reddit數(shù)據(jù)集上的F1值為73.4%[84]。但目前諷刺對象的精準(zhǔn)識別仍是難點,因為即便面對同一句話,不同的人對諷刺目標(biāo)的識別也可能會有很大差異[72]。
(2)復(fù)指與共指消解
復(fù)指與共指都是語言術(shù)語之間的相互參照關(guān)系[73]。在情感分析中,尤其是基于方面的分析中,識別代詞在句子中指代的具體內(nèi)容非常有用,有助于提取給定實體的所有方面。然而,現(xiàn)有的研究處理中,代詞通常被忽略或刪除。雖然已有一些學(xué)者研究了復(fù)指與共指算法[85-86],但該領(lǐng)域仍需深入研究與不斷改進(jìn)。
(3)詞義消歧
詞義消歧是在特定語境下正確識別詞義的過程。不同語境下,單詞的含義不同,這對細(xì)粒度情感分析非常重要。一些研究利用WordNet與深度學(xué)習(xí)方法相結(jié)合[72-73,87],來進(jìn)行詞義消歧,取得了一定進(jìn)展。如:阿布達(dá)拉噶(Abdalgader K)等提出了一種基于圖的語義消歧方法,該方法通過WordNet獲得所有可用語義信息,以增加圖形語義連接性,從而識別給定上下文中單詞的預(yù)期含義[73]。與現(xiàn)有的無監(jiān)督語義消歧方法相比,取得了優(yōu)異的性能,在SemEval-15基準(zhǔn)數(shù)據(jù)集上的ACC值達(dá)到83.9%。
(4)跨語言情感分析
在現(xiàn)有細(xì)粒度情感分析領(lǐng)域,大多數(shù)研究集中在英語[56]。由于不同語種的句法、語法都有較大差異,往往在英語基準(zhǔn)數(shù)據(jù)集上驗證可行的技術(shù)方法,移植到其他語種數(shù)據(jù)集上就不能適用。而對于非英語的情感分析研究而言,最大的問題是缺少足夠可用的語料庫,而構(gòu)建適合不同用途的語料庫往往需要很長時間,且花費大量人力,遷移學(xué)習(xí)為快速構(gòu)建相近領(lǐng)域的語料庫提供了一種方法[78-81],但從長期看,構(gòu)建多語言語料庫仍是一件非常基礎(chǔ)且非常重要的工作。
從以上難點來看,筆者認(rèn)為解決跨語言情感分析問題雖工程浩大,但從長期來看,已有英語語種的情感分析經(jīng)驗可以借鑒,遷移學(xué)習(xí)技術(shù)也日漸成熟,只要研究者們不斷付諸努力,仍然有望攻克此難題。詞典的運用可以從一定程度上輔助詞義消歧,但要想完全消除詞語歧義是不可能的,未來可結(jié)合GCN等深度學(xué)習(xí)技術(shù),提高詞義消歧效果。另外,諷刺識別、復(fù)指與共指消解這兩個難點需要在自然語言處理技術(shù)整體提高后,才有望解決。
文本細(xì)粒度情感分析的發(fā)展帶動著情感分析領(lǐng)域的整體發(fā)展,隨著新技術(shù)的不斷深化,領(lǐng)域難點將逐漸轉(zhuǎn)化為新任務(wù),各項任務(wù)的解決也推動著領(lǐng)域的不斷應(yīng)用與發(fā)展,未來該領(lǐng)域還將遇到新的機遇與挑戰(zhàn)。