999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多層次語言特征的弱監督評論傾向性分析

2015-04-21 08:17:47王世泓
中文信息學報 2015年4期
關鍵詞:特征文本情感

牛 耘,張 黎,王世泓,魏 歐

(南京航空航天大學 計算機科學與技術學院,江蘇 南京 210016)

?

基于多層次語言特征的弱監督評論傾向性分析

牛 耘,張 黎,王世泓,魏 歐

(南京航空航天大學 計算機科學與技術學院,江蘇 南京 210016)

該文提出一種基于多層次語言特征的弱監督的情感分析方法, 先以少量情感詞構成初始情感詞典,用這些種子詞匯作引導,根據評論文本在單詞、短語及句子級別的語言特征結合上下文挖掘目標文本中潛在的具有情感傾向的詞匯/短語。通過自訓練不斷擴充情感詞典,最終得到一個具有領域特征的情感詞典,并用所得到的情感詞典對目標文本的情感傾向進行判斷。與其他方法在同一數據上的結果相比,該方法以很小的詞典規模取得了最高的F-score,并且得到的情感詞含義明確。方法用于不同領域也取得了較高的精度,表明方法具有較好的領域適應性。

情感分析;多層次語言特征;弱監督算法;情感詞典

1 引言

隨著互聯網對人們的生活習慣和生活方式日益深刻的影響,越來越多的人開始通過網絡表達自己的觀點。人們通過論壇、博客等網絡平臺發表自己對商品和服務的看法,這些看法常常帶有情感傾向性(表示對該產品或服務的支持或反對)。分析這些評論文本的情感傾向對于總結產品的優點與不足,了解用戶需求進行消費市場分析,以及預測未來市場需求,提高商業智能發揮著重要的作用。

情感分析(Sentiment Analysis)的主要任務即為自動識別評論的主觀情感傾向性,判定出作者對于所評價事物的態度是積極的還是消極的。情感分析因其廣泛的應用價值已成為自然語言處理領域的熱點研究方向。

情感分析研究的兩種基本策略為基于語料的方法和基于詞典的方法。基于語料的方法以監督算法為主[1-6],在訓練數據充足時能夠取得較高的精度。而基于詞典的方法則通常不依賴于特定領域的人工標注語料[7-9],因而對不同領域的適應性較好。采用基于詞典的方法進行情感分析需要解決兩個核心問題:(1)如何獲取高質量的情感詞(具有情感傾向的詞)形成情感詞典;(2)情感分析時如何利用上下文信息作出準確的判斷。在網絡高度發達的今天,評論領域以及評價對象的多樣性決定了很難有一個固定的情感詞典能夠滿足各種需求。動態產生適應領域特點的詞典才能更好地應對這種多樣性。另外,同一個情感詞與不同的上下文結合會表達不同的情感傾向。合理地考慮上下文的影響對于準確判斷評論的情感傾向是至關重要的。基于詞典的方法需要顯式地利用這種影響。因此,如何有效發揮上下文的作用成為基于詞典方法的另一個難點。

本文提出一種基于詞典的情感分析方法,通過結合上下文信息構造具有領域特征的情感詞典,并利用不同層次的語言特征進行中文評論的情感傾向判斷。

本方法僅需少量的表達情感的詞匯(情感詞)構成初始情感詞典。然后以這些種子詞匯作引導,根據評論文本在單詞、短語及句子級別的語言特征,通過一些簡單規則描述上下文的作用,進一步挖掘目標文本中潛在的具有情感傾向的詞匯/短語。并通過自訓練不斷擴充情感詞典,動態地產生一個具有領域特征的情感詞典。然后用所得到的情感詞典對目標文本的情感傾向進行判斷。在手機數據上的實驗表明,本方法取得了高于之前最好結果的F-score。將方法應用于不同領域產品中也取得了較高的精度,表明方法具有較好的領域適應性。并且,算法產生的具有領域特征的情感詞典將有助于產品特征的提取和進行針對具體產品特征的評價分析。

2 相關工作

情感分析研究至今已取得了很大的進展。算法方面,基于語料的有監督算法盡管取得了較高的精度,然而其對人工標注數據的依賴給它在不同領域的應用帶來困難。因此,基于詞典的無監督和弱監督方法也成為情感分析的重要途徑。

作為較早期的基于詞典的無監督方法,Turney提出了基于PMI-IR算法的語義情感分類思想[7]。分別以正向和負向的兩個代表情感詞“excellent”和“poor”為種子,根據目標短語與這兩個種子詞匯之間的互信息來判斷該短語的情感傾向,并最終判定出整篇文章的情感傾向。該方法需要大規模語料庫的支持。Hu 和 Liu[10]則通過人工方式構建了一個包括30個形容詞的初始情感詞集合,然后利用這些種子在WordNet中的同義和反義集合來預測更多形容詞的情感傾向。Zagibalov和Carroll則提取出文本中的否定副詞結構來自動產生種子集合[8]。Ye等針對中文的特點,在PMI-IR方法基礎上,探索了中文情感分析理論與方法[11-12]。

另外,一些弱監督算法試圖通過結合情感詞典與標注語料來彌補二者單獨使用的不足。其中有些算法將詞典與少量人工標注的評論文本結合起來產生情感傾向的分類器[13-14]。還有一些算法的情感分析過程分為兩個階段,首先利用情感詞典完成對評論文本傾向的初始判斷,然后利用其中比較可靠的結果來產生新的分類器對初始結果進行修訂[15-16]。

與本文最相近的工作為Zagibalov和Carroll提出的弱監督評論分析[8-9]以及Qiu等的自監督模型[15]。這二者工作中也利用自訓練方式產生情感詞典。然而,二者在產生情感詞時均未考慮上下文的影響。并且,在二者的工作中,構成情感詞典的詞條不是具有明確含義的中文詞,而是采用評論文本中n個連續的漢字(不包含標點)。因而生成的詞典對于理解應用領域的情感表達方式幫助甚微。與他們不同,本文采用意義明確的中文詞作為情感詞典的候選詞。構建詞典時,結合直接影響情感判斷的上下文形成最終的情感詞。這樣產生的情感詞典既有助于理解特定領域的情感表達特點,也有助于后續產品特征的提取和進行針對具體產品特征的評價分析。本文還從單詞、短語、句子多個層次綜合考慮上下文的作用來提高情感傾向判斷的精度。

3 方法概述

3.1 主要模塊

本文所建立的情感傾向分析模型以少量表達情感的詞為種子建立初始情感詞典,然后通過自訓練,以迭代的方式不斷擴充情感詞典最終完成對評論文本的情感傾向判斷。模型主要包含四個模塊: 數據預處理模塊,識別候選詞/短語模塊,情感詞典更新模塊,和情感傾向分析模塊。系統整體結構如圖1所示。下面先簡要介紹每個模塊的主要功能,第4節進行了詳細的闡述。

圖1 系統結構圖

1. 數據預處理。對評論進行分詞、詞性標注、劃分帶狀區等預處理。

2. 識別候選詞/短語。候選詞/短語是指可能成為情感詞的詞/短語。根據候選詞提取算法,從評論文本中選擇合適的詞或短語作為候選詞/短語。候選詞/短語進一步處理后可產生用于判斷情感傾向的情感詞。

3. 情感詞典更新。單詞(短語)根據其表達的情感可分為正向情感詞或者負向情感詞。情感詞典是所有情感詞的集合。為了判斷一個候選詞是否適合作為情感詞,首先要計算它的情感分數來衡量該詞所表達的主觀色彩強度。情感分數絕對值越大表明主觀色彩越強。情感色彩強烈的候選詞將被選擇作為情感詞,以迭代的方式更新詞典。每次迭代后的詞典會用來進行情感傾向判定。

4. 情感傾向分析。首先根據情感詞典判斷一個句子中的帶狀區的情感傾向。然后由該句中所有帶狀區的情感傾向判定出該句子的情感傾向。最后由評論所包含所有句子的情感傾向判定出整篇評論的情感傾向性(積極或消極)。

下面一節對這四個模塊進行詳細介紹。

4 基于多層次語言特征的評論情感傾向分析

4.1 數據預處理

在預處理階段,首先用分詞工具對評論文本進行分詞和詞性標注。然后利用評論中的標點符號*所用標點符號包括: 逗號,分號,問號,感嘆號,省略號,句號及對應的英語標點。為分隔符將一個句子劃分成多個帶狀區。每個區域為評論分析的最小單位。

4.2 識別候選詞/短語

構成評論文本的詞中很大一部分并不參與情感的表達(如數詞、介詞等通常都不表達情感)。如果簡單地把評論中的全部詞都作為候選詞,不僅會因保留大量無情感色彩的詞而給后續的情感詞識別帶來嚴重的噪音干擾,而且這些無情感色彩的詞會嚴重消耗算法的執行時間而直接影響系統的效率。因此,這里先從評論文本中識別可能表達情感的詞和短語作為情感詞的候選詞。

我們從詞性和上下文的作用兩個方面提取候選詞/短語。不同詞性的詞在表達情感傾向中的重要性是不同的。我們將詞性作為識別候選詞的一種依據。另外,同一個詞與不同的上下文結合會表達不同的情感傾向,孤立地分析詞語的情感傾向性很多時候并不能準確地把握該詞在一個具體評論中發揮的作用。因而,在詞情感傾向分析的基礎上,聯合能夠對情感傾向產生影響的上下文形成短語,進而對短語的情感傾向作出判斷,將有助于整個評論的情感分析。

本文根據評論文本的特點,對詞性特征以及上下文特征進行分析來提取候選詞/短語。上下文特征包括否定用法特征(分為否定詞和“不”短語兩種),趨勢詞特征以及狀態詞特征。

1. 詞性特征

能夠表達情感傾向的有形容詞、副詞、動詞、名詞等,而數詞、連詞、介詞、量詞等含有的情感信息較少。Rebecca[17]通過統計發現含有形容詞或者副詞的句子表達傾向性的概率達到55.8%,說明形容詞和副詞是表達情感的重要詞語。因此,我們把評論文本中的形容詞(如清晰、輕便、不錯)和副詞(如順手、剛好、最好)選為候選詞。

2. 結合否定詞構成候選短語

我們發現一些詞本身雖然沒有情感色彩,然而與否定詞搭配時表現出明顯的情感傾向,如表1所示。

常見否定詞有:沒、沒有、避免、免去、不是、不會、不算、不太、無。否定詞的詞性一般為動詞,并和它的賓語(通常是名詞)一起表達肯定或否定的態度。注意到與其他網絡用語類似,網絡評論往往采用比較簡潔的語言。表現在否定詞作為動詞時一般只帶有直接賓語,而雙賓語的情況比較少見。我們據此制定否定詞構成候選短語的規則:當前區域中沒有形容詞或者副詞時,選擇否定詞和它最近鄰名詞結合起來,作為一個候選短語。

表1 否定詞構成候選短語

3. 由趨勢詞構成候選短語

有些情況下,情感傾向并非由某個詞直接表達,而是通過描述某種變化反映出來。例如,增加正(負)向情感則整體上仍表達正(負)向情感,而若減少正(負)向情感則整體表達了負(正)向情感,如表2中例子所示。增/減趨勢詞即是表示增加或減少的動詞,包括增加、 減少、 防止。

表2 趨勢詞構成候選短語

一個帶狀區中增減性詞語的詞性經常是動詞,與最近鄰名詞結合表達出明顯的情感傾向。我們指定趨勢詞構成候選情感短語的規則為: 當前區域中沒有形容詞或者副詞時,選擇趨勢詞和它的最近鄰名詞結合起來,作為一個候選短語。

4. 由狀態詞構成候選短語

有些描述事物狀態的形容詞和副詞本身不表達情感,然而用于特定上下文中與其修飾限制的對象組合起來則表達了鮮明的肯定或否定情感。我們把這些詞稱為狀態詞。表3給出了例子。

表3 狀態詞示例

續表

形容詞性的狀態詞通常修飾的是最近鄰的名詞。因而,若一個狀態詞為形容詞,則將該狀態詞與最近鄰的名詞結合起來,作為一個候選短語。副詞性的狀態詞經常修飾最近鄰的形容詞。因此,若一個狀態詞為副詞,將它和最近鄰的形容詞結合起來,作為一個候選短語。

常見狀態詞如表4所示。

表4 狀態詞列表

5. “不”構成候選短語

“不”是表達否定,能對評論情感起到反轉作用的重要用詞。和前述否定詞構成候選短語中的否定詞不同,“不”一般作為否定副詞出現。它常被用來修飾它的右鄰接詞,對右鄰接詞的情感傾向起到反轉的作用。如表5所示。

表5 “不”對修飾成分的情感傾向反轉

基于這種觀察,我們將“不”與其否定的對象結合形成候選短語:

1) 如果帶狀區中出現單獨成詞的"不"字,取其右鄰接詞,將兩者結合起來作為一個候選短語。

2) 當“不”的右鄰接詞為前述狀態詞時,應先提取狀態詞構成的候選短語,再與“不”結合形成最終的候選短語。

最后,提取在語料中出現兩次以上的上述詞/短語作為最終的候選詞/短語。

4.3 情感詞典更新

初始情感詞典由所選擇的全部種子詞匯構成。在第一次迭代中,利用初始情感詞典對評論的情感傾向進行判斷。然后根據判斷的結果對所有候選詞/短語的情感分數進行計算,并根據計算結果更新詞典。下一次迭代中,更新后的詞典被用來進行新一輪的情感傾向判斷。如此,隨著迭代次數的增加情感詞典被不斷更新,直至達到迭代終止條件時得到最終版本的詞典。詞典更新分三個主要步驟完成。

1. 初始情感詞典建立

本文提出從情感傾向性和出現頻率兩個方面來約束種子詞匯的選擇。首先,一個種子詞必須有明確的情感傾向。其次,表達積極情感的種子詞匯在評論中的總頻率與表達消極情感的種子詞匯總頻率應該相當。

2. 情感分數計算

對于一個候選詞/短語,首先判斷它是否表達了某種(正向/負向)情感。具有情感傾向的候選詞/短語才會被選作情感詞/短語。如果一個詞出現在正向(負向)評論中的次數大于它出現在負向(正向)評論中的次數,那么它可能表達正向(負向)情感。在正負評論中出現的頻率差別越大,該詞的情感色彩越強。 候選詞/短語的情感傾向用情感區分度來衡量,如式(1)所示。

(1)

其中,Fp表示該候選詞出現在表達正向情感的評論中的頻率;Fn表示其出現在表達負向情感的評論中的頻率。

Difference的值越大表明候選短語的情感色彩越強。本文設定difference的閾值為1。當difference< 1時,表明該詞/短語情感色彩太弱,在識別評論的情感傾向時作用不大,因而不選擇作為情感詞。否則選擇該詞/短語為情感詞并按如下公式計算其情感分數。

若Fp>Fn,則

(2)

若Fp

(3)

3. 情感詞典更新

依據候選詞/短語的情感區分度difference和情感詞/短語的情感分數計算結果,按照以下步驟對情感詞典進行更新。

a) 當候選詞/短語的difference值滿足閾值條件時,候選詞/短語成為情感詞并計算其情感分數。如果情感詞典已包含該情感詞,直接更新其情感分數。否則,將該情感詞和它的情感分數添加到情感詞典。

b) 當候選詞/短語的difference值不滿足閾值條件時。檢查該詞/短語是否存在于情感詞典中,如果存在則從情感詞典中刪除該詞/短語。

4.4 情感傾向分析

一篇評論的情感傾向取決于它所包含句子的情感傾向,而一個句子的情感傾向又取決于它包含的帶狀區的情感傾向。

句子分為單句和復句,單句又分為疑問句、感嘆句等;復句又分為轉折復句、假設復句、條件復句等。由于句式和句型能夠直接影響句子的情感表達,本文在判斷帶狀區和句子的情感傾向時進一步考慮了句式和句型特征。下面詳細闡述了評論情感傾向的判斷過程。

4.4.1 帶狀區的情感傾向判斷

根據帶狀區中包含的情感詞/短語個數判斷該區域的情感傾向。如果積極的情感詞/短語個數大于消極的情感詞/短語個數,則判斷該帶狀區表達積極情感。反之則該區為消極的。若二者數目相同或該區不包含情感詞,則該區為中性。特別的,如果帶狀區中出現以下情況則結合相應規則進行判定。

1. 否定詞修飾

雖然在提取候選短語時考慮了否定詞的影響,但仍存在否定詞未被包含在候選短語中的情況。針對這種情況,在判斷帶狀區的情感傾向時制定如下規則: 沒有構成候選情感短語的否定詞對其所在帶狀區域中最近鄰的候選情感詞起到情感反轉作用。

2. 表示希望、愿望的句式

評論中對期望、希望或者愿望的表達常常意味著對目前產品狀況的不滿意,如表6所示。

表6 表示愿望的句式

常用來表示愿望的句式有: “要是…就好了”、“如果…就好了”,“加入…就好了”、“希望…”“應…”、“應該…”以及“最好…”。

當帶狀區采用表達愿望的句式時,則不需統計該區內部情感短語的個數,而直接判斷整個帶狀區的情感傾向為消極的。

3. 表示遺憾、失望的句式

以“哪怕”和“寧愿”開頭的區域常常表達消極情感。例如,

寧愿拿著1000元的手機+4000元的PDA也不要這破玩意。

哪怕有個MP3功能也算值了。

當帶狀區采用表達遺憾、失望的句式時,處理方式如下:

對于以“哪怕”或者“寧愿”開頭的區域,不需統計該區域內部情感短語的個數,而直接判斷整個帶狀區的情感傾向為消極的。

4.4.2 句子的情感傾向判斷

一般情況下,句子的情感傾向取決于該句所包含的所有帶狀區的情感傾向。當積極帶狀區個數大于消極帶狀區域的個數時,判斷該句子的情感傾向是積極的;反之該句是消極的。若二者數目相同或句子不包含具有情感傾向的區域,則該句為中性。

一類需要特殊處理的句子是采用轉折句型的句子。轉折句型包含兩個分句,常見句式有: “雖然…但是…”,“…,不過…”。當一個句子是轉折句型時,整個句子的情感傾向常常取決于第二個分句,如表7所示。

表7 轉折句式

因此,對于轉折句型的句子只根據第二個分句所包含的帶狀區的情感傾向判斷該句的情感傾向,即將前述句子判定規則僅用于第二個分句中。

4.4.3 評論的情感傾向判斷

一篇評論的情感傾向由其包含的所有句子的情感傾向決定。當表達積極情感的句子的數量大于消極句子的數量時,評論的整體情感傾向是積極的。反之評論是消極的。若兩者數目相同,或評論中不包含具有情感傾向的句子時,表示評論的情感傾向是中立的。

4.5 迭代終止條件

當兩次迭代后評論情感傾向的變化率低于閾值時終止迭代。

5 實驗結果與分析

實驗中采用中國科學院計算技術研究所的ICTCLAS分詞系統[18]對評論文本進行分詞及詞性標注。

5.1 數據集

第一個測試數據集是IT168網站上對手機產品的評論,包括2 317篇評論*由[6]提供: http://product.it168.com.。其中積極評論和消極評論的數目分別為1 159和1 158篇。為了評估弱監督迭代算法對于不同領域的適應性,本文選取對數碼相機的評論作為第二個數據集。本文作者在淘寶網上隨機抽取對數碼相機的評論并對其情感傾向進行了人工標注。共標注800條評論,其中400篇為正向評論,400篇為負向評論。表8列出了實驗數據集。

表8 實驗數據集

5.2 手機數據集上的實驗結果分析

表9為本文的弱監督迭代算法在手機數據上測試,對于積極評論的判斷結果*按照在評論中出現頻率相當的情感詞作為種子的原則,選擇的種子包括: “好”,“差”、“不好”和“不支持”。。

表9 手機積極評論實驗結果

No: 迭代次數;Cr: 覆蓋率; A: accuracy; P: precision; R: recall; F: F-score; Dict:詞典中的情感詞數量

表中覆蓋率(Cr)是指通過迭代算法判斷出積極和消極的評論篇數總和與數據集中評論總數的比值。第一次迭代使用種子詞對評論情感傾向進行判斷,覆蓋率僅達到39.1%。判斷的準確率為84.88%,精確率和召回率分別為80.09%和84.96%。隨著迭代次數的增加,情感詞典不斷被擴充,覆蓋率隨之上升,迭代結束時達到86.28%。從表中可以看到,迭代過程中情感傾向判斷的準確率、精確率和召回率都獲得了提高,最終取得93.65%的準確率,F-score達到93.61%。

我們將本方法與現有其他方法在上述手機數據集上的結果進行了比較,如表10所示。

表10 方法比較(手機積極評論)

在詞典規模上,文獻[9]中的詞典包括22 530個情感詞條。文獻[8]和[15]中未提及最終的情感詞條數,然而他們采用了與文獻[9]完全一樣的候選詞匯項。注意到文獻[15]中僅種子詞就有8 937個。而本文方法產生的詞典包含759個情感詞條,僅為文獻[9]的3.4%。利用如此小規模的詞典,本方法取得了高于其他方法的F-score。綜合來看,本文基于多層次語言特征的弱監督算法以很少的種子詞匯作為引導,經過較少的迭代次數取得了最高的精確率、召回率和F-score。

在表10所列的方法中,只有本文采用有明確意義的中文詞,并結合上下文產生候選短語,進而得到情感詞。其他三種方法所建立的情感詞典均只包含詞匯項(lexical item)。一個詞匯項為不包含標點符號的n個連續漢字。采用這樣的詞匯項存在兩個問題。第一,產生的情感詞條很多沒有明確的語義,因而很難對理解特定領域的情感表達方式有所幫助。第二,在一篇評論的所有詞匯項中,存在著很多無意義的元素。在迭代過程中可被看成是噪音數據,嚴重影響著整個系統的性能。如表10所示,文獻[9]從2 137篇評論中產生的情感詞條數為22 530,這些情感詞條還只是參與迭代的全部候選詞匯項的子集。而候選詞的規模直接影響到算法的運行效率。并且,自訓練法是從目標文本中生成情感詞典,因而隨著目標文本數量的增加,候選詞規模對算法效率的影響會更加顯著。而采用本方法產生的參與整個迭代過程的候選詞一共只有1 279個。表11分別列出了詞匯項(lexical item)和本文方法產生的最終情感詞的例子。從表中可以看出本方法所得到的情感詞典更有助于理解領域相關的情感表達方式以及進一步針對產品特征進行更加細致的情感傾向分析。

表11 n-元詞匯項與情感詞示例

本方法用于手機數據,對消極評論的判斷結果如表12所示(由于覆蓋率和準確率與表9中相同,這里不再重復)。

表12 手機消極評論實驗結果

如表12所示,經過迭代算法最終對于消極評論也取得了與積極評論相當的F-score,為93.68%。

5.3 淘寶數碼相機數據集上的實驗結果分析

表13和表14分別給出了本文算法在數碼相機數據集中積極和消極評論上的實驗結果*種子詞包括: 不錯,清晰,佳,便宜,很快,差,假,壞,不好,高價,失望,模糊。。

表13 數碼相機積極評論實驗結果

表14 數碼相機消極評論實驗結果

如表13、14所示,本文方法在數碼相機數據上也取得了較高的準確率(89.72%),覆蓋率達到88.75%。隨著迭代次數的增加,情感詞個數逐漸增多。第三次迭代后積極評論和消極評論都取得了最高的F-score。迭代四次后,更多的候選詞被判定為負向情感詞。負向評論的召回率因此有所上升但其精確率有所下降而導致F-score稍有下降??傮w來說,對積極評論和消極評論均取得了較高的F-score。表明方法對不同領域有著較好的適應性。

5.4 不同特征集合的實驗結果分析

本文從多個層次提取了語言特征用于識別情感傾向。為進一步了解各種特征在情感識別中的作用,我們對不同特征組合的結果進行了分析。實驗表明有些特征,如“狀態詞”對全局產生影響。如果不考慮 “狀態詞”特征會導致全部評論被判定為消極。表明由狀態詞產生的候選短語對于情感識別發揮了重要的作用。而去除“趨勢詞”和“否定詞”以及表達句式的特征都會導致識別精度的降低。相對而言,表達句式的特征的去除使得精度下降更大。表15顯示了去除這兩組特征后在手機數據上的情感分析結果。

表15 不同特征組合在手機數據上的實驗結果

續表

all: 全部特征 F(Pos):積極評論的F-score F(Neg):消極評論的F-score

為了解導致評論的情感傾向誤判的主要原因,我們從情感詞選擇和情感傾向判定規則兩個方面對被誤判的評論進行了錯誤分析。分析表明,情感詞選擇錯誤主要有兩個方面。一是副詞的錯誤較多,很多不帶有情感傾向的副詞被選作了情感詞,例如,“太”,“確實”,“盡量”,“非常”等。在下一步的工作中應考慮對副詞進行專門的分類處理。二是有些帶有情感傾向的詞未被選出,例如,“好聽”,“尷尬”,“失真”等。情感傾向判定規則方面,一個重要原因是對否定用法的處理不夠全面。評論中表達否定的方式非常多樣,給制定全面、準確的否定規則帶來困難。一些否定的例子如下: 就不怎么爽了;不能使用;效果不如WAV;就是聽不見聲;鈴聲不夠大。因而需要制定更細致的規則以適應各種否定的表達方式。

6 總結

本文提出基于多層次語言特征的弱監督的情感分析方法進行中文評論的情感傾向判斷。該方法僅需少量的情感詞作引導,根據評論文本在單詞、短語及句子級別的語言特征結合上下文動態地產生一個具有領域特征的情感詞典。然后用所得到的情感詞典對目標文本的情感傾向進行判斷。實驗結果表明了方法的有效性。與現有其他方法在同一數據上的結果相比,本文方法以很小的詞典規模取得了最高的F-score。方法用于不同領域的數據也取得了較高的精度,表明方法具有較好的領域適應性。并且,方法產生的具有領域特征的情感詞典有助于進一步提取產品特征和進行針對具體產品特征的評價分析。

目前方法中種子情感詞的選擇仍需人工干預,下一步的工作將致力于尋找有效的自動選擇種子詞匯的途徑。另外,還將探討規則中用到的特殊詞匯如狀態詞等的自動獲取方法。

[1] Bo Pang, Lilian Lee. A sentiment education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd Meeting of the Association for Computational Linguistics. 2004.

[2] H Yu, V Hatzivassiloglou. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. 2003.

[3] Wang S, Manning C D. Baselines and Bigrams: Simple, Good Sentiment and Topic Classification[C]//Proceedings of the 50th Meeting of the Association for Computational Linguistics. 2012: 90-94.

[4] 傅向華,劉國,郭巖巖,郭武彪.中文博客多方面話題情感分析研究[J].中文信息學報,2013,27(1): 47-56.

[5] 王志昊,王中卿,李壽山,李培峰. 不平衡情感分類中的特征選擇方法研究[J]. 中文信息學報,2013,27(4): 113-118.

[6] 謝麗星,周明,孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J]. 中文信息學報,2012, 26(1):73-84.

[7] Turney P D.Thumbs up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceeding of Association for Computational Linguistics 40th Anniversary Meeting. 2002:1417-1424.

[8] Zagibalov T, J Carroll. Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text[C]//Proceedings of Coling-08,2008:1073-1080.

[9] Zagibalov T, J Carroll. Unsupervised classification of sentiment and objectivity in Chinese text[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing (IJCNLP), Hyderabad, India, 2008:304-311.

[10] M Hu, B Liu. Mining Opinion Features in Customer Reviews[C]//Proceedings of the Association for the Advancement of Artificial Intelligence(AAAI), 2004:755-760.

[11] Ye Q, Lin B, Li Y J. Sentiment Classification for Chinese Reviews: A Comparison between SVM and Semantic Approaches[C]//Proceedings of the 4th International Conference on Machine Learning and Cybernetics ICMLC2005(IEEE). 2005,4(8):2341-2346.

[12] Ye Q, Shi W, Li Y J. Sentiment Classification for Movie Reviews in Chinese by Proved Semantic Oriented Approach[C]//Proceedings of the 39th Annual Hawaii International Conference on System Sciences. 2006.

[13] Li T, Zhang Y, Sindhwani V. A non-negative matrix tri-factorization approach to sentiment classification with lexical prior knowledge[C]//Proceedings of the joint conference of the annual meeting of the association for computational linguistics and the international joint conference on natural language processing of the asian federation of natural language processing (ACL-IJCNLP). 2009: 244-252.

[14] Melville P, Gryc W, Lawrence R D. Sentiment analysis of blogs by combining lexical knowledge with text classification[C]//Proceedings of the 15th ACM SIGKDD conference on knowledge discovery and data mining(KDD). 2009: 1275-1284.

[15] Qiu L, Zhang W, Hu C, et al. Selc: A self-supervised model for sentiment classification[C]//Proceeding of the 18th ACM conference on information and knowledge management(CIKM). 2009: 929-936.

[16] He Y, Zhou D. Self-training from labeled features for sentiment analysis[J]. Information Processing and Management, 2011, 47: 606-616.

[17] Rebecca Bruce, Janyce Wiebe. Recognizing Subjectivity: A Case Study in Manual Tagging[J]. Natural Language Engineering, 1999, 5(2):1-16.

[18] 劉群,張華平,俞鴻魁,程學旗.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.

Weakly Supervised Sentiment Analysis Based on Multi-level Linguistic Features

NIU Yun, ZHANG Li, WANG Shihong,WEI Ou

(School of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics,Nanjing, Jiangsu 210016, China)

In this paper, a weakly supervised sentiment analysis approach is proposed. A few words are collected to construct an initial sentiment lexicon. These seed words are used to mine potential sentimental words in the target text. In this process, linguistic features at multi-levels are explored and the role of the context is examined. The lexicon is expanded iteratively, and the final version is applied to classify the sentiment of a target document. Compared to results of previous studies on the same data, this approach achieves the best F-score while the constructed sentiment lexicon is rather small. The experimental results also show that this approach is robust when applied to a texts of different domains.

sentiment analysis; linguistic features; weakly-supervised method; sentiment lexicon

牛耘(1974—),博士,副教授,主要研究領域為自然語言處理,情感分析,生物信息文本挖掘。E-mail:yniu@nuaa.edu.cn張黎(1984—),碩士,主要研究領域為自然語言處理,情感分析。E-mail:julianazhang@aliyun.com王世泓(1990—),碩士,主要研究領域為自然語言處理,情感分析。E-mail:wsh_014@nuaa.edu.cn

1003-0077(2015)04-0080-09

2013-07-21 定稿日期: 2013-12-29

國家自然科學基金(61202132);教育部高等學校博士學科點專項基金(20103218120024);中央高?;究蒲袠I務費專項資金(NS2012073)

TP391

A

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 色播五月婷婷| a级毛片免费网站| 久久久久人妻一区精品| 国产成人综合日韩精品无码不卡| 久久久久久久久18禁秘| 特黄日韩免费一区二区三区| 亚洲不卡av中文在线| 亚洲无码高清一区| 国产极品美女在线播放| 亚洲成肉网| 99久久无色码中文字幕| 亚洲成A人V欧美综合| 黄色片中文字幕| 久久国产精品电影| 精品视频一区在线观看| 99久久免费精品特色大片| 日本久久免费| 嫩草影院在线观看精品视频| 手机成人午夜在线视频| 99中文字幕亚洲一区二区| 国产在线观看人成激情视频| 亚洲国产系列| 日韩123欧美字幕| 国产啪在线91| 国产精品9| 日韩毛片基地| 在线免费亚洲无码视频| 亚洲国产欧美中日韩成人综合视频| 99久久国产精品无码| 日本午夜影院| 欧美国产日本高清不卡| 亚洲成aⅴ人片在线影院八| 色偷偷一区| 国产簧片免费在线播放| 亚洲免费人成影院| 91毛片网| 在线观看免费国产| 22sihu国产精品视频影视资讯| 国内自拍久第一页| 久久久噜噜噜| 亚洲综合香蕉| 8090午夜无码专区| 欧美日韩午夜| 国产成人h在线观看网站站| 久久精品欧美一区二区| 亚洲av中文无码乱人伦在线r| 亚洲日韩国产精品无码专区| 欧美午夜在线播放| 国产靠逼视频| 少妇人妻无码首页| 国内精品视频在线| 成年人国产网站| 亚洲乱强伦| 亚洲天堂成人在线观看| 亚洲国产精品日韩专区AV| 新SSS无码手机在线观看| 熟女日韩精品2区| 久青草网站| 自拍偷拍欧美日韩| 亚洲欧美另类中文字幕| 国产菊爆视频在线观看| 婷婷六月综合网| 欧美精品影院| 国产精品久久自在自线观看| 国产精品免费p区| 亚洲精品中文字幕无乱码| 色偷偷一区| 欧美中日韩在线| 亚洲精品色AV无码看| 欧美午夜网站| 国产精品专区第1页| 亚洲天堂免费在线视频| 国产爽歪歪免费视频在线观看| 国产va免费精品观看| 思思热在线视频精品| 青青操视频在线| 国产午夜人做人免费视频中文 | www.99精品视频在线播放| 成人噜噜噜视频在线观看| 女人毛片a级大学毛片免费| 欧美a级完整在线观看| 国产免费观看av大片的网站|