999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合向量模型的中文評論情感分析

2020-01-16 08:24:36朱小棟高廣闊肖芳雄
計算機工程 2020年1期
關鍵詞:分類文本情感

陳 曦,朱小棟,高廣闊,肖芳雄

(1.上海理工大學 管理學院,上海 200093; 2.金陵科技學院 軟件工程學院,南京 211169)

0 概述

隨著信息技術的發展,電子商務已經逐步滲透到人們的日常生活中,在線評價在做出購買決策中起著一定的作用,挖掘這些評論的褒貶態度,從而識別人們對某種商品的購買傾向的過程,被稱為評論挖掘或情感分析。通過對這些互聯網商品評論的挖掘可以進一步探索其背后的經濟價值,探究消費者情感傾向與商品銷售情況的關系,進而為商家提供改善運營策略的意見[1]。

近年來,有較多學者在中文情感分類的問題上進行研究。文獻[2]提出一個基于客戶感知價值的產品特征挖掘算法,該算法采用情感分析技術實現對于評論中IT產品特征及其情感傾向的語義分析。文獻[3]基于拓展的情感詞典對中文微博進行主題偵察,建立和擴展情感詞典,通過情感分數的計算進行分類。文獻[4]通過詞嵌入word2vec方法,提取中國酒店評論的特征并放入分類器樸素貝葉斯(NB)、支持向量機(SVM)和卷積神經網絡(CNN)中進行對比,其中SVM在分類中表現最好。利用詞嵌入的方式可以有效地從評論文本中提取到詞語的信息(如某個詞在文本中出現與否或是出現的頻數)和詞語的層次信息(主要是指上下文的信息),但是無法提取出詞語中所表示情感的信息。因此將情感詞典與詞嵌入的方法融合可更全面地表達出評論中的信息。文獻[5]利用基于情感詞典和基于詞嵌入的方式生成了一個混合向量,在英文和希臘文上進行實證研究,其混合向量的模型不僅有較高的精確度,并且計算時間也相對較少。文獻[6]提出基于情感詞向量的微博情感分類方法,在CBOW模型訓練出來的初始詞向量進行相應的情感傾向調整,通過機器學習的方法,利用情感文本特征對文本進行分類。

本文提出一種情感Senti模型,基于情感詞典和語義規則提取出情感特征,通過與TF-IDF模型融合的方式來提高文本的分類效果,并在提取情感特征的過程中不考慮評論中的特有的產品屬性,從而增強該模型的通用性。

1 相關研究

文獻[7]對網絡評論情感分析關鍵技術進行歸納總結,主要分為3個方面的技術,即網絡信息源選擇技術、網絡評論評級過濾技術和情感傾向性識別技術。情感方向識別技術主要有3種方法:1)利用傳統機器學習算法對處理過的文本進行分類;2)基于詞典的方法計算情感分數,判斷文本的極性進而分辨文本的褒貶;3)前2種的方法整合,即運用兩者整合的方法進行極性判斷。

1.1 機器學習方法

由于中文情感分析相對缺乏而國外的英文情感分析研究更為成熟,因此國內學者通過將中文翻譯成英文的方法再利用有監督學習方法對文本進行分類,但是該方法需要克服翻譯過程中跨領域詞語具有不同含義的障礙。文獻[8]構建一個利用多種機器學習算法進行多數投票的系統,以便偵察TripAdvisor上虛假的酒店負面評論。文獻[9]提出利用機器學習算法包括樸素貝葉斯(NB)、最大熵分類(ME)和支持向量機(SVM)來解決情感分類問題,并運用n-grams模型和詞性提取電影評論的特征。此后,大量利用機器學習方法進行研究的學者都將重點放在了特征設計上面[10]。文獻[11]將研究重點放在了選取有效特征上,在總結前人的基礎上引入了六大類特征,通過添加不同類型的特征對SVM分類器進行比較實驗。文獻[4]利用詞嵌入的方式做中文的情感分類實證研究,并運用CNN算法進行分類。

1.2 基于詞典的方法

文獻[3]整合基本情感詞典、程度副詞詞典、消極詞詞典、網絡用語詞詞典、表情詞詞典和關系連接詞詞典等6種詞典,同時制定了情感分數計算的規則,最后根據分數是否大于零,判斷其積極還是消極(當分數為零時認為是中性)。文獻[12]提出一種基于依存句法的跨語言細粒度情感分析算法,通過對中文文本進行依存句法分析判斷詞語間的依存關系,利用語義規則提取情感評價單元,并運用機器翻譯的方法將中文翻譯成英文,最后通過與HowNet英文情感詞典進行匹配,進而判斷提取的情感評價單元的情感極性。該方法與單語言(HowNet中文情感詞典)的方法相比,分類效果更好。Turney[13]采用無監督的算法對文本進行情感分類,通過計算待判定的詞與“excellent”和“poor”之間的互信息PMI,求得兩者差值即為該詞的情感分值。然后計算整個評論中所有短語的互信息差異的平均值即評論的情感分值,該值的正負和大小分別表示評論的情感極性和強弱,基于詞典的方法的核心在于設計詞典和規則[12]。

文獻[14]采用在簡單句上使用樸素貝葉斯算法,在復雜句使用新的情感判斷規則的方法判斷情感極性,并提出一種基于句子情感權重計算規則的句子合成算法,用于文本級文本處理。與只利用樸素貝葉斯算法(NB)相比,該方法在精確度(precision)、召回率(recall)和F值(F1-Score)上都有所提升。文獻[15]在已有的模糊情感本體的基礎上,把產品的特征、情感類程度詞、否定詞、修飾方法和標點等語義元素抽取出來進行相關標注,設計了相關的情感計算方法,并在大眾點評網中采集上?;榧啍z影評論進行實驗,證明了該方法的準確性和應用性。文獻[16]整合了知網、臺灣大學以及大連理工大學3個部分情感詞典,通過輸入法的詞庫,篩選出150個具有強烈情感色彩的新的網絡詞匯,從而形成了基礎的情感詞典。根據程度詞和PMI算法,收集微博情感新詞,確定該詞的情感傾向,從而在微博領域建立情感詞典。另外還考慮了微博表情符號詞典、程度副詞詞典和否定詞詞典,按照語義規則進行情感計算以對情感進行分類。

1.3 機器學習方法與基于詞典方法的融合

文獻[17]提出基于詞典的機器學習分類方法,同時給出了智能分類的模型。通過選擇主觀性的詞作為特征,利用支持向量機(SVM)和廣泛使用的英文詞典SentiWordNet(這里主要用于識別詞性)來確定特征權重。智能分類的模型是指在十折驗證上提出了新的驗證方法來提高分類的效果,通過與多組最新實驗方法的結果進行比較,分類效果更好。文獻[5]利用情緒詞典將文本轉換成向量信息,并且同時考慮使用詞袋模型(BOW),生成了基于詞典的向量,在否定詞的情況下提出了兩種處理該向量的方法,包括反轉法和重復法。在此基礎上,加入word2vec模型,融合這些特征組成了混合向量。實驗結果證明該混合向量的方法不僅有較高的精確度還可以節省時間。文獻[18]在解決語句級別的情感分類問題上采用的是將詞典信息融入到支持向量機分類器中的方法。在Unigrams特征詞序列中插入包含在詞典中的情感詞的極性(positive或negative),再利用詞袋模型將特征詞序列轉化為特征向量,核心思想是將情感信息融入到語句的特征向量中。另外,文獻[19]利用基于情感特征的細顆粒度情感分析方法對中國產品評論分類,主要是通過句法分析提取相應特征,并與TF-IDF基準模型進行對比實驗,其提出的模型在積極/消極評價中的精確率(precision)、召回率(recall)和F1-Score上都有所提升。

文獻[20]將微博中的動詞和形容詞作為特征提取出來,然后采用層次結構方法對特征進行降維操作,基于表情符號計算特征極性值的方法被設計用于計算相關權重,最后借助SVM將文本分為了正面、負面和中性三類。文獻[21]為提高文本卷積神經網絡的輸入文本信息質量,提出利用詞性特征解決一詞多義問題(傳統詞向量無法識別),再結合卷積神經網絡模型進行分類,相比于傳統文本卷積神經網絡的方法,該方法分類效果更好。文獻[22]利用Twitter自身的語言特性和相關的情感字典資源設計了相關的2類特征,同時利用卷積神經網絡獲取Twitter文本詞向量,將這3類特征進行融合再利用SVM實現情感極性的分類,實驗結果證明該方法有效地提高了情感分類效果。

本文提出的優化模型的主要思想是在TF-IDF模型上加入文本中的語義情感信息,主要分為2個步驟:1)通過語義規則生成包含評論情感語義信息的向量;2)融合TF-IDF模型組成混合向量,再放入分類器MLP中進行對比實驗。由于TF-IDF模型只能傳達詞的出現與否以及在全部評論中該詞的重要性的信息,并沒有包含該評論中的情感的信息,因此,兩者的融合可以使情感信息發揮出優化的效果。

2 基于情感詞典的特征選取

本文采取的處理文本的方式是一種基于句子層面的特征提取,也可以理解為短文本的向量化。這里用標點符號作為劃分處理的基礎,一條評論被分為若干的句子,而每個句子由3個元素的列表組成并且每個列表具有其對應的權重。在文本的預處理階段使用了結巴分詞工具并且刪除一些常用的停用詞。

構建混合詞典:選用的是知網(Hownet)情感詞典和臺灣大學簡體中文情感極性詞典(NTSUSD),其中HowNet詞典包括程度級別詞(一共有214個)和正/負向情感詞。將HowNet詞典中的正/負向情感詞與NTUSD詞典中的正/負向詞進行合并去重,總共有正向情感詞6 506個,負向情感詞11 184個。

2.1 加權三元列表模型以及相關規則的構建

本節提出加權三元列表模型的結構和模型中元素取值的規則。加權三元列表(sentiList)的結構由下式表示:

sentiList=[adj,neg,pun]×adv×turn

公式中的元素是由量化后的情感詞(考慮到這里的情感詞大部分都是形容詞,用英文縮寫adj表示)、否定詞(neg)以及標點符號(pun)組成,并且由量化后的程度詞(adv)和轉折詞(turn)作為其列表的權重。這個模型的實現是通過python編程遍歷迭代文本信息實現的,本文將這個模型簡稱為Senti模型。

具體說來,一句話中將產生多個加權三元列表,將其拼接起來后就形成了Senti模型(每一句話由一條列表組成)。而本文基準模型(TF-IDF)則是在語料庫基礎上的詞頻乘以逆文檔數以后得到的一個大型矩陣,例如4 000條評論則生成的是4 000行的多維向量形成的矩陣,而每條評論再通過拼接的方式,與Senti模型融合,包括2種向量拼接方式,將Senti模型拼接到TF-IDF模型之前,稱為Senti-TFIDF模型,將TF-IDF模型拼接到Senti模型之前,稱為TFIDF-Senti模型??紤]到Senti模型中有了相關的權重,這里的拼接不再賦予權重,將2個拼接的模型視為同等重要的信息,并且方便直接與基準模型進行對比。與基準模型(TF-IDF)進行對比,本文Senti模型與基準模型融合可以起到優化預測的作用。

2.1.1 詞語分析規則

詞語分析規則如下:

1)形容詞(adj)的取值規則:當句子中出現正向情感詞時,列表中的第1個元素將被賦值為1。當句子中出現的是負向情感詞時,賦值為-1。若該句中多次出現同樣傾向的情感詞時,采取累加的方式,若出現不同傾向的情感詞,同樣使用累加的方式(正負號會相抵消)進行處理,如果句子中沒有出現情感詞,則值為0。

2)程度副詞(adv)的取值規則:程度副詞根據其語氣的強弱被分為6個級別(1~6是從弱到強),表1給出相應的示例及對應級別的得分。

表1 程度級別詞示例及對應的分數

程度詞(adv)作為權重,其量化公式(參考文獻[17]中的平滑操作)如下:

其中,n指一條評論中被分成了n個句子,i代表第i個句子,part(i)指第i個句子中出現的程度副詞對應的分數,all指所有句子中程度副詞的分數總和。

3)否定詞(neg)的取值規則:否定詞出現則列表中的第2個元素標記為-1,若否定詞出現2次則標記為1(這里認為雙重否定為肯定),若未出現,則該元素為0。

2.1.2 句型分析規則

標點符號(pun)的取值規則:考慮到人們中文的使用習慣,當人們使用感嘆號(!)時表示對物品的贊美和喜愛,使用疑問(?)時則表示對物品的質疑和不信任。因而在列表的第3個元素中加入該項,并且其初始化值為0,當出現感嘆號是標記為1,出現疑問時標記為-1。

2.1.3 句間分析規則

轉折關系(turn)的取值規則:考慮到句間的轉折關系,接下來的句子將意味著完全相反的意思。因而當有轉折詞出現時,這里賦予-1的權重。

2.2 文本信息提取

這里用多個循環語句從正向/負向情感詞典(sentiList_pos/sentiList_neg)、否定詞典(sentiList_Negation)、標點符號列表(punctuation_list)、轉折詞列表(sentiList_Turn)和程度副詞字典(sentiList_Adv)中遍歷每個句子中特征,不斷更新三元模型中的值。最后將一條評論中的三元組列表全部拼接起來形成一個新的列表,表示該條完整的評論。

算法1情感特征提取算法

輸入一個文本

輸出表示文本的情感信息的列表

1.np_content= [],np_content(i) = [0,0,0];

2.A text is divided intonsentences,each sentence can be represented as content(i);

3.for j in content(i):

4.if j in sentiList_pos:

5.np_content(i)[0] = 1

6.if j in sentiList_neg:

7.np_content(i)[0] =-1

8.for j in content(i):

9.if j in sentiList_Negation:

10.np_content(i)[1] =-1

11.temp = j

12.for j in content(i):

13.if j in sentiList_Negation:

14.if j! = temp:

15.np_content(i)[1] = 1

16.for j in punctuation_list:

17.if i in sentiList_pun:

18.if i in [‘!’,‘!’]:

19.np_content(i)[2] = 1

20.if i in [‘?’,‘?’]:

21.np_content(i)[2] =-1

22.for i in sentiList_Turn:

23.if j in sentList_Turn:

24.np_content(i) = (-1)*np_content(i)

25.for j in sentiList_Adv:

26.if j in sentiList_Adv:

27.np_content(i) = np_content(i)*((1+sentiList_Adv[j])/(n +sentList_Adv[j]))

28.for i in range(n):np_content.extend(np_content(i))

2.3 模型融合

本文選用經典的TF-IDF模型作為基準模型,根據其定義可知,此模型能提供文本中的詞頻信息。除此之外,還能提供評估評論中每個詞語在所有評論(語料庫)中的重要程度的信息。而三元列表模型表現的是文本中的情感信息,因此可以將2個模型通過拼接的方式整合在一起。當分類器獲得更多信息時,分類效果將會更精確。本文采用2種拼接方式,分別為TFIDF-Senti和Senti-TFIDF。

3 實驗與結果分析

3.1 語料庫來源

本文實驗用的數據(ChnSentiCorp)來源于由譚松波收集整理的覆蓋了不同領域的用戶評論。其中每個領域的評論數有4 000條,其中,2 000條正向評論,2 000條負向評論。本次實驗將樣本通過7∶3的比例分成訓練集和測試集,如表2所示。

表2 實驗數據基本資料

3.2 實驗流程

將原始的文本數據進行預處理,再把預處理后的文本放入不同的2種模型中生成2組矩陣。通過對2組矩陣數據的拼接生成提出的2種優化模型TFIDF-Senti和Senti-TFIDF。本文選用的多層感知機(Multi-Layer Perception,MLP)作為實驗的分類器,最后得出評論的極性,實驗流程如圖1所示。

圖1 本文融合模型實驗流程

3.3 評估標準

本文簡要介紹模型評判標準,主要是通過準確率和F1值來判斷模型的分類效果。準確度(accuracy)是指預測正確的比率,該指標能比較直觀地表達出預測的效果如何。而F1值是一個綜合了精確率(precision)和召回率(recall)的指標,計算公式如下:

3.4 實驗結果

從上述實驗結果可以看出,通過本文Senti模型整合TF-IDF模型而產生的TFIDF-Senti和Senti-TFIDF(利用信息融合方法)2種模型,最終達到了優化預測的效果,實驗結果如圖2所示。

圖2 2種優化模型與TF-IDF模型的F1值對比

Fig.2 Comparison ofF1 values between 2 optimization models and TF-IDF model

表3給出詳細實驗結果,從表3可以看出,Senti模型在這2組漢語語料庫(攜程酒店評論Ctrip_htl_ba_4000和當當書籍評論Dangdang_Book_4000)上的精確度和F1值都超過70%,說明Senti模型能夠從大量文本中提取到有用的信息。并且考慮到實驗中的文本信息來自酒店和書籍2個不同的領域,說明基于句子層面的粗顆粒模型方法具有較好的泛化性。通過與TF-IDF模型進行對比,整合后2種優化模型精確度更高,特別是前者TFIDF-Senti模型在前2組數據上均有超過一個百分點的提升,可以起到優化的作用。綜上可知,情感模型Senti在處理評論數據時可有效地提取出情感信息,并能夠在基于詞語信息的TF-IDF模型上起到優化(提高超過一個百分點)的效果。

表3 MLP分類實驗結果

4 結束語

本文通過建立加權三元列表模型提取文本中的情感信息,融合現有的TF-IDF模型并對其進行優化,利用情感詞典和語義規則提取情感信息,生成相應的情感矩陣,并融合多種包含不同信息的模型以提高分類器的分類效果。實驗結果表明,混合向量模型比單一的TF-IDF模型具有更好的分類效果。在本文的基礎上加入包含詞語含義信息的word2vec模型提高預測精度,或在擴展的情感詞典中整合網絡流行詞,使用更加細化的情緒詞典將情感詞具體量化將是下一步的研究工作。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 亚洲婷婷在线视频| 最新国产精品鲁鲁免费视频| 国产 在线视频无码| 日本人又色又爽的视频| 国产成人久久777777| 亚洲精品欧美日本中文字幕| 大香网伊人久久综合网2020| 国产亚洲精品在天天在线麻豆| 天天色天天综合网| 中文字幕在线欧美| 色悠久久久久久久综合网伊人| 无码丝袜人妻| 无码高潮喷水在线观看| 国产情侣一区二区三区| 欧美激情视频二区三区| 狠狠v日韩v欧美v| 激情综合五月网| 91麻豆精品视频| 国产在线拍偷自揄观看视频网站| 成人无码一区二区三区视频在线观看 | 日本在线免费网站| 九月婷婷亚洲综合在线| 日韩麻豆小视频| a免费毛片在线播放| 国产69囗曝护士吞精在线视频| 国产制服丝袜91在线| 乱系列中文字幕在线视频| 国产第一页免费浮力影院| 伊人激情综合网| 久久香蕉国产线看观看式| 露脸真实国语乱在线观看| 五月婷婷丁香色| 国产91视频免费| 97精品久久久大香线焦| 在线观看国产精美视频| 久久黄色影院| 国产美女丝袜高潮| 久久国产精品电影| 国产综合精品日本亚洲777| 色综合综合网| 国产在线视频福利资源站| 少妇人妻无码首页| 亚洲熟女中文字幕男人总站| 伦精品一区二区三区视频| 99精品高清在线播放| 99免费视频观看| 制服丝袜一区二区三区在线| 亚洲欧美在线精品一区二区| 日韩高清无码免费| 国产亚洲精品精品精品| 青青草一区二区免费精品| 人人爱天天做夜夜爽| 中文字幕av无码不卡免费| 中文字幕无码中文字幕有码在线 | 免费在线播放毛片| 久久亚洲中文字幕精品一区| 91极品美女高潮叫床在线观看| 精品国产aⅴ一区二区三区| 国产91麻豆视频| 四虎影视国产精品| 国产呦视频免费视频在线观看| 99热线精品大全在线观看| 亚洲第一黄片大全| 呦系列视频一区二区三区| 在线观看网站国产| 91免费观看视频| av在线5g无码天天| 免费中文字幕在在线不卡| 中文字幕佐山爱一区二区免费| 亚洲五月激情网| 国产爽歪歪免费视频在线观看| 国产成人在线小视频| 国产精品流白浆在线观看| 黄色一级视频欧美| 亚洲人成网站色7799在线播放| 国产精品吹潮在线观看中文| 在线国产资源| 精品一區二區久久久久久久網站| 国产h视频免费观看| 99re在线视频观看| 午夜老司机永久免费看片| 99国产在线视频|