999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度特征的句子級文本情感分類

2016-05-11 06:58:27劉玉嬌
現代計算機 2016年9期
關鍵詞:分類特征文本

王 波,劉玉嬌

(四川大學計算機學院,成都 610065)

?

基于深度特征的句子級文本情感分類

王波,劉玉嬌

(四川大學計算機學院,成都610065)

摘要:

研究詞深度特征池化法的句子級情感分類特征表示,在進行詞向量學習時,首先利用中科院分詞器對語料進行分詞,通過word2vec中的CBOW模型計算語料中詞的深度特征詞向量;在情感分類過程中,首先對詞深度特征采用均值、最值等池化方法獲得整句話的特征,并以此作為神經網絡模型的輸入,通過一個線性層、Sigmoid激活層以及線性分類標注層,來判決得到該句的情感傾向。通過在當當書評語料上進行實驗,結果表明均值與最值池化拼接的特征方法取得較好的分類效果,能夠更好地表征句子級情感特征。

關鍵詞:

文本情感;極性判別;深度特征;Sigmoid

四川省科技支撐計劃項目(No.2012GZ0091)、四川大學青年基金項目(No.2012SCU11033)

0 引言

隨著網絡技術的快速發展,網絡營銷已成為一種極為重要的銷售模式,如果能夠獲取用戶對所銷售產品的態度,將對優化產品性能、提升產品服務具有極其重要的作用。網上交易平臺的在線評論功能為了解用戶態度提供了可能,但事實上通過人工模式了解評論文本中客戶態度費時費力,不能滿足海量評論數據處理的需要,研究如何利用機器學習的方法自動挖掘客戶態度十分必要。

目前挖掘用戶態度信息主要通過情感分類[1-3]算法實現,主流的文本分類方法多為基于詞典或基于語料兩類。

基于詞典的分類方法是利用專有情感詞典或中文意義詞典(如HowNet)中詞語的語義相似度或層次結構來判別詞語的情感極性,得到詞語情感極性后通過多種聯合判決方法得到句子的極性[4-5]。朱艷輝等[6]利用基礎情感詞詞典、連詞詞典及詞語距離,提出了一種基于多重詞典的中文文本情感特征抽取算法,證明了其方法優于HM,SO-PMI和詞語語義距離等經典的特征抽取算法。劉玉嬌等[7]則提出了基于情感字典與連詞結合的中文文本情感分類,其做法是首先利用基礎情感詞典以及基準詞對所研究領域的評論文本進行分析,以此獲得特定領域具有感情傾向的特征詞語,而后利用基準詞及獲得的特征詞對評論進行分析,對有感情詞的句子,采用計算感情值來判別其感情傾向及感情程度,對無感情詞的句子,采用連詞的方法來進行感情的判別,并通過實驗證明了該方法能夠對不同領域的評論得到較好的感情分類效果。

基于語料庫的方法主要是利用句子中詞語之間的統計特征來判別詞語的情感極性[8-11]。Turney[12-13]采用點互信息PMI-IR以及LSA兩種方法識別特征感情詞。在PMI-IR方法中,采用了搜索引擎“NEAR”方法來獲得共現率作為兩個詞語關聯程度的依據,證明了PMIIR方法優于LSA方法。徐健鋒[14]等人在使用信息增益對高維文本做特征降維的基礎上,將優化的語義理解和機器學習相結合,設計了一種新的基于混合語義理解的機器學習中文情感分類算法框架,并通過多組對比實驗驗證了其在不同領域文本領域中高且穩定的分類精度。

本文提出了以中文文本的詞深度特征池化方式來獲取句子級情感特征表示,并以此作為情感分類的神經網絡模型的輸入,通過該模型最終得到句子的情感傾向。

1 分詞

中文分詞是指將一個漢字序列切分成單獨的詞語的過程,即將連續的字序列按照一定的規范重新組合成詞序列。

本文主要采用中科院的ICTCLAS2016分詞器對語料進行分詞,并在分詞過程中過濾掉停用詞。

2 深度特征獲取

對詞的表示最早的方法為獨熱(one-hot)表示,該方法把每個詞表示為一個長向量。此向量的維度是詞表大小,其中絕大多數元素為0,只有一個維度的值為1,該維度即代表了當前詞,這種獨熱表示方式如果采用稀疏方式存儲,將會非常簡潔,但也存在維度大,以及“詞匯鴻溝”現象,即所有詞之間都是孤立的,僅從這兩個向量中看不出兩個詞是否有關聯。

而目前最熱、應用范圍最廣的詞特征表示主要基于深度算法學習得到,詞特征向量很好地體現了詞在統計語料中的語義分布特征,可以通過計算向量之間的距離來體現詞語之間的相似性。

對詞深度特征獲取本文采用CBOW模型訓練詞向量[15],特征維度選擇通常為50和100,本文在進行詞向量訓練時,取維度為50。

在CBOW模型中,訓練目標是給定一個詞的上下文[16],預測該詞出現的概率,結構圖如圖1所示。

圖1 CBOW模型結構

其中w(t)為當前詞語(向量),w(t-2),w(t-1),w (t+1),w(t+2)為當前詞語的上下文,SUM為上下文的累加和。

CBOW的優化目標是:給定詞序列w1,w2,…,wT,最大化下式(1),

其中T為整個序列的長度,2c為窗口長度。對于上式中的參數主要采用層級Softmax(Hierarchical Softmax)方法進行求解。則整體的模型結構如圖2所示。

圖2 CBOW+ Hierarchical Softmax結構

輸入層:包含Context(w)中2c個詞向量v(Context (w)1),v(Context(w)2),v(Context(w)2c)∈Rm,這里m表示詞向量長度Context(w)表示當前詞w的上下文。

投影層(隱藏層):將輸入層的2c個向量作求和累加,即:

輸出層:輸出層對應一棵二叉樹,它以語料中的詞作為葉子結點,以詞在語料中出現的頻次作為權值構造出來的Huffman樹。在這棵Huffman樹中,葉子結點共N(=|D|,對應詞典D中的詞個數)個,非葉子結點N-1個(即圖中標成黃色的結點)。其中上下文向量Xw連接到每一個非葉子節點上作為判決因子。

在一段上下文中詞w出現的概率可以表示為如下公式(2),其中lw為根節點到詞w的節點個數,dwj表示節點j為其父節點左或右子節點(0或者1表示)。

其中,

或者表示為:

對于由所有句子組成的語料庫C有式(3)。

取對數似然函數則為式(4)所示:

其中,公式(13)中包含了兩個參數,分別為X、θ,對于參數的求解則采用梯度下降法,即令:

則,對應參數的更新公式如下式(7),(8)所示。

3 文本情感分類

3.1深度特征池化

本文采用均值池化方法獲取句子的深度特征深度學習模型的輸入。映射圖層如圖3所示。

圖3 詞向量映射

嵌入層即為第三節中獲取的深度特征,層級f中的向量為池化結果,f'為均值池化、最大化池化、最小值池化的鏈接結果,以此作為極性判別模型的輸入特征。

3.2句子級情感分類

根據文獻[17]的啟發,本文對句子的極性判斷模型采用圖4所示的網絡框架進行分類。

網絡輸入為池化后的句子特征,輸出為句子的情感極性標注圖,其中h(π|S)表示句子S中的情感標注值,π為積極或消極。

圖4 分類模型

(1)分類標注分值

假設分類網絡中的參數為γ,則該分類網絡的輸出可以利用函數的形式表示為:

對于輸入的句子S,分類網絡將對其可能的每一個極性進行分值計算,得到的輸入向量可表示為:

其中,權值矩陣W2∈RH1×150,W2∈R2×H1,以及偏置向量b2∈RH1,b2∈R2均為需要訓練的參數,H1表示第一層隱藏層的隱單元個數(可調參數),激活函數g選用sigmoid函數:

(2)分類推斷

給定一個句子S,通過特征網絡及分類標注網絡后可以得到一個分類標注分值矩陣hγ(S),整個句子的得分可以定義為:

其中c表示兩類極性:即積極或消極。句子S的情感類別c*計算如下:

(2)分類模型訓練

模型訓練主要利用訓練數據確定標注網絡中的參數γ=(W2,b2,W3,b3),而參數的訓練通常采用最大似然估計法進行參數的估計,即最大化式(16):

其中S表示句子的特征,π表示該句子所對應的分類序列,該句子通過網絡后分類為π序列的概率如下:

公式(14)的最大化可利用隨機梯度下降算法進行求解,該方法是一個反復迭代的過程,每輪迭代都會從訓練數據中隨機選取一個樣本(S,π),并對修正參數。

其中,α為學習步長,是可調參數,梯度可通過BP算法計算。

從公式(15)可以看出,計算復雜度隨著句子的長度成指數級增長,計算量較大,所以本文采用與文[17]相同的訓練方法進行網絡訓練,即類感知機算法[18],具體訓練方法詳見文獻[17]。

4 實驗

4.1實驗語料

本文語料主要來源于數據堂中的當當書評語料,具體數據如表1所示。

表1 語料數據

本文將該語料劃分為訓練集和測試集,劃分語料為訓練數據以和測試數據的比例為4:1。

4.2對比方法

法1:詞向量(CBOW)最大化池化;

法2:詞向量(CBOW)最小化池化;

法3:詞向量(CBOW)均值池化;

法4:均值、最值池化連接。

4.3評價標準

對每一類極性,均采用準確率(P)、召回率(R)以及F值作為評價標準。定義如下:

其中Ci∈{消極、積極}。

4.4情感分類實驗

(1)識別效果比較

四類方法結果對比效果如圖5所示。

圖5 消極評論分類對比圖

圖6 積極評論分類對比圖

從圖5、圖6可以明顯看出,池化連接組合方式(法4)優于其他算法。由此可以證明在產品評論語料中連接組合池化方法比其他池化法效果更好,能夠更好表示句子級情感特征。

(2)參數對結果的影響分析

本節主要對分類網絡中的可調參數(迭代次數)進行考察。本文算法在當當書評測試語料上的F1值隨著迭代次數變化曲線如圖7、圖8所示。

圖7、圖8給出了各算法在消極評論分類以及積極評論分類上F1值隨著迭代的變化曲線圖,從圖中可以看出,迭代次數達到200次時,F1值變化較小,說明此時訓練較為充分,可以看出再迭代次數的增加,性能的變化不大。

圖7 消極分類F1隨迭代次數變化圖

圖8 積極分類F1隨迭代次數變化圖

5 結語

本文首先獲取詞深度特征,然后采用均值與最值池化鏈接的特征方法獲得句子的深度特征,并將整個句子的深度作為一個整體向量輸入到情感判別模型中,最終獲得該句子分別屬于兩種極性的分數,根據分數的大小獲得了最終的情感傾向。與均值與最值池化方法相比,本文利用鏈接池化方式獲取句子的整體特征,提高了獲取長依賴特征的信息量,在當當書評數據上的實驗結果表明,該方法能夠有效提升感情分類效果。

參考文獻:

[1]Yang A M,Zhou Y M,Lin J H. A Method of Chinese Texts Sentiment Classification Based on Bayesian Algorithm[C]. Applied Mechanics and Materials. Trans Tech Publications,2012,263: 2185-2190.

[2]Xianghua F,Guo L,Yanyan G,et al. Multi-Aspect Sentiment Analysis for Chinese Online Social Reviews Based on Topic Modeling and HowNet Lexicon[J]. Knowledge-Based Systems,2013,37: 186-195.

[3]Wang H,Yin P,Yao J,et al. Text Feature Selection for Sentiment Classification of Chinese Online Reviews[J]. Journal of Experimental & Theoretical Artificial Intelligence,2013,25(4): 425-439.

[4]王勇,呂學強,姬連春,等.基于極性詞典的中文微博客情感分類[J].計算機應用與軟件,2014,31(1): 34-37.

[5]孫建旺,呂學強,張雷瀚.基于詞典與機器學習的中文微博情感分析研究[J].計算機應用與軟件,2014,7: 177-181.

[6]朱艷輝,栗春亮.一種基于多重詞典的中文文本情感特征抽取方法[J].湖南工業大學學報,2011,25(2):42.

[7]劉玉嬌,琚生根,伍少梅,等.基于情感字典與連詞結合的中文文本情感分類[J].四川大學學報(自然科學版),2015,1: 012.

[8]Zhang D,Xu H,Su Z,et al. Chinese Comments Sentiment Classification Based on Word2vec and SVM Perf[J]. Expert Systems with Applications,2015,42(4):1857-1863.

[9]Huang Z,Zhao Z,Liu Q,et al. An Unsupervised Method for Short-Text Sentiment Analysis Based on Analysis of Massive Data[M]. Intelligent Computation in Big Data Era. Springer Berlin Heidelberg,2015:169-176.

[10]Yuan Z,Purver M. Predicting Emotion Labels for Chinese Microblog Texts[M]. Advances in Social Media Analysis. Springer International Publishing,2015:129-149.

[11]Zhao Y,Niu K,He Z,et al. Text Sentiment Analysis Algorithm Optimization and Platform Development in Social Network[C]. Computational Intelligence and Design(ISCID),2013 Sixth International Symposium on. IEEE,2013,1:410-413.

[12]Turney Peter.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.USA:Association for Computational Linguistics.2002:417.

[13]PETER D. Turney,MICHAEL L. Littman. Unsupervised Learning of Semantic Orientation from a Hun Dred-Billion-Word Corpus[R]. Tech. Rep. EGB-1094,National Research Council Canada:2002.

[14]徐健鋒,許園,許元辰,等.基于語義理解和機器學習的混合的中文文本情感分類算法框架[J].計算機科學,2015,42(6): 61-66.

[15]Google等. Word2Vec[CP/DK]. https://code.google.com/p/word2vec/,2013

[16]Mikolov T,Chen K,Corrado G,et al. Efficient Estimation of Word Representations in Vector Space[J]. arXiv Preprint arXiv:1301. 3781,2013.

[17]Zheng X,Chen H,Xu T. Deep Learning for Chinese Word Segmentation and POS Tagging[C]. EMNLP,2013: 647-657.

[18]Ng H T,Low J K. Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based?[C]. EMNLP. 2004: 277-284.

王波(1986-),男,碩士研究生,知識工程

Classification of Texts Sentiment Based on Deep Feature for Sentence Level

WANG Bo,LIU Yu-jiao
(College of Computer Science,Sichuan University,Chengdu 610065)

Abstract:Studies the pooling method of sentence level sentiment classification characteristic, to learn the word vector, uses ICTCLAS2016 to segments the sentences of corpus, and the depth feature vectors are calculated by CBOW model in word2vec. In the classification of texts sentiment, gets the sentence feature by pooling the word depth features in a variety of ways, which is the input of neural network model. And then, those features will input a linear layer, sigmoid active layer and a classification linear layer to get the sentence emotional tendencies. The results of Book Review Corpus in Dangdang shows that the combination of the meaning and extreme value pooling method can achieve better classification results, which have a better express to characterize the sentence level emotional features.

Keywords:Text Sentiment; Polarity Judgment; Depth Features; Sigmoid

收稿日期:2016-03-10修稿日期:2016-03-20

作者簡介:

文章編號:1007-1423(2016)09-0003-06

DOI:10.3969/j.issn.1007-1423.2016.09.001

基金項目:

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产视频欧美| 日本亚洲国产一区二区三区| 69视频国产| 亚洲AV无码一区二区三区牲色| 伊人久久精品无码麻豆精品| 亚洲综合专区| 国产粉嫩粉嫩的18在线播放91| 国产一级视频久久| 无码国产偷倩在线播放老年人| 久久久久亚洲AV成人人电影软件 | 亚洲免费黄色网| 欧美视频免费一区二区三区| 国产素人在线| 九九热这里只有国产精品| 免费A∨中文乱码专区| 中字无码av在线电影| 国产杨幂丝袜av在线播放| 成年人久久黄色网站| 精品撒尿视频一区二区三区| 国产黄在线免费观看| 精品视频免费在线| 国产欧美精品一区aⅴ影院| 日本亚洲欧美在线| 国产一区二区色淫影院| 凹凸精品免费精品视频| 第九色区aⅴ天堂久久香| 久草视频中文| 美女一区二区在线观看| 91九色视频网| 找国产毛片看| 国产日韩欧美在线播放| 激情乱人伦| 精品成人一区二区三区电影| 国产亚洲欧美在线人成aaaa| 午夜a视频| 国内视频精品| 谁有在线观看日韩亚洲最新视频| 欧美成人怡春院在线激情| 亚洲国产第一区二区香蕉| 成人国产精品视频频| 国产性生交xxxxx免费| 午夜一级做a爰片久久毛片| 全部免费特黄特色大片视频| 国产精品无码在线看| 亚洲无码四虎黄色网站| 国内精品视频区在线2021| 99偷拍视频精品一区二区| 在线亚洲小视频| 韩日免费小视频| 日韩A∨精品日韩精品无码| 婷婷综合缴情亚洲五月伊| 国产区在线观看视频| 久久免费观看视频| 亚洲中文在线看视频一区| 国产91丝袜在线播放动漫| 国产人成网线在线播放va| 一级黄色网站在线免费看| 亚洲一区二区约美女探花| 99re视频在线| 国产拍揄自揄精品视频网站| 小说区 亚洲 自拍 另类| 在线观看国产精美视频| 天天色综网| 97青草最新免费精品视频| 婷婷久久综合九色综合88| 国产精品爽爽va在线无码观看 | 日本一区二区三区精品视频| 国产成本人片免费a∨短片| 成人国产精品2021| 久久影院一区二区h| 欧美日韩91| 国产不卡在线看| www.99在线观看| 国产福利免费视频| 亚洲日韩图片专区第1页| 日本影院一区| 国产福利免费视频| 久久国产热| 亚洲无线国产观看| 国产黄色免费看| 无码综合天天久久综合网| 在线人成精品免费视频|