999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

L2-SVM下的短文本情感分類動態CNN模型

2018-02-27 03:06:42魯新新
計算機應用與軟件 2018年1期
關鍵詞:分類特征文本

魯新新 柴 巖

(遼寧工程技術大學 遼寧 阜新 123000)

0 引 言

情感分類的目標是通過特定的方法分析、歸納和推理出該文本信息的創作者想要表達的情感、觀點和立場,進而可以通過相關主觀性信息將其劃分為不同的情感傾向類別。這一研究在產品評價、評價分析、輿情監控等方面具有廣泛的應用。

卷積神經網絡(CNN)被廣泛的應用到自然語言處理等領域,取得了較好的性能效果,諸如語義分析、實體識別、句子建模等。Santos等[1]提出利用兩個卷積網絡對短文本進行特征提取,一個提取字符特征,另一個網絡提取句子特征,結合兩者特征完成短文本情感。Wang[2]提出了聚合短文本語義的CNN方法,利用兩層CNN網絡提取短文本情感特征,采用K-mean完成文本情感聚類。Jebaseeli等[3]提出利用深度神經網絡進行Twitter短文本情感分類方法,通過提取詞向量中指定情感語義信息,構建情感分類系統,深度神經網絡采用全連接操作,模型訓練復雜。Yann等[4]提出帶有門機制的CNN用于文本分類,門機制和LSTM中輸出門相似,控制情感特征的選取在開放數據集取得比LSTM更好的效果。Kim[5]將卷積神經網絡模型應用到文本分類中,采用三層卷積網絡對文本數據進行建模,采用互熵目標函數,在不同文本評論數據集上表現出色。Kalchbrenner等[6]提出了動態卷積網絡,動態池化函數加入卷積層數和當前層數等特征,對比傳統的分類模型其效果有很大的提高。陳釗等[7]根據中文文本特征設計CNN結構用于中文情感分類,將情感詞典特征加入到網絡結構當中,構造情感字典增加人工開銷。李培等[8]提出基于深層次句法分析角度進行網絡數據情感傾向性分析,依存句法分析增加開銷,在處理短文本時候有一定局限性。黃志勇[9]提出基于SVM和深度學習的情感分類算法,將word2vec提取的詞向量直接輸入到SVM分類器中,未充分提取情感特性。Zhang等[10]提出一種基于LDA的樸素貝葉斯方法處理句子級別情感傾向性方法,盡管一些監督學習[11-12]方法取得很好性能效果,但是監督學習方法依賴人工特征工程。

針對中文短文本稀疏的特點, 特征工程依賴人工規則,CNN模型參數優化過程未考慮梯度彌散問題。本文提出一種基于L2-SVM和動態CNN情感分類模型解決傳統方法特征表述維數過高,文本表述稀疏問題。利用L2-SVM模型對參數進行優化,解決梯度彌散問題。在兩個真實評估數據集上的實驗, LDCNN能夠準確地發現文本中的情感極性,性能明顯高于經典同類方法。

1 卷積神經網絡模型

CNN層結構各有不同,但它們的基本結構是一樣的,標準的卷積結構包含卷積層、池化層和全連接層,見圖1。

圖1 卷積神經網絡基本結構

1.1 卷積運算

卷積運算通常是對兩個實值函數的一種數學運算。卷積運算公式:

(1)

第一個參數x稱為輸入,第二個參數w稱為核。離散形式的卷積:

(2)

1.2 池化操作

CNN中的池化層是對數據特征進行壓縮處理,起到數據降維作用,一定程度抑制過擬合現象。常見的池化操作分為:最大池化、K-Max池化和塊池化。

1.3 激活函數

(3)

式中:類別分布概率pi:

(4)

(5)

2 LDCNN模型

LDCNN模型見圖2,模型通過三次卷積操作,將原始輸入的文本轉化為頂層特征圖譜。給定,X={xi:xi∈Rd×1,i=1,2,…,n}為原始輸入文本,通過預訓練詞向量E,每一個文本xi映射為矩陣S∈Rd×s,其中d為詞向量維數,s為文本長度,W為網絡中權重向量。LDCNN模型定義一個非線性函數f(·):Rd×1→Rr×1(d?r),能夠將原始輸入X轉換為r維深度表述h。

圖2 LDCNN結構模型

2.1 LDCNN動態池化函數

為了解決模型特征提取過程中維數過高和文本位置特征信息缺失問題,采用動態K-Max函數,動態函數可以根據實際具體參數情況進行池化尺寸的調整,使得文本中位置信息能夠前向傳播到頂層網絡,保證文本特征提取的充分[13]。此時的k為動態函數,記為Φ(k),Φ(k)考慮到輸入句子長度,卷積網絡的深度,總的卷積層數。Φ(k)表達式如下:

(6)

式中:ktop為頂層最大池化數,L位總的卷積層數,|s|為句子長度,「?為向下取整操作。

2.2 LDCNN模型損失函數

針對經典CNN模型中互熵目標函數微分在反向傳播過程中對低層次特征提取不充分,參數更新過程當中出現維度彌散現象,利用L2-SVM作為損失函數。給定訓練數據(xn,yn),n=1,2,…,N,xn∈RD,tn∈{-1,1},帶有約束性的支持向量機:

(7)

目標函數:

(8)

對于測試數據,預測屬于的類別:

(9)

2.3 LDCNN參數優化

經典CNN分類模型當中,全連接層和卷積層利用互熵目標函數進行參數優化,學習底層的特征表述,優化過程中出現梯度彌散,低層次特征不充分的現象。L2-SVM和互熵目標函數的不同在于權重向量的優化過程。互熵函數通過極大似然估計或者最小化交叉熵,而L2-SVM挖掘不同類別數據點的最大邊緣,具有較好的可微可導性,正則化項對錯分數據懲罰力度更大。參數優化如下:

目標函數用J(w)表示。微分公式如下:

(10)

式中:I(·)為指示函數。對于全連接層中L2-SVM可以得:

(11)

局部連接權重和偏執向量的梯度向量為:

(12)

(13)

假設當前層為l,下一層為l+1,上一層為l-1,從l-1層到l層有:

(14)

卷積層l的各個神經元的δ只和l+1層的神經元有關,卷積層l到池化層l+1做了下采樣的運算,使得矩陣維度減小,因此,δl+1需要上采樣up還原卷積層維數,定義up運算為(2×2)為例:

(15)

因此,有:

(16)

(17)

(18)

公式符號見表1。

表1 公式符號

3 實驗參數

3.1 數據集

本文使用攜程網關于酒店評論情感數據集評估LDCNN模型。對語料進行預處理,包括中文分詞、移除標點和停用詞。處理完成的語料統計信息見表2。在LDCNN訓練過程中,隨機選取80%作為訓練集調試參數,20%作為測試集。

表2 訓練樣本

3.2 詞向量參數

為解決短文本中文本稀疏問題,針對傳統Bow模型表示短文本特征緯度高、特征稀疏程度大的問題。LDCNN模型采用word2vec[14]詞向量表述,word2vec超參數統計如表3所示。

表3 詞向量參數

3.3 LDCNN參數

為了充分提取短文本情感特征,文中關于卷積核尺寸設定考慮到中文短文本語義特性,采用LDCNN模型,其模型的超參數見表4。

表4 LDCNN模型參數

4 數值實驗

為了衡量LDCNN情感分類性能,采用準確率、錯誤率兩個指標進行定量分析。實驗方案[15-18]見表5。

表5 實驗方案

SVM(Uni)和SVM(Bi)方案采用人工提取(一元、二元)詞情感特征相對于LDCNN、LSCNN、SoftmaxCNN方案在準確性上不足;SoftmaxCNN方案采用互熵損失函數無法解決參數優化過程中梯度彌散問題;而LSCNN方案采用靜態池化不能充分依據實際情況提取情感特征;最后SSTM方案過分依賴情感詞典提取情感特征,過于局限;故通過上述分析比較可知LDCNN模型在短文本情感特征提取方面都優于上述方案。

4.1 情感分類結果分析

情感分類準確率結果見圖3。

圖3 情感分類準確率結果

LDCNN模型在epochs<5時保持增長的趨勢,在epochs=5時,保持穩定,SoftmaxCNN模型隨著迭代次數變化上下波動,穩定性差。驗證L2-SVM目標函數有效性。LDCNN模型平均準確率高于LSCNN,驗證動態K-Max池化操作的有效性。

為進一步驗證LDCNN分類性能,從召回率評價角度對模型進行評估。情感分類召回率結果見圖4。

圖4 情感分類召回率結果

隨著epochs增加,LDCNN和LSCNN對SoftmaxCNN召回率結果趨于穩定,說明L2-SVM損失函數相對于互熵損失函數能夠改善參數更新過程梯度彌散現象。而LDCNN模型召回率結果明顯高于LSCNN和SoftmaxCNN模型,說明LDCNN情感分類的有效性。

為了進一步說明L2-SVM目標函數(見2.3節)改善參數優化過程梯度彌散現象,圖5列出SoftmaxCNN和LDCNN權重的更新對比。

圖5 softmax和L2-SVM權重更新對比

參數更新開始時刻二者趨勢相當,上下波動,二者在權重更新時有交叉的部分。當epochs=5,LDCNN模型權重趨于穩定,不再變化,反觀SoftmaxCNN模型不停波動。說明L2-SVM能夠改善CNN參數優化過程中梯度彌散問題,提高模型泛化能力。

為了得到情感分類的最佳表現能力,驗證正則化參數對實驗結果的影響。通過調整L2-SVM的懲罰系數C改善實驗性能。設置不同參數C的實驗結果見圖6。

圖6 不同懲罰系數C下實驗性能

不同懲罰系數C>55對實驗性能有很大影響。當C=55,得到最高準確性,當C>55時,懲罰參數對錯分類別懲罰過大,造成正則化損失與數據損失失去平衡,模型性能下降。

4.2 文本稀疏性結果分析

為驗證LDCNN模型夠解決短文本中的稀疏性問題,各種經典方法識別情感極性錯誤率見圖7。

圖7 文本稀疏性結果

LDCNN隨著樣本數量的增多錯誤率明顯下降,體現LDCNN處理大規模樣本優越性。SVM模型在文本數據規模小的情況下,模型性能逼近LDCNN模型,但隨著樣本數據增多,SVM模型受限于時間和空間復雜度,線性不可分現象嚴重錯誤率顯著增高,說明SVM在處理大樣本數據具有一定局限性。

5 結 語

本文提出了一種面向中文短文本情感分析模型LDCNN。利用L2-SVM方法對LDCNN模型進行優化,解決了參數優化的問題。采用動態池化函數不僅對輸入樣本實際情況動態壓縮文本特征,而且還保存了文本位置特征信息。在兩個真實評論數據集上的實驗結果說明了該模型有效性,LDCNN模型具有深度學習優越特征,隨著樣本數據的增多,模型性能更加穩定。LDCNN模型不同于傳統的統計模型或者基于規則的模型需要大量的數據樣本,將本模型應用到更多更大的文本數據集,分布式LDCNN模型是今后的研究方向。

[1] Santos C N D,Gattit M.Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts[C]//International Conference on Computational Linguistics.2014:69-78.

[2] Wang P,Xu J,Xu B,et al.Semantic Clustering and Convolutional Neural Network for Short Text Categorization[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015:352-357.

[3] Jebaseeli A N,Kirubakaran E.A Survey on Sentiment Analysis of (Product) Reviews[J].International Journal of Computer Applications,2012,47(11):36-39.

[4] Dauphin Y N,Fan A,Auli M,et al.Language Modeling with Gated Convolutional Networks[DB].arXiv:1612.08083,2016.

[5] Kim Y.Convolutional Neural Networks for Sentence Classification[C]//Empirical methods in natural language processing,2014:1746-1751.

[6] Kalchbrenner N,Grefenstette E,Blunsom P,et al.A Convolutional Neural Network for Modelling Sentences[C]//Meeting of the association for computational linguistics,2014:655-665.

[7] 陳釗,需瑞峰,桂林.結合卷積神經網絡和詞語情感序列化的中文情感分析[J].中文信息學報,2015,30(1):71-89.

[8] 李培,何中市,黃永文.基于依存關系分析的網絡評論極性分類研究[J].計算機工程與應用,2010,46(1):138-144.

[9] 黃志勇.基于SVM和深度學習的情感分類算法研究[D].重慶:重慶郵電大學,2016:20-25.

[10] Zhang Y,Ji D H,Su Y,et al.Joint Naive Bayes and LDA for Unsupervised Sentiment Analysis[M]//Advances in Knowledge Discovery and Data Mining.Springer Berlin Heidelberg,2013:402-413.

[11] Pang B,Lee L,Vaithyanathan S.Thumbs up:sentiment classification using machine learning techniques[C]//Proceedings of ACL 2002:79-86.

[12] Kharde V A,Sonawane S.Sentiment Analysis of Twitter Data:A Survey of Techniques[J].International Journal of Computer Applications,2016,139(11):5-15.

[13] Jo Johnson R,Zhang T.Effective Use of Word Order for Text Categorization with Convolutional Neural Networks[C]//North a merican chapter of the association for computational linguistics,2014:103-112.

[14] Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and their Compositionality[C]//Neural information processing systems,2013:3111-3119.

[15] Zhang Y,Wallace B.A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification[J].CoRR,2015,16(1):105-119.

[16] Tang Y.Deep learning using linear support vector machines[DB].arXiv preprint arXiv:1306.0239,2013.

[17] 張紫瓊,葉強,李一軍.互聯網商品評論情感分析研究綜述[J].管理科學學報,2010(6):84-96.

[18] 熊蜀峰,姬東鴻.面向產品評論分析的短文本情感主題模型[J].自動化學報,2016,42(8):1227-1237.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 四虎精品国产永久在线观看| 国产区91| 亚洲欧美日韩成人在线| 精品国产免费第一区二区三区日韩| 最新国产精品第1页| 另类重口100页在线播放| 色呦呦手机在线精品| 国产成人高清精品免费软件| 国产视频a| 777国产精品永久免费观看| 欧美成人免费一区在线播放| 国产成人亚洲欧美激情| 国产丝袜精品| 亚洲制服丝袜第一页| 欧美精品成人一区二区视频一| 强奷白丝美女在线观看| 在线观看国产黄色| 亚洲第一成年免费网站| 在线观看国产黄色| 国产日韩欧美视频| 国产精品亚欧美一区二区| 国产高潮视频在线观看| 九月婷婷亚洲综合在线| 国产黄色片在线看| 色综合热无码热国产| 亚洲第一成人在线| 一本久道久久综合多人| 国产精品男人的天堂| 国产精品一线天| 亚洲天堂免费在线视频| 午夜精品国产自在| 97se亚洲综合| 免费a级毛片18以上观看精品| 91网址在线播放| 亚洲第一成网站| 五月婷婷亚洲综合| 伊人成人在线| 伊人天堂网| 综合色88| 欧美精品成人一区二区在线观看| 91久久国产成人免费观看| 欧美第九页| 亚洲香蕉伊综合在人在线| 自拍亚洲欧美精品| 亚洲天堂免费| 欧美成人手机在线观看网址| 午夜啪啪福利| 在线欧美一区| 青青青国产视频| 91亚洲影院| 伊人久久精品无码麻豆精品| 欧美在线天堂| 谁有在线观看日韩亚洲最新视频| 99视频在线看| a亚洲天堂| 久久亚洲中文字幕精品一区| 色噜噜狠狠色综合网图区| 精品国产网站| 国产激情无码一区二区三区免费| 全色黄大色大片免费久久老太| 91精品国产一区| 嫩草国产在线| 欧美综合中文字幕久久| 亚洲中文字幕久久无码精品A| 成人国产精品网站在线看| a毛片在线免费观看| 国产美女一级毛片| 国产综合欧美| 影音先锋丝袜制服| 真实国产乱子伦视频| 毛片网站在线播放| 精品国产美女福到在线直播| 国产午夜在线观看视频| 91精品啪在线观看国产| 午夜天堂视频| 亚洲欧美人成电影在线观看| 国产又粗又爽视频| 国产在线拍偷自揄观看视频网站| 伊伊人成亚洲综合人网7777| 欧美一区日韩一区中文字幕页| 制服丝袜国产精品| 全部免费毛片免费播放|