999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于細粒度多通道卷積神經網絡的文本情感分析

2020-05-18 11:07:16戴月明
計算機工程 2020年5期
關鍵詞:文本情感模型

王 義,沈 洋,戴月明

(江南大學 物聯網工程學院,江蘇 無錫 214122)

0 概述

文本情感分析主要是通過對文本中前后內容的學習來判定該文本所對應的情感極性。對于傳統的淺層模型而言,由于其特征表示方法限制,使得詞與詞之間相互獨立,且擬合能力有限,因此會丟失較多的語言特征,無法充分學習上下文信息,而詞向量的出現,為深度學習在自然語言處理領域的應用提供了技術基礎。

文獻[1]將循環神經網絡(Recurrent Neural Network,RNN)用于文本情感分析,該方法在影評數據集上的分類性能比支持向量機(Support Vector Machine,SVM)和卷積神經網絡(Convolutional Neural Network,CNN)有5%的提高。文獻[2]建立將CNN用于句子分類,其模型主要分為4層:第1層為輸入層,用詞向量順序排列表示模型的輸入;第2層為卷積層,通過設置多個卷積核來學習詞與詞之間的關系;第3層為池化層,采用最大池化技術進行特征篩選,得到其中最重要信息;第4層為帶有全連接的softmax層,用以計算每個類別的概率。實驗結果證明將卷積神經網絡用于情感分析任務是有效的,但文獻[2]模型主要針對英文語料進行處理。文獻[3]提出一種Seq_CNN模型,該模型以One-hot文本表示方法作為CNN通道的輸入,但由于One-hot方法會導致數據維度過高,使得情感分類的效果不佳。文獻[4]提出了雙通道CNN模型,區別于傳統的CNN模型,該模型使用詞向量以及字向量2個通道作為CNN模型的輸入。文獻[5]提出以CNN的卷積層作為圖像的特征提取層,將SVM分類器用于分類。CNN在文本情感分析中的實踐和應用基本以單通道輸入為主,這種單通道的輸入會導致CNN模型的學習能力單一,無法充分學到語義信息。由于圖像分別是由RGB 3個顏色的通道結合而成,因此CNN模型的多通道輸入主要應用于計算機視覺方面。文獻[6]則采用了動態和靜態2個詞向量的雙通道作為CNN模型的輸入。

結合中文文本的復雜性,本文構建細粒度多通道的卷積神經網絡模型FG_MCCNN用于文本情感分析。以詞性對向量和細粒度字向量輔助原始詞向量作為模型的輸入,使用原始詞向量捕獲句子間語義信息。通過詞性對向量進行詞義消歧,利用細粒度字向量得到句子更深層次的信息,同時選用不同尺寸的卷積核學習更優質的語義信息,以提高情感分類效果。

1 卷積神經網絡

卷積神經網絡是深度學習中的一種重要網絡,是基于人工神經網絡的經典前饋神經網絡[7]。卷積神經網絡自提出以來,在模式識別領域得到廣泛應用,引起了學術界和工業屆學者的巨大關注[8]。隨著深度學習技術的發展,大量研究將卷積神經網絡運用到自然語言處理中[9]。

卷積神經網絡的結構主要由輸入層、卷積層、池化層、全連接層和輸出層組成[10]。其中,一般文本在輸入層轉化為Embedding,然后接入卷積層,通過卷積層來提取句子的特征,并通過池化層進行特征采樣,一般采用下采樣獲得局部最優值,從而減少網絡的規模[11]。由于CNN可以學習中文句子中的抽象特征并且不需要人工干預[12],得到的特征可以直接作為分類器的輸入,而且利用CNN的多層結構可以發現句子內部更高層次的抽象特征[13],并且在一定時間范圍內完成訓練,因此卷積神經網絡在自然語言處理中取得了較好的應用效果[14]。

2 細粒度的多通道卷積神經網絡模型

2.1 詞向量

在中文文本中,詞語的表達語義是基本單元[15]。基于傳統的文本特征表示方法只是停留在詞語的表層進行處理,如One-hot的基本假設就是詞之間的語義和語法關系是相互獨立的,一方面無法捕捉到詞與詞之間的相似度[16],另一方面也存在維度爆炸問題,隨著詞典規模的增加,詞袋模型的維度變得越來越大,矩陣也變得超稀疏[17],從而導致耗費大量計算資源。而詞向量的出現,有效解決了文本特征表示的相關問題[18]。所謂的詞向量就是采用神經網絡來訓練語言模型,并在訓練中生成的一組向量。本文利用word2vec工具來訓練文本詞向量模型。詞向量模型是考慮詞語位置關系的一種模型,其利用大量語料數據集的訓練,將每個詞語映射到高維度的向量中,并且通過計算余弦判斷2個詞語之間的相似度[19]。由于卷積神經網絡在訓練時的參數量較大,因此容易導致訓練出的模型過擬合。針對該問題,本文使用預先訓練的詞向量作為輸入。

2.2 字向量

與英文文本不同,中文文本在訓練前需要進行分詞的預處理操作[20]。常用的分詞工具有很多,然而這些分析工具不可避免地會存在一些分詞不準確的問題。例如:“最近上映的電視劇大長今很火”分詞后為“最近/上映/的/電視劇/大長/今/很/火”;“這幢建筑高大上”分詞后為“這幢/建筑/高大/上”。在這兩句中,“大長今”“高大上”均為一個詞,然而經過分詞后,切分為了“大長/今”“高大/上”,導致分詞后改變了詞的原義。這種情況主要來自于各類的專有名詞,如人名、地名、縮寫詞、新增詞等。為減少分詞不準確對文本情感分析的影響,本文采用細粒度的字符劃分方法,并用字向量作為模型的另一個通道的輸入,用以輔助詞向量學習深層次的語義信息。

2.3 詞性對向量

詞向量模型能夠將中文文本的單詞映射為底維向量,避免傳統BOW模型采用的One-hot編碼帶來的維度災難[21]。在中文文本情感分析中,由于中文存在大量多義詞,例如“他作為學生代表發表了講話”“他代表小王參加比賽”,在這兩句話中都存在“代表”一詞,前一句中的“代表”是名詞,后一句中的“代表”則是動詞,這種現象在中文文本中極為常見,但傳統詞向量模型在訓練時無法識別單詞的歧義,當詞向量作為模型的輸入時會產生噪音。因此,本文假設一條長度為n的評論X={x1,x2,…,xn},利用詞性標注技術獲取分詞后詞語的詞性P={p1,p2,…,pn},將詞語與該詞語詞性進行結合,得到詞性對序列W={(x1,p1),(x2,p2),…,(xn,pn)}。例如(代表,名詞)、(代表,動詞),將該序列作為詞向量訓練模型的輸入,得到相應的詞性對向量。本文將詞向量與詞性對向量共同作為模型的輸入,一方面利用詞向量保證模型可以學習到充分的語義間信息,另一方面以詞性對向量輔助詞向量避免多義詞對詞向量的噪聲影響,從而改善文本情感分類的效果。詞性標注實例如下:

例1他 r;作為 v;學生 n;代表 n;發表 v;了 ul;講話 n。

例2他 r;代表 n;小王 nr;參加 v;比賽 vn。

2.4 FG_MCCNN模型

本文建立的FG_MCCNN模型主要包含以下3個部分:

1)使用京東等一些電商大平臺的大量評論進行字向量和詞向量的訓練,以獲得高質量的詞向量。使用詞向量、字向量以及詞性對向量作為模型3個通道的輸入,使用字向量和詞性對向量輔助詞向量,詞向量可以更好地學習語義信息,細粒度的字向量更能刻畫文本的基本特征,詞性對向量則可以有效減少多義詞的噪聲影響。相同詞向量由于語言模型的不同,詞與詞之間的相關性也不同,因此在卷積層采用不同尺寸的卷積核進行卷積操作,學習語句內部更深層次的特征,確保在不同通道可以獲取相應的局部特征。

2)池化層采用最大池化進行特征篩選,最大池化可以使得在輸入不同長度文本的情況下得到相同的輸出長度。

3)在文本情感分析任務中,為避免傳統卷積神經網絡中的全連接層參數太大,導致過擬合的問題,FG-MCCNN模型直接使用最大池化后的特征作為分類器的輸入,并輸出文本情感分析分類的概率。

本文構建的細粒度多通道卷積神經網絡模型結構如圖1所示。

圖1 FG_MCCNN模型結構

2.5 FG_MCCNN模型構建

細粒度的多通道卷積神經網絡模型FG_MCCNN主要有以下4個部分組成:

1)輸入層

采用word2vec訓練詞向量、字向量以及詞性對向量,并通過預訓練的詞向量減少參數量過大的影響,以防止過擬合。假設詞向量的維度為K,則一條長度為n的評論句可以描述為:

X1:n=X1⊕X2⊕…⊕Xn

(1)

根據2.3節中詞性對向量的表示方法W={(x1,p1),(x2,p2),…,(xn,pn)},詞性對向量的輸入可描述為:

W1:n=W1⊕W2⊕…⊕Wn

(2)

2)卷積層

在文本情感分析中,卷積層的作用在于利用窗口滑動即卷積操作來提取文本數據的局部特征。一般采用h×k維大小的卷積核進行卷積操作,其中h為卷積核的高度,n為詞向量的維度。為盡可能捕獲更多的上下文信息,一般會設置多組高度不同的卷積核進行操作,但隨著卷積核的增加,訓練效率會隨之下降,因此,本文選擇使用3組卷積核,分別為h=3、h=5、h=7用來對輸入的詞向量D1、字向量D2以及詞性對向量D3進行卷積運算,計算公式如下:

Chi=f(WhXi:i+h-1+b),h=3,5,7

(3)

(4)

當卷積核在長度為n的文本上滑動時,本文設置卷積步長S=1,因此,當卷積核在長度為n的文本評論中滑動完成后,可得到n-h+1個輸出,最終得到的特征向量C為:

C=Ch,1,Ch,2,…,Ch,n-h+1,h=3,5,7

(5)

3)池化層

池化層主要負責對卷積層獲得的特征進行二次篩選,同時輸出一個固定大小的矩陣,降低輸出結果的維度。由于在卷積層的計算中使用了不同尺寸的卷積核,會導致通過卷積層計算后得到的向量維度會不一致,因此在池化層的過程中,采用最大池化,即將每個特征向量最大池化成一個值,也就是選取每個特征向量的最大值用來表示該特征,而且認為這個最大值表示的是最重要的特征。假設C(2)為經過不同卷積核最大池化后的特征向量圖,其計算公式如下:

C(2)=max(Ch,1,Ch,2,…,Ch,n-h+1),h=3,5,7

(6)

假設每組的卷積核的數量為m,最后池化層的輸出為C(3),則C(3)可以表示為:

(7)

4)合并層

由于本文采用三通道的輸入,需要將3個通道D1~D3經過最大池化提取的特征向量進行合并,從不同通道捕獲更多信息。假設最終的文本特征向量集合為C(4),可表示為:

(8)

2.6 FG_MCCNN模型訓練

(9)

(10)

由此可知,當目標函數LLoss最小,函數的損失值接近0時,訓練樣本的值和實際輸出值之間就越接近。同時,本文模型訓練使用Adam算法最小化目標函數,并且利用反向傳播算法進行實時參數的更新。

3 實驗結果及分析

3.1 實驗語料集

本文所采用的語料集主要包含手機、電腦等相關產品的中文評論,以及譚松波老師所整理的當當網書評以及酒店評價等。經過數據的整合后,共采用25 000條評論,其中包含12 500條正向評論和12 500條負向評論。本文所采用的數據集網址為https://pan.baidu.com/s/1o9pYXYi。此外,為驗證模型的有效性,本文將數據集中的80%作為訓練語料集,20%作為測試語料集。FG_MCCNN模型的參數設置如表1所示。

表1 FG_MCCNN模型參數設置

3.2 實驗步驟

本文采用預訓練的詞向量和字向量進行卷積計算,具體的實驗步驟如下:

1)對原始文本采用jieba分詞以及去除停用詞操作。此外,為訓練詞性對向量,對文本進行詞性標注以獲取相對性詞性對。

2)使用word2vec預訓練詞向量以及詞性對向量,訓練的語料選用爬蟲獲得的京東、美的等各大電商的評論數據。

3)將分詞后的結果轉換為詞序列以及詞性對序列,使每個詞都有相應的索引值。

4)將具有唯一索引的詞序列以及詞性對序列輸入到詞向量以及詞性對向量表中,找出相對應的詞向量和詞性對向量作為本文模型2個通道的輸入。

5)將原始文本處理為單個字符。

6)使用word2vec預訓練字向量。

7)將分詞后的字符轉化為具有相應索引值的字符序列。

8)將具有唯一索引值的字符序列輸入到字向量表中,找到對應的字向量,生成相應的矩陣作為模型另一個通道的輸入。

9)使用式(8)所示的目標函數訓練模型。

10)基于測試語料集測試模型性能并對結果進行分析。

3.3 結果分析

對比實驗1為驗證FG-MCCNN模型的有效性,本文將其與以下經典模型進行對比:

1)邏輯回歸模型(LR):使用word2vec訓練詞向量,用邏輯回歸分類器進行文本情感分類。

2)靜態詞向量模型(Static_CNN):模型訓練時,詞向量維持不變。

3)非靜態詞向量模型(Non_Static_CNN):模型訓練時,詞向量會進行微調。

4)雙通道卷積神經網絡模型(DC_CNN):采用雙通道即用非靜態詞向量和靜態詞向量2個通道進行卷積計算。

5)One_Hot_CNN模型:采用One_hot作為CNN模型的輸入進行卷積計算。

6)CNN+SVM模型:利用CNN進行特征提取,利用SVM分類器進行文本情感分類。

本文主要采用準確率以及F1值作為評價指標衡量各個模型的效果,針對實驗結果,選取測試集準確率最高的作為相應模型的準確率和F1值,如表2所示。

表2 FG_MCCNN模型與經典模型的分類性能對比

從表2可以看出,與其他模型相比,FG_MCCNN在F1值和準確率上具有優勢,分別為0.955和0.956,其中Non_Static_CNN相對于Static_CNN取得了較好的分類效果,說明微調的詞向量有助于提高分類效果,DC_CNN取得了僅次于FG_MCCNN的效果,而One_Hot_CNN與CNN+SVM的F1值以及準確率相對較低,這主要由于SVM對于卷積操作后所產生的大量特征的學習能力不強,而One_Hot_CNN的輸入特征則忽略了評論句的語義信息。本文的FG_MCCNN模型在F1和正確率上相較于DC_CNN提高了0.015和0.014,其通過引入細粒度的字向量以及詞性對向量增強了模型的學習能力。

對比實驗2為驗證FG_MCCNN模型的性能,本文分別采用字向量的單通道卷積神經網絡模型(Word_CNN)、詞向量的單通道卷積神經網絡模型(Char_CNN)以及詞性對向量的單通道卷積神經網絡模型(WP_CNN)進行對比實驗,在不同迭代次數下,各個模型的分類正確率和F1值如圖2和圖3所示。

圖2 FG_MCCNN模型與單通道CNN模型的正確率對比

圖3 FG_MCCNN模型與單通道CNN模型的F1值對比

由圖2以及圖3可以看出,FG_MCCNN模型與單通道卷積神經網絡模型相比,正確率和F1值均有明顯的提高。與基于詞向量和詞性對向量的單通道卷積神經網絡模型相比,FG_MCCNN模型在正確率和F1值這兩個指標上均提高了約1%左右,與基于字向量的單通道卷積神經網絡模型相比,FG_MCCNN算法在這兩個指標上均提升了約1.5%。實驗結果表明,FG_MCCNN算法通過整合不同通道獲取的特征信息,使得模型學習到更有豐富的信息,從而得到比單通道模型更好的結果。

對比實驗3為進一步驗證FG_MCCNN模型的性能,本文設計3組雙通道對比實驗,分別采用詞向量與字向量的雙通道卷積神經網絡模型(Word_char_CNN)、詞向量與詞性對向量的雙通道卷積神經網絡模型(Word_WP_CNN )以及字向量與詞性對向量結合的卷積神經網絡模型(Char_WP_CNN)3組雙通道實驗,進行實驗結果進行比較,選取不同的迭代次數,對比實驗結果如圖4和圖5所示。

圖4 FG_MCCNN模型與雙通道CNN模型的正確率對比

圖5 FG_MCCNN模型與雙通道CNN模型的F1值對比

由圖4和圖5可以看出,FG_MCCNN模型相對于其他3種雙通道組合的卷積神經網絡算法,性能均有小幅度的提升:與基于詞向量和詞性對向量的雙通道卷積神經網絡模型相比,正確率和F1值提升約0.5%;與基于詞向量和字向量的雙通道卷積神經網絡模型相比,正確率和F1值提升約0.3%;與基于字向量和詞性對向量的雙通道卷積神經網絡模型相比,正確率和F1值提升約0.2%。可以看出,加入細粒度的字向量以及詞性對向量作為模型的輸入,對于模型分類效果的提高均有一定的作用。

對比實驗4為驗證FG_MCCNN模型在較大數據集下相對于淺層機器學習算法具有較好的分類效果,本文分別采用詞袋模型(BOW)+SVM以及Word2vec+SVM進行對比實驗,實驗結果如圖6所示。

圖6 FG_MCCNN模型與SVM模型的分類性能對比

由圖6可以看出,在使用SVM算法的2種分類模型中,采用word2vec進行詞向量訓練的分類模型效果優于采用BOW詞袋模型進行文本表示的方法,這主要由于傳統的詞袋模型忽略了評論語句中的語義信息,而通過word2vec訓練詞向量捕獲評論語句中的語義信息,使得SVM分類效果得到提高。本文FG_MCCNN模型在正確率和F1值上都明顯高于采用SVM的2種模型,說明在大數據集的評論語句情感分析中,淺層機器學習方法的擬合能力欠佳,分類效果一般,而本文提出的FG_MCCNN模型表現則較好。

4 結束語

本文結合中文評論語料的特點,針對傳統CNN模型無法充分利用文本特征信息和識別中文文本多義詞的問題,構建一種新的文本情感分析模型FG_MCCNN。該模型分別通過詞向量、詞性對向量和字向量3個通道進行卷積計算,利用詞性對向量消除多義詞的干擾,采用細粒度的字向量學習更深層次的語義信息。實驗對比結果表明,FG_MCCNN在中文文本情感分類上相較于對比模型具有更好的表現。下一步將研究如何提高該模型在不同領域評論語料中的分類準確性。

猜你喜歡
文本情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
主站蜘蛛池模板: 女人18毛片久久| 欧美中文字幕在线播放| 欧美精品影院| 免费一级毛片在线播放傲雪网| a级毛片免费网站| 午夜激情婷婷| 亚洲性视频网站| 久久99热66这里只有精品一| 日本在线国产| 极品尤物av美乳在线观看| 日本少妇又色又爽又高潮| 黄色网站在线观看无码| 暴力调教一区二区三区| 香蕉视频国产精品人| 26uuu国产精品视频| 又黄又湿又爽的视频| 人妖无码第一页| 高清无码手机在线观看| 国产成人高清精品免费软件| www中文字幕在线观看| 欧美高清国产| 亚洲国产日韩在线成人蜜芽| 亚洲欧美成人综合| 成人日韩欧美| 国产欧美日韩在线在线不卡视频| 国产日韩精品一区在线不卡| 精品久久高清| 欧美日韩一区二区在线免费观看 | 中文字幕日韩丝袜一区| 国产欧美日韩另类| 国产91丝袜在线播放动漫 | 国产成人精品一区二区不卡| 精品国产黑色丝袜高跟鞋| 中文字幕亚洲另类天堂| 国产成人精品一区二区秒拍1o | 亚洲熟妇AV日韩熟妇在线| 国产女同自拍视频| 亚洲国产精品成人久久综合影院| 中文字幕1区2区| 国产成人综合久久精品尤物| 婷婷五月在线视频| 波多野结衣的av一区二区三区| 小说区 亚洲 自拍 另类| 操美女免费网站| 亚洲国产成人麻豆精品| 国产精品思思热在线| 国产第八页| 91麻豆精品国产91久久久久| 日韩精品中文字幕一区三区| 重口调教一区二区视频| 国产精品13页| 亚洲色图综合在线| 亚洲精品卡2卡3卡4卡5卡区| 国产一在线| 99久久性生片| 国产精品免费入口视频| 在线观看国产精品日本不卡网| 在线永久免费观看的毛片| 全午夜免费一级毛片| 日韩在线播放欧美字幕| 高h视频在线| 亚洲黄色高清| 毛片久久网站小视频| 多人乱p欧美在线观看| 一边摸一边做爽的视频17国产| 久久精品国产国语对白| 国产91av在线| 国产成人综合亚洲欧美在| 亚洲天堂色色人体| 亚洲中文字幕手机在线第一页| 中文字幕无线码一区| 国产成人高清精品免费| 无码国内精品人妻少妇蜜桃视频| 成人福利在线看| 亚洲欧美日韩中文字幕在线| 国产成人三级| 久久大香香蕉国产免费网站| 亚洲中文字幕在线精品一区| 国产精品自拍合集| 国内老司机精品视频在线播出| 欧洲精品视频在线观看| 日本道综合一本久久久88|