999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙通道卷積神經網絡在文本情感分析中的應用

2018-08-28 08:52:18戴月明吳定會
計算機應用 2018年6期
關鍵詞:特征文本情感

李 平,戴月明,吳定會

(江南大學物聯網工程學院,江蘇無錫214122)(*通信作者電子郵箱lplp12@126.com)

0 引言

隨著互聯網技術和各大電商平臺的快速發展,網絡購物變得越來越簡單也越來越流行,用戶對于各類商品的評價也變得越來越頻繁,對于網絡購物的體驗不同層次的消費者也提出了不同的需求。高效快速地對消費者的評論進行分析和統計,更加深入地了解消費者的需求,成為眾多電商平臺提升自身平臺競爭力的重要方式。

文本情感分析即文本情感傾向的分析,實際就是對文本中語言態度、觀點、情感傾向等信息的挖掘[1]。目前文本情感分析的主要技術方向分為兩類:基于情感詞典的文本情感分析和基于機器學習的文本情感分析[2]。近年來,隨著互聯網的發展,數據量的急劇增加,對于海量數據的處理需求也越來越高,深度學習就是在這種背景下應運而生,深度學習算法對于處理比較大的數據相比較于傳統的機器學習算法有著明顯的優勢。2006年Hinton等[3-4]提出了深度置信網絡結構,該算法在深度學習領域起了里程碑式作用。深度學習可以充分利用海量的文本數據,完全自動地學習抽象的知識表達,在計算機視覺[5]、語音識別和自然語言處理[6-7]等方向取得了顯著的成績。很多基于深度學習的模型都取得了很好的效果,其中最具代表性的有卷積神經網絡(Convolutional Neural Network,CNN)[8]和循環神經網絡(Recurrent Neural Network,RNN)[9],其中RNN因為其強大的上下文語義捕捉能力,在序列建模任務上表現出色,如機器翻譯[10],但是RNN是一個有偏的模型,在構建整個文本語義時會傾向于后面的文本,但是實際應用中并不是所有的文本重點都放在后面,且RNN的優勢是捕捉長距離的信息,對于以句子為主的文本情感分析這一任務并不適用。相比RNN模型,在文本情感分類任務中,評論語句往往很短,不用綜合全局信息就可以判斷評論的情感傾向。文獻[11]中首次提出了CNN用于句子分類,并用實驗證明了CNN算法用于句子分類的可行性,但是文章主要針對英文語料進行處理;Kalchbrenner等[12]提出了動態CNN(Dynamic CNN,DCNN)的模型,該模型采用動態K-Max池化,區別于傳統的最大池化只保留一個重要信息。文獻[13]提出了Seq_CNN,模型以one-hot作為卷積神經網絡的輸入,但是該方法造成文本表示的空間維度較高;文獻[14]提出了以卷積層作為特征提取,支持向量機(Support Vector Machine,SVM)作為分類器,用于圖像分類。CNN在文本情感分析中的應用主要以單通道為主,這種方法存在視角單一、不能充分地認識數據的特征的問題,雙通道主要來源于計算機視覺,一幅圖由RGB三個顏色通道組成,反映了圖像不同狀態下的特征。Kim[11]分別采用靜態詞向量和動態詞向量作為模型的通道;但考慮到中文文本的復雜性,本文提出了把字向量和詞向量作為模型的兩個通道,字向量用于捕獲句子的細粒度信息,詞向量用于捕獲句子間的語義信息,利用細粒度的字向量輔助詞向量捕捉深層次語義信息。利用多尺寸卷積核,以找出合適的“粒度”,提取更充分的文本特征。經過實驗驗證得出,本文提出的雙通道CNN(Dual-Channel CNN,DCCNN)模型泛化能力強,在情感分類方面的正確率和F1值遠遠高于普通卷積神經網絡算法。

1 卷積神經網絡

CNN是一種經典的前饋神經網絡,主要受生物中感受野的概念啟發而提出。CNN早期的應用主要是在計算機視覺領域,并在計算機視覺領域取得了很大的成功。隨后大量學者把它應用于自然語言處理,卷積神經網絡可以學習到句子中抽象的特征且無需人工干預,學習到的特征可以單獨使用,作為其他分類器的輸入或者直接進行情感分類任務。它的多層結構能夠發現句子內部更高層次抽象特征并且在可接受時間范圍內完成訓練,所以卷積神經網絡更適合句子級的情感分類任務。CNN的結構主要有三個方面的特性:局部連接、權值共享和下采樣。傳統的神經網絡都采用全連接的方式,這使得網絡參數巨大、訓練時間較長,卷積神經網絡的出現解決了這一問題。對于文本來說,局部的信息往往包含的特征比全局更多,通過局部連接可以提取數據的初級特征;在CNN中,同一個卷積核,其所有的神經元權值都相同,一個卷積核只提取一種特征。局部連接和權值共享減少了神經元的連接數目,這大大降低了神經網絡的訓練難度。一個普通的卷積網絡,主要包括卷積、池化、全連接三個部分,一般卷積層直接和輸入連接,通過卷積層獲得特征之后,如果直接使用這些特征訓練分類器,需要面臨著巨大的計算量,容易造成網絡的過擬合。因此,通常采用下采樣來減小網絡的規模,用池化操作實現了數據的降維,將低層次的局部特征組合成為較高層次的特征,從而對整個文本進行表示,經過池化進一步降低了計算的復雜度。

2 詞向量與字向量

現有的產品評論文本類型多樣,傳統的文本表示和基于統計的方法,仍停留在對詞匯的表層處理,比如詞袋模型(Bag-Of-Words,BOW)或者是向量空間模型(Vector Space Model,VSM),這樣的淺層模型默認單詞之間相互獨立,只包含詞頻信息,忽略了文章的上下文信息,無法表達相關性,對文本的語義表達造成了極大的損失,詞向量的出現避免了使用傳統特征表示產生的一些問題。鑒于CNN中較低層次相當于“特征提取器”,卷積神經網絡能夠學習到句子中的抽象特征并且無需人工干預。本文針對這點,采用細粒度的字向量輔助詞向量(Word2Vec)捕捉更深層次的語義信息。

詞向量因為其在捕捉語義信息和句法信息方面的強大功能,在自然語言處理中引起了極大關注,所謂詞向量就是通過神經網絡訓練語言模型,并在訓練過程中生成一組向量,這組向量中的每個詞用n維向量表示。對于文本情感分析這類任務而言,數據量小,所以相對而言一個輕量級的模型便可以達到一個很好的處理結果。但是在訓練卷積神經網絡時參數量通常很大,為了避免模型陷入過擬合的危險,本文采用預先訓練的詞向量來減輕過擬合問題。文獻[15]提出,在大規模的語料上訓練得到的詞向量可以改善模型的性能。

字向量作為中文處理的基本單位,在中文文本分析中起著重要作用,使用字向量的目的主要是為了解決未登錄詞的問題,比如:“這個房間高大上”分詞的結果為“這個/房間 /高大/上”,這個句子中“高大上”為一個詞,分詞后把它切分為兩個詞,這樣導致分詞后的詞組反而改變了句子的語義信息。為了減弱分詞后帶來的問題,模型的另一個通道采用字向量作為輸入,通過細粒度的字向量輔助詞向量捕捉深層次的語義信息。

3 雙通道卷積神經網絡

在中文文本處理中,每個句子可以切分成很多字或詞,隱藏層的每個節點與輸入的每一個局部區域連接,為了將文本中詞與詞、字與字之間的信息加入到文本建模過程中,實現對評論中每個局部信息進行建模,分別采用詞向量和字向量作為兩個不同的模態,將文本中的詞序等信息通過卷積,池化等操作融入文本向量中。

DCCNN模型主要包括三個部分:第一部分采用京東等電商平臺的大量評論分別訓練詞向量和字向量,使得模型可以更接近訓練樣本的分布。第二部分根據中文文本的特點設計兩個通道的卷積神經網絡,把詞向量和字向量作為不同的通道,主要應用于處理不同環境下所產生的不同數據的融合。詞向量在語義方面的刻畫更精細些,字向量更能反映文本的基本特征。第三部分通過不同尺寸的卷積核,發現句子內部更高層次抽象的特征,以提取更優質的文本特征。本文采用的雙通道卷積神經網絡模型結構如圖1所示。

圖1 雙通道卷積神經網絡模型結構Fig.1 Dual-channel convolutional neural network model structure

3.1 DCCNN 模型構建

DCCNN模型的構建主要由四個部分組成,分別為查找層、卷基層、池化層以及合并層。

1)查找層:首先采用Word2Vec訓練詞向量,通過預訓練的詞向量和字向量可以避免直接訓練詞向量帶來的參數過大問題,一定程度上避免過擬合。假設詞向量的維度為k,每個評論的長度為n,Xi為第i個詞的詞向量,所以一個長度為n的評論可以描述為:

其中:⊕表示連接操作符;Xi:i+j表示詞向量Xi,Xi+1,…,Xi+j組成的特征矩陣。對于輸入的評論數據,根據其索引值,從預訓練的詞向量中,查找出對應詞的詞向量,生成詞向量矩陣。

2)卷積層:卷積層的主要目的是通過卷積操作實現對文本數據的局部感知,本文通過使用不同尺寸的卷積核對輸入的詞向量與字向量進行卷積運算,以盡可能地捕獲更多的上下文信息。本文分別使用了卷積核h=3,h=5和h=7三組不同的卷積核,假設:b為偏置項,Wh表示不同尺寸的卷積核對應的權重矩陣,Wh∈Rh×k。D1和D2分別表示詞向量通道和字向量通道,卷積后的輸出為Chi,代表不同的卷積核輸出的結果,計算公式如下:

為提高訓練收斂速度,激活函數f采用Relu函數[16]。

本文使用步幅s=1的卷積,當卷積核在評論為n的文本上滑動結束后,共得到n-h+1個輸出,所以最終生成的一個特征圖為:

其中C為不同卷積核卷積后生成的特征圖集合。

3)池化層:為了生成固定維度的特征向量以及減弱卷積操作之后帶來的數據維度過高問題,往往加入池化操作。本文采用最大池化,對每個通道單獨執行池化操作,經過最大池化操作后,模型忽略弱的特征并提取出具有代表性的情感極性特征。最大池化公式如下:

其中C(2)為經過不同卷積核最大池化后生成的特征圖集合。

假設每組卷積核的數量為m,最終池化后輸出的特征集合為C(3),C(3)定義如下:

3.2 DCCNN 模型訓練

合并層輸出的特征向量將作為最后sigmoid分類器的輸入,最終輸出情感類別的預測值的定義如下:

4)合并層:把兩個通道D1和D2所提取的特征序列進行串聯,整合出全局信息,形成最終的文本向量集合C(4)。

由式(8)可知Loss≥0,假設訓練樣本的標簽為y=1,可知Loss=-ln(),當≈1時,此時Loss=0;當訓練樣本標簽為y=0時,可知Loss=-ln(1-),當≈0時,此時Loss=0。所以當損失值接近0時,訓練樣本值和實際輸出值越接近。模型訓練通過Adam算法[17]最小化目標函數,通過反向傳播算法進行參數更新。

4 實驗結果及分析

4.1 數據集與模型參數設置

本實驗采用的語料集主要包括路由器、計算機、手機等相關電子產品相關的中文語料庫以及譚松波老師整理的書評,酒店評論等,經過人工整理,共收集26 925條評論數據,類別已經給定,其中積極評論13578條、消極評論各13338條。數據集網址為:https://pan.baidu.com/s/1o9pYXYi。為了驗證本文算法的有效性,選取其中80%作為訓練語料,20%作為測試語料。實驗計算機環境為:Intel Core i7-4790CPU@3.60 GHz,內存 8 GB,Linux 操作系統。

本文所提模型的參數設置如表1所示。

表1 DCCNN參數設置Tab.1 DCCNN parameter setting

4.2 評價標準

本文對文本情感分類的評價標準主要從分類的正確率和F1進行度量。對于給定樣本容量為N,樣本xi的實際標簽為yi,分類標簽為^,正確率(Accuracy)計算公式為:

F1為精準率和召回率的調和平均值,假設精準率為P,召回率為R,具體計算公式如下:

其中:TP表示被分類器正確分類的正例數據;TN表示被分類器正確分類的負例數據;FP表示被錯誤地標記為正例數據的負例數據;FN表示被錯誤地標記為負例數據的正例數據。

4.3 實驗步驟

實驗步驟如下:

1)首先對原始文本應用結巴分詞。

2)采用Word2Vec訓練詞向量,語料采用爬蟲爬取的各大電商的評論數據,訓練詞向量的語料。

3)把詞語轉換成詞序列,經過處理后的數據,每個詞都有唯一索引。

4)把帶索引值的詞語輸入詞向量表中,查找出對應詞的詞向量,生成矩陣作為模型的輸入。

5)把原始文本轉化成單個字存儲。

6)采用Word2Vec訓練字向量,語料為訓練樣本集。

7)把字轉換成字序列,經過處理后的數據,每個字都有唯一索引。

8)把帶有索引的字輸入字向量表中,查找出對應字的字向量,生成矩陣作為模型的輸入。

9)采用式(8)的損失函數,開始訓練模型。10)采用測試集評估模型性能。

4.4 模型對比結果

實驗一 為了驗證DCCNN算法的有效性,采用DCCNN算法與以下幾種經典算法進行對比:

1)邏輯回歸分類算法(Lg):采用Word2Vec訓練詞向量,句子向量采用詞向量的平均值,邏輯回歸分類器進行情感分類。

2)靜態詞向量(Static_CNN)[11]:模型訓練過程中,詞向量保持不變。

3)非靜態詞向量(Non_Static_CNN)[11]:模型訓練過程中,詞向量會被微調。

4)隨機初始化詞向量(Rand_Static)[11]:模型訓練過程中,詞向量隨機初始化。

5)多通道卷積神經網絡(S_Non_CNN)[11]:采用靜態詞向量和非靜態詞向量兩個通道進行卷積運算。

6)CNN+SVM:采用CNN作為特征提取器,SVM作為分類器。

7)Seq_CNN[13]:以 One-hot作為 CNN 模型輸入,進行卷積運算。

這里主要采用回調函數,選取測試集正確率最高的作為模型的正確率和F1值。模型名稱以及其正確率和F1值結果如表2所示。

表2 不同模型下的分類結果Tab.2 Classification results under different models

從表2可以看出:DCCNN的正確率和F1值分別取得了0.958和0.959。CNN+SVM 和Seq_CNN取得了相對較低的分類結果,這是因為Seq_CNN的輸入特征忽略了句子的語義信息,SVM對于卷積后提取的大量特征,學習能力欠佳;Non_Static_CNN在實驗中取得了僅此于DCCNN算法的F1和正確率,說明通過具體任務微調的詞向量可以取得更好的效果;S_Non_CNN多通道模型在F1和正確率上分別取得了0.941和0.942的結果??梢钥闯霰疚奶岢龅腄CCNN雙通道模型是有效的,在F1和正確率上比S_Non_CNN提升了1.7個百分點。DCCNN通過引入字向量通道,可以擴大特征的覆蓋范圍,提取更加豐富的語義信息。

實驗二 SVM在2002年首次被Pang等[18]用于情感分析中,實驗二分別采用BOW+SVM算法、Word2Vec+SVM算法與DCCNN算法作對比。其中BOW+SVM算法表示:采用BOW表示文本特征,SVM作為分類器;Word2Vec+SVM算法表示:采用Word2Vec訓練詞向量,采用詞向量的平均值作為句向量,SVM作為分類器。不同算法正確率以及F1值結果如圖2所示。

由圖2可以看出,在評論情感分類實驗中,采用Word2Vec+SVM算法性能高于Bow+SVM算法,這是因為傳統的BOW忽略了句子的語義信息,所以采用SVM分類結果相對較差,經過Word2Vec訓練詞向量,獲取句子的語義信息,使得SVM分類性能明顯提高。在實驗中可以看出,DCCNN模型的正確率以及F1值都明顯優于采用SVM分類器,這說明淺層機器學習算法在數據量過多的情況下,擬合能力有限,DCCNN模型在評論的情感分析中是有效的。

圖2 不同算法分類結果Fig.2 Classification results of different algorithms

4.5 迭代次數

在實驗中,為了表示不同模型下文本情感分類的效果,采用折線圖統計了在不同迭代次數下各模型的正確率和F1值,結果如圖3所示。

圖3 不同模型在不同迭代次數下的分類結果對比Fig.3 Comparison of classification results of different models under different iterations

由圖3可以看出:Lg模型正確率和F1最低,其正確率和F1值大約在0.88左右;S_Non_CNN模型的正確率波動幅度較于其他模型較大,導致出現這種情況的原因可能是靜態詞向量通道的詞向量質量較差;DCCNN算法情感分類正確率和F1值一直高于其他算法,且波動幅度較小,在迭代次數為12時,DCCNN模型取得了最高的正確率和F1值,其值超過0.95,此時為了避免模型的過擬合,可以停止迭代。

5 結語

本文結合中文評論語料特點,針對淺層機器學習忽略句子的局部語義特征等問題,提出了一種新的文本情感分析方法DCCNN模型。該模型分別在字向量和詞向量兩個不同的通道上進行卷積,利用細粒度的字向量輔助詞向量捕捉深層次的語義信息,以此得到更優質的特征,從而提高文本情感分類的正確率。從實驗結果可看出,本文提出的雙通道卷積神經網絡在文本情感分類上具有更高的正確率和F1值。卷積神經網絡在文本情感分析的應用中還存在許多問題,如何將模型應用于實際的工程中,將是下一步的工作重點。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91福利片| 成人一级免费视频| 在线视频一区二区三区不卡| 国产18页| 成人在线观看不卡| 久久久久九九精品影院| 亚洲欧美另类视频| 中文字幕第1页在线播| 欧美怡红院视频一区二区三区| 国产69囗曝护士吞精在线视频| 国产老女人精品免费视频| 亚洲一区波多野结衣二区三区| 色偷偷一区二区三区| 18禁黄无遮挡免费动漫网站| 精品综合久久久久久97| 久久综合伊人 六十路| 国产白浆在线| 特级毛片免费视频| 久久综合色播五月男人的天堂| 久久综合丝袜长腿丝袜| 国产真实乱人视频| 日韩免费视频播播| 日韩在线中文| 片在线无码观看| 亚洲一区二区三区国产精品| 日韩AV手机在线观看蜜芽| a在线观看免费| 精品福利网| 国产欧美又粗又猛又爽老| 9966国产精品视频| 日本欧美一二三区色视频| 久久伊人操| 国产99精品久久| 看av免费毛片手机播放| 亚洲黄网在线| 97视频免费在线观看| 国产成人综合亚洲欧美在| 日韩成人在线视频| 美女黄网十八禁免费看| 亚洲欧美极品| 久久精品一品道久久精品| 国产成人综合日韩精品无码首页| 国产欧美视频在线观看| 99这里只有精品免费视频| 国产精品一区二区在线播放| 亚洲第一视频网| 国产精品大尺度尺度视频| 国产亚卅精品无码| 日韩精品专区免费无码aⅴ| 97精品久久久大香线焦| 国产丝袜啪啪| 日本91视频| 毛片免费在线视频| 国产日本欧美亚洲精品视| 欧美在线免费| 亚洲欧洲日产国码无码av喷潮| 秋霞国产在线| 色妺妺在线视频喷水| 日韩经典精品无码一区二区| 激情网址在线观看| 色哟哟国产精品一区二区| 精品久久久久久久久久久| 国产无吗一区二区三区在线欢| 国产专区综合另类日韩一区| 国产日韩欧美视频| 伊人久久大香线蕉aⅴ色| 国产在线自揄拍揄视频网站| 亚洲Av激情网五月天| 免费精品一区二区h| 久久国产热| 91久久偷偷做嫩草影院免费看| 伊人色天堂| 欧美成人综合视频| 综合色在线| 国产av剧情无码精品色午夜| 国产午夜人做人免费视频中文| 69国产精品视频免费| 一级黄色欧美| 久久免费观看视频| 亚洲精品在线观看91| 无码啪啪精品天堂浪潮av| h网站在线播放|