999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于cw2vec與BILSTM的 中文商品評論情感分類

2020-06-19 08:45:58高統超張云華
軟件導刊 2020年4期

高統超 張云華

要:針對方面級情感分類算法在中文領域商品評論中性能不佳的問題,從實際應用場景出發,基于cw2vec模型并結合BiLSTM模型,進行中文商品評論方面級情感分類。通過對數據進行預處理,訓練中文詞向量,提取評論語句文字筆畫信息特征;然后對評論語料構建基于注意力機制的BiLSTM模型進行情感分類,計算注意力向量權重,利用雙向網絡結構特點捕捉語義依賴信息。實驗結果表明,當訓練語料分布合理時,該方法準確率達到83.2%,比Skip-gram模型提高了3.3%。該方法在中文方面級情感分類任務上能獲取中文語義信息,分類效果更好,有效提高了分類準確率。

關鍵詞:情感分類;cw2vec模型;BiLSTM模型;注意力機制

DOI: 10. 11907/rjdk.191 800

開放科學(資源服務)標識碼(OSID):

中圖分類號:TP301

文獻標識碼:A

文章編號:1672-7800( 2020)004-0079-05

Sentiment Classification of Chinese Product Reviews

Based on cw2vec and BiLSTM

GAO Tong-chao, ZHANG Yun-hua

(Sch.ool of Inform ation , Zh.e.jiang Sci- Tech UrLiver.sity , Harzgzhou 3 1 00 1 8 . C^ ina )

Abstract: Aiming at the poor performance of aspect level sentiment classification algorithm in Chiiiese comruodity review. based onthe actual application scenario. we combine the BiLSTM ruodel ivith the cw2vec model to classif'y Chinese commodi'y revie,vs. The datais pre-processed. the Chinese word vector is trained. and the feature inforruation of' the corument sentence text is extracted. Then. theBiLSTM model based on the attentionmechanism is constructed to classify the annotation corpus, calculate the weight of the attentionvector. and capture the semantic dependence information hy using the characteristics of' the bidirectional network structure. The experi-mental resulfs show that u-hen the training corpus distribution is reasonable. the accuracy rate of' this method is 83.2% . which is 3.3%higher than that of the Skip-gram model. This method can obtain Chinese senlantic inf'ormation on the Chinese aspect level sentimentclassif'ication task . and the classification effect is better. which effectively improves the classification accuracy .Key Words : sentiruent classification; cw2vec model; BiLSTM model; attention mechanism

O 引言

《中國互聯網絡發展狀況統計報告》顯示,截至2018年12月,我國網絡購物用戶數量是6.10億,網上零售交易額達到90 065億元,同比增長23.9%[1]。用戶進行網絡購物后給出商品評論,數量成千上萬,復雜多樣。對評論語句采用情感分析,能夠幫助商家調整銷售策略,指導潛在用戶合理選擇商品。情感分析也被稱為意見挖掘、傾向分析,是白然語言處理領域的一個基礎任務[2]。目前,研究者廣泛認同根據情感極性分類對象的粒度大小,將情感分類分為3個層面:文檔級、句子級、實體與方面級(aspect)[3]。2016年Wang等。[4]利用英文數據集SemEval-2014 Task4,提出基于注意力(Attention)機制的LSTM,并在模型的輸入和隱藏層中添加方面詞語義向量,保證方面情感信息獲得更多注意力,使情感分類結果更加準確;2018年王新波[5]基于英文數據集,引入依存關系等外部信息解決長距離信息捕獲不充分問題,提高特定方面級情感分類的準確率,但無法利用中文數據集進行分類。漢字表意豐富,博大精深,比英文單詞表達的內容更加復雜,漢字之間的多重組合形成的語義信息比英文單詞更復雜多樣。由于中英文的差異性,許多英文研究成果無法直接運用于中文語義分析。

以上方法在中文商品數據集上還沒有進行過有效研究。鑒于此,本文在現有詞向量模型和文本情感分類方法基礎上,利用網絡爬蟲技術[6]獲得原始實驗數據,通過cw2vec模型訓練的詞向量作為BiLSTM模型的輸入數據,進行中文商品評論方面級情感分類,在實驗中取得了較好的實驗結果,對于研究中文領域文本情感分析具有重要價值。

1 cw2vec模型

在自然語言處理領域,詞向量模型扮演著舉足輕重的角色,在許多任務中都發揮著至關重要的作用,比如機器翻譯、情感分類等。傳統詞向量研究方式是單點表示(One-hot representation)法。根據分類詞典[7]對所有單詞進行排序,每個單詞都有對應的位置,用一個與單詞數量等長的數組表示某單詞,單詞所在的位置值為l,其余位置的值用0表示。這種方法的優點是比較直觀,然而存在的問題是需要對大量語料數據進行整理,無法計算單詞之間的相似度。2013年谷歌提出基于神經網絡的word2vec[8-9]工具,用于運算詞向量。在隨后的發展過程中,該算法在實際實驗中取得了良好效果,同時也在不斷改進。2014年基于矩陣分布式表示的GloVe模型。10。被提出,通過分解“詞一詞”矩陣得到詞表示,但是相關算法只適合用在由羅馬字母構成的單詞中。對于中文而言,漢字由許多筆畫構成,字與詞都包含著豐富的語義。在自然語言處理相關任務中,中文語料處理起來比較困難。此外,對于中文漢字的詞向量研究比英文晚,本文使用較先進的基于Skip -gram模型改進的cw2vec模型。該模型利用漢字一筆一面的結構信息和聯系,獲得分布式詞向量,能夠保證不損失詞向量語義信息。cw2vec模型以負采樣進行計算。

在cw2vec模型中,定義單詞與其上下義之間的相似函數sirri(W,c)如下:

其中,m表示當前詞語的。元筆面向量,c表示上下文詞語的詞向量,S(w)為當前詞語w的n元筆畫集合,m是集合S(w)的n元筆畫元素。基于當前詞語w對上下文詞語c的預測進行建模,給定詞語w的概率計算,采用soft-max函數進行模擬預測,如式(2)所示。

其中,c是詞匯表V中的單詞。采用負采樣方式,用基于分布的“負面”抽樣的上下文單詞集合替換復雜分母。目標函數計算如式(3)所示。

其中,w是當前詞語,c是上下義詞語, 是Sigmoid函數,T(w)是當前詞語劃窗內的所有詞語集合,D是訓練語料的所有文本,c是隨機選擇的詞語,作為負樣例,^是隨機選擇詞語的個數P[]是負樣例c 7按照詞頻分布進行的采樣。

2 BiLSTM模型

2.1 注意力機制

注意力( Attention)機制以將當前任務目標相關的關鍵信息從各種信息中挑選出來為主要目標,本質上看注意力機制和人類的選擇性視覺注意力機制相似…。注意力機制早先用于NLP領域的機器翻譯,如圖1所示,在Encod-er-Decoder模型[12]中運用注意力機制。

模型中上下文( Contex)向量cI是權重化之后的值,用于當前時刻f輸入序列的向量。其表達式如式(4)所示。

其中,i是Encoder端的第i個詞語,H,是Encoder端第J個詞語的隱向量,A是Encoder端第/個詞語與Decoder端第i個詞語之間的權值。n ,的計算如式(5)所示。 其中,e表示Encoder端位置上第i個詞語對Decoder端位置上第i個詞語產生的影響,e。的計算方法如式(6)所示。

其中,a是一個函數,利用Decoder網絡最新的隱藏層狀態s,及編碼器端第1個單詞的隱藏層輸出h作為輸入,計算得到e。。

在時刻f,Decoder解碼出的詞語yt取決于所有Encod-er端隱藏狀態根據注意力權重的加權組合。并且,注意力權重的計算取決于Encoder單元的最新狀態與Encoder端隱藏層狀態集合的相互作用,即模型可以利用已解碼序列信息有選擇地對源語言序列進行編碼,從而生成更準確的譯文。

2.2 基于注意力機制的BiLSTM模型

長短期記憶網絡(ISTM)是單向神經網絡結構,是一種特殊的RNN,它的m現可以用來解決RNN在訓練中不能夠處理長期依賴的問題[13]。從網絡結構看,存在的問題是在計算當前神經單元狀態時可以很好地利用前序序列信息,而后序序列信息無法得以有效利用。在進行更細粒度的分類任務時,需要關注情感詞、否定詞和副詞等之間的關聯交互作用,但是單向LSTM在詞語的表示學習過程無無法充分利用文本全局信息,無法有效捕捉更微弱語義信息[14]。此外,利用最后時刻的長序列隱藏層輸出作為句子序列的向量表示,其受序列頭、尾部的影響會不一致。為了解決以上問題,本文將信息反向輸入給模型,將單向LSTM網絡結構模型設計成雙向長短期記憶網絡(BiLSTM)結構模型。模型網絡結構如圖2所示。

可以看出,BiLSTM模型是雙向LSTM,增加了反向層部分,在前后序列學習過程中,對于第t個單詞而言,在時刻f輸出的前饋層向量和反向層向量分別用矗.∈Rd和h∈Rd表示,其中d是隱藏層向量的維度。前饋層向量h.和反向層向量h進行拼接,用 標記隱藏層輸出向量。BiL-STM通過捕獲文本中遠距離的依賴關系[15],即使網絡經過多層合成計算,也仍然能夠將文本的主要語義信息保存下來。

BiLSTM模型結合注意力機制能夠有效利用給定的不同方面信息,關注評論語句中的不同位置,判斷語句的主觀情感傾向。模型結構如圖3所示,模型最下面一層是輸入層,將經過詞向量訓練的輸入序列輸入到模型中,用 表示隱藏層的輸出矩陣,Ⅳ表示序列長度,d表示隱藏層輸出的向量維度。模型中的方面向量用v。表示。

將組合隱藏層出向量與方面向量,利用雙曲正切函數進行非線性激活,如式(7)所示。

式(7)中, 和 均為參數矩陣,eN是數值全為1、長度為Ⅳ的列向量, 表示復制Ⅳ份v。并進行組合。向量矩陣M包含序列信息和方面信息,對其進行映射,利用Softmax函數輸出概率分布 ,如式(8)所示。

式(8)中, 。模型的重點是注意力權重向量計算。a表示一個Ⅳ維注意力向量,每個維度的值代表相應位置隱藏層輸出的權重數。對隱藏層輸出進行加權,可以得到對應給定方面的輸入序列的語義表示r∈Rd,如式(9)所示。

為了更好地提升模型的實驗效果,將序列尾部的隱藏層輸出h。加入到語句序列的表示中[16],如式(10)所示。

其中, 是最終輸入語句序列,w和w均為映射參數矩陣,然后利用Softmax函數作出情感傾向判斷。

3 實驗驗證及實驗分析

3.1實驗環境

本文實驗環境配置如表1所示。

3.2實驗框架

cw2vec模型利用中文漢字筆畫之間的聯系,更好地融合詞與詞的語義關聯信息,訓練中文詞向量,改善了詞向量的質量,再將詞向量作為BiLSTM模型輸入層傳人,利用BiLSTM模型的特點,使得情感分類任務上的分類效果進一步得到提高。實驗框架如圖4所示。

(1)數據預處理。對于中文數據集而言,用于方面級商品評論情感分析的語料庫較少。本文利用Scrapy框架技術爬取文本數據,采用中文分詞組件工具Jieba精確模式[17]進行分詞和詞性標注,手動分配方面信息詞語。

(2)特征向量。在利用cW2vec模型提取中文漢字筆畫信息的特征向量時,需要對漢字進行筆畫拆分,本文利用Pvthon腳本從漢典獲取筆畫信息。

(3)情感分類。目前,情感分類方法主要是基于詞典的情感分析和基于機器學習的情感分析,相關算法研究有很多種,如人T神經網絡(RNN)、支持向量機(SVM)、K緊鄰(KNN)等[18]。本文對BiLSTM網絡模型進行訓練,然后進行情感分類。

3.3實驗數據

目前,用于方面級情感分類的數據集是英文的SemEval-2014 Task4[19],包含餐館和筆記本電腦兩個領域的用戶評論數據。每個領域的數據集分成正向、負向和中立3種不同的情感粒度。本文利用爬蟲技術在某商城網站上獲取了50000條關于冰箱的客戶評價數據,但是獲取的商品評論中正負類評論語句差異比例不平衡,同時也存在很多過短評論語句和特殊表情符號語句,這樣的語料會導致實驗結果與真實結果出現偏差,不適合進行分類實驗。為了解決這些問題,本文實驗時在眾多語料中選取其中的10000條語句,分成正向、負向和中立3種情感極性語句。訓練其中的6000條評論語句,將其余4000條評論用作測試語句,這樣可以保證分類的正確性。此外,每條評論語句包含了相應的方面信息和極性判斷。本文目標是識別具有相應方面信息句子的極性。數據統計如表2所示。

3.4參數設置與評價指標

實驗數據處理完成后,通過cw2vec模型進行詞向量訓練,參數設置會影響詞向量的質量以及最終分類模型訓練結果。本文詞向量維度選擇150,詞窗口大小為5。BiL-STM模型中方面向量維度和隱藏層大小為300,學習率為0.01,L2正則化權重為0.01。在評估方面級情感分類任務的表現時,采用常用評價標準,用accuracv[20]作為方法評估標準.T是正確預測的樣本數,N是樣本總數,準確度是測量所有樣本中正確預測樣本的百分比。計算如式(12)所示。

3.5 實驗結果與分析

在相同數據上,本文選擇基于CBOW模型和基于Skip-gram模型的word2vec作為參照實驗,實驗結果如表3所示。在實驗過程中,為了減輕由于隨機初始化產生的性能波動,運行10次訓練算法。表3報告了平均準確度,可以看出,平均而言本文模型優于其它組合模型方法。采用CBOW模型和Skip-gram模型,基于英文字母進行詞向量訓練,對于中文漢字而言,沒有利用漢字的結構信息。cw2vec模型表現較好,能夠有效捕捉漢字特征信息,魯棒性好。

4 結語

中文文本情感分析研究是目前計算機領域研究的熱點,具有很高的商業價值和科學研究價值。本文將提取漢字筆畫特征的cw2vec模型和一種基于神經網絡的BiLSTM模型進行組合并用于中文商品評論情感分類,對輸入的文本進行詞向量訓練,通過分析中文漢字表達特點獲取分布式向量,根據BiLSTM網絡結構特點,將前后單詞語義信息保留下來進行情感分類。通過實驗比較,結果表明,本文方法在情感分類任務上擁有良好表現,具有重要的技術參考價值。在后續研究中,將著重分析句法結構并探索詞匯之間的依存關系,進一步提高情感分類精度。

參考文獻:

[l]CNNIC.中國互聯網絡發展狀況統計報告[EB/OL]. 2018-08-[1].http://www.cnnic.net.cn/hh'fzyj/hlwxzbg/hlwtjb g/201902/P020190228510533388308.pdf.

[2]劉曉彤,田大銅融合深度學習與機器學習的在線評論情感分析[J].軟件導刊,2019.18(2):1-4.

[3]LIU B.Sentiment anah- sis and opinion mining[M]California: Morgan&Claypool Publishers, 2012.

[4]WANC W,PAN S J,DAHLMEIER D. et al. Recursive neural condi-tional random fields for aspect-based sentiment analysis[DB/OLl.arxiv.org/pdf/1603.06679.pdf

[5]王新波用戶評論方面級情感分析算法研究[D]北京:北京郵電大學,2018.

[6] 劉宇,鄭成煥.基于Scrapy的深層網絡爬蟲研究[J].軟件,2017,38(7):111-114

[7]黃仁,張衛.基于word2rec的互聯網商品評論情感傾向研究[J].計

算機科學,2016, 43(SI):387-389

[8]KANDOLA E J,HOFMANN T. POGCIO T. et al.A neural prohahilis-tic. language model [J]. Studies in Fuzziness and Soft Computing,2006. 194:137-186

[9]MIKOLOV T. CHEN K. CORRADO G,et al. Efficient estimation ofword representations in vector space[J]. Computer Scienc.e, 2013.

[10]PENNINGTON J, SOCHER R,MANNINC C Glo,'e: global vectorsfor word representation[C]. Proceedings nf the 2014 Conference onEmpirical Methods in Natural Language Processing(EMNLP), 2014.

[11]BAHDANAL D. CHO K, BENGIO Y. Neural mac.hine translation bvjointly learning to align and translate[J].Computer Science, 2014

[12]SUTSKEVER I, VINYALS 0,LE Q V. Sequence to Sequence Learn-ing with Nreural Networks[Z]2014.

[13] 黃磊,杜昌順基于遞歸神經網絡的文本分類研究[J].北京化工 大學學報(自然科學版),2017,44(1):98-104

[14]何原野基于深度學習的多標簽文本分類方法[D].昆明:云南大學,2017.

[15]張應成,楊洋,蔣瑞,等基于BiLSTM-CRF的商情實體識別模型[J].計算機工程,2019(5):308-314.

[16]ROCKTASCHEL T, CREFENSTETTE E, HERMANN K M. et al.Reasoning ahout entailment with neural attention[DB/OL]. arxiv.org,pdf/1509.06664.pdf

[17]黎曦.基于網絡爬蟲的論壇數據分析系統的設計與實現[D].武漢:華中科技大學,2019

[18] 彭三春,張云華.基于RNTN和CBOW的商品評論情感分類[J].

計算機工程與設計,2018. 39(3):861-866

[19]KHALIL T, ELBELTAGY S R hrileTMRG at semeval-2016 task 5:deep conrolutional neural networks for aspect category and sentimentextractionEC].Internatinnal Workshop on Semantic Eraluation, 2016.

[20]陳穎熙,廖曉東,蘇例月,等.基于CDBN網絡的文本情感傾向分類算法[J].計算機系統應用,2019,28(1):165-170.

(責任編輯:孫娟)

收稿日期:2019-06-11

作者簡介:高統超(1994-),男,浙江理工大學信息學院碩士研究生,研究方向為智能信息處理;張云華(1965-),男,博士,浙江理工大

學信息學院教授、碩士生導師,研究方向為軟件架構、軟件工程、智能信息處理。本文通訊作者:高統超。

主站蜘蛛池模板: 日韩av无码DVD| 亚洲精品另类| 一本大道香蕉中文日本不卡高清二区| 国产精品天干天干在线观看| 色婷婷电影网| 91网红精品在线观看| 亚洲国产成人综合精品2020 | 美女裸体18禁网站| 国产精品手机在线观看你懂的| 亚洲成人在线网| 91精品日韩人妻无码久久| 欧美亚洲日韩中文| 中文字幕不卡免费高清视频| 亚洲精品欧美日本中文字幕| 人妻少妇久久久久久97人妻| 91精品人妻一区二区| 亚洲无码91视频| 国产精品三级专区| 免费国产高清视频| 国产精品久久久久鬼色| 国产又爽又黄无遮挡免费观看| 久久性视频| 中文字幕永久视频| 广东一级毛片| 伊人成色综合网| 久久永久免费人妻精品| 日韩第一页在线| 久久综合色天堂av| 午夜天堂视频| 三上悠亚一区二区| 精品少妇三级亚洲| 亚洲中文字幕在线观看| 免费国产福利| 国产在线自揄拍揄视频网站| 国产自在线播放| 欧美午夜视频| 精品国产成人三级在线观看| 97国产成人无码精品久久久| 国产超碰在线观看| 久久99久久无码毛片一区二区| 欧美成人午夜在线全部免费| 激情五月婷婷综合网| 欧美午夜小视频| 性69交片免费看| 国产精品尹人在线观看| 成人午夜免费视频| 色成人综合| 国产h视频免费观看| 欧美日在线观看| 自拍欧美亚洲| 欧美不卡视频在线观看| 精品无码日韩国产不卡av| 中文字幕中文字字幕码一二区| 国产午夜在线观看视频| 亚洲视频二| 在线精品亚洲国产| 国产男人的天堂| 一本综合久久| 91精品视频网站| 亚洲日韩精品伊甸| 一级毛片视频免费| 国产91透明丝袜美腿在线| 国产三级成人| 色噜噜狠狠色综合网图区| 99热国产在线精品99| 国产91无码福利在线| 亚洲最大情网站在线观看| 一本色道久久88亚洲综合| 91精品日韩人妻无码久久| 99久久国产自偷自偷免费一区| 国产色网站| 国产精品浪潮Av| 日韩人妻无码制服丝袜视频| 亚洲成年网站在线观看| 乱系列中文字幕在线视频 | 国产精品护士| 精品91在线| 人妖无码第一页| 国产乱子伦视频在线播放| 国产美女精品在线| 狠狠亚洲婷婷综合色香| 亚洲欧美日本国产综合在线|