999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合基于語言模型的詞嵌入和多尺度卷積神經(jīng)網(wǎng)絡(luò)的情感分析

2020-06-06 02:07:22趙亞歐張家重李貽斌付憲瑞
計算機(jī)應(yīng)用 2020年3期
關(guān)鍵詞:特征方法模型

趙亞歐,張家重,李貽斌,付憲瑞,生 偉

(1. 浪潮集團(tuán)金融信息技術(shù)有限公司,濟(jì)南250101; 2. 濟(jì)南大學(xué)信息科學(xué)與工程學(xué)院,濟(jì)南250022;3. 山東大學(xué)控制科學(xué)與工程學(xué)院,濟(jì)南250061)

(*通信作者電子郵箱zhaoyaou@inspur.com)

0 引言

情感分析(Sentiment Analysis)是對帶有情感色彩的主觀性文本或句子進(jìn)行分析、處理和抽取的技術(shù)[1]。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們的活動越來越多地集中在網(wǎng)絡(luò)上,人們通過網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)、交流、購物、娛樂,同時對社會熱點事件、熱門商品和相關(guān)服務(wù)進(jìn)行評論。通過這些評論挖掘數(shù)據(jù)背后人們的觀點、傾向是十分重要的,利用這些數(shù)據(jù),政府部門能夠及時作出反應(yīng),進(jìn)行輿論引導(dǎo),避免重大輿情事件;商戶能夠掌握用戶需求,進(jìn)行個性化精準(zhǔn)營銷;產(chǎn)品制造商也可以了解產(chǎn)品優(yōu)劣,及時對產(chǎn)品進(jìn)行改進(jìn)。

從評論中自動提取用戶觀點并不容易,現(xiàn)在主流的方法主要有有監(jiān)督和無監(jiān)督兩類。有監(jiān)督方法主要是利用機(jī)器學(xué)習(xí)技術(shù),如支持向量機(jī)(Support Vector Machine,SVM)、最大熵方法和樸素貝葉斯方法等[2-4],對文本進(jìn)行學(xué)習(xí),然后進(jìn)行情感分類。無監(jiān)督方法主要是分析文本中的情感詞、語法和語義,通過抽取文本的統(tǒng)計特征實現(xiàn)情感分類。

深度學(xué)習(xí)是人工智能的一個熱點,其方法也被廣泛應(yīng)用在情感分析領(lǐng)域。Socher等[5]于2011 年提出使用遞歸自編碼網(wǎng)絡(luò)(Recurrent Auto-Encoder,RAE)對文本特征進(jìn)行抽取和分類。隨后,Qian 等[6]提出使用動態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Convolutional Neural Network,DCNN)進(jìn)行文本分類,DCNN 采用動態(tài)K-Max 池化操作,能夠有效地捕捉詞語之間的聯(lián)系。Wang 等[7]提出利用長短程記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)對推特文本進(jìn)行情感分類,該方法利用LSTM的門控結(jié)構(gòu),能夠更好存儲文本特征。LSTM 隨后被擴(kuò)展為雙向LSTM、疊層雙向LSTM等一系列模型。此外,多種網(wǎng)絡(luò)結(jié)構(gòu)的融合方法也被提出,如Wang 等[8]提出的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和 循 環(huán) 神 經(jīng) 網(wǎng) 絡(luò)(Recurrent Neural Network,RNN)相結(jié)合的模型CNN-RNN、Guggilla 等[9]提出的LSTM-CNN 模型等。Akhtar 等[10]于2017年提出利用多個神經(jīng)網(wǎng)絡(luò)集成進(jìn)行情感分類,也取得了很好的效果。

注意力機(jī)制最早應(yīng)用于圖像領(lǐng)域,它可以聚焦圖像的特定區(qū)域,抽取圖像的有用特征。2016 年,Bahdanau 等[11]最先把注意力機(jī)制應(yīng)用到自然語言處理任務(wù)中,構(gòu)造了當(dāng)時性能最好的機(jī)器翻譯模型。隨后,研究人員也把注意力機(jī)制應(yīng)用到情感分析任務(wù)中。曾鋒等[12]將注意力機(jī)制和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過雙層注意力分別對單詞層和句子層進(jìn)行建模,捕獲不同單詞和不同句子的重要性。曾碧卿等[13]將注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出一種雙注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型,用來確定情感傾向。韓萍等[14]提出了基于情感融合和多維自注意力機(jī)制的微博文本情感分析模型,實現(xiàn)了文本中詞語間依賴關(guān)系的建立以及多角度情感語義信息的獲取。此外,石磊等[15]將注意力機(jī)制與樹形結(jié)構(gòu)的LSTM 網(wǎng)絡(luò)相結(jié)合,提升情感分析的準(zhǔn)確率。

使用深度學(xué)習(xí)技術(shù)對自然語言進(jìn)行處理,另外一個重要的問題是如何將文字符號轉(zhuǎn)化為數(shù)字特征。前人的方法大都利用Word2Vec、GloVe(Global Vectors)等詞嵌入工具得到詞語的嵌入向量(embedding)。但此類方法存在的主要問題是難以對多義詞進(jìn)行向量表示。比如蘋果,由于上下文不同,可能表示的是一種水果,也可能是指蘋果公司,甚至可能是指電影名稱,然而,利用詞嵌入技術(shù),這三個不同的語義只會被表示為一個向量。為了解決這個問題,本文提出使用基于語言模型的詞嵌入(Embedding from Language Model,ELMo)獲取詞向量。該模型獲得的詞向量不但包含詞語本身信息,也包含其對應(yīng)的上下文信息,能夠表達(dá)多義詞的不同語義。此外,針對中文環(huán)境下ELMo 難以訓(xùn)練的問題,本文提出使用預(yù)訓(xùn)練獲得的字符向量初始化ELMo 的嵌入層,可加快模型的訓(xùn)練,提高訓(xùn)練精度。最后,針對情感分類,本文提出使用融合ELMo 和多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-Scale Convolutional Neural Network,MSCNN)作為分類器。該模型使用不同尺度的卷積核對文本施加卷積操作,并利用最大值池化操作對獲得的特征進(jìn)行篩選,最后將這些特征融合,作為最終文本的特征。該方法考慮了不同尺度的短語特征,相較于單純采用詞向量或者字向量,效果更好。

1 相關(guān)工作

自然語言處理的核心任務(wù)是抽取語言文字表象符號背后的隱藏含義,得到計算機(jī)可以理解的數(shù)據(jù)化表征。一個好的數(shù)字化表征對于后續(xù)自然語言處理任務(wù),如情感分析、語義分析、機(jī)器翻譯等十分重要,是自然語言處理研究的熱點。方法從早期的獨熱編碼(One-hot),到詞袋(Bag-of-words)模型,再到后來的tf-idf(term frequency-inverse document frequency),不斷涌現(xiàn)。

最近幾年,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多的學(xué)者嘗試使用神經(jīng)網(wǎng)絡(luò)方法抽取詞語的特征:2003年,Bengio等[16]提出了NNLM(Neural Network Language Model),利用三層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語言模型,這是神經(jīng)網(wǎng)絡(luò)在自然語言表征方面的首次 嘗 試;隨 后 在2013 年,谷 歌 的Mikolov 等[17]在CBow(Continuous Bag-of-words)和Skip-gram 模型的基礎(chǔ)上構(gòu)建了Word2vec 工具,該模型使用兩層神經(jīng)網(wǎng)絡(luò),去掉了隱含層,簡化了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且使用噪聲對比估計(Noise-Contrastive Estimation,NCE)和 層 級Softmax(Hierarchical Softmax)技術(shù),減小了算法復(fù)雜度,使神經(jīng)網(wǎng)絡(luò)的大規(guī)模應(yīng)用成為可能;同一時期,斯坦福的自然語言處理小組的Pennington等[18]提出GloVe算法,也取得了不錯的效果。

隨著研究的不斷深入,開始從研究詞語表征轉(zhuǎn)向研究句子表征。2015 年Kiros 等[19]提出Skip-thoughts 方法。該方法首先利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對句子進(jìn)行編碼,然后構(gòu)造另外兩個RNN 對句子進(jìn)行解碼,通過編碼-解碼模型獲取句子向 量。2018 年,Logeswaran 等[20]在 此 基 礎(chǔ) 上 提 出quickthoughts 方法,該方法去掉了解碼過程,直接將句子的編碼作為特征接入后續(xù)網(wǎng)絡(luò),簡化了網(wǎng)絡(luò)結(jié)構(gòu),提高了模型性能。

雖然句子表征取得了一定進(jìn)展,但效果往往不佳。2017年,McCann等[21]提出了句子特征和詞語特征的融合方法。首先在機(jī)器翻譯語料上訓(xùn)練編碼器-解碼器(Encoder-Decoder)模型,然后抽取編碼器的輸出層和嵌入層(embedding),其中,編碼器的結(jié)果作為句子特征,嵌入層作為句子中詞語的特征,最后將兩者融合作為最終特征。該方法的意義在于,對于每一個詞語特征,都融入了該詞語所在的句子特征,語義表示更加準(zhǔn)確。

相對于詞語,句子的復(fù)雜度更大,需要大規(guī)模語料作為訓(xùn)練集,但大多數(shù)自然語言處理任務(wù)的語料規(guī)模都很小。為了解決這個問題,人們開始探索預(yù)訓(xùn)練的方法。2018 年Cer等[22]提出在大規(guī)模語料中預(yù)訓(xùn)練句子向量,然后通過遷移學(xué)習(xí)技術(shù)應(yīng)用到小規(guī)模任務(wù)中,但這些方法僅考慮了句子特征,而沒有考慮句中的詞語特征。

2 ELMo

Peters 等[23]于2018 年提出了ELMo。該方法結(jié)合了上述模型的優(yōu)點,既采用預(yù)訓(xùn)練的方式,又注意融合詞語和句子特征。算法主要分為兩步:第一步是構(gòu)建基于LSTM 的雙向語言模型(bilateral Language Model,biLM),并在大規(guī)模語料上進(jìn)行訓(xùn)練,獲取模型參數(shù);第二步是將文本輸入biLM,抽取biLM 的輸入層和隱含層,將其進(jìn)行加權(quán)組合,獲得文本的ELMo特征向量。

2.1 基于LSTM的雙向語言模型

和Word2vec 的思想類似,ELMo 也是通過構(gòu)造語言模型獲取詞向量的。一個含有N個詞的句子S={t1,t2,…,tN},其出現(xiàn)概率P(t1,t2,…,tN)可以通過計算每個詞tk的出現(xiàn)概率P(tk)得到,而P(tk)只與tk前面出現(xiàn)的詞語t1,t2,…,tk-1有關(guān),因此,P(t1,t2,…,tN)可以使用式(1)計算:

如果使用LSTM 對語言模型進(jìn)行建模,則tk對應(yīng)LSTM 隱狀態(tài)hk。如果LSTM 存在L層細(xì)胞單元(Cell),則對應(yīng)隱狀態(tài)集合為。將最后一層的隱狀態(tài)輸入softmax層獲得輸出ok,ok代表語言模型中tk出現(xiàn)概率P(tk|t1,t2,…,tk-1)。

tk出現(xiàn)概率不但與其前面的詞有關(guān),也可能與其后面的詞有關(guān),因此需要構(gòu)建后向模型。后向模型和前向模型一樣,也采用一個L層的LSTM,將tN,tN-1,…,tk依次輸入網(wǎng)絡(luò),得到隱狀態(tài)集合。將隱狀態(tài)輸入softmax 層得 到 輸 出o′k、o′k表 示 后 向 模 型 中tk出 現(xiàn) 概 率P(tk|tk+1,tk+2,…,tN)。

ELMo 所采用的biLM 模型如圖1 所示,從圖中可以看出,biLM 的核心是兩個LSTM 網(wǎng)絡(luò),兩個網(wǎng)絡(luò)都由多層cell 組成(一般采用二層結(jié)構(gòu)),一個網(wǎng)絡(luò)負(fù)責(zé)前向語言模型的建模,一個負(fù)責(zé)后向語言模型的建模。為了保持網(wǎng)絡(luò)訓(xùn)練穩(wěn)定,在兩層cell 之間加入殘差連接。最終層的隱狀態(tài)融合前后兩個網(wǎng)絡(luò)輸出,通過softmax計算上下文條件概率。

圖1 基于LSTM的雙向語言模型(biLM)架構(gòu)Fig. 1 Architecture of bilateral language model based on LSTM

模型采用的損失函數(shù)為句子中所有詞tk對應(yīng)概率乘積的似然,即:

其中:θ、θ′分別對應(yīng)前向LSTM 模型和后向LSTM 模型的待優(yōu)化參數(shù)。

2.2 ELMo特征向量

將后續(xù)分類任務(wù)中的文本輸入biLM 模型,獲取biLM 每一層隱狀態(tài),…,。將tk對應(yīng)的詞嵌入向量xk與每一層隱狀態(tài)進(jìn)行線性組合,獲得tk的ELMo表示,其計算公式為:

其中:γ為縮放因子,sj為歸一化的系數(shù),表示每個特征的占比,這些參數(shù)都需要在后續(xù)任務(wù)中進(jìn)行二次訓(xùn)練獲得。

2.3 基于字符的卷積神經(jīng)網(wǎng)絡(luò)

在實際使用過程中,ELMo 的輸入既可以是詞向量,也可以是字符向量。如果輸入的是字符向量,則需要額外添加一個基于字符的卷積神經(jīng)網(wǎng)絡(luò)(character Convolutional Neural Network,char-CNN),用其生成字符對應(yīng)單詞的嵌入向量。其對應(yīng)的結(jié)構(gòu)如圖2所示。

這樣做的優(yōu)點是:1)能夠避免詞典外詞語無法表示的問題(Out Of Vocabulary,OOV);2)無需存儲詞典中詞語的詞嵌入向量,只需存儲char-CNN 的模型參數(shù)即可,減小了存儲空間占用。

圖2 char-CNN模型結(jié)構(gòu)Fig. 2 Architecture of char-CNN model

3 ELMo和多尺度卷積神經(jīng)網(wǎng)絡(luò)融合模型

3.1 基于預(yù)訓(xùn)練字向量的ELMo

雖然采用基于字符的卷積神經(jīng)網(wǎng)絡(luò)有諸多好處,但如果直接遷移到中文語料中,還存在一定的問題。主要是因為英文字符的初始向量一般采用隨機(jī)初始化的方式產(chǎn)生,但英文僅有26 個字母,加上特殊符號,也不會超過256 個。然而,中文系統(tǒng)中漢字?jǐn)?shù)量一般都在5 000以上,如果也采用和英文相同的隨機(jī)初始化方式,則向量的不確定性太大,后續(xù)char-CNN網(wǎng)絡(luò)將難以訓(xùn)練。

為了解決這個問題,本文提出使用預(yù)訓(xùn)練的中文字符向量來初始化ELMo。該方法首先在大規(guī)模語料中預(yù)訓(xùn)練中文字符向量,然后將訓(xùn)練得到的字符向量作為char-CNN 模型的初始向量。這種方式預(yù)先加入了漢字的語義信息,與隨機(jī)初始化相比,不確定程度大大降低,有助于加快模型的訓(xùn)練,提高訓(xùn)練精度。

該算法分為兩步,第一步利用Word2vec 工具對漢字字符進(jìn)行預(yù)訓(xùn)練,獲取字符向量,其模型結(jié)構(gòu)如圖3所示。

圖3 漢字字符向量預(yù)訓(xùn)練模型Fig. 3 Pre-training model for Chinese characters

具體做法是,對于第i個漢字,首先獲取其獨熱編碼bi,編碼維數(shù)為漢字字典的大小Nchar,然后與嵌入矩陣Memb相乘(Memb∈RNchar×Dchar),得到維度為Dchar的緊致編碼ci,再將其與上下文矩陣Mctx(Mctx∈RDchar×Nchar)相乘,經(jīng)過softmax 激勵,獲得輸出oi(oi∈RNchar)。最后,根據(jù)oi計算似然損失函數(shù),并利用梯度下降法調(diào)整嵌入矩陣Memb和上下文矩陣Mctx。

第二步,使用預(yù)訓(xùn)練的嵌入矩陣Memb初始化char-CNN 的嵌入層,并進(jìn)一步精調(diào)參數(shù)。

假設(shè)句子中第k個詞為tk,將tk中每一個漢字的獨熱編碼與矩陣Memb相乘,得到漢字對應(yīng)的字向量,然后輸入char-CNN 網(wǎng)絡(luò),進(jìn)行卷積、池化操作,得到對應(yīng)的詞向量vk。對于tk的前驅(qū)詞tk-1和后繼詞tk+1,按照同樣操作得到對應(yīng)詞向量vk-1和vk+1。

將vk輸入biLM 模型,生成其前驅(qū)詞向量v′k-1和后繼向量v′k+1。比對v′k-1、v′k+1與vk-1、vk+1,計算似然損失,據(jù)此調(diào)整ELMo 對應(yīng)的模型參數(shù),包括嵌入矩陣Memb,char-CNN 和biLM的參數(shù)。其模型結(jié)構(gòu)如圖4所示。

圖4 基于預(yù)訓(xùn)練漢字向量的ELMoFig. 4 ELMo based on pre-trained vectors of Chinese characters

3.2 多尺度卷積神經(jīng)網(wǎng)絡(luò)(MSCNN)

ELMo僅僅對文本特征進(jìn)行了編碼,進(jìn)行情感分類還需要一個分類器。常用的分類器有支持向量機(jī)(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。

句子的含義通過其組成詞語來體現(xiàn),然而詞語并不直接組成句子,而是首先組成短語,然后通過短語組成句子。與char-CNN 的思想類似,如果對詞語進(jìn)行卷積,則可以得出短語對應(yīng)的語義向量,如果采用不同尺度大小的卷積核,則可以獲得不同尺度的短語語義向量,將這些短語向量與詞向量融合,作為句子最終的特征,其語義信息比單純使用詞向量要豐富許多。基于上述思想,本文構(gòu)造了多尺度卷積神經(jīng)網(wǎng)絡(luò)分類器。

假設(shè)長度為N的句子所對應(yīng)的詞向量分別為v1,v2,…,vN,將N個 向 量 進(jìn) 行 連 接,構(gòu) 成 矩 陣V,即V=[v1,v2,…,vN],V∈Rd×N,其中d為詞向量的維數(shù)。假設(shè)采用的卷積核為K,K∈Rd×w,w表示卷積寬度,則V通過K進(jìn)行卷積運算的公式為:

其中:· 代表卷積操作,fi為卷積之后的特征,fi∈R,i∈{1,2,…,N-w+ 1}。

將得到的N-w+ 1 個卷積特征輸入池化層,按照式(5)進(jìn)行最大值池化運算,其公式為:

其中y∈R。

對卷積核K,矩陣V經(jīng)過卷積、池化操作后可得到輸出y。假設(shè)存在不同尺度的m個卷積核,如K1∈Rd×w1,Κ2∈Rd×w2,…,Km∈Rd×wm,則經(jīng)過卷積操作會得到m個輸出y1,y2,…,ym。將其連接成一個向量,得到Y(jié)=[y1,y2,…,ym],Y∈Rm,Y為不同尺度短語的融合特征。最后,將Y輸入到兩層全連接神經(jīng)網(wǎng)絡(luò)中,并利用softmax 激勵實現(xiàn)分類。多尺度卷積神經(jīng)網(wǎng)絡(luò)(MSCNN)模型結(jié)構(gòu)圖5所示。

圖5 多尺度卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig. 5 Model architecture of MSCNN

3.3 基于ELMo和多尺度卷積神經(jīng)網(wǎng)絡(luò)的融合模型

基于上述模型,本文提出了基于ELMo 和多尺度卷積神經(jīng)網(wǎng)絡(luò)的融合模型用于情感分析。該模型主要由兩部分組成:第一部分是利用ELMo 學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù),生成句子上下文相關(guān)的詞向量;第二部分是利用多尺度卷積神經(jīng)網(wǎng)絡(luò),對詞向量的特征進(jìn)行二次抽取,并進(jìn)行特征融合,生成句子的整體語義表示。最后,經(jīng)過softmax 激勵函數(shù)實現(xiàn)文本情感傾向的分類。

該模型的優(yōu)勢在:1)ELMo 是預(yù)訓(xùn)練模型,通常在大規(guī)模語料上進(jìn)行訓(xùn)練,生成的特征其泛化能力更強(qiáng);2)ELMo 學(xué)習(xí)的詞向量不但可以準(zhǔn)確表示多義詞的多個不同語義,而且還融入了詞語所在句子的語義;3)該模型既利用了循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(ELMo 中的雙向LSTM 網(wǎng)絡(luò)結(jié)構(gòu)),也利用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(MSCNN),相對于采用單一網(wǎng)絡(luò)結(jié)構(gòu)的方法,提取的特征更加豐富多樣。

4 實驗

4.1 數(shù)據(jù)集

實驗在兩個數(shù)據(jù)集上進(jìn)行(表1),一是Tan等[24]收集的酒店評論數(shù)據(jù),該數(shù)據(jù)集由10 000個文件組成,每個文件存儲一條酒店評論信息,其中7 000條為正面評論,3 000條為負(fù)面評論。該數(shù)據(jù)集按照不同規(guī)模被劃分為4個數(shù)據(jù)集,分別是htl-2000、htl-4000、htl-6000和htl-10000。另一個是中文信息學(xué)會舉辦的自然語言處理會議公布的深度學(xué)習(xí)情感分類評測數(shù)據(jù)集(NLPCC2014 task2),包含訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,其中訓(xùn)練數(shù)據(jù)集含有1萬條中文產(chǎn)品評論數(shù)據(jù);測試數(shù)據(jù)集包含2 500條中文產(chǎn)品評論數(shù)據(jù),1250條正面評論,1250條負(fù)面評論。

表1 實驗數(shù)據(jù)集Tab. 1 Datasets used in the experiment

4.2 評價標(biāo)準(zhǔn)

本文使用正確率(Accuracy)對實驗結(jié)果進(jìn)行評價,其計算公式為:

其中:TP(True Positive)代表真陽性,TN(True Negative)代表真陰性,F(xiàn)P(False Positive)代表假陽性,F(xiàn)N(False Negative)代表假陰性。

4.3 預(yù)訓(xùn)練

在進(jìn)行情感分類之前,需要對ELMo 進(jìn)行預(yù)訓(xùn)練,以獲得上下文相關(guān)的詞向量信息。預(yù)訓(xùn)練在百科類問答數(shù)據(jù)集上進(jìn)行,該數(shù)據(jù)集通過爬取社區(qū)問答數(shù)據(jù)獲得,含有150 萬個預(yù)先過濾的問題和答案,數(shù)據(jù)大小為1.48 GB。

原始數(shù)據(jù)為json 格式,預(yù)處理首先抽取每一條數(shù)據(jù)的content 部分,去除內(nèi)容中的空行、特殊符號,過濾詞語少于5的句子。然后,利用北京大學(xué)提供的通用切詞工具pkuseg,對句子進(jìn)行切詞。處理后得到9 205 479 個句子,每個句子占一行,句子詞語之間用空格分隔。樣例如圖6。

圖6 預(yù)處理后的訓(xùn)練語料樣例Fig. 6 Sample of preprocessed training corpus

ELMo 的訓(xùn)練分為二步:第一步采用Word2vec 工具的skip-gram 模型,學(xué)習(xí)字符預(yù)訓(xùn)練語料,獲取字符向量,實驗中字符向量的維度設(shè)為128,上下文窗口大小設(shè)為5;第二步訓(xùn)練ELMo,利用上述學(xué)習(xí)到的字符向量初始化char-CNN 的嵌入層,然后學(xué)習(xí)分詞語料,獲得模型參數(shù),實驗中char-CNN 的輸出維數(shù)為256,biLM 模型層數(shù)設(shè)為2,隱狀態(tài)的維數(shù)為512,展開深度設(shè)為30。

實驗對比了采用預(yù)訓(xùn)練字符向量初始化和采用隨機(jī)向量初始化兩種方法,ELMo 的訓(xùn)練誤差曲線如圖7 所示。從圖中可以看出,對于采用預(yù)訓(xùn)練向量初始化的ELMo,其訓(xùn)練收斂速度更快,訓(xùn)練精度更高。

圖7 采用不同初始化方法的ELMo訓(xùn)練誤差曲線Fig. 7 Training error curves of ELMo with different initialization strategies

4.4 多尺度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類

利用上述方法對酒店評論數(shù)據(jù)進(jìn)行預(yù)處理,將處理后的句子輸入改進(jìn)ELMo,獲取對應(yīng)的ELMo 特征向量,最后將特征輸入MSCNN模型,進(jìn)行分類。

為了獲得MSCNN 的最優(yōu)卷積尺度,分別在酒店評論和NLPCC2014 task2 兩個數(shù)據(jù)集上進(jìn)行測試,實驗結(jié)果如圖8所示。

圖8 不同卷積尺度下MSCNN的分類結(jié)果Fig. 8 Classification results of MSCNN on different convolution scales

圖中卷積尺度1-n表示同時使用卷積尺度為1,2,…,n的卷積核。卷積尺度為卷積核的寬度,代表卷積核所覆蓋的詞語數(shù)目。卷積核的實際大小為512×卷積核的寬度,其中512為ELMo 的特征向量維數(shù)。卷積核的尺度越大,對應(yīng)卷積核的數(shù)目也應(yīng)該越多。實驗中,對于尺度為1 的卷積核,卷積核數(shù)目設(shè)為64;尺度為2、3 的卷積核,數(shù)目設(shè)為128;尺度為4、5的卷積核,數(shù)目設(shè)為256。

從圖8 可以看出,分類正確率隨著卷積尺度的增大而逐漸增加,這說明使用多尺度特征確實有助于提高分類精度。當(dāng)選用卷積尺度為1-4 時,效果最好。當(dāng)選用卷積尺度為1-5時,效果不如1-4,這有可能是由于漢語中距離超過4 的詞語之間的語義聯(lián)系較弱的緣故。

最終確定最優(yōu)卷積尺度為1-4,在該尺度下對酒店評論數(shù)據(jù)集進(jìn)行實驗,效果如表2所示。

從表中可以看出,對不同規(guī)模的數(shù)據(jù)集,本文方法的分類正確率始終維持在93%以上,即使是針對不平衡數(shù)據(jù)集htl-10000,正確率也達(dá)到了93.3%,和平衡數(shù)據(jù)集相比,幾乎沒有下降,這說明本文方法有很好的魯棒性,并且能夠處理不均衡樣本集。

表2 不同酒店評論數(shù)據(jù)集上的實驗結(jié)果Tab. 2 Experimental results on different hotel review datasets

論文同樣對比了其他方法,如支持向量機(jī)(SVM)、樸素貝葉 斯(Na?ve Bayes,NB)、融 合 字、詞 的 雙 向LSTM 模 型(Character,Word and Part-of-Speech Attention model based on Bi-LSTM,CWPAT-Bi-LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),結(jié)果如表3所示。

表3 不同方法在酒店評論數(shù)據(jù)集上的正確率指標(biāo)比較Tab. 3 Classification accuracy of different methods on hotel review datasets

從表3 中可以看出,本文方法明顯優(yōu)于SVM 和NB 方法,與SVM 方法相比正確率平均提升12.56個百分點,與NB方法相比正確率平均提升24.93 個百分點。這說明由于神經(jīng)網(wǎng)絡(luò)方法具有特征自動抽取的能力,能夠獲得更有效的語義特征,從而得到了更高的分類正確率。對比神經(jīng)網(wǎng)絡(luò)方法,本文方法相對卷積神經(jīng)網(wǎng)絡(luò)模型,正確率平均提升了3.56 個百分點。即使對比當(dāng)前最好方法,基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,正確率也平均提升了1.08 個百分點。主要原因是本文方法實際上是循環(huán)神經(jīng)網(wǎng)絡(luò)模型和卷積神經(jīng)網(wǎng)絡(luò)的混合模型,在詞向量生成階段,使用雙向LSTM 構(gòu)造上下文相關(guān)詞向量,在分類器階段,利用多尺度卷積進(jìn)行詞向量的融合,進(jìn)一步抽取可用的語義特征。該混合模型綜合了兩種模型的優(yōu)勢,所以效果更好。

為進(jìn)一步驗證本文模型的性能,實驗還在NLPCC2014 task2數(shù)據(jù)集進(jìn)行了測試,其結(jié)果如表4所示。

表4 不同方法在NLPCC2014_task2數(shù)據(jù)集上的實驗結(jié)果Tab. 4 Experimental results of different methods on dataset NLPCC2014_task2

從表中可以看出,與經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)模型LSTM 和門控循環(huán)單元網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)相比,本文方法的正確率提高了11.68個百分點和4.4個百分點,與卷積神經(jīng)網(wǎng)絡(luò)相比,正確率提高了4.96 個百分點。該結(jié)果和酒店評論數(shù)據(jù)集上的結(jié)果是一致的,說明本文模型遷移到新數(shù)據(jù)集上同樣有效。與LSTM 和CNN 的混合方法相比,正確率也提高了2.16個百分點。雖然本文模型從表面上看也是LSTM 和CNN 的混合模型,但本文的LSTM 是蘊含在ELMo 中的,而ELMo采用的是預(yù)訓(xùn)練的方式,是從大語料而非任務(wù)語料中訓(xùn)練語義向量,得到的詞語表征其泛化程度更高,這是基于任務(wù)的訓(xùn)練模型無法比擬的。

5 結(jié)語

不同于傳統(tǒng)的將詞嵌入向量作為神經(jīng)網(wǎng)絡(luò)的輸入,本文提出將ELMo 獲得的詞語向量作為網(wǎng)絡(luò)輸入,該向量融合了詞語本身和詞語所在上下文的語義特征,可以很好地表示多義詞的不同語義。此外,針對中文語料,本文提出采用預(yù)訓(xùn)練的漢字字符向量初始化ELMo 的嵌入層,可加快ELMo 的訓(xùn)練,提高訓(xùn)練精度。最后,分類器采用多尺度的卷積神經(jīng)網(wǎng)絡(luò)(MSCNN),該分類器能夠融合不同尺度的短語特征,有利于后續(xù)分類。實驗結(jié)果表明,本文提出的方法能有效提高情感分類的正確率。

最近幾年,基于多頭自注意力的網(wǎng)絡(luò),如Transformer模型在自然語言處理領(lǐng)域嶄露頭角,Transformer能夠有側(cè)重地進(jìn)行語義向量的融合,其本質(zhì)更像是針對自然語言的卷積操作,下一步也嘗試將ELMo 和Transformer 模型混合,分別利用ELMo 和Transformer各自的優(yōu)勢,構(gòu)造更適用于情感分析的模型。

在句子語法層面,中、英文是有顯著的區(qū)別的。例如,中文句子往往是由很多小的短句構(gòu)成(大量逗號分隔的短句),而英文一般只會有1~2 個從句,而且從句大都不以子句的形式存在(中間沒有逗號分隔)。因此,如何改進(jìn)ELMo 結(jié)構(gòu),使其更適用于中文語法結(jié)構(gòu),也是下一步的研究方向。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 台湾AV国片精品女同性| 99热这里只有精品免费| 毛片最新网址| 亚洲三级成人| 欧美亚洲国产精品久久蜜芽| 久久久久免费看成人影片| 亚洲视频无码| 国产尤物jk自慰制服喷水| 久久中文无码精品| 日本成人在线不卡视频| 无码福利视频| 全免费a级毛片免费看不卡| 国产激情在线视频| 漂亮人妻被中出中文字幕久久| 免费看美女毛片| 欧美人在线一区二区三区| 好久久免费视频高清| 三级欧美在线| 狠狠色香婷婷久久亚洲精品| 精品福利一区二区免费视频| 国产精品无码一二三视频| 欧美区一区| 538国产在线| 日韩精品久久久久久久电影蜜臀| 视频二区中文无码| 国产欧美视频综合二区| 国产精品无码AV中文| 一级全免费视频播放| 亚洲一欧洲中文字幕在线| 亚洲网综合| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲天堂首页| 超清无码一区二区三区| 国产av一码二码三码无码| 伊人91视频| 丁香亚洲综合五月天婷婷| 亚洲黄色成人| www.99精品视频在线播放| 免费久久一级欧美特大黄| 999精品在线视频| 久久久成年黄色视频| 国产人妖视频一区在线观看| 欧美国产日韩一区二区三区精品影视| 欧美激情视频二区三区| AV不卡国产在线观看| 亚洲熟女偷拍| 毛片久久久| 精品国产中文一级毛片在线看| 青青草国产免费国产| 亚洲视频无码| 国产成人高清在线精品| 国产白浆在线观看| 国产农村妇女精品一二区| 国产无人区一区二区三区| 久久综合九色综合97婷婷| 亚洲一区二区无码视频| 国产91麻豆免费观看| 中日韩欧亚无码视频| 久久毛片免费基地| 亚洲无线国产观看| 日韩麻豆小视频| 久久综合色视频| 欧美成人综合视频| 亚洲欧洲自拍拍偷午夜色| 亚洲欧美日韩色图| 日韩中文字幕免费在线观看| 久久久久久久久亚洲精品| 国产精品一区不卡| 国产乱子伦视频三区| 无码日韩精品91超碰| 国产精品手机视频| 日本午夜视频在线观看| 精品国产一二三区| 大香网伊人久久综合网2020| 国产精品尤物铁牛tv| 亚洲一区二区约美女探花| 国产在线小视频| 免费无码在线观看| 91丝袜乱伦| 亚洲日韩精品无码专区| 久久精品中文字幕免费| 国产成人1024精品下载|