999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于雙通道卷積神經網絡的短文本分類方法

2019-02-22 07:46:04張小川桑瑞婷周澤紅劉連喜
關鍵詞:分類文本模型

張小川,桑瑞婷,周澤紅,劉連喜

(重慶理工大學計算機科學與工程學院,重慶 400054)

近年來,隨著自然語言處理研究的不斷深入,短文本作為互聯網中廣泛存在的一種文本表示形式,扮演著越來越重要的角色。短文本的分類已成為一個研究熱點。目前,中文領域的文本分類技術發展迅速,但是中文的特殊性和復雜性使其仍面臨較多挑戰[1]。傳統的文本分類任務通常使用基于概率統計的方法或機器學習的方法來完成[2]。其中,前者如張玉芳等[3]提出一種基于 TFIDF改進的文本分類算法。而后者是近年來的主流方法,其重點在于選取合適的特征來表征文本,從人工標注類別的文本中提取特征,用于分類器的訓練和構建,最終利用機器學習方法獲得文本的類別[4],如張寧等[5]提出的使用 KNN算法的文本分類。黃挺等[6]提出一種基于情感詞圖模型的方法,將Page Rank算法引入計算中,使用SVM進行微博語料的情感分析。這些文本分類算法大多數都采用人工的方法進行特征提取。Bader B W等[7]提出隱含語義分析法對文本表示進行降維。呂超鎮等[8]提出了基于LDA特征擴展的短文本分類方法,對文本的深層語義進行捕獲。Wang S等[9]利用了二元文法(Bigram)來捕獲更多的上下文信息來改善文本分類的效果。隨著深度學習研究的深入,為文本分類以及其他NLP問題提供了新的思路。Bengio Y等[10]用深度學習的方法建立語言模型,隨后由 Mikolov T等提出的 CBOW[11](Continuous Bag-of-Words)和 Skip-Gram[12]模型,不僅改進了詞向量模型訓練的效率,還能將單詞直接映射到低維連續的向量空間上,為自然語言處理任務進入深度學習提供了基礎。其中,卷積神經網絡(convolutional neural network,CNN)在情感分析和文本分類領域有著很好的應用[13-17]。文獻[13]提出了一個可以同時利用基于特定任務調整的詞向量和靜態的預訓練詞向量的卷積神經網絡模型,用于句子級別的文本分類任務。文獻[14]改進了CNN的結構,進行了2次卷積操作,并提出了動態K-max pooling池化策略,返回每一個feature maps中最大的K個值。文獻[15]受圖像有RGB、CMYK多通道的啟發,將句子視為圖像,完成文本分類。文獻[16]對卷積神經網絡情感分析中的參數進行了詳細分析。文獻[17]將卷積神經網絡應用到中文微博觀點分類中。本文提出的結合雙模式通道和詞嵌入的卷積神經網絡WCA-DCNN是在文獻[13]提出的用于文本分類的卷積神經網絡模型基礎上進行改進的。

但是,在短文本中,詞向量的表示無法獲取更多語義的特征,同時卷積神經網絡的輸入特征在短文本領域中也不夠豐富,在訓練過程中,對文本噪聲又十分敏感。如果輸入的詞向量表示在語義上不夠準確,同時特征稀疏,將會使得訓練過擬合,導致分類效果下降。針對此問題,本文擬使用基于雙通道卷積神經網絡模型,改進短文本分類效果。

1 雙通道卷積神經網絡文本分類模型的改進

對卷積神經網絡中文本分類方法存在的輸入數據表達不準確和特征稀疏的問題,下面引入詞性概率因子和場景系數因子,構成雙通道輸入。

1.1 短文本表示的改進方法

本節將詳細介紹如何使用詞性概率因子α來改進詞向量訓練,展示基于場景權重因子β的不同模型的改進文本矩陣表達方式。

1.1.1 詞性概率因子α

由于短文本語義特征的稀疏性,導致對文本的詞性因素不敏感,從而影響后續分類效果。本文利用短文本中不同詞性的詞對短文本的貢獻度,以此提高文本表示的精確度,將單詞的詞性概率與單詞進行拼接,構成“單詞-詞性系數對”(Word-coefficient part of speech,Word-CPOS),例如(中國,0.21),(民族,0.44),進而將原始文本轉化為Word-CPOS序列,以此作為詞向量模型的輸入。

本文提出詞性概率因子α,用以量化不同詞性的詞對文本的貢獻度。實際上,針對單詞詞性分為名詞、動詞、形容詞、副詞和其他詞性,假設α的取值分別為 α1、α2、α3、α4、α5,且 k的計算方法為:

式中:N=num(n)+num(v)+num(adj)+num(adv)+num(other),α1+α2+α3+α4+α5=1。以num(n)、num(v)、num(adj)、num(adv)、num(other)分別表示名詞、動詞、形容詞、副詞、其他詞性詞的個數;N表示文本經過分詞操作后的單詞個數。

1.1.2 詞向量場景因子β

詞向量工具word2vec包括CBOW模型和Skip-gram模型。其中,CBOW對小型數據比較合適,Skip-gram對大型語料表現更好。2個模型的切詞效果偏重有所不同,根據使用場景的不同收益也隨之變化。因此,本文構造并引入場景權重因子β,β與語料的規模相關,其構造方法如式(2)所示:

式中:β1代表基于CBOW訓練模型的詞向量表示權重;β2代表基于SkipGram訓練模型的詞向量表示權重;Z代表語料規模的內存大小,以GB為單位。

1.1.3 引入α和β后的文本矩陣A

假設文本中一句話為 S=(x1,x2,…,xN),其中xi表示文本中的一個單詞,用詞性概率標注獲取每個詞的詞性概率 Q=(w1,w2,…,wN),然后拼接為 Word-CPOS序列 SQ=((x1,w1)(x2,w2),…,(xn,wN))。將 SQ輸入預訓練的 Word-CPOS模型,每個 Word-CPOS項都將被轉化為 n維的Word-CPOS向量sqn,則這句話會被轉化為N×n維矩陣。由于短文本中句子不止一條,需要對短文本中的句子進行級聯操作,從而獲得文本矩陣A。最后,根據語料大小,選擇場景權重因子β,得到Word-CPOS輸入向量。其具體流程如圖1所示。

1.2 WCA-DCNN分類模型

將基于原始詞向量構造的原始文本矩陣和上節的文本矩陣A相結合,就形成網絡的雙模式通道輸入,其整體神經網絡結構如圖2所示。

圖1 輸入文本表示方法

圖2 WCA-DCNN網絡結構

1.2.1 雙通道輸入向量矩陣

由于原始短文本都存在不規范的問題,導致詞性概率標注不準確。因此,訓練出來的Word-CPOS向量也會有表達不準確的情況,如果直接輸入卷積神經網絡,則會造成模型過擬合。同時,短文本特征不夠豐富,若使用CBOW和SkipGram同時訓練詞向量,則可以進行特征補充,從而豐富輸入特征。綜上,本文使用雙模式通道輸入策略,在考慮場景權重因子的前提下,在通道一中輸入原始文本詞向量矩陣 L1=i×[x1,x2,…,xn],在通道二中輸入 Word-CPOS詞向量矩陣 L2=i×[sq1,sq2,…,sqn]。其中,xn為文本中第 n個詞的詞向量;sqn為文本中第n個Word-CPOS序列的詞向量;n為短文本中單詞的個數。

1.2.2 卷積神經網絡結構

卷積神經網絡結構包括卷積層、池化層、全鏈接層和softmax層等4層。

1)卷積層

卷積層通過卷積核對輸入層的詞向量進行卷積操作,對每個固定大小的窗口進行操作,產生一個抽象特征輸出。當對文本進行卷積操作時,一般選取h×n維大小的卷積核,其中k為設定的詞向量維度,h代表每一次進行卷積操作選取的單詞個數。本文選取卷積核大小為 3、4、5(h=3、4、5)的3組卷積核。卷積操作表示為:

其中,ci表示經過卷積操作得到的第i個特征值;f(·)表示激活函數 relu;W1、W2分別表示卷積核在兩個模式通道上的權重參數矩陣,W1,W2∈Rhk;h×k代表卷積核窗口的大小,每掃描過一個高為h,維度為k的詞序列區域就會產生一個特征值;L1,i:i+h代表文本中第 i個詞到 i+h個詞的詞向量矩陣;L2,i:i+h代表文本中第 i個詞到 i+h個詞的Word-CPOS向量矩陣;b代表卷積層的偏置項。對短文本中每個窗口中的詞向量矩陣進行卷積操作可以得到一個特征圖,表示為:

其中,N代表短文本中的單詞個數;h為卷積窗口的長度;c代表短文本表示成的詞向量矩陣通過卷積操作所形成的特征圖。

2)池化層

池化層通過設定池化區域固定的步長進行采樣。假設池化區域的高為h,寬為m,則將整個特征圖分為若干個m×h的子區域,然后對每個子區域進行Max-pooling池化操作,再輸出池化后相應的特征值:

最終,提取的文本特征拼接在一起形成抽象文本特征,可表示為:

其中,假設各組卷積核的數量都為m;cpi,j表示當卷積核高度為i時,池化層從該卷積核大小卷積得到的第j個特征。

3)全鏈接層

為了將特征進一步抽象,同時挖掘更深層次的語義,池化層的輸出將作為最后全鏈接層的輸入,表示為:

其中:c′為池化得到的向量;W′為全鏈接層的權值參數矩陣;b′代表全鏈接層的偏置項;f′(·)表示激活函數Relu;最終,將 c″拉直轉換為一個長向量 ^c。

4)Softmax層

為了得到分類的類別估計,需要使用分類函數softmax對 ^c。進行歸一化操作。具體過程如下:

其中,ωi與bi分別為全鏈接層的對應輸出為類別為i的參數與偏置,n為類別數。

假設輸入文本為Xk,它所屬類別為yk,θ為模型參數,則有 p(yk)=P(yk|Xk,θ)。采用隨機梯度下降算法來最小化負對數似然函數,每一次訓練通過反向傳播來更新網絡中的各個參數,直到模型達到擬合。則網絡訓練的目標函數為:

其中N為訓練樣本規模。

2 實驗分析

2.1 實驗數據

本文使用的語料分別為新聞和酒店評論。其中,新聞語料是網易的中文新聞語料庫中整理得到的6 000條平衡語料,分為文化和經濟2個類別,每個類別各3 000條,大小為656 MB。酒店評論使用譚松波在攜程網上收集整理的一個不平衡語料,其中包含正向評論7 000和負向評論3 000條,大小為1.12 GB。對于這個兩組語料,各抽取80%的文本作為訓練集,20%文本為測試集。

不同于英文,中文需要提前對其進行分詞處理。根據文獻[18]的結論,就像是把圖像分割成一個個像素一樣,語言也可以分割成一個個字來進行深度學習。首先,對原始語料進行清洗,去掉標點符號、英文字符及其他特殊字符,保證語料的規范性。然后,用jieba工具對語料進行分詞操作。最后,對語料進行詞性概率標注,構造Word-CPOS向量。

2.2 詞向量與Word-CPOS向量

本文詞向量的訓練使用未拼接的語料庫,Word-CPOS向量的訓練使用經過詞性概率拼接后的語料庫。本文采用Google的開源工具word2vec獲得文本詞向量表示,其中包含了SkipGram和CBOW方法。在此同時使用2個方法來進行詞向量訓練,供后續對比實驗使用。并統一使用skipgram方法對詞性拼接矩陣進行訓練,根據場景權重因子對卷積神經網絡的輸入文本表示進行權重設定。詞向量與Word-CPOS向量訓練參數如下:文本表示向量的維度100維;上下文窗口大小為10;向量訓練迭代次數為5次。

2.3 神經網絡模型參數設置

卷積神經網絡中參數和函數設置如表1所示。

表1 實驗參數設置

使用Relu作為激活函數,采用AdamOptimizer方法作為梯度更新規則,濾波器個數采用單因子變量法實驗確立最優參數為100,卷積窗大小為3、4、5。同時,為了避免出現過擬合的現象、提高模型的泛化能力,Hinton[19]提出通過 dropout提高神經網絡結構的性能。通過隨機地忽略卷積層中的神經元來平均預測概率[20],同時還可以降低隱層神經元之間的相互作用,優化模型的結構。因此,設置dropout值為經典取值0.5,訓練迭代次數為30。

2.4 評價指標

實驗通過準確率(precision)、召回率(recall)、F1值3個指標來評價相似度計算結果,具體定義如下:

其中,TP表示將正類預測為正類的數目;FN表示將正類預測為負類的數目;FP表示將負類預測為正類的數目;TN表示將負類預測為負類的數目。準確率用于評價文本相似度計算的準確性,召回率用于評價文本相似度計算的查全性,F1值則均衡以上兩方面,用于綜合評價。

2.5 實驗結果的對比與分析

2.5.1 實驗過程構思

為了驗證本文提出的WCA-DCNN對短文本分類的有效性,將本文方法與機器學習方法和多種卷積神經網絡模型進行對比實驗。其中,對于機器學習方法,選取了用TF-IDF表示文本的KNN算法進行短文本分類。根據詞向量初始化方法的不同,選取了多種用于對比的經典卷積神經網絡,分別為:隨機初始化詞向量的 Random-CNN、用word2vec工具方法初始化詞向量的CBOW-CNN和SkipGram-CNN。此外,為了驗證詞性概率對實驗結果的影響,本文還選取了只以Word-CPOS向量輸入的WC-CNN,同時選取使用詞向量表示和Word-CPOS向量表示作為雙通道輸入的WC-DCNN,以驗證雙通道的有效性。最后,選取引入詞向量場景因子β的WCA-DCNN,以驗證該權重因子對分類結果的影響。以上7種不同文本分類方法在表2的2個測試集下進行對比實驗,結果如表2所示。

2.5.2 實驗對比分析

表2展示了使用數據集在各個模型上進行訓練后獲得的分類效果。通過對比KNN和Random-CNN,發現使用卷積神經網絡在分類性能上有一定的提升。

表2 不同方法的分類準確性對比

通過分別對比CBOW-CNN、SkipGram-CNN和WC-CNN,發現結合詞性概率特征的WC-CNN的性能更優,F1值在2個數據集上分別提升了0.012、0.009,證明結合詞性概率的詞向量訓練可以改善短文本分類效果。通過對比WC-CNN和WC-DCNN的各項指標,證明了基于雙通道的輸入分類效果要優于單通道的。最后,對比WC-DCNN和WCA-DCNN,驗證引入場景權重因子后F1值在2個數據集上分別提升了0.010、0.011,能夠進一步提升卷積神經網絡的分類能力。

2.5.3 迭代次數及準確率分析

圖3、4分別體現了各個文本分類模型在2個數據集上前25輪迭代的分類準確率。

圖3 新聞數據集實驗前25輪迭代結果

圖4 酒店數據集實驗前25輪迭代結果

從圖中可以看出:引入Word-CPOS序列的模型,其優勢從第5輪迭代就體現出來了,同時每輪迭代效果都比其他模型更優。進一步分析發現:相比單通道輸入,雙通道模型輸入的特征更加豐富,能得到更好的分類效果,同時需要的訓練時間更長,模型不會因為噪音過早陷入過擬合。因此,WCA-DCNN能夠進一步提升分類的準確率。

3 結束語

本文提出了一種基于雙通道的卷積神經網絡模型WCA-DCNN,將其應用到短文本分類領域。通過詞性概率拼接,考慮每個詞性對文本的貢獻度,進而精確文本的表示。并考慮應用場景,引入場景權重因子,使用不同的詞向量模型進行訓練。最后,由原始詞向量矩陣和Word-CPOS向量矩陣構成雙通道的輸入,有效地解決了輸入噪音造成的文本分類不準確的問題,并且在分類準確率、召回率和F1值上明顯高于傳統文本分類方法。下一步將針對一些復雜語法結構的短文本進行研究,從而進一步提高短文本分類的準確性。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久精品丝袜| 成年看免费观看视频拍拍| 亚洲婷婷六月| 欧美综合成人| 久久久91人妻无码精品蜜桃HD| 久久久久久高潮白浆| 精品人妻系列无码专区久久| jijzzizz老师出水喷水喷出| 精品91视频| 亚洲狼网站狼狼鲁亚洲下载| 天堂av综合网| 久久精品只有这里有| 国产成人亚洲欧美激情| YW尤物AV无码国产在线观看| 国产精品无码久久久久久| 性视频一区| 最新加勒比隔壁人妻| 精品久久久无码专区中文字幕| 国产鲁鲁视频在线观看| 国产激情影院| 99一级毛片| 视频国产精品丝袜第一页| 超碰精品无码一区二区| 日本亚洲最大的色成网站www| 国产女人18水真多毛片18精品| 波多野结衣视频网站| 成人在线观看不卡| 国产精品视频导航| 亚洲精品在线影院| 国产欧美精品午夜在线播放| 干中文字幕| 精品一区二区三区无码视频无码| 91无码人妻精品一区| 激情六月丁香婷婷| 国产精品成人一区二区| 国产高清在线精品一区二区三区| 国产Av无码精品色午夜| 欧美亚洲激情| 欧美三級片黃色三級片黃色1| 欧美成人免费| 国产精品免费福利久久播放 | 亚洲高清中文字幕| 久草青青在线视频| 亚洲国产综合精品一区| jijzzizz老师出水喷水喷出| 99热国产这里只有精品9九| 国产v精品成人免费视频71pao| 99精品视频九九精品| 婷婷开心中文字幕| 5388国产亚洲欧美在线观看| 日韩经典精品无码一区二区| 免费看久久精品99| 全午夜免费一级毛片| 国产99热| 亚洲AⅤ波多系列中文字幕| 日本不卡视频在线| 久久精品国产一区二区小说| 一区二区三区高清视频国产女人| AV在线麻免费观看网站| 亚洲综合日韩精品| 国产精品欧美日本韩免费一区二区三区不卡 | 国产毛片网站| 欧美中文字幕在线视频| 日韩国产另类| 久久久久青草大香线综合精品 | 老司机午夜精品视频你懂的| 亚洲an第二区国产精品| 国产成在线观看免费视频| 精品欧美一区二区三区在线| 国产精品毛片在线直播完整版| 91成人免费观看在线观看| 欧美国产日韩在线观看| 天天干天天色综合网| 999精品在线视频| 一本色道久久88| 亚洲AV免费一区二区三区| 大陆精大陆国产国语精品1024| 亚洲成人高清无码| 日本www色视频| 久久人妻系列无码一区| 色噜噜在线观看| 国产又爽又黄无遮挡免费观看 |