999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合語義增強(qiáng)的中文短文本分類方法研究*

2022-04-07 03:43:00潘袁湘牛新征
計算機(jī)與數(shù)字工程 2022年3期
關(guān)鍵詞:語義分類機(jī)制

潘袁湘 黃 林 牛新征

(1.電子科技大學(xué)信息與軟件工程學(xué)院 成都 610000)(2.國網(wǎng)四川省電力公司信息通信公司 成都 610015)(3.電子科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院 成都 610000)

1 引言

網(wǎng)絡(luò)上的微博等短文本具有內(nèi)容短,語義依賴性強(qiáng)的特點(diǎn),如何對短文本進(jìn)行高效準(zhǔn)確的分類是自然語言處理領(lǐng)域的學(xué)者們探索的熱點(diǎn)。

中文短文本分類的本質(zhì)是提取已知類型標(biāo)簽的短文本特征,預(yù)測未知的待分類文本的歸屬類型。目前,短文本分類的主要方法有樸素貝葉斯[1]、支持向量機(jī)[2~3]以及神經(jīng)網(wǎng)絡(luò)[4~5]等。本文采用前沿的深度神經(jīng)網(wǎng)絡(luò)來研究中文短文本分類。

相較于傳統(tǒng)的語言模型,基于神經(jīng)網(wǎng)絡(luò)的語言模型具有有效共享上下文語義信息的特點(diǎn),模型泛化能力強(qiáng)。例如word2vec[6]、glove[7]等模型可以學(xué)習(xí)到良好的向量表示作為特征,以便用于后續(xù)的分類任務(wù)。但word2vec 無法使一詞多義的問題得以解決。基于該現(xiàn)狀,Peters[8]等提出了一種高級新型語言模型(Embeddings from Language Models,ELMo),該模型生成的詞向量既可以對詞匯語法與語義進(jìn)行表征,又可以隨語境進(jìn)行多義詞動態(tài)變換。2018 年12 月,Google[9]提出的Bert(Bidirectional Encoder Representations from Transformers)語言模型可以捕捉更深層次的語義信息,其突破了多項自然語言處理任務(wù),有力地推動了自然語言模型的發(fā)展。

人工神經(jīng)網(wǎng)絡(luò)分類法因其學(xué)習(xí)能力強(qiáng)的優(yōu)點(diǎn),在實(shí)際分類任務(wù)中得以廣泛應(yīng)用。針對循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)存在“梯度消失”或“梯度爆炸”[10]的問題,Hochreiter[11]等認(rèn)為長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),通過引入“門控”機(jī)制改善了上述問題。Cho K[12]等改進(jìn)了LSTM 的結(jié)構(gòu),形成“雙門控”的門控循環(huán)單元(Gated Recurrent Unit,GRU)。Wang[13]等提出構(gòu)建雙向LSTM 網(wǎng)絡(luò)模型提取文本序列化的上下文信息,并引入注意力機(jī)制強(qiáng)化重要的文本特征表達(dá),使短文本分類性能得到進(jìn)一步提升。

論文從改善傳統(tǒng)詞向量語義表達(dá)問題和從特征稀疏的短文本中提取重要特征的問題著手,提出融合語義增強(qiáng)的短文本分類方法。該方法使用預(yù)訓(xùn)練語言模型Bert進(jìn)行語義向量增強(qiáng),同時在雙向GRU 的基礎(chǔ)上引入多頭注意力機(jī)制獲取短文本內(nèi)部依賴關(guān)系。經(jīng)驗證,本文提出的方法改善了短文本語義表達(dá)的問題,使短文本的分類精確率得到提升。

2 相關(guān)工作

2.1 語言模型Bert

Bert 語言模型是由多個Transformer 的Encoder部分進(jìn)行疊加組合而成的高級新型網(wǎng)絡(luò)。Transformer 的Encoder 能夠一次性雙向讀取完整的文本序列信息。這個特征使得模型能夠基于單詞的粒度進(jìn)行上下文語義學(xué)習(xí)。在訓(xùn)練語言模型時,Bert為了克服一種固有地限制語境學(xué)習(xí)的方向性的挑戰(zhàn),創(chuàng)新性提出Masked LM[9]和Next Sentence Prediction[9]的無監(jiān)督預(yù)測任務(wù)來預(yù)訓(xùn)練Bert。

2.2 雙向門控循環(huán)單元Bi-GRU

雙向門控循環(huán)單元網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit,Bi-GRU)[14]是GRU 的一種雙向結(jié)構(gòu),相較于GRU,Bi-GRU 結(jié)構(gòu)能更好地捕捉雙向語義依賴。它當(dāng)前時間步的隱狀態(tài)信息由前后兩個時間步共同決定。隱狀態(tài)輸出的公式如式(1)所示:

其中,表示前向傳播隱狀態(tài),表示后向傳播隱狀態(tài)。

2.3 多頭注意力機(jī)制

不同于普通注意力機(jī)制,Google 團(tuán)隊提出了多頭注意力機(jī)制[15](MultiHead Attention)。

多頭注意力機(jī)制通過“復(fù)制”和“拆分”自注意力機(jī)制的權(quán)重矩陣,形成新的加權(quán)計算模式,以便學(xué)習(xí)到多個不同子空間的語義信息。公式如下所示:

3 融合語義增強(qiáng)的中文短文本分類方法

為解決中文短文本特征稀疏和上下文依賴性強(qiáng)的問題,以有效提高短文本分類準(zhǔn)確率,論文提出了融合語義增強(qiáng)的中文短文本分類模型。模型結(jié)構(gòu)由語義向量表示層、特征抽取層和輸出層組成。首先將預(yù)處理后的短文本通過Bert 預(yù)訓(xùn)練語言模型生成的語義向量。然后輸入到Bi-GRU 神經(jīng)網(wǎng)絡(luò)中并結(jié)合多頭注意力機(jī)制提取文本全局特征。最后進(jìn)行多分類輸出。

3.1 語義向量表示層

語義向量表示層是文本輸入的第一層,采用預(yù)訓(xùn)練語言模型Bert進(jìn)行短文本語義向量表示。

以“股票的突破形態(tài)股票”為例。輸入表示流程圖如圖1 所示。首先按照“[CLS]股票的突破股票”的格式作為原始輸入。“CLS”標(biāo)記于首個句子開頭位置。“SEP”標(biāo)記于每個句子的末尾位置。然后進(jìn)行索引映射,包括對內(nèi)容切分為字的索引映射和標(biāo)簽的索引映射。然后把字進(jìn)行詞嵌入轉(zhuǎn)換為一維向量輸入Bert 結(jié)構(gòu)中。Transformer 一次性完整讀取所有序列并進(jìn)行雙向語義特征學(xué)習(xí)。通過Bert網(wǎng)絡(luò)模型得到各個字對應(yīng)的融合字、位置以及文本的全局語義信息的向量表示。

圖1 輸入表示層流程圖

3.2 融合語義增強(qiáng)的特征抽取層

特征抽取層將Bert 預(yù)訓(xùn)練語言模型生成的語義向量輸送到Bi-GRU 網(wǎng)絡(luò)中,同時結(jié)合多頭注意力機(jī)制提取文本全局特征。特征抽取層的結(jié)構(gòu)示意圖如圖2所示。

圖2 特征提取結(jié)構(gòu)示意圖

Bi-GRU網(wǎng)絡(luò)結(jié)構(gòu)的“雙門”可以控制時序信息的記憶程度,不但使其保留全局時序的最優(yōu)特征,而且又可以充分提取當(dāng)前時間步的前后時間步的隱狀態(tài)信息。因此本文構(gòu)建了Bi-GRU 網(wǎng)絡(luò)以充分提取短文本上下文語義信息。

輸入單元為Bert 預(yù)訓(xùn)練語言模型生成的語義向量集合,即X={x1,x2,…xi,…,xt},其中,xi(i=1,2,…,t)表示字向量。隱藏層包含前后兩個方向的傳播層。本文使用h→t表示前向傳播隱狀態(tài),h←t表示后向傳播隱狀態(tài)。

論文采用數(shù)量大小為h 的隱藏單元構(gòu)建網(wǎng)絡(luò)。在進(jìn)行網(wǎng)絡(luò)前向推斷過程中,已知小批量輸入為xt,上一個時間步隱狀態(tài)為ht-1。Bi-GRU 網(wǎng)絡(luò)的內(nèi)部子結(jié)構(gòu)GRU 在時間步t時,通過式(4)和式(5)計算重置門和更新門的狀態(tài)。

其中,wr和wt為權(quán)重參數(shù),σ為激活函數(shù),其取值范圍在0~1之間。

候選隱狀態(tài)的作用是輔助控制當(dāng)前時間步t的隱狀態(tài)的計算,計算公式如式(6)所示:

其中,wh為權(quán)重參數(shù),tanh 為激活函數(shù),其取值范圍在-1~1之間。

至此,通過式(7)可計算出前向單元的隱狀態(tài)輸出。

通過式(8)可計算出后向單元的隱狀態(tài)輸出。

綜上,當(dāng)前時間步t 的前后隱狀態(tài)輸出拼接組成了綜合隱狀態(tài)輸出,其公式如式(9)所示:

由Bi-GRU 網(wǎng)絡(luò)中進(jìn)一步得到融合語義的向量集合O={o1,o2,…,oi,…,ot},其中,oi(i=1,2,…,t)表示語義特征向量。此時,論文采用多頭注意力機(jī)制在獲取強(qiáng)化語義的同時并進(jìn)行權(quán)重調(diào)整。

多頭注意力機(jī)制是由N 個自注意力機(jī)制堆疊而成,如圖3 所示。通過“復(fù)制”和“拆分”自注意力機(jī)制的權(quán)重矩陣,構(gòu)成了多頭注意力機(jī)制的計算模式,如式(10)所示,這使得學(xué)習(xí)到多個不同子空間的語義信息。

圖3 MultiHead-Attention更新權(quán)重計算

自注意力機(jī)制堆疊復(fù)制了8 次,形成了8 頭自注意力機(jī)制。通過平分這8 個Attention 形成了詞向量,然后通過矩陣交互計算,從而得到了多頭注意力的權(quán)值。

3.3 輸出層

輸出層對每個樣本所屬的標(biāo)簽進(jìn)行概率統(tǒng)計預(yù)測。在分類問題中,輸出層常用Softmax 層映射為條件概率。將輸入的樣本劃分為類別j的概率公式如式(11)所示:

x(i)表示訓(xùn)練樣本,y(i)∈{1,2,…,k}表示標(biāo)簽,y?則表示其預(yù)測值。

4 實(shí)驗

4.1 數(shù)據(jù)集

實(shí)驗數(shù)據(jù)來自今日頭條公開新聞數(shù)據(jù)集。數(shù)據(jù)集由38 萬余篇中文新聞文本標(biāo)題組成,其中包含房產(chǎn)、軍事、股票等總共15 個主題類別。本文選取其中的子集進(jìn)行實(shí)驗,每個類別選取5000 條數(shù)據(jù),按照8∶1∶1 的比例進(jìn)行訓(xùn)練集、測試集和驗證集的劃分。

4.2 實(shí)驗結(jié)果與分析

實(shí)驗采用精確率(Precision,P)、召回率(Recall,R)和F1 值(F1-Measure,F(xiàn))作為標(biāo)準(zhǔn)的評價指標(biāo)[16]。實(shí)驗環(huán)境為Linux Ubuntu16.04系統(tǒng),顯卡型號GTX1070,實(shí)驗中涉及到的算法均采用Python3.6 編寫以及Tensorflow1.12 深度學(xué)習(xí)框架實(shí)現(xiàn)。

本實(shí)驗將目前在短文本分類任務(wù)中優(yōu)秀的算法[9,14]作為基準(zhǔn)算法,與本論文算法在相同數(shù)據(jù)集上進(jìn)行兩組對比實(shí)驗。

1)第一組實(shí)驗

為驗證Bert 預(yù)訓(xùn)練語言模型生成的語義向量比Word2Vec 的表征能力強(qiáng),以使得分類準(zhǔn)確率更高。將Word2Vec-GRU 及其改進(jìn)模型與Bert-BiGRU模型進(jìn)行第一組分類實(shí)驗。

本組實(shí)驗相關(guān)參數(shù)設(shè)置如下。

模型訓(xùn)練的超參數(shù)包括:學(xué)習(xí)率lr 為0.001,隱層單元數(shù)hidden_units 為128,批處理量batch_size為32,網(wǎng)絡(luò)節(jié)點(diǎn)丟棄率dropout 為0.25。具體實(shí)驗結(jié)果記錄表如表1所示。

表1 實(shí)驗結(jié)果記錄表

2)第二組實(shí)驗

為驗證本論文提出的模型比主流的引入傳統(tǒng)向量表示或者引入注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)分類模型的準(zhǔn)確率高,本論文進(jìn)行第二組分類實(shí)驗。

本組實(shí)驗的模型超參數(shù)設(shè)置為學(xué)習(xí)率lr 為0.0005,隱層單元數(shù)hidden_units 為128,批處理量batch_size為32,網(wǎng)絡(luò)節(jié)點(diǎn)丟棄率dropout為0.1。具體實(shí)驗結(jié)果記錄表如表2所示。

表2 實(shí)驗結(jié)果記錄表

圖4 實(shí)驗二分類效果對比圖

本論文進(jìn)行了兩組對比實(shí)驗,具體分析如下。

由實(shí)驗一的結(jié)果記錄表可知,通過對比引入Word2Vec 的S1、S2 兩個方法和引入Bert 的S3 方法的實(shí)驗結(jié)果,發(fā)現(xiàn)S3方法相較S2方法的精確率、召回率和F1 值分別提升了5.78%、5.96%、4.37%。說明了加入Bert 生成的向量表示法能表達(dá)豐富的上下文語義信息,有利于后續(xù)分類準(zhǔn)確率的提高。

由實(shí)驗二的結(jié)果記錄表可知,通過對比M1、M2 和M3 方法,發(fā)現(xiàn)Bert無論在語義向量表征能力上還是分類準(zhǔn)確率上均表現(xiàn)優(yōu)越。通過對比M3和M5 方法的結(jié)果,發(fā)現(xiàn)引入多頭注意力機(jī)制比自注意力機(jī)制的分類效果更顯著。

通過對比實(shí)驗一分類準(zhǔn)確率最高的S3(M4)與本論文提出M5方法的實(shí)驗結(jié)果發(fā)現(xiàn),模型精確率、召回率和F1 值分別提升了1.96%、2.7%、2.54%,證明本論文提出的方法在Bert-BiGRU 的基礎(chǔ)上,利用多頭注意力機(jī)制能充分捕捉到局部關(guān)鍵特征,進(jìn)一步增強(qiáng)短文本上下文語境。綜上兩組實(shí)驗可以證明本論文提出的融合語義增強(qiáng)的短文本分類方法的優(yōu)越性。

5 結(jié)語

針對中文短文本具有內(nèi)容特征稀疏,上下文依賴程度強(qiáng)的問題,結(jié)合目前主流的基于詞向量的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),提出融合語義增強(qiáng)的中文短文本分類方法進(jìn)一步改善分類效果。該方法引入Bert生成融合字、文本以及位置向量的語義向量作為訓(xùn)練文本的詞表征。采用Bi-GRU 網(wǎng)絡(luò)提取上下文關(guān)系特征,并通過多頭注意力機(jī)制調(diào)整權(quán)值強(qiáng)化重要特征表達(dá)。實(shí)驗結(jié)果表明該方法應(yīng)用于短文本分類問題的準(zhǔn)確性和優(yōu)越性。

猜你喜歡
語義分類機(jī)制
分類算一算
語言與語義
分類討論求坐標(biāo)
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
破除舊機(jī)制要分步推進(jìn)
認(rèn)知范疇模糊與語義模糊
注重機(jī)制的相互配合
主站蜘蛛池模板: 色网在线视频| 亚洲 欧美 中文 AⅤ在线视频| 欧美五月婷婷| 成人免费一区二区三区| 国产成人精品一区二区不卡| 国产激爽爽爽大片在线观看| 欧洲欧美人成免费全部视频| 日韩天堂视频| 国产高清无码麻豆精品| 国产欧美日韩视频怡春院| 国产精品免费福利久久播放| 久久精品视频一| 激情在线网| 精品伊人久久大香线蕉网站| 人妻少妇久久久久久97人妻| 欧美成人免费午夜全| 亚洲欧洲日韩综合色天使| 天天干天天色综合网| 欧美中文字幕一区| 中文字幕日韩视频欧美一区| 国产精品任我爽爆在线播放6080| 国产久操视频| 四虎综合网| 国产精品自拍露脸视频| 强奷白丝美女在线观看| 在线视频亚洲欧美| 精品国产亚洲人成在线| a级高清毛片| 亚洲一区二区在线无码| 精品免费在线视频| 干中文字幕| 九九久久精品免费观看| 天堂网亚洲综合在线| 亚洲免费福利视频| 国产不卡国语在线| 午夜成人在线视频| 国产三级毛片| 九九热视频精品在线| 欧美日本在线播放| 成人日韩视频| 无码啪啪精品天堂浪潮av| 91网址在线播放| 日本草草视频在线观看| 亚洲无码精彩视频在线观看| 亚洲国产日韩在线成人蜜芽| 日本免费高清一区| 国产剧情国内精品原创| 欧美三级视频在线播放| 自拍亚洲欧美精品| 国产手机在线ΑⅤ片无码观看| 美女国产在线| 亚洲天堂网在线观看视频| 国产第一页第二页| 99精品视频在线观看免费播放| 免费高清自慰一区二区三区| 日韩成人高清无码| 2019国产在线| 亚洲福利片无码最新在线播放| 亚洲一区二区三区国产精华液| 狂欢视频在线观看不卡| 美女无遮挡免费视频网站| 亚洲国产精品美女| 嫩草国产在线| 色综合中文| 亚洲Aⅴ无码专区在线观看q| 五月婷婷丁香色| 国产区精品高清在线观看| 久久久久久久久18禁秘| 日韩精品专区免费无码aⅴ| 国产精品露脸视频| 香蕉eeww99国产精选播放| 97国产精品视频自在拍| 欧美日韩一区二区在线免费观看| 亚洲乱伦视频| 久久精品aⅴ无码中文字幕| 成人毛片在线播放| 19国产精品麻豆免费观看| 亚洲天堂在线免费| 久久久久久久蜜桃| 亚洲人成人伊人成综合网无码| 国产毛片基地| WWW丫丫国产成人精品|