999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合GCN和注意力機制的文本分類方法研究

2022-01-22 02:46:20申艷光賈耀清范永健
計算機仿真 2021年12期
關(guān)鍵詞:單詞分類機制

申艷光,賈耀清,生 龍,范永健

(1.河北工程大學(xué)信息與電氣工程學(xué)院,河北 邯鄲 056038;2.河北工程大學(xué)河北省安防信息感知與處理重點實驗室,河北 邯鄲 056038)

1 引言

文本分類由來已久,利用文本分類技術(shù)對大量不同的文本進行科學(xué)有效地分類是亟待解決的問題。文本分類有十分廣闊的應(yīng)用,如文章組織、意見挖掘、推薦系統(tǒng)、知識圖譜、垃圾郵件過濾、決策過程等[1]。

上個世紀(jì)70年代,Salton等人提出了向量空間模型(Vector Space Model),在此基礎(chǔ)之上,F(xiàn)eigenbaum首次提出了知識工程(Knowledge Engineering)的概念[6],主要解決的是知識的分類、表示和推理,但這種分類技術(shù)由相關(guān)領(lǐng)域的專業(yè)人員來處理,分類方法過于單一,分類準(zhǔn)確率效果欠佳。上個世紀(jì)90年代,基于機器學(xué)習(xí)的文本分類方法逐漸興起,與基于知識工程的文本分類方法相比,該方法不需要專業(yè)人員的參與,并且能夠適用于各種領(lǐng)域的文本集合,成為當(dāng)時文本分類的主流方法,崔建明等人[7]提出了基于SVM算法的文本分類方法,解決了特征工程中的數(shù)據(jù)高維性和不平衡性的問題。傳統(tǒng)的文本分類方法首先建立特征工程,然后經(jīng)過特征選擇,最后經(jīng)過各種分類算法完成文本分類,現(xiàn)如今深度學(xué)習(xí)技術(shù)的興起,基于深度學(xué)習(xí)的文本分類方法占據(jù)主流,這是一種端到端的學(xué)習(xí)方式,有效解決了分類準(zhǔn)確率不高的問題。

圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[8]是近年來的研究熱點,非常適合處理具有圖結(jié)構(gòu)的數(shù)據(jù),例如社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白質(zhì)分子網(wǎng)絡(luò)等。GCN可以對圖結(jié)構(gòu)的數(shù)據(jù)進行節(jié)點分類,邊預(yù)測和圖分類等。早期的圖卷積神經(jīng)網(wǎng)絡(luò)基于巴納赫不動點定理,Bruna J等人[9]提出第一個真正意義上的圖神經(jīng)網(wǎng)絡(luò)(Graph neural network,GNN),其基本思想是基于卷積定理在譜空間上定義圖卷積。Yao L等人將提出了Text GCN模型,與其它模型相比準(zhǔn)確率較高[10]。Attention機制[11]最早應(yīng)用在機器翻譯任務(wù)中,其本質(zhì)是計算輸入的各個部分對輸出的貢獻權(quán)重,Yang Z等人基于層次結(jié)構(gòu)的Attention機制構(gòu)建了HAN網(wǎng)絡(luò)[12],并可視化了注意力層。

因此,基于上述問題,提出一種結(jié)合GCN和Attention機制的文本分類方法。與傳統(tǒng)文本分類方法不同,該方法將文本分類問題轉(zhuǎn)化為圖結(jié)構(gòu)數(shù)據(jù)中的節(jié)點分類問題。首先建立整個語料庫的大型文本圖,然后將該文本圖的鄰接矩陣和特征矩陣輸入到圖卷積神經(jīng)網(wǎng)絡(luò)中,最后網(wǎng)絡(luò)的輸出與注意力機制相結(jié)合,利用注意力機制中Self-Attention機制充分學(xué)習(xí)文本表示,不斷調(diào)整網(wǎng)絡(luò)的輸出。與傳統(tǒng)的文本分類方法SVM,KNN,TF-IDF相比,該方法準(zhǔn)確率較高。

2 基于GCN和Attention機制的文本分類方法

2.1 文本圖的構(gòu)建

一個文本圖的各個符號的含義見表1。

表1 文本圖中各個符號的含義

將語料庫中文檔和單詞轉(zhuǎn)化為節(jié)點的形式,如果相鄰兩個節(jié)點的聯(lián)系越緊密則連接線越粗,建立文本圖G=(V,E,A),如圖1。

圖1 文本圖

假設(shè)語料庫中有N個節(jié)點(Node),每個Node具有自己Z維度的特征,定義矩陣X=N×Z,稱X為特征矩陣。每個Node之間組成N×N的矩陣,定義矩陣A=N×N,稱A為鄰接矩陣。

構(gòu)造GCN,模型簡化為

Z=f(X,A)

(1)

引入鄰接矩陣的度矩陣D,得到新的鄰接矩陣A。

(2)

其中,

(3)

(4)

2.2 注意力機制的引入

Attention機制的本質(zhì)可以看作是一種ENCODER-DECODER模型,如圖2。例如,輸入英文句子“He is a teacher”,首先經(jīng)過編碼階段將輸入語句轉(zhuǎn)化為高級文本表示,然后經(jīng)過解碼階段“翻譯”出想要的結(jié)果。在輸出“教師”時,考慮到輸入序列的4個單詞“He”、“is”、“a”“teacher”,而Attention機制的作用在于可以為這4個單詞賦一個權(quán)重,例如將“He”、“is”、“a”賦權(quán)值為0.1,而單詞“teacher”賦權(quán)值為0.7。顯然,單詞“teacher”的重要性相對其它三個單詞更加重要。在編解碼過程中,輸出序列的每一個單詞都充分考慮了輸入序列的所有單詞,而Self-Attention是Attention機制的特殊形式,輸入序列的每個單詞都需要和該序列的所有單詞進行Attention計算,這樣做的目的是充分考慮語句之間不同單詞之間的語義和語法聯(lián)系。

圖2 ENCODER-DECODER模型

利用Attention機制中的Self-Attention機制計算Word1和Word2的自我注意力需要經(jīng)過以下步驟:

1)Word1的詞向量為x1,Word2的詞向量為x2,通過輸入詞向量計算得到Attention機制中的Query向量、Key向量和Value向量。

2)計算score得分。其中,

Score=q×k

(5)

3)通過softmax操作進行歸一化,保持結(jié)果為正,和為1。

4)計算總的加權(quán)值,產(chǎn)生輸出。其中,

Sum=Softmax×Value

(6)

第2)步到第4)步可以合并,計算公式如下:

(7)

將原GCN的輸出引入Self-Attention機制,使網(wǎng)絡(luò)側(cè)重特征本身的內(nèi)部聯(lián)系,最后通過加權(quán)平均輸出結(jié)果,提高模型的表達能力,如圖3。

圖3 Self-Attention機制

3 實驗與仿真

3.1 數(shù)據(jù)集與技術(shù)指標(biāo)

本仿真采用的公開數(shù)據(jù)集是20NewsGroups(20NG),20NG是文本分類領(lǐng)域的公開數(shù)據(jù)集,該數(shù)據(jù)集包含18846個新聞文檔,20個類別,其中訓(xùn)練集60%,測試集40%。

在數(shù)據(jù)集20NG中,TP表示真正類,TN表示真負類,F(xiàn)P表示假正類,F(xiàn)N表示假負類,如圖4。

分類結(jié)果屬于ci的文本不屬于ci的文本屬于ci的文本TPFP不屬于ci的文本FNTN

圖4 樣本分類

衡量文本分類系統(tǒng)性能的技術(shù)指標(biāo)有正確率(accuracy)、召回率(recall)、準(zhǔn)確率(precision),公式如下

(8)

(9)

(10)

(11)

為了直觀有效表示分類的效果,本實驗選用precision指標(biāo)來衡量系統(tǒng)的性能。

3.2 實驗環(huán)境與仿真結(jié)果

本實驗的硬件環(huán)境為:處理器為i5-9300H,內(nèi)存為16 GB RAM,顯卡為RTX2060。編程語言采用Python3.6.5,結(jié)合tensorflow深度學(xué)習(xí)框架。

設(shè)定分類的準(zhǔn)確率precision為P,不同分類方法得到的P值見表2:

表2 各種分類方法的P值

GCN+Attention的方法比SVM、KNN、TF-IDF以及GCN方法表現(xiàn)良好的原因分析如下:

1)SVM、KNN和TF-IDF方法同屬于基于機器學(xué)習(xí)的文本分類方法,而這些方法都需要經(jīng)過文本預(yù)處理、特征提取、特征選擇、分類等過程,由于沒有考慮到文檔與單詞以及單詞與單詞之間的內(nèi)部聯(lián)系,最終分類的準(zhǔn)確率表現(xiàn)不佳。

2)GCN+Attention方法與GCN方法同屬于基于深度學(xué)習(xí)的文本分類方法,它能同時對節(jié)點特征信息與結(jié)構(gòu)信息進行端對端的學(xué)習(xí)。由于不需要經(jīng)過特征提取、特征選擇等過程,避免了人工提取特征而引入的誤差,引入Attention機制之后,模型更加注重單詞與單詞之間的聯(lián)系,增強了文本表示。GCN+Attention方法中文檔節(jié)點的標(biāo)簽信息可以傳遞給相鄰的詞節(jié)點,詞節(jié)點收集全面的文檔標(biāo)簽信息,在文本圖中充當(dāng)關(guān)鍵的連接,最終將標(biāo)簽信息傳播到整個文本圖中。

設(shè)定GCN+Attention方法的網(wǎng)絡(luò)層數(shù)為K,在不同K值的情況下實驗,如圖5。

圖5 不同K值分類方法的表現(xiàn)

不同K值的分類方法表現(xiàn)不同的分析如下:

圖卷積神經(jīng)網(wǎng)絡(luò)中文本圖的建立需要考慮到語料庫中所有單詞的信息,建立這些單詞之間以及文檔與單詞之間的聯(lián)系本身需要消耗大量的資源,而如果網(wǎng)絡(luò)層數(shù)過多會導(dǎo)致計算更加復(fù)雜,文本表示也更加抽象,使得每個節(jié)點的詞嵌入更加靠近,對后面文本圖的節(jié)點分類產(chǎn)生干擾。

與卷積神經(jīng)網(wǎng)絡(luò)[13]類似,圖卷積神經(jīng)網(wǎng)絡(luò)的卷積核類似于一個滑動的窗口,設(shè)窗口大小為H。在不同K值,不同H值的情況下實驗,其準(zhǔn)確率見表3。

表3 不同K值,不同H值的準(zhǔn)確率

表4 標(biāo)準(zhǔn)偏差

根據(jù)表3的數(shù)據(jù),計算當(dāng)K為固定數(shù)值,H分別為5,10,15時兩種方法的標(biāo)準(zhǔn)偏差以及計算當(dāng)H為固定數(shù)值,K分別為1,2,3時兩種方法的標(biāo)準(zhǔn)偏差,得到標(biāo)準(zhǔn)偏差數(shù)據(jù),見表4。其中,計算標(biāo)準(zhǔn)偏差的公式為

(12)

其中,S為標(biāo)準(zhǔn)偏差,X為樣本數(shù)值,M為樣本平均數(shù),n為樣本數(shù)。

通過分析表3和表4得到的實驗數(shù)據(jù),可以得到如下結(jié)論:

1)不管K與H為何值,GCN+Attention方法均比GCN方法的準(zhǔn)確率高,引入Attention機制之后提高了分類的準(zhǔn)確率。

2)當(dāng)K值為固定數(shù)值時,取H為5,10和15,其S值較小,P值波動較??;當(dāng)H為固定數(shù)值時,取K為1,2,3,其S值較大,P值波動較大。所以,GCN+Attention方法中網(wǎng)絡(luò)層數(shù)(K值大小)的影響要比滑動窗口(H的大小)的影響要大。

分析得到以上結(jié)論的可能原因如下:

圖卷積神經(jīng)網(wǎng)絡(luò)的本質(zhì)也是卷積神經(jīng)網(wǎng)絡(luò)的一種,而卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小一般都是由經(jīng)驗值設(shè)定的,但是網(wǎng)絡(luò)的層數(shù)卻不是由經(jīng)驗值所確定,He K等人將ResNet網(wǎng)絡(luò)[14]的層數(shù)設(shè)計到了152層,但是卷積核的大小卻沒有設(shè)計的相對較大。

最后,選擇最佳的K值與H值(K=3,H=10),實驗5次取平均之后的準(zhǔn)確率,如圖6。SVM、KNN、TF-IDF、GCN和GCN+Attention方法分別用不同的填充圖案表示,GCN+Attention的方法表現(xiàn)良好。

圖6 各種分類方法的準(zhǔn)確率

4 結(jié)束語

傳統(tǒng)的文本分類方法普遍存在分類準(zhǔn)確率不高的問題,針對此問題,本文提出了一種結(jié)合GCN與Attention機制的文本分類方法。與傳統(tǒng)文本分類方法不同,GCN+Attention機制的文本分類方法是將整個語料庫構(gòu)建成一個大型異構(gòu)文本圖,并將文本分類問題轉(zhuǎn)化為節(jié)點分類問題,有效避免了人工特征工程。仿真結(jié)果表明,本方法實現(xiàn)了較高的準(zhǔn)確率,但需要注意的是,GCN+Attention的方法在文本分類問題中網(wǎng)絡(luò)層數(shù)不宜設(shè)置過大。

文本分類的應(yīng)用前景十分廣闊,但也面臨著許多挑戰(zhàn)。未來針對文本分類的研究還可以從以下幾個方向進行:①短文本數(shù)據(jù)例如微博評論、視頻彈幕、手機短信等形式的迅速擴增,短文本數(shù)據(jù)分類難度增大,這給文本分類領(lǐng)域帶來了更多的機遇與挑戰(zhàn)。②圖卷積神經(jīng)網(wǎng)絡(luò)正處于迅速發(fā)展階段,可以嘗試將圖卷積神經(jīng)網(wǎng)絡(luò)與其它神經(jīng)網(wǎng)絡(luò)相結(jié)合來解決文本分類領(lǐng)域的問題。③雖然提出的分類方法提高了準(zhǔn)確率,但這是在犧牲時間成本的前提下實現(xiàn)的,如何在保證準(zhǔn)確率的前提下縮短時間是未來的研究方向。

猜你喜歡
單詞分類機制
分類算一算
單詞連一連
分類討論求坐標(biāo)
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
破除舊機制要分步推進
注重機制的相互配合
打基礎(chǔ) 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 日本一区二区三区精品国产| 亚洲天堂网视频| 色香蕉网站| 日韩黄色在线| 拍国产真实乱人偷精品| 亚洲国产一区在线观看| 日韩不卡免费视频| 日本一本正道综合久久dvd| 国产av剧情无码精品色午夜| 亚洲免费人成影院| 国产大片喷水在线在线视频| 日本三区视频| av一区二区三区高清久久| 亚洲美女久久| 欧美久久网| 国产精品久久久免费视频| 麻豆精品久久久久久久99蜜桃| 尤物精品国产福利网站| 亚洲永久精品ww47国产| 在线无码av一区二区三区| 欧美成人综合在线| 丰满的熟女一区二区三区l| 伊人久久大香线蕉影院| 国产成年女人特黄特色毛片免 | 精品久久国产综合精麻豆| 在线毛片网站| 欧美综合中文字幕久久| 91麻豆国产视频| 久久无码av一区二区三区| 精品欧美一区二区三区在线| 又爽又黄又无遮挡网站| 中文字幕亚洲专区第19页| 亚洲电影天堂在线国语对白| 美女高潮全身流白浆福利区| 91最新精品视频发布页| 欧美日韩亚洲国产主播第一区| 欧美精品aⅴ在线视频| 国产91精品久久| 亚洲国内精品自在自线官| 综1合AV在线播放| 国产精品成人第一区| 天天综合网色| 国产午夜精品一区二区三区软件| 亚洲无码A视频在线| 日本免费一区视频| 露脸国产精品自产在线播| 国产成人精品男人的天堂| 国产99视频精品免费视频7| 在线人成精品免费视频| 中文字幕2区| 国产偷国产偷在线高清| 国产男女免费完整版视频| 欧美激情综合| 国产日本一线在线观看免费| 亚洲视频四区| 精品国产免费第一区二区三区日韩| 国产一级裸网站| 中文无码日韩精品| 亚洲午夜国产片在线观看| 久久亚洲国产视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 伊人欧美在线| 亚洲av无码专区久久蜜芽| 欧美精品在线视频观看| 亚洲色成人www在线观看| 欧美精品在线视频观看| 九九这里只有精品视频| 亚洲国产成人在线| 国产亚洲精| 在线免费观看a视频| 成年av福利永久免费观看| 亚洲男人的天堂久久香蕉网| 久久永久精品免费视频| 狠狠干欧美| 精品免费在线视频| 国产男女XX00免费观看| 人人爱天天做夜夜爽| 青青操国产视频| 成人另类稀缺在线观看| 精品国产黑色丝袜高跟鞋| 全部毛片免费看| 天天操天天噜|