999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

密集池化連接和短語注意力下的文本分類算法

2021-07-19 09:58:14黃衛春陶自強熊李艷
科學技術與工程 2021年17期
關鍵詞:分類文本實驗

黃衛春,陶自強*,熊李艷

(1.華東交通大學軟件學院,南昌 330013;2.華東交通大學信息學院,南昌 330013)

文本分類任務是自然語言處理中的基礎性任務,該問題初期被視作是一些簡單的匹配性問題,例如,數據集中存在不同類別的文本,只要事先搜集一些與每個類別相關的詞匯,當新樣本中有這個詞語,就判定它是對應類別即可。但是這種做法顯然忽略了句子的整體語義和語境,從而導致文本分類的準確率低等問題。同時,文本分類又是組合了語義信息、語序信息和語境信息的復合型任務,傳統的機器學習方法難以對非結構化文本數據進行理解[1-2]。而文本表示方法同樣對分類效果有很大影響,李舟軍等[3]針對自然語言處理中詞語的分布式表示進行了說明。近年來,由于深度學習算法針對非結構化數據處理的優勢逐漸明顯,開始成為解決文本分類問題的熱門選擇。

卷積神經網絡(convolutional neural network, CNN)在語音識別、自然語言處理和計算機視覺等領域都有很大的應用,并且取得了很好的效果。Kim[4]首次提出將卷積神經網絡應用于文本分類處理之中。陶永才等[5]構建了一種基于壓縮激發塊的卷積神經網絡文本分類模型,可以結合文本整體與局部關聯性進行語義分析。Wang等[6]提出了一個基于卷積神經網絡的框架,該框架結合了兩種不同的詞語表示方法進行分類。Conneau等[7]提出了一種文本處理體系結構,使用小規模卷積和池化操作,并且證明該模型的性能隨卷積深度而增加。Duque等[8]對卷積神經網絡進行壓縮,評估了時間深度可分離卷積和全局平均池對結果的影響。但是使用卷積神經網絡進行文本分類未能解決卷積神經網絡在深度增加時所造成的梯度彌散現象,從而導致深層卷積網絡訓練效果不好。

為了解決CNN模型在深度增加時,信息缺失程度越來越重,訓練誤差反而隨深度增加而增加的情況。He等[9]提出了一種稱為殘差網絡的架構,這種方法可以有效地防止信息的缺失,同時也可以緩解過擬合問題。同時,許多研究人員提出了將注意力機制運用于文本分類模型中,在自然語言處理中,Bahdanau等[10]首次將注意力機制在encode-decode的基礎上應用到機器翻譯。姚苗等[11]加入了堆疊雙向LSTM和自注意力機制的方法,優化了文本表示。Yin等[12]提出通用的基于注意力的卷積神經網絡,通過三種注意力機制方案,將句子之間的影響整合于CNN。但是,現有作用于文本的注意力機制只能得出句子中詞語和詞語之間的聯系,卻無法靈活地得到不同階短語之間的聯系,導致短語維度不匹配問題,從而干擾分類效果。

為了有效進行特征選擇,解決梯度消失問題,降低冗余特征干擾分類結果,同時可以靈活捕捉不同層次短語之間的聯系,從而獲得更好的分類效果,現采用密集池化連接解決模型特征丟失以及梯度消失的問題,以及對序列信息特征提取不敏感做出優化。改進傳統注意力機制,采用短語注意力模型靈活地得到不同階短語信息,解決傳統注意力機制短語維度不匹配問題,重新組合關系密切的短語信息提高分類準確率。以新聞分類數據集為例,設置三組對比實驗,對模型收斂性和測試集評估指標進行分析,以證明模型的有效性。對實驗部分的超參數進行優化調整,以使得模型結果達到最優值。

1 模型設計

密集池化連接和短語注意力機制(dense-pool convolutional neural networks with phrase attention,DPCNN-PAtt)模型由詞嵌入層,密集池化連接層,短語注意力機制層,全連接層由4個部分組成,模型總體結構如圖1所示。

圖1 模型整體框架

1.1 詞嵌入層

詞向量Glove[13]用于詞語的表示,Glove融合了全局矩陣分解和局部上下文窗口兩種方法,在加快訓練速度的同時,也可以控制詞語權重,代價函數為

(1)

(2)

xmax=100,α=0.75時的效果最好,直接使用語料庫進行訓練。針對集外詞(out of vocabulary, OOV)詞匯,隨機化相同維度TOKEN加入詞典隨網絡訓練。

1.2 密集連接池化層

密集池化連接分為殘差網絡和池化層兩個部分,殘差網絡內進行多次卷積,同時可防止梯度消失,之后使用池化層保留權重大的特征值,實現特征復用。假設殘差網絡卷積結構式為

(3)

在殘差網絡之后卷積短語特征,再在層與層之間使用池化,表達式為

(4)

式(4)中:Xl∈Rn×k;Wl∈Rw×k為單個卷積核維度;w為卷積窗口大小,共有k個卷積核,每次僅在此時對卷積窗口w個詞語進行卷積,池化后得到第l層的輸出結果Xl,in。

網絡結構如圖2所示,隨著密集池化連接層數的增加,其提取的短語維度ngram也不斷增加,圖中第一層只能表示單個詞語的語義信息,而第二層通過卷積可表示相鄰兩個詞語組合的短語信息。

圖2 密集連接池化結構圖

之前的研究者在使用卷積神經網絡時,一般直接使用上一層的輸出作為輸入。這種方式會隨著卷積層數的增加而導致梯度消失,從而使參數無法有效更新。

假設層內采用常規網絡,梯度更新表示為

(5)

(6)

當連乘部分為若干個(0,1)區間內的數,則梯度會趨向于0,又由于學習率的限制,梯度會變得更小,以至于后面的參數無法獲得有效梯度。

在層內加入殘差連接以后,可得

(7)

(8)

通過改變梯度傳播方式,從連續乘積變成了累加形式,這樣梯度可以穩定地從第M層傳入第m層,從而緩解梯度消失的情況,密集連接池化流程如圖3所示。

圖3 密集連接池化流程圖

1.3 多尺度短語注意力機制層

如圖4所示,圖4(a)中“奇妙”為正向情感詞,而“枯燥”為負向情感詞,因為常規注意力機制只能提取出詞與詞之間的關系,無法得出否定詞“不”和“枯燥”的短語含義,則無法很好地理解兩個詞對主語的情感傾向。如圖4(b)和圖4(c)所示,先通過卷積獲得高階短語維度特征信息,再使用注意力機制組合短語特征,可正確理解語義信息。

圖4 注意力機制對比

如圖2所示,由于每一層所提取的短語信息維度不同,由低維逐漸轉向高維。通過短語注意力機制可以利用不同維度短語信息,從而表示出它們的關系。具體過程如圖5所示,分為兩部分,首先是短語特征重構,其次是短語特征注意力關系矩陣提取。

圖5 短語注意力機制示意圖

在短語特征重構部分,先對不同卷積層的短語特征進行降維,這有利于后續注意力機制處理,公式為

(9)

(10)

(11)

(12)

圖6 短語特征注意力矩陣構造

在得到不同層之間權重矩陣以后,將每一層輸出的短語特征與權重參數相乘,再累加獲得組合不同階的短語特征信息,公式為

(13)

由于將不同層之間的特征相加,為了防止維度過大,需要除標度L進行限制。通過這樣的方式,可以求得不同層之間的關聯,從而有指向地處理關聯度高的短語特征向量。

1.4 全連接層

(14)

訓練的目標是最小化損失函數,損失函數采用交叉熵(cross entropy)為損失函數,同時加入L2正則化防止過擬合,公式為

(15)

2 實驗與分析

2.1 數據集

使用的實驗數據集為新聞分類數據集(AG),以新聞文章作為樣本,劃分為4種不同的新聞類別,分別為World、Sports、Business、Sci/Tech,具體信息如表1所示。

表1 數據集信息

2.2 實驗設置

實驗環境配置和參數設置分別如表2、表3所示。

表2 實驗環境配置

表3 參數設置

2.3 實驗結果對比

分類效果評估標準采用準確率(precision,P)、召回率(recall,R)和F1值進行衡量,定義如下。

(16)

(17)

(18)

根據分類結果所建立的混淆矩陣如表4所示。

表4 混淆矩陣

2.4 實驗對比及分析

為了對比在不同情況下模型的效果,設置了3組對照實驗模型,實驗設置與2.2節介紹一致,以新聞數據集(AG)為實驗數據集進行對比。

(1)僅使用卷積神經網絡CNN。

(2)使用密集池化連接(dense-pool connection convolutional neural network, DPCNN),但是不使用短語注意力機制。

(3)使用短語注意力機制(convolutional neural network with phrase attention,CNN-PAtt),但是不使用密集池化連接網絡。

通過對比3種不同模型的loss下降程度以及準確率,結果如圖7所示。

圖7 4種模型的準確率和損失值對比試驗圖

通過圖7(a)對比發現,在相同實驗條件下,本文模型準確率均高于3種對比模型,模型準確率比CNN-PAtt模型高0.9%~1.5%,比DPCNN高0.5%~0.8%,比CNN高2.5%~3%。通過圖7(b)可以發現,本文模型loss值下降較快,相對穩定,取得了很好的收斂結果,而對比模型收斂性相對較差,尤其是CNN-PAtt和CNN模型,這也是因為沒有加入密集池化連接從而產生梯度消失的緣故,但是CNN模型在迭代次數變高時準確率和損失值表現均比CNN-PAtt模型更好。綜上可得,本文模型可以有效緩解梯度消失,同時提高準確率,降低損失值。

通過實驗具體對比了4種模型的準確率、召回率和F1值,不僅對總體性能指標進行計算,還對新聞數據集4個不同類別分別計算其分類效果,結果如表5所示。

表5 對比實驗結果

由于準確率和召回率只能表達部分模型性能,通過F1值綜合考量,DPCNN-PAtt模型的F1值比以上3個對比模型分別高出3.34、0.81和2.69,模型性能得到有效提升,具體如圖8所示。

圖8 F1值比較

2.5 超參數設置

2.5.1 網絡層數對結果影響對比

結果如圖9所示,可以看出網絡層數選取第4層時,數據集準確率最高。也并非層數越深,分類結果越好,網絡層數偏高時提取出的短語語義偏差會增加。

圖9 網絡層數對結果的影響

2.5.2 不同池化方式對比

比較最大池化和平均池化兩種池化方式對結果的影響,密集連接層數以2、4、6、8層進行實驗,結果如圖10所示。對比可得,采用最大池化精度提升更大,平均池化最優準確率為0.922,而最大池化方式可以達到0.927。這也是因為最大池化可以提取出特征區域中最重要的特征,而當使用平均池化提取特征時,重要特征的權重會因為層數的增加而變小,所以其語義特征也相應弱化,從而引起分類效果變差。

圖10 不同池化方式對準確率影響

2.5.3 句子長度對結果影響

由于數據集中樣本長度不一致,需要將樣本處理成統一長度進行處理。首先需要得出數據集中樣本長短的分布情況,對新聞分類數據集(AG)進行分析,圖11為數據集樣本長度分布。

由圖11分析可知,樣本中詞語數在[40,60]區間內較多。取句子長度為30開始實驗,在[30,80]區間內進行實驗,實驗結果如圖12所示,取60表現最優。

圖11 AG數據集樣本長度分布

3 結論

通過對比模型實驗結果得出以下結論。

(1)在密集池化連接中通過殘差網絡防止由于層數增加而導致的梯度消失問題,并在殘差網絡后加入池化層復用重要特征,可以有效緩解梯度消失的問題。

(2)同時改進常規注意力機制,使用短語注意力機制可以更充分地利用不同尺度的短語特征信息,并且對其進行組合,獲得不同階短語之間的關系,并通過對比實驗得出模型的有效性。

但對于深層次信息語義信息的提取,以及上下文序列信息處理,還存在一定局限性。可以嘗試使用更好的詞向量預處理模型,比如Bert模型,也可以加入循環神經網絡進行實驗,這可以作為之后的研究方向。

猜你喜歡
分類文本實驗
記一次有趣的實驗
分類算一算
在808DA上文本顯示的改善
做個怪怪長實驗
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产成人精品一区二区秒拍1o| 亚洲国产一区在线观看| 婷婷色一区二区三区| 欧美区一区| 57pao国产成视频免费播放| 国产黄色片在线看| 丝袜无码一区二区三区| 在线欧美日韩| 国产在线小视频| 国产97视频在线| 第九色区aⅴ天堂久久香| 欧美激情视频二区三区| 国产精品久线在线观看| 国产成人8x视频一区二区| 精品国产电影久久九九| 久久96热在精品国产高清| 国产欧美日韩另类| 全裸无码专区| 国产精品免费久久久久影院无码| 成人免费一区二区三区| 六月婷婷激情综合| 在线国产欧美| 色综合a怡红院怡红院首页| 久久综合色视频| 狠狠综合久久| 亚洲成人免费在线| 色成人亚洲| 嫩草国产在线| 在线中文字幕日韩| 美女被操91视频| 国产精品三区四区| 午夜视频在线观看免费网站 | 国产精品尤物在线| 97青草最新免费精品视频| 大香伊人久久| 免费久久一级欧美特大黄| 亚洲成人高清在线观看| 伊人中文网| 欧美亚洲第一页| 国产原创演绎剧情有字幕的| 青青草国产一区二区三区| 强奷白丝美女在线观看| 真人免费一级毛片一区二区| 91www在线观看| 日韩欧美网址| 欧美一级黄色影院| 国产精品自拍露脸视频 | Aⅴ无码专区在线观看| 亚洲最大福利网站| 色综合狠狠操| 国模极品一区二区三区| 亚洲精品国产日韩无码AV永久免费网 | 亚洲无线一二三四区男男| 另类重口100页在线播放| 国产精品女在线观看| 麻豆精品视频在线原创| 2020精品极品国产色在线观看| 免费A级毛片无码免费视频| 国产精品自在在线午夜区app| 人妻一区二区三区无码精品一区| 欧美日韩免费观看| 国产视频大全| 中文无码精品A∨在线观看不卡| 亚洲a级毛片| 亚洲人成日本在线观看| 午夜性爽视频男人的天堂| 精品视频一区在线观看| 日本手机在线视频| 人妻丰满熟妇啪啪| 丰满人妻久久中文字幕| 日韩av手机在线| 国产白浆一区二区三区视频在线| 欧美一区日韩一区中文字幕页| 国产不卡网| 亚洲床戏一区| 欧美中文字幕在线播放| 国产91av在线| 综合色在线| 亚洲人成网站在线观看播放不卡| 国产真实乱了在线播放| 激情六月丁香婷婷| 国产成在线观看免费视频|