999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

稀疏數據下結合詞向量的短文本分類模型研究

2022-01-01 00:00:00楊陽劉恩博顧春華裴頌文
計算機應用研究 2022年3期

摘 要:針對短文本缺乏足夠共現信息所產生的詞與詞之間弱連接,且難以獲取主題詞的情況,導致面向短文本分類工作需要人工標注大量的訓練樣本,以及產生特征稀疏和維度爆炸的問題,提出了一種基于注意力機制和標簽圖的單詞共生短文本分類模型(WGA-BERT)。首先利用預先訓練好的BERT模型計算上下文感知的文本表示,并使用WNTM對每個單詞的潛在單詞組分布進行建模,以獲取主題擴展特征向量;其次提出了一種標簽圖構造方法捕獲主題詞的結構和相關性;最后,提出了一種注意力機制建立主題詞之間,以及主題詞和文本之間的聯系,解決了數據稀疏性和主題文本異構性的問題。實驗結果表明,WGA-BERT模型對于新聞評論類的短文本分類,比傳統的機器學習模型在分類精度上平均提高了3%。

關鍵詞:短文本分類;詞嵌入;單詞網絡主題模型;注意力機制

中圖分類號:TP391.1 文獻標志碼:A

文章編號:1001-3695(2022)03-011-0711-05

doi:10.19734/j.issn.1001-3695.2021.08.0359

基金項目:國家自然科學基金資助項目(61975124);上海自然科學基金資助項目(20ZR1438500);上海市科委科技行動計劃資助項目(20DZ2308700);上海市經信委軟件和集成電路產業發展專項(RX-RJJC-02-20-4212)

作者簡介:楊陽(1997-),女,河南平頂山人,碩士研究生,主要研究方向為自然語言處理;劉恩博(1995-),男,河南周口人,碩士研究生,主要研究方向為推薦系統;顧春華(1970-),男,江蘇常熟人,教授,博導,博士,主要研究方向為強智能計算系統等;裴頌文(1981-),男(通信作者),湖南邵東人,教授,博導,博士,主要研究方向為計算機體系結構、智能計算等(swpei@usst.edu.cn).

Research on short text classification model combined with word vector for sparse data

Yang Yang,Liu Enbo,Gu Chunhua,Pei Songwen?

(School of Optical-Electrical amp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200082,China)

Abstract:Due to the lack of sufficient co-occurrence information in short text,

weak connections between words,and it is difficult to obtain subject words,which leads to the need to manually label a large number of training samples for short text classification,and the problems of sparse features and dimension explosion.This paper proposed a word symbiotic short text classification model based on attention mechanism and label graph(WGA-BERT).Firstly,this paper used the pretrained BERT model to calculate the context aware text representation,and used WNTM to model the potential word group distribution of each word to obtain the topic expansion feature vector.Secondly,this paper used a tag graph construction method to capture the structure and relevance of subject words.Finally,this paper used an attention mechanism to establish the relationship between subject words and between subject words and text,which solved the problems of data sparsity and subject text heterogeneity.The experimental results show that the WGA-BERT model improves the classification accuracy by an average of 3% compared with the traditional machine learning model.

Key words:short text classification;word embedding;word network topic model(WNTM);attention mechanism

0 引言

文本分類是自然語言處理(NLP)中的一個經典問題,它也是信息過濾、信息檢索、用戶推薦等領域一項基本的自然語言處理任務,其中最具有挑戰性的是多標簽文本分類。多標簽文本分類[1區別于單標簽文本分類,旨在用一系列標簽來標記文檔。多標簽文本分類廣泛應用于情感分析、推薦系統和意圖識別等,比如將一篇新聞分為教育和金融兩個類別。文本分類是在預先定義主題類別的基礎上確定未標記文本類別的一種方法,在數學中,它實際上是一個映射:

f:A→B(1)

其中:A是需要分類的文本集;B是類別集;f是分類過程的分類器。

新聞文本分類是新聞信息處理的一項關鍵技術,它能有效地組織信息,并能根據用戶的需要快速區分信息類別。隨著大量新聞短文本信息的爆炸式增長,由于沒有足夠的上下文導致信息模糊,訓練模型的泛化能力大大降低。通過以上分析,新聞短文本分類的主要難點在于:a)文本長度過短導致特征提取稀疏,傳統的向量空間模型和機器分類算法直接應用于短文本分類時效果并不理想;b)各個信息類別標簽之間以及標簽與文本之間往往存在復雜的依賴關系,從而給文本分類帶來了很大的挑戰。

當前解決多標簽文本分類的方法可以歸納為問題轉換方法、算法改進方法和神經網絡方法三種。文本分類的中間步驟是文本表示,傳統的方法通常基于手工制作的特征,這些方法都存在特征稀疏和數據稀疏的問題。近年來基于深度學習的文本表示方法有CNN、RNN、LSTM等。但上述模型旨在關注文本的順序性和局部性,在解決文本統計信息的同時忽略了全局文本的共現信息。自從Bruna等人[2首次提出圖上的基于頻域(spectral-domain)和基于空域(spatial-domain)的卷積神經網絡以來,基于文本分類問題的圖神經網絡方法不斷涌現,為圖神經網絡解決文本分類問題的探索提供了更多的思路和可能性。

針對傳統文本分類中新聞標題稀疏難以取得較好的分類效果等特點,本文采用WNTM模型[3對新聞文本語料庫的主題進行建模,得到主題擴展特征向量。之后將圖卷積神經網絡與注意力機制(attention)[4相結合,提出了一種基于圖神經網絡的混合模型,利用新聞數據的文本、實體和主題標簽進行構圖,并通過調整注意機制結合標簽語義。此外,為了從每個文檔中捕獲與標簽相關的識別信息,使用來自變換器的雙向編碼表示,在模型的第一層采用單詞嵌入層,通過BERT機制將訓練序列轉換為單詞向量,有效獲得文本中每個單詞的上下文表示,模型的輸出為文本中各個字或詞融合了全文語義信息后的向量表示,大大地提高了模型的有效性。

本文利用能夠有效基于節點進行建模的圖神經網絡結構,在TextGCN模型的基礎上轉換為半監督圖學習任務,以減少對樣本的依賴。提出一種基于圖神經網絡的混合模型WGA-BERT,能夠對每個單詞的潛在單詞組分布進行建模,有效解決了傳統的LDA(latent Dirichlet allocation)[5難以提取短文本主題詞的問題。加入一種新的注意力機制來衡量調節注意,用于捕捉語義模糊等不同問題的不同信息的重要性,能夠在模型基礎上降低噪聲信息的權重。在一個真實的新聞數據集上對該方法進行了評估,證明所提方法在處理短文本時優于傳統模型和單一分類模型,需要較少的標記文章且能達到更高的分類精度。

1 傳統的短文本分類方法

傳統的新聞文本分類中,首先要進行數據集的預處理,包括標簽的預處理、文本信息的處理。目前對于文本的經典預處理方法有one-hot、world2vec等,但對于任務相關的數據集較大導致的訓練時間長,要在短時間內、特別是有限計算資源下解決sequence to sequence [6等問題,Google于2018年提出了基于transformer[7構建的BERT模型,BERT模型通過Mask語言模型和下一句預測的方法使其具有較強的泛化能力,刷新了多項NLP任務的記錄,并且使得NLP無監督預訓練技術有了較大的提升。BERT模型[8將預訓練模型和下游任務模型結合在一起,對于短文本預測具有較大的優勢,將BERT運用于文本分類以提高分類性能是當下的一個研究熱點。除此之外,模型的構建對于新聞文本分類至關重要。近幾年來興起的基于深度學習的文本分類比如FastText、word2vec和text2vec等方法可以將其映射到一個低維度空間從而得到較好的分類效果。經研究發現,較短的新聞文本通常沒有共同的標簽或只有少量標簽,僅基于傳統表示方法或傳統的深度學習模型分類比較困難。現有的半監督文本分類方法是使用有標簽的數據做預訓練,以對模型調優,用于預測目標數據。在訓練的過程中采用迭代的方式挑選出置信度較高的數據作為訓練集,逐步優化分類模型,從而實現自監督學習。但該方法的問題在于初期的錯誤難以被關注,從而在訓練過程中逐步顯現并導致誤差增大。深度學習模型中卷積神經網絡[9以及相關模型在解決文本分類問題中具有較好的表現,但是傳統的卷積神經網絡在解決社交網絡節點的劃分等非歐氏結構的數據時表現較差10。為了得到社交網絡、信息網絡的空間特征,有學者使用圖卷積神經網絡來處理,同一般的卷積神經網絡不同,圖神經網絡11(GCN)輸入的數據是一個圖拓撲矩陣,這個拓撲矩陣一般是圖的鄰接矩陣。因此GCN在結構數據處理上的成功吸引了許多研究者將GNN應用到傳統的NLP應用中,但是針對短文本文本稀疏的問題,需要針對傳統 GCN構圖作進一步研究。

在相關的研究中,短文本分類大致上可以分為兩類方法[12:a)利用搜索引擎[13來豐富和擴展文本的特征上下文。具體方法為通過搜索引擎來對短文本的特征上下文進行擴充和完善,并對搜索引擎返回的結果分析并計算相似度,但由于從搜索引擎獲取和搜索文本片段非常耗時耗力,且當搜索引擎的質量不高的時候此種方法并不適用;b)使用Wikipedia等Web數據庫作為外部的知識源。如Bouaziz等人[14在Wikipedia中使用 LDA主題模型訓練語料庫,得到主題和主題的分布,然后通過主題分布擴展短文本的特征,并結合語義隨機林選擇特征擴展;Xuan等人[15提出了一個使用外部數據集構建短文本分類器的具有潛在主題的通用框架;Zuo等人[3提出了詞網三角主題模型,通過詞對的共現關系生成詞網,通過詞網對偽文檔進行分類,與傳統的LDA解決方案不同,其從詞共現網絡中挖掘主題,成功地緩解了逐詞文檔空間的數據稀疏性和主題文檔的異構性。但是這些模型并不能很好地應用到文本量稀疏的短文本中。對于短文本帶來的主題不平衡的問題[16,如果每個主題的文檔分布嚴重偏斜,那么從少量文本中識別主題是極其困難的;部分模型方法假設每個文檔只包含一個主題,但更多的短文本不止包含一種主題,因此這種模式具有局限性。

2 WGA-BERT文本分類混合模型

為了解決部分文本分類模型在對文本進行建模時只適用于文本量豐富的長文本的缺陷,本文模型結合了WNTM模型以便從詞語網絡中選擇特定的詞三角結構來挖掘文本主題,克服數據稀疏的問題。本文模型還利用注意力機制來合并文檔的標簽表示和細粒度的詞語級表示,并在TextGCN的基礎上作進一步優化,主要分為WNTM主題模型詞嵌入層、GCN標簽圖構造層和調節型注意機制層。以本文WGA-BERT模型進行新聞文本分類的具體流程如圖1所示。

2.1 WNTM主題模型詞嵌入層

本文模型利用WNTM挖掘潛在主題詞來豐富短文本的語義,在預處理測試集中使用BERT訓練詞向量模型以獲得融合上下文的文本表示,并訓練WNTM以獲得主題特征擴展向量。

每個主題ti=(θ1,…,θw)(w表示詞匯量大小) 由單詞的概率分布表示,可將每個文檔分配給概率最大的前P個主題,如果文檔被分配給該主題,文檔和主體之間的邊界就建立起來了。

主題建模常用的模型是LDA,但是通過實驗發現,LDA雖然在長文本方面取得了很大的成功,但是在短文本上的處理效果甚微。WNTM是一種用于改善LDA模型在短文本上表現的模型。在短文本中,文檔—詞的空間是很稀疏的,但詞—詞空間卻不稀疏,同時,由于每個主題在文檔上的分布是不均衡的,所以類似LDA的模型往往會忽略稀有主題。WNTM將LDA中文檔—詞的空間轉換到詞—詞的空間,詞—詞空間中豐富的上下文信息有助于WNTM在World共現網絡中發現主題,而不是直接從文檔集合中發現主題。為了推斷文檔中的主題,假設文檔生成單詞的主題比例的期望值等于文檔的主題比例,具體方法如下:

其中:z表示潛在詞組;設d是由i個單詞組成的輸入文檔,表示為[w1,w2,w3,…,wi],其中wi表示文檔中的第i個單詞;P(z|Wi)等于θi,z。在WNTM中,θ分布表示每個詞的相鄰詞表中出現潛在詞組的概率。對于P(Wi|d),可以簡單地將文檔中單詞的經驗分布作為一個估計,即

其中:nd(wi)是文檔d中wi的詞頻;len(d)是d的長度。與以往的LDA方法不同,WNTM對每個單詞的潛在單詞組分布建模,而不是對每個文檔的主題分部建模。在得到語料庫的詞向量后,基于吉布斯抽樣的WNTM模型對訓練集進行訓練,得到訓練集的文本主題[17分布矩陣。主題詞文件是與主題最相關的前n個主題詞的選擇,其中n是可以根據需要調整的值,之后選擇概率最大的詞作為主題詞。

2.2 GCN標簽圖構造層

GCN標簽圖構造層以標簽圖為輸入,學習標簽的embedding,對標簽間的語義關聯進行編碼。

該模型使用BERT和GCN來共同構建上下文感知的短文本分類模型,通過預先訓練的BERT來實現上下文句子的學習呈現。首先利用上下文數據對每個編碼器進行預訓練,以獲得文本數據的學習表示,并通過上文所述的WNTM模型獲得主題詞數據,使用GCN來構造標簽圖。 GCN是一種基于圖的神經網絡,在圖像處理方面的應用已有很多。近幾年,GCN在建立圖的頂點間關系方面取得了廣泛的成功并逐漸應用于NLP領域,其主要應用于句法依賴圖的建模中。本文根據標簽在數據中集中的分布來構造標簽圖,并利用GCN將標簽圖中的節點映射到同一空間,標簽在空間中的距離取決于分布的相似度,分布越相似的標簽在空間中就越接近。此處采用余弦相似度衡量主題標簽間的關聯,具體方法如下:

其中:dedgeweight(Wi,Wj)表示單詞Wi與Wj這一對單詞之間的邊緣的權重,如果兩個主題標簽的相似度超過設定的閾值,就表示這兩個主題標簽具有一定的語義關系;Nsemantic(wi,wj)表示所構造的語義圖中每一對主題標簽在語料庫中具有語義關系的總次數,其中語料庫包含所有的句子或文檔;Ntotal(wi,wj)是主題標簽Wi與Wj在整個語料庫中的同一個句子或同一個文檔中出現的總次數。

此外,還設計了一種新的損耗函數來約束空間中的節點,可以利用網絡拓撲結構來捕捉標簽間的高階語義關聯。具體方法是:將每個標簽視為一個節點,每個節點收集所有鄰居特征來形成其表示,標簽間的邊反映了節點的語義關聯,如果標簽共存,就會形成一個邊緣。用固定寬度的滑動窗口對標簽樣本內容進行平行滑動,以此計算兩個單詞的關系,具體實現為

其中:Cij表示所有的滑窗中同時包含標簽λi和λj的個數;I是單位矩陣,這意味著每個節點都與其自身相連;Aij值為正則說明兩個標簽語義相關度高,為負說明語義相關度不高,因此最終的標簽圖中只保留具有正值的標簽對組成的邊。還用同樣的方式構造了另一個主題標簽的鄰接矩陣,新矩陣用來表示另一個新樣本wi與λj的關系和共現情況。該模型的GCN層計算式為

該模型由兩個GCN層組成。GCN層使用單位矩陣X和鄰接矩陣A兩個矩陣作為輸入,矩陣的大小為N×N,其中N是輸入主題詞樣本的數量。通過第一個GCN層的學習,使用層參數W0作為第二層的權值矩陣,每一層都分層傳播擴展。其中是基于對角矩陣D的標準化鄰接矩陣,計算公式為

2.3 調節型注意機制層

調整注意模塊的作用為:對生成的標簽進行篩選,過濾掉不必要的標簽,并減少文檔內容的無關性和冗余性。該模塊通過調整注意力動態地分配標簽的權重,避免實體的模糊性或者構圖時的噪聲而引入的一些不恰當的概念帶來的影響且具有細粒度的分類信息的單詞(比如單詞“水果”比“食物”)更適用。實驗中使用調整注意力機制用于計算單詞和標簽之間的注意分數,生成特定于標簽的單詞表示,并捕獲單詞標記的全局重要性。由于單詞標記和類標簽之間的關聯程度會影響它們的注意得分,所以調整注意可以分為兩個階段。第一階段的任務是判斷主題詞之間的相關性,相關標簽的權重會增大,同時不相關標簽的權重應該相應減小,因此采用softmax計算相關注意分數,softmax可將概率分布標準化。為了衡量概念的相對重要性,首先提出了基于source2token自我注意機制衡量每個主題標簽相對于整個主題合集的重要性,每個主題標簽的C-CS[18注意定義如下:

從WNTM主題模型中得到表示為(c1,c2,c3,…,ci)的主題集合。其中ci表示是第i個主題標簽;αi表示從第i個主題標簽到整個主題集的注意力的權重;W1∈?db×d是一個權向量,其中db是超參數;b2是偏移量。C-CS注意機制與特征選擇的效果相似。這是一種軟特征選擇,它為更重要的特征賦予較大的權重,為次重要的標簽賦予較小甚至接近于零的權重。

第二階段的任務是判斷單詞和主題標簽之間的相關性,將此任務視為一個二元分類任務,因此采用了sigmod函數。如果一些相關分數的值小于閾值τ,則認為單詞與這些標簽無關。之后利用調整注意對詞i的標簽嵌入進行加權平均。為了減少文檔的無關性和冗余性,使用C-ST[19注意力概念來衡量第i個主題詞與短文本表征之間的語義相似度,該方法通過調整注意動態地分配標簽的權重。具體方法如下:

其中:βi表示從第i個主題詞到短文本的注意力權重,βi越大代表第i個主題詞在語義上與短文本更接近;f(·)是一個非線性激活函數,如雙曲正切變換,并使用sigmod規范化每個概念的注意力權重;W2∈?da×(2u+d)是一個權重矩陣;w2∈?da是一個權向量,其中da是超參數;b2是偏移量。

通過以下公式將ai和βi結合起來,得到每個主題標簽的最終注意分數:

其中:ai表示從第i個主題標簽到短文本的最終注意權重;γ∈[0,1]是一個軟開關,用來調整兩個注意權重的重要性,將其視為一個超參數,并手動調整以獲得最佳性能。

最后采用雙向時記憶網絡(bi-directional long short-term memory,BiLSTM)[20作為文檔編碼器來生成文檔表示,BiLSTM可以通過正向和反向學習每個輸入文本的單詞嵌入,將處理后的前向網絡和后向網絡連接起來得到隱藏狀態hk,并輸入由全連接層和sigmod函數組成的分類器進行分類,以預測文檔中每個主題標簽的置信度,形式如下:

在模型訓練過程中,利用L2范數對訓練數據進行交叉熵損失,具體如下:

其中:C是類數;Dtrain是用于訓練的短文本索引集;Y是相應的便簽指引符矩陣;θ是模型參數;η是正則化因子,模型優化采用梯度下降法。之后新聞文本的embedding與處理后的標簽圖embedding自適應融合,并使用BiLSTM對融合后的向量矩陣進行分類,用測試集對結果進行測試。

3 實驗結果及分析

為驗證上述模型的有效性,本章將在2003—2017年澳大利亞廣播公司發布的130萬條新聞的標題數據集上評估WGA-BERT模型,并通過多方面的性能驗證確定該模型是否優于其他模型。

3.1 數據集

短文本數據集可以從很多來源選取或者構建,比如新聞標題、網絡評論、用戶的推特等。實驗從澳大利亞著名新聞來源ABC(澳大利亞廣播公司)選取了部分新聞標題,該新聞以平均每天200篇的篇幅記錄具有重大意義的國際新聞,比如阿富汗戰爭、金融危機、多次選舉、生態災難、恐怖主義、名人、犯罪活動等。數據集包含了18年來新聞標題的數據,每條標題的平均長度不大于20個單詞。以英文、小寫形式顯示的標題文本,整合所有語料庫,將其劃分為訓練集和測試集,其中的80%作為驗證集,20%作為測試集。之后對數據集進行預處理操作,包括刪除非英語字符、停用詞,刪除出現次數少于5次的低頻詞等。

3.2 比較方法

為了證明WGA-BERT模型的有效性,首先在兩種經典的單一方法模型上進行實驗,利用經典的LDA特征擴展模型結合支持向量分類方法處理上述數據集,之后利用同樣采用節點構圖方法并取得成功的Text GCN模型進行分類,采用控制變量的方法以及多種組合方法模型利用同樣的數據集進行比較,用于證明所提出的模型優于其他方法。

1)Text GCN[11 基于詞共現和文檔詞關系為語料建立一個單獨的文本圖,然后聯合學習詞和文檔的embedding進行多分類任務[9

2)WNTM[3 基于WNTM的單一模型,其中構造單詞共現網絡的節點是出現在語料庫中的單詞,為了限制詞網絡的大小,采用一個固定大小的滑動窗口作為上下文。

3)LDA[5+GCN 基于LDA主題提取和GCN組合模型的分類方法。使用句子LDA模型結合詞和主題向量擴展新聞標題的特征,GCN的構圖方法與本文的方法保持一致,最后利用支持向量機對新聞標題進行分類。

4)WNTM+GCN 基于WNTM主題提取和GCN組合模型的分類方法。首先,利用word2vec工具對短文本語料庫中的詞向量進行訓練,并采用加法平均法合成平均詞向量。然后利用WNTM對短文本語料庫的主題進行建模,得到主題擴展特征向量。最后,將平均詞向量和主題擴展特征向量進行融合,同樣采用GCN對標簽進行構圖以衡量主題標簽的關聯,并在融合后進行分類。

5)WGA-BERT 基于WNTM主題提取和GCN組合模型的基礎上,在預處理測試集中使用BERT[8訓練詞向量模型以獲得融合上下文的文本表示,并訓練WNTM以獲得主題特征擴展向量,以標簽圖為輸入,學習標簽的embedding,對標簽間的語義關聯進行編碼,之后使用調整注意模塊把對生成的標簽進行篩選,過濾掉不必要的標簽,并減少文檔內容的無關性和冗余性,該模塊通過調整注意動態地分配標簽的權重,最后新聞文本的embedding與處理后的標簽圖embedding自適應融合并使用BilSTM對融合后的向量矩陣進行分類。

3.3 實驗參數設置

首先選擇了12層12個自我注意頭的預訓練模型,其中以H=768作為初始化值,然后在BERT中用Adam對WGA-BERT進行微調和優化。對于Adam優化器,設置初始學習率為2E-5,批大小設置為8。在構造WNTM的共現網絡時,兩個單詞之間的邊緣表示連接的兩個單詞至少在固定大小的文檔或者滑動窗口出現過。該數據集使用的短文本平均長度在15~20個單詞,理論上來說更大的滑動窗口有利于捕捉主題詞之間的相似度,但是為了降低計算復雜度,將滑動窗口的大小設置為10。節點的度為其相鄰鏈路上的權重之和,節點的活動定義為其相鄰鏈路的平均權重。圖2為滑動窗口和單詞成對加權模式圖示。

GCN只需要一層卷積就可以捕捉到相鄰鄰居的信息。當多個GCN層被堆疊時,較大的領域信息則會被集成,此處將構建好的標簽圖輸入到一個簡單的兩層GCN中,設置第一層卷積的embedding大小為200,并將滑動窗口大小設置為20,實驗發現將滑動窗口的數值大小進行較小的調整并不會對結果產生太大的影響,這與Kipf和Welling2016[21的實驗結果相似。實驗將dropout設置為0.3以防止過度擬合,并將下降梯度調整為最大范數5,模型中的其他參數是隨機初始化的。

算法1 BERT的預訓練,訓練參數

輸入:數據集的訓練文本數據。

輸出:對mask的詞的預測值以及對分類的推斷。

input_tensor = gather_indexes()

從transformer最后一層的輸出取出被mask的詞的向量

Xhidden:[batch_size,seq_len,embedding_dim]

做MLM任務:讓模型預測和還原被掩蓋或替換掉的部分

Wvocab=[embeddin_dim,vocab_size]

用Wvocab完成隱藏維度到字向量數量的映射

XhiddenWvocab:[batch_size,seq_len,vocab_size]

得到矩陣乘積,之后獲取二分類的損失函數

構建next sentence prediction的損失函數

cls_vector=Xhidden[:,0,:],cls_victor∈?batch_size,embedding_dim

取出[cls]token所對應的一條向量,并運用邏輯回歸

=sigmod(linear(cls_vector))//得到分類的推斷

算法2 兩層GCN的構建

輸入: 一個輸入維度為N×F0的特征矩陣X,其中N是圖網絡中的節點數,而F0是每個節點的輸入特征數。

輸出:一個圖結構的維度為N×N的矩陣表征。

文本數據的維度:n*n(n=trainsize+vocabsize+text_size))

gcn1=GCNLayer(in_feats,hidden_size);

將上一層的輸出作為當前層的輸入,計算當前層的輸出hidden

gcn2=GCNLayer(hidden_size,num_classes);

該模型的輸出為最后一層的輸出

3.4 實驗分析

對澳大利亞廣播公司發布的新聞標題數據進行了實驗,研究WNTM從具有不平衡特征的短文本中提取高質量主題詞的能力,隨機選取該新聞數據集中的100萬條文檔進行實驗,該100萬條數據集包含約45萬個不同的單詞,文檔中tokens的平均數量為10.4。在所有實驗中,主題數被設置為100,WNTM的滑動窗口長度設置為10,每個模型的Gibbs抽樣被執行2 000次迭代。模型的訓練過程如表1所示。

表1是文本數據集的訓練過程。表中的epoch指輸入的文本數據在WGA-BERT模型中進行一次前向傳播和反向傳播的計算過程。train_loss是訓練損失,val_loss表示實際損失,acc表示精確度,time表示訓練時長。由表1可知,損失值在不斷降低,同時兩者的精確度在不斷升高。根據表1可以得出本文模型訓練的損失曲線如圖3所示。

之后進行了不同主流模型的仿真實驗,本文模型與3.2節中所列舉的模型對比如表2所示。為了選擇適當數量的主題Z,訓練集被隨機分成五個相等的分區,設置了LDA模型參數α=0.1和β=0.01,主題相似度閾值γ=0.05,主題的數量設置為150,并采用控制變量法與WNTM進行對比。由于WNTM 并沒有對文檔的生成過程進行建模,常規的困惑度評價法并不適用,因此實驗利用主題連貫性[22作為提取的主題質量評價指標,其中當每個主題中頂部單詞集T=5和9時WNTM的平均主題一致性略高于LDA,而T=18時略低于LDA。由此可見在長文本中,由于每個文檔空間不存在稀疏性問題,LDA可以利用逐個文檔中豐富的上下文信息來學習高質量的主題詞,但是在短文本中,LDA對于主題詞的提取從字詞空間學習主題的效果明顯更好,這一點與Zuo等人[3的研究一致。

為了更清晰地展示實驗結果,本文模型訓練測試集實驗結果如圖4所示。其中Hamming損失、精確度、召回率和F1值是在文本分類問題中用來衡量模型優劣性的主要指標。

結果表明本文WGA-BERT模型性能優于其他四種已有模型。與Text GCN相比,本文的模型取得了較好的性能,其中WGA-BERT的Hamming損失減少了20.1%,精準度提升4%,召回率增加了10.6%,F1值提升了7.0%。這是因為該模型利用WNTM來擴展新聞標題的特征,實驗結果表明,該機制可以將單詞和主題詞特征融入到分類過程中。由于LDA不適合短文本建模,所以在使用BERT進行預處理后,采用的WNTM生成特征擴展詞集后實驗結果較為理想,但BERT的學習速率值不宜調得過高,否則會導致較差的訓練效果。通過實驗表明,對標簽語義關聯進行建模也能帶來一定程度的性能提升,與單單使用WNTM模型進行分類相比,WGA-BERT的Hamming損失減少了25.6%,精準度提升了4.5%,召回率增加了6.2%,F1值提升了6.0%,因為標簽間的語義關聯可以有效捕獲有用的標簽特定信息并抑制噪聲;與LDA+GCN相比,WGA-BERT的Hamming損失減少了14.1%,精準度提升了2.7%,召回率增加了4.7%,F1值提升了5.5%,證明了WNTM相較于LDA能夠更加有效地提取短文本的主題詞;與WNTM+GCN相比,WGA-BERT的Hamming 損失減少了7.9%,精準度提升了0.9%,召回率增加了4.3%,F1值提升了1.1%,但是BERT在訓練的過程中較消耗資源,所以訓練時間有所延長。綜合上述分析可以得出結論,WGA-BERT模型在短文本分類中效果更好。

4 結束語

本文針對新聞類短文本數據量稀疏,難以獲取單詞上下文信息以及深層語義信息問題提出了基于WGA-BERT的短文本分類混合模型,該模型通過WNTM模型以可接受的代價在簡短且不平衡的文本中進行主題建模,并利用得到的主題詞來構造標簽圖,以獲得標簽的語義嵌入。為了更好地增強上下文語義之間的關系,引入了BERT進行上下文編碼,從而提高分類效果。在一個短文本數據集上進行實驗,與現有的基線方法相比,準確率、召回率和F1值都有所提高,證明了該方法在處理短文本分類中處理數據稀疏和不平衡問題具有出色的性能,在分類精度等方面均獲得了顯著的提升。在今后的工作中,本文方法將在其他領域的數據集上進行實驗,比如用于對社交媒體上的話題或短評論進行分類,并進一步研究如何提高模型用更短的訓練時長高質量捕捉稀有主題的能力。

參考文獻:

[1]Zhang Minling,Zhou Zhihua.A review on multi-label learning algorithms[J].IEEE Trans on Knowledge and Data Engineering,2014,26(8):1819-1837.

[2]Bruna J,Zaremba W,Szlam A,et al.Spectral networks and locally connected networks on graphs[EB/OL].(2014-05-21).https://arxiv.org/abs/1312.6203.

[3]Zuo Yuan,Zhao Jichang,Xu Ke.Word network topic model:a simple but general solution for short and imbalanced texts[J].Knowledge and Information Systems,2016,48(2):379-398.

[4]申靜波,李井輝,孫麗娜.注意力機制在評論文本情感分析中的應用研究[J].計算機技術與發展,2020,30(7):169-173.(Shen Jingbo,Li Jinghui,Sun Lina.Application of attention mechanism in emotion analysis of critical texts[J].Computer Technology and Development,2020,30(7):169-173.

[5]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[C]//Proc of Neural Information Processing Systems:Natural and Synthetic.British Columbia:Journal of Machine Learning Research.[S.l.] :NIPS Press,2001:601-608.

[6]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[C]//Proc of the 34th International Conference on Machine Learning.[S.l.] :JMLR.org,2017:1243-1252.

[7]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY :Curran Associates Inc.,2017:6000-6010.

[8]Devlin J,Chang Mingwei,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Annual Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics ,2019:4171-4186.

[9]藍雯飛,徐蔚,王濤.基于卷積神經網絡的中文新聞文本分類[J].中南民族大學學報:自然科學版,2018,37(1):138-143.(Lan Wenfei,Xu Wei,Wang Tao.Text classification of Chinese news based on convolutional neural network[J].Journal of South-Central University for Nationalities:Natural Science Edition,2018,37(1):138-143.)

[10]Liu Yinhan,Ott M,Goyal N,et al.RoBERTa:a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26).https://arxiv.org/pdf/1907.11692.pdf.

[11]代寒靜,涂新輝.基于Pre-RoBERTa-MTL的中文機器閱讀理解模型[J].計算機應用,2020,40(S2):12-18.(Dai Hanjing,Tu Xinhui.Chinese machine reading comprehension model based on Pre-RoBERTa-MTL[J].Journal of Computer Applications,2020,40(S2):12-18.)

[12]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].(2014-09-03).https://arxiv.org/abs/1406.1078.

[13]Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:3104-3112.

[14]Lewis P,Perez E,Piktus A,et al.Retrieval-augmented generation for knowledge-intensive NLP tasks[EB/OL].(2021-04-12).https://arxiv.org/abs/2005.11401.

[15]Karpukhin V,Ogˇuz B,Min S,et al.Dense passage retrieval for open-domain question answering[EB/OL].(2020-09-30).https://arxiv.org/abs/2004.04906.

[16]Lewis M,Liu Yinhan,Goyal N,et al.BART:denoising sequence-to-sequence pre-training for natural language generation,translation,and comprehension[EB/OL].(2019-10-29).https://arxiv.org/abs/1910.13461.

[17]See A,Liu P J,Manning C D.Get to the point:summarization with pointer-generator networks[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017.

[18]譚金源,刁宇峰,祁瑞華,等.基于BERT-PGN模型的中文新聞文本自動摘要生成[J].計算機應用,2021,41(1):127-132.(Tan Jinyuan,Diao Yufeng,Qi Ruihua,et al.Automatic summary generation of Chinese news text based on BERT-PGN model[J].Journal of Computer Applications,2021,41(1):127-132.)

[19]Lample G,Conneau A.Cross-lingual language model pretraining[EB/OL].(2019-01-22).https://arxiv.org/pdf/1901.07291.pdf.

[20]Joshi M,Chen Danqi,Liu Yinhan,et al.SpanBERT:improving pretraining by representing and predicting spans[EB/OL].[2020-01-12].https://arxiv.org/pdf/1907.10529.pdf.

[21]Yang Zhilin,Dai Zihang,Yang Yiming,et al.XLNet:generalized autoregressive pretraining for language understanding[EB/OL].(2020-01-02).https://arxiv.org/abs/1906.08237.

[22]Vinyals O,Fortunato M,Jaitly N.Pointer networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:2692-2700.

主站蜘蛛池模板: 亚洲五月激情网| 国产va视频| 亚洲成人高清无码| 久久精品国产亚洲麻豆| 97青草最新免费精品视频| 国产美女主播一级成人毛片| 亚洲一区免费看| 青青久视频| 日本免费福利视频| 91精品综合| 亚洲IV视频免费在线光看| 有专无码视频| 国产91精品调教在线播放| 高h视频在线| 无码人妻免费| 中文字幕在线一区二区在线| 91丝袜美腿高跟国产极品老师| 国产打屁股免费区网站| 91精品国产麻豆国产自产在线| 97久久超碰极品视觉盛宴| 国产欧美精品一区二区| 亚洲男人的天堂视频| 在线国产欧美| 香蕉在线视频网站| 在线观看欧美精品二区| 中文字幕色在线| 日韩东京热无码人妻| 国产成人免费高清AⅤ| 亚洲视频四区| 综合社区亚洲熟妇p| 久久久久免费精品国产| 黄色免费在线网址| 国产精品男人的天堂| 特级毛片8级毛片免费观看| 亚洲日本中文字幕天堂网| 成人午夜免费观看| 人妻少妇久久久久久97人妻| 天堂亚洲网| 日本人又色又爽的视频| 精品超清无码视频在线观看| 国产区免费| 在线一级毛片| 成人午夜久久| 国产va视频| 国产人妖视频一区在线观看| 青青草91视频| 亚国产欧美在线人成| 亚洲免费毛片| 免费日韩在线视频| 五月天久久婷婷| 免费国产好深啊好涨好硬视频| 久久99蜜桃精品久久久久小说| 九九免费观看全部免费视频| 激情综合图区| 亚洲天堂网在线观看视频| 成人亚洲国产| 欧美一区二区三区国产精品| 18禁黄无遮挡网站| 污网站在线观看视频| 成人在线观看不卡| 51国产偷自视频区视频手机观看| 欧美激情第一区| 就去吻亚洲精品国产欧美| 亚洲国产精品不卡在线| 国产激情无码一区二区三区免费| aaa国产一级毛片| 欧美a网站| 99人体免费视频| av午夜福利一片免费看| 日本成人一区| 亚洲天堂网在线播放| 无码人妻热线精品视频| 亚洲国产成人麻豆精品| 亚洲自偷自拍另类小说| 国产尹人香蕉综合在线电影 | 福利在线免费视频| 五月婷婷亚洲综合| 国产成人1024精品| 999国内精品视频免费| 日韩精品一区二区三区swag| 国产精品福利导航| 欧洲在线免费视频|