999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合Bert和BiLSTM的中文短文本分類研究

2023-03-09 07:05:20婷,王
軟件工程 2023年3期
關鍵詞:分類特征文本

郝 婷,王 薇

(1.長春大學網絡安全學院,吉林 長春 130022;2.長春大學計算機科學技術學院,吉林 長春 130022)

997236440@qq.com;20017008@qq.com

1 引言(Introduction)

互聯網的蓬勃發展產生了海量的數據信息,人們進入大數據時代,文本數據通過互聯網快速增長,人們可以時刻接觸和處理海量的文本信息,如新聞、微博和商品評價等。此類文本具有海量性、實時性和不規則性等特點且大多屬于非結構化的短文本數據,使得短文本的語義發散,特征詞難以提取。如何對短文本進行準確、高效的分類是目前的研究熱點。傳統機器學習算法如樸素貝葉斯[1]和支持向量機[2-3]等方法常用于文本分類,但是這些算法存在對文本深層語義和上下文關聯信息挖掘方面的短板。

近年來,基于神經網絡算法的文本分析被廣泛應用[4]。區別于傳統基于統計機器學習,深度學習模型有多層網絡,每層包含多個可進行非線性變換的神經元,因此具有更強的非線性擬合能力,在數據量較大的情況下效果更好。2018 年,預訓練模型開始興起。PETERS等[5]構建的新型語言模型(Embeddings from Language Models,ELMo)生成的詞向量可以隨語境進行多義詞動態變換。Google[6]提出的Bert(Bidirectional Encoder Representations from Transformers)通過其雙向結構能夠學習到詞的上下文表示,該模型橫掃了多項自然語言處理任務的排行榜紀錄,極大地推動其發展。

本文主要從傳統詞向量語義表達上存在問題和短文本由于特征稀疏導致重要特征較難提取兩個方面入手,提出融合Bert和BiLSTM的復合網絡模型Bert-BiLSTM。通過在本文所選中文數據集上進行實驗,結果顯示本文所提模型分類效果良好。

2 文本分類相關工作(Related work of text classification)

文本分類是自然語言處理的重要任務之一,其過程為使用機器按照規定的分類標準對需要進行分類的文本進行自動分類標記。目前,關于英文文本分類的研究較多,針對中文文本分類的研究相對較少。分析原因,一方面是相關的語料庫較少,另一方面是中文文本表示比英文復雜,采用傳統方法難以提取其特征。

2.1 文本向量化

文本表示是文本分類任務中非常重要的步驟,通過文本表示過程將其轉化成計算機能夠處理的數據信息,其好壞影響后續模型的表現,最重要的是如何選擇合適的表示方法,并且應當盡可能地包含原本的信息,這是因為一旦在空間映射時丟失了信息,則在后續的模型處理中再也無法獲取。良好的文本向量可以更好地在向量空間中有一個文本空間映射,從而使得文本可以計算。自然語言處理領域因其自身的特性而難以向量化,并且存在多種高級語法規則及其他特性,比如近義詞、反義詞、上下文之間的聯系等。文本表示過程的實質是對文本特征進行建模。

2.1.1 One-Hot Encoding(獨熱編碼)

傳統文本表示方法中最基本的表示方法是One-Hot編碼方式。One-Hot Encoding是最早的一種比較直觀的詞向量生成方式。這種映射方式通過匯總語料庫里的所有詞匯得到N個詞匯,并將每個個體生成一個N維向量。這是一種較為簡單的映射方式,僅利用了單詞的相關位置信息,沒有把單詞的語義信息考慮在內,并且隨著語料庫的增加,會產生“維度災難”問題。

2.1.2 Word Embedding(詞嵌入)

詞向量采取稠密向量對文本進行表示,使“維度災難”問題得以解決,因此被廣泛應用于各種自然語言處理任務中。鐘桂鳳等[7]使用Word2Vec(詞嵌入)進行詞向量的訓練,并采用改進注意力機制的方法進行文本分類。Word2Vec根據預測方法提出了連續詞袋模型(CBOW)和跳元模型(Skip-gram)兩種模型結構。CBOW模型預測目標詞語采取的方法為根據上下文進行預測;Skip-gram則是根據當前出現的詞預測上下文的模型。FastText(快速文本分類)模型[8]是對Word2Vec模型的一種改進,用于預測中心詞。方炯焜等[9]同時考慮了文本的局部信息與整體信息,采用全局詞向量(Global Vectors,GloVe)模型,再利用GRU(門控循環單元)進行訓練。下游文本分類任務效果的提升得益于Word2Vec、GloVe等模型訓練得到的詞向量特征表示,但本質上這些模型屬于靜態的預訓練技術,即便是在不同的上下文中,同一詞語可能會有相同的詞向量,所以會出現一詞多義的問題,這也導致在下游分類任務中的技術性能受限問題。

2.1.3 Bert詞向量

2018 年以來,基于Transformer的預訓練模型相繼被提出,并用于不同的下游任務。Bert模型可以捕捉更深層次的語義信息,基于Bert的文本分類模型是由預訓練(Pre-Training)和預微調(Fine-Tuning)兩個部分構成。預訓練采用自監督訓練,使用大量未經標注的文本語料完成訓練,可以很好地學習到文本語義特征和深層次的文本向量表示;預微調的起點為預訓練Bert模型,其擬合和收斂則需根據具體的分類任務完成。楊彬[10]提出在罪名和相關法律條文文本分類任務中使用Bert詞向量結合Attenton-CNN模型,取得了比較好的分類效果。

2.2 循環神經網絡

在自然語言處理領域發展迅猛的有循環神經網絡(Recurrent Neural Network,RNN),并在文本分類任務中得以廣泛應用,循環神經網絡是用于建模序列化數據的,并且可以捕獲長距離輸入依賴的一種深度學習模型。但是,循環神經網絡在處理文本時可能會出現“梯度消失”或“梯度爆炸”問題,學習能力有限。張云翔等[11]采用長短期記憶網絡進行文本分類,該網絡降低了循環神經網絡的學習難度,長短時記憶神經網絡(Long Short-term Memory,LSTM)模型是對RNN的擴展,可以對有價值的信息進行長期記憶,解決了循環神經網絡存在的“梯度消失”或“梯度爆炸”問題。與此同時,一些組合模型也相繼被提出用于解決文本分類題,田園等[12]采用雙向LSTM網絡模型提取文本的上下文信息,并融合注意力機制以提高文本分類效果。吳小華等[13]對文本進行情感分析時,利用基于自注意力機制的雙向長短時記憶網絡可以得到更好的文本句法信息;XIAO等[14]提出了char-CRNN模型,首先進行卷積操作,然后用循環神經網絡進行特征的提取。

文本特征融合可以學習到更好的特征表示,即最具差異性的信息能從融合過程中涉及的多個原始特征向量中獲得。本文針對中文新聞文本進行分類模型研究,綜合考慮了Bert模型在文本表示方面和BiLSTM在語言模型構建的特征優化方面表現的優點,提出了基于Bert的特征融合網絡模型Bert-BiLSTM。本文采用的融合方式為特征層次融合[15],首先使用神經網絡將原始詞向量轉化成高維特征表達,然后針對提取到的高維特征進行融合。中文文本分類整體流程如圖1所示。

圖1 中文文本分類流程圖Fig.1 Flow chart of Chinese text classification

3 相關理論與技術(Relevant theories and technologies)

Bert-BiLSTM模型結構圖如圖2所示。本模型在上游部分使用Bert生成的字符向量作為字符嵌入層,在下游部分將BiLSTM作為特征提取器進行建模,并使用Dropout降低過擬合風險,最后輸入Softmax函數預測文本分類。Bert和BiLSTM的結合可以獲得更復雜的語義特征,構建更準確的語義表達。

圖2 模型總框架圖Fig.2 General framework of the model

3.1 Bert 詞嵌入

Bert模型采用雙向Transformer編碼器獲取文本的特征表示。多層雙向Transformer編碼器的輸入為字符級的文本,訓練過后輸出為文本字符級特征。Bert詞嵌入結構圖如圖3所示,由嵌入層、分割嵌入層及位置嵌入層構成。本文選用Bert做文本的詞嵌入,將文本向量改變格式后輸送到Bert中進行編碼,便得到句子中每個字的向量表示。由于Bert使用更大規模的語料進行模型的訓練,所以這也加強了詞嵌入模型的泛化能力,使得文本序列中字符級、單詞級、句子級及句與句間關系的上下文特征得到了更充分的描述。Bert的這一特點適用于新聞標題文本較短但含義豐富的特征,可以得到更好的詞嵌入信息。

圖3 Bert詞嵌入結構圖[6]Fig.3 Structure diagram of Bert word embedding

3.2 BiLSTM模型

LSTM即長短期記憶網絡,是RNN(循環神經網絡)的一種變體,其解決了RNN存在的長期依賴問題。LSTM具有遺忘門、輸入門和輸出門,其結構如圖4所示。

圖4 LSTM結構Fig.4 LSTM structure

雙向循環網絡由1 個正向LSTM和1 個反向LSTM構成。單向LSTM根據前一時刻的信息預測當前時刻的輸出。BiLSTM與LSTM一樣,具有門控狀態,可以捕捉更長距離的信息,使循環神經網絡長期依賴的問題得以有效解決。BiLSTM模型可以將各個字符以句子的形式進行表達,并且考慮字符之間的依賴關系。因此,本文選擇使用BiLSTM捕捉每個單詞的上下文語義信息,其結構如圖5所示。

圖5 BiLSTM結構Fig.5 BiLSTM structure

4 實驗(Experiment)

4.1 實驗數據

本文使用的數據來自THUCNews新聞數據集[THUCNews是根據新浪新聞RSS訂閱頻道2005—2011 年的歷史數據篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均為UTF-8純文本格式]。在開源網站搜集到的THUCNews的新聞標題文本數據集,共20萬條數據,包含財經、房產、股票等10 個類別,其中訓練集數量為16萬條,測試集數量為2萬條,驗證集數量為2萬條。

4.2 實驗環境

本文實驗環境為操作系統Windows 10,顯卡型號為GTX2060,開發語言為Python 3.10,搭建深度學習模型使用框架為Pytorch。

4.3 評價指標

本文對分類結果進行評估的指標為Precision(精確率)、Recall(召回率)、F1值和Accuracy(準確率)。精確率是指分類正確的正樣本個數占模型判定為正樣本的樣本個數的比例。召回率是指分類正確的正樣本個數占真正的正樣本的樣本個數的比例。只有當精確率與召回率的數值同為1時,F1值才能達到最大。F1-score是Precision與Recall兩個指標的結合,可以更加全面地反映分類性能。用F1值評估模型性能時,模型性能越好,F1值越接近于1,是衡量分類效果的重要評價指標。準確率是指分類正確的樣本占總樣本個數的比例。相關計算如式(1)—式(4)所示。TP表示實際正樣本預測為正,TN表示負樣本預測為負,FP表示負樣本預測為正,FN表示正樣本預測為負。

4.4 對比實驗設置

為了驗證本文所提模型對網絡新聞主題分類的有效性,選擇以下被廣泛應用于新聞分類的模型進行對比,具體對比情況如下。

BiLSTM:詞向量由Word2Vec訓練所得,并且作為詞嵌入層輸入BiLSTM層中進行特征提取。

AttentionBiLSTM:由BiLSTM和Attention組合的復合網絡模型。

FastText:JOULIN等[9]提出的快速文本分類方法,其訓練速度較基于CNN和RNN的模型要快得多。

Bert-RCNN:輸入為Bert學習到的詞向量,然后通過RCNN[16]進行進一步的學習。該網絡由循環神經網絡學習文本的上下文表示,文本中的關鍵信息再用最大池化層捕獲。實驗結果如表1所示。

表1 各模型實驗結果Tab.1 Results of each model experiment

4.5 實驗結果與分析

Bert-BiLSTM模型在測試集上對每一種分類進行測試,實驗結果如表2所示。與不同模型的實驗對比結果如圖6所示,實驗結果證明Bert詞嵌入模型與BiLSTM模型融合后的分類效果更好。

圖6 各模型效果對比Fig.6 Comparison of effects of various models

分析表2中的數據可知,使用Word2Vec的BiLSTM、Attention-BiLSTM的分類效果比Bert-BiLSTM差,證明預訓練模型在提取句子語義特征表示方面優于Word2Vec。為了進一步證明本文使用的BiLSTM模型對特征提取的有效性,本文選擇Bert-RCNN進行實驗對比。從表2中可以看出,本文使用的Bert-BiLSTM組合模型的分類效果最佳。Bert-BiLSTM模型相較于Bert-RCNN模型,其準確率提升了0.0174。所提模型在分類時已經達到較高的精度。使用預訓練詞向量的模型和使用Word2Vec詞向量的模型相比,使用了預訓練詞向量的模型準確率明顯提升。

表2 Bert-BiLSTM模型實驗結果Tab.2 Bert-BiLSTM model experimental results

通過分析以上實驗結果可得,本文構建的基于Bert-BiLSTM新聞短文本分類模型具有比其他基線模型更強的特征提取與特征組合能力,適用于處理新聞短文本分類任務,相比其他模型具有更出色的表現和效果。綜上所述,本文所提Bert-BiLSTM模型在進行短文本分類時,獲得的分類效果較好。

4.6 錯誤樣本分析

從THUCNews新聞測試集中選取4 條預測錯誤的例子進行解釋,具體分析結果如表3所示。

表3中,新聞樣本(1)的實際類別為娛樂,預測類別為社會,該分類相對合理,這條新聞同時具有娛樂新聞和社會新聞兩條屬性。新聞樣本(2)的實際類別為時政,但是被分類為娛樂,分析原因可能是“戛納”一詞偏娛樂屬性。新聞樣本(3)的實際類別為教育,但是被分類為社會,分析原因可能是“防身手冊”偏社會屬性。新聞樣本(4)的實際類別為教育,預測類別為財經,分析原因可能是這條新聞可以認為是教育問題也可以認為是財經問題。

表3 錯誤樣本分析表Tab.3 Error sample analysis table

通過以上分析可以看出,模型在對比較有深意的文本進行分類時,效果較差,并且分類效果也受語料影響。但是,從新聞樣本(1)和新聞樣本(4)的分類結果可以看出,模型的分類結果具有合理性,并且能精準地識別類別。

5 結論(Conclusions)

互聯網的快速發展產生了大量短文本,短文本不但有內容特征稀疏的特點,而且存在上下文依賴較強的問題。近年來,基于詞向量的雙向循環神經網絡優勢顯著,成為文本分類任務的主流。本文針對文本表示模型中的詞向量在不同語境下的詞語多義問題,綜合考慮了Bert模型在文本表示和BiLSTM在語言模型構建的特征優化方面的優勢,提出基于Bert的特征融合網絡模型(Bert-BiLSTM),使用Bert模型獲取文本的特征表示,將得到的特征表示輸入BiLSTM網絡中進行進一步的特征提取。通過實驗證明,本文所提方法在進行新聞短文本分類時獲得了良好的分類效果。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产高清精品在线91| 欧美午夜久久| 亚洲欧洲综合| 国产精品久久久久久久久久98| 日本欧美一二三区色视频| 亚洲综合狠狠| 国内毛片视频| 国产99视频免费精品是看6| 久久久久亚洲av成人网人人软件| 欧美福利在线播放| 国产午夜福利片在线观看| 四虎国产精品永久一区| 日韩资源站| 国产微拍一区| 日韩不卡免费视频| 亚洲欧美精品日韩欧美| 永久免费精品视频| 一本色道久久88综合日韩精品| 国产女人喷水视频| 国产欧美日韩视频怡春院| 国产麻豆另类AV| 亚洲av无码人妻| 国产人成乱码视频免费观看| 国产亚洲视频在线观看| 九九热视频精品在线| 无码区日韩专区免费系列| 国产精品美女自慰喷水| 国产精品久久久久鬼色| 精品国产一区二区三区在线观看| 亚洲日本中文字幕乱码中文 | 国产精品欧美在线观看| 狠狠综合久久久久综| 有专无码视频| 亚洲天堂视频在线播放| 一本大道香蕉中文日本不卡高清二区 | 亚洲天堂.com| 国产成人综合亚洲欧美在| 亚洲视频a| 成年A级毛片| 国产精品99久久久| 欧美性爱精品一区二区三区 | 国产在线精品网址你懂的| www亚洲天堂| 狂欢视频在线观看不卡| 国产又大又粗又猛又爽的视频| 日韩 欧美 小说 综合网 另类| 国产好痛疼轻点好爽的视频| 亚洲第一视频区| 蜜桃视频一区二区三区| 色婷婷视频在线| 日韩av高清无码一区二区三区| 国产精品妖精视频| AV无码无在线观看免费| 手机在线国产精品| 日韩a级毛片| 日韩精品无码免费一区二区三区 | 欧美人与性动交a欧美精品| 国产经典在线观看一区| 久久综合色88| 亚洲无码高清视频在线观看| 国产第一福利影院| 国产99视频精品免费视频7| AⅤ色综合久久天堂AV色综合| 国产特一级毛片| 色男人的天堂久久综合| 好吊色妇女免费视频免费| 亚洲天堂色色人体| 亚洲免费成人网| 国产麻豆精品手机在线观看| 永久免费av网站可以直接看的 | 伊人久综合| 国产精品视频久| 天堂亚洲网| 88av在线播放| 99re经典视频在线| 91视频区| 午夜福利网址| 91青青草视频| 婷婷六月在线| 在线精品视频成人网| 国产免费观看av大片的网站| 国产精品jizz在线观看软件|