999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的中文新聞標(biāo)題分類

2022-08-16 03:11:24張仰森李劍龍
計算機(jī)工程與設(shè)計 2022年8期
關(guān)鍵詞:分類特征文本

苗 將,張仰森,李劍龍

(北京信息科技大學(xué) 智能信息處理研究所,北京 100101)

0 引 言

隨著信息技術(shù)的迅速發(fā)展,通過手機(jī)接入互聯(lián)網(wǎng)獲取信息,已成為人類社會的重要手段。運營商迫切需要準(zhǔn)確高效地將信息分類,并給予用戶個性化推送服務(wù),這也是研究文本分類任務(wù)的重點。文本分類作為自然語言處理和信息管理的一種高效方式,是通過對目標(biāo)文檔的主題或內(nèi)容分析,依據(jù)構(gòu)建的分類體系或標(biāo)準(zhǔn),高效有序的將文本歸屬到相應(yīng)類別的過程。傳統(tǒng)機(jī)器學(xué)習(xí)在用于文本分類時,表征能力有限,對于文本的語義、結(jié)構(gòu)和上下文理解淺薄。深度學(xué)習(xí)彌補(bǔ)了傳統(tǒng)機(jī)器學(xué)習(xí)在文本分類中的薄弱之處,改善學(xué)習(xí)上下文的能力,但存在模型可解釋性不強(qiáng)、難以針對調(diào)整特征等缺點。本文提出一種使用BERT完成詞向量訓(xùn)練,連接單向GRU網(wǎng)絡(luò)提取文本主要特征,再利用注意力機(jī)制加權(quán)求和調(diào)整權(quán)重比例,然后連接單向LSTM網(wǎng)絡(luò)提取核心的上下文特征的分類模型BGAL(BERT based on GRU with ATTENTION and LSTM)。

1 相關(guān)工作

1.1 詞向量

將字詞表達(dá)成計算機(jī)可以理解的形式,是自然語言處理的首要任務(wù)。詞向量就是將詞語映射到實數(shù)的向量,最簡單的詞向量表示是每個詞都單獨表示。One-hot編碼使用N位數(shù)據(jù)對N個詞向量進(jìn)行編輯,即詞向量的維度與詞匯表長度相等,每個詞都有固定的索引位置,詞向量之間僅有一位數(shù)據(jù)不同。雖然One-hot編碼可以簡單快捷生成詞向量,但面對大規(guī)模詞語時,會產(chǎn)生維度災(zāi)難,并且每個詞語相互獨立無法體現(xiàn)出詞與詞之間的聯(lián)系。

想讓詞向量之間具有一定聯(lián)系,可以選擇Word2vec來表示。Word2vec的詞向量是疏密向量,是將字詞轉(zhuǎn)化為連續(xù)形式的低維度值,在向量空間中將含義相近的詞語映射到鄰近位置。Word2vec雖然將詞與詞聯(lián)系了起來,避免了維度災(zāi)難,但仍無法對一詞多義有較好的處理,同時Word2vec無法對指定任務(wù)做動態(tài)優(yōu)化。

1.2 BERT模型

BERT模型獲取的是豐富包含文本語義信息的特征,通過訓(xùn)練大規(guī)模無標(biāo)注語料來實現(xiàn)的。BERT模型不同于僅僅獲得字詞的語義信息的模型,而是專注于獲得整個文本的綜合語義信息。BERT作為一個訓(xùn)練的語言表征模型,隨機(jī)遮蓋句子中的詞語,然后訓(xùn)練模型來預(yù)測被去掉的詞語。理解兩個句子之間的關(guān)系也是自然語言處理的核心任務(wù),BERT模型從語料庫中隨機(jī)挑出兩個句子,有一半的概率這兩個句子是連貫的,另一半的概率這兩個句子是完全無關(guān)的,通過如此訓(xùn)練,BERT模型就具備了理解并聯(lián)系序列上下文的能力。

1.3 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是由多個神經(jīng)元相互連接形成的網(wǎng)狀結(jié)構(gòu)。簡單問題可交于神經(jīng)元處理,神經(jīng)網(wǎng)絡(luò)負(fù)擔(dān)復(fù)雜問題的解決,通過增加神經(jīng)網(wǎng)絡(luò)層數(shù)可以挖掘數(shù)據(jù)暗含較深的聯(lián)系。在神經(jīng)網(wǎng)絡(luò)大致有3個運行步驟,數(shù)據(jù)由輸入層輸入,關(guān)系被隱含層分析,結(jié)果經(jīng)輸出層輸出。深度神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的關(guān)鍵,其代表有CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))。CNN具備空間性分布數(shù)據(jù)的能力,RNN具備時間性分布數(shù)據(jù)的能力。人工智能的學(xué)習(xí)深度和能力被深度神經(jīng)網(wǎng)絡(luò)提升到了一個新的層次。

通過對已有知識的深入學(xué)習(xí),本文提出了BGAL模型,在注重文本分類精度的同時也兼顧速度。該模型是用BERT模型訓(xùn)練輸入的文本來獲取詞向量,使獲取的詞向量盡可能綜合均衡。得到詞向量之后,將其作為新的輸入,輸送給單向GRU網(wǎng)絡(luò)提取主要的文本特征,接著引入注意力機(jī)制進(jìn)行加權(quán)求和,分配文本特征的權(quán)重,突出重要的文本特征,然后將新的文本特征輸送到單向LSTM網(wǎng)絡(luò)提取核心文本特征,使文本分類更加準(zhǔn)確。

2 模型框架

2.1 框架總覽

圖1為本文所提出BGAL模型的基本結(jié)構(gòu)圖,其關(guān)鍵的處理步驟描述如下。最先將文本數(shù)據(jù)導(dǎo)入,用BERT模型完成無標(biāo)注語料訓(xùn)練,獲得綜合語義信息詞向量。然后使用單向GRU網(wǎng)絡(luò)對綜合詞向量提取主要特征,再將主要特征輸送給注意力機(jī)制,完成權(quán)重再分配來突出主要特征。隨后將主要特征輸入單向LSTM網(wǎng)絡(luò),提取核心特征,最后送入分類器進(jìn)行分類。

圖1 BGAL模型結(jié)構(gòu)

BERT訓(xùn)練模型輸出的語義特征會最大化表達(dá)出文本全貌,也就是高效率地不斷調(diào)整模型參數(shù)。傳統(tǒng)訓(xùn)練模型只能獲取單方向的上下文信息,其表征能力并不夠優(yōu)秀,本質(zhì)上還是單向語言模型。雙向Transformer組件是BERT模型所使用的結(jié)構(gòu),可以深層雙向融合左右上下文信息的語言特征。本文選擇的BERT模型作為詞向量嵌入層,將其輸出接入神經(jīng)網(wǎng)絡(luò)再次訓(xùn)練,然后進(jìn)行文本分類任務(wù)。BERT模型的結(jié)構(gòu)圖如圖2所示。

圖2 BERT模型結(jié)構(gòu)

2.2 GRU網(wǎng)絡(luò)

BERT模型訓(xùn)練文本生成的詞向量,已經(jīng)注重了文本上下文之間聯(lián)系,然后將其送入單向GRU(gate recurrent unit)網(wǎng)絡(luò)中提取特征。GRU網(wǎng)絡(luò)因參數(shù)訓(xùn)練較少,構(gòu)造相對簡單,運算速度較快而經(jīng)常被使用。可以建立雙向GRU網(wǎng)絡(luò)對文本特征進(jìn)行提取,但雙向GRU網(wǎng)絡(luò)會再度從上下文提取特征,這就與BERT模型的工作有重復(fù)。并且雙向GRU網(wǎng)絡(luò)需要計算雙倍的總量,大大增加了運算的時間,故本文選取單向GRU網(wǎng)絡(luò)提取出主要的文本特征。單向GRU模型結(jié)構(gòu)如圖3所示。

圖3 GRU網(wǎng)絡(luò)結(jié)構(gòu)

GRU網(wǎng)絡(luò)擺脫路徑傳輸信息,利用隱藏狀態(tài)傳輸信息,復(fù)位門和更新門是僅有的兩個門結(jié)構(gòu)。圖中的zt表示更新門,rt表示復(fù)位門。更新門用于控制信息的添加和遺忘,即當(dāng)前時刻狀態(tài)中的多少數(shù)據(jù)信息是由前一時刻代入的。更新門的數(shù)值增長,前一時刻代入的狀態(tài)信息便增加。隱藏層狀態(tài)候選寫入的信息量由重置門控制,重置門越小,導(dǎo)致前一時刻寫入的狀態(tài)信息就越少。

式(1)為更新門的計算方法公式

zt=α(Wz·[ht-1,xt]+bz)

(1)

式(2)為重置門的計算方法公式

rt=α(Wr·[ht-1,xt]+br)

(2)

式(3)為候選隱藏層狀態(tài)的計算方法公式

(3)

式(4)為最終輸出的計算方法公式

(4)

在式(1)至式(4)中,α表示sigmoid函數(shù),W表示權(quán)重矩陣,b表示偏置量,·表示矩陣乘,*表示按元素乘。

GRU網(wǎng)絡(luò)通過上述結(jié)構(gòu),實現(xiàn)保存之前時刻信息基礎(chǔ)上學(xué)習(xí)新知識,因為只有重置門和更新門,并且單向傳播,可以大幅減少所需要訓(xùn)練的參數(shù),加快訓(xùn)練的速度。

2.3 注意力機(jī)制

人類大腦最多的數(shù)據(jù)是由視覺獲得的,為了更準(zhǔn)確和高效提升視覺信息的處理,會將注意力聚焦于重點區(qū)域。為了讓數(shù)據(jù)構(gòu)成中的重要部分被訓(xùn)練所關(guān)注,便在神經(jīng)網(wǎng)絡(luò)實現(xiàn)預(yù)測任務(wù)中加入注意力機(jī)制,即注意機(jī)制可以使神經(jīng)網(wǎng)絡(luò)具有聚焦其輸入子集的能力。融合注意力機(jī)制的文本,可以降低非關(guān)鍵字詞的權(quán)重,提升文本數(shù)據(jù)中關(guān)鍵字詞的權(quán)重。ATTENTION模型結(jié)構(gòu)如圖4所示。

圖4 ATTENTION結(jié)構(gòu)

式(5)、式(6)、式(7)為注意力機(jī)制的計算方法公式

uit=tanh(Wwhit+bw)

(5)

(6)

si=∑tαithit

(7)

在式(1)至式(4)中,W表示權(quán)重矩陣,h為隱藏向量,b表示偏置量。

2.4 LSTM網(wǎng)絡(luò)

將注意力機(jī)制突出的重要特征,輸入到單向LSTM(long short term memory)網(wǎng)絡(luò)進(jìn)一步提取出核心特征。LSTM避免了梯度消失和梯度爆炸出現(xiàn)在序列訓(xùn)練過程中。LSTM網(wǎng)絡(luò),內(nèi)部具有4個網(wǎng)絡(luò)層,其結(jié)構(gòu)相對復(fù)雜,精度提取較高。LSTM的隱藏狀態(tài)稱為細(xì)胞狀態(tài)。細(xì)胞狀態(tài)中,一條貫穿細(xì)胞的水平線表示像傳送帶一樣,它貫穿細(xì)胞卻分支較少,確保信息不變地流過,而進(jìn)行添加或者刪除信息的操作則有LSTM的門完成。如果使用雙向LSTM網(wǎng)絡(luò),將會放大LSTM的并行處理的劣勢,造成算力資源的浪費。單向GRU模型結(jié)構(gòu)如圖5所示。

圖5 LSTM網(wǎng)絡(luò)結(jié)構(gòu)

忘記門、輸入門和輸出門是LSTM網(wǎng)絡(luò)所具有的3個門結(jié)構(gòu)。忘記門在忘記階段的操作是忘記不重要的,記住重要的,上一個節(jié)點的輸出進(jìn)入到忘記門后進(jìn)行選擇性忘記操作。在選擇記憶階段要往當(dāng)前狀態(tài)保存什么樣的信息,是輸入門主要作用。輸出階段則由輸出門進(jìn)行控制,輸出門決定當(dāng)前時刻細(xì)胞狀態(tài)中的哪些信息可以輸出。

式(8)為遺忘門的計算方法公式

ft=α(Wf·[ht-1,xt]+bf)

(8)

式(9)、式(10)、式(11)為輸入門的計算方法公式

it=α(Wi·[ht-1,xt]+bi)

(9)

(10)

(11)

式(12)、式(13)為輸出門的計算方法公式

ot=α(Wo·[ht-1,xt]+bo)

(12)

ht=ot*tanh(Ct)

(13)

在式(8)至式(13)中,α表示sigmoid函數(shù),W表示權(quán)重矩陣,b表示偏置量,·表示矩陣乘,*表示按元素乘。

通過使用單向LSTM網(wǎng)絡(luò),我們可以使用合理的計算量來更好地捕獲文本的核心特征。獲取的核心特征最終輸入到分類器中進(jìn)行分類,對于文本分類任務(wù)而言,擁有核心特征將會獲得更好的分類效果。

3 實驗與分析

3.1 實驗數(shù)據(jù)集

表1 THUCNews數(shù)據(jù)集實驗數(shù)據(jù)分布/萬條

3.2 實驗評價指標(biāo)

本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和綜合評價指標(biāo)(F1)作為評測指標(biāo),來對BGAL模型的分類性能進(jìn)行評價。評價指標(biāo)涉及參數(shù)有TP、FN、FP、TN。TP屬于判斷正確,且判為了正,即正的預(yù)測為正的。FN屬于判斷錯誤,且判為了負(fù),即把正的判為了負(fù)的。FP屬于判斷錯誤,且判為了正,即把負(fù)的判為了正的。TN屬于判斷正確,且判為了負(fù),即把負(fù)的判為了負(fù)的。

準(zhǔn)確率是表示預(yù)測符合標(biāo)簽的樣本與總樣本的比例,即正的判為正,負(fù)的判為負(fù),故式(14)為準(zhǔn)確率的計算方法公式

(14)

精確率是表示正確預(yù)測正樣本占實際預(yù)測為正樣本的比例,即預(yù)測為正的樣本中有多少是對的,故式(15)為精確率的計算方法公式

(15)

召回率是表示正確預(yù)測正樣本占正樣本的比例,即樣本中有多少正樣本被預(yù)測正確了,故式(16)為召回率的計算方法公式

(16)

F1是Precision和Recall加權(quán)調(diào)和平均,當(dāng)F1較高時表明實驗方法較為理想。故式(17)為F1的計算方法公式

(17)

3.3 實驗參數(shù)設(shè)置

本實驗采用Pytorch框架進(jìn)行相關(guān)模型的編碼實現(xiàn),在Windows10系統(tǒng)上采用GPU(NVIDIA GeForce RTX 2060)進(jìn)行模型的訓(xùn)練和調(diào)試。實驗?zāi)P虰GAL參數(shù)見表2。

表2 BGAL模型參數(shù)

3.4 實驗結(jié)果分析

本文做了A、B、C這3組實驗,3組實驗中訓(xùn)練集、測試集和驗證集保持不變,實驗所共有的參數(shù)值不變。實驗A選擇TextCNN和TextRNN作為實驗?zāi)P停瑢嶒濨選擇BERT、BERT_CNN和BERT_RNN作為實驗?zāi)P汀嶒濩選擇BERT_BGRU和BGAL作為實驗?zāi)P汀嶒濧與實驗B是為了驗證BERT模型作為嵌入層來訓(xùn)練詞向量的有效性,實驗B與實驗C是為了驗證本文提出的BGAL模型在處理文本分類上的優(yōu)越性。實驗A、實驗B和實驗C的實驗結(jié)果見表3。

表3 綜合實驗結(jié)果

從表中結(jié)果可以看出,TextCNN模型準(zhǔn)確率處于所有實驗?zāi)P椭械牡孜弧extCNN模型丟失了結(jié)構(gòu)信息,較難發(fā)現(xiàn)文本中的轉(zhuǎn)折關(guān)系等內(nèi)在信息。TextCNN模型只能在卷積過程中計算與關(guān)鍵詞的相似度,然后通過最大池化得出模型所關(guān)注的關(guān)鍵詞是否在整個文本中出現(xiàn)。TextCNN模型不知道關(guān)鍵詞出現(xiàn)次數(shù)及關(guān)鍵詞的順序,所提取的特征便會出現(xiàn)偏差,最后在分類器累加輸出導(dǎo)致分類錯誤。

TextRNN模型相較于TextCNN模型的結(jié)構(gòu)更加靈活,可以方便地替換單元如使用GRU單元,將單向網(wǎng)絡(luò)設(shè)置成雙向網(wǎng)絡(luò),添加Dropout隨機(jī)失活率和BN層等。TextCNN模型相比于TextRNN模型在準(zhǔn)確率上要低,但訓(xùn)練速度上稍快。TextRNN使用softmax函數(shù)完成最后的多分類任務(wù),在此之前RextRNN模型需要完成前向或反向單元在最后一個時間步長上隱藏狀態(tài)的拼接。

BERT模型可以訓(xùn)練文本數(shù)據(jù)提取特征,然后直接輸入到分類器中進(jìn)行分類,而不用作為詞嵌入。直接使用BERT模型提取特征連接分類器,其文本分類的準(zhǔn)確率已經(jīng)較大超過TextCNN和TextRNN模型,并且運算效率極高。而相比于BERT為詞嵌入,然后接入神經(jīng)網(wǎng)絡(luò)的BERT_CNN和BERT_RNN模型,其有效地優(yōu)化了輸入文本的向量表達(dá),獲得了更好的訓(xùn)練效果。循環(huán)神經(jīng)網(wǎng)絡(luò)相較于卷積神經(jīng)網(wǎng)絡(luò),在自然語言處理上有著更好的性能,在經(jīng)過BERT優(yōu)化詞向量之后,故BERT_RNN的精確率優(yōu)于BERT_CNN的精確率。

BERT模型連接雙向GRU網(wǎng)絡(luò)在文本分類上也達(dá)到了較好的表現(xiàn)。因為GRU網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,參數(shù)較少,雙向堆積能很好地捕獲文本的總體特征。但雙向GRU網(wǎng)絡(luò)需要進(jìn)行雙向傳播,大大增加了運算的時間,同時雙向GRU網(wǎng)絡(luò)對文本特征的提取會重復(fù),導(dǎo)致忽視主要特征。所以本文提出的BGAL模型,有效地優(yōu)化了分類時的相對權(quán)重,在提高文本分類精度的同時也注重運算效率的提高。為了驗證BGAL模型的分類效率,本文對比了BERT_CNN、BERT_RNN和BERT_BGRU這3個模型達(dá)到收斂所需要的時間,在共有參數(shù)保持一致的情況下,實驗結(jié)果見表4。

表4 收斂耗時對比

從表4可以看出,由于RNN無法并行進(jìn)行計算,所以RNN的收斂速度較慢,而雙向GRU網(wǎng)絡(luò)又進(jìn)一步加大了運算量,導(dǎo)致雙向GRU網(wǎng)絡(luò)收斂耗時最為長久。本文所提出的BGAL模型的收斂耗時略高于BERT_RNN模型,但明顯低于BERT_BGRU模型。實驗結(jié)果表明,BGAL模型在有較高的分類準(zhǔn)確率的基礎(chǔ)上,還兼顧了運算效率,減少了耗時。

4 結(jié)束語

本文提出的BGAL模型,在每個具體的分類任務(wù)中的準(zhǔn)確率都超過了90%,在體育的分類上甚至達(dá)到97%的準(zhǔn)確率,準(zhǔn)確率和效率都保持在較高水平,對處理詞句的其它自然語言處理任務(wù)提供了一定的參考價值。但是,本文的實驗主要在中文短文本數(shù)據(jù)集上進(jìn)行了驗證,在以后的工作中我們將嘗試對中文長文本進(jìn)行處理,以驗證模型是否具有普適性。同時嘗試其它方式來優(yōu)化詞向量表示、融入標(biāo)點符號的位置信息和優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等,從而提升文本分類的準(zhǔn)確率,加快文本分類的效率。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 日韩精品无码一级毛片免费| 国产精品9| 国产一级二级在线观看| 亚洲毛片一级带毛片基地| 久青草国产高清在线视频| 亚洲综合专区| 99久久国产综合精品女同 | 欧美亚洲综合免费精品高清在线观看| 99精品热视频这里只有精品7| www.狠狠| aaa国产一级毛片| 午夜激情福利视频| 国产一区二区网站| 免费播放毛片| 久久精品视频亚洲| 26uuu国产精品视频| 在线观看免费国产| 人妻精品全国免费视频| 国产熟女一级毛片| 91探花国产综合在线精品| 国产成人乱无码视频| 一区二区在线视频免费观看| 中文无码精品A∨在线观看不卡| 婷婷激情亚洲| 久久国产精品麻豆系列| 情侣午夜国产在线一区无码| 宅男噜噜噜66国产在线观看| 日韩欧美中文在线| 美女视频黄频a免费高清不卡| 中国国产高清免费AV片| 亚洲精品va| 青青青国产在线播放| 亚洲嫩模喷白浆| 国产日韩欧美精品区性色| 伊人久久大香线蕉aⅴ色| 亚洲欧洲美色一区二区三区| 欧美精品在线看| 国产精女同一区二区三区久| 亚洲日本韩在线观看| 青青青伊人色综合久久| 中文字幕人妻av一区二区| 99re精彩视频| 丰满人妻一区二区三区视频| 中文字幕1区2区| 国产在线八区| 欧美黄色a| 久久www视频| 在线播放国产一区| 99伊人精品| 久久综合色播五月男人的天堂| 一本色道久久88| 久热这里只有精品6| 日本午夜网站| 国产美女91视频| 巨熟乳波霸若妻中文观看免费| 日韩小视频在线观看| 日本不卡在线播放| 国外欧美一区另类中文字幕| 97综合久久| 九九九精品视频| 999国产精品| 亚洲资源站av无码网址| 伊人AV天堂| 国产一区成人| 国产毛片基地| 精品久久久久久中文字幕女| 亚洲天堂777| 亚洲不卡无码av中文字幕| 日韩在线播放中文字幕| 国产成人亚洲无码淙合青草| 成色7777精品在线| 天堂网国产| 亚洲欧美日韩中文字幕在线| 手机永久AV在线播放| 色久综合在线| 香蕉在线视频网站| 欧美成人h精品网站| AV老司机AV天堂| 四虎永久免费在线| 日韩福利视频导航| 99久久精品国产综合婷婷| 国产精品55夜色66夜色|