999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Albert與TextCNN的中文文本分類研究

2023-05-11 08:58:26李飛鴿黃樹成
軟件導(dǎo)刊 2023年4期
關(guān)鍵詞:分類特征文本

李飛鴿,王 芳,黃樹成

(江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江,212100)

0 引言

在移動(dòng)互聯(lián)時(shí)代,文本數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。通過對(duì)文本數(shù)據(jù)進(jìn)行多標(biāo)簽標(biāo)注,能夠快速查詢所需信息。根據(jù)文本信息關(guān)聯(lián)的標(biāo)簽個(gè)數(shù)可分為單標(biāo)簽文本和多標(biāo)簽文本[1]。

目前,傳統(tǒng)文本分類方法通過人為設(shè)計(jì)規(guī)則提取文本數(shù)據(jù)特征,造成文本分類結(jié)果誤差較大并且提取的文本表征較差[2]。現(xiàn)階段,基于深度學(xué)習(xí)的多標(biāo)簽分類方法逐漸成為主流,通過數(shù)據(jù)清洗、去重等操作提高文本提取的質(zhì)量。

為此,本文提出一種基于Albert(A Lite BERT)和TextCNN(Text Convolutional Neural Network)的中文文本分類研究方法。其中,Albert 是一種預(yù)訓(xùn)練模型,文本數(shù)據(jù)首先經(jīng)過Albert內(nèi)部的雙向Transformer 編碼器獲得相應(yīng)的動(dòng)態(tài)文本詞向量;然后使用TF-IDF 算法抽取文本數(shù)據(jù)中權(quán)重最高的5 個(gè)詞構(gòu)建關(guān)鍵詞表;接下來將關(guān)鍵詞表與詞向量進(jìn)行向量拼接構(gòu)成融合關(guān)鍵詞信息的多義詞向量,并將其作為TextCNN嵌入層的輸入;最后實(shí)現(xiàn)多標(biāo)簽文本分類。

1 相關(guān)研究

1.1 詞向量

詞向量是文本數(shù)據(jù)向量化的一種主要表現(xiàn)形式,當(dāng)前存在靜態(tài)詞向量和動(dòng)態(tài)詞向量?jī)煞N。其中,靜態(tài)詞向量通過Word2vec 模型和Glove 模型獲取;動(dòng)態(tài)詞向量則通過BERT(Bidirectional Encoder Representations from Transformers)模型獲取。例如,Radford 等[3]提出Word2vec 模型包含Cbow 和Skip-Gram 兩種方法,但均未充分利用語句間的整體信息。Penington 等[4]基于統(tǒng)計(jì)學(xué)詞匯共現(xiàn)技術(shù)提出Glove 模型訓(xùn)練詞向量,考慮了文本數(shù)據(jù)的全部信息。Devlin 等[5]提出BERT 預(yù)訓(xùn)練模型,通過注意力機(jī)制將任意兩個(gè)單詞位置間距轉(zhuǎn)換為1,同時(shí)基于遮掩語言模型和句子上下文關(guān)系預(yù)測(cè)學(xué)習(xí)任務(wù),能在海量文本數(shù)據(jù)中自主學(xué)習(xí)字符、語義級(jí)文本特征,并將學(xué)習(xí)到的文本特征向量應(yīng)用于下游任務(wù)。Lan 等[6]提出Albert 模型改善BERT 訓(xùn)練參數(shù)過多、訓(xùn)練時(shí)間過長(zhǎng)等問題。

1.2 文本分類

目前,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在文本分類中發(fā)展迅速,例如樸素貝葉斯方法[7]和支持向量機(jī)(SVN)。其中,樸素貝葉斯方法屬于概率論分類算法,根據(jù)特征屬性對(duì)某個(gè)對(duì)象進(jìn)行分類;支持向量機(jī)通過簡(jiǎn)單的直覺和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)方法解決最小化問題,應(yīng)用拉格朗日定理解決約束優(yōu)化問題。

謝金寶等[8]提出一種基于語義理解的多元特征融合文本分類模型,通過神經(jīng)網(wǎng)絡(luò)嵌入各層通路,提取不同層次的文本特征表示。孫松濤等[9]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)將文本內(nèi)容詞向量融合成句子向量,并將句子向量作為訓(xùn)練多標(biāo)簽分類器的語料。Long 等[10]采用多通道CNN 模型進(jìn)行監(jiān)督學(xué)習(xí),將詞矢量作為模型輸入特征,可以在不同的窗口大小進(jìn)行語義合成,完成文本分類任務(wù)Kim 等[11]提出文本卷積神經(jīng)網(wǎng)絡(luò)模型通過一維卷積獲取句子中n-gram 的特征表示,通過卷積核窗口抽取深層文本局部特征表示。實(shí)驗(yàn)表明,該模型對(duì)文本數(shù)據(jù)淺層特征具有較強(qiáng)的抽取能力。

1.3 相關(guān)理論

1.3.1 TF-IDF

在中文文本數(shù)據(jù)中,詞的重要程度與出現(xiàn)次數(shù)呈現(xiàn)正相關(guān)。其中,頻數(shù)(Term Frequency,TF)為詞在一個(gè)文本數(shù)據(jù)中出現(xiàn)的次數(shù),逆文檔(Inverse Document Frequency,IDF)用來衡量詞的重要程度[12]。具體計(jì)算公式如下:

其中,N代表整個(gè)語料集中的文本總數(shù),|{j:ti∈dj}|表示詞ti在整個(gè)語料中存在的文檔數(shù)。當(dāng)一個(gè)詞出現(xiàn)次數(shù)越多,IDF 值越小且無限趨近于0,為了避免零值,分母加上0.01。

1.3.2 Albert模型

模型內(nèi)部Transformer 編碼器使用編碼特征提取器提取文本數(shù)據(jù)特征,特征向量經(jīng)過雙向Transformers 編碼器獲得相應(yīng)的動(dòng)態(tài)詞向量輸出。如圖1 所示,輸出向量包括兩種形式,其中C={C1,C2,…,CN}表示初始輸入文本數(shù)據(jù)中的字符,經(jīng)過Albert 模型訓(xùn)練最終輸出動(dòng)態(tài)字向量特征表示Z={Z1,Z2,…,ZN}和CLS句子級(jí)別向量表示。

Fig.1 Albert model structure圖1 Albert模型結(jié)構(gòu)

Albert 采用基于Seq2Seq 模型的Transformer 編碼器[13]提取各網(wǎng)絡(luò)層的多頭自注意力機(jī)制層[14]和前饋網(wǎng)絡(luò)層。其中,對(duì)于前者通過b個(gè)不同線性變換對(duì)A、B、C 進(jìn)行投影,拼接注意力結(jié)果;對(duì)于后者提供非線性變換,融合文本內(nèi)容位置信息,并且每個(gè)子層都含有Add&Norm 層與上層相加后的輸入與輸出。

此外,將隱藏層歸一化為標(biāo)準(zhǔn)正態(tài)分布,加速模型收斂速度,計(jì)算公式如下:

1.3.3 TextCNN模型

CNN 主要使用矩陣表示句子,特點(diǎn)是捕捉文本數(shù)據(jù)的局部信息[15]。具體的,利用矩陣的行代表單詞或字符,即矩陣一行代表一個(gè)詞向量。TextCNN 由CNN 衍變而來,主要用于文本分類領(lǐng)域,可設(shè)置過濾核范圍對(duì)文本不同大小的局部特征進(jìn)行組合和篩選。如圖2 所示,TextCNN 包含嵌入層、卷積層、池化層和全連接層。

Fig.2 TextCNN model圖2 TextCNN模型

(1)嵌入層。如圖3 所示,該層將文本數(shù)據(jù)向量轉(zhuǎn)化為指定大小,矩陣中每一行對(duì)應(yīng)一個(gè)詞。例如,句子X有n個(gè)詞代表矩陣行數(shù),則句子矩陣大小表示為:

其中,Xi為當(dāng)前文本中的第i個(gè)詞,⊕為向量拼接操作。

(2)卷積層。TextCNN 模型使用卷積核過濾器與輸入層句子矩陣計(jì)算單位節(jié)點(diǎn)矩陣[16]。該矩陣能提取不同的層次特征,然后通過非線性激活函數(shù)得到特征映射矩陣C=[c1,c2,…,cn],特征公式為:

Fig.3 TextCNN convolutional layer model圖3 TextCNN卷積層模型

其中,W為輸出卷積核的權(quán)重矩陣,H為偏置參數(shù),f為激活函數(shù)。

(3)池化層。目前,主要使用最大池化算法[17]拼接特征向量,構(gòu)成一維向量表示以聚合重要特征,從而減少神經(jīng)網(wǎng)絡(luò)參數(shù)和特征向量個(gè)數(shù),達(dá)到降維效果,在一定程度上也防止了過擬合現(xiàn)象。具體計(jì)算公式如下:

(4)全連接層。由于TextCNN 模型參數(shù)過多,為了避免過擬合現(xiàn)象發(fā)生,在全連接層加入Dropout 使神經(jīng)元一定概率置0,減少網(wǎng)絡(luò)對(duì)連接的過度依賴。然而,無論是前向還是反向傳播,為了保持信息總量不變,需要根據(jù)Dropout概率進(jìn)行修正補(bǔ)償。

此外,在全連接層后接入softmax 函數(shù)層得到標(biāo)簽概率分布,具體計(jì)算公式如下:

2 基于詞向量與TextCNN的多標(biāo)簽文本分類

為了高效管理互聯(lián)網(wǎng)的海量中文文本數(shù)據(jù),提出基于Albert 和TextCNN 的中文文本分類方法(簡(jiǎn)稱為ATT),如圖4所示。

Fig.4 ATT model圖4 ATT模型

該模型首先使用Albert 預(yù)訓(xùn)練模型獲取多義詞向量,基于TF-IDF 算法構(gòu)建當(dāng)前文檔關(guān)鍵詞表,通過向量拼接方法將兩者融合成具有關(guān)鍵詞信息的多義詞向量。然后,將其作為嵌入層的輸出和卷積層的輸入,使用調(diào)整的卷積核窗口獲取文本數(shù)據(jù)深層局部語義特征。最后,通過Sigmoid函數(shù)計(jì)算文本數(shù)據(jù)的標(biāo)簽類別。

(1)嵌入層。該層對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、分詞等操作。本文在詞向量上進(jìn)行改進(jìn),使用縱向拼接方式進(jìn)行向量拼接生成固定長(zhǎng)度的維度矩陣。例如,首先訓(xùn)練得到一個(gè)DN×S矩陣,其中N為文本字符個(gè)數(shù),S為Albert 代表的自定義維度;然后將TF-IDF 計(jì)算的關(guān)鍵詞表構(gòu)建成DM×S,選取M中前5個(gè)關(guān)鍵詞組成關(guān)鍵詞表,因此每個(gè)子文檔不同關(guān)鍵詞的TF-IDF 值各不相同;接下來將每個(gè)子文檔的關(guān)鍵詞信息進(jìn)行拼接構(gòu)成整個(gè)文檔的關(guān)鍵詞表;最后將預(yù)處理后的文本數(shù)據(jù)融合Albert-TF-IDF 詞向量模型得到Oi:j=(O1,O2,…,On),并將其作為嵌入層輸出。如圖5所示。

Fig.5 Vector fusion strategy圖5 向量融合策略

(2)卷積層。為解決中文文本數(shù)據(jù)的語言特點(diǎn),基于hellonlp 對(duì)卷積層進(jìn)行超參數(shù)調(diào)整。具體為,將卷積核的窗口大小h設(shè)置為3、4、5、6,使用不同大小卷積核捕獲文本多字符特征和多個(gè)相鄰字之間的隱藏相關(guān)性。具體公式如下:

其中,h為卷積核大小,Q為輸出卷積核的權(quán)重矩陣,E為偏置參數(shù),f為激活函數(shù),Z為是卷積層提取到的特征向量。

(3)池化層。該層對(duì)卷積層的特征矩陣進(jìn)行壓縮,提取主要局部特征。本文采用最大池化方式獲得主要的局部特征,丟棄部分次要特征,將計(jì)算結(jié)果拼接構(gòu)成新矩陣,具體計(jì)算公式如下:

其中,Z為卷積矩陣,Y為最大池化后矩陣。通常情況下,新矩陣維度會(huì)變小,可為后續(xù)操作減少訓(xùn)練參數(shù),如圖6所示。

(4)全連接分類層。首先將池化層輸出結(jié)果進(jìn)行Sigmoid 函數(shù)歸一化,得到文本標(biāo)簽概率分布矩陣R。然后,取出R超過設(shè)定閾值的索引得到中文多標(biāo)簽文本分類的結(jié)果。具體計(jì)算公式如下:

Fig.6 Maximum pooling model圖6 最大池化模型

然而,當(dāng)在多標(biāo)簽文本分類問題中使用Sigmoid 非線性激活函數(shù)時(shí),為判斷實(shí)際概率和期望值間的差距,需要使用交叉熵?fù)p失函數(shù)判定式:

其中,i為標(biāo)簽個(gè)數(shù),n為Sigmoid 函數(shù)的結(jié)果,n∈[0,1],若Sigmoid 函數(shù)計(jì)算的值超過閾值,Ri=1。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)環(huán)境基于Centos 操作系統(tǒng),處理器為AMD 3600 3.60GHz,內(nèi)存為16G,顯卡為RTX2080Ti,硬盤大小為512G。底層框架為Tensorflow,使用Python 語言編程。

3.2 數(shù)據(jù)集

通過爬蟲技術(shù)在今日頭條等網(wǎng)站爬取82 102 篇新聞數(shù)據(jù)。為了保證數(shù)據(jù)的有效性和真實(shí)性,去除低于200 個(gè)字符的文本數(shù)據(jù),最后得到63 290 篇數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。然后利用各大新聞網(wǎng)站上的主題進(jìn)行標(biāo)簽去重后得到30 個(gè)標(biāo)簽,設(shè)定驗(yàn)證集、測(cè)試集、訓(xùn)練集比例為1∶1∶8。

3.3 實(shí)驗(yàn)參數(shù)

在固定其他參數(shù)前提下,經(jīng)過多次實(shí)驗(yàn)改變模型可變參數(shù)數(shù)值,得到最優(yōu)參數(shù)如表1所示。

Table 1 Model parameters表1 模型參數(shù)

3.4 評(píng)價(jià)指標(biāo)

為了比較不同模型的優(yōu)劣,采用精確率、召回率、F1 對(duì)模型進(jìn)行評(píng)估。P(Positive)代表1、N(Negative)代表0、T(True)代表正確和F(False)代表錯(cuò)誤避免數(shù)字造成的歧義。其中,精確率(Precision)表示所有被預(yù)測(cè)為正的樣本中,真正是正樣本的百分比;召回率(Recall)表示在實(shí)際為正的樣本被預(yù)測(cè)為正樣本的百分比;F1即精確值和召回率的調(diào)和均值。具體公式如式(15)-式(17)所示:

3.5 實(shí)驗(yàn)結(jié)果

為體現(xiàn)本文模型的優(yōu)勢(shì),在構(gòu)建的中文新聞文本數(shù)據(jù)集中將ATT 與BR 算法[18]、CC[19]算法、Word2vec、Albert、TextCNN 進(jìn)行比較。

Table 2 Model comparison表2 模型比較

由表2 可知,Albert、word2vec 模型的F1 值分別為83.77%和82.79%,說明Albert 生成的多義詞向量特征向量多樣化、代表性更高。Albert、ATT 模型的F1 值分別為83.77%和85.65%,說明融入TF-IDF 算法的關(guān)鍵詞信息可避免Albert 生成詞向量時(shí)丟失部分詞。傳統(tǒng)TextCNN、本文模型的F1 值分別為83.39%和85.65%,說明較大的卷積核窗口能理解中文文本局部上下文語意。

4 結(jié)語

本文提出一種基于改進(jìn)的詞向量和TextCNN 的多標(biāo)簽文本分類模型。其中,Albert 能更好使用雙向編碼器獲取上下文信息,TF-IDF 算法抽取文本數(shù)據(jù)中權(quán)重最高的5個(gè)詞構(gòu)建關(guān)鍵詞表,將關(guān)鍵詞表與Albert 生成的詞向量進(jìn)行向量拼接,構(gòu)成一個(gè)融合關(guān)鍵詞信息的多義詞向量。為了適用中文文本數(shù)據(jù)特點(diǎn),通過調(diào)整卷積核窗口大小使TextCNN 更好地捕捉文本局部信息,避免丟失部分特征信息。在新聞評(píng)論數(shù)據(jù)集的實(shí)驗(yàn)表明,本文模型相較于基線模型效果更好,在一定程度上提升了訓(xùn)練效果。

然而,本文數(shù)據(jù)集僅來源于新聞評(píng)論,下一步將擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)集以提升模型的適用性和可靠性。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 热99精品视频| 国产精品久久久久久久久kt| 亚洲三级视频在线观看| 国国产a国产片免费麻豆| 免费全部高H视频无码无遮掩| 不卡无码网| 尤物成AV人片在线观看| 国产乱人伦AV在线A| 久久久久久午夜精品| 男女精品视频| yy6080理论大片一级久久| 片在线无码观看| 91精品国产自产在线老师啪l| 免费又爽又刺激高潮网址| 国产又爽又黄无遮挡免费观看 | 少妇极品熟妇人妻专区视频| 亚洲第一成年免费网站| 在线观看精品自拍视频| jizz国产在线| 曰AV在线无码| 国产精品私拍在线爆乳| 福利在线一区| 欧美性精品| 日韩a级片视频| 一本二本三本不卡无码| 国产精品成人久久| 国产美女免费网站| 中国一级毛片免费观看| 中文字幕在线播放不卡| 欧美成人精品一级在线观看| 亚洲色大成网站www国产| 亚洲Aⅴ无码专区在线观看q| 欧美激情,国产精品| 亚洲欧州色色免费AV| 亚洲娇小与黑人巨大交| 无码aaa视频| 国产三级视频网站| 天天色天天操综合网| 国产成人亚洲毛片| 免费观看三级毛片| 凹凸精品免费精品视频| 综合色天天| 久久久久久午夜精品| 一区二区无码在线视频| 亚洲成人网在线播放| 一级在线毛片| 亚洲精品无码av中文字幕| 在线免费观看a视频| 2021国产在线视频| 国产欧美网站| 亚洲三级色| 天堂在线视频精品| 亚洲AV人人澡人人双人| 国产自无码视频在线观看| 制服无码网站| 久久国产精品夜色| 在线观看av永久| 色综合久久久久8天国| 亚洲伦理一区二区| 国产午夜福利片在线观看| 亚洲无码精品在线播放| 乱人伦99久久| 国产精品欧美激情| 亚洲最黄视频| 性欧美久久| 久久香蕉国产线看精品| 国产黄色视频综合| 丰满人妻一区二区三区视频| 国产精品55夜色66夜色| 手机精品视频在线观看免费| 国产乱人视频免费观看| a级毛片在线免费| 亚洲一区网站| 伊人久热这里只有精品视频99| 99热这里只有精品免费| 手机看片1024久久精品你懂的| 五月激激激综合网色播免费| 亚洲欧洲日韩综合色天使| 欧美国产成人在线| 色综合综合网| 亚洲成人动漫在线| 亚洲精品自产拍在线观看APP|