999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標(biāo)簽語義相似的動(dòng)態(tài)多標(biāo)簽文本分類算法

2020-10-10 01:00:08姚佳奇徐正國(guó)燕繼坤李智翔盲信號(hào)處理重點(diǎn)實(shí)驗(yàn)室成都610041
關(guān)鍵詞:語義分類文本

姚佳奇,徐正國(guó),燕繼坤,熊 鋼,李智翔盲信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,成都610041

1 引言

多標(biāo)簽文本分類是自然語言處理的一個(gè)基礎(chǔ)問題[1-2]。傳統(tǒng)的多標(biāo)簽文本分類算法適用于標(biāo)簽閉集的問題。然而在實(shí)際應(yīng)用中,如根據(jù)郵件內(nèi)容確定接收人、新聞、商品評(píng)論的標(biāo)簽分類等問題,都會(huì)隨著時(shí)間的進(jìn)展,不斷出現(xiàn)新的標(biāo)簽,或者標(biāo)記規(guī)則發(fā)生變化導(dǎo)致標(biāo)簽的變化,本文將這些問題歸納為動(dòng)態(tài)多標(biāo)簽文本分類問題,由于標(biāo)簽隨時(shí)間發(fā)生變化,傳統(tǒng)的多標(biāo)簽文本分類算法在處理動(dòng)態(tài)多標(biāo)簽文本分類問題上出現(xiàn)了應(yīng)用瓶頸。

一種簡(jiǎn)單的方法是通過內(nèi)容相似解決動(dòng)態(tài)多標(biāo)簽文本分類問題。即通過計(jì)算待分類文本與歷史文本的內(nèi)容相似度,如計(jì)算兩個(gè)文本的TF-IDF向量的相似度,然后將與待分類文本最相似的歷史文本的標(biāo)簽分類給待預(yù)測(cè)文本。然而內(nèi)容相似度高并不意味著具有相似的標(biāo)簽。如圖1 所示,“我喜歡吃蘋果”與“我不喜歡吃蘋果”在內(nèi)容上很相似,但第一句是正向情感標(biāo)簽,而第二句是負(fù)向情感標(biāo)簽。

圖1 內(nèi)容相似但標(biāo)簽語義不相似的示例

因而,本文提出了一種基于標(biāo)簽語義相似的動(dòng)態(tài)多標(biāo)簽文本分類算法(Dynamic Multi-Label Text Classification algorithm based on Label Semantic Similarity,DMLTC-LSS)。DMLTC-LSS算法首先按照標(biāo)簽固定的方式訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類器,然后取出該網(wǎng)絡(luò)的倒數(shù)第二層的向量為文本的特征向量。由于該特征向量是在有標(biāo)簽監(jiān)督的環(huán)境下訓(xùn)練得到的,因而含有標(biāo)簽的語義信息。在測(cè)試階段,將待分類文本通過訓(xùn)練階段的多標(biāo)簽文本分類器獲取相應(yīng)的特征向量,然后采用最近鄰的算法獲取與帶分類文本特征向量最相似的訓(xùn)練集文本的標(biāo)簽,并將該標(biāo)簽分類給待預(yù)測(cè)文本。考慮到與待分類文本時(shí)間越近的文本越有可靠性,DMLTC-LSS 在標(biāo)簽語義相似的基礎(chǔ)上乘以時(shí)間衰減因子,使得時(shí)間越近的文本的相似度越高。

本文分別測(cè)試了基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和BERT 的算法以及基于內(nèi)容相似的算法在處理動(dòng)態(tài)多標(biāo)簽文本分類問題上的性能。然后在基于卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類器的基礎(chǔ)上,構(gòu)建了DMLTCLSS 算法。實(shí)驗(yàn)結(jié)果表明,本文提出的DMLTC-LSS 算法具有較優(yōu)的性能。

2 相關(guān)工作

2.1 文本特征

文本特征可以按照詞的表示方法分成兩類:一類將詞表示成獨(dú)熱向量(One-Hot),即獨(dú)熱模型;一類將詞表示成固定長(zhǎng)度的連續(xù)向量,即詞嵌入模型(word embedding)[3]。基于獨(dú)熱向量的文本特征,如TF-IDF 無法表示詞的語義信息,導(dǎo)致了建立在該文本特征上的機(jī)器學(xué)習(xí)模型的性能受限。然而在大規(guī)模語料集上訓(xùn)練得到的詞嵌入模型利用了詞的共現(xiàn)信息,從而一定程度上捕獲了詞的語義信息。CBOW和Skipgram是兩種經(jīng)典的訓(xùn)練詞嵌入模型的算法[4-6]。由于詞嵌入上述優(yōu)勢(shì),研究者提出了許多基于詞嵌入的文本分類模型[7]。這些模型可以根據(jù)采用的神經(jīng)網(wǎng)絡(luò)架構(gòu)劃分為基于卷積神經(jīng)網(wǎng)絡(luò)[8-9]和基于循環(huán)神經(jīng)網(wǎng)絡(luò)兩大類[10-11]。

最近,一些研究者提出一個(gè)詞在不同的上下文中具有不同的語義,應(yīng)當(dāng)具有不同的向量表示[12]。因而,研究者提出了具有上下文背景的詞嵌入模型,如ELMo[12]、GPT[13]和BERT[14]等。這些模型首先根據(jù)某些訓(xùn)練目標(biāo)(如預(yù)測(cè)下一個(gè)詞)訓(xùn)練得到語言模型,然后再根據(jù)下游任務(wù)微調(diào)語言模型。實(shí)驗(yàn)結(jié)果顯示具有上下文背景的詞嵌入模型在多項(xiàng)自然語言處理任務(wù)中取得了最優(yōu)的性能。

2.2 多標(biāo)簽分類

多標(biāo)簽分類任務(wù)是賦予一個(gè)樣本多個(gè)相關(guān)的標(biāo)簽。多標(biāo)簽分類算法大體上可以分成兩類:?jiǎn)栴}適應(yīng)類和算法適應(yīng)類。

(1)問題適應(yīng)類:即將多標(biāo)簽分類問題轉(zhuǎn)換成其他學(xué)習(xí)問題。典型算法包括BR(Binary Relevance)[15]、

Classifier Chains(CC)[16]、Calibrated Label Ranking(CLR)[17]

和Label Power(LP)[18]等。BR 將多標(biāo)簽分類轉(zhuǎn)換成了多個(gè)二分類問題,因此,BR算法未能夠利用標(biāo)簽之間的關(guān)聯(lián)。CC 算法則構(gòu)造了鏈條式的二分類器,鏈條上后一個(gè)二分類器將前一個(gè)二分類器的輸出作為輸入。CLR算法則在兩兩標(biāo)簽之間構(gòu)造二分類器。LP直接將多標(biāo)簽分類轉(zhuǎn)換成了多類別分類問題。

(2)算法適應(yīng)類:即修改分類算法適應(yīng)多標(biāo)簽分類問題。典型算法有基于KNN 算法的ML-KNN[19]、基于決策樹算法的ML-DT[20]、基于SVM算法的Rank-SVM[21],以及利用二值交叉熵?fù)p失函數(shù)(Binary Cross-Entropy,BCE)代替交叉熵?fù)p失函數(shù)的神經(jīng)網(wǎng)絡(luò)類算法[1]。

3 基于標(biāo)簽語義相似的動(dòng)態(tài)多標(biāo)簽文本分類算法

本文提出了一種基于標(biāo)簽語義相似的動(dòng)態(tài)多標(biāo)簽文本分類算法DMLTC-LSS。DMLTC-LSS 算法的整體流程如圖2所示。

圖2 DMLTC-LSS算法流程

圖3 基于卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類器示意圖

加上時(shí)間衰減因子修正的相似度函數(shù)為(*表示逐元素相乘):

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集

(1)Reuters-21578新聞數(shù)據(jù)集

本文使用Reuters-21578 新聞數(shù)據(jù)集構(gòu)造了用戶感興趣主題隨時(shí)間變化的數(shù)據(jù)集。具體構(gòu)造方式為:首先篩選出樣本數(shù)目最多的10 個(gè)標(biāo)簽,并按照時(shí)間順序排序;然后創(chuàng)建了5 個(gè)用戶(A~E),3 種感興趣主題關(guān)系,分別是{A:labels[0:3],B:labels[1:4],C:labels[2:5],D:

labels[3:6],E:labels[7:9]},A:labels[0:2],B:labels[3:3],C:labels[2:4],D:labels[3:5],E:labels[6:9]},{A:labels[2:4],B:labels[4:5],C:labels[5:6],D:labels[4:7],E:labels[5:9]},其中A:labels[0:3]表示用戶A感興趣0,1,2,3主題,其余類似;最后按照時(shí)間順序每2 000個(gè)樣本改變一次感興趣主題關(guān)系,3種感興趣主題關(guān)系循環(huán)使用。本文按照文獻(xiàn)[22]的方式劃分了訓(xùn)練集和測(cè)試集,并從訓(xùn)練集中選取按照時(shí)間排序的后10%的樣本作為驗(yàn)證集。此外,本文公將在Reuters-21578數(shù)據(jù)集上的實(shí)驗(yàn)代碼公布在了Github上(https://github.com/JiaqiYao/dynamic_multi_label)。

(2)中文郵件數(shù)據(jù)集

本文采集了某公司內(nèi)部1年的74 000份郵件,抽取郵件中的郵件內(nèi)容(content)、接收人列表(receivers)和發(fā)送時(shí)間(post_time)要素,構(gòu)造成(content,receivers,post_time)三元組,并按照發(fā)送時(shí)間順序排序,選取1~60 000 份郵件為訓(xùn)練集,60 001~67 000 份郵件為驗(yàn)證集,67 001~74 000 份郵件為測(cè)試集。不同的收件人的總數(shù)為232個(gè)。

4.2 對(duì)比模型與實(shí)驗(yàn)配置

本文選取了基于卷積神經(jīng)網(wǎng)絡(luò)的XML-CNN[9]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的HAN[10],并改造BERT[14]使其適用于多標(biāo)簽文本分類。同時(shí),本文構(gòu)造了基于TF-IDF 特征向量的最近鄰算法,用以驗(yàn)證基于內(nèi)容相似的算法的性能。下面分別介紹上述各個(gè)算法以及本文提出的DMLTC-LSS算法的詳細(xì)實(shí)驗(yàn)配置。

對(duì)于Reuters-21578 數(shù)據(jù)集,本文使用Google 預(yù)訓(xùn)練的詞向量[6]。而采集的中文郵件數(shù)據(jù)集,本文首先應(yīng)用jieba將采集到的郵件內(nèi)容分詞,然后采用word2vec[4-6]的Skip-gram 模型預(yù)訓(xùn)練詞嵌入模型WE∈RNw×dw,Nw為語料集的詞的個(gè)數(shù),dw為詞嵌入向量的維度,本文設(shè)定為300。此外,本文所有基于神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)均為二值交叉熵(Binary Cross Entropy,BCE)損失函數(shù),并采用Adam[23]優(yōu)化算法,學(xué)習(xí)速率通過驗(yàn)證集上的性能確定。

(1)基于卷積神經(jīng)網(wǎng)絡(luò)的XML-CNN

XML-CNN 采用卷積神經(jīng)網(wǎng)絡(luò)作為基本架構(gòu)。本文采用了尺寸為3×300、4×300、5×300的卷積核,每個(gè)卷積核的個(gè)數(shù)為256,激勵(lì)函數(shù)未Relu 函數(shù),應(yīng)用最大池化函數(shù),在倒數(shù)第二層加入了隨機(jī)失活層(Dropout)減少模型的過擬合,提高模型的性能,隨機(jī)失活率為0.5。

(2)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的HAN

HAN(Hierarchical Attention Network)模型為層次注意力模型,分別在詞級(jí)(word-level)和句子級(jí)(sentencelevel)應(yīng)用自注意力機(jī)制。本文僅應(yīng)用了詞級(jí)的自注意力機(jī)制,采用GRU 的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,每個(gè)GRU 中含有128個(gè)單位,激勵(lì)函數(shù)為雙曲正切函數(shù)(tanh),在循環(huán)神經(jīng)網(wǎng)絡(luò)層之后加入隨機(jī)失活層,隨機(jī)失活率為0.5。

(3)BERT模型

本文使用了預(yù)訓(xùn)練的BERT 模型,英文模型為uncased_L-12_H-768_A-12,中文模型為chinese_L-12_H-768_A-12[14]。這兩個(gè)模型均由12層Transformer模塊構(gòu)成,每個(gè)Transformer 模塊由768 個(gè)隱層單元和12 個(gè)多線頭(multi-heads)組成,總共約110M個(gè)參數(shù)。

(4)基于TF-IDF的最近鄰算法

首先在jieba 分詞的基礎(chǔ)上構(gòu)建文本的TF-IDF 特征,本文沒有使用停用詞表,而是將文檔頻率超過0.9的詞濾除掉,然后基于向量的余弦相似度應(yīng)用最近鄰算法分類待分類的文檔。

(5)DMLTC-LSS

DMLTC-LSS 算法建立在XML-CNN 模型的基礎(chǔ)上,在訓(xùn)練好XML-CNN 模型后,按照第3 章的描述運(yùn)行DMLTC-LSS算法。DMLTC-LSS算法的超參數(shù)衰減因子η的具體數(shù)值通過驗(yàn)證集上的性能確定。同時(shí),本文對(duì)比了基于HAN 和BERT 的最近鄰算法,其中HAN也取倒數(shù)第二層為文本的特征向量,BERT 則取原模型中的[CLS]對(duì)應(yīng)的向量。

4.3 結(jié)果與分析

本文采用基于樣本平均的精確率(Precision)、召回率(Recall)和F1指標(biāo)度量算法的性能。令yi表示一個(gè)樣本xi的標(biāo)簽集合,f(xi)表示分類器預(yù)測(cè)的標(biāo)簽集合,N表示總共的樣本個(gè)數(shù)。

實(shí)驗(yàn)結(jié)果如表1和表2所示(其中*表示采用了時(shí)間衰減因子,HAN#*和BERT#*分別表示基于HAN 和BERT的最近鄰算法)。

從實(shí)驗(yàn)結(jié)果中可以看出:

(1)基于TF-IDF 的最近鄰算法是一種基于內(nèi)容相似的算法,在精確率、召回率和F1 性能指標(biāo)上表現(xiàn)均不好。

(2)DMLTC-LSS*算法,即基于標(biāo)簽語義相似的動(dòng)態(tài)多標(biāo)簽文本分類算法在兩個(gè)數(shù)據(jù)集上均取得了最優(yōu)的結(jié)果,充分說明了本文提出的算法的有效性。

(3)DMLTC-LSS*相較于DMLTC-LSS 的性能更優(yōu),表明加入時(shí)間衰減因子使得較新的樣本具有相對(duì)更近的距離,對(duì)動(dòng)態(tài)多標(biāo)簽文本分類的必要性。

(4)本文對(duì)比了基于HAN 和BERT 的最近鄰算法,并且也加上了時(shí)間衰減因子,實(shí)驗(yàn)結(jié)果表明相對(duì)于原始的HAN 和BERT 而言,性能有所提升,但是沒有超過DMLTC-LSS*算法。動(dòng)態(tài)多標(biāo)簽文本分類數(shù)據(jù)集的概率分布p(x,y)隨著時(shí)間發(fā)生變化,因而對(duì)于HAN 和BERT 等具有較大模型容納能力的模型而言,容易過擬合,從而影響其倒數(shù)第二層提取含有標(biāo)簽語義信息的特征能力。

表1 Reuters-21578實(shí)驗(yàn)結(jié)果

表2 中文郵件實(shí)驗(yàn)結(jié)果

5 結(jié)束語

本文提出了一種基于標(biāo)簽語義相似的動(dòng)態(tài)多標(biāo)簽文本分類算法(DMLTC-LSS),主要用于解決標(biāo)簽隨著時(shí)間的進(jìn)展不斷發(fā)生變化的多標(biāo)簽文本分類問題。DMLTC-LSS算法利用傳統(tǒng)多標(biāo)簽文本分類提取文本的特征向量,該特征向量是在標(biāo)簽監(jiān)督下訓(xùn)練得到,因而內(nèi)涵標(biāo)簽語義信息,從而使得基于該特征向量的相似度反映了標(biāo)簽語義的相似度。在標(biāo)簽語義相似度的基礎(chǔ)上,本文加上了時(shí)間衰減因子的修正,進(jìn)一步提升了算法的性能。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 麻豆精品在线播放| 欧美区国产区| 国产免费人成视频网| 亚洲最新在线| 午夜国产理论| 香蕉久久永久视频| 久久综合五月婷婷| 色综合网址| 国产凹凸一区在线观看视频| 久久a级片| 国产18在线| 国产精品夜夜嗨视频免费视频| 免费aa毛片| 午夜视频在线观看免费网站| 玖玖精品在线| 国产精品尹人在线观看| 日韩精品一区二区三区大桥未久 | 99re经典视频在线| 婷婷午夜天| www.91在线播放| 欧美午夜在线播放| 亚洲国产清纯| 天堂va亚洲va欧美va国产| 999国产精品| yjizz视频最新网站在线| www.99在线观看| 日本欧美中文字幕精品亚洲| 日韩高清欧美| 免费看美女毛片| 国产成人精品一区二区不卡| 亚洲成人网在线观看| 成年女人a毛片免费视频| 在线国产欧美| 丁香六月激情综合| 91人妻日韩人妻无码专区精品| 久久精品国产电影| 日本91在线| 一级毛片免费观看不卡视频| 99久久无色码中文字幕| 91区国产福利在线观看午夜| 亚洲一级色| 91九色最新地址| 国产黄在线免费观看| 国产成人调教在线视频| 国产一二视频| 无码乱人伦一区二区亚洲一| 亚洲乱伦视频| 婷婷开心中文字幕| 呦女亚洲一区精品| 中美日韩在线网免费毛片视频| 青青青视频蜜桃一区二区| 波多野结衣二区| 亚洲人成在线免费观看| 国产鲁鲁视频在线观看| 亚洲成网站| 热九九精品| 国产成人亚洲精品无码电影| 成人a免费α片在线视频网站| 呦女精品网站| 婷婷六月综合网| 成色7777精品在线| 亚洲国产看片基地久久1024| 欧美激情第一区| 欧美视频二区| 狠狠色婷婷丁香综合久久韩国| 国产精品第5页| 99九九成人免费视频精品| 久久国产亚洲偷自| 天天躁夜夜躁狠狠躁图片| 国产美女一级毛片| 国产成人资源| 最新无码专区超级碰碰碰| 亚洲国产成人精品青青草原| 日韩成人免费网站| 欧美亚洲国产一区| 精品欧美日韩国产日漫一区不卡| 国产亚洲高清在线精品99| 视频在线观看一区二区| 亚洲国产成人精品一二区| 香蕉综合在线视频91| 亚洲动漫h| www成人国产在线观看网站|