999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF特征詞提取的不平衡文本分類

2020-03-18 01:39:08王忠震
關(guān)鍵詞:分類特征文本

陳 歡, 王忠震

(上海工程技術(shù)大學(xué), 電子電氣工程學(xué)院, 上海 201620)

0 引 言

隨著web2.0時(shí)代的到來,我國的網(wǎng)民規(guī)模飛速增長,達(dá)到了9.04億,網(wǎng)絡(luò)文本數(shù)據(jù)也隨時(shí)間大量累積。對(duì)文本分類、整理,發(fā)掘文本中的潛在信息成為了研究的熱點(diǎn)。然而在實(shí)際的網(wǎng)絡(luò)文本分類過程中,類別分布不均衡制約著文本分類技術(shù)的發(fā)展。

傳統(tǒng)的解決數(shù)據(jù)類別分布不均衡的方法是通過重采樣,數(shù)據(jù)增強(qiáng)等方法。如張忠林等針對(duì)不平衡分類過程中,數(shù)據(jù)集中存在噪聲數(shù)據(jù)使得邊界模糊的現(xiàn)象,提出了將少數(shù)樣本劃分,只對(duì)邊界樣本進(jìn)行SMOTE插值,然后數(shù)據(jù)清洗,去除噪聲數(shù)據(jù)[1];蔣華等針對(duì)不平衡數(shù)據(jù)集分類時(shí)邊界偏移的問題,提出用ADASYN和SMOTE算法生成小類樣本點(diǎn)[2];史明華等通過使用聚類算法進(jìn)行聚類,根據(jù)類別簇不平衡比的大小對(duì)該簇進(jìn)行相應(yīng)的處理[3]。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,給文本的不平衡分類技術(shù)發(fā)展提供了新的思路。如陳志等針對(duì)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí)參數(shù)會(huì)被多數(shù)類所主導(dǎo),在損失函數(shù)中加入類別標(biāo)簽,強(qiáng)化少數(shù)類對(duì)模型參數(shù)的影響[4];林懷逸等利用小類別區(qū)分的預(yù)訓(xùn)練詞向量來初始化目標(biāo)模型,并結(jié)合均衡過采樣,保持模型在大類別上的精度[5];萬志超等針對(duì)文本分布不均衡分類時(shí)局限于特征維數(shù)過高、數(shù)據(jù)稀疏、分布不均衡的特點(diǎn),通過使用有監(jiān)督的特征選擇方法,減少特征詞數(shù)量,降低特征維度[6];程艷等提出將不平衡數(shù)據(jù)劃分為若干組均衡數(shù)據(jù),使用CNN神經(jīng)網(wǎng)絡(luò)訓(xùn)練,并使用EWC克服CNN的災(zāi)難性遺忘的缺點(diǎn)[7];唐煥玲等使用有監(jiān)督的主題模型SLDA,建立主題和稀少類別之間的映射,以提高少數(shù)類分類的精度[8];鐘將等針對(duì)文本特征維度大和訓(xùn)練樣本分布不均衡的問題,提出使用LSA降維,并利用改進(jìn)的KNN進(jìn)行文本分類[9]。

綜上所述,在進(jìn)行數(shù)據(jù)不平衡分類的過程中,主要通過強(qiáng)化類別的邊界,去除噪聲數(shù)據(jù)等方法[10]。與其不同的是,在文本分類過程中,解決數(shù)據(jù)類別分布不均衡的方法,主要有強(qiáng)化類別標(biāo)簽、過采樣等方法。因此,本文通過使用TF-IDF構(gòu)建類別特征詞,與原有文本拼接來強(qiáng)化各類的類別特征,并使用注意力機(jī)制進(jìn)行文本特征權(quán)重分配。

本文的主要工作如下:

(1)利用TF-IDF給文本中詞賦權(quán)的方法進(jìn)行類別關(guān)鍵詞提取。將數(shù)據(jù)集劃分為若干個(gè)平衡的子數(shù)據(jù)集,輸入到TF-IDF模型進(jìn)行類別關(guān)鍵詞提取。

(2)將訓(xùn)練集和測(cè)試集輸入到word2vec詞嵌入模型進(jìn)行詞向量訓(xùn)練,得到TF-IDF提取到的關(guān)鍵詞和原有的文本數(shù)據(jù)拼接后的詞向量表達(dá),輸入到注意力機(jī)制模型訓(xùn)練和權(quán)重分配,最終進(jìn)行文本分類。

1 基礎(chǔ)理論

1.1 TF-IDF特征權(quán)重計(jì)算方法

TF-IDF是一種用于信息檢索的文本加權(quán)技術(shù),在文本信息檢索的過程中,通過對(duì)文本賦予不同的權(quán)重,從而判斷與檢索詞的關(guān)系,提高檢索的準(zhǔn)確率和召回率。

TF-IDF的具體思想可以表述為:在一篇文章中,如果一個(gè)詞在該篇文章中出現(xiàn)的頻率較高,而在語料集的其它文章中出現(xiàn)的頻率較低,則該詞更能代表該篇文章。其中,TF表示詞頻;IDF表示包含該詞的文檔數(shù)目。在數(shù)學(xué)上可以表示為公式(1)、(2)、(3)。

TF-IDF=tfi,j*idfi,

(1)

(2)

(3)

其中,ni,j表示詞語i在文檔j中的頻率;|j|表示文檔j中詞的總數(shù);|D|表示語料集中文檔的總數(shù);dfi表示語料集中包含詞語i的文檔總數(shù)。idfi的計(jì)算過程中分母加1是為了防止違反運(yùn)算法則的情況出現(xiàn)。

1.2 LDA文本降維

LDA模型是一種主題概率模型,將文本表示為文本-主題、主題-詞的概率分布。LDA的概率圖模型如圖1所示。其中,K表示主題數(shù);D表示文檔數(shù);N表示一篇文檔中詞的數(shù)目。

圖1 LDA概率圖模型

(1)模型假設(shè)文檔的主題先驗(yàn)分布服從參數(shù)為α的Dirichlet概率分布,其中文檔d的主題概率分布為θd=Dirichlet(α)。

(2)模型假設(shè)主題中的詞的先驗(yàn)分布服從參數(shù)為β的先驗(yàn)概率分布。其中,主題k的詞概率分布為φk=Dirichlet(β)。

(3)文檔d中的第n個(gè)詞,從主題分布獲得其主題編號(hào)概率分布為zdn=multi(θd)。

(4)文檔d中的第n個(gè)詞分布wdn的概率分布為wdn=multi(φzdn)。

由于Dirichlet-multi是共軛分布,可以利用貝葉斯推斷的方法求得后驗(yàn)分布,在得到文檔主題,主題詞的后驗(yàn)概率分布后,利用Gibbs采樣的方法獲得每個(gè)文檔的主題分布和每個(gè)主題的詞分布。

1.3 注意力機(jī)制

注意力機(jī)制首先被提出用于圖像特征提取領(lǐng)域,其次被Bahdanau等人推廣到自然語言處理領(lǐng)域。其思想可以描述為通過改變模型參數(shù)來加強(qiáng)某個(gè)輸入對(duì)輸出的影響[11-12]。其中g(shù)oogle提出的最初注意力計(jì)算方法如公式(4)所示,ks(key)與vs(value)一一對(duì)應(yīng),通過計(jì)算qt(query)和各個(gè)ks的內(nèi)積,求得與各個(gè)vs的相似度,然后加權(quán)求和歸一化。

(4)

2 模型描述

2.1 模型框架

基于詞嵌入的不平衡文本數(shù)據(jù)分類框架如圖2所示。

圖2 模型結(jié)構(gòu)

模型主要分為三個(gè)部分:首先,使用TF-IDF進(jìn)行類別關(guān)鍵詞提取,與原有文本拼接,輸入到word2vec模型進(jìn)行詞向量訓(xùn)練;其次,使用TF-IDF對(duì)文本降維,并和類別關(guān)鍵詞拼接,并將其用詞向量表示;最后,使用Self-Attention對(duì)詞向量表示后的文本進(jìn)行特征權(quán)重分配。

2.2 TF-IDF類別關(guān)鍵詞特征提取

類別關(guān)鍵詞特征作為類別之間的區(qū)分,具有明顯的類別特性。將數(shù)據(jù)集劃分為若干個(gè)平衡的子數(shù)據(jù)集,輸入到TF-IDF模型,獲得子數(shù)據(jù)集每個(gè)文本的TF-IDF表示,統(tǒng)計(jì)每個(gè)類別的TF-IDF權(quán)值大的詞作為類別的關(guān)鍵詞特征。

劃分為平衡數(shù)據(jù)集是為了TF-IDF在詞特征提取的過程中能夠有更好的效果。否則可能出現(xiàn)少數(shù)類別文章關(guān)鍵詞存在本文屬于高頻,而在語料集中很少出現(xiàn),就會(huì)導(dǎo)致該詞的權(quán)重過大,但該詞并不能代表該類別。

2.3 LDA文本降維

將文本輸入到LDA模型,得到每篇文章的主題詞分布和主題分布,通過這兩個(gè)分布可以將文章的主要特征進(jìn)行表示,從而實(shí)現(xiàn)文章的降維。設(shè)每篇文章的主題詞分布為t_w=[w1,w2,...,wN],文章主題分布為d_t={z1,z2,...,zK}。通過將兩個(gè)分布對(duì)應(yīng)相乘,選擇結(jié)果較大的詞作為LDA降維后的文本特征,并將其用詞向量的形式表示,進(jìn)行下一步的操作。

2.4 Self-Attention權(quán)重分配

傳統(tǒng)的注意力機(jī)制通過計(jì)算源端的每個(gè)詞與目標(biāo)端的每個(gè)詞之間的依賴關(guān)系來更新訓(xùn)練參數(shù),Self-Attention機(jī)制僅通過關(guān)注自身信息更新訓(xùn)練參數(shù),不需要添加額外的信息。將前述通過CBOW模型得到的融合主題特征的評(píng)論文本向量輸入到Self-Attention層,通過公式(5)計(jì)算權(quán)重分布。

(5)

2.5 模型分類

將注意力機(jī)制編碼后獲得的文本信息,使用交叉熵作為損失函數(shù),利用adam更新網(wǎng)絡(luò)參數(shù)。利用公式(6)求解文本特征向量γx屬于類別yx的概率,n_c為類別的數(shù)目。以公式(7)為損失函數(shù),其目的是通過迭代的更新參數(shù)最小化監(jiān)督標(biāo)簽gx和預(yù)測(cè)標(biāo)簽之間的交叉熵。

(6)

(7)

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)集采用復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集,該數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,共有20個(gè)類別,類別數(shù)最多的文本有1 357篇,最少文本的只有27篇。本文選擇其中文本較多的9個(gè)類別進(jìn)行文本分類。各個(gè)類別分布如圖3所示,其中類別數(shù)最多的有1 357篇,最少的有466篇。

圖3 訓(xùn)練集各類別數(shù)據(jù)分布

3.2 TF-IDF 類別關(guān)鍵詞提取

將訓(xùn)練的數(shù)據(jù)集劃分為兩個(gè)訓(xùn)練集,輸入到TF-IDF模型進(jìn)行訓(xùn)練。其中,低于1 000的數(shù)據(jù)集進(jìn)行兩次模型訓(xùn)練,高于1 000的劃分為兩個(gè)部分輸入到模型訓(xùn)練。

TF-IDF提取到的類別關(guān)鍵詞特征示例,見表1。可以看到,每個(gè)領(lǐng)域的特征詞都有明顯的領(lǐng)域特征,因此與原有文章進(jìn)行拼接可以加強(qiáng)少數(shù)類的類別特征,從而提高文本分類的準(zhǔn)確率。

表1 TF-IDF提取類別關(guān)鍵詞特征示例

3.3 模型對(duì)比分析

目前的分類評(píng)價(jià)方法評(píng)價(jià)指標(biāo)有精確度、召回率和F1值,本文也采用這些指標(biāo)進(jìn)行分類結(jié)果評(píng)價(jià)。

使用gensim庫進(jìn)行LDA和word2vec詞嵌入模型訓(xùn)練,同時(shí)和其它幾種基于LDA和word2vec的模型進(jìn)行訓(xùn)練,得到準(zhǔn)確率對(duì)比,見表2。實(shí)驗(yàn)證明了本文提出的方法優(yōu)于其它的傳統(tǒng)方法。

表2 結(jié)果對(duì)比分析

4 結(jié)束語

針對(duì)文本數(shù)據(jù)分類不均衡的問題,本文提出使用TF-IDF進(jìn)行類別關(guān)鍵詞特征提取,然后輸入到注意力機(jī)制模型進(jìn)行文本分類。在復(fù)旦大學(xué)語料集上證明了本文提出模型優(yōu)于其它的經(jīng)典模型,具有更好的分類效果。但本文提出的模型也有一定的不足,如在TF-IDF特征詞提取的過程中,TF-IDF不能得到很好的效果,其中有一些詞不具有類別代表性,因此需要對(duì)其進(jìn)行人工篩選。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 美女被操黄色视频网站| 国产电话自拍伊人| 亚洲欧美日本国产综合在线| 亚洲AV无码一二区三区在线播放| 欧美一区精品| 欧美日韩国产在线人| 伊人网址在线| 午夜综合网| 一区二区三区精品视频在线观看| 无码'专区第一页| 狠狠做深爱婷婷久久一区| 国产在线精品人成导航| 国产成人精彩在线视频50| 午夜视频日本| 亚洲综合色婷婷中文字幕| av尤物免费在线观看| 91伊人国产| 国产精品第5页| 亚洲Aⅴ无码专区在线观看q| 99久久亚洲综合精品TS| 成人在线欧美| 亚洲一级毛片免费观看| 2019年国产精品自拍不卡| 亚洲日本中文字幕乱码中文| 日韩精品一区二区三区中文无码 | 亚洲视屏在线观看| 老司机午夜精品网站在线观看| 亚洲香蕉伊综合在人在线| 久久久久国产精品熟女影院| 国产91精品久久| 欧美一区中文字幕| 国产精品v欧美| 亚洲天堂网在线视频| www亚洲精品| 亚洲人成日本在线观看| 无码专区国产精品一区| 国产福利拍拍拍| 全部免费毛片免费播放| 国产欧美日韩免费| 国产一区成人| 污网站在线观看视频| 精品免费在线视频| 亚洲有码在线播放| 99在线视频网站| 热99re99首页精品亚洲五月天| 亚洲人精品亚洲人成在线| 91香蕉视频下载网站| 在线播放精品一区二区啪视频 | 欧洲精品视频在线观看| 丝袜亚洲综合| 亚洲无码电影| 91毛片网| 在线播放国产99re| 性欧美在线| 日韩高清一区 | 国产真实二区一区在线亚洲| 一级毛片免费的| 99re在线免费视频| 十八禁美女裸体网站| 国产国产人成免费视频77777| 亚洲日韩每日更新| 日本不卡在线| 五月丁香在线视频| 国产精品网曝门免费视频| 亚洲欧美不卡视频| 国产精品午夜电影| 99re在线观看视频| 色综合天天综合| 国产一级毛片yw| 亚洲中文在线视频| 五月天久久综合| 中文字幕调教一区二区视频| 国产男女免费完整版视频| 国产成人久久综合一区| 亚洲欧美综合另类图片小说区| 久久精品国产亚洲AV忘忧草18| www亚洲天堂| 青青草综合网| 国产成人久久777777| 777午夜精品电影免费看| 蜜桃臀无码内射一区二区三区 | 伊人天堂网|