999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類中TF-IDF算法的改進(jìn)研究

2022-07-04 02:54:40吳宗卓

吳宗卓

關(guān)鍵詞:文本分類;特征選擇;CHI平方統(tǒng)計(jì);TFIDF;分類準(zhǔn)確性

隨著在線信息的快速發(fā)展,如何有效地處理大量文本成為一個(gè)熱門(mén)的研究課題,文本分類是其中的關(guān)鍵任務(wù)之一。文本分類是將新文檔分配給預(yù)先存在的類別,并且已廣泛用于許多領(lǐng)域,如信息檢索、電子郵件分類、垃圾郵件過(guò)濾、主題定位。

近年來(lái),大多數(shù)研究集中在尋找新的分類算法上,對(duì)信息檢索的文獻(xiàn)表示模型的改進(jìn)研究很少。傳統(tǒng)模型有三種:向量空問(wèn)模型、概率模型、推理網(wǎng)絡(luò)模型。向量空問(wèn)模型把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂,使用最廣泛。在向量空間模型中,有一些常用的加權(quán)方法,如布爾加權(quán)、頻率加權(quán)、TF-IDF加權(quán)、TFC加權(quán)、LTC加權(quán)、熵加權(quán),其中TF-IDF加權(quán)是其中使用最廣泛的一種。

提出了對(duì)向量空間模型的TF-IDF加權(quán)算法的改進(jìn)算法。TF-IDF考慮術(shù)語(yǔ)頻率(TF)和逆文檔頻率(IDF),在這種方法中,如果術(shù)語(yǔ)頻率高并且該術(shù)語(yǔ)僅出現(xiàn)在一小部分文檔中,那么這個(gè)術(shù)語(yǔ)具有很好的區(qū)分能力,這種方法強(qiáng)調(diào)能夠更多地區(qū)分不同的類,但忽略了這樣一個(gè)事實(shí),即經(jīng)常出現(xiàn)在屬于同一類的文檔中的術(shù)語(yǔ)可以代表該特征。因此引入一個(gè)新的參數(shù)來(lái)表示類內(nèi)特性,然后進(jìn)行了一些實(shí)驗(yàn)來(lái)比較效果,結(jié)果顯示這種改進(jìn)具有更好的準(zhǔn)確性。

1文本分類步驟

文本分類通常包括5個(gè)主要步驟:文檔預(yù)處理、文檔表示、降維、模型訓(xùn)練、測(cè)試和評(píng)估。

1.1文檔預(yù)處理

在這一步中,需要?jiǎng)h除html標(biāo)簽、稀有單詞、停用詞,并且需要標(biāo)注一些詞干,這在英語(yǔ)中很簡(jiǎn)單,但在中文、日語(yǔ)和其他一些語(yǔ)言中很難。通過(guò)文本預(yù)處理后,文檔內(nèi)部的噪音數(shù)據(jù)就被剔除。文檔在內(nèi)容方面就能進(jìn)行分類使用了。

1.2文件表示

在進(jìn)行分類之前,需要將文檔轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別的格式,矢量空間模型(VSM)是最常用的方法。此模型將文檔作為多維向量,并將從數(shù)據(jù)集中選擇的特征作為此向量的維度。其中每一個(gè)維度對(duì)應(yīng)一個(gè)特征詞,如果某個(gè)特征詞存在于某個(gè)文檔中,那它在矢量空間模型的向量中的值為非零。

1.3降維

因?yàn)樵谖臋n中,有成千上萬(wàn)的單詞,不做處理的話就有成千上萬(wàn)個(gè)特征詞。如果選擇所有單詞作為特征,那么進(jìn)行分類是不可行的,因?yàn)橛?jì)算機(jī)無(wú)法處理這樣的數(shù)據(jù)量。因此需要選擇那些最有意義和最具代表性的分類特征作為特征詞,最常用的特征選擇方法包括CHI平方統(tǒng)計(jì)、信息增益、互信息、文檔頻率、潛在語(yǔ)義分析。

1.4模型訓(xùn)練

這是文本分類中最重要的部分。寫(xiě)好改進(jìn)算法的代碼之后,通過(guò)從語(yǔ)料庫(kù)中選擇一部分文檔以組成訓(xùn)練集,剩下文檔作為測(cè)試集。在訓(xùn)練集上執(zhí)行學(xué)習(xí),然后生成模型。

1.5測(cè)試和評(píng)估

此步驟使用從步驟4生成的模型,并對(duì)得到的測(cè)試集執(zhí)行分類,最后選擇適當(dāng)?shù)乃饕M(jìn)行評(píng)估。

2 TF-IDF

在向量空間模型中,TF-IDF(術(shù)語(yǔ)頻率一逆文檔頻率)是一種廣泛使用的加權(quán)方法,TF-IDF算法是基于這種假設(shè)的:對(duì)于最優(yōu)特征詞來(lái)說(shuō),這些特征詞在一類或一部分文檔中大量出現(xiàn),而在其他文檔中很少出現(xiàn)或者不出現(xiàn)。所以使用術(shù)語(yǔ)頻率TF就可以劃分相同文本。

另外,考慮一個(gè)特征詞在所在文本當(dāng)中的重要程度,認(rèn)為一個(gè)文本中,特征詞出現(xiàn)次數(shù)越高,特征詞就越重要,因此引入了逆文檔頻率IDF。以術(shù)語(yǔ)頻率TF和逆文檔頻率IDF的乘積作為向量空間模型的取值測(cè)度。不過(guò)在本質(zhì)上IDF是避免噪音數(shù)據(jù)的一種加權(quán)手段,同時(shí)認(rèn)為文本量少就重要,文本量多就不重要,這明顯是有不完全正確的。所以該算法的精度并不高。

TF-IDF沒(méi)有考慮不同文件長(zhǎng)度對(duì)加權(quán)的影響,為了改進(jìn)這一點(diǎn),提出了TFC,它實(shí)際上是公式(1)的標(biāo)準(zhǔn)化。同時(shí)當(dāng)N等于n時(shí),a變?yōu)榱悖@通常出現(xiàn)在小數(shù)據(jù)集中。為防止計(jì)算中出現(xiàn)零的結(jié)果需要改進(jìn)公式(1),TFC如下所示:

LTC是TF-IDF的一種不同格式,它考慮了小數(shù)據(jù)集的限制,它實(shí)際上是公式(2)的歸一化。公式為:

3 TF-IDF-IF

關(guān)于TF-IDF的缺點(diǎn),引入了一個(gè)新的參數(shù)來(lái)表示類內(nèi)特征,稱之為類頻率,它計(jì)算一個(gè)類中文檔中的術(shù)語(yǔ)頻率。然后將這個(gè)新的加權(quán)方法重命名為T(mén)F-IDF-IF,其公式基于公式(2):

該方法通過(guò)引入類中文檔中的術(shù)語(yǔ)頻率,可以緩解IDF認(rèn)為文本量少就重要、文本量多就不重要的問(wèn)題。

4實(shí)驗(yàn)和分析

在實(shí)驗(yàn)中,選擇使用常用的路透社Reuters數(shù)據(jù)集和20newsgroup數(shù)據(jù)集。在繼續(xù)之前,進(jìn)行一些預(yù)處理,例如刪除html標(biāo)簽,過(guò)濾無(wú)效字符,刪除停用詞。在此處理之后,對(duì)于路透社,選擇了6088個(gè)訓(xùn)練樣本,2800個(gè)測(cè)試樣本共59個(gè)類別。對(duì)于20newsgroup,選擇8000個(gè)訓(xùn)練樣本,2000個(gè)測(cè)試樣本共20個(gè)類。然后使用CHI卡方統(tǒng)計(jì)特征選擇方法來(lái)選擇1000個(gè)特征,然后分別使用TF-IDF、TF-IDF-CF、LTC、TFC方法在一些常用的分類器如樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、KNN、SVM中進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)束后,比較了TF-IDF-IF與TF-IDF,LTC,TFC的結(jié)果。

4.1CHI卡方統(tǒng)計(jì)

卡方統(tǒng)計(jì)是一種非常有用的文本分類特征選擇方法,它可以測(cè)量特征和類之間的相關(guān)性。設(shè)N是訓(xùn)練樣本文本總數(shù),A是文本集中包含特征t且在類別c中的文本個(gè)數(shù),B是文本集中包含特征t在但不屬于類別c的文本個(gè)數(shù),D是文本集中屬于類別c但不包含特征t的文本個(gè)數(shù),E是文本集中不包含特征t也不在類別c中的文本個(gè)數(shù)。卡方統(tǒng)計(jì)可以描述為:

當(dāng)卡方統(tǒng)計(jì)量y2(t,c)=0時(shí),表示特征和類別沒(méi)有關(guān)系,即特征和類別相互獨(dú)立。卡方統(tǒng)計(jì)量x2(t,c)越大表示兩者關(guān)系越密切。

4.2實(shí)驗(yàn)

基于這兩個(gè)數(shù)據(jù)集,使用CHI平方統(tǒng)計(jì)方法來(lái)選擇1000個(gè)特征,然后使用一些常用的算法如樸素貝葉斯,貝葉斯網(wǎng)絡(luò),KNN,SVM在一個(gè)著名的數(shù)據(jù)挖掘工具WEKA上進(jìn)行實(shí)驗(yàn),只考慮比較結(jié)果時(shí)的分類準(zhǔn)確度:

4.3分析

從表1的實(shí)驗(yàn)結(jié)果可以看出,改進(jìn)的TF-IDF-CF加權(quán)方法在路透社Reuters和20newsgroup中具有最佳精度,與原始TF-IDF加權(quán)方法相比,精度大大提高。雖然TFC和LTC在像樸素貝葉斯這樣的分類器上比TF-IDF有更好的結(jié)果,但它不像TF-IDF那樣有意義,所以它們通常不用于計(jì)算加權(quán)。新方法大大提高精度的原因是TF-IDF只強(qiáng)調(diào)區(qū)分不同類的能力,但低估了表示類本身的能力。在一個(gè)類的文檔中出現(xiàn)的術(shù)語(yǔ)越多,該術(shù)語(yǔ)代表該類的重要性就越大。從理論和實(shí)驗(yàn)中,可以看到這種改進(jìn)可以達(dá)到更好的準(zhǔn)確性。

5結(jié)論

文本分類是當(dāng)前信息檢索的熱門(mén)研究課題,是數(shù)據(jù)挖掘和信息檢索的重要分支。如何提高分類準(zhǔn)確率是文本分類中的一個(gè)重要課題,為了解決這個(gè)問(wèn)題,已經(jīng)做了大量的研究來(lái)尋找能夠提高準(zhǔn)確性的新分類器,而本文試圖通過(guò)提出改進(jìn)TF-IDF加權(quán)方法來(lái)提高準(zhǔn)確性。從實(shí)驗(yàn)中可以看出這種改進(jìn)顯著提高了準(zhǔn)確性,因此認(rèn)為這種改進(jìn)是可以接受的。

主站蜘蛛池模板: 日本尹人综合香蕉在线观看 | 免费看a毛片| av在线手机播放| 国产精品爽爽va在线无码观看| 永久免费无码日韩视频| 亚洲国产综合精品一区| 亚洲福利网址| 国产黄色爱视频| 午夜福利亚洲精品| 日韩av无码精品专区| 黄色网站不卡无码| 免费无遮挡AV| 真实国产乱子伦视频| 找国产毛片看| 色综合天天综合| 日本成人不卡视频| 亚洲欧美日韩另类| 一本大道无码日韩精品影视| 狠狠色香婷婷久久亚洲精品| 一级毛片不卡片免费观看| 国产精品手机在线观看你懂的| www.国产福利| 精品国产成人三级在线观看| 精品一区二区三区无码视频无码| 色成人亚洲| 黄色在线网| 在线a视频免费观看| 国产人在线成免费视频| 免费国产黄线在线观看| 午夜激情福利视频| 亚洲国产欧美国产综合久久 | 久久久久人妻一区精品色奶水 | 国产大片喷水在线在线视频| 国产性精品| 欧美在线观看不卡| 五月婷婷伊人网| 久久中文无码精品| 午夜影院a级片| 精品国产自| 一级香蕉视频在线观看| 色网在线视频| 国产69精品久久久久孕妇大杂乱| 日本一区二区三区精品国产| 欧美 亚洲 日韩 国产| 波多野结衣一区二区三区AV| 精品日韩亚洲欧美高清a| 国产欧美日韩免费| 欧美三级自拍| 久久久久国产一区二区| 国产成人你懂的在线观看| 毛片网站免费在线观看| 国产精品无码一二三视频| 在线看片免费人成视久网下载| a在线亚洲男人的天堂试看| 最新国产麻豆aⅴ精品无| 亚洲国产成人久久77| 色综合婷婷| 亚洲不卡av中文在线| 久久无码高潮喷水| 美女免费黄网站| 色悠久久久| 无码区日韩专区免费系列| 91亚洲国产视频| 伊人久热这里只有精品视频99| 欧美中文一区| 野花国产精品入口| 毛片卡一卡二| 日本妇乱子伦视频| 久久大香伊蕉在人线观看热2| 亚洲熟女中文字幕男人总站| 九九视频免费在线观看| 欧美成人看片一区二区三区| 青青操国产| 亚洲精品无码抽插日韩| 国产福利免费在线观看| 97色婷婷成人综合在线观看| 久久久久国产一级毛片高清板| 青青青国产在线播放| 国产办公室秘书无码精品| 天天综合色天天综合网| 日本AⅤ精品一区二区三区日| 欧美日韩久久综合|