999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用AdaBooster算法實(shí)現(xiàn)中文文本分類(lèi)問(wèn)題

2016-12-02 06:43:03火善棟
現(xiàn)代計(jì)算機(jī) 2016年30期
關(guān)鍵詞:分類(lèi)文本

火善棟

(重慶三峽學(xué)院,重慶 404000)

用AdaBooster算法實(shí)現(xiàn)中文文本分類(lèi)問(wèn)題

火善棟

(重慶三峽學(xué)院,重慶 404000)

文本分類(lèi)是文本挖掘的一個(gè)重要內(nèi)容,在很多方面都有著廣泛的應(yīng)用。為了實(shí)現(xiàn)中文文本分類(lèi)問(wèn)題,先采用分詞技術(shù)和特征詞統(tǒng)計(jì)相關(guān)方法得到每類(lèi)訓(xùn)練文檔的特征向量中心(質(zhì)心),通過(guò)比較測(cè)試文檔到質(zhì)心的距離來(lái)實(shí)現(xiàn)中文文檔分類(lèi),然后采用AdaBooster算法通過(guò)不斷調(diào)整每類(lèi)訓(xùn)練文檔的質(zhì)心構(gòu)建一個(gè)強(qiáng)分類(lèi)器。實(shí)驗(yàn)表明:采用AdaBooster算法進(jìn)行中文文本分類(lèi)時(shí),算法簡(jiǎn)單、分類(lèi)速度快、正確率高、占用內(nèi)存小而且可以根據(jù)訓(xùn)練文檔的不同實(shí)時(shí)地調(diào)整迭代次數(shù)。

中文文本分類(lèi);AdaBooster算法;中文分詞;文檔特征向量

0 引言

文本分類(lèi)是指按照預(yù)先定義的主題類(lèi)別,為文檔集合中的每個(gè)文檔確定一個(gè)類(lèi)別,文本分類(lèi)是文本挖掘的一個(gè)重要內(nèi)容。目前,在國(guó)內(nèi)已經(jīng)對(duì)中文文本分類(lèi)進(jìn)行了廣泛的研究,并在信息檢索、Web文檔自動(dòng)分類(lèi)、數(shù)字圖書(shū)館、自動(dòng)文摘、分類(lèi)新聞組、文本過(guò)濾、單詞語(yǔ)義辨析以及文檔的組織和管理等多個(gè)領(lǐng)域得到了初步的應(yīng)用。

AdaBooster[1]算法是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),然后把這些弱分類(lèi)器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器(強(qiáng)分類(lèi)器)。其算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類(lèi)是否正確,以及上次的總體分類(lèi)的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類(lèi)器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類(lèi)器最后融合起來(lái),作為最后的決策分類(lèi)器。

為了實(shí)現(xiàn)中文文本分類(lèi)問(wèn)題,本文先采用分詞技術(shù)和特征詞統(tǒng)計(jì)等相關(guān)方法得到每個(gè)訓(xùn)練文檔的特征向量和每類(lèi)訓(xùn)練文檔的特征向量中心(質(zhì)心),通過(guò)比較訓(xùn)練文檔到到各個(gè)類(lèi)別質(zhì)心的距離來(lái)實(shí)現(xiàn)中文文檔分類(lèi)的目的,為了表達(dá)的簡(jiǎn)潔性,本文將這種方法稱(chēng)之為“質(zhì)心匹配算法”,然后采用AdaBooster算法通過(guò)不斷調(diào)整每篇訓(xùn)練文檔的權(quán)重進(jìn)而調(diào)整每類(lèi)訓(xùn)練文檔的質(zhì)心來(lái)達(dá)到對(duì)中文文檔進(jìn)行分類(lèi)的目的,實(shí)驗(yàn)表明:該分類(lèi)算法具有分類(lèi)速度快、正確率高和占用內(nèi)存小的特點(diǎn)。

1 AdaBooster算法實(shí)現(xiàn)中文分類(lèi)流程框圖

用AdaBooster算法實(shí)現(xiàn)中文文本分類(lèi),其過(guò)程如圖1所示:該方法主要包括學(xué)習(xí)和分類(lèi)兩大部分,涉及到的一些主要技術(shù)包括中文詞典構(gòu)建和查找算法、中文文檔分詞算法、TFIDF特征向量權(quán)值計(jì)算算法和AdaBooster算法。

2 “質(zhì)心匹配算法”的實(shí)現(xiàn)過(guò)程

(1)分詞:采用最大逆向分詞算法對(duì)訓(xùn)練文檔集中的每一個(gè)文檔進(jìn)行分詞,并根據(jù)停用詞表去掉一些常用的停用詞,然后通過(guò)分詞得到所有訓(xùn)練文檔集的特征詞表Dt(每個(gè)特征詞條都不相同,t為特征詞的序號(hào))和每個(gè)文檔的特征詞空間Dk(每個(gè)特征詞可以有多

個(gè),k為文檔編號(hào));

(2)計(jì)算訓(xùn)練文檔的特征向量:根據(jù)文檔中每個(gè)特征詞的詞項(xiàng)頻率tf[3](特征詞在相應(yīng)文檔中出現(xiàn)的次數(shù))和文檔頻率df[3](所有訓(xùn)練集文檔中包含該特征詞的文檔數(shù),通過(guò)公式為wtf×itf計(jì)算出每個(gè)訓(xùn)練文檔的特征向量,其中itf為逆文檔頻率,由公式itf=log(N/df)計(jì)算得出;wft為修正后的詞項(xiàng)頻率;采用公式(1)計(jì)算得到:

(3)計(jì)算訓(xùn)練文檔的類(lèi)向量中心:通過(guò)訓(xùn)練文檔的特征向量計(jì)算出每類(lèi)文檔的特征向量中心最后通過(guò)分配給每個(gè)訓(xùn)練文檔的權(quán)重Di(d1,d2,d3,…,dn)得到不同的特征向量中心Cmi,m為訓(xùn)練文檔的類(lèi)別編號(hào),vn為特征詞的權(quán)值,n為特征詞的序號(hào)。

圖1 AdaBooster算法實(shí)現(xiàn)中文文本分類(lèi)流程框圖

(4)分類(lèi):通過(guò)比較測(cè)試文檔的特征向量和不同類(lèi)文檔特征文檔向量質(zhì)心的相似度(余弦?jiàn)A角)對(duì)文檔進(jìn)行分類(lèi)。

3 AdaBooster算法實(shí)現(xiàn)中文文本分類(lèi),其過(guò)程如下

(1)得到訓(xùn)練集文檔的特征向量Vk(vk1,vk1,vk3…vkn,ykm)。該特征向量是一個(gè)二維空間向量,k為文檔編號(hào)、n為訓(xùn)練文檔特征詞的個(gè)數(shù),vki為特征詞對(duì)應(yīng)的權(quán)值,ym為文檔類(lèi)別編號(hào),m為類(lèi)別個(gè)數(shù);

(3)統(tǒng)計(jì)訓(xùn)練文檔的分類(lèi)錯(cuò)誤率error:求classEsti中最小的cim所對(duì)應(yīng)的文檔分類(lèi)編號(hào)k,如果k=yim則分類(lèi)正確,否則則分類(lèi)錯(cuò)誤;錯(cuò)誤率計(jì)算公式為:ε=Σ Dj,j為分類(lèi)錯(cuò)誤文檔編號(hào);

(7)更新累計(jì)類(lèi)別估計(jì)值:對(duì)每一篇訓(xùn)練文檔的分類(lèi)結(jié)果進(jìn)行累計(jì)求和:aggrClassEsti+=α×classEsti,aggr-ClassEsti為一個(gè)二維向量,其數(shù)據(jù)結(jié)構(gòu)與classEsti相同;

(8)統(tǒng)計(jì)累計(jì)分類(lèi)錯(cuò)誤率:通過(guò)aggrClassEsti判斷每篇訓(xùn)練文檔的訓(xùn)練結(jié)果(判斷過(guò)程與classEsti相同)從而統(tǒng)計(jì)出所有訓(xùn)練文檔的錯(cuò)誤率aggrErrorRate,如果aggrErrorRate=0或者迭代次數(shù)t小于訓(xùn)練給定的訓(xùn)練次數(shù)則返回到步驟(3)繼續(xù)循環(huán)執(zhí)行,否則退出循環(huán),訓(xùn)練結(jié)束。

4 實(shí)驗(yàn)和測(cè)試

本實(shí)驗(yàn)共收集了政治(246篇)、經(jīng)濟(jì)(238篇)、醫(yī)藥(204篇)、體育()217篇、藝術(shù)(248篇)、教育(220篇)、交通(214篇)、軍事(249篇)和環(huán)境(201篇)9類(lèi)共2038篇文檔作為訓(xùn)練文檔進(jìn)行了訓(xùn)練。由于實(shí)驗(yàn)沒(méi)有對(duì)特征詞做降維處理,所以其訓(xùn)練文檔的的維數(shù)比

較大為69664,在形成弱分類(lèi)器時(shí)時(shí)間比較長(zhǎng),需要占用較大的內(nèi)存空間。本文測(cè)試采用Java進(jìn)行了實(shí)現(xiàn),實(shí)驗(yàn)電腦的基本配置為AMD 4核,內(nèi)存大小為4G;Java虛擬機(jī)內(nèi)存大小為1.6G。為了便于測(cè)試和實(shí)驗(yàn)參數(shù)的調(diào)整,本實(shí)驗(yàn)分為三個(gè)階段來(lái)完成。

(1)訓(xùn)練弱分類(lèi)器:采用“質(zhì)心匹配算法”對(duì)訓(xùn)練文檔進(jìn)行訓(xùn)練形成弱分類(lèi)器,保存訓(xùn)練結(jié)果數(shù)據(jù)(學(xué)習(xí)成果),其數(shù)據(jù)包括每一個(gè)訓(xùn)練文檔的文檔特征向量、所有訓(xùn)練文檔的特征詞表、每個(gè)特征詞的反文檔頻率、所有訓(xùn)練文檔的總篇數(shù)和每類(lèi)訓(xùn)練文檔的中心向量。該階段實(shí)驗(yàn)共運(yùn)行了大約13分鐘,數(shù)據(jù)文件的大小為544M。

(2)訓(xùn)練強(qiáng)分類(lèi)器:載人1階段的實(shí)驗(yàn)數(shù)據(jù)采用AdaBooster算法,通過(guò)訓(xùn)練文檔的分類(lèi)錯(cuò)誤率error、alpha值不斷地調(diào)整每一個(gè)訓(xùn)練樣本的權(quán)重Di(i為文檔編號(hào)),通過(guò)Di調(diào)用“質(zhì)心匹配算法”,并保存每一個(gè)弱分類(lèi)器的實(shí)驗(yàn)數(shù)據(jù)(每類(lèi)訓(xùn)練文檔的質(zhì)心和對(duì)應(yīng)的alpha值),當(dāng)?shù)螖?shù)滿足一個(gè)給定的值或者每個(gè)弱分類(lèi)器的分類(lèi)累加錯(cuò)誤率為0時(shí)結(jié)束第2階段的訓(xùn)練。本實(shí)驗(yàn)的訓(xùn)練結(jié)果如表1所示,從表1中可以看出,隨著迭代次數(shù)的增加,累計(jì)分類(lèi)錯(cuò)誤文檔的篇數(shù)先減少然后又稍微變大,最后趨向穩(wěn)定,其總的情況是:(93,12,10,7,6,4,5,6,6,6,……),之所以會(huì)出現(xiàn)這種情況,相關(guān)資料稱(chēng)之為過(guò)擬合現(xiàn)象[1],為了保證本實(shí)驗(yàn)的正確率,本實(shí)驗(yàn)將迭代次數(shù)設(shè)置為6,也就是說(shuō)當(dāng)訓(xùn)練文檔累計(jì)分類(lèi)錯(cuò)誤文檔篇數(shù)為4時(shí)結(jié)束2階段的訓(xùn)練,保存訓(xùn)練結(jié)果。本階段需要保存的訓(xùn)練結(jié)果數(shù)據(jù)(學(xué)習(xí)成果)為:每個(gè)弱分類(lèi)器的參數(shù)(每類(lèi)訓(xùn)練文檔的向量中心和對(duì)應(yīng)的alpha值)、所有訓(xùn)練文檔的特征詞表、每個(gè)特征詞的反文檔頻率IDF和總的訓(xùn)練文檔的篇數(shù)。本階段運(yùn)行時(shí)間大約為1分鐘,實(shí)驗(yàn)結(jié)果數(shù)據(jù)文件大小為:15.3M。說(shuō)明:本階段的數(shù)據(jù)為分類(lèi)器的最終學(xué)習(xí)成果。

對(duì)分類(lèi)算法進(jìn)行測(cè)試:載人2階段的各個(gè)弱分類(lèi)器(每個(gè)弱分類(lèi)器對(duì)應(yīng)于不同的文檔類(lèi)型質(zhì)心)和對(duì)應(yīng)的alpha值對(duì)測(cè)試文檔的測(cè)試結(jié)果進(jìn)行加權(quán)求和從而得到最后的分類(lèi)結(jié)果,其實(shí)驗(yàn)結(jié)果如表2所示:

表1 AdaBooster算法訓(xùn)練結(jié)果表

表2 “質(zhì)心匹配算法”和AdaBooster算法測(cè)試結(jié)果對(duì)照表

實(shí)驗(yàn)說(shuō)明:本實(shí)驗(yàn)的訓(xùn)練文檔和測(cè)試文檔均從網(wǎng)上下載,算法的實(shí)驗(yàn)效果和測(cè)試文檔的數(shù)目無(wú)關(guān),之所以列出兩組實(shí)驗(yàn)數(shù)據(jù)是由于開(kāi)始使用的測(cè)試數(shù)據(jù)比較少,感覺(jué)AdaBooster算法沒(méi)有太大的優(yōu)勢(shì),后來(lái)才加大了測(cè)試文檔的數(shù)目。

5 結(jié)語(yǔ)

通過(guò)本實(shí)驗(yàn)可以看出:由“質(zhì)心匹配算法”所構(gòu)建的弱分類(lèi)器其正確率還是比較高的,但AdaBooster算法分類(lèi)效果要明顯高于單一的“質(zhì)心匹配算法”。由“質(zhì)心匹配算法”所構(gòu)建的AdaBooster中文文本強(qiáng)分類(lèi)器,其算法簡(jiǎn)單、分類(lèi)速度快、準(zhǔn)確率高占用內(nèi)存小而且可以根據(jù)訓(xùn)練文檔的不同實(shí)時(shí)地調(diào)整AdaBooster算法的迭代次數(shù)。為了進(jìn)一步的提高AdaBooster算法在中文文本中的性能,下一步的主要工作是:(1)優(yōu)化分詞算法;(2)優(yōu)化特征向量的提取和降低特征向量的長(zhǎng)度;(3)改善AdaBooster算法在“非均衡”[1]訓(xùn)練文本中的分類(lèi)效果。

[1](美)Peter Harrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn).李?lèi)偅铢i,曲亞?wèn)|,王斌譯.人民郵電出版社,2013,6(第一版).

[2](美)George E Luger.人工智能復(fù)雜問(wèn)題求解的結(jié)果和策略.郭茂祖等譯.機(jī)械工業(yè)出版社,2010(第一版).

[3](美)Christopher D.Manning Prabhakar Raghavan,(德)Hinrich Schütze.信息檢索導(dǎo)論.王斌譯.人民郵電出版社,2010,10(第一版).

[4]高一凡.《數(shù)據(jù)結(jié)構(gòu)》算法實(shí)現(xiàn)及其解析.西安電子科技大學(xué)出版社,2002,10(第一版).

[5]程杰.大話數(shù)據(jù)結(jié)構(gòu).清華大學(xué)出版社,2011,6(第一版).

[6]葉核亞.Java程序設(shè)計(jì)實(shí)用教程.電子工業(yè)出版社,2014,1(第二版).

Using AdaBooster Algorithm to Achieve Chinese Text Categorization

HUO Shan-dong

(Chongqing Three Gorges University,Wanzhou 404000)

Text classification is an important element of text mining,and in many ways have a wide range of applications.In order to achieve the Chinese text classification problem,uses word segmentation and feature words statistical correlations to obtain eigenvector centrality of each type of training documentation(centroid),to achieve the Chinese document classification by comparing the test documentation from the centroid,then uses AdaBooster algorithm constantly to adjust the centroid of each type of training documents to build a strong classifier.Experiments show that:AdaBooster Chinese text classification algorithm,the algorithm is simple,fast classification correct rate,small memory and can be adjusted in real time depending on the number of iterations of training documents.

Chinese Text Classification;AdaBooster Algorithm;Chinese Word Segmentation;Document Feature Vector

1007-1423(2016)30-0003-04

10.3969/j.issn.1007-1423.2016.30.001

火善棟(1974-),男,湖北孝感人,碩士,講師,研究方向?yàn)橹悄苄畔⑾到y(tǒng)

2016-08-09

2016-10-18

猜你喜歡
分類(lèi)文本
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類(lèi)討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 九色国产在线| 欧美午夜网| 国产精品私拍99pans大尺度 | 亚洲福利片无码最新在线播放| 亚洲婷婷在线视频| 亚洲国语自产一区第二页| 欧美国产精品不卡在线观看| 99re精彩视频| 2019年国产精品自拍不卡| 极品性荡少妇一区二区色欲| 五月天香蕉视频国产亚| 国产主播福利在线观看| 91精品最新国内在线播放| 国内精品91| 国产成人精品高清在线| 亚洲第一页在线观看| 97青青青国产在线播放| 狠狠色成人综合首页| 亚洲成人播放| 国产一级小视频| 好吊妞欧美视频免费| 国产午夜不卡| 波多野结衣无码AV在线| 日韩无码白| 久久精品亚洲中文字幕乱码| 国产亚洲精品自在线| 91成人在线免费视频| 亚洲国产精品一区二区第一页免| 国产一区在线观看无码| 高清色本在线www| 亚洲欧美在线综合一区二区三区| 日本在线免费网站| 欧美一级大片在线观看| 国产无码精品在线| 国产高清国内精品福利| 波多野结衣视频网站| 中文国产成人久久精品小说| 亚洲综合欧美在线一区在线播放| 久久99精品久久久久久不卡| 亚洲av无码片一区二区三区| 91精品aⅴ无码中文字字幕蜜桃| 亚洲侵犯无码网址在线观看| 萌白酱国产一区二区| 免费人欧美成又黄又爽的视频| 亚洲狠狠婷婷综合久久久久| 大陆国产精品视频| 国产91视频免费| 国内精品小视频福利网址| 欧美一级特黄aaaaaa在线看片| 一区二区在线视频免费观看| 亚洲成人高清无码| 国产欧美精品一区aⅴ影院| 中文字幕中文字字幕码一二区| 久久精品欧美一区二区| 欧美性精品不卡在线观看| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲成a人片| www.99在线观看| 999国内精品视频免费| 激情无码视频在线看| 国内毛片视频| 毛片免费观看视频| 99激情网| 国产精品内射视频| 国产喷水视频| 亚洲国产日韩欧美在线| 欧美成人区| 久久综合九九亚洲一区| 国产丝袜无码精品| 久久伊人久久亚洲综合| 亚洲天堂日本| 国产精品香蕉| 狠狠色丁婷婷综合久久| 97se亚洲综合| 亚洲无码电影| 久久毛片网| 中国国产A一级毛片| 高清无码不卡视频| 67194在线午夜亚洲| 日日碰狠狠添天天爽| 四虎影视8848永久精品| 免费a在线观看播放|