999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不平衡數(shù)據(jù)集的文本分類技術(shù)

2009-04-29 00:00:00王成強(qiáng)
電腦知識(shí)與技術(shù) 2009年36期

摘要:文本自動(dòng)分類是信息檢索和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)和核心技術(shù),但是在實(shí)際應(yīng)用中,經(jīng)常會(huì)出現(xiàn)文本實(shí)例中一些類中歐冠的文本很多,而另一些類中的文本較少的情況,而這些應(yīng)用往往就是為了預(yù)測(cè)其中很少出現(xiàn)但很重要的文本,這就是所謂的文本分類不平衡問題。傳統(tǒng)方法對(duì)少數(shù)類的識(shí)別率低,如何有效的提高少數(shù)類的分類性能成為機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域亟待解決的問題。因此,該文針對(duì)提高不平衡數(shù)據(jù)集中的少數(shù)類文本的分類性能之一問題,從數(shù)據(jù)層面處理的角度對(duì)數(shù)據(jù)進(jìn)行重抽樣。使用隨機(jī)抽樣的方法以提高分類器在非平衡數(shù)據(jù)集上的泛化性能。

關(guān)鍵詞:不平衡數(shù)據(jù)集;文本;分類

中圖分類號(hào):TB565文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)36-10571-02

Unbalanced Data Set Based on the Text Classification Techniques

WANG Cheng-qiang

(Computer Science and Information Engineering, Guizhou University, Guiyang 550025, China)

Abstract: Automatic text categorization, information retrieval and data mining areas of research focus and core technology, but in practice, often the text will appear in a number of instances of the class a lot of text in the Champions League, while others with less text in the class of , but these applications is to predict which are often rare but very important text, which is the so-called text classification imbalance. Traditional methods of identifying a small number of low class, how to effectively improve the classification performance of a small number of classes into the field of machine learning and pattern recognition problems to be solved. Therefore, this paper improve the unbalanced data set in a small number of classes, one of the text classification performance issues, from the perspective of the data handled at the level of data re-sampling. Using random sampling method to improve the classifier in the non-equilibrium generalization performance on data sets.

Key words: unbalanced data sets; text; classification

隨著信息技術(shù)的發(fā)展,人們可以獲得越來越多的數(shù)字信息。有研究報(bào)告指出,2006年全球每年制造、復(fù)制出的數(shù)字信息量共計(jì)1610億GB;而受“富媒體、用戶創(chuàng)建內(nèi)容及十幾億網(wǎng)名這三大因素的推動(dòng),到2010年,全球的數(shù)字信息量預(yù)計(jì)為9880億GB,從2006年至2010年,全球信息量增幅為6倍。

數(shù)學(xué)信息的泛濫將為信息管理帶來巨大的壓力。目前的數(shù)字信息資源一般有文字、聲音、圖片、視頻等多媒體資源構(gòu)成,而文本信息在數(shù)字信息中占有相當(dāng)大的比重,因而,對(duì)文本信息的分類處理成為信息管理中的重要的一環(huán)。

國(guó)內(nèi)外對(duì)于文本分類技術(shù)的研究已經(jīng)開展了較長(zhǎng)的時(shí)間,總體上來說,文本分類技術(shù)已經(jīng)有了較為完善的發(fā)展。但是,值得注意的是,在實(shí)際應(yīng)用中,文本分類中數(shù)據(jù)集的不平衡問題是一個(gè)普遍存在的問題。隨著機(jī)器學(xué)習(xí)、信息檢索從發(fā)展到成熟,數(shù)據(jù)集的不平衡或偏斜問題就成為了一個(gè)新的重要的問題。數(shù)據(jù)集的不平衡問題,即類別間樣本的數(shù)量可能存在書諒解的差距,這是導(dǎo)致分類效果不理想的一個(gè)重要因素。在數(shù)據(jù)不平衡的情況下,分類器很容易被大類淹沒而忽略小類。

針對(duì)不平衡數(shù)據(jù)集問題其自身的特點(diǎn),如何在不影響整體分類性能的基礎(chǔ)上,提高少數(shù)類文本的分類效果是解決不平衡數(shù)據(jù)集問題的基本要求。

1 數(shù)據(jù)不平衡問題

在文本分類的研究中,通常都假定用于訓(xùn)練的文本集合是平衡的,即不同類別間的文本數(shù)量大致相等。然而,在現(xiàn)實(shí)問題中對(duì)文本數(shù)據(jù)進(jìn)行處理時(shí)通常會(huì)發(fā)現(xiàn),某一類或幾類中的文本數(shù)量相對(duì)較少,而此類文本又相對(duì)重要,這就是所謂不平衡數(shù)據(jù)集問題,而這樣的數(shù)據(jù)集就被稱之為不平衡數(shù)據(jù)集。其中,文本數(shù)量多的類成為多數(shù)類,文本數(shù)量少的成為少數(shù)類。

不平衡數(shù)據(jù)集在實(shí)際生活中是普遍存在的。例如在對(duì)非法網(wǎng)頁(yè)的檢測(cè)中,正常網(wǎng)頁(yè)樣本數(shù)量遠(yuǎn)大于非法網(wǎng)頁(yè),即非法網(wǎng)頁(yè)屬于少數(shù)類。將合法網(wǎng)頁(yè)誤分為非法網(wǎng)頁(yè),要投入額外的人力和物理來對(duì)其進(jìn)行驗(yàn)證;但是,一旦將非法網(wǎng)頁(yè)誤分為合法網(wǎng)頁(yè),所帶來的經(jīng)濟(jì)損失,以及不良影響比上一種情況要大的多。而若使用傳統(tǒng)的分類方法對(duì)這樣的文本集合進(jìn)行分類,對(duì)少數(shù)類文本的識(shí)別效率并不理想。從上述網(wǎng)頁(yè)分類的例子我們可以看出,在這種文本數(shù)據(jù)分布不平衡的情況下,通常少數(shù)類文本的分類效率對(duì)系統(tǒng)來講恰是至關(guān)重要的。其被錯(cuò)誤分類所帶來的代價(jià)往往要比多數(shù)類樣本被錯(cuò)誤分類要高得多。若分類不當(dāng),當(dāng)為用戶帶來難以估量的損失。因此,在某些領(lǐng)域中,如何將少數(shù)類文本高效而準(zhǔn)確的識(shí)別出來成為了研究的重點(diǎn)。

常用的不平衡數(shù)據(jù)集分類方法一般可以分為兩類:基于數(shù)據(jù)層的分類和對(duì)已有分類器進(jìn)行改進(jìn)。基于數(shù)據(jù)層的分類方法是從給定的文本集入手,改變不平衡數(shù)據(jù)的分布,從而降低不同類別間文本數(shù)量的不平衡程度;而基于分類器算法的方法是針對(duì)數(shù)據(jù)集的特點(diǎn),對(duì)傳統(tǒng)的分類器進(jìn)行改進(jìn),從而達(dá)到一個(gè)比較好的分類效果。由于改進(jìn)的分類器往往只針對(duì)某些特定的數(shù)據(jù)集,其適用性較小,而相對(duì)于對(duì)數(shù)據(jù)集進(jìn)行的操作,對(duì)分類器改進(jìn)需要花費(fèi)更多的成本。

這里我們采用基于數(shù)據(jù)層的方法對(duì)不平衡數(shù)據(jù)進(jìn)行分類。其主要目的就是:通過這種數(shù)據(jù)處理,來減輕數(shù)據(jù)集的不平衡程度,從而提高少數(shù)類的分類性能?;跀?shù)據(jù)層德文分類主要是對(duì)數(shù)據(jù)集進(jìn)行處理,通常采用數(shù)據(jù)抽樣的方法。

2 不平衡數(shù)據(jù)集上的文本分類問題

針對(duì)不平衡數(shù)據(jù)集上文本分類技術(shù)的研究是模式識(shí)別領(lǐng)域中一個(gè)具有挑戰(zhàn)性的課題,其中少數(shù)類的分類性能的提高更令人們關(guān)注。本文提出了一種分層抽樣和過抽樣相結(jié)合的方法對(duì)訓(xùn)練文本集合進(jìn)行處理。為了減少少數(shù)類的分類性能,在進(jìn)行分類之前,對(duì)同一層上的文檔進(jìn)行改進(jìn)的過抽樣,增大其學(xué)習(xí)域,更好地提高分類器對(duì)少數(shù)類的分類性能,下面對(duì)該系統(tǒng)進(jìn)行簡(jiǎn)單的介紹。

2.1 系統(tǒng)的組成

本文研究的不平衡數(shù)據(jù)集上的文本分類系統(tǒng)的步驟可以分為兩大部分,即訓(xùn)練過程及測(cè)試過程。

訓(xùn)練過程:首先針對(duì)訓(xùn)練集進(jìn)行抽樣,形成相對(duì)“平衡“的文本集合,然后對(duì)這個(gè)新生成的訓(xùn)練文本進(jìn)行特征選擇,并生產(chǎn)文檔向量,構(gòu)建分類模型。最后進(jìn)入訓(xùn)練分類器的階段。

測(cè)試過程:將測(cè)試文本集向量化之后,使用在上一個(gè)過程中生成的分類器對(duì)向量化的文本集合進(jìn)行分類,最后對(duì)分類結(jié)果進(jìn)行評(píng)估。

從這個(gè)系統(tǒng)來看,在文本分類的過程中,主要是包括 以下幾個(gè)關(guān)鍵部分:

1) 訓(xùn)練集處理

由于訓(xùn)練文本集合的不平衡性,將對(duì)分類的結(jié)果產(chǎn)生一定的影響,因此先要對(duì)訓(xùn)練集合進(jìn)行預(yù)處理,之后再用處理過的文本集訓(xùn)練分類器。這里使用數(shù)據(jù)抽樣的方法來提高分離器在非平衡數(shù)據(jù)集上的泛化性能,產(chǎn)生新的少數(shù)類文本,使之與多數(shù)類中的文本數(shù)量達(dá)到一致,從而形成大體平衡的文本集。

2) 文本向量化

在系統(tǒng)中,分類器職能處理向量化的文本。首先應(yīng)對(duì)文本進(jìn)行分詞和詞性標(biāo)注。根據(jù)分詞字典對(duì)初始字串進(jìn)行全切分,找出最佳的切分路徑形成切分集,對(duì)最佳路徑中的詞串進(jìn)行標(biāo)注,之后通過詞頻和語(yǔ)義相似度計(jì)算,以互相關(guān)信息為基礎(chǔ),將文本向量化。

3) 特征提取

通過對(duì)大規(guī)模的語(yǔ)料庫(kù)的學(xué)習(xí),對(duì)訓(xùn)練文檔進(jìn)行詞條切分和詞頻統(tǒng)計(jì)并根據(jù)詞頻分布提取出代表文檔類的特征項(xiàng)集及形影權(quán)值生成特征向量表,得到類別特征,在后面的步驟中將利用其對(duì)測(cè)試結(jié)果進(jìn)行分類。其中,類別特征主要是指一些詞和短語(yǔ),這些詞和短語(yǔ)的選擇主要是對(duì)語(yǔ)義重要度和詞頻來決定的;分類模型集:將類別訓(xùn)練集,采用KNN和SVM算法的學(xué)習(xí)算法來進(jìn)行處理,就可以獲得分類模型。

4) 文本分類

在分類模塊中,通過輸入向量化過的文本信息和分類模型集,對(duì)給定的測(cè)試文本集進(jìn)行分類,得到集合中每個(gè)文本所屬的類別。需要說明的是,文本存在兼類屬于正?,F(xiàn)象,即一篇文章實(shí)際上可以屬于類別體系中的多個(gè)類別,但是,由于文本所采用的試驗(yàn)語(yǔ)料中的每篇文本只被標(biāo)識(shí)了一個(gè)類別,考慮到對(duì)分類結(jié)果進(jìn)行性能評(píng)價(jià)時(shí)的合理性,本系統(tǒng)中使用的分類器設(shè)計(jì)為單分類器,即文本最終只被制定為一個(gè)類別。

5) 分類評(píng)價(jià)算法測(cè)試

分類評(píng)價(jià)部分對(duì)分類性能進(jìn)行評(píng)價(jià),同時(shí)給出反饋信息進(jìn)行學(xué)習(xí),從而對(duì)分類特征進(jìn)行不斷的修正。計(jì)算分類結(jié)果準(zhǔn)確率數(shù)據(jù)以及分類測(cè)試結(jié)果的統(tǒng)計(jì)圖,并將分類結(jié)果返回給用戶,由用戶對(duì)分類結(jié)果進(jìn)行確認(rèn)或者修正,從而進(jìn)一步提高分類效率。

在文本分類中,由于中文文本的特殊性及分類過程,決定了特征提取和文本分類的中的分類器構(gòu)造將成為其中的關(guān)鍵步驟。

2.2 技術(shù)難點(diǎn)

文本分類技術(shù)隨飯發(fā)展較快,但是在實(shí)際應(yīng)用中,還存在一定的技術(shù)難點(diǎn),主要是以下幾個(gè)方面:

1) 與英文文本不同,對(duì)中文文本進(jìn)行分析的一個(gè)前提條件是對(duì)中文文本進(jìn)行分詞處理,這也是進(jìn)行中文信息處理的一個(gè)難點(diǎn)。

2) 在文本實(shí)例中一些類中的文本很多,而另一些類中文本較少的情況,而這些應(yīng)用往往就是為了預(yù)測(cè)其中很少出現(xiàn)但很重要的文本,當(dāng)出現(xiàn)這個(gè)文本中數(shù)據(jù)不平衡時(shí),小類問題的發(fā)呢類效果往往不盡如人意。

中文文本的上述特點(diǎn)使得對(duì)文本分類是一個(gè)復(fù)雜的技術(shù)過程,這里根據(jù)以上分類模型實(shí)現(xiàn)了一個(gè)文本自動(dòng)分類系統(tǒng)。

3 影響分類系統(tǒng)性能的因素

影響分類系統(tǒng)性能高低的有以下幾個(gè)因素:

3.1 類別體系的設(shè)置

類別體系在被認(rèn)為設(shè)定時(shí),可能會(huì)出現(xiàn)交叉現(xiàn)象,即各類文檔之間具有較多的重疊特征。對(duì)于具有高級(jí)思維能力和抽象能力的人類大腦來說區(qū)分重疊特征在不同語(yǔ)言環(huán)境下的不同語(yǔ)義比較容易,但是對(duì)于計(jì)算機(jī)這種只能對(duì)語(yǔ)言做淺層次理解(只能區(qū)分具體詞形差別而不能區(qū)分語(yǔ)義差別)的機(jī)器而言,區(qū)分高級(jí)抽象的事物就表現(xiàn)出困難。例如—地理位置與北京歷史發(fā)展這篇文章,該文章介紹了在北京歷史發(fā)展進(jìn)程中,人與自然界之間的關(guān)系。通過人工分類,很容易可以將其歸到歷史類中。但是由于文中多次出現(xiàn)屬于農(nóng)業(yè)類別的特征詞,如“自然環(huán)境”,“游牧”、“農(nóng)耕”、“農(nóng)產(chǎn)品”等,因此在使用系統(tǒng)進(jìn)行分類后,該文檔被判定為農(nóng)業(yè)類??梢钥闯?,對(duì)于特征不夠明顯的文章,即使系統(tǒng)采用的分類算法性能再先進(jìn),計(jì)算機(jī)也是很難進(jìn)行正確識(shí)別的。因此,結(jié)合計(jì)算機(jī)目前的智力水平,為了能夠得到較高的分類性能,在設(shè)置類別體系時(shí),應(yīng)盡量使用類別間的差異大,盡量避免類別交叉現(xiàn)象的出現(xiàn),從而保證較高的分類性能。

3.2 訓(xùn)練集的平衡程度

從上邊的分類試驗(yàn)數(shù)據(jù)可以看出,隨著訓(xùn)練集平衡程度的增加,分類系統(tǒng)的性能也隨著增高。這是因?yàn)?,?xùn)練集規(guī)模越大,獲取到的文本特征就越全面,構(gòu)造的向量模型越多,越能夠很好的反映該類文本的特征,訓(xùn)練集的規(guī)模過小,文本特征不能很好的對(duì)類別進(jìn)行表示,則會(huì)應(yīng)系那個(gè)到分類系統(tǒng)的性能。當(dāng)然,訓(xùn)練文本集過大,也會(huì)帶來訓(xùn)練時(shí)間過長(zhǎng),耗費(fèi)存儲(chǔ)空間過大的問題,因此在訓(xùn)練文本的選取上盡量選擇各個(gè)文本類別中文本數(shù)量相差不大的數(shù)據(jù)進(jìn)行訓(xùn)練,或者對(duì)小類文本數(shù)據(jù)集進(jìn)行抽樣擴(kuò)充,從而達(dá)到平衡,以提高分類效率。

4 結(jié)束語(yǔ)

在網(wǎng)絡(luò)技術(shù)高速發(fā)展的今天,文本分類技術(shù)還將與圖像識(shí)別、語(yǔ)音識(shí)別融合,如基于字幕的視頻分類、視頻檢索等。這就進(jìn)一步要求文本分類技術(shù)與文本處理、降噪、提高分類精度等方面的技術(shù)相結(jié)合,這些方面都需要做進(jìn)一步的探討和研究。

參考文獻(xiàn):

[1] 陸玉昌,普明宇,李凡.向量空間法中詞條權(quán)重函數(shù)的分析和構(gòu)造[J].計(jì)算機(jī)研究與發(fā)展,2002,39(10):1205-1210.

[2] 周茜,趙明生.中文文本分類中的特征選擇研究[J].中文信息學(xué)報(bào),2004,18(4):18-24.

[3] 張啟蕊,張凌,董守斌等.訓(xùn)練集類別分布對(duì)文本分類的影響[J].清華大學(xué)學(xué)報(bào),2005,45(1):1803-1806.

[4] 李正欣,趙林度.基于SMOTEBoost的非均衡數(shù)據(jù)集SVM分類器[J].系統(tǒng)工程,2008,25(6):117-120.

[5] 徐燕,李錦濤.基于區(qū)分類別能力的高性能特征選取方法[J].軟件學(xué)報(bào),2008,6(19):82-89.

主站蜘蛛池模板: 第一页亚洲| 色婷婷综合激情视频免费看 | 国产美女精品在线| 婷婷开心中文字幕| 99免费在线观看视频| 日本亚洲欧美在线| 黄色三级毛片网站| 欧美在线导航| 国产哺乳奶水91在线播放| 伊人网址在线| 久久天天躁夜夜躁狠狠| 女人18毛片久久| 无码人中文字幕| AV无码国产在线看岛国岛| 五月婷婷欧美| 国产福利一区在线| 国产丰满大乳无码免费播放| 亚洲免费三区| 人人澡人人爽欧美一区| 国产精品手机在线观看你懂的| 亚洲成人www| 久久香蕉国产线看观看式| 色婷婷天天综合在线| 伊人久久大香线蕉成人综合网| 国产在线视频二区| 成人免费视频一区| 精品福利视频网| 久久精品日日躁夜夜躁欧美| 她的性爱视频| 在线观看热码亚洲av每日更新| 日韩在线中文| 国产视频大全| 国产玖玖视频| 蜜桃视频一区二区| 亚洲中文字幕av无码区| 国产黑丝一区| 欧美日韩在线观看一区二区三区| 99re热精品视频国产免费| 第九色区aⅴ天堂久久香| 国产福利免费在线观看| 毛片在线区| 一区二区日韩国产精久久| 久久综合色88| 亚洲欧美另类色图| 亚洲黄色视频在线观看一区| av在线人妻熟妇| 中文字幕有乳无码| 亚洲国产日韩在线观看| www.国产福利| 国产成人永久免费视频| 91激情视频| 日本欧美视频在线观看| 亚洲精品无码久久毛片波多野吉| 国产成人精品综合| 国产区成人精品视频| 91综合色区亚洲熟妇p| 网久久综合| 久久精品国产免费观看频道| 亚洲欧美日韩中文字幕在线| 99精品热视频这里只有精品7| 5555国产在线观看| 亚洲第一视频区| 波多野结衣久久精品| 久久五月视频| 国产chinese男男gay视频网| 思思热在线视频精品| 黄色一及毛片| 91 九色视频丝袜| 亚洲日韩Av中文字幕无码| 91久久国产综合精品女同我| 九九线精品视频在线观看| 国产白浆视频| 久久亚洲日本不卡一区二区| 色婷婷在线播放| 国产无码在线调教| 亚洲香蕉在线| 久久性视频| 无码免费视频| 欧美伦理一区| 欧美有码在线| AV网站中文| 欧美中出一区二区|