999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征貢獻度的特征選擇方法在文本分類中應用

2011-02-08 09:39:24孟佳娜林鴻飛李彥鵬
大連理工大學學報 2011年4期
關鍵詞:分類特征文本

孟佳娜, 林鴻飛, 李彥鵬

(1.大連理工大學計算機科學與工程系,遼寧大連 116024;2.大連民族學院理學院,遼寧大連 116600)

0 引 言

文本分類是信息檢索與數據挖掘領域的研究熱點問題,其核心任務為根據給定的訓練數據,構造高性能的分類器,實現對新文本的自動分類.在實際應用中,根據預定義類別的數量不同,分類系統可分為兩類分類器和多類分類器兩種.從文本所屬類別的個數來看,文本分類技術又可以分為單標簽和多標簽兩種.

文本分類的主要算法包括樸素貝葉斯方法[1、2]、KNN[3]、最大熵方法[4]、神經網絡[5]、支持向量機[6]方法等.最常用的文本特征表示模型是向量空間模型(vector space model,VSM),這種方法將分類文檔中出現的全部詞條作為特征,將分類空間視為一組正交詞條向量所張成的向量空間,原始空間的維數十分巨大,因此,找到一種有效的特征選擇方法顯得至關重要.文本分類中常用的特征選擇方法有文檔頻率(document frequency,DF)[7]、互信息(mutual information,MI)[7]、χ2統計(chi-square statistic,CHI)[7]及幾率比(odds ratio,OR)[8]等.文獻[7]比較了一些常用的特征選擇方法,并指出χ2統計和信息增益方法是最有效的,其次是文檔頻率和互信息.文獻[8]提出了幾率比的特征選擇方法,僅使用了多分類的樸素貝葉斯分類器在reuters-21578語料集上進行了實驗,并與其他方法進行了比較,同時提出該方法是效果最好的特征選擇方法.人們利用這些特征評價函數從不同的知識角度對特征項與文本之間的相關程度進行了研究[9、10],文獻[9]使用SVM分類器分析了不同特征選擇方法的效果,并提出了一種新的特征選擇方法BNS,該方法在一些特定的情況下分類結果優于常用的方法.文獻[10]給出了一組特征選擇函數需滿足的基本約束條件,并基于該約束條件提出了一個構造高性能特征選擇方法的通用方法.

上述方法從不同的角度改進了特征選擇方法,提高了分類效果,但忽略了特征詞在各個類中的分布情況,而特征詞在各個類的分布情況會反映特征對區分每個類的貢獻.本文提出基于特征詞在各個類的分布情況的統計信息,即特征貢獻度的一種特征選擇方法,這種方法通過計算特征的貢獻度值對特征進行選擇,傾向于選擇出在某一類文檔中頻繁出現同時在其他類中出現次數少的特征,認為這種特征能夠為文本分類提供更有價值的信息.

1 基于特征貢獻度(FCD)的特征選擇方法

1.1 FCD特征選擇方法

為了選擇出對分類貢獻度大的特征,本文首先用下面的公式計算每個特征的貢獻度值:

特征t的最終的FCD值計算公式定義為

由上式計算的FCD值越大,說明特征對于某一類區別于其他類的區分貢獻程度越大,對于分類的指導意義越大;該值越小,說明其對于類別區分的貢獻程度越弱,對于分類的指導性越小.本文算法在提取特征時,是按FCD值從大到小的次序依次提取,因此FCD值越高的特征將有更大的機會被選擇.

綜上所述,本文考慮到特征詞在各個類別中的分布情況不同,而特征在各個類的分布情況的統計信息對分類具有指導意義,從而提出了基于特征貢獻度的一種特征選擇方法,這種方法通過計算特征的貢獻度值對特征進行選擇,而特征貢獻度值能夠很好地反映出類別分布情況的統計信息.該方法傾向于選擇出在某一類文檔中出現次數多同時在其他類中出現次數少的特征,認為這種特征能夠為文本分類提供更有價值的信息.

1.2 舉 例

為說明本文方法進行特征選擇的具體情況,下面舉一個例子進行說明.表1列出了在一個簡單的文本語料集中特征的FCD值比較.其中,第1列表示語料集中出現的幾個特征,第2、3、4列分別表示該特征在三類文檔中出現的文檔數,第5列為特征在數據集中出現的總文檔數,最后一列為特征的FCD值.對于特征“corn”來說,它在所有文檔中只在corn類中出現過,此時,FCD(corn,corn)=(50-0)/(50+0)=1,同時,FCD(corn,{interest,trade})=(0-50)/(0+50)=-1,所以FCD(corn)=max{1,-1,-1}=1;對于特征“engineer”來說,它在所有文檔中的每一類中出現的次數相同,FCD(engineer,{corn,interest,trade})=(20-40)/(20+40)=-0.33,所以FCD(engineer)=-0.33;最后,考慮特征“database”,FCD(database,corn)=-30/40=-0.75,FCD(database,interest)=10/40=0.25,FCD(database,trade)=-20/40=-0.5,所以FCD(database)=0.25.

從以上例子可以看出,特征“corn”的FCD值最高,此特征對于類別區分的貢獻度最大;特征“engineer”的FCD值最低,此特征對于類別區分的貢獻度最小.本文方法正是依據選擇那些對于分類貢獻度大的特征來達到提高分類效果的目的的.

表1 在一個簡單的語料集上特征的FCD值比較Tab.1 Comparison between features FCD value in a simple corpus

2 實驗結果

本文選擇支持向量機(SVM)算法作為分類器,SVM是Vapnik提出的一種在缺乏先驗知識的條件下,以最小化結構風險為目標,對有限樣本進行學習的統計學習方法.Joachims于1998年將其引入自動文本分類研究領域,取得了非常理想的文本分類效果[11、12].為了說明本文方法的有效性,將其和一些常用的特征選擇方法進行了比較.主要包括χ2統計法、文檔頻率、幾率比及互信息選擇方法,實驗對比結果在后文給出.

2.1 語料集

實驗中使用了20Newsgroups[13]和reuters-21578[11]兩個語料集.20Newsgroups語料集是由互聯網用戶在Usenet上張貼的19 997條消息組成的.這些消息分布在20個不同的新聞組中,每個新聞組對應一個文本類別.實驗中使用了其20news-bydate-matlab語料集,該語料集詳細的數據統計見表2.取其中的10個類別作為實驗語料集,5 633篇文檔作為訓練集,3 742篇文檔作為測試集.實驗所采用的第2個語料集是reuters-21578,使用由David Lewis搜集的Mod Apte子集,包含reuters-21578最大的10個類,分別是acq、corn、crude、earn、grain、interest、money-fx、ship、trade、wheat.實驗中隨機選擇訓練文檔7 193篇,測試文檔2 787篇.訓練集中類的分布是不均衡的,最大類有文檔2 877篇,最小類只有181篇.

表2 20Newsgroups的bydate-matlab版本的語料集的數據統計Tab.2 Data statistics of 20Newsgroups corpus in bydate-matlab version

2.2 評價方法

文本分類的評價方法和準則不盡相同,本文使用宏平均F1(macro-averagingF1)和微平均F1(micro-averagingF1)[14]的評價方法.首先介紹查全率、查準率和F-Measure.查全率r和查準率p分別定義為

其中a表示分類器認為屬于這個類而實際也屬于該類的文檔數,b表示分類器認為屬于這個類而實際不屬于該類的文檔數,c表示分類器認為不屬于這個類而實際屬于該類的文檔數.

其中β是一個調整參數,用于以不同的權重綜合查全率和查準率.當β=1時,查全率和查準率被平等對待,如下式所示,這時F-Measure又被稱為

上面提出的查全率、查準率及F1-Measure都是針對單個類的分類情況而言的,當需要評價某個分類算法時,還需要將所有類上的結果綜合起來得到平均的結果.綜合的方法通常有兩種,分別為宏平均F1和微平均F1,即

2.3 實驗結果和分析

圖1和2分別列出了在20Newsgroups語料集上使用各種特征選擇方法的宏平均F1和微平均F1分類結果,從分類結果中可以看出,在選擇10 000個特征時,FCD方法在所有列出的特征選擇方法中分類效果最不好,其次是互信息方法;此時文檔頻率方法效果最好,其次是χ2統計方法,這可能與FCD方法和互信息方法選擇了大量的低頻詞有關,而文檔頻率方法選擇的都是出現頻率最高的特征;在特征數逐步增大的過程中,FCD方法分類效果提高得非常明顯,在特征數達到35 000時,分類效果最好,而文檔頻率方法在特征數增加時,其分類效果提高得很小,而互信息方法在特征數增大時,分類效果提高得比較明顯.在特征數增大到一定程度時,FCD方法分類效果下降,這與其他的特征選擇方法的結果相同.圖3和4列出了在reuters-21578語料集上使用各種特征選擇方法在SVM分類器上的宏平均F1和微平均F分類結果,從分類結果中可以看出,FCD方法在特征數增大時,分類效果提高得比較緩慢,而OR和MI方法則提高得最為顯著.表3列出了所有特征選擇方法在語料集上的宏平均F1和微平均F1的最大值,綜合兩個語料集上的分類結果來看,FCD方法在所列出的幾種特征選擇方法中為所有分類器效果最好的,這也驗證了該方法的分類有效性.

圖1 有關的特征選擇方法在20Newsgroups語料集上的宏平均F1值Fig.1 Macro-F1 values of relative feature selection methods in 20Newsgroups corpus

圖2 有關的特征選擇方法在20Newsgroups語料集上的微平均F1Fig.2 Micro-F1 values of relative feature selection methods in 20Newsgroups corpus

圖3 有關的特征選擇方法在reuters-21578語料集上的宏平均F1Fig.3 Macro-F1 values of relative feature selection methods in reuters 21578 corpus

圖4 有關的特征選擇方法在reuters-21578語料集上的微平均F1Fig.4 Micro-F1 values of relative feature selection methods in reuters-21578 corpus

表3 有關的特征選擇方法在兩個語料集上的效果統計Tab.3 Performance statistic using relative feature selection methods in two text corpuses

3 結 語

文本分類是信息檢索、信息過濾和搜索引擎工作的技術基礎.文本特征的高維性是影響各種分類器分類精度和效率的一個重要因素,如何進行有效的特征降維成為文本分類的一個研究熱點.因為文本分類是一個分類問題,所以類別信息對于特征選擇是很重要的.本文提出了一種稱之為FCD的特征選擇方法,該方法利用特征的統計結果將對于類別區分具有高貢獻度的特征過濾出來,實驗結果表明該方法與其他幾種常用的特征選擇方法相比簡單、有效,該結果在20Newsgroups和reuters-21578語料集上得到了驗證.

未來的工作將集中在將該方法用于具有更多特征和文檔的大語料集上,同時FCD方法沒有考慮何時特征和類別共現,何時特征和類別不共現,如果將該統計結果加入到特征選擇方法中,可能分類效果會得到提高.

[1]MITEHELL T.Machine Learning[M].New York:McGraw-Hill,1997

[2]MCCALLUM A,NIGAM K.A comparison of event models for Nave Bayes text classification[C]//Proceedings of the AAAI-98 Workshop on Learning for Text Categorization.Wisconsin:AAAI Press,1998

[3]COVER T M,HART P E.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27

[4]ADWAIT R.Maximum entropy models for natural language ambiguity resolution[D].Pennsylvania:University of Pennsylvania,1998

[5]NG Hwee-tou,GOH Wei-boon,LOW Kok-leong.Feature selection,perceptron learning,and a usability case study for text categorization[C]//Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press 1997

[6]VAPNIK V.The Nature of Statistical Leaning Theory[M].New York:Springer-Verlag,1995

[7]YANG Y,PEDERSEN J.A comparative study on feature selection in text categorization[C]//Proceedings of the 14thInternational Conference on Machine Learning(ICML′97).Nashville:Morgan Kaufmann Publishers,1997

[8]MLADENIC D,GROBELNIK M.Features selection for unbalanced class distribution and Nave Bayes[C]//Proceedings of the 16thInternational Conference on Machine Learning.Slovenia:Morgan Kaufmann Publishers,1999

[9]FORMAN G.An extensive empirical study of feature selection metrics for text classification[J].Journal of Machine Learning Research,2003,3(7-8):1289-1305

[10]徐 燕,李錦濤,王 斌,等.基于區分類別能力的高性能特征選擇方法[J].軟件學報,2008,19(1):82-89

[11]JOACHIMS T.Text categorization with support vector machines:Leaning with many relevant features[C]//Machine Learning:ECML-98.Chemnitz:Springer,1998

[12]JOACHIMS T.Making large-scale SVM learning practical[M]//Advances in Kernel Methods:Support Vector Learning.Cambridge:MIT Press,1999

[13]LANG K.NewsWeeder:Learning to filter netnews[C]//Proceedings of the 12th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publisher,1995

[14]YANG Yi-ming.An evaluation of statistical approaches to text categorization[J].Journal of Information Retrieval,1999,1(1-2):67-88

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 久久国产精品麻豆系列| 亚洲精品成人片在线观看| 日本免费一级视频| 99ri国产在线| 国产欧美网站| 欧美啪啪一区| 97人人模人人爽人人喊小说| 五月综合色婷婷| 日韩精品毛片| 久久久久无码精品国产免费| 香蕉99国内自产自拍视频| 欧美一区二区自偷自拍视频| 色偷偷男人的天堂亚洲av| 欧美日韩中文字幕在线| 精品久久国产综合精麻豆| 国产不卡国语在线| a天堂视频| 国产高清在线精品一区二区三区| 欧美第一页在线| 国产成人综合久久| 91综合色区亚洲熟妇p| 国产 在线视频无码| 国产在线八区| 丰满人妻中出白浆| 欧美激情,国产精品| 国产精品夜夜嗨视频免费视频| 色欲综合久久中文字幕网| 国产爽歪歪免费视频在线观看| 亚洲精品人成网线在线| 亚洲国产成人麻豆精品| 國產尤物AV尤物在線觀看| 国产精品久久久久鬼色| 夜夜高潮夜夜爽国产伦精品| 自偷自拍三级全三级视频 | 高清亚洲欧美在线看| 五月丁香在线视频| 原味小视频在线www国产| 99久久国产综合精品2023| 国产日韩欧美中文| 国产精品午夜电影| 色噜噜在线观看| 91成人在线免费视频| 欧美成人看片一区二区三区| 伊人久久青草青青综合| 国产一在线| 不卡无码h在线观看| 高清无码一本到东京热| 久久人午夜亚洲精品无码区| 国产91九色在线播放| 欧美全免费aaaaaa特黄在线| 综合网天天| 69视频国产| 伊人国产无码高清视频| a亚洲视频| 在线视频精品一区| 欧美日韩理论| 欧美中日韩在线| 福利在线不卡一区| 日本精品中文字幕在线不卡| 国产香蕉国产精品偷在线观看| 日韩精品一区二区三区中文无码| 精品久久久久成人码免费动漫| 2021天堂在线亚洲精品专区| 成人国产精品网站在线看| 国产精品美女自慰喷水| 精品無碼一區在線觀看 | 国产永久免费视频m3u8| 中文字幕自拍偷拍| 成年人福利视频| 国产精品露脸视频| 99视频在线精品免费观看6| 亚洲国产精品无码AV| 五月激激激综合网色播免费| 理论片一区| 欧美日韩午夜| 国产一区自拍视频| 日韩性网站| 黄色不卡视频| 亚洲精品无码av中文字幕| 午夜日本永久乱码免费播放片| 午夜啪啪福利| 国产真实自在自线免费精品|