999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征提取方法對樸素貝葉斯文本分類器的影響分析

2013-11-06 09:13:50遲慶云劉夢琳姜振鳳棗莊學院信息科學與工程學院山東棗莊277160
長江大學學報(自科版) 2013年25期
關(guān)鍵詞:特征提取分類特征

遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)

特征提取方法對樸素貝葉斯文本分類器的影響分析

遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)

特征提取方法在文本分類過程中起著重要作用,文本分類的效果受特征提取方法選擇的直接影響。采取信息增益和文檔頻率2種特征提取方法,對樸素貝葉斯分類模型的查全率和準確率進行驗證比較。研究表明,樸素貝葉斯分類器的分類效果隨著維數(shù)的增加先增加后減少;在維數(shù)一定時,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果。

文本分類;樸素貝葉斯文本分類;特征提取

文本分類能夠改善文本信息雜亂的狀況,其廣泛應用于文本索引、文本信息過濾、自動元數(shù)據(jù)的產(chǎn)生、詞意辨析、Web資源分類和應用程序中的文本管理等方面,其中樸素貝葉斯文本分類算法在垃圾郵件過濾、入侵檢測等領(lǐng)域表現(xiàn)出較好的性能。此外,特征空間的高維性一直是文本分類的難題。在高維特征空間中,特征之間由于可能存在不相關(guān)性或者是冗余性,必然會出現(xiàn)過學習現(xiàn)象,導致時間與空間開銷大。為了降低計算復雜度和提高分類準確率,必須降低特征空間維數(shù),而特征提取是降低特征空間維數(shù)的較好的解決方法。下面,筆者分析了特征項提取方法對樸素貝葉斯文本分類器的影響。

1 貝葉斯分類算法

研究表明,貝葉斯分類算法能從各個方面進行考慮,其測試結(jié)果出錯率較小[1]。計算機通過觀察訓練數(shù)據(jù)的特點,來猜測一個可能的分類規(guī)則,完成訓練階段的最終產(chǎn)品——分類器。訓練過程一般花費時間比較長,系統(tǒng)將所有文本訓練一次后,將假設訓練語料包含N個文本D={D1,D2,…,Dn},上述文本分屬于M個文本類別C={C1,C2,…,Cm},訓練語料集共有L個文本特征詞W={W1,W2,…,WL}。

當文本Di屬于類別Cj時,則有P(Cj|Di)=1,否則P(Cj|Di)=0。如果給定文本類別變量,則文本類別Cj的先驗概率估計為:

(1)

若用F(Wk,Di)表示特征詞Wk在文本Di中出現(xiàn)的次數(shù),則特征詞Wk在類別Cj中的概率估計為:

任何文本都可視為一系列有序排列的特征詞的集合,在貝葉斯分類器通過概率方法對數(shù)據(jù)如何生成制定了一個強有力的獨立性假設,并得出類別Cj中產(chǎn)生文本Di的概率為:

(3)

根據(jù)測試文本特征數(shù)據(jù)計算測試文本屬于每個類別的概率,然后按照最大概率對測試文本進行分類。測試文本Di屬于類別Cj的概率:

(4)

文本向量通常采用向量空間模型進行描述。在向量空間模型中,如果不經(jīng)過特征提取,不將非結(jié)構(gòu)化的原始數(shù)據(jù)轉(zhuǎn)化為可處理的結(jié)構(gòu)化的形式,而是直接用分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量中的各個維,那么所得到的向量維度將非常大。這種高維的文本向量必然使文本分類過程效率非常低下,不但給后續(xù)工作帶來巨大計算開銷,而且會降低分類算法的精確性[2]。因此,需要通過特征提取方法來降低特征空間維數(shù),即使用某種算法從原始文本中抽取出的特征詞進行量化來表示文本信息,用來描述和代替原文本,從而達到降低文本向量空間的目的。采取上述方法不但能選出能夠很好反映文本內(nèi)容的詞,提高文本分類的效率,而且能降低系統(tǒng)的開銷。

2 特征提取方法

在文本分類中,用于特征提取的方法主要包括文檔頻率、信息增益等。選擇正確的特征提取方法對于對提高文本分類正確率有著十分重要的影響。

2.1文檔頻率

文檔頻率(DF)是指在整個數(shù)據(jù)集中有多少個文本包含某個單詞。對于文檔頻率,通常會設定一個閾值。針對訓練文本集中每個特征的文檔頻率,若該項的DF值小于閾值,表示該特征是稀有詞,信息含量太少,沒有代表性,應作為噪音加以刪除;若其DF值大于某個閾值也應將其去除,因為其代表了“沒有區(qū)分度”的極端情況。總之,在文本分類中使用文檔頻率進行特征提取具有操作簡便、計算迅速的特點[3]。

2.2信息增益

信息增益(IG)是一種基于熵的評估方法,其計算公式如下:

(5)

文檔集中某個特征項對類的貢獻越大,必然對類也越重要,那么它的信息增益值越大。在類分布和特征值分布高度不平衡的情況下,使用該方法的效果會大大降低,因為此時的函數(shù)值由不出現(xiàn)的特征決定,絕大多數(shù)類都是負類,絕大多數(shù)特征都不會出現(xiàn)。

3 樸素貝葉斯文本分類

3.1試驗數(shù)據(jù)

試驗語料庫分為訓練語料庫和測試語料庫2部分,從復旦大學中文語料庫中下載,訓練集由一組已經(jīng)完成分類的文本組成,用來歸納各個類別的特性以構(gòu)造分類器,分別為教育、醫(yī)藥、計算機、經(jīng)濟和環(huán)境。測試集用于測試分類器分類效果的文檔的集合。

3.2文本預處理

針對訓練語料庫分詞預處理部分,采用中科院計算所漢語詞法分析系統(tǒng)(ICTCLAS)進行分詞預處理、數(shù)據(jù)清洗和去除停用詞[4]。ICTCLAS把訓練語料庫中的句子轉(zhuǎn)換成詞,對標點、助詞、連詞、介詞、量詞等進行清洗,并去掉文本中存在的助詞、副詞、連詞、代詞、介詞、嘆詞、量詞、數(shù)詞等。

3.3特征項選擇

特征選擇模塊包括詞頻統(tǒng)計和文本特征選擇。詞頻統(tǒng)計是文本特征項權(quán)值計算的基礎(chǔ),其通過統(tǒng)計一定長度的語言材料計算每個詞出現(xiàn)的次數(shù)并分析統(tǒng)計結(jié)果。文本特征選擇模塊采用信息增益(IG)和文檔頻率(DF)方法,從原始特征項中抽取一定數(shù)量的特征項,從而達到降維目的并形成特征項詞典。在文檔預處理后,將DF和IG特征選擇后的前20個詞取出進行分析。

表1 采用DF和IG特征提取方法提取的特征詞

3.4試驗結(jié)果分析

圖1 特征提取的維數(shù)為3000維時樸素貝葉斯分類算法

從圖1可以看出,“交通”和“體育”2個類別的查全率、查準率和F1值都為100%;“經(jīng)濟”的查全率為77.8%,相對較低;“教育”的查準率只有71.4%,是所有類別中最低的,這是由于這上述類別的訓練文本和測試文本的相似度相對較低的緣故[6]。

測試文檔提取1000維、2000維、3000維、4000維的試驗結(jié)果如圖2所示。

圖2 測試文檔提取1000維、2000維、3000維、 圖3 不同方法提取特征時性能比較圖

由圖2可知,樸素分類器的分類效果隨著維數(shù)的改變而改變,當文檔特征值提取維數(shù)在3000維時,分類器的分類效果比較明顯。在特征提取時采用信息增益(IG)和文檔頻率(DF)提取3000維的試驗結(jié)果如圖3所示。由圖3可知,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果,這是因為DF所確定的值,即訓練集合中單詞發(fā)生的文本數(shù)在總體上是很小的,但在部分文本中出現(xiàn)的頻率可能會很大[7]。

4 結(jié) 語

使用信息增益(IG)和文檔頻率(DF)2種特征提取方法,在去除停用詞上,不單純依據(jù)停用詞表,而是利用詞性標注進行數(shù)據(jù)清洗與停用詞表相結(jié)合,進而達到降維的目的。研究結(jié)果表明,文檔頻率對文本的去停用詞效果要求較高,因而采用該方法的分類效果較差,由于信息增益(IG)考慮了特征項未發(fā)現(xiàn)的情況,因而采用該方法可以取得較好的特征選擇效果。

[1]Sebastian F.Machine learning in automated text categorization [J].ACM Computing Surveys, 2002, 34(1):1-47.

[2]夏克儉,張濤.基于貝葉斯算法的垃圾郵件過濾的研究[J].微計算機信息,2008,24(3):179-180.

[3]鐘慰,周鐵軍.樸素貝葉斯分類在入侵檢測中的應用[J].計算機與信息技術(shù),2007(12):24-27.

[4]余芳.一個基于樸素貝葉斯方法的web文本分類系統(tǒng):web CAT[D].廣州:暨南大學,2004.

[5]王俊英.基于科技文獻的中文文本分類算法研究[D].秦皇島:燕山大學,2005.

[6]楊霞,黃陳英.文本挖掘綜述[J].科技信息,2009,10(3):5-14.

[7]復旦大學語料庫.中文自然語言處理開放平臺[DB/OL].http://ishare.iask. sina.com.cn.ht,2008-09-12 .

[編輯] 李啟棟

TP393.08

A

1673-1409(2013)25-0091-03

2013-06-12

遲慶云(1975-),女,碩士,講師,現(xiàn)主要從事數(shù)據(jù)倉庫、數(shù)據(jù)挖掘方面的教學與研究工作。

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 亚洲国产欧美国产综合久久| 国产综合色在线视频播放线视 | 22sihu国产精品视频影视资讯| 亚洲A∨无码精品午夜在线观看| 一区二区三区四区在线| 亚洲视频三级| 91探花国产综合在线精品| 久久人人爽人人爽人人片aV东京热| 精品久久久久久成人AV| 永久免费无码日韩视频| 无码有码中文字幕| 亚洲色欲色欲www网| 日韩中文无码av超清| 亚洲动漫h| 欧美成人手机在线观看网址| 重口调教一区二区视频| 啦啦啦网站在线观看a毛片| 欧美一级高清免费a| 不卡午夜视频| 久久综合丝袜日本网| 播五月综合| 国产乱子精品一区二区在线观看| 毛片久久网站小视频| 亚洲欧美成人在线视频| 国产成人你懂的在线观看| 亚洲人成网站18禁动漫无码| 男人天堂伊人网| 91视频99| 色有码无码视频| 日本日韩欧美| 亚洲精品日产AⅤ| 国精品91人妻无码一区二区三区| 成人午夜久久| 精品无码国产一区二区三区AV| 国产精品护士| 97狠狠操| 日本一区二区不卡视频| 国产一级α片| 国产成a人片在线播放| 日本不卡在线播放| 中文字幕va| 亚洲成肉网| 国产黄在线免费观看| AV熟女乱| 91美女在线| 在线中文字幕网| 日韩人妻少妇一区二区| 日本午夜在线视频| 亚洲女同欧美在线| 欧日韩在线不卡视频| 黄色三级毛片网站| 超薄丝袜足j国产在线视频| 九月婷婷亚洲综合在线| 人妻无码中文字幕第一区| 久久亚洲综合伊人| 小13箩利洗澡无码视频免费网站| 亚洲bt欧美bt精品| 国产老女人精品免费视频| 久久综合亚洲鲁鲁九月天| 尤物亚洲最大AV无码网站| 国产毛片片精品天天看视频| 色成人亚洲| 午夜爽爽视频| 国产精品香蕉在线观看不卡| 成人福利在线视频| 国产亚洲欧美日韩在线观看一区二区| 九九热免费在线视频| 亚洲成a人片77777在线播放| 国产精品丝袜视频| 71pao成人国产永久免费视频| 91高清在线视频| 欧洲亚洲一区| 久久免费精品琪琪| 免费一级α片在线观看| 九九这里只有精品视频| 久久国产乱子伦视频无卡顿| 亚洲精品成人片在线观看| 九九精品在线观看| 亚洲中文字幕在线一区播放| V一区无码内射国产| 国产91在线|中文| 国产在线拍偷自揄观看视频网站|