999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類技術

2009-04-29 00:00:00
電腦知識與技術 2009年24期

摘要:該文介紹了文本分類的定義,主要的特征選擇方法,文本表示的向量空間模型,分類效果的評價指標。

關鍵詞:文本分類;特征選擇;向量空間模型

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)24-6784-02

Technology of Text Categorization

ZHANG Hua

(Institute of Minjiang, Fuzhou 350011, China)

Abstract: This paper introduces the definition of text categorization, primary methods of feature selection, vector space model for text representation, evaluation for the classification result.

Key words: text categorization; feature selection; vector space model

1 文本分類定義

文本分類屬于有監督的機器學習,即利用預定義的文本類別和訓練文本指導新的測試文本的學習,從而確定新文本的類別。從數學角度來說,文本分類可以這樣定義:設文檔集D={d1,d2,…,di},預定義類集C={c1,c2,…,ci},確定任意一個元組映射到集合{True,False}上的值,故文本分類器實際上就是這樣一個函數?茲:D×C→{True,False}。圖1給出了文本分類的一般處理過程圖。

2 文本處理

2.1 分詞

在使用向量空間模型表示文本時,是以特征項為基本單位的,而特征項可以取字、詞或短語,所以,要對文本進行相應的預處理操作,提取出特征項序列。在漢語中,詞是最小的語義基本單位,中文信息處理系統只要涉及句法、語義,就需要以詞為基本單位,而文本分類算法也一般采用特征項表示文本。由于中文的表示中詞與詞之間沒有明顯的間隔符號,因而自動分詞問題是中文信息處理的難點。

2.2 特征選擇

文本分類中的特征選擇方法主要有:特征詞的文檔頻率法DF(Document Frequency)、信息增益法IG(Information Gain)、互信息法MI(Mutual Information),?字2統計法(CHI)、交叉熵(Cross Entropy)等。

1)特征詞的文檔頻率(DF)

一個特征的文檔頻率(Document Frequency)是指在文檔集中含有該特征的文檔數目。采用DF作為特征選擇,基于如下基本假設:DF值低于某個閾值的詞條是低頻詞,它們不含或含有較少的類別信息。我們假定很少出現的特征詞攜帶的信息量為0,或者說對分類性能的影響不大。將這樣的詞條從原始特征空間中除去,不但能夠降低特征空間的維數,而且還有可能提高分類的精度。文檔頻率是最簡單的特征抽取技術,由于其相對于訓練語料規模具有線性的計算復雜度,它能夠很容易被用于大規模語料統計。

2) 信息增益方法(IG)

信息增量(Information Gain)表示文檔中包含某一特征值時文檔類的平均信息量。它定義為某一特征在文檔中出現前后的信息熵之差。假設c為文檔類變量,C為文檔類集合,d為文檔,f為特征。對于特征f,其信息增量記為IG(f),計算公式如下:

3) 交叉熵(CE)

交叉熵(Cross Entropy)和信息增益相似,不同之處在于信息增益中同時考慮到了特征在文本中發生與不發生時的兩種情況,而交叉熵只考慮特征在文本中發生的一種情況。對于特征f,其交叉熵記為CE(f),計算公式如下:

?字2統計也是用于表征兩個變量的相關性,但它比互信息更強,因為它同時考慮了特征詞存在與不存在時的情5) 互信息方法(MI)

互信息是用于表征兩個變量間相關性的。對于文檔類別c和特征f,其互信息記為M(c,f),計算公式如下:

顯然,當f獨立于c時,MI(c,f)為0,在應用時一般取平均值:

3 文本表示

文本表示的模型常用的有:布爾邏輯模型(Boolean Model),向量空間模型(VSM, Vector Space Model), 潛在語義索引(LSI,Latent Semantic Indexing)和概率模型(Probabilitic Model)。目前文本的表示主要采用的是向量空間模型。向量空間模型的基本思想是使用詞袋法(Bag of Word)表示文本,這種表示法的一個關鍵假設,就是文章中詞條出現的先后次序是無關緊要的,每個特征詞對應特征空間的一維,將文本表示成歐氏空間的一個向量。在一個文本中,每個特征項都被賦予一個權重,以表示特征項在該文本中的重要程度舍棄了各個特征項之間的順序信息之后,一個文本就表示成一個向量,即特征空間中的一個點。如文本 的表示:V(di)=(wi1,wi2,…,wik,…,win)。其中,wik=f(tk,ci)為權值函數,反映特征tk決定文檔di是否屬于類ci的重要性。對于所有的文檔都可以映射到此文本向量空間,從而將文檔信息的匹配問題轉化為向量空間中的矢量匹配問題。n維空間中點的距離用向量之間的余弦夾角來度量,也即表示了文檔間的相似程度。假設目標文檔為U,未知文檔為Vi,夾角越小說明文檔的相似度越高。余弦夾角的相似度計算公式如公式(8)所示。

4 文本分類模型評估

文本分類中普遍使用的性能評估指標有召回率(Recall,簡記為r)、準確率(Precision,簡記為p)。對于文本集中的每一個類別,使用列聯表(Contigency Table)來計算召回率和準確率。表1為一個列聯表示例。

這時,r和p分別定義為:

在公式(12)中,當p和r為宏平均值時,那么F1值稱為宏平均F1值(Macro-averaging F1);當p和r為微平均值時,那么F1值稱為微平均F1值(Micro-averaging F1)。

5 結論

本章主要介紹了三個方面的內容,即文本分類的一般過程,文本處理和文本分類模型評估。在文本處理中介紹了文檔頻率法DF、信息增益法IG、互信息法MI,?字2統計法、交叉熵等特征選擇方法;文本表示中主要介紹了向量空間模型。在分類模型評估這一塊列出了常用的分類方法質量評估方法,主要是微平均、宏平均值等。

參考文獻:

[1] Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1):1-47.

[2] 李榮陸.文本分類及其相關技術研究[D].上海:復旦大學計算機軟件與理論,2005.

[3] Yiming Yang.Jan O Pedersen: A Comparative Study on Feature Selection in Text Categorization,1997.

[4] Thorsten Joachims A Statistical Learning Model of Text Classification for Support Vector Machines,2001.

主站蜘蛛池模板: 久久国产精品77777| 69av在线| 亚洲欧美一区二区三区麻豆| 国产尹人香蕉综合在线电影 | 色综合成人| 尤物特级无码毛片免费| 专干老肥熟女视频网站| 宅男噜噜噜66国产在线观看| 国产精品福利社| 久久永久精品免费视频| 中文精品久久久久国产网址| av天堂最新版在线| 青青青视频蜜桃一区二区| 一本综合久久| 青青青视频免费一区二区| 国产精品区视频中文字幕| 99久久婷婷国产综合精| 91成人在线免费视频| 国内精品九九久久久精品| 毛片a级毛片免费观看免下载| 欧美成人精品一区二区| 亚洲精品午夜天堂网页| 国产欧美一区二区三区视频在线观看| 无码综合天天久久综合网| 久久9966精品国产免费| 91无码人妻精品一区| 米奇精品一区二区三区| 久草美女视频| 国模极品一区二区三区| av色爱 天堂网| av午夜福利一片免费看| 高清无码不卡视频| 精品中文字幕一区在线| 中国一级毛片免费观看| 国产精品林美惠子在线观看| 国产成人三级| 无码aaa视频| 国产一二视频| YW尤物AV无码国产在线观看| 国产欧美精品一区aⅴ影院| 91网站国产| 精品色综合| 免费在线色| 九色视频线上播放| 波多野结衣视频一区二区| 99re热精品视频国产免费| 成人在线综合| 国产日韩丝袜一二三区| 国产精品久久久免费视频| 国产毛片基地| 老熟妇喷水一区二区三区| 91亚洲影院| 不卡无码h在线观看| 亚洲人视频在线观看| m男亚洲一区中文字幕| 无码专区在线观看| 中文字幕久久波多野结衣| 日韩精品亚洲一区中文字幕| 国产在线无码av完整版在线观看| 好吊色妇女免费视频免费| 中文字幕色站| 精品一区二区三区无码视频无码| 夜夜操国产| 日韩天堂视频| 亚洲精品日产AⅤ| 国产啪在线| 97久久人人超碰国产精品| 最新痴汉在线无码AV| 日韩精品资源| 国产视频只有无码精品| 中文无码日韩精品| 国产一区免费在线观看| 国产精品女在线观看| 日韩专区欧美| 亚欧成人无码AV在线播放| 国产91全国探花系列在线播放| 免费毛片网站在线观看| 国产福利小视频在线播放观看| 亚洲欧美成人影院| 日本午夜网站| 国产精品香蕉在线| 婷婷久久综合九色综合88|