999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最大熵模型的中文文本層次分類方法

2015-12-27 06:43:59肖雪
計算機與網絡 2015年9期
關鍵詞:分類特征文本

肖雪

(重慶電子工程職業學院,重慶 401331)

基于最大熵模型的中文文本層次分類方法

肖雪

(重慶電子工程職業學院,重慶 401331)

針對文本信息海量增加的現狀,快速、準確、全面地獲取有用信息的大規模信息處理應用技術越來越受到關注。本文將中文文本分類的類別體系構建為層次結構,并把最大熵模型引入中文文本的層次分類,該模型用于得到未知事件分布的最大熵。實驗證明,最大熵模型方法的層次分類性能在很多時候優于平面分類,是一種有效的中文文本分類方法。

文本分類層次分類特征選擇最大熵模型

1 引言

在信息技術不斷發展的今天,人們身邊的文本量也出現了飛速增長。如何在這海量的文本信息集合中,快速、準確、全面地找到我們所需要的信息,越來越受到關注。因此,作為大規模信息處理重要的應用技術之一,文本分類成為了有效組織和管理文本數據的重要方式,顯示了其不可忽視的重要性。文本分類可以看作是一個數學上的映射,將未標明類別的文本映射到已有的類別。我們通過構建分類系統來進行分類,構建的過程屬于有指導的機器學習。首先給出一些已經分類的樣本信息,分類系統根據這些信息掌握每類樣本的特點和分類規律,建立適用于所有文本的分類規則,即“學習”的過程;在遇到新的待分類的文本時,分類系統將根據這些規則來決定把文本分到哪個類別。

2 層次分類概述

目前中文文本分類流程大致按照以下步驟[1]:文本預處理、特征選擇、特征加權、訓練文本分類器和進行分類。要把文本這一有內在語義聯系的的信息集合變為可被計算機表示的形式,G.Salton提出了向量空間模型(Vector Space Model, VSM)。在VSM中,文本被表示為可進行數學運算的向量,向量中的每一項叫做特征項,它可以是該文本里的字、詞、短語等。每個特征項對于文本的重要程度都有所不同,為了區別開,將對每個特征相賦予一個權重W,這樣文本可表示為,其中表示第i個特征項的權重。由于每篇文本的特征項數量相當龐大,有的特征出現的次數極少,有的特征在每篇文本里面都大量存在,因此需要在文本的原始特征中選擇出對文本最具代表性的特征項。特征選擇的方法很多,一般都是使用某種特征評估函數對每個特征項打分,最后根據分值取一定數量的特征項作為特征集合。常用的特征選擇方法有文檔頻率DF、信息增益IG、互信息MI和χ2統計CHI等等[2]。

構建分類系統所采用的分類算法一般都是針對向量空間模型的數學計算,主要有:類中心向量最近距離判別法、樸素貝葉斯[3]、KNN[4]和支持向量機(SVM)[5]等。

目前中文文本分類基本都只做一次分類,分類的類別都構建在同一個層次,即處于同一個平面類空間,稱為平面分類。在類別數目比較小、同時類別差別比較大的情況下,平面分類的性能較好。比如當類別只有“計算機”、“體育”和“經濟”時,分類系統能比較容易地判斷包含特征“算法”的文本應該屬于哪個類別。

但實際情況中,文本集合往往比較復雜、類別繁多。面對成千上萬的文本,很多文本既具有共性、又有細微的差別,同時這些文本包含的特征非常相近,對分類起作用的特征往往只是極少數。在這種情況下,平面分類的性能會受到很大制約,分類的精度將受到干擾而降低。因此,可以考慮在構建文本類別時形成層次結構,把具有共性的子類別組成一個集合,以樹形結構的形式呈現類別體系。

層次分類是以層次結構的方式構造文本分類的類別系統,即把所有類別按照一定的內在關系組織成樹狀結構[6]。在這種結構下,第一層的類別數量較少而且差異很大,文本的分類比較容易且精確度較高;同一類別結點下的子類具有大類共性,文本分類時只需要在該大類下的子類別中進行區分,縮小了分類的范圍。這樣的分類方式使文本的定位更準確,分類時自頂向下逐層分類,提高了分類精度。

3 最大熵模型

“熵”本是熱力學中的概念,由shannon將信息熵引入信息論。信息熵是表征事物復雜程度的量度,用來度量隨機出現的事物的不確定性,當隨機變量分布越均勻時,其熵值越大。熵的計算公式如下:

最大熵原理由E.T.Jaynes提出[7],其原則是在對某個事件不了解的情況下,應選擇使它的分布最均勻的模型。因為在已知條件下,熵最大時代表其分布最均勻,隨機變量的狀態最不確定,可能最接近它的真實狀態。在這種情況下,滿足最大熵的概率分布應為:

那么在文本分類問題中,假設a是某個類別,b為某個特征,則:

4 文本層次分類

將此模型應用于中文文本的層次分類中,在每一層均采用最大熵模型,如下:

①在第一層忽略子類類別,以所有大類為類別集合進行第一次特征選擇;使用第一層的特征集合構造出特征函數,建立該層的最大熵模型;使用最大熵模型將文本歸屬為所有大類中的某一大類;

②進入層次結構第二層時,以該層各大類下的子類為基礎再各進行一次特征選擇,并適當調節特征數量,得到新的子類特征集合。這時的特征集合與第一層的特征集合相比將有所變化。分別為各大類構造特征函數,建立各大類的最大熵模型,用于對文本的子類分類。

5 實驗及結果分析

實驗采用最大熵模型的方法,與常規的平面分類的性能做比較。實驗語料庫由網絡收集整理,共計6352篇,其中訓練語料和測試語料基本按照1:1的比例劃分。語料分為電腦、教育、經濟、娛樂、衛生和體育幾個大類,子類構建如表1所示。實驗中的特征選擇采用IG方法,最大熵模型中的參數估計使用GIS算法,迭代100次后結束。分類結果采用F1測試值。實驗結果如表1所示,其中Hier表示基于最大熵模型的層次分類性能,Plane表示平面分類性能。

表1 最大熵層次分類與平面分類性能比較類別

根據表1可以看到,基于最大熵模型的層次分類性能在很多類別上優于平面分類性能,比如在“硬件”、“籃球”等子類別。層次分類對大類類別的構建較少,文本在進行大類分類時的精度較高,在大類下只需要面對該大類的子類別,比直接面對所有子類別來進行分類更加容易,所以能提高整體的分類性能。由于最后的分類效果依賴于大類分類的結果,因此層次分類在在不同大類下的表現具有差異性。

6 結束語

現有的文本分類多是基于向量空間模型的平面分類方式。本文把中文文本分類的類別體系構建為層次結構,對文本先進行大類分類,再分類到子類別。并把最大熵模型引入中文文本的層次分類,該模型用于得到未知事件分布的最大熵。經實驗驗證,最大熵模型方法的層次分類性能在很多時候優于平面分類,是一種有效的中文文本分類方法。

[1]張玉芳,萬斌侯,熊忠陽.文本分類中的特征降維方法研究[J].計算機應用研究,2012,29(7):2541-2543.

[2]Yiming Yang.An evaluation of statistical approaches to text categorization[J].Inf Retr Boston,1999,1(1):69-90.

[3]T.Joachims.A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization:Proc.Int.Conf.on Machine Learning,1997[C].Nashville,US:1997:143-151

[4]Makato Iwayama.A comparison of category search strategies: ACM Conference on Research and Development on Information,1995[C].Washington:ACM Press,1995:273-281. [5]J.T.Y.Kwok.Automated Text Categorization Using Support Vector Machine:Proceedings of the Int.Conf.on Neural Information Processing,1998[C].Japan:1998:347-351.

[6]SONG Shengli,BAO liang,CHEN ping.Hierarchical text classification and evaluation[J].Xi Tong Gong Cheng Yu Dian Zi Ji Shu/Systems Engineering and Electronics,2010,32(5): 1088-1093.

[7]N Kamal,L John,M Andrew.Using maximum entropy for text classification[C].In Proceedings of the IJCAI-99 Workshop on Information Filtering.Stockholm,Sweden.1999.

Hierarchical Text Categorization Methods Based on Maximum Entropy Model

XIAO Xue
(Chongqing College of Electronic Engineering,Chongqing 401331,China)

In view of the present situation of mass text information,the technology of large-scale information processing and application,with which people can obtain useful information quickly,accurately,and comprehensively,draws more and more attention. This paper organizes categories into hierarchical structure according to the certain relations.And the maximum entropy model is introduced to hierarchical text classification and used to obtain the maximum entropy of unknown event distribution.The experiment results show that the hierarchical classification performance of maximum entropy model outperforms that of plane methods,and it is an effective technique for text classification.

text classification;hierarchical text classification;feature selection;maximum entropy model

TP391

A

1008-1739(2015)09-36-3

定稿日期:2015-04-12

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一级黄色片网| 欧美一级夜夜爽www| 91香蕉国产亚洲一二三区| 波多野结衣视频网站| 高清无码一本到东京热| 永久免费无码成人网站| 亚洲人成网站在线观看播放不卡| 久久久久人妻一区精品| 国产精品无码一二三视频| 亚洲最新在线| 永久免费精品视频| 全部免费特黄特色大片视频| 欧美午夜网站| 免费无码网站| 久久久受www免费人成| 亚洲人在线| 日本www在线视频| 在线观看视频99| 成年看免费观看视频拍拍| 免费一级全黄少妇性色生活片| 亚洲成A人V欧美综合| 国产精品99r8在线观看| 无码内射在线| 国产91成人| 91在线无码精品秘九色APP | 欧美一级专区免费大片| 亚洲无码高清视频在线观看| 久久伊人操| 国产精品区视频中文字幕| 91麻豆精品国产高清在线| 色综合天天娱乐综合网| 国产一区在线观看无码| 国产网站一区二区三区| 毛片a级毛片免费观看免下载| 国产成人精品免费视频大全五级| 精品国产网站| 午夜啪啪网| 欧美在线视频不卡| 亚洲欧美精品一中文字幕| 伊人激情综合网| 97精品久久久大香线焦| 午夜精品福利影院| 国产在线无码一区二区三区| 亚洲欧洲一区二区三区| 欧美视频在线播放观看免费福利资源| 国产成人区在线观看视频| 国产特级毛片aaaaaaa高清| 欧美日本在线播放| 亚洲人人视频| 天天综合色网| 久久国产高潮流白浆免费观看 | 日本91视频| 亚洲丝袜第一页| 狠狠亚洲婷婷综合色香| 91在线播放免费不卡无毒| 日本欧美在线观看| 色窝窝免费一区二区三区| 国产精品欧美在线观看| 国产精品一区在线观看你懂的| 91精选国产大片| 欧美一级高清免费a| 九色在线视频导航91| 久久久久国产一级毛片高清板| 干中文字幕| 中文字幕久久波多野结衣| 人妻丰满熟妇αv无码| 中日韩欧亚无码视频| 国产a v无码专区亚洲av| 国产精品19p| 国产青榴视频| 国产精品亚洲一区二区三区z| 这里只有精品在线| 丁香五月激情图片| 日韩精品资源| 国产精品55夜色66夜色| 精品伊人久久久大香线蕉欧美 | 毛片免费在线视频| 国产视频大全| 国产精品美女自慰喷水| AV无码无在线观看免费| 欧美激情第一欧美在线| 亚洲欧美精品在线|