999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化類中心分類算法的文本分類研究

2011-08-30 06:11:42邵華清
科技傳播 2011年18期
關鍵詞:分類文本

王 斌,邵華清,劉 振

1.佳木斯大學信息電子技術學院,黑龍江佳木斯 154007

2.佳木斯大學經濟管理學院,黑龍江佳木斯 154007

3.桂林理工大學,廣西桂林 541004

0 引言

當前,隨著計算機技術的飛速發展,各類電子郵件和電子文檔以前所未有速度的迅速增長,用戶如何能從海量文本中快速準確的獲取有效的信息,是人們普遍關注的問題。文本形式是互聯網上大部分信息的載體,文本的識別的速度決定了是否能高效獲取信息的速度。文本分類識別技術可以把海量但缺乏結構的文本數據組織成規范的文本數據,以達到提高檢索信息和利用信息的效率的目的。文本分類已經成為組織和管理文本數據的重要形式。傳統的人工分類已經不能滿足如今的需要,它耗費大量的人力、物力和精力,并且分類結果一致性不高。本文針對傳統類中心分類算法由于訓練文檔分散,不能準確的表示各類別的中心向量,提出了優化算法,從而提高分類準確度。

1 類中心分類算法

文本分類的訓練集是已經分類好的文本,這些分類好的文本都具有各自類別的特點,我們可以通過學習這些分類好的文本,提取出代表每一類別各自的特點,這些特點能唯一的代表一個類別。在用向量空間模型表示的文本中,可以通過提取能代表該類別的特征項來表示類別。類中心分類算法是典型的應用代表類別特點的特征項來表示類別的算法。它具有容易理解、思路清晰、分類效果好等優點。類中心分類算法思路比較簡單,將訓練集中的每個文本應用一定的特征權重算法表示成一個特征權重的向量 :為了對不同長度的文檔統一描述,每一篇文檔都被規范化為統一的長度,例如:然后根據平均算法為每類文本生成代表該類的中心向量。令表示預定義的類別集合,類別Ci的中心向量定義為:

類中心分類算法是從訓練集中得到類別的中心向量,它對訓練集依賴性比較大,對訓練集的集中程度和規模非常敏感,一般情況下訓練集文本代表性越強、規模越大分類效果會越好。

2 優化的類中心分類算法

在類中心文本分類算法中,類別的中心向量是由該類別文本特征向量的簡單算術平均得到。在訓練集中,就分類而言,文檔一般比較分散,所以在空間上,有些分類與其它類就會有重疊的區域,如果直接用這些文檔來計算各個類別的中心向量,就會出現模型偏差,因此不能達到理想的分類結果。研究一種優化的類中心分類算法,以修正這種模型偏差。即用當前的中心向量對訓練集進行分類,然后用訓練錯誤文檔來更新中心向量,并假設文檔集中的每一篇文檔都只屬于一個類別。它的中心思想為:在進行的每一次迭代過程中用規范化中心向量對訓練文本進行分類,其目的是為了找出所有訓練錯誤文檔。并對它進行歸類。但因為文檔分散原因的影響,不少文檔的分類弄錯,可以適當增加中心向量中這些文檔特征項的權重,相反,應該減少中心向量中misin-ofi的各文檔特征權重大的特征項的權重。利用這些分類錯誤文檔,更新類中心向量,并規范化,得到迭代后的規范化中心向量。

3 實驗方法與結果

3.1 實驗樣本

在文本自動分類系統中,用于實驗的文本集一般分為兩個部分:訓練集和測試集。訓練集是由一組文本組成,并且這些文本已經分好類,用于歸納出各個類別的特性以構造分類器。根據分類體系的設定,每一個類別都應含有一定數量的訓練文本;測試集是用于測試分類效果的文檔的集合。其中每個文本都通過分類器分類,然后與正確決策的分類結果相對比,從而得到對分類器效果的評價,但測試集并不參與分類器的建設。

3.2 結果評測標準

評估分類準確程度的依據是通過專家對文本的正確分類結果的比較,與人工分類結果越相近,分類的準確程度就越高。文本分類中常用的評測指標有:準確率和查全率。本文使用如下的評估標準:

查準率:是在所有輸入系統中,進行分類處理的文本中與專家分類結果完全吻合的文本所占的比率,即:被正確分到類別i的文本數與所有被分到類別i的文本數的比值。

查全率:是在分類系統中,分類正確的文本所占的比率,即:被正確分到類別i的文本數與實際屬于類別i的文本數的比值。

查準率和查全率反映了分類質量的兩個不同方面,兩者必須綜合考慮,不可偏廢。因此,存在一種新的評估指標,Fl測試值,其數學公式如下:

從對比中可以看到,類中心分類算法在任何類別的分類效果都不如優化后的類中心分類算法。

[1]旺建華.中文文本分類技術研究[D].吉林大學,2007,9.

[2]王小燕.文本分類相關技術應用與研究[D].西北大學,2007,4.

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产91精品调教在线播放| 免费xxxxx在线观看网站| 女同久久精品国产99国| 69综合网| 国产精品女人呻吟在线观看| 人人爽人人爽人人片| 亚洲成a人片7777| 亚洲欧美日韩中文字幕在线| 亚洲黄网视频| 免费jjzz在在线播放国产| 全部免费特黄特色大片视频| 久久伊人久久亚洲综合| 免费AV在线播放观看18禁强制| 国产成人三级| 国产青青草视频| 国产00高中生在线播放| 91免费片| 91青青视频| 国产精品美人久久久久久AV| 日本在线亚洲| 在线观看国产精美视频| 无码区日韩专区免费系列| 久久这里只有精品2| 夜夜操狠狠操| 夜夜高潮夜夜爽国产伦精品| 亚洲一区二区三区国产精品| 国产福利在线观看精品| 97青草最新免费精品视频| 风韵丰满熟妇啪啪区老熟熟女| 亚洲人成网站色7777| 第九色区aⅴ天堂久久香| www.精品国产| 欧美一区国产| 国产成人久视频免费| 在线视频一区二区三区不卡| 国产免费a级片| 99免费视频观看| 最新国产你懂的在线网址| 亚洲天堂在线视频| 青青国产在线| 国产成人高清亚洲一区久久| 无码综合天天久久综合网| 国产精品污视频| 在线免费a视频| 国产激情在线视频| 色婷婷成人网| 波多野结衣一级毛片| 直接黄91麻豆网站| 狠狠综合久久| 色首页AV在线| 国产女人18毛片水真多1| 园内精品自拍视频在线播放| 四虎影视国产精品| 亚洲无码视频喷水| 日韩视频免费| 色综合天天操| 免费又黄又爽又猛大片午夜| 在线观看免费国产| 亚洲,国产,日韩,综合一区| 久久久久人妻一区精品色奶水| 中文字幕亚洲综久久2021| 青青操视频在线| 国产福利大秀91| 在线观看热码亚洲av每日更新| 久久黄色免费电影| 日韩午夜片| 国产黄在线免费观看| 网友自拍视频精品区| 日韩欧美综合在线制服| 国产凹凸视频在线观看| 真实国产乱子伦视频| 亚洲欧美色中文字幕| 国产一在线| 无码AV日韩一二三区| 青青操国产| 亚洲黄网在线| 久久99国产综合精品女同| 18禁黄无遮挡网站| 婷婷伊人五月| 亚洲无码久久久久| 日韩免费中文字幕| 国产成人免费手机在线观看视频|