999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類加權的TF-IDF的網頁分類算法

2017-07-25 09:25:13王彥焱李文超吉林大學
數碼世界 2017年7期
關鍵詞:分類信息

王彥焱 李文超 吉林大學

分類加權的TF-IDF的網頁分類算法

王彥焱 李文超 吉林大學

網頁分類算法是目前比較熱門的研究課題,目前已經有許多網頁分類算法,其中TFIDF算法是一種用于信息檢索與數據挖掘的常用加權技術,本文通過TFIDF算法提取了每個分類下的具有高區分度的特征詞,在網頁分類時通過找出其中最能代表該網頁的詞素,依據該詞素的類別信息即能對網頁進行分類。由于TFIDF算法中詞頻計算未考慮網頁結構信息,因此在本文中對詞頻計算進行了改進,通過對網頁結構分類,計算詞素出現在不同分類下的權重,達到對網頁信息的合理利用。

TF-IDF 詞頻加權 特征詞提取

1 引言

隨著互聯網的高速發展,網頁規模呈指數級增長,對網頁按照主題進行分類,一方面可以根據需要,濾除包含不良信息的網頁,凈化網絡環境;另一方面可以按照主題為用戶提供類別目錄,這樣既可以實現網頁的分級管理,而且為使用戶更方便的查找所需要的信息,從而提高網頁瀏覽的效率。因此,網頁分類技術的研究正在成為繼文本分類技術的另一大熱點。

2 網頁預處理與中文分詞

2.1 網頁預處理

網頁是信息的集合,其中包含的信息類型非常復雜,一個網頁除了標題、正文之外還可能含有廣告、友情鏈接等信息,這些信息對文本分類的幫助很小,甚至會干擾正確的結果。網頁噪聲處理目前已經存在許多方法有,比較常用的有java的開源項目HTMLParser設計的處理方法,它能超高速解析HTML,而且不會出錯。另外,網頁中一般包含有大量的網頁布局信息,比如javescript和sytle標識的信息等,這樣的信息只是在說明網頁的表示,輸入網頁分類算法中的噪聲,所以應該在算法之前將其刪除,否則會對分類算法造成干擾。

2.2 中文分詞

中文分詞不同于英文,英文中每個單詞之間都有空格分隔,中文書寫以字為單位,一個或多個漢字組成一個詞,中文分詞要做的就是把句子拆分成詞語,以便后續使用。目前存在的中文分詞算法中,中科院計算技術研究所推出的基于隱馬爾科夫模型的ICTCLAS漢語分詞器分詞效率達到95%以上,是目前公認的最好的漢語分詞器。

3 分類加權的TF-IDF的網頁分類算法

3.1 TF-IDF算法

TF-IDF是一種統計方法,用于評估一個字詞在其所在文檔中的重要程度。主要思想是:如果某個詞素在一個文檔中出現的頻率TF高,并且在其他文檔中很少出現,則認為該詞素具有很好的區分能力。tf表征一個詞素在文檔中出現的頻率,idf值是逆向文本頻率,表征詞語的普遍重要性,一個詞語在越多的文檔中出現,則該詞的區分能力越低。其中:

nt,d表示特征詞t在文檔d中出現的次數,M表示d文檔總特征詞數

N為文檔總數,n為包含詞素t的文檔數。

3.2 TF-IDF算法的不足及其改進

TF-IDF算法TF值為詞素的出現次數,沒有考慮網頁的結構信息,無論特征詞出現在哪一部分,它的權重都為1。對于一個網頁來說,這顯然是不合理的,分析HTML文件可知,一個網頁一般包含3種結構:標題、以<TITLE><TITLE>標記網頁正文和其余部分。

本文采用分類加權的方法對其改進,將網頁分成上述3個部分,給每個部分賦予不同的權值。權值的大小可采用機器學習中的線性回歸法來確定,輸入一定規模的訓練集,找出使損失函數值最小的權值分配。確定權值后計算每個網頁的TF值時改進的公式為

w1為詞素出現在不同位置時的權重。

3.3 特征詞提取

特征詞的提取是整個分類算法的關鍵,特征詞提取的效果直接影響分類的準確度,算法要保證特征詞具有高區分度,由于原始TF-IDF算法求出的是詞素對其所在文檔的區分度,因此要提取能夠區分每個類別網頁集合的特征詞,需要將每個類別當成一個集合看待,這樣求出的具有較高TFIDF值的詞即是在每個類別中具有高區分度的詞,算法思想為,將每個類別中的所有網頁看作一個單獨的集合,在每個類別中以網頁為單位計算加權分類的TF值,再以類別為單位計算總TF值與IDF值,之后算出的TFIDF值越高,則代表該詞越具有區分度,流程為:①選取合適規模的已分類網頁。②將每個類中的所有網頁看成一個集合,計算每個類中網頁的所以詞素TF值,之后計算每個詞素在該類別下的總TF值。以i表示類別集合,j表示每個網頁,則詞素t在i類別下的TF值為:

③每個類別中的詞素IDF值為總分類數除以包含該詞語的分類的數目,再將得到的商取對數得到計算每個類中的所有詞素的TFIDF值并進行排序。④去掉平凡詞后在每個類中選取排名前500的詞作為該分類的特征詞。

3.4 分類算法

分類算法的流程為:

對于新的網頁,計算網頁中所有詞的TFIDF值進行排序。

取值最大的詞素,若該詞素屬于某個類別的特征集合,則將網頁設置為該類別,否則刪除該詞,再次取值最大的詞進行比較,以此類推求出網頁的類別。

[1]張祥.一個網頁分類系統的研究與實現[D].北京郵電大學,2013

[2]孔令成.基于特征提取和權值計算算法的中文網頁分類研究[D].安徽大學,2010

[3]彭浩,王雅琳.一個面向實時網頁分類的主題特征提取算法[J].計算機與現代化,2008,(7)

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久成人18免费| 欧美日韩精品一区二区视频| 婷五月综合| 国产欧美日韩另类| 制服丝袜一区二区三区在线| 青草视频久久| 亚洲一区二区三区麻豆| 爆操波多野结衣| 色偷偷综合网| 欧美一区福利| 男人天堂伊人网| 99九九成人免费视频精品| 欧美综合中文字幕久久| 精品国产美女福到在线不卡f| 欧美区一区| 久久综合亚洲色一区二区三区| 久久毛片网| 久久无码av一区二区三区| 无码中字出轨中文人妻中文中| 国产亚洲欧美在线专区| 亚洲国产无码有码| 成人一区在线| 日本一本正道综合久久dvd| 国产成人喷潮在线观看| 啪啪免费视频一区二区| 天天干天天色综合网| 男女男免费视频网站国产| 一区二区在线视频免费观看| 国产av一码二码三码无码 | 超碰91免费人妻| 午夜无码一区二区三区在线app| 欧美福利在线| 免费国产好深啊好涨好硬视频| 熟妇人妻无乱码中文字幕真矢织江 | 国产成人精品高清不卡在线| 亚洲第一成年免费网站| 国产成+人+综合+亚洲欧美 | 成人第一页| 天天爽免费视频| 欧美一级一级做性视频| 99国产精品国产高清一区二区| 亚洲综合色婷婷中文字幕| 国产日本一区二区三区| 亚洲欧美成人| 亚洲视频影院| 亚洲色大成网站www国产| 久久精品人人做人人| 又爽又大又黄a级毛片在线视频| 依依成人精品无v国产| 国产亚洲精久久久久久久91| 色综合中文| 久久午夜夜伦鲁鲁片无码免费| 男女猛烈无遮挡午夜视频| 久久免费精品琪琪| 91毛片网| 综合天天色| 国产一区二区三区在线精品专区| 亚洲国产日韩一区| 免费视频在线2021入口| 国产麻豆精品久久一二三| P尤物久久99国产综合精品| 色天天综合| 欧美亚洲国产精品久久蜜芽| 91精品情国产情侣高潮对白蜜| 色悠久久久久久久综合网伊人| 国产久操视频| 亚洲成A人V欧美综合天堂| 亚洲欧美综合精品久久成人网| 人妻无码一区二区视频| 免费一级毛片完整版在线看| 婷婷成人综合| 国产成人免费视频精品一区二区| 亚洲午夜18| 亚洲黄色网站视频| 亚洲三级影院| 无码中文字幕乱码免费2| 亚洲Av综合日韩精品久久久| 亚洲最猛黑人xxxx黑人猛交| 一级香蕉人体视频| 亚洲国产第一区二区香蕉| 91久久性奴调教国产免费| 99久久亚洲精品影院|