介紹了中文網頁分類的概念和過程,分析比較了中文網頁分類的主要方法和關鍵技術,簡述了實驗數據集和實驗方法,并討論了網頁分類研究存在的問題和未來的研究方向.
網頁分類可以幫助用戶從海量的網頁中迅速、準確的找出所需要的信息,是有較大實用價值的關鍵技術.網頁分類是在文本分類方法的基礎上,充分考慮網頁自身的一些特點進行的,在分類時除了網頁文本內容外,網頁中所包含的如HTML標簽(tag)、主題及超鏈接等半結構化信息都將被考慮利用.而且如何利用網頁自身的特點來提高分類精度也成為近年來網頁分類領域研究熱點.目前對于網頁分類有很多研究,本文對網頁分類的相關研究做了一個概述,以便更好地進行深入研究.本文將對網頁分類的過程、網頁分類的主要方法、網頁分類的關鍵技術、網頁分類的實驗數據集和實驗方法進行概述,并討論了網頁分類研究存在的問題和未來的研究方向.
網頁分類就是根據預先定義的類別標簽,為待分類網頁集合中的每一個網頁確定一個類別[1].
網頁分類過程一般如下:首先通過訓練一定的網頁集合得到類別與未知網頁的映射規則,即計算出網頁與類別的相關度,再采取一定的閾值策略決定網頁的類別歸屬.分類過程可以分成訓練階段和分類階段.訓練階段首先為預先確定的分類體系中的每個類別人工挑選一定量的樣本,用來最大程度地體現每個類的特征并區別不同類之間的特征.然后將所有樣本都表示成向量形式,運用分類算法,建立分類器.在分類階段中,一個待分類的中文網頁經過中文分詞并表示成向量后,利用訓練階段得到的分類器將新網頁歸到某一個或幾個最有可能的類別.
國內對自動文本分類領域的研究是從九十年代中期開始的[2-4],研究也比較成熟,有很多成熟的分類算法應用于分類.不過國內對于網頁分類的研究就比較薄弱了,北京大學和清華大學是較早開始研究網頁分類技術的機構,它們各自將網頁分類技術應用在搜索引擎“天網”和“網絡指南針”上.從2004年6月起,北京大學網絡實驗室和北京大學計算語言學研究所建立并維護的信息檢索研究論壇(CWIRF),對中文網頁分類的研究起了很大推動作用[5].目前,研究者們針對中文網頁分類提出了一些解決方法,一種方法是在網頁分類前,先對網頁進行預處理,即將網頁中所包含的如HTML標簽、主題及超鏈接等結構信息去除,然后利用文本分類方法對內容信息進行分類[6].這種分類方法的分類精度取決于網頁去噪技術的優劣[7],而且缺陷是:一個網頁具體被分到哪一類,取決于該網頁中包含了哪些反映自身主題的信息,這樣,當網頁中沒有包含能說明自身主題的關鍵詞時,如鏈接型網頁,就很難對其進行正確分類了.另一種方法是分類時不光考慮純文本信息,還考慮其他半結構化信息,如標題、頁面描述、關鍵詞和超鏈接等.因為這些半結構化信息中出現的關鍵詞包含了網頁的重要信息,對分類有較大的作用,所以可以充分利用這些半結構化信息,通過調節這些關鍵詞的權重來對網頁進行自動分類.一些研究也驗證了這種方法的有效性,Lin Shian Hua等人將網頁中的信息按照
標簽劃分為不同的信息塊,通過信息熵的計算將其劃分為有用的或冗余的信息塊,對冗余信息塊中的特征項賦予較低的權值,減小它對分類結果的影響[8].同樣網頁間的鏈接對于網頁分類來說蘊含著重要的信息,因為網頁編輯時,這個網頁中的鏈接或多或少體現了編輯者對鏈接頁面的認同,反映了網頁與鏈接頁面之間的某種相關性,大量研究也證明了利用相關網頁調整分類結果可以有效提高分類精度.任玉、樊勇等根據網頁文本信息的結構和內容特征,提出一種網頁主題文本信息的抽取策略,將網頁文檔表示為DOM標簽樹的形式,然后根據Web頁面的結構特征進行內容塊的分割,以網頁的文本內容特征為依據識別鏈接型和主題型內容塊,并提取主題型網頁的文本信息塊,有效地實現了鏈接型和主題型網頁的分類[9];Yang Y、Glover EJ、Furnkranz J、Kan MY[10-13]等人在各自研究中利用超鏈接中的錨詞(anchor word)或其周圍的詞語(擴展錨詞)作為特征來表達超鏈接所指向的文本;郭淼霞、吳揚揚提出基于Web超鏈接結構信息的網頁分類方法,充分利用WEB結構信息,提高分類精度[14].也有研究者認為網頁是包含噪音信息的半結構化文本,所以可以將網頁分類看成是噪音環境下的文本分類,研究[1]通過對比實驗,找到了一種抗噪音的網頁分類算法.目前,在分類時,如何恰當地表示網頁的結構化信息,是一個仍需繼續研究的問題,而且.人們對網頁分類的研究也從傳統的基于網頁內容轉向利用網頁的內部結構及外部鏈接關系.3 網頁分類關鍵技術
3.1 預處理技術
在網頁分類研究中,網頁預處理是一個很重要的步驟,對網頁的預處理過程主要涉及噪音去除和主題相關信息提取等技術.Lan Yi將網頁噪音分為全局噪音和局部噪音[15].一般分類研究只涉及局部噪音的去除.網頁去噪的方法主要有:基于啟發式方法、基于機器學習方法以及在機器學習方法中采用啟發式規則輔助的方法[16].基于啟發式方法是通過一些啟發式的規則判斷網頁中哪些是有用信息,哪些是噪音信息[7],不過因為網頁格式的多樣性,基于啟發式方法通用性不強,效果往往不能令人滿意.目前,研究者大多使用在機器學習方法中采用啟發式規則輔助的方法進行去噪.王建冬提出一種基于內容規則的網頁凈化算法.先通過迭代的方式對于網頁中的噪聲內容進行剝離,又提出一種基于修正的編輯距離的計算錨文本的主題相似性的算法,該方法在一定程度上考慮了網頁的語義因素[17].Yi Lan將同一個網站上各網頁的DOM樹進行合并壓縮,形成CST(Compressed Structure Tree),用以發現和去除網頁中的噪聲,并根據CSS樹對處于不同位置的特征賦予不同的權值,以提高分類的精度[18].萬樂等提出提出了一種基于主題的網頁噪音去除算法,通過構造網頁DOM樹的一個變種,即內容塊樹,利用分類器判斷網頁的噪音塊,該方法噪音去除精度是87%[19].Ji Xiang-wen等提出了一種基于樹相似度的模板生成方法,并將生成模板用于頁面結構信息的提取,其模板生成較為復雜,在提取簡單頁面信息時代價過大[20].
對于主題相關信息的提取,一般和去噪同時進行,任玉、樊勇等提出一種網頁主題文本信息的抽取策略,以網頁的文本內容特征為依據識別鏈接型和主題型內容塊,能準確地完成主題型網頁的文本信息塊的抽取任務[9].文獻[14]在去噪的同時提取文本信息和超鏈接信息,所提取信息對分類精度的提高,均在分類試驗中得到驗證.
3.2 文本模型
向量空間模型(VSM)是基于統計的網頁分類系統中廣泛采用的文本計算模型.向量空間模型可以將給定的文本轉換成一個維數很高的向量.向量空間模型最突出的特點是可以方便的計算出兩個向量的相似度,即向量所對應的文本的相似性.目前VSM仍是文本表示的主要方法,也有研究者進行新的嘗試.曾致遠、張莉提出一種新的文本表示算法,應用在網頁文本過濾系統中.比起傳統的向量空間模型,這種建立在其上的改進算法有更快的過濾速度和更高的過濾精度.該算法直接從過濾模板的特征集中取出詞條,只在網頁文本出現該詞的地方進行精確處理.根據特征項所在的網頁標簽,賦予不同的權值系數,以準確定義特征詞在文中的重要程度,最后建立該網頁的文本表示模型[21].目前為止,非VSM的表示在理論上的合理性及面對實際應用的可擴展性還需要深入驗證,適合它們的分類方法比較單一,而且未得到廣泛的應用.
3.3 特征選擇
特征選擇是網頁分類過程中的關鍵技術.特征選擇的主要方法是利用數學工具降低模式維數,尋找最有效的特征構成較低維數的模式向量.中文文本分類的特征空間所采取的特征選擇算法一般是構造一個評價函數,對特征集中的每個特征進行獨立的評估.這樣每個特征都獲得一個評估分,然后對所有的特征按照其評估分的大小進行排序,選取預定數目的最佳特征作為結果的特征子集.所以,選取多少個最佳特性以及采用什么評價函數,都需要針對某一個具體的問題通過試驗來決定.常用的評估函數有:特征頻度(Term Frequency)、文檔頻度(DocumentFrequency)、特征熵(Term Entropy)、互信息(Multi Information)、信息增益(Information Gain)、X2統計量(Chi square)、特征權(Term Strength)、期望交叉熵(Expected Cross Entropy)、文本證據權(Weight of Evidence for Text)、幾率比(Odds Ratio)等.這些評估函數從不同的角度度量特征對分類所起的作用,以上方法各有利弊,沒有哪種方法對分類效果有絕對優勢,這是因為文本分類本身涉及到訓練數據集合本身的特點,同時不同的分類器對文本分類的效果也不盡相同.
在網頁分類研究中,研究者們往往根據網頁特點,對傳統特征提取算法做相應改進,以適應網頁分類需要.谷峰提出了一種基于序列數據挖掘的中文網頁候選特征的選擇方法,該方法運用改進的 PAT樹結構挖掘頻繁出現在同一類中文網頁中的字符串,通過凈頻率計算,挖掘出中文網頁中頻繁出現的有意義的詞、短語、英文單詞等,該算法不僅能挖掘出傳統方法所選擇出的絕大部分特征,還能挖掘出一些有意義的、切詞系統詞庫中沒有的、能反映分類特點的人名,地名,新詞、常用語、外文單詞等[6].李會、王立峰提出了一種特征選擇方法:首先計算文本的特征值,每個特征值被賦予一個權重值,權重值的大小表示文本特征的重要程度,權重值最大的特征為決定性特征,決定性特征能代表某一類;然后通過構造樹結構模型來消除噪音文本,同時還可以降低計算復雜度;最后改進該算法,動態的檢測相對于當前節點的最佳節點更有利于進行特征選擇.實驗結果表明,該方法具有較高的分類精度,且計算成本較低,符合規模Web自動分類的需要[22].目前對于特征選擇方法的研究要針對于中文網頁的特點,結合特定的分類算法進行.
3.4 網頁分類算法
網頁分類算法大都來自文本分類算法,常用的網頁分類算法有以下幾種:kNN 算法、NB(Na觙ve Bayes)算法、基于SVM的分類算法、遺傳算法(GA)、Rocchio算法等.這些算法在文本分類中都有較好分類效果,但是直接應用于網頁分類時,效果就差強人意了,這是因為網頁是包含噪音信息的半結構化文本.有研究者嘗試尋找能抗噪音的分類算法,王小冷、王斌把在傳統文本分類中性能基本相當的基于N-gram模型的貝葉斯(NGBayes)、基于分詞的樸素貝葉斯(Nbayes)和基于分詞的k近鄰kNN 分類方法應用到網頁分類領域,通過實驗證明NGBayes的分類性能遠高于其他兩種算法,是一種抗噪音的中文網頁分類方法[1].但是更多的研究者則是充分利用各種分類算法的特點,結合多種分類算法進行分類,以提高分類精度.劉曉勇將遺傳算法(GA)和支撐向量機(SVM)結合起來,利用遺傳算法良好的尋優能力優化SVM的分類性能,實驗表明,新算法的分類正確率較SVM有顯著提高[23].
4 網頁分類實驗與方法
4.1 采用的實驗數據集
目前,由于沒有統一的數據集,大多研究者在研究中均采用自己建立的數據集做實驗和研究基礎,郭淼霞等從互聯網上收集組成了實驗數據集,包括126個財經類網頁、114個旅游類網頁、101個中醫類網頁,共3個類別,341個網頁,以及從www.yahoo.com.cn搜索引擎上下載的它們的鄰居網頁,共1705個網頁.從而在這個數據集上作相關的實驗[14].不過,幸運的是,目前已有一些研究機構開始建立數據集,供研究者使用.從2004年開始,北京大學中文WEB信息檢索論壇提供數據集CCT2006和CCT2002-V1.1供研究者進行分類實驗,已有很多研究[1,6,7]采用該數據集做實驗和研究基礎.也有相關研究[19]以sogou labs提供的語料庫為研究基礎.不過由于目前還沒有形成統一、標準的數據集,所以各研究的實驗結果沒有可比性和可重復性,不便于交流與提高.
4.2 采用試驗方法
網頁分類中評估分類效果常用的評估指標[24]有:準確率、查全率和F1測試值,另外還有微平均,宏平均評估指標.準確率和查全率反映了分類質量的兩個不同方面,結合兩者提出一些綜合評估指標,像F1測試值.微平均指計算每一類的準確率、查全率和F1值.宏平均指計算全部類的準確率、查全率和F1值.

網頁分類研究大多數都采用這些指標評估分類效果,研究[1]利用MacroF1評估分類效果,研究[14]采用準確率、查全率和F1值評估分類效果,研究[22]利用正確率對分類效果進行評估.
5 存在問題和研究展望
中文網頁分類是實用的關鍵技術,可以幫助用戶避開互聯網上繁雜的信息,準確找到所需要的信息.由于中文網頁的特點所限,目前中文網頁分類技術的研究還很薄弱,需要解決的問題還有很多,首先由于沒有統一、標準實驗數據集,導致實驗結果沒有可比性和交流不便.所以建立統一、標準的數據集勢必會促進中文網頁分類的研究.其次特征選擇要針對于中文網頁的特點,結合特定的分類算法進行更深入的研究.最后,如何有效地利用Web頁面的鏈接結構信息對文檔進行表示和分類也是需繼續研究的課題.
6 結束語
本文對網頁分類的過程、主要方法、關鍵技術、實驗數據集和實驗方法進行了概述,討論了網頁分類研究存在的問題和未來的研究方向.
〔1〕王小冷,王斌.一種抗噪音的中文網頁分類方法[J].中文信息學報,2007,21(4):48-54.
〔2〕吳軍,王作英,等.漢語語料的自動分類[J].中文信息學報,1995,9(4):27-32.
〔3〕黃萱菁,吳立德.基于向量空間模型的文檔分類系統[J].模式識別與人工智能,1998,11(2):147-153.
〔4〕鄒濤,王繼成,黃源.中文文檔自動分類系統的設計與實現[J].中文信息學報,1999,13(3):26-32.
〔5〕HTTP://www.cw irf.org/.
〔6〕谷峰,劉晨曦,吳揚揚.基于序列數據挖掘的中文網頁特征選擇方法[J].山東大學學報(理學版),2006,41(3):95-98.
〔7〕劉晨曦,吳揚揚.一種基于塊分析的網頁去噪音方法[J].廣西師范大學學報:自然科學版,2007,25(2):61-63.
〔8〕Lin Shian-Hua,Ho Jan-M ing.Discovering Informative Content Blocks from W eb Documents[A].Proceedings of theeighth ACM SIGKDD International Conference on Know led geDiscovery&Data M ining[C].New York,USA:[s.n.],2002.588-593.
〔9〕任玉,樊勇,鄭家恒.基于分塊的網頁主題文本抽取[J].廣西師范大學學報:自然科學版,2009,27(1):141-144.
〔10〕Yang Y,Slattery S,Ghani R.A study of approaches to hypertext categorization.Journal of Intelligent Information Systems,2002,18(2-3):219-241.
〔11〕Glover EJ,Tsioutsiouliklis K,Law rence S,Pennock DM,Flake GW.Using web structure for classifying and describing Web pages.In:Proc.of the Int’l Conf.on the W orld W ide W eb(WWW-2002).Honolulu:ACMPress,2002.562-569.
〔12〕Furnkranz J.Exploiting structural information for text classification on the WWW.In:Hand DJ,Kok JN,Berthold MR,eds.Proc.of the Advances in Intelligent Data Analysis.Springer-Verlag,1999.487-497.
〔13〕Kan MY,Thi HON.Fast Webpage classification using URL features.In:O tthein H,Hans JS,Norbert F,Abdur C,W ilfried T,eds.Proc.of the 14th ACM Conf.on Information and Know ledge Management(CIKM-05).Bremen:ACM Press,2005.325-326.
〔14〕郭淼霞,吳揚揚.基于W eb超鏈接結構信息的網頁分類技術研究[J].泉州師范學院學報,2008,26(4):25-29.
〔15〕Lan Yi,Bing Liu,Xiaoli Li.Eliminating noisy information in W eb Pages for data mining[C]//Proc of the 9th ACM SIGKDD Int Conf on Know ledge Discovery and Data M ining.New York:ACM,2003:296-305.
〔16〕毛先領,何靖,閆宏飛.網頁去噪:研究綜述[J].計算機研究與發展,2010,47(12):2025,2036.
〔17〕王建冬,王繼民,田飛佳.一種基于內容規則的網頁去噪算法[J].現代圖書情報技術,2008,162(3):51-54.
〔18〕Yi Lan,Liu Bing.W eb Page Cleaning for W eb M ining throughFeature W eighting[A].Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence( IJCAI-03 [C].Acapulco,Mexico:[s.n.],2003.654-656.
〔19〕萬樂,左萬利,高金.基于主題的網頁噪音去除機制[J].計算機工程與設計,2008,29(8):2072-2084.
〔20〕JIXiang-wen,ZENGJian-ping,ZHANG Shi-yong,et al.Tag tree template for Web information and schema extraction [J].Expert Systems w ith Applications,2010,3(12):8492-8498.
〔21〕曾致遠,張莉.基于向量空間模型的網頁文本表示改進算法[J].計算機工程,2006,32(3):134-139.
〔22〕李會,王立峰.W eb網頁文本特征選擇方法研究[J].計算機工程與設計,2010,31(16):3724-3727.
〔23〕劉曉勇.基于GA與SVM融合的網頁分類算法[J].遼寧工程技術大學學報(自然科學版),2010,29(5):953-955.
〔24〕Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization.KDD-2000 Sixth ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Boston,MA,UA,2000.
TP391.1
A
1673-260X(2011)12-0051-03
主站蜘蛛池模板:
鲁鲁鲁爽爽爽在线视频观看|
日韩无码黄色|
91精品综合|
久热re国产手机在线观看|
四虎综合网|
精品黑人一区二区三区|
国产又粗又猛又爽|
国产网友愉拍精品视频|
国产xxxxx免费视频|
久青草网站|
国产精品性|
欧美色丁香|
三级国产在线观看|
免费毛片a|
中国一级特黄视频|
国产资源站|
欧美午夜网|
日本精品影院|
国产在线91在线电影|
99在线观看国产|
欧美日韩动态图|
免费国产黄线在线观看|
国产jizz|
国产av色站网站|
国产精品视频猛进猛出|
911亚洲精品|
亚洲国产综合自在线另类|
日韩视频免费|
久久免费观看视频|
国产美女精品一区二区|
久久视精品|
国产精品极品美女自在线看免费一区二区|
美女一级免费毛片|
日本人又色又爽的视频|
国产福利微拍精品一区二区|
日本91视频|
国产精品美女自慰喷水|
国产性精品|
亚国产欧美在线人成|
天天综合亚洲|
99热最新在线|
久久国产精品麻豆系列|
91九色视频网|
97久久免费视频|
亚洲国产日韩在线成人蜜芽|
欧美亚洲第一页|
久久久久久尹人网香蕉|
亚洲AV人人澡人人双人|
免费99精品国产自在现线|
国产精品福利导航|
中文无码毛片又爽又刺激|
欧美精品一二三区|
h视频在线观看网站|
午夜精品久久久久久久2023|
久久精品国产91久久综合麻豆自制|
国产激爽爽爽大片在线观看|
国产欧美日韩91|
亚洲欧洲日本在线|
国产日产欧美精品|
亚洲天堂.com|
99热这里只有精品2|
国产伦片中文免费观看|
久久精品视频一|
国产精品七七在线播放|
欧美中日韩在线|
国产国产人免费视频成18|
欧美另类精品一区二区三区|
一区二区欧美日韩高清免费|
亚洲五月激情网|
国产精品自在在线午夜|
97视频在线观看免费视频|
99精品这里只有精品高清视频|
毛片三级在线观看|
国产精品尹人在线观看|
国产麻豆另类AV|
久久免费观看视频|
国产美女主播一级成人毛片|
久久黄色影院|
99久久精品国产自免费|
国产性精品|
91在线播放免费不卡无毒|
国产产在线精品亚洲aavv|