999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于超鏈接分析的網(wǎng)頁正文提取方法

2010-09-14 13:30:36翔,劉
泰山學(xué)院學(xué)報 2010年3期
關(guān)鍵詞:內(nèi)容實驗方法

任 翔,劉 彬

(泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)

基于超鏈接分析的網(wǎng)頁正文提取方法

任 翔,劉 彬

(泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)

隨著網(wǎng)絡(luò)的迅猛發(fā)展,w eb服務(wù)已經(jīng)成為研究的熱點之一.本文介紹了一種文件類型網(wǎng)頁文件的文本信息預(yù)處理技術(shù).該方法能夠解析網(wǎng)頁文件的組成結(jié)構(gòu),并從中提取出主體文本以供處理.測試表明該方法能快速有效地得到大部分HTML網(wǎng)頁的主體部分.

網(wǎng)頁正文;w eb服務(wù);超鏈接

0 引言

1 超鏈接的作用

人們在設(shè)計網(wǎng)頁的時候,總是準(zhǔn)備了一定的素材,這些素材是設(shè)計者希望通過網(wǎng)頁傳達(dá)給訪問者的信息.但是由于孤立的網(wǎng)頁很難被訪問,設(shè)計者會增加一些內(nèi)容來連接不同的頁面,例如增加超鏈接目錄或者具有搜索功能的表單等.增加的文字僅僅起向?qū)У淖饔?內(nèi)容通常和頁面原有的內(nèi)容不重疊,因而它們的加入會影響網(wǎng)頁內(nèi)容的原貌.

我們把網(wǎng)頁設(shè)計者為了輔助網(wǎng)站組織而增加的文字定義為“噪聲”,把原本要表達(dá)的文字素材稱為“主題內(nèi)容”.網(wǎng)頁含有指向其它網(wǎng)頁的一些超鏈接文字,它們通常聚集成塊,且獨立于主題內(nèi)容,僅僅起向?qū)У淖饔?這一類正是我們要去除的噪聲;網(wǎng)頁中含有的超鏈接文字出現(xiàn)在正文文字中間,具有向?qū)Ш完愂龅碾p重作用,即它們引向另一個網(wǎng)頁的同時也是當(dāng)前頁面主題內(nèi)容的一部分,如圖1所示,姚明和休斯頓火箭這兩個超鏈接可以說明這個網(wǎng)頁是介紹NBA火箭隊和中國球星姚明的事情的,這兩個關(guān)鍵詞可以代表網(wǎng)頁內(nèi)容.因此這種超鏈接是不能去除的,并且對網(wǎng)頁描述的意義重大.

圖1 超鏈接示例

2 網(wǎng)頁正文提取

2.1 現(xiàn)有的網(wǎng)頁正文提取方法

網(wǎng)頁文檔本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的,其數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,復(fù)雜程度遠(yuǎn)遠(yuǎn)高于普通的文本文檔,其數(shù)據(jù)結(jié)構(gòu)隱含、模式信息量大、模式變化快.

當(dāng)前對網(wǎng)頁文檔的正文提取方法有很多,文獻(xiàn)[3]的方法是對于使用同一個模板生成的網(wǎng)頁集,找出在該網(wǎng)頁集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁集中共同出現(xiàn)較少的內(nèi)容塊就是有效的網(wǎng)頁正文.實驗證明該方法是有效的,但該方法必須局限在基于同一個模板的網(wǎng)頁集,而web上的網(wǎng)頁模板不計其數(shù),因此該方法顯然不夠通用.

還有一種比較流行的方法是通過對網(wǎng)頁劃分為多個塊,然后根據(jù)某種算法進(jìn)行取舍,找到正文所在的那個塊,提取出來.現(xiàn)在存在多種網(wǎng)頁劃分成塊的方式,如基于DOM的分割[4],基于位置的分割[5],還有V ision-based Page Segm en tation[6].在文獻(xiàn)[7]中,作者使用Site Style Tree(SST)來描述網(wǎng)頁的版面和內(nèi)容,并定義了SST中節(jié)點的重要程度,通過節(jié)點的刪剪來得到網(wǎng)頁正文.

以上方法都是對HTML語義結(jié)構(gòu)進(jìn)行分析,找到網(wǎng)頁正文所在的位置進(jìn)行處理,提取出網(wǎng)頁的正文.但這些方法對于網(wǎng)頁結(jié)構(gòu)出現(xiàn)非常規(guī)現(xiàn)象時,效果不好.比如網(wǎng)頁的正文極短,而該網(wǎng)頁中的廣告欄含有的文字量很大,這樣會把廣告所在的部分當(dāng)成了正文部分提取出來,造成提取的失敗,并且由于加入了HTML語義分析,使得程序處理網(wǎng)頁的速度變慢,為了達(dá)到準(zhǔn)確率高和速度快并存的目標(biāo),本文提出了基于超鏈接分析的網(wǎng)頁正文提取方法.

聽了陳誠的一番話,胡璉這位只有三十六歲的年輕將軍內(nèi)心很復(fù)雜。作為黃埔四期的高材生,他在抗戰(zhàn)中屢立戰(zhàn)功,從旅長到副師長,一直到現(xiàn)在成為肩扛將星的師長,多少次出生入死,他早已將生死置之度外。此時,他不想多說什么,作為軍人,他只有服從命令,忠于職守,即使付出鮮血和生命,只要能夠取得勝利,那就是死得其所!想到這兒,他眼含熱淚,雙腳一并,向陳誠敬了一個標(biāo)準(zhǔn)的軍禮,大聲說:“請總司令放心,胡璉決心與石牌共存亡,不成功便成仁。”

2.2 網(wǎng)頁預(yù)處理

在使用超鏈接判斷之前,先要對網(wǎng)頁進(jìn)行預(yù)處理,去掉一些與正文無關(guān)的元素,分析如下:

首先是網(wǎng)頁正文存放的位置,它是包含在之間,作為某個HTML元素的內(nèi)容出現(xiàn)的,比如

元素的內(nèi)容.因此我們只需要對有內(nèi)容的元素進(jìn)行分析,而那些沒有內(nèi)容只有標(biāo)簽的元素可以刪掉.例如注釋標(biāo)簽,
,,


等就被刪除.

對于有內(nèi)容的HTML元素,例如style和scrip t等元素不包含正文.style元素主要是用來改善網(wǎng)頁的顯示效果的,它的內(nèi)容主要是設(shè)計網(wǎng)頁顯示的屬性,和網(wǎng)頁正文無關(guān);scrip t元素是腳本程序,用來設(shè)計動態(tài)網(wǎng)頁,它的內(nèi)容也和網(wǎng)頁正文無關(guān).因此要將這兩個元素刪除.

由于style元素,scrip t元素是必須有結(jié)束標(biāo)簽的,所以很容易定位這些元素所對應(yīng)的子字符串在網(wǎng)頁文檔總字符串s中的位置和長度,但考慮到很多網(wǎng)頁的不規(guī)范性,為提高程序的容錯性能,采用了一種標(biāo)簽配對的方法,將這些要刪除的元素各部分補(bǔ)齊,然后再進(jìn)行匹配刪除.

標(biāo)簽配對的方法如下:由于在style元素、scrip t元素的內(nèi)容中,除了存在注釋標(biāo)簽外,不會出現(xiàn)其他的標(biāo)簽,因此從開始標(biāo)簽向后查找,在除注釋標(biāo)簽之外的其他標(biāo)簽之前插入結(jié)束標(biāo)簽即可完成標(biāo)簽配對.

雖然HTML協(xié)議允許出現(xiàn)元素的交叉,即的情況,但sty le元素,sc rip t元素不會出現(xiàn)這種情況,故在此不再考慮這種情況.網(wǎng)頁預(yù)處理結(jié)束后,再對超鏈接進(jìn)行分析過濾正文,這樣可以提高系統(tǒng)分析效率,加強(qiáng)準(zhǔn)確性.

2.3 基于超鏈接分析的網(wǎng)頁正文提取

利用超鏈接可以判斷網(wǎng)頁的正文,我們采用的具體啟發(fā)式規(guī)則如下:

①一篇有主題網(wǎng)頁中的正文通常是用成段的文字來描述,中間通常不會加入大量的超鏈接,而非正文信息通常是伴隨著大量超鏈接出現(xiàn)的.

②正文中的兩個超鏈接之間的文字個數(shù)不會太少,而兩個廣告超鏈接或?qū)Ш匠溄又g的中文文字個數(shù)很少,有時沒有,有時只有幾個.因此在這里我們對兩個超鏈接之間的中文文字個數(shù)設(shè)置了一個閾值用來判斷是否為正文超鏈接,通過實驗證明,15個字?jǐn)?shù)的區(qū)分度較為合適.

本文基于以上的啟發(fā)式規(guī)則,提出了一種超鏈接判斷正文過濾法的新算法.該算法主要思想是通過判斷網(wǎng)頁中出現(xiàn)的超鏈接的性質(zhì),來判斷超鏈接前后的文字是否是網(wǎng)頁正文.

在經(jīng)過網(wǎng)頁預(yù)處理后,這時只剩下超鏈接標(biāo)簽還沒有刪除,開始對標(biāo)記之后的HTML代碼做逐字掃描,以“

超鏈接判斷正文過濾法的具體算法如算法1所示:

算法1 超鏈接判斷正文過濾算法

程序流程圖如圖2所示:

圖2 程序模塊流程圖

3 實驗數(shù)據(jù)及結(jié)果

超鏈接判斷正文過濾法的程序?qū)崿F(xiàn)是采用的D elphi7設(shè)計的,開發(fā)的硬件平臺為:pen tium 4 2.4G的CPU,512M內(nèi)存.為了驗證這個新算法的正確性,從各大網(wǎng)站下載了1萬張網(wǎng)頁進(jìn)行了實驗,并隨機(jī)抽取了1000張網(wǎng)頁的處理結(jié)果進(jìn)行驗證,只有少數(shù)幾個網(wǎng)頁沒有抽取出正文,經(jīng)分析發(fā)現(xiàn)是由于該網(wǎng)頁是一個網(wǎng)站的首頁,全部是鏈接構(gòu)成的,沒有正文部分,故認(rèn)為程序是正確的.該程序在執(zhí)行效率上也是很好的,對一個1000字左右的網(wǎng)頁抽取正文,平均時間為17毫秒.并且本算法克服了分塊算法容易出現(xiàn)的錯誤,即找錯網(wǎng)頁正文所在的塊.如鏈接地址為h ttp://new s.sina.com.cn/w/p/2006-12-30/ 180811925138.sh tm l的網(wǎng)頁,它的正文部分只有一句話,而與正文無關(guān)的廣告卻占了很大篇幅,這樣就會造成網(wǎng)頁正文提取的失敗,而本算法可以順利提取出該網(wǎng)頁的正文部分.如圖3所示:

圖3 網(wǎng)頁正文提取實例

經(jīng)過一些有代表性的網(wǎng)站(見表1)測試,我們認(rèn)為,該方法能有效得到大部分HTML網(wǎng)頁的正文部分.

表1 經(jīng)過測試的網(wǎng)站

為了驗證本算法的效果,采用聚類實驗來檢驗.在聚類實驗中,準(zhǔn)備五類網(wǎng)頁,分別為:時尚類、體育類、娛樂類、政治類、汽車類,每類網(wǎng)頁數(shù)為30.本文做了兩組實驗,在第一組實驗中,沒有使用網(wǎng)頁正文提取而直接對網(wǎng)頁提取特征描述,然后采用遺傳算法與k-m eans結(jié)合的聚類方法聚類,記錄聚類的實驗數(shù)據(jù).在第二組實驗中,先調(diào)用本文中的算法來得到網(wǎng)頁測試集的正文,然后得到網(wǎng)頁的特征描述,最后采用的與第一組相同的聚類方法聚類,記錄聚類的實驗數(shù)據(jù).在這里,本文使用網(wǎng)頁的召回率和精確率來描述聚類的結(jié)果.

兩組實驗的數(shù)據(jù)結(jié)果對比如圖4、圖5所示:

圖4 召回率對比

圖5 精確率對比

通過圖4、圖5所做的對比可知,在使用了本算法的第二組數(shù)據(jù)中,聚類的召回率和精確率都有了改進(jìn),特別是精確率有了明顯的提高.

4 結(jié)束語

網(wǎng)頁文檔是網(wǎng)上應(yīng)用最多的文件格式,處理好網(wǎng)頁文檔對處理網(wǎng)上的信息內(nèi)容有很大的意義.本文提出了一種網(wǎng)頁文檔提取正文的方法,該方法通過分析網(wǎng)頁中出現(xiàn)的超鏈接,得到網(wǎng)頁的正文.測試表明該方法能有效地得到大部分網(wǎng)頁的主體部分.本文中對HTML文件正文提取的方法不僅可以用于提取出HTML文件的主體文本,還可以用于網(wǎng)頁的特征提取以及網(wǎng)頁的分類、推薦等web服務(wù)領(lǐng)域,具有較強(qiáng)的推廣應(yīng)用價值.

[1]Tkach D.Technology TextM in ing:Turn ing Inform ation into Know ledge[R].America:AW hite Paper from IBM,1998.

[2]Baizilay R,ElhadadM.U sing LexicalChains for Text Summ arization[C].M adrid,Spain:Proceeding of the ACL’97/EACL’97W orkshop on Intelligent Scalable Text Summarization,1997.

[3]Sh ianHuaL in,JanM ingHo.D iscovering inform ative contentblocks from W eb documents[C].Edmonton:SIGKDD,2002.

[4]Chen J.,Zhou B.,Shi J.,Zhang H.-J.,Q iu F.Function Based ObjectModel TowardsW ebsite Adap tation[C].Hong kong:Procrrdingsof the 10 thW orldW ideW eb conference,2001.

[5]KovaceivicM.,D iligentiM.,Gori,M.,M ilutinovic V..Recognition of Common A reas in aW eb Page U sing V isual Information[C]. M aebashi TERRSAA:A possible app lication in a page classification.Proceedings of 2002 IEEE International Conference on Data M ining( ICDMp02),2002.

[6]Yu S.,CaiD.,W en J.-R.,M aW.-Y..Imp roving Pseudo Relevance Feedback inW eb Inform ation retrievalUsingW eb Page Segmentation[C].Budapest:Proceedingsof twelfthW orldW ideW eb Conference(WWW 2003),2003.

[7]Lan Yi,B ing L iu,XiaoliL i.Elim inatingNoisy Inform ation inW eb Pages forDataM ing[C].W ashington:Proceed ingsof the nin th ACM SIGKDD international conference on Know ledge discovery and datam ining,2003.

Research on M a in Tex t Ex traction for Ch ineseW eb Pages Based onW eb Hyper link

REN X iang,L IU B in
(Schoolof Info rm ation Science and Techno logy,Taishan University,Tai’an,271021,China)

W ith the inc rease of In ternet,w eb service has been the focusof research.The paperp roposes a Chineseweb pagesp rep rocessingm ethod.Them ethod can parsew eb pages,and extract them ain part from theweb pages.The experim ent show s that them ethod is feasib le to parsew eb pages.

m ain textofweb pages;web service;hyperlink

TP391

A

1672-2590(2010)03-0044-05

2010-03-28

任 翔(1983-),男,山東泰安人,泰山學(xué)院信息科學(xué)技術(shù)學(xué)院教師.

猜你喜歡
內(nèi)容實驗方法
記一次有趣的實驗
內(nèi)容回顧溫故知新
做個怪怪長實驗
可能是方法不對
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久综合结合久久狠狠狠97色 | 依依成人精品无v国产| 亚洲男人在线天堂| 中文无码日韩精品| 亚洲狠狠婷婷综合久久久久| 最新精品国偷自产在线| 91久久夜色精品| 欧美日韩精品在线播放| 久久国产精品无码hdav| 91青青草视频| 伊人天堂网| 国产一区二区三区在线观看免费| 激情视频综合网| 老色鬼久久亚洲AV综合| 国产激情在线视频| 精品视频第一页| 日韩毛片在线播放| 国产无码精品在线| 国产粉嫩粉嫩的18在线播放91| 欧美日韩理论| 国产精品视频猛进猛出| 婷婷综合色| 亚洲色大成网站www国产| a级毛片在线免费| 欧美中文字幕在线二区| 久久免费观看视频| 人妻无码AⅤ中文字| 亚洲欧美成人影院| 手机在线国产精品| 久久亚洲国产一区二区| 亚洲IV视频免费在线光看| 亚洲日本中文综合在线| 国产欧美专区在线观看| 欧美有码在线观看| 国产亚洲精品精品精品| 波多野结衣视频一区二区| 国产成人精品日本亚洲77美色| 99999久久久久久亚洲| 色偷偷综合网| 狂欢视频在线观看不卡| 精品一区二区三区无码视频无码| 国产在线精品网址你懂的| 中文字幕66页| 亚洲欧洲一区二区三区| …亚洲 欧洲 另类 春色| 国产精彩视频在线观看| 国产一区二区三区免费观看| 久久精品嫩草研究院| 97超碰精品成人国产| 精品久久久久久成人AV| 国产视频a| 99ri精品视频在线观看播放| 国产99视频在线| 91福利一区二区三区| 激情视频综合网| 99久久国产综合精品2023| h视频在线观看网站| 久久国产精品夜色| 一级片一区| 三级毛片在线播放| 九月婷婷亚洲综合在线| 九九视频在线免费观看| 欧美成人二区| 99久视频| 在线无码九区| 国产精品成人久久| A级毛片无码久久精品免费| 国产成人高清精品免费5388| 激情综合激情| 香港一级毛片免费看| 久久国语对白| 亚洲国产欧洲精品路线久久| 欧美福利在线| 四虎国产永久在线观看| 成人噜噜噜视频在线观看| 狠狠色综合久久狠狠色综合| 亚洲熟女中文字幕男人总站| 亚洲乱伦视频| 国产靠逼视频| 91po国产在线精品免费观看| 国产精品亚洲专区一区| 成人一级免费视频|