999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DOM和神經網絡的網頁凈化應用

2012-06-01 02:55:02
電子科技 2012年1期
關鍵詞:內容實驗

李 劍

(南昌陸軍學院戰斗實驗室,江西南昌 330103)

互聯網規模的幾何級數增長和萬維網的缺乏規范性,使網絡信息檢索與傳統信息檢索相比呈現出明顯的不同之處:互聯網絡信息檢索面向的對象為海量數據[1];互聯網絡信息檢索所提供的信息內容包羅萬象,形式多樣。在這種情況下,網頁凈化技術成為網絡信息檢索特有的一個研究領域,受到越來越多研究人員的關注。對于有主題的網頁,文中提出了基于DOM和神經網絡的網頁凈化方法。

1 網頁凈化系統的模型

文中網頁凈化系統模型分為3個模塊,分別對應系統處理網頁的3個不同階段:在第一個模塊中,是把整個網頁的文檔分割成不同的內容塊,然后對這些塊進行分析;第二個模塊是將內容塊樹中的按照給定標準選擇出固定數量的子樹,作為模塊三的輸入數據;模塊三是神經網絡的運行部分,能夠選擇出網頁的主要內容塊,模型圖如1 所示[2-3]。

圖1 整個模型框架圖

2 網頁凈化方法

HTML文檔是一種半結構化的文檔,這里運用了HTML Parser工具對它進行解析。HTML DOM是一種樹形的結構,通常被稱為HTML DOM樹。它的每個結點都代表一個塊單元,這里把DOM樹的結點分為兩種[4]:(1)組織結點,例如:<table>,<tr>,<div>,<ui>等,是被用以劃分整個網頁的結構或組織網頁的內容。(2)作非組織結點,展示網頁內容,例如:<td>,<Ii>,<p>,<img>等。通常非組織結點包含在組織結點內。

2.1 建立內容塊樹

通過對大量帶有主題的網頁進行研究分析,發現這類的網頁有著鮮明的特征,內容基本都是被按照所處位置不同被分割成幾個內容塊,幾個內容塊在視覺上都有區別,并且網頁大部分都用 <table>或者<div>劃分頁面內容。因此,可借用這個特征,把一個網頁轉化成一個內容塊樹,而內容塊樹又是由子內容塊樹構成,子內容塊樹是由它所在的塊中的一些相關DOM結點組成。這樣,就方便地把一些有相關信息和有相似布局的DOM結點集中在一起,從而為下面去除噪音信息做好準備工作[5-6]。對此,設計算法如下:

(1)建立HTML文檔的DOM樹,然后把DOM樹轉化成DOM結點屬性,同時把組織結點和非組織結點分別標上對應的標簽。

(2)建立一個空的以<body>為根結點的內容塊樹,再把所有的組織結點給放進一個結點池里。

(3)從結點池中取一個結點。

1)如該結點的左孩子是組織結點,則跳到2),否則跳到3);如該結點沒有孩子,則跳到4)。

2)如該結點是<table>,<tbody>,<div>并且它的后代結點包含<p>,<li>結點的話,就把該結點和它所有的后代結點都放進到一個新的隊列中去;否則就把該結點的左孩子給讀進來,然后跳向1)。

3)如該結點的其它孩子結點都不是組織結點,則把該結點和它的后代結點都放進到一個新隊列中去;否則,把它的其它孩子給讀進來,然后跳向1)。

4)如該結點沒有父結點或者它是<h1~h2>,<hr>,則把該結點標注成S(j++);否則把該結點,它的父結點和它所有的兄弟結點都放進一個新的列表中。

5)從結點池中取出下一個結點。

6)for((3)中建立的所有隊列)。

7)檢查每個隊列中的父結點的所有屬性,比如,fontsize,fontcolor等。若有一個孩子結點和父結點有相同的屬性,這個父結點就將被作為一個分離結點從它的隊列中移除。

(4)如果隊列中的父結點中包含<h1~h6>的話,該父結點也會被作為分離結點從隊列中移除。

高情千古一真隱——陶淵明的隱逸思想和隱逸生活探析………………………………………………………………………李蘭東(3.49)

(5)根據建立隊列的順序在<body>結點下把所有的子內容塊樹線建立起來,最終一個完整對應于網頁的內容塊樹也就建成了。

2.2 初步選擇子內容塊

在對主題型網頁分析研究中,還發現一些網頁內容在網頁的展示中需要較多的HTML標簽去進行修飾編碼,特別是標題、邊欄、廣告欄、眉頭和頁腳等。從中可以統計出,與網頁主題關系度較小的網頁信息塊,它所包含的HTML編碼都較多。因此,為了從內容塊樹中抽取得網頁的主要內容塊,把冗余的不相關的或者相關度低的信息過濾凈化掉,文中參考了子塊中文本內容和HTML編碼的比例特征對子塊進行初步篩選:

(1)設定子內容塊占總內容文本比例的臨界值和子內容塊和它對應的HTML編碼的比例的臨界值。

(2)計算整個內容塊樹的文本大小。

(3)計算各個內容塊子樹的文本大小,并得出各文本占內容塊樹文本的比例。

(5)計算出各個內容子塊和它對應的HTML編碼的比例。

(6)通過上面的臨界值,來綜合選出用于作為神經網絡的訓練輸入子內容塊。

2.3 選擇出主要內容塊

本模塊以BP神經網絡為基礎構建,整個模塊分成兩個階段:訓練階段和測試階段。

文中運用的神經網絡由3層結構組成:輸入層、隱含層和輸出層。實驗證明,多層神經元并不會使結果更優化,反而增加了計算的復雜度,因此采用標準3層結構。作用函數為非線性的Singmod型函數,表達式為

3 實驗及分析

從新浪博客、網易體育和百度知道網上分別獲取了3個不同類型的網頁,數量都為600個,其中各自的500個網頁用作訓練,另外各自的100個網頁用來測試。實驗結果的分析通過3個指標來衡量,分別是正確率CR,誤取率ER和漏取率LR。

其中,CB是提取出的正確的內容塊數;TB是總的主要內容塊數;EB是誤取的內容塊數;LB是漏取的主內容塊數。

在運用上述3個模塊對實驗數據進行實驗后,依據實驗結果計算出各自的3個指標數據,用柱狀圖表示如下。

圖2 實驗結果

如圖2所示,無論從正確率、錯誤率和漏測率都能夠比較正確地把網頁中的冗余信息去除掉,通過從3類網頁的分析和實驗結果中,得出網易體育的主題性最強,其次是百度知道及新浪博客。而且網易體育的凈化效果在3個指標中也是最好的。從而說明,該方法是對主題越突顯的網頁效果越好,適合用于網頁分類應用中,比如搜索引擎。在搜索引擎按照一定的主題和算法爬取到網頁后,要對這些網頁進行分類和建立索引,這個凈化方法就會為網頁的分類提供較大的幫助。

4 結束語

在改進的DOM樹和BP神經網絡理論的基礎上,設計了一種新的中文網頁凈化方法,通過實驗結果,看到了該方法對于有主題網頁凈化的效果良好,且網頁主題越清晰,效果越好。

[1]張志剛,陳靜,李曉明.一種HTML網頁凈化方法[J].情報學報,2004(4):387-393.

[2]王建冬,王繼民,田飛佳.一種基于內容規則的網頁去噪算法[J].現代圖書情報技術,2008(3):51-54.

[3]萬樂,左萬利,高金.基于主題的網頁去噪音機制[J].計算機工程與技術,2008(8):2072-2084.

[4]劉亞清,陳榮.基于隱馬爾可夫模型的 Web信息抽取[J].計算機工程,2009(18):25 -27.

[5]HIROSHI S,JUN R,MITSURU N.Modified minimum classification error learning and its application to neural networks[C].SSPR/SPR,1998,1451:785 -794.

[6]SHEN Dou,YANG Qiang,CHEN Zheng.Noise reduction through summarization for Web - page classification[J].Science Direct,Inf.Process.Manage,2007,43(6):1735-1747.

猜你喜歡
內容實驗
記一次有趣的實驗
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
微型實驗里看“燃燒”
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
做個怪怪長實驗
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
《實驗流體力學》征稿簡則
主站蜘蛛池模板: 1024你懂的国产精品| 日本久久免费| 日韩无码黄色| 宅男噜噜噜66国产在线观看| 国产色伊人| 日韩成人在线网站| 欧美一区中文字幕| 午夜天堂视频| 国产小视频在线高清播放| 欧美啪啪一区| 成人在线观看一区| 亚洲精品国产乱码不卡| 欧美成人怡春院在线激情| 任我操在线视频| 国产成人你懂的在线观看| 亚洲人成网站18禁动漫无码| 国产自在线播放| 九色视频最新网址| 一本久道久综合久久鬼色| 国产亚洲精品97在线观看| 精品福利国产| 欧美日韩中文字幕二区三区| 日本在线亚洲| 国产亚洲精品97AA片在线播放| 国产网站免费| 最新精品国偷自产在线| 久久久精品国产亚洲AV日韩| 特级欧美视频aaaaaa| 99热这里只有精品5| 日本午夜网站| 国产麻豆精品久久一二三| 91美女视频在线观看| 国产成人在线无码免费视频| 美女国产在线| 亚洲天堂免费| 成人福利在线观看| 色综合久久88| 亚洲va在线观看| 精品国产乱码久久久久久一区二区| 激情网址在线观看| 国产成人艳妇AA视频在线| 国产精品一区二区国产主播| 日本在线免费网站| 人人艹人人爽| 国产麻豆aⅴ精品无码| 国产资源免费观看| 少妇精品网站| 福利一区三区| 2021国产精品自产拍在线| 国产女人18毛片水真多1| 免费一级成人毛片| 精品国产成人三级在线观看| 全色黄大色大片免费久久老太| 亚洲人在线| 91精品啪在线观看国产91| 日韩福利在线观看| 手机在线看片不卡中文字幕| 亚洲第一视频区| 天天躁狠狠躁| 99久久精品免费看国产免费软件| 欧美午夜在线观看| h网址在线观看| 永久免费无码日韩视频| 波多野结衣的av一区二区三区| 国产又色又刺激高潮免费看| 国产91全国探花系列在线播放| 国产午夜在线观看视频| 欧美性精品不卡在线观看| 亚洲精品无码高潮喷水A| 无码aⅴ精品一区二区三区| 国产精品成人第一区| 精品无码日韩国产不卡av | 91成人在线观看| AV片亚洲国产男人的天堂| 一边摸一边做爽的视频17国产| 九九热视频在线免费观看| 欧美色图久久| yjizz视频最新网站在线| 狠狠色丁香婷婷| 18禁黄无遮挡网站| 青青操国产视频| 无码专区在线观看|