999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標記窗的網頁正文信息提取方法

2007-01-01 00:00:00趙欣欣索紅光劉玉樹
計算機應用研究 2007年3期

摘 要:提出了基于標記窗的網頁正文信息提取方法。該方法不僅適合于處理一個網頁中所有正文信息均放在一個td 中的情況,也適合于處理網頁正文放在多個td中的情況,還可以處理網頁正文文字短到與網頁其余部分文字(如廣告、導航條、版權)長度相當的情況。尤其重要的是,它能夠解決非Table 結構的網頁正文提取問題。實驗表明,該方法可以提高網頁正文提取的準確率,適用性強。

關鍵詞:標記窗; 提??; 文檔對象模型

中圖分類號:TP391文獻標志碼:A

文章編號:1001—3695(2007)03—0144—02

信息抽取(Information Extraction)技術是近十幾年發展起來的新領域,它起源于文本理解,屬自然語言處理研究的領域。信息抽取是直接從自然語言文本中抽取事實信息,并以結構化形式描述信息,適用于信息查詢、文本深層挖掘、問題自動回答等方面的應用。Web信息進行抽?。╓eb Information Extraction,WebIE)是將Web作為信息源的信息抽取,其核心是抽取分散在Internet上的半結構化的HTML頁面中隱含的信息。

萬維網飛速發展,其上的信息源隨之日益豐富。但是,Web頁面中經常含有廣告鏈接、導航條、版權等非網頁主題信息的內容,頁面所要表達的主要信息經常被隱藏在無關的內容和結構中,限制了Web 信息的可利用性。正確提取網頁正文信息,實際上就是提取出頁面要表達的主要內容。它是信息搜索(Information Search)、數據挖掘(Data Mining)、機器翻譯(Machine Translation)和文本摘要(Text Digest)等Web信息處理的基礎。

1 相關工作

傳統的網頁數據抽取方法通常是由包裝器(Wrapper)完成的,但是,獲取包裝器中信息模式識別的知識是一個瓶頸問題。采用半自動化方法獲取知識規則的XWRAP系統在進行網頁抽取前,檢查網頁并進行預處理,最后將網頁表示成一棵樹[1]。

王琦等人[2]基于DOM規范,提出了基于語義信息的STU—DOM樹模型,將HTML 文檔轉換為STU—DOM 樹,并對其進行基于結構的過濾和基于語義的剪枝,完成了對網頁主題信息的提取。

文獻[3]提出在字符集中的區域提取文字的方法。該方法僅適合于主題文字集中的網頁,不能提取在文字中間出現表格或鏈接等結構的文字。

Kristina Lerman等人[4]提出了通過對行和列的分組,從List和Table中自動提取Web數據的方法。但它只在一些假定條件成立的情況下才能進行,并且需要分析許多網頁之后,才能從單一的一個List中提出信息。 

崔繼馨等人[5]提出了基于DOM的Web信息抽取方法。該方法采用人工方式對樣本頁面附加語義信息,然后對樣本頁面中的樣本記錄進行標記,并通過機器學習的方法產生信息抽取規則;利用這些規則完成對相似結構網頁的信息抽取。由于該方法需要人工參與,使得系統的可用性降低。

文獻[6]提出了基于統計的網頁正文信息提取方法。它根據網頁中的HTML標記將網頁表示成一棵樹,然后利用樹中的每個節點包含的中文字節數從中選擇包含正文信息的節點。該方法適用于網頁中所有正文信息均放在一個td(td是HTML語言提供的表格標記)中的情況下的網頁正文提取。

通過分析可知,現存的大多數網頁正文提取方法不能處理網頁正文部分被存放在多個td 中的情況;不能處理一個td中含有不同內容的情況,即不能處理一個td中存放的不僅僅是網頁正文的情況;不能處理網頁正文文字長度很短,短到與網頁其余部分文字(如廣告、導航條)長度相當的特殊情況。而且,大多數方法均限于提取存放在td中的網頁正文信息。但經過統計,存在大量未采用Table 結構存放正文信息的網頁,對于這種情況,上述方法都無能為力。基于此,本文提出了基于標記窗(Tag Window)的網頁正文獲取方法來解決上述問題。

2 基于標記窗的網頁正文提取方法

基于標記窗提取網頁正文信息的方法不僅適合于處理一個網頁中所有正文信息均放在一個td 中的情況,也適合于處理網頁正文放在多個td中的情況。尤其重要的是,它能夠解決非Table 結構的網頁正文提取問題。其實現簡單,通用性好。

定義 稱HTML中成對出現的標記為標記對,稱HTML格式的網頁中出現在Title之后的顯示內容非空的標記對為標記窗。

基于標記窗提取網頁正文信息的方法流程圖如圖1所示。具體步驟如下:

(1)對網頁進行規范化處理。如果一個網頁滿足如下條件[6],則它是規范化的網頁:

①在除了網頁標記tag外的地方出現的“〈”和“〉”用lt;和gt;代替。

②所有標記的屬性值放在引號中,如〈a herf=\"www.bit.edu.cn\"〉。

③所有的標記都是匹配的,即每個開始標記均對應著一個結束標記,如〈body〉和〈/body〉。

④所有的標記都是正確嵌套的,如〈a〉…〈b〉…〈/b〉…〈/a〉。

對于標記嵌套的情況,先處理最里層的標記對,抽取其中的正文,并且清除此標記對及其中間的正文;然后處理外一層的標記對,依此類推。

下面用一個實際的例子來說明基于標記窗提取網頁正文內容的方法。該例子所用的網頁是http://weather.sina.com.cn/news/2005/1216/12339.html,該網頁的標題是“新疆發布大霧黃色預警信號”。

過濾掉該網頁對應的HTML文件中顯示內容為空的標記對后,用得到的標記窗中的四個標記窗為例進行說明。對每個標記窗分詞之后得到詞序列(僅保留實詞)及標題詞序列與它們之間的距離,如表1所示。按照前述算法,應該提取標記窗1—3中的文字信息,舍棄4中的信息。

3 實驗與結果分析

為了考查本文提出方法的實際效果,隨機選擇來自www.sina.com.cn,www.sohu.com,www.bit.edu.cn,www.people.com和www.mop.gov.cn網站的788個網頁進行實驗。實驗結果如表2所示。正確提取的網頁數是指將網頁的全部正文信息正確提取出來的網頁個數;錯提、少提正文信息的網頁都是錯誤提取的網頁。準確率=正確提取的網頁數/網頁總數。

通過對結果的分析發現,之所以會出現對網頁正文信息的錯提、少提,是因為網頁設計者想法的不同,導致他們可能使用一些修辭手法,如比喻、擬人等手法吸引Web訪問者的瀏覽注意力。這樣就導致了標題詞序列中的詞根本沒有在網頁正文中出現,造成了對網頁正文信息的錯誤提取,影響了網頁正文信息提取的準確率。

4 結束語

Web上的數據抽取技術是目前點的熱研究方向。雖然國內外的研究在一些技術上較為成熟和完善,但仍沒有一個產品或系統能在各方面符合人們對Web信息抽取的要求。隨著新技術和新思想的介入,Web信息抽取技術處于不斷的更新和發展中。本文提出的基于標記窗的網頁正文提取方法解決了網頁正文存放在多個td中的情況和網頁正文文字短的網頁正文提取問題。尤其重要的是,它能夠解決非Table 結構的網頁正文提取問題。與文獻[2,6]不同的是,本方法無須將網頁表示成一棵樹,只需利用正則表達式,就可以直接提取出網頁中標記對之間的正文,這大大降低了算法的復雜度。實驗表明,該方法性能好、適用性強。下一步的工作就是將語義信息結合到該方法中,更好地“理解”網頁,進一步提高Web網頁正文信息提取的準確率。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 亚洲品质国产精品无码| 婷婷丁香色| 亚洲欧美另类日本| 国产va免费精品| 狠狠色香婷婷久久亚洲精品| 九九九久久国产精品| 中文字幕不卡免费高清视频| 91九色国产porny| 少妇露出福利视频| 国产丰满成熟女性性满足视频| 国产成人麻豆精品| 亚洲综合久久成人AV| 四虎AV麻豆| 免费毛片全部不收费的| 亚洲第一页在线观看| 久久免费精品琪琪| 性欧美精品xxxx| 人妻一区二区三区无码精品一区| 国产人妖视频一区在线观看| 亚洲AV无码一二区三区在线播放| 特级毛片免费视频| 丰满人妻被猛烈进入无码| 欧美三级视频在线播放| 精品欧美视频| 真人免费一级毛片一区二区| 日韩欧美国产精品| 在线中文字幕网| 久草视频中文| 国产真实自在自线免费精品| 中文无码精品a∨在线观看| 高清无码一本到东京热| 少妇高潮惨叫久久久久久| 日本一区二区三区精品国产| 97视频精品全国免费观看| 亚洲精品男人天堂| 54pao国产成人免费视频| 国产高清国内精品福利| 香蕉久人久人青草青草| 亚洲国产欧美中日韩成人综合视频| 精品久久国产综合精麻豆| 久久精品国产在热久久2019 | 97无码免费人妻超级碰碰碰| 国产无码高清视频不卡| 亚洲国产成人无码AV在线影院L| av在线无码浏览| 88国产经典欧美一区二区三区| 亚洲国产中文综合专区在| 男女男精品视频| 精品午夜国产福利观看| 1769国产精品视频免费观看| 亚洲AV一二三区无码AV蜜桃| 久久中文电影| 伊人婷婷色香五月综合缴缴情 | 国产一级妓女av网站| 国产精品黄色片| 天天色天天操综合网| 国产美女精品在线| 国产乱子伦无码精品小说| 红杏AV在线无码| 婷婷六月在线| 风韵丰满熟妇啪啪区老熟熟女| 国产无码在线调教| 国产成人无码综合亚洲日韩不卡| 亚洲国产精品久久久久秋霞影院| 久久香蕉欧美精品| 成人在线综合| 亚洲国产成熟视频在线多多 | 狠狠躁天天躁夜夜躁婷婷| 免费xxxxx在线观看网站| 亚洲欧美成aⅴ人在线观看| 精品免费在线视频| 亚洲AV无码久久精品色欲| 亚洲h视频在线| 国产欧美在线观看视频| 久久国产高清视频| www.亚洲一区| 亚洲 欧美 偷自乱 图片| 亚洲午夜福利在线| 成人精品区| 亚洲免费成人网| 色首页AV在线| 在线播放精品一区二区啪视频|