999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DOM的Web數據抽取研究

2013-12-31 00:00:00郭東峰
科技創新與應用 2013年18期

摘 要:文章闡述了利用XML中的DOM樹將Web數據結構分析,轉化為結構化的XML數據,使用Xpath實現數據匹配查找數據,通過正則表達式實現數據抽取。同時,對目前數據抽取技術做一些簡單探討研究。

關鍵詞:數據抽取;XML數據;DOM樹

引言

隨著Internet的快速發展,Web上的數據信息急劇增加,成為了世界上規模最大的公共數據資源。目前雖然搜索引擎為用戶查找信息提供了簡便的方法,但它只是提高了Web文檔的檢索效率,只能根據用戶提交的關鍵詞返回一組網址,用戶必須逐一瀏覽網址對應的Web頁,采用人工的方式定位最終信息,現有的搜索引擎本身不能直接定位到所需的數據,更談不上為數據增加語義。XML技術出現之后,因為其定義嚴格,語法明確,結構良好,已經迅速成為互聯網信息表示的事實標準,通過把HTML文檔轉換成XHTML,借助于DOM分析技術,可以方便從中提取有用信息。

1 WEB數據抽取

Web信息抽取是一種從Web文檔中抽取出有用信息的技術,可以大大的縮短了對資料的整理時間,為信息檢索提供方便,有利于現實文檔的存檔管理。我們可以利用行業信息模型和領域特征做主題搜索,在收集信息時去除領域無關的信息,在信息檢索時實現更優秀的查詢擴展,從而提高搜索結果的查全率和查準率,有效解決通用搜索系統給出的檢索結果往往過于繁雜,用戶甄別信息價值的時間長問題。主題搜索利用逐漸成熟的文本分類技術,去除用戶不關心數據,具有更多的針對性,減少搜索、瀏覽時間中的比重,使其滿足人們對信息的精準化需求,提高工作效率。

2 信息抽取方法發展情況

2.1 手工方法:通過觀察網頁及其源代碼,由編程人員找出一些模式,再根據這些模式編寫程序抽取目標數據。然而這種方式無法抽取站點數量巨大的形式。手工方法由于設計難度大,只能針對少量網頁抽取,目前基本不再使用。

2.2 包裝器歸納:即有監督學習方法,是半自動的。從手工標注的網頁或數據記錄集中利用機器學習方法序列覆蓋學習一組抽取規則。隨后這些歸則即被用于從具有類似格式的網頁中抽取目標數據項。由于需要手工標注的工作,不適合對大量站點抽取,并且維護開銷大。

2.3 自動抽取:即無監督學習方法,給定一張或數張網頁,這種方法自動從中尋找模式或語法,以便進行數據抽取。自動化抽取的主要優點是它能處理大量站點的情況,并且維護開銷小,主要缺點是因為系統不知道用戶對什么感興趣,它可能抽取了大量不需要的數據。

3 DOM樹的解析、擴展和Xpath使用

文件對象模型(Document Object Model,簡稱DOM),是W3C組織推薦的處理可擴展置標語言的標準編程接口。DOM可以先將XML文檔解析成結點對象以元素、屬性、實體和注釋等節點形式存放信息的樹形分級結構,然后以節點樹的形式在內存中,由于樹形數據結構應用較為廣泛,有很多成熟的算法可以用來遍歷、搜索、編輯XML文檔樹,同時借助于JDOM、DOM4J、SAX等技術類庫可以更加方便的訪問分檔中的數據。

XPath是一種用于查詢XML文檔中的信息的語言,是定位XML文檔節點的聲明式語言,是W3CXSLT標準的主要組成部分。Xpath規范定義了允許到XML文檔各個部分的路徑說明的表達式語法和支持這些表達式的核心庫基本函數。主要用于識別、選擇和匹配XML 文檔中的各個組成部分, 包括元素、屬性和文本內容等。XPath可以使用路徑表達式方便地定位XML節點,所以很適合于數據抽取。

4 Web信息抽取的概念及實現流程

Web 信息抽取就是從Web頁面中抽取目標信息的問題,從網頁中所包含的無結構或半結構的信息中識別用戶感興趣的數據,并將其轉化為結構和語義更為清晰的格式( XML、關系數據、面向對象的數據等)。基于XML技術抽取的流程為:首先,從網絡中獲取HTML文檔;然后,經Tidy等工具處理后轉換為符合XML格式的XHTML文檔,再使用XSL保存的數據抽取規則,經XSLT處理抽取出XML,中對原始的HTML文件加工清洗,經過使用工具Tity對網頁語法檢查及糾錯,將HTML文檔轉換為結構完整的XHTML;第三,使用HTMLParser等工具解析XML文檔生成DOM樹模式;最后,利用Xpath和正則表達式信息抽取規則提取有價值的信息存儲到數據庫中以便使用。

5 DOM子樹最大匹配求方法

設有兩棵樹T1=RA:和T2=RB:,RA,RB分別為兩棵樹的根,Ai和Bj分別是T1的第i個和T2的第j個第一層子樹。設 M(T1,T2)為求T1,T2最大匹配的節點個數。當RA和RB相同時,即兩棵樹的根部相同,T1和T2的最大匹配就是M(T1,T2)=M()+1, 否則M(T1,T2)=0。其中有遞推公式:M()=max(m()+M(Ak,Bn), m(), m()),M(<>,<>)=0,M(s,<>)=M(<>,S)=0;計算出DOM結點的最大匹配值,就可以通過選擇合適的閥值,找出具有相同結構模式的DOM子樹,這些子樹一般為網頁表格中的行…或列表項

  • 就是需要集中抽取的數據區域。

    6 結束語

    Web數據抽取技術目前還處在不斷發展之中,是Web數據挖掘研究領域中的難題和熱點。本文論述了基于DOM技術查找網頁中的數據區域方法,維護開銷小,具有很強的實用價值。值得注意的是還存在著改進的地方,比如抽取了一部分用戶不感興趣的數據,這可以嘗試使用領域分詞過濾掉不需要的信息加以完善。

    參考文獻

    [1]蔚曉娟.基于DOM的XML解析與應用[J].計算機技術與發展, 2007.17(4).

    [2]李雪竹.一種基于XML的Web數據抽取的實現[J].科學技術與工程,2008(9).

    [3]尹津其.基于WEB的數據抽取及應用實例[J].中國新技術新產品,2009(19).

    主站蜘蛛池模板: 亚洲中文字幕在线精品一区| 免费看av在线网站网址| 真实国产乱子伦高清| 色欲综合久久中文字幕网| 国产天天射| 91视频青青草| 91精品久久久久久无码人妻| 日本免费新一区视频| 午夜无码一区二区三区| 久久久久免费看成人影片| 精品国产自在在线在线观看| 国产午夜精品一区二区三| 欧美国产在线精品17p| 国产综合亚洲欧洲区精品无码| 伊人久久婷婷| 欧美a级在线| 色综合久久88| 97人人模人人爽人人喊小说| 中文字幕久久亚洲一区| 亚洲成人动漫在线观看| 在线va视频| 亚洲黄色视频在线观看一区| 国产91丝袜在线播放动漫 | 99re免费视频| 亚洲三级网站| 欧美人人干| 亚洲性视频网站| 久久天天躁狠狠躁夜夜躁| 欧美日韩国产在线播放| 国产精品女在线观看| 亚洲日韩Av中文字幕无码| 欧美国产日韩在线| 91在线高清视频| 亚洲永久免费网站| 精品无码国产自产野外拍在线| 欧美高清国产| 亚洲av中文无码乱人伦在线r| 国产精品视频第一专区| 色老二精品视频在线观看| 亚洲爱婷婷色69堂| 中文字幕无码电影| 亚洲精品无码av中文字幕| av大片在线无码免费| 91色在线视频| 久久超级碰| 亚洲国产精品久久久久秋霞影院 | 欧美一级色视频| 欧美色图久久| 亚洲人成网址| 亚洲综合精品香蕉久久网| 人禽伦免费交视频网页播放| 97人人做人人爽香蕉精品| 国产91无毒不卡在线观看| 国产91色| 午夜视频日本| 国产成人精品一区二区不卡| 国产高清无码麻豆精品| 国产欧美视频综合二区| 成人年鲁鲁在线观看视频| 色偷偷一区| 国产美女精品人人做人人爽| 日本日韩欧美| 全色黄大色大片免费久久老太| 欧美a网站| 操美女免费网站| www.日韩三级| 55夜色66夜色国产精品视频| 人妻精品久久无码区| 青青草国产一区二区三区| 久久永久免费人妻精品| 亚洲欧洲日产国码无码av喷潮| 91成人在线观看| 99re在线观看视频| 高清色本在线www| 播五月综合| 高清不卡毛片| 国产在线一区视频| 成人福利免费在线观看| 波多野结衣一区二区三区AV| 高清国产va日韩亚洲免费午夜电影| 女人18毛片久久| 亚洲最新在线|