基于DOM的Web數據抽取研究

2013-12-31 00:00:00郭東峰

科技創新與應用 2013年18期

摘要：文章闡述了利用XML中的DOM樹將Web數據結構分析，轉化為結構化的XML數據，使用Xpath實現數據匹配查找數據，通過正則表達式實現數據抽取。同時，對目前數據抽取技術做一些簡單探討研究。

關鍵詞：數據抽取；XML數據；DOM樹

引言

隨著Internet的快速發展，Web上的數據信息急劇增加，成為了世界上規模最大的公共數據資源。目前雖然搜索引擎為用戶查找信息提供了簡便的方法，但它只是提高了Web文檔的檢索效率，只能根據用戶提交的關鍵詞返回一組網址，用戶必須逐一瀏覽網址對應的Web頁，采用人工的方式定位最終信息，現有的搜索引擎本身不能直接定位到所需的數據，更談不上為數據增加語義。XML技術出現之后，因為其定義嚴格，語法明確，結構良好，已經迅速成為互聯網信息表示的事實標準，通過把HTML文檔轉換成XHTML，借助于DOM分析技術，可以方便從中提取有用信息。

1 WEB數據抽取

Web信息抽取是一種從Web文檔中抽取出有用信息的技術，可以大大的縮短了對資料的整理時間，為信息檢索提供方便，有利于現實文檔的存檔管理。我們可以利用行業信息模型和領域特征做主題搜索，在收集信息時去除領域無關的信息，在信息檢索時實現更優秀的查詢擴展，從而提高搜索結果的查全率和查準率，有效解決通用搜索系統給出的檢索結果往往過于繁雜，用戶甄別信息價值的時間長問題。主題搜索利用逐漸成熟的文本分類技術，去除用戶不關心數據，具有更多的針對性，減少搜索、瀏覽時間中的比重，使其滿足人們對信息的精準化需求，提高工作效率。……

登錄APP查看全文

科技創新與應用 2013年18期

科技創新與應用的其它文章: 試析高職院校特色專業“USP”建設; 以交通流量增長為基礎的空中管制安全風險問題分析; 油田集輸站庫防火安全管理問題及對策分析; 機電工程的質量控制在交通運輸部門的重要性; 淺析航班備降保障工作; 淺談火力發電廠熱控班組安全生產管理