摘 要:文章闡述了利用XML中的DOM樹將Web數據結構分析,轉化為結構化的XML數據,使用Xpath實現數據匹配查找數據,通過正則表達式實現數據抽取。同時,對目前數據抽取技術做一些簡單探討研究。
關鍵詞:數據抽取;XML數據;DOM樹
引言
隨著Internet的快速發展,Web上的數據信息急劇增加,成為了世界上規模最大的公共數據資源。目前雖然搜索引擎為用戶查找信息提供了簡便的方法,但它只是提高了Web文檔的檢索效率,只能根據用戶提交的關鍵詞返回一組網址,用戶必須逐一瀏覽網址對應的Web頁,采用人工的方式定位最終信息,現有的搜索引擎本身不能直接定位到所需的數據,更談不上為數據增加語義。XML技術出現之后,因為其定義嚴格,語法明確,結構良好,已經迅速成為互聯網信息表示的事實標準,通過把HTML文檔轉換成XHTML,借助于DOM分析技術,可以方便從中提取有用信息。
1 WEB數據抽取
Web信息抽取是一種從Web文檔中抽取出有用信息的技術,可以大大的縮短了對資料的整理時間,為信息檢索提供方便,有利于現實文檔的存檔管理。我們可以利用行業信息模型和領域特征做主題搜索,在收集信息時去除領域無關的信息,在信息檢索時實現更優秀的查詢擴展,從而提高搜索結果的查全率和查準率,有效解決通用搜索系統給出的檢索結果往往過于繁雜,用戶甄別信息價值的時間長問題。主題搜索利用逐漸成熟的文本分類技術,去除用戶不關心數據,具有更多的針對性,減少搜索、瀏覽時間中的比重,使其滿足人們對信息的精準化需求,提高工作效率。……