999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DOM的Web數據抽取研究

2013-12-31 00:00:00郭東峰
科技創新與應用 2013年18期

摘 要:文章闡述了利用XML中的DOM樹將Web數據結構分析,轉化為結構化的XML數據,使用Xpath實現數據匹配查找數據,通過正則表達式實現數據抽取。同時,對目前數據抽取技術做一些簡單探討研究。

關鍵詞:數據抽取;XML數據;DOM樹

引言

隨著Internet的快速發展,Web上的數據信息急劇增加,成為了世界上規模最大的公共數據資源。目前雖然搜索引擎為用戶查找信息提供了簡便的方法,但它只是提高了Web文檔的檢索效率,只能根據用戶提交的關鍵詞返回一組網址,用戶必須逐一瀏覽網址對應的Web頁,采用人工的方式定位最終信息,現有的搜索引擎本身不能直接定位到所需的數據,更談不上為數據增加語義。XML技術出現之后,因為其定義嚴格,語法明確,結構良好,已經迅速成為互聯網信息表示的事實標準,通過把HTML文檔轉換成XHTML,借助于DOM分析技術,可以方便從中提取有用信息。

1 WEB數據抽取

Web信息抽取是一種從Web文檔中抽取出有用信息的技術,可以大大的縮短了對資料的整理時間,為信息檢索提供方便,有利于現實文檔的存檔管理。我們可以利用行業信息模型和領域特征做主題搜索,在收集信息時去除領域無關的信息,在信息檢索時實現更優秀的查詢擴展,從而提高搜索結果的查全率和查準率,有效解決通用搜索系統給出的檢索結果往往過于繁雜,用戶甄別信息價值的時間長問題。主題搜索利用逐漸成熟的文本分類技術,去除用戶不關心數據,具有更多的針對性,減少搜索、瀏覽時間中的比重,使其滿足人們對信息的精準化需求,提高工作效率。……

登錄APP查看全文

主站蜘蛛池模板: 福利小视频在线播放| 欧美在线一二区| 日韩午夜伦| 中文字幕佐山爱一区二区免费| 五月婷婷丁香色| 成人午夜久久| 国产你懂得| 国产一区二区精品福利| 亚洲第一区在线| 国产成人精品2021欧美日韩| 久久性妇女精品免费| 亚洲午夜综合网| 亚洲综合极品香蕉久久网| 亚洲精品少妇熟女| 国产毛片基地| 国产精品欧美日本韩免费一区二区三区不卡| 国产毛片高清一级国语 | 欧美黑人欧美精品刺激| 嫩草国产在线| 91年精品国产福利线观看久久| 人妻一本久道久久综合久久鬼色| 丰满人妻一区二区三区视频| 国产中文在线亚洲精品官网| 亚洲天天更新| 国产成人a在线观看视频| 欧美成人午夜视频免看| 国产精品流白浆在线观看| 午夜无码一区二区三区| 综合天天色| 国产乱人伦AV在线A| 国产一级α片| 91青青在线视频| 国产视频大全| 国产亚洲男人的天堂在线观看 | 91精品人妻互换| 毛片免费观看视频| 国产真实自在自线免费精品| 久久一级电影| 久久天天躁夜夜躁狠狠| 国产欧美日韩精品综合在线| 国产精品久久自在自线观看| 国产视频欧美| 亚洲丝袜中文字幕| 亚洲成人免费在线| 98超碰在线观看| 另类欧美日韩| 精品国产自在现线看久久| 国产女人18毛片水真多1| 国产午夜人做人免费视频| 无遮挡一级毛片呦女视频| 国产jizz| 99re视频在线| 欧美人人干| 国产成人综合网| 亚洲国产成人麻豆精品| 成人小视频网| 91精品国产自产在线观看| 亚洲国产中文在线二区三区免| 日本午夜网站| 欧美亚洲国产精品久久蜜芽| 国产精品美女在线| 久操中文在线| 亚洲成人77777| 国产主播喷水| 午夜国产精品视频| 亚洲黄色网站视频| 成人午夜亚洲影视在线观看| 国产成人艳妇AA视频在线| 最新国产网站| 国产农村1级毛片| 精品久久人人爽人人玩人人妻| 久久精品一品道久久精品| 国产丰满大乳无码免费播放| 99999久久久久久亚洲| 日本色综合网| 婷婷色丁香综合激情| 久久99国产综合精品1| 欧美成人区| 亚洲色大成网站www国产| 77777亚洲午夜久久多人| 欧美另类精品一区二区三区| 露脸真实国语乱在线观看|