999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向開源社區的Web數據抽取方法研究

2017-03-29 07:45:20張方尹剛王濤余躍
現代計算機 2017年4期
關鍵詞:頁面數據庫

張方,尹剛,王濤,余躍

(國防科學技術大學計算機學院,長沙 410073)

面向開源社區的Web數據抽取方法研究

張方,尹剛,王濤,余躍

(國防科學技術大學計算機學院,長沙 410073)

由協同開發社區和知識分享社區所組成的開源社區中匯集海量的開源數據資源。如何從數量眾多,頁面結構各異的開源社區中準確、高效地獲取這些數據是對開源數據資源進行全面分析,深度關聯的前提。闡述面向開源社區的Web數據抽取方法研究過程,實現對開源社區中Web數據的精確抽取。

開源社區;Web數據抽取;協同開發社區;知識共享社區

0 引言

面向開源社區的Web數據抽取是指從各類開源社區的Web頁面中抽取出我們所感興趣的數據,并將其以結構化的格式導入數據庫中供進一步分析處理的過程。通常情況下,在開源社區中我們獲取信息的方法是通過頁面瀏覽和關鍵詞搜索。然而,頁面瀏覽和搜索的結果都是粗粒度的網頁,我們雖然能查看具體內容,但卻無法精準地獲得網頁中自己所感興趣的數據。此外,即使我們獲得了這些網頁,也無法直接進行數據分析和應用。如何從源自不同開源社區站點且表現形式復雜,結構各異的Web頁面中準確的抽取有價值的數據,并將其集成并轉化為結構和語義清晰的格式,存儲到數據庫中,以滿足后續數據的深加工需求進而形成開源資源知識庫已經成為一個亟待解決的問題。

1 研究意義及研究目標

近年來,互聯網技術的迅速發展聚合了分散在全球各地的開發人員,促使國內外開源社區蓬勃發展,開源也成為了軟件開發的趨勢,各個開源社區互相關聯形成了一個完整的開源生態系統。在這個生態系統中,開源數據資源規模巨大、增長迅速且分布廣泛。為了能夠更加高效地利用開源社區中的數據資源,首先要實現對開源社區用戶所感興趣的開源數據的精確抽取,因此,開展面向開源社區的Web數據抽取方法的相關研究工作迫在眉睫。本文著力研究面向開源社區的Web數據抽取技術,目標是構建一個抽取準確率高,并能夠適應不同開源社區站點的通用、健壯的Web數據抽取框架,從而實現對開源社區中眾多的協同開發社區和知識共享社區所包含的海量的開源數據資源的精確抽取。

2 主要研究內容

本文研究的是對開源社區中海量開源數據資源進行有效抽取的方法,在此過程中主要涉及以下幾個方面的問題:如何構建一個適用于不同開源站點的通用的、健壯的Web數據抽取框架;如何表達待抽取數據元素的抽取規則;對于抽取得到的數據,如何進行有效的驗證和處理。

2.1 構建面向開源社區的Web數據抽取框架

開源社區中眾多的開源社區站點在網頁結構和內容上都呈現出很大的差異,面向開源社區的Web數據抽取框架對大量不同開源社區站點的通用性,即對不同開源站點的適應性和健壯性是面向開源社區的Web數據抽取方法能夠得到大規模應用的前提。

2.2 抽取規則的制定

抽取規則的制定是對面向開源社區的Web數據抽取的核心,在對HTML文件中的頁面元素進行抽取時,我們是通過有效的抽取規則實現對文件中待抽取頁面元素的準確導航、定位和抽取的。

2.3 數據驗證和處理

為了保證數據抽取的質量,盡量減少“臟數據”,抽取到的數據還需要完成數據驗證和處理的過程。在這個過程中首先要確保的是抽取數據本身的正確性和完整性,其次當從多個開源社區站點抽取并集成數據時,不同的站點對于相同數據可能采取不同的命名規范和不同的計量單位,因此需要將數據命名和和數據格式統一化然后映射到一個標準數據庫表中,從而改善抽取數據的質量。

3 面向開源社區的Web數據抽取的技術路線及實施方案

3.1 數據采集

開源社區既包含如GitHub,OpenHub,SourceForge等協同開發社區,又包含如Stackoverflow,ESDN,Slashdot等知識共享社區,在對這些社區中的開源數據資源進行抽取之前,首先我們需要通過網絡爬蟲來爬取這些開源社區的Web頁面,并以HTML文件的形式存入源數據庫中,作為待抽取的原始數據。

3.2 Web數據抽取框架業務流程

經過實驗研究,我們確定了面向開源社區的Web數據抽取框架的業務流程:首先,頁面下載模塊從目標站點源數據庫中下載原始數據,即待抽取的HTML網頁,然后數據抽取模塊根據待抽取頁面的抽取規則對HTML網頁進行抽取,抽取到的數據經數據持久化模塊存儲到數據庫中,同時抽取出錯的頁面由錯誤處理模塊轉存到抽取失敗數據庫中。該抽取框架具備通用性和可移植性的特點。一方面能夠實現對形態各異的不同開源社區的數據抽取,另一方面該抽取框架提供了一個通用的抽取模板,當對一個新的開源社區進行抽取時,能夠復用其他社區抽取程序的大部分代碼,只需要改動抽取模板中的部分抽取規則和變量名稱即可。

圖1 Web數據抽取框架業務流程圖

在框架搭建的過程中復用了一些成熟的開源軟件技術,例如MYBatist和Xsoup,提高了開發的效率。MyBatis是一個支持普通SQL查詢,存儲過程和高級映射的優秀持久層框架,它消除了幾乎所有的JDBC代碼和參數的手工設置以及結果集的檢索。Xsoup是基于Jsoup開發的HTML抽取器,提供了XPath支持,Xsoup具有解析時間和抽取時間快,XPath解析錯誤提示全面的優點。

3.3 XPath定位路徑的選取

抽取規則是對應于待抽取數據的一個位置路徑表達式,通過這個路徑表達式我們可以在HTML頁面中定位到待抽取數據對其進行抽取。通過實驗對比,我們選定XPath定位路徑作為Web數據的抽取規則。XPath是可擴展路徑語言XML Path Language的簡稱,它是一個W3C標準,主要用于標識XML文檔的各個部分,它將一個XML文檔看作一棵樹,我們可以稱之為“節點樹”。XML文檔中的元素、屬性、文本、注釋、處理指令、命名空間等都是這棵樹的節點,分別稱為元素節點、屬性節點、文本節點、注釋節點、處理指令節點、命名空間節點。XPath可以使用簡明的、基于字符串的語法對XML文檔的各個組成部分進行定位,這種語法就是位置路徑表達式,通過XPath,我們可以精確地查找到XML元素節點的位置。

3.4 數據一致性與完整性驗證

為了保證數據抽取的質量,抽取到的數據還需要經過進一步的驗證和處理。。通過抽取規則的定位從不同開源社區抽取到的數據信息,若其數據格式不符合我們的存儲格式規范,必須處理成規范的格式,才能存入到數據庫中。另外一個開源社區的待抽取頁面中通常含有眾多的待抽取元素,例如在協同開發社區OpenHub中需要抽取的數據項有:項目源碼、項目名稱、項目描述、項目標簽、相似項目、活躍時間、最后提交時間等幾十項,對于抽取結果的完整性必須加以驗證。我們在面向開源社區的Web數據抽取框架中集成了數據驗證模塊,實現了對抽取數據的一致性與完整性的驗證和處理。

4 結語

通過對面向開源社區的Web數據抽取方法研究,我們構建了一個通用的,健壯的,可移植性良好的Web數據抽取框架,實現了對不同開源社區中開源數據資源的準確抽取,為下一步開展基于開源社區中海量Web數據的全面分析,科學評估,深度關聯等相關研究工作提供了強有力的數據支撐。

[1]吳共慶.基于標簽路徑特征融合的在線Web新聞內容抽取[J].軟件學報,2016,(3):714-727.

[2]丁曉梅.Web信息抽取規則的設計和實現探討[J].教育,2015,(33):247.

[3]W Wei,S Shi,Y Liu,H Wang.Extraction Rule Language for Web Information Extraction and Intergration.Web Information System& Application Conference,2013:65-70.

[4]Y Kim,J Park,T Kim,J Choi.Web Information Extraction by HTML Tree Edit Distance Matching.ICCIT,2007:2455-2460.

[5]Fei Sun,Dan-dan Song,Le-jian Liao.DOM Based Content Extraction Via Text Density Proceeding of the 34th International ACM SIGIR conference on Research and Development in Information Retrieval,2011:245-254.

[6]L S Zhang,P Shi.An Effective Wrapper for Web Data Extraction and Its Application.International Conference on Cumputer Science&Education.2009:1245-1250.

[7]Suhit Gupta,Gail Kaiser,David Neistadt,Peter Grimm.DOM-Based Content Extraction of HTML Documents Proceedings of the 12th International Conference on World Wide Web,207-214.

[8]張麗娜,陳俊杰,趙麗欣.基于HTML Parser的BT種子網頁信息抽取[J].電腦開發及應用,1010,(03):59-61.

[9]隋玉航.基于WebHarvest的中文財經新聞搜索引擎的設計與實現[D].華中科技大學,2011.

[10]歐健文,董守斌,蔡斌.模板化網頁主題信息的提取方法.清華大學學報(自然科學版),2005,45(S1):1743-1747.

Research on the Method of Web Data Extraction from Open Source Communities

ZHANG Fang,YIN Gang,WANG Tao,YU Yue

(College of Computer Science,National University of Defense Technology,Changsha 410073)

Open source community,which consists of collaborative development community and knowledge sharing community,assembles a huge amount of open-source data resources together.How to obtain these data precisely and efficiently from numerous open source communities with various page structures is a prerequisite for comprehensive analysis and deep correlation.Describes the research process of web data extraction method and achieves the accurate extraction of Web data from open source communities.

Open Source Community;Web Data Extraction;Collaborative Development Community;Knowledge Sharing Community

1007-1423(2017)04-0027-04

10.3969/j.issn.1007-1423.2017.04.006

張方(1990-),男,河南南陽人,碩士研究生,研究方向為數據挖掘

尹剛(1975-),男,博士,副研究員,研究方向為可信軟件、分布式計算與信息安全

王濤(1984-),男,博士,助理研究員,研究方向為數據挖掘技術

余躍(1988-),男,博士,助理研究員,研究方向為軟件工程

2016-12-01

2017-01-20

猜你喜歡
頁面數據庫
微信群聊總是找不到,打開這個開關就好了
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
同一Word文檔 縱橫頁面并存
數據庫
財經(2010年20期)2010-10-19 01:48:32
主站蜘蛛池模板: 伊人久久久大香线蕉综合直播| 91青青草视频在线观看的| 国产一区二区三区精品欧美日韩| 这里只有精品免费视频| 午夜国产精品视频黄| 亚洲免费三区| 欧美日韩成人在线观看| 色婷婷啪啪| 一区二区欧美日韩高清免费| 无码日韩精品91超碰| 亚洲综合色婷婷| 亚洲av日韩av制服丝袜| 久久精品嫩草研究院| 91精品国产91久无码网站| 亚洲精品片911| 国产国产人成免费视频77777| 永久免费AⅤ无码网站在线观看| 久久一本日韩精品中文字幕屁孩| 欧美激情第一欧美在线| 无码精品一区二区久久久| 久操线在视频在线观看| 欧美色综合网站| 999国产精品| 色哟哟国产精品一区二区| 91麻豆精品国产高清在线| 国产免费羞羞视频| 国产农村1级毛片| 成人年鲁鲁在线观看视频| 成人a免费α片在线视频网站| 亚洲成人网在线观看| 欧美午夜网| 免费网站成人亚洲| 欧美午夜小视频| 国产va免费精品| 国产精品毛片一区| 91国内在线视频| …亚洲 欧洲 另类 春色| 国产成人久久777777| 国产亚卅精品无码| 草草影院国产第一页| 特级欧美视频aaaaaa| 国产黄色爱视频| 亚洲伊人天堂| 91小视频在线观看免费版高清| 激情无码字幕综合| 91无码人妻精品一区二区蜜桃| 美女免费精品高清毛片在线视| 欧美日韩高清在线| 国产aaaaa一级毛片| 极品私人尤物在线精品首页| 国产丝袜丝视频在线观看| 2024av在线无码中文最新| 亚洲无码在线午夜电影| 色综合久久久久8天国| 亚洲AⅤ无码日韩AV无码网站| 亚洲黄色片免费看| 久久久久九九精品影院 | 欧美伊人色综合久久天天| 99在线国产| 免费a级毛片视频| 真实国产乱子伦高清| 成人在线第一页| 成人免费黄色小视频| AV无码一区二区三区四区| 国产毛片久久国产| 久久精品中文字幕免费| 99久久精品美女高潮喷水| a天堂视频在线| 91亚洲国产视频| 无码区日韩专区免费系列| 亚洲精品第五页| 另类综合视频| 日韩欧美91| 欧美高清国产| 国产经典在线观看一区| 久久久久久尹人网香蕉| 国产成人精品无码一区二| 播五月综合| 中文字幕在线一区二区在线| 久久成人免费| 99视频精品在线观看| 国产免费人成视频网|