999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的Web信息獲取方法研究

2018-02-01 05:29:03魏冬梅何忠秀唐建梅
軟件導刊 2018年1期

魏冬梅+何忠秀+唐建梅

摘要:隨著大數(shù)據(jù)和云計算等新一代互聯(lián)網(wǎng)技術的迅速發(fā)展,Web信息量逐日海量遞增。從海量數(shù)據(jù)中提取有效信息,挖掘有潛在價值的關系成為當前的研究熱點,這對揭示已知規(guī)律、預測未知結果有極大的輔助作用。對當前Web信息獲取方法、原理和關鍵技術進行研究分析,重點闡述了數(shù)據(jù)采集相關技術中網(wǎng)絡爬蟲算法的分類與應用。提出一種以Python和相關庫為主要工具,結合模塊化方法,構建Web文本信息獲取系統(tǒng)框架與流程的策略。案例中通過定義采集函數(shù),實現(xiàn)對給定的維基百科詞條,快速搜索與該詞條相關信息,對詞條內(nèi)鏈接和外鏈接進行有效爬取。結果表明,Python在數(shù)據(jù)采集方面具有較高的有效性和可擴展性。

關鍵詞:Python;信息獲取;網(wǎng)絡爬蟲;正則表達式

DOIDOI:10.11907/rjdk.172302

中圖分類號:TP301

文獻標識碼:A文章編號文章編號:16727800(2018)001004103

Abstract:As the development of big data and cloud computing, an increasing number of information has been boosted significantly. Extracting the information and extract useful information from huge amounts of data effectively has been becoming the current hot spot. Moreover, it has contributed to revealing the known regulations and predicting unknown results. In this paper, the current Web information retrieval method, the principle and key technology has been analyzed and the algorithm, classification and application of Web crawler in data acquisition technology are emphasized. This paper presents a method of constructing Web text information acquisition system based on Python and related libraries. In the case, by defining the regular expressions and crawling function, it realized searching for the relevant information of the entry, and effectively retrievaling the internal links and the external links. The results show that Python has significant efficiency and expansibility in data retrieval.

Key Words:Python; information access; Web crawler; regular expression

0引言

互聯(lián)網(wǎng)提供了大量數(shù)據(jù)集,但是由于網(wǎng)站本身的多樣化和異構性以及網(wǎng)頁文檔結構的復雜性,很多數(shù)據(jù)都被嵌入到網(wǎng)頁結構與樣式中。Web信息獲取,也稱為基于Web的知識發(fā)現(xiàn)。Web數(shù)據(jù)獲取技術分為:基于本體的數(shù)據(jù)獲取、基于自然語言的數(shù)據(jù)獲取、基于網(wǎng)站查詢的數(shù)據(jù)獲取、基于規(guī)則和地理位置的數(shù)據(jù)獲取。利用行之有效的方法,將可用的信息從海量數(shù)據(jù)中抽取出來,挖掘潛在價值,將在金融、電信業(yè)、輿情監(jiān)控、數(shù)據(jù)分析以及其他科學領域發(fā)揮重要作用。由此可見,獲取Web信息的技術顯得尤為關鍵。

1Web信息獲取技術

Web信息獲取是指從網(wǎng)站上提取信息的一種計算機軟件技術,能將任何可以在瀏覽器上顯示的數(shù)據(jù)提取出來,因此也稱為屏幕抓取或數(shù)據(jù)采集。Web信息獲取是數(shù)據(jù)挖掘中的一項重要技術,它涉及到計算機網(wǎng)絡、文本處理、決策分析、人工智能等多個領域。其中,基本W(wǎng)eb文本信息獲取和知識發(fā)現(xiàn),包括Web文本內(nèi)容獲取、結構獲取、拓撲獲取等[2],需要從網(wǎng)站獲取所需的非結構化信息數(shù)據(jù),分析處理后存儲為統(tǒng)一格式的本地數(shù)據(jù)文件或直接存入本地數(shù)據(jù)庫,涉及網(wǎng)絡爬蟲、數(shù)據(jù)結構化、正則表達式等關鍵技術[3]。

1.1網(wǎng)絡爬蟲工作原理

網(wǎng)絡爬蟲是一個十分形象的名稱,俗稱網(wǎng)絡蜘蛛或網(wǎng)絡機器人,是一種按照規(guī)則對Web信息進行遍歷,自動抓取萬維網(wǎng)信息的程序或腳本。網(wǎng)絡爬蟲通常分為兩類:一類是搜索引擎提供商設計的爬蟲,這類爬蟲會不斷地在互聯(lián)網(wǎng)中利用鏈接跳轉(zhuǎn)采集頁面信息,返回后供搜索引擎建立相應索引。當用戶在引擎中輸入文字搜索時,引擎即會根據(jù)輸入對信息進行檢索,找到接近搜索文字的相關內(nèi)容并返回;另一類是對明確指定的網(wǎng)站進行數(shù)據(jù)抓取,獲得所需信息。這些信息通常是可以公共訪問的數(shù)據(jù)集。

網(wǎng)絡爬蟲的主要算法思想是通過Internet從指定的種子集合讀取URL訪問的Html頁面內(nèi)容,以及頁面包含的超級鏈接,并通過這些鏈接繼續(xù)爬取下級子頁面,然后收集用戶信息,進行分類和整理[4]。通常有兩種情況,一是Html使用標簽表示超級鏈接,進一步探測href屬性,實現(xiàn)跳轉(zhuǎn)到鏈接目標;二是鏈接跳轉(zhuǎn)是通過觸發(fā)了相關JavaScript代碼,如此不斷爬取下去,從而搜集到更多數(shù)據(jù)。網(wǎng)絡爬蟲結構如圖1所示。

主站蜘蛛池模板: 久热re国产手机在线观看| 欧美va亚洲va香蕉在线| 国产精品福利在线观看无码卡| 呦女亚洲一区精品| 日韩国产 在线| 一级香蕉视频在线观看| 亚洲 欧美 中文 AⅤ在线视频| 麻豆AV网站免费进入| 欧美成人日韩| 亚洲美女一区| 国产精品爆乳99久久| 亚洲成aⅴ人片在线影院八| 91精品视频在线播放| 黄色三级网站免费| 亚洲综合第一页| 欧美区一区| 精品国产三级在线观看| 欧美成人午夜在线全部免费| 91精品日韩人妻无码久久| 色久综合在线| 精品综合久久久久久97| 欧美日韩导航| 久久无码av三级| 国产欧美日本在线观看| 又污又黄又无遮挡网站| 欧美成在线视频| 日本91视频| 97国产一区二区精品久久呦| 欧美精品高清| 91在线精品麻豆欧美在线| 亚洲人成在线免费观看| 亚洲国模精品一区| 久久国产精品嫖妓| 日本一区二区三区精品国产| 成人午夜天| 国产第一福利影院| 无码国产伊人| 精品视频福利| 亚洲精品国产精品乱码不卞| 天堂网亚洲系列亚洲系列| a在线亚洲男人的天堂试看| 91精品专区国产盗摄| 久久精品中文字幕少妇| 国产色图在线观看| 免费人成黄页在线观看国产| 日韩AV无码免费一二三区| 亚洲色无码专线精品观看| 2021国产精品自拍| 亚洲国产中文欧美在线人成大黄瓜| 精品视频91| 国产91精品久久| 欧洲亚洲欧美国产日本高清| 国产91丝袜在线播放动漫 | 亚洲自偷自拍另类小说| 国产十八禁在线观看免费| 日韩毛片免费| 一级毛片高清| 欧美激情首页| 精品免费在线视频| 香蕉久人久人青草青草| 亚洲精品免费网站| 国产欧美视频综合二区| 国产亚洲视频免费播放| a在线亚洲男人的天堂试看| 午夜国产在线观看| 亚洲精品欧美重口| 国产制服丝袜91在线| a在线亚洲男人的天堂试看| 久久亚洲国产视频| 狠狠色噜噜狠狠狠狠奇米777 | 国产免费久久精品99re不卡| 免费看美女自慰的网站| 手机在线免费不卡一区二| 国产嫩草在线观看| 成人国产免费| 国产精品视频第一专区| 欧美精品亚洲精品日韩专区va| 二级特黄绝大片免费视频大片| 福利姬国产精品一区在线| 中文字幕欧美日韩| 亚洲综合婷婷激情| 99尹人香蕉国产免费天天拍|