999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下爬蟲技術應用與研究

2018-02-23 15:19:09黃文杰,姚庚梅
科技創新與應用 2018年6期

黃文杰,姚庚梅

摘 要:隨著互聯網快速發展和大數據時代的來臨,Web數據逐漸龐大,如何有效并快速地從互聯網上獲取到用戶自身需要的信息是亟需解決的問題,網絡爬蟲技術應運而生,它是搜索引擎抓取系統的重要組成部分。文章是以標訊快車項目為研究目標,依托本學院在大數據方面的研究優勢,結合該院IT特色,具有較強的實際意義和社會意義。

關鍵詞:JavaScript;網絡爬蟲;Web信息抓取

中圖分類號:TP391.3 文獻標志碼:A 文章編號:2095-2945(2018)06-0037-03

Abstract: With the rapid development of the Internet and the advent of big data era, it is urgent to solve the problem of how to get the information needed by users from the Internet effectively and quickly. Network crawler technology emerges as the times require, it is an important part of search engine grab system. This paper is based on the standard express project as the research goal, relying on the research advantage of big data in this college, combined with the IT characteristics of the institute, has a strong practical and social significance.

Keywords: JavaScript; WebCrawler; Web information scraping

1 網絡爬蟲的研究現狀與分析

搜索引擎的原理是根據用戶提交的關鍵詞返回一組URL地址,通過關鍵詞相似度進行優先級排序,用戶通過瀏覽Web頁面來尋找所需信息。但這種利用人工的方式來定位信息,仍然有缺乏統一管理的缺點,而且搜索結果精確度不高。此時,網絡爬蟲(Web crawler)技術的出現至關重要,網絡爬蟲是目前搜索引擎的重要組成部分,它的基本原則是在不影響服務器執行效率和不造成致命沖擊的前提下,提高爬蟲的爬行速度,擴大數據下載量以及提升抓取信息的準確率,這項技術的關鍵點為消除任何影響爬蟲爬行效率的障礙,令爬蟲達到高效且準確無誤。

1.1 網絡爬蟲效率瓶頸分析

網絡爬蟲效率受到制約的主要因素有:網絡延時和爬蟲運行效率;爬蟲系統功能模塊設計不良;爬蟲算法和功能模塊之間協同工作效率低;網頁服務器適應性差等。

1.2 動態網頁的信息抓取

首先,動態網頁是通過更新網站后臺數據庫,從服務器中傳遞參數而生成的網頁。本爬蟲采用的方法是通過對動態網頁進行解析,對網頁數據中進行信息處理并建立索引數據庫,重新定義一個自定義標準接口,當爬蟲開始對該網頁進行抓取前,對網頁的URL地址進行判斷,若判斷該動態網頁符合自定義標準接口,爬蟲方可開始通過HTTPS的方法下載網頁,并建立和導入數據庫。

1.3 網頁的更新

本項目在更新網頁數據庫時,通過判斷網頁屬性是否改變來進行更新,利用JavaScript在任何時候都能對任何對象的屬性進行動態的增、刪、查、改的特性,無需修改爬蟲代碼而直接進行網頁數據的更新抓取。

1.4 JavaScript算法實現

JavaScript語言是一種基于對象的編程語言,本作品使用JavaScript語言進行編程的原因是:JavaScript與其他面向對象的語言不一樣,它只有對象的概率,并沒有類,它的對象來源于其自身內部的對象,主機環境中的對象和用戶創建的對象。本爬蟲構建出JavaScript程序的對象層,方法層和語句層,逐層利用語句之間的數據依賴關系。利用函數對JavaScript程序控制全局變量的賦值語句中的左右值,參與語句中的謂詞的影響和對象多態繼承。利用JavaScript 動態進行時定義對象,實現對網頁數據的統一封裝。

2 系統設計與應用

2.1 項目設計原理

整個Internet互聯網就像一張龐大而有向的蜘蛛網,每個網頁就像蜘蛛網里的節點,網頁相互有向指向其他網站頁面的地址,從而構成了互聯網。如圖1所示,矩形A、B、C、D、E代表網站的頁面,箭頭代表網頁間相互指向URL地址的關系,所以,當爬蟲在抓取網頁的時候,將會使用有向遍歷的算法進行遍歷(即下文提出的深度優先策略和廣度優先策略)。本作品的主要研究方法在于依據客戶要求,對標訊快車平臺實施爬蟲技術,在抓取網頁的時候,使用廣度和深度并行的抓取策略,提高其抓取速度。當使用廣度和深度優先策略時,其時間復雜度與圖的節點與邊的數量成正相關關系,即與網頁的規模直接相關。(如圖2所示)。網絡爬蟲最理想的設計模型是高速、準確、有針對性地遍歷網站中所有網頁信息,而要達到這樣的設計標準往往使用單一算法是無法實現的,需要對網頁數據資源進行針對性的評估后合理地調度,然后對該網絡資源設定優先值,優先處理價值高的資源,滯后處理價值低或冷門的資源,再對其進行組合運用算法和爬蟲策略。

2.2 項目實現方式

本作品研究的基本思路是針對大數據應用,通過對海量詞匯的對比,使用爬蟲技術獲取到目標客戶關注的內容,下載到云平臺,再通過程序分析,將所需的數據提取分離出來,提供給目標客戶,幫助目標客戶進行多維度檢索、資質精準匹配、招標代理監測、詢價采購、甲方監測等。本研究項目在訪問一個站點時,會首先判斷URL地址和網頁屬性,確定需要訪問的范圍,若判斷不超時,則判定該站點為可用網頁,繼續進行解析,若判斷為超時,則將該站點視為無效網頁。本爬蟲通過初始化客戶提供的URL種子,利用HTTP通信下載的方式訪問URL對應的頁面和下載XML文檔,然后解釋網頁所有的URL提取網頁信息并保存網頁上的所有數據。爬行循環從解析出的URL挑選出其中一個進行爬行,一個鏈接一個鏈接跟蹤下去,直到把網頁所有的URL爬完為止。本爬蟲在讀取URL頁面時,會首先對URL地址和網頁屬性進行判斷,若程序判斷該網頁為動態網頁,則會自定義接口對其進行適配;若判定超時或出錯則默認為該URL頁面數據丟失或過期失效,將無效鏈接URL加入到錯誤隊伍中。反之,就繼續讀取和解析網頁的信息內容。

2.3 項目應用

標訊快車是為了配合公共招投標市場、優化采購商和供應商進行全球性貿易的權威電子媒體機構,響應《中華人民共和國招標投標法》而應運而生的專業平臺。標訊快車可及時發布國內3000家招投標代理網站保證項目信息,覆蓋了大部分國家財政性投資項目和社會投資項目。到目前為止,項目組成員已經通過該公司提供的虛擬桌面,完成了標訊快車平臺超過2000個代理網站的爬蟲,對抓取的數據進行分析處理,并建立了相應的云項目,為用戶極大地減輕了招投標的時間成本,使用戶可根據自己的需求精準定制行業信息。獨特性方面,由于是針對具體大數據應用項目標訊快車來實施爬蟲策略,能讓團隊成員更及時的對代碼優化的結果進行測試和調試。消除重復處理。消除重復處理的主要目的是避免爬蟲在遇到頁面相互形成環路的網站上反復執行而死循環的情況。因此,本爬蟲在訪問頁面時會進行判斷處理,并對已經訪問過的URL隊列進行base標記,對未訪問的URL隊列不進行標記。受限范圍。當爬蟲在訪問一般網站時,經常會遇到加密數據或權限的問題,加密數據是無法抓取下來的,有些網頁則需要管理員權限才能訪問,但本爬蟲是針對政府招標網頁進行數據抓取,所以一般不存在以上受限問題。無效或過期鏈接。檢查過期或無效的鏈接也是一個很重要的過程,這樣做不僅能提高網頁數據的使用率,還可以保證搜索文件的成功率。爬蟲效率分析。本項目系統是在實驗室的硬件、軟件環境下完成的,基本情況如表1所示。本爬蟲在進行信息抓取時會構造四個不同的棧堆,分別是等待棧堆,運行棧堆,錯誤棧堆,完成棧堆。一個初始URL從抓取開始到結束要經歷4個過程,為了避免爬蟲重復爬行陷入死循環,每一次URL從等待棧堆轉送到運行棧堆前,都會先與完成棧堆進行比較,進行消除重復的處理。

2.4 項目成果

使用普通爬蟲與本研究項目進行比較,本次采用的比較方法為控制變量法,抓取的網頁保護華中,華北,東北,華南四個區域超過600個縣級市的政府采購網頁,總網頁數目2500個。通過比較發現,普通爬蟲在12小時處理的網頁總數為1407個,本研究爬蟲在12小時處理的網頁總數為2132個,效率提升超過15%,所有網頁并未全部下載的主要原因有讀取網頁數據超時,系統判斷發現無效網頁而被舍棄。在爬行過程的最后階段,爬蟲的抓取效率開始下降,其中原因主要是隨著時間的推移,爬蟲程序開始占用系統資源;硬件環境由于發熱開始降頻。除了在標訊快車項目實施本項目研究的爬蟲技術外,我們還力求與其他行業的公司合作,為互聯網的爬蟲技術作出貢獻,把有效的數據檢索、數據匹配、數據監測等信息提供給目標客戶手中。

3 結束語

通過改進網絡爬蟲自身結構設計和調整策略選擇來提高爬蟲系統的效率,從而消除目前爬蟲工作效率低的瓶頸。目前越來越多的科研人員投入到網絡爬蟲的研究中,針對爬蟲策略和爬蟲方式的改進方案也逐漸被提出并廣泛采用。

參考文獻:

[1]李應.基于Hadoop的分布式主題網絡爬蟲研究[J].軟件導刊,2016(03).

[2]劉紅梅.垂直搜索引擎主題爬蟲搜索策略研究[J].科技信息,2013(08).

主站蜘蛛池模板: 国产成年无码AⅤ片在线| 中国精品自拍| 日韩少妇激情一区二区| 国产成人精品在线| 91av成人日本不卡三区| 一级成人欧美一区在线观看| 五月激情婷婷综合| 亚洲色图欧美视频| 99手机在线视频| 91视频首页| 91美女视频在线| 久久久久久午夜精品| 欧美一区二区三区不卡免费| 无码精品国产VA在线观看DVD| 亚洲国产精品日韩欧美一区| 国产成人精品日本亚洲| 亚洲高清在线播放| 日本在线视频免费| 亚洲大学生视频在线播放| 国产亚洲精品精品精品| 国产亚洲精品91| 40岁成熟女人牲交片免费| 97超级碰碰碰碰精品| 高潮爽到爆的喷水女主播视频| 精品国产成人国产在线| 91久久偷偷做嫩草影院精品| 久久五月天综合| 亚洲一区波多野结衣二区三区| 亚洲天堂免费观看| 萌白酱国产一区二区| 无码国内精品人妻少妇蜜桃视频 | 玖玖精品视频在线观看| 国产区免费| 精品在线免费播放| 国产精品网址在线观看你懂的| 国产精品美女自慰喷水| 亚洲欧美精品在线| 东京热av无码电影一区二区| 美女内射视频WWW网站午夜 | 色妺妺在线视频喷水| 日本欧美在线观看| 伊人久久青草青青综合| 东京热高清无码精品| 99在线视频免费| 99精品国产电影| 中文字幕在线播放不卡| 国产精品久久国产精麻豆99网站| 国产簧片免费在线播放| 中文字幕亚洲综久久2021| 国产在线观看91精品亚瑟| 日本黄色不卡视频| 免费看av在线网站网址| 亚洲成人福利网站| 狠狠色狠狠综合久久| 久久综合丝袜长腿丝袜| 亚洲熟女中文字幕男人总站| 最新亚洲人成无码网站欣赏网| 日韩欧美中文在线| 免费无遮挡AV| 国产xxxxx免费视频| 99视频免费观看| 日韩精品一区二区三区swag| 4虎影视国产在线观看精品| 在线国产你懂的| 国产成人综合亚洲欧美在| 免费A级毛片无码无遮挡| 国产资源免费观看| 国产成人AV综合久久| 最新日韩AV网址在线观看| 97在线免费| 国产日本一线在线观看免费| 制服丝袜亚洲| 园内精品自拍视频在线播放| 波多野结衣久久高清免费| 国产欧美视频在线观看| 亚洲一区网站| 一级黄色欧美| 一本大道东京热无码av | 一级做a爰片久久免费| 精品一區二區久久久久久久網站| 在线精品欧美日韩| 国产极品美女在线观看|