999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)爬蟲技術(shù)在電力產(chǎn)業(yè)中的應(yīng)用

2018-01-28 00:46:31賀冠博蘇宇琦黃源
電子技術(shù)與軟件工程 2017年18期
關(guān)鍵詞:分析

賀冠博+蘇宇琦+黃源

摘要

隨著技術(shù)的進(jìn)步,將互聯(lián)網(wǎng)技術(shù)和設(shè)計研究結(jié)構(gòu)融合在一起,能在提升設(shè)計參數(shù)有效性的同時,提升設(shè)計框架的完整度,確保設(shè)計效果最優(yōu)化。網(wǎng)絡(luò)爬蟲爬取的網(wǎng)頁信息以固定的格式獲取到本地后,能達(dá)到一種比較合理科學(xué)性的空間膨脹比,并提升技術(shù)分析參數(shù)的完整度。因此,要想從根本上優(yōu)化技術(shù)設(shè)計框架質(zhì)量,就要結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)中的不同框架要素。

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲技術(shù) 分析 網(wǎng)絡(luò)爬蟲設(shè)計

國際互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展讓人類步入了大數(shù)據(jù)、云信息時代,在這種背景下,目前全球網(wǎng)頁己經(jīng)超過20億,而且正在以每天730萬的數(shù)量不斷增加。在如此浩瀚的信息海洋中尋找信息宛如大海撈針。而搜索引擎技術(shù)的出現(xiàn)正解決了這一問題,它充分利用到了信息檢索、人工智能、計算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)挖掘、數(shù)據(jù)庫、數(shù)字圖書館、自然語言處理等多領(lǐng)域理論技術(shù),為互聯(lián)網(wǎng)技術(shù)發(fā)展提供了充足的參考依據(jù)。網(wǎng)絡(luò)爬蟲(Web Crawler)作為搜索引擎中的關(guān)鍵部分,它也被稱為網(wǎng)絡(luò)蜘蛛(Web Spider)、Web信息采集器,它是一個自動下載網(wǎng)頁的計算機(jī)程序(自動化腳本),能夠從一個稱之為種子集的URL集合中展開運行流程。具體來講,它會將URL集合中的所有URL全部放入到某一個有序的待爬行隊列中,按照一定順序從中提取URL以下在被指定網(wǎng)頁頁面,同時分析頁面內(nèi)容,最后提取新的URL并存入待爬行URL隊列中,如此反復(fù),直到URL隊列為空或滿足某一爬行終止條件,實現(xiàn)用戶對Web的有效瀏覽,因此它還被稱之為網(wǎng)絡(luò)爬行(Web Crawling)。

作為網(wǎng)絡(luò)機(jī)器人中的一種,它隨著當(dāng)前網(wǎng)絡(luò)資源的爆炸式膨脹而不斷實現(xiàn)個性化更新,擴(kuò)大自身索引規(guī)模。傳統(tǒng)通用爬蟲技術(shù)己經(jīng)不能滿足現(xiàn)有索引規(guī)模及網(wǎng)絡(luò)個性化更新速度,更不能滿足客戶現(xiàn)實需求。所以像主題爬蟲的出現(xiàn)則異于通用爬蟲,它可以采集全部網(wǎng)絡(luò)資源,從互聯(lián)網(wǎng)上采集特定主題資源網(wǎng)頁,進(jìn)而大幅度提升信息資源搜索效率,逐漸成為當(dāng)前研究熱點。在美國的卡內(nèi)基梅隆大學(xué),眾多信息技術(shù)研究者就設(shè)計了Context Focused Crawler聚焦爬蟲系統(tǒng),提出了網(wǎng)頁主題管理WTMS系統(tǒng),并基于計算ontology相關(guān)度設(shè)計了主題爬蟲,逐步完善其體系結(jié)構(gòu)與框架,提出了目前全新的Web資源爬行系統(tǒng)IBM Focused Crawler。而國內(nèi)南京大學(xué)的學(xué)者教授則在近年來設(shè)計了IDGS數(shù)據(jù)采集系統(tǒng),該系統(tǒng)也基于Web技術(shù)與網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)了網(wǎng)絡(luò)資源信息自動搜集功能,己經(jīng)被社會上各行各業(yè)所廣泛應(yīng)用。

在我國的國家電網(wǎng)行業(yè),全系統(tǒng)內(nèi)外網(wǎng)隔離及外部搜索引擎己經(jīng)無法進(jìn)入系統(tǒng)內(nèi)部網(wǎng)絡(luò),因此在電力企業(yè)內(nèi)部就必須通過更多網(wǎng)頁信息交流及鏈接交換功能來實現(xiàn)信息檢索和傳播。為此,電力系統(tǒng)應(yīng)該基于廣域網(wǎng)特點,充分利用網(wǎng)絡(luò)爬蟲技術(shù),對廣域網(wǎng)中的有效信息進(jìn)行分類過濾和快速收集,確保信息的準(zhǔn)確性與完整性。電力產(chǎn)業(yè)作為關(guān)系到國民經(jīng)濟(jì)的重要行業(yè),積極應(yīng)用相關(guān)技術(shù)推動其優(yōu)化發(fā)展,是產(chǎn)業(yè)發(fā)展的必然趨勢。本文將從網(wǎng)絡(luò)爬蟲技術(shù)整體結(jié)構(gòu)介紹入手,對網(wǎng)絡(luò)爬蟲技術(shù)基本框架和網(wǎng)絡(luò)爬蟲設(shè)計進(jìn)行了分析設(shè)計,并著重闡釋了網(wǎng)絡(luò)爬蟲工具在信息調(diào)度值班中的應(yīng)用路徑,旨在證明網(wǎng)絡(luò)爬蟲技術(shù)在電力產(chǎn)業(yè)中的應(yīng)用作用,并為技術(shù)研究人員提供有價值的參考建議。

1網(wǎng)絡(luò)爬蟲技術(shù)整體結(jié)構(gòu)

網(wǎng)絡(luò)爬蟲技術(shù)結(jié)構(gòu)在建立過程中,要保證每個子目標(biāo)都貼合系統(tǒng)的實際發(fā)展結(jié)構(gòu)和規(guī)律,確保運行參數(shù)和運行結(jié)構(gòu)的穩(wěn)定性,也能提升網(wǎng)絡(luò)爬蟲技術(shù)的實際效率。在整體結(jié)構(gòu)研究過程中,技術(shù)人員要針對靈活性、低成本以及高性能進(jìn)行集中管控,確保運行參數(shù)和運行維度之間能建立有效的平衡結(jié)構(gòu)。另外,網(wǎng)絡(luò)爬蟲技術(shù)的健壯性特征也較為明顯,正是基于服務(wù)器通信結(jié)構(gòu)和服務(wù)器系統(tǒng)化反應(yīng),能在處理服務(wù)器異常舉動的過程中,確保對URL進(jìn)行集中判定,從而對系統(tǒng)中PC結(jié)構(gòu)的基本結(jié)點進(jìn)行辨認(rèn),特別是處理錯誤的程序較為有效。特別要注意的是,在運行網(wǎng)絡(luò)爬蟲技術(shù)的過程中,基本框架能對信息和數(shù)據(jù)運行速度實現(xiàn)有效控制,在規(guī)定范圍內(nèi)保持訪問間隔運行有效,并對服務(wù)器要進(jìn)行每隔30秒的訪問。

2網(wǎng)絡(luò)爬蟲技術(shù)基本框架

2.1網(wǎng)絡(luò)艦蟲技術(shù)爬行節(jié)點結(jié)構(gòu)設(shè)計

網(wǎng)絡(luò)爬蟲技術(shù)基本框架由不同的PC端構(gòu)成,其中要對控制節(jié)點的設(shè)計結(jié)構(gòu)進(jìn)行分析,在結(jié)構(gòu)設(shè)計中要對五個基本模塊進(jìn)行綜合分析。

2.1.1URL分配模塊

該模塊主要是為了有效協(xié)調(diào)不同結(jié)點之間的工作項目,確保參數(shù)結(jié)構(gòu)符合實際需求,也為了將不同任務(wù)直接分配給不同的項目節(jié)點,需要技術(shù)人員對工作節(jié)點的時序性和工作具體要求進(jìn)行分析,從而保證任務(wù)分配下項目在不同節(jié)點能發(fā)揮相應(yīng)的效力。特別要注意的是,不同結(jié)點要保證工作不會出現(xiàn)重復(fù),并能根據(jù)實際情況集中進(jìn)行項目添加。

2.1.2結(jié)點通信模塊

技術(shù)人員能利用不同的技術(shù)參數(shù)對系統(tǒng)進(jìn)行集中管控,確保管理結(jié)構(gòu)和參數(shù)之間能建立有效的平衡,在提高結(jié)點通信模塊通信效率的同時,能利用采集器對采集網(wǎng)頁上的信息進(jìn)行直接處理,確保信息共享和信息交互。需要注意的是,在模塊運行過程中,本身需要具備一定的策略結(jié)構(gòu),系統(tǒng)要在對等網(wǎng)絡(luò)建立的過程中確保通信協(xié)議符合實際標(biāo)準(zhǔn),提高通信器的實際價值。

2.1.3URL分析模塊

在模塊運行過程中,能對即將訪問的URL隊列模塊和己經(jīng)訪問的URL隊列模塊進(jìn)行集中處理,并對IP和域名轉(zhuǎn)換模塊進(jìn)行綜合審定。

2.2網(wǎng)絡(luò)爬蟲技術(shù)控制節(jié)點結(jié)構(gòu)設(shè)計

在對網(wǎng)絡(luò)爬蟲技術(shù)控制節(jié)點進(jìn)行分析的過程中,能對數(shù)據(jù)進(jìn)行集中的管控,主要是對運行狀態(tài)進(jìn)行觀察,并對參數(shù)進(jìn)行調(diào)整。要對刪除結(jié)點結(jié)構(gòu)和監(jiān)控項目進(jìn)行綜合分析,實現(xiàn)管理效果和管理水平的集中優(yōu)化。

(1)在對運行狀態(tài)和運行參數(shù)調(diào)整的過程中,技術(shù)人員要保證對不同結(jié)點的運行維度和運行參數(shù)進(jìn)行著重解構(gòu),對URL實際數(shù)目和參數(shù)結(jié)構(gòu)進(jìn)行集中調(diào)整,以保證系統(tǒng)在最佳狀態(tài)運行實際工作。endprint

(2)技術(shù)人員要對系統(tǒng)添加和刪除結(jié)點進(jìn)行集中控制,以保證必要操作的完整度,真正從系統(tǒng)的擴(kuò)展性和容錯性出發(fā),提高系統(tǒng)整體質(zhì)量。例如,要對系統(tǒng)中的ADDnode()以及Deletenode()進(jìn)行集中記錄,以保證信息同步操作的完整度,也實現(xiàn)副本更新的整體處理目標(biāo)。

(3)在對結(jié)點進(jìn)行有效監(jiān)控的過程中,技術(shù)人員要對系統(tǒng)中的同步模塊進(jìn)行綜合管理,確保結(jié)點列表內(nèi)部的信息真實有效,也要對結(jié)點中的hash映射信息和數(shù)據(jù)進(jìn)行集中處理,減少其隨意的向其他結(jié)點布置任務(wù)的情況。

3網(wǎng)絡(luò)爬蟲設(shè)計

3.1網(wǎng)絡(luò)爬蟲分布式設(shè)計策略

前文提到了任務(wù)在結(jié)點之間的分配,需要技術(shù)人員針對具體問題進(jìn)行優(yōu)化管控,也要對分布式策略進(jìn)行綜合分析,確保設(shè)計策略能貼合系統(tǒng)的實際需求。在分布式策略建立和運行的過程中,技術(shù)人員要針對具體問題進(jìn)行優(yōu)化處理,最重要的就是要將信息劃分為分布式信息采集系統(tǒng)和廣域網(wǎng)分布式信息采集結(jié)構(gòu)。一方面,分布式信息采集系統(tǒng)要對內(nèi)連接信息進(jìn)行集中總結(jié),另一方面,要保證采集器能將信息借助網(wǎng)絡(luò)遠(yuǎn)程通信實現(xiàn)信息維度控制的有效性。技術(shù)人員要對廣域網(wǎng)模式進(jìn)行集中管控,也要對廣域網(wǎng)和局域網(wǎng)之間的結(jié)合結(jié)構(gòu)進(jìn)行綜合分析,確保處理機(jī)制和結(jié)點運行機(jī)制貼合實際市場發(fā)展訴求。

3.2網(wǎng)絡(luò)爬蟲多線程下載設(shè)計策略

多線程下載設(shè)計結(jié)構(gòu)最基本的優(yōu)勢就是能對多個單程進(jìn)行記錄,確保不同事件能統(tǒng)一運行。例如,在一個線程運行GUI指令時,需要對數(shù)據(jù)和信息進(jìn)行登記,第二個線程運行或執(zhí)行I/O操作指令的過程中,第三個線程在運行時,需要對整體系統(tǒng)參數(shù)和結(jié)構(gòu)進(jìn)行計算,確保管控結(jié)構(gòu)具有時效性。多線程結(jié)構(gòu)最大的優(yōu)勢就是在程序內(nèi)部能提高計算機(jī)的實際效率,提升程序有效性的同時,建構(gòu)更加有效的內(nèi)存空間,從而共享數(shù)據(jù)信息。只有保證多線程下載設(shè)計策略優(yōu)化運行,才能真正提高整體運行結(jié)構(gòu)和效率。

3.3網(wǎng)絡(luò)爬蟲網(wǎng)頁分析設(shè)計策略

主要對HTML標(biāo)記進(jìn)行分析,其中包括單標(biāo)記和雙標(biāo)記項目,第一,標(biāo)記為“單標(biāo)記”需要在單獨運行過程中對信息進(jìn)行完整表達(dá),常用標(biāo)記就是

。第二,標(biāo)記為“雙標(biāo)記”要對初始標(biāo)志和結(jié)尾標(biāo)記進(jìn)行結(jié)構(gòu)分析,確保標(biāo)記結(jié)構(gòu)符合數(shù)據(jù)要求,常用的標(biāo)記形式是

4網(wǎng)絡(luò)爬蟲工具在電力企業(yè)信息調(diào)度值班中的應(yīng)用

在技術(shù)逐步發(fā)展的進(jìn)程中,將網(wǎng)絡(luò)爬蟲技術(shù)和信息調(diào)度工作融合在一起,是順應(yīng)市場發(fā)展訴求的必然趨勢,本項目主要是將網(wǎng)絡(luò)爬蟲工具應(yīng)用于電力企業(yè)調(diào)度值班工作中。

(1)要在電力企業(yè)信息調(diào)度值班中運行有效的網(wǎng)絡(luò)爬蟲工具,提升管控制度的優(yōu)化水平,借助網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)各應(yīng)用系統(tǒng)定時自動巡檢,快速定位出現(xiàn)訪問異常的系統(tǒng),并對其具體參數(shù)進(jìn)行集中分析和控制,有效記錄異常發(fā)現(xiàn)時間,在應(yīng)用巡檢工具之前,值班員通過人工巡檢各應(yīng)用系統(tǒng),檢查系統(tǒng)的正常情況,平均每隔2小時檢查1次,每次用時30分鐘,則每天只能檢查12次,需耗時6小時;在使用巡檢工具后,可以達(dá)到每隔30分鐘巡檢1次系統(tǒng),每次用時不超過5分鐘,則每天可以巡檢48次,耗時僅用4小時。

(2)值班人員也要借助網(wǎng)絡(luò)爬蟲工具強(qiáng)化信息值班調(diào)度的實際效果,并能及時通過短信的方式告知其他調(diào)度值班人員,以保證人力資源配置結(jié)構(gòu)的完整度,優(yōu)化技術(shù)應(yīng)用的實際效果,順利實現(xiàn)信息調(diào)度值班項目的優(yōu)化目標(biāo)。

(3)電力企業(yè)在調(diào)度工作中若是發(fā)現(xiàn)任何問題,都需要值班人員確后第一時間聯(lián)系系統(tǒng)負(fù)責(zé)人,及時處理系統(tǒng)異常問題,有效的提高值班工作中發(fā)現(xiàn)系統(tǒng)異常、處理問題的效率,減輕了每天手工巡檢系統(tǒng)的效率,為值班工作帶來了切實有效的巡檢手段。

(4)電力企業(yè)要針對信息調(diào)度值班工作人員進(jìn)行集中的技術(shù)培訓(xùn),提升其信息處理能力和技術(shù)操作意識,確保整體管理效果和管理層級符合企業(yè)發(fā)展的實際需求,真正落實技術(shù)優(yōu)勢,進(jìn)一步提高網(wǎng)絡(luò)爬蟲技術(shù)對信息調(diào)度值班項目的優(yōu)化水平。

5結(jié)束語

總而言之,將網(wǎng)絡(luò)爬蟲技術(shù)和信息調(diào)度

項目融合在一起,能從根本上提高整體運行結(jié)構(gòu)質(zhì)量和效率,確保管理措施和管理效果更加符合市場需求,順利優(yōu)化仿真系統(tǒng)的有效性,從而保證企業(yè)的工作效率,從根本上實現(xiàn)技術(shù)工作按照標(biāo)準(zhǔn)化流程優(yōu)化運行,調(diào)度員也能在仿真系統(tǒng)中獲得有效的信息和數(shù)據(jù),為我國信息項目可持續(xù)發(fā)展奠定堅實基礎(chǔ)。

參考文獻(xiàn)

[1]張明杰.基于網(wǎng)絡(luò)爬蟲技術(shù)的輿情數(shù)據(jù)采集系統(tǒng)設(shè)計與實現(xiàn)[J].現(xiàn)代計算機(jī)(專業(yè)版),2015,15(12):72-75.

[2]周大.云環(huán)境下Web應(yīng)用掃描中的網(wǎng)絡(luò)爬蟲技術(shù)探究[J].信息網(wǎng)絡(luò)安全,2013,15(05):20-23.

[3]鐘锃光.經(jīng)濟(jì)學(xué)家也要學(xué)點網(wǎng)絡(luò)爬蟲技術(shù)——漫談爬蟲技術(shù)與經(jīng)濟(jì)數(shù)據(jù)收集[J].經(jīng)濟(jì)資料譯叢,2014,22(02):94-100.

[4]徐劍,柯貴明.網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[C].全國第24屆計算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集,2013:531-535.

[5]彭冬,蔡皖東.面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實現(xiàn)[J].計算機(jī)工程與科學(xué),2014,33(01):157-160.

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产人成乱码视频免费观看| 国产精品久线在线观看| 2020最新国产精品视频| 99视频在线精品免费观看6| a网站在线观看| 美女免费精品高清毛片在线视| 久久久久人妻精品一区三寸蜜桃| 久久久久久国产精品mv| 午夜日本永久乱码免费播放片| 亚洲视频二| 日本午夜在线视频| 国产亚洲精品自在线| 国产福利免费视频| 久久精品国产一区二区小说| 在线视频一区二区三区不卡| 中国黄色一级视频| 久久情精品国产品免费| 国产三级成人| AV无码国产在线看岛国岛| 亚洲人成影院午夜网站| 国产精品无码在线看| 亚洲h视频在线| 欧美在线国产| 色哟哟精品无码网站在线播放视频| 国产sm重味一区二区三区| www.91中文字幕| 国产成人综合日韩精品无码首页| 国产乱子伦视频三区| 欧美另类精品一区二区三区| 99在线视频精品| 久久精品人人做人人爽电影蜜月| 毛片三级在线观看| www.youjizz.com久久| 无码电影在线观看| 就去色综合| 五月婷婷亚洲综合| 精品无码国产一区二区三区AV| 国产主播一区二区三区| 香蕉视频在线观看www| 97青草最新免费精品视频| 97亚洲色综久久精品| 欧美精品xx| 在线一级毛片| 欧美精品成人一区二区视频一| 5388国产亚洲欧美在线观看| 国产美女91视频| 国产一二三区在线| 日韩av手机在线| 青青操视频免费观看| 国产成人精品一区二区三在线观看| 欧美色伊人| 波多野结衣无码AV在线| 亚洲AV无码久久天堂| m男亚洲一区中文字幕| 毛片手机在线看| 极品国产一区二区三区| 亚洲无码视频一区二区三区| 播五月综合| 亚洲成人精品在线| 99久久国产精品无码| 女人爽到高潮免费视频大全| 精品无码专区亚洲| 欧美精品综合视频一区二区| 亚洲综合片| 一本二本三本不卡无码| 99这里只有精品免费视频| 丁香六月激情综合| 视频二区中文无码| 57pao国产成视频免费播放| 波多野结衣一区二区三区四区视频| 欧美日韩国产高清一区二区三区| 中文字幕人妻无码系列第三区| 第一页亚洲| 日本人妻丰满熟妇区| 亚洲乱码在线播放| 日本黄色不卡视频| 欧美精品成人一区二区在线观看| 欧美成人精品欧美一级乱黄| 国产高清在线丝袜精品一区| 91在线无码精品秘九色APP| 精品自拍视频在线观看| 无码高清专区|