999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡爬蟲技術在農業生產數據獲取中的研究和應用

2021-04-18 16:54:56王曉楠張海峰楊雪峰
農業工程技術 2021年3期
關鍵詞:信息

王曉楠,李 楊,張海峰,張 宇,楊雪峰

(1.黑龍江省農業科學院農業遙感與信息研究所,黑龍江 哈爾濱 150086;2.黑龍江省農業科學院作物資源研究所,黑龍江 哈爾濱 150086)

關鍵字:爬蟲;分布式;Nutch框架;二級哈希

隨著中國經濟的快速發展,現代化農業也在不斷地進步和發展,高科技在農業領域中的投入也隨之加大,目標就是轉變傳統農業的生產模式。通過抓取農業生產數據,將更好的種植數據提供給廣大農業工作人員,對于解決現代農業種植過程中的問題非常有利。

1 基于農作物生長信息的采集結構設計

1.1 分布式爬蟲架構

網絡爬蟲主要是通過采集網絡中特定信息為后續工作提供精確的數據,因此,該論文運用垂直搜索引擎獲取數據。為了更好的完成網絡爬取任務,收集到更多符合條件的網頁信息,運用主從分布式架構方式來實現對農作物生長信息數據的爬取,主從分布式架構主要包括了分節點的工作狀態和監控以及URL的分發工作等,分節點獲得主節點分發的調度任務以后,完成調度任務中的爬取工作,并且將爬取結果反饋給主節點。爬蟲網絡的主從結構,如圖1所示。

1.2 分布式任務的優化調整

在分布式網絡結構中,計算機并行化處理很關鍵,該論文運用Nutch框架實現分布式網絡爬蟲。在農作物生長信息數據爬取的過程中,主節點將所有帶URL下載任務分配給不同的分節點進行爬取。論文設計分布式下載任務調度中,將URL映射到服務器上來完成下載的任務,計算公式如下:

分布式網絡伸縮性非常強,因此,只要節點數量發生變化,就會導致對數據二次爬取,Nutch系統運用集中式分割方法解決上述的問題主要是通過構建哈希函數來完成劃分任務的工作。首先構造Hash函數,第一次計算獲得新的URL,并將其映射到表A中;接下來對表A進行哈希映射,并將映射后的結果值劃分給分節點中。

2 采集農作物生長信息的流程

2.1 基于Nutch的URL過濾

為了提高爬取的效率,降低主題爬蟲的工作量,最有效的方式將URL的數目過濾和限定。所有的URL過濾規則,都是在conf文件目錄下,進行參數配置和過濾規則的設計,而非在源代碼中直接進行修改;接下來調取過濾規則,則是需要調用URLFilter子類下的getConf()函數,流程如圖2所示,通過上述方式就能夠更加便捷地實現過濾規則的修改。

圖2 URL 種子抓取

2.2 主題相關性判斷

農作物生長信息數據的主題爬取,不僅要通過URL種子的限定和過濾,還要判斷主題的內容。所有網絡爬取后獲得URL列表注入以后,此時parse Text文該文件就會自動生成,相關性判斷是基于parse Text文件采用向量模型來實現的,將任意的網頁信息都定義為空間向量,其中表示當前網頁的關鍵詞,表示關鍵詞的權重,則兩個向量間的相關性采用余弦值表示:

2.3 信息抽取

通過定義信息抽取模板,就能夠實現大部分類型網頁的提取,再將 HTMLPsrser解析庫加載,將提取到的多種類型網頁編寫為相對應的頁面進行解析方法,從特定的文件中提取到農作物生長信息數據以后,匹配URL,調用相對應的解析模板,完成相關網頁的解析工作。具體的流程如下:

(1)構建解析網頁信息模板,將不同類型的網頁信息分類以后,編寫相對應的解析信息模板;

(2)將下載的URL與模板信息庫進行匹配,此時將信息URL種子注入以后,通過對比和分析以后,匹配對應的解析模板;

(3)抽取解析后網頁中的信息,并在特定的文件中存儲所有的文本信息。

3 結果分析

相關網絡爬蟲模板和信息提取流程完成以后,接下來就是優化測試分布式網絡爬蟲的性能,以此來驗證其是否具備一定的優勢。該論文通過對比,分析分布式爬蟲網絡和單機網絡爬蟲的數量和時間性能。

首先,闡述分布式網絡爬蟲結構的軟硬件,如表1、表2所示。

表1 計算機軟件配置

表2 集群配置

通過測試,分布式爬取和單機采集數據量在規定的時間內進行統計,具體如表3所示,記錄了不同時間段爬蟲抓取獲得的信息量。

表3 采取數據量統計表

圖4 統計對比圖

通過分析可以知道,當時間段比較小時,分布式爬取數量并沒有太大的差異。隨著時間的增長和數據量遞增以后,分布式網絡爬取能夠將更大的數據信息量獲得。

4 總結

在大數據時代,為了更好的完成網絡爬取任務,收集到更多符合條件的網頁信息,該論文運用了分布式網絡爬蟲技術。在分布式集群中,各個計算機都是并行執行的,這就會涉及到資源調配問題,因此,當網絡規模擴大到一定程度以后,集中式分割方式會導致整體運行速率降低等相關問題,研究表明,運用二級哈希算法來解決該問題,可使整體的負載均衡效率更好,提高數據采集效率。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产成人午夜福利免费无码r| 国产自在线拍| 国产精品美女免费视频大全| 久久综合亚洲色一区二区三区| 亚洲无码高清一区| 性69交片免费看| 亚洲Aⅴ无码专区在线观看q| 尤物成AV人片在线观看| 国产AV毛片| 秋霞午夜国产精品成人片| 国产天天色| 日韩精品亚洲精品第一页| 免费国产在线精品一区| 国产精品密蕾丝视频| 国产成人精品2021欧美日韩| 1级黄色毛片| 老司国产精品视频| 亚洲精品成人片在线观看| 欧美日韩国产在线人成app| 午夜免费小视频| 91黄视频在线观看| 久久婷婷五月综合色一区二区| 欧美亚洲一二三区| 国产婬乱a一级毛片多女| 国产精品成人不卡在线观看| a色毛片免费视频| 国产在线麻豆波多野结衣 | 久久精品亚洲热综合一区二区| 国产精品3p视频| 综合网天天| 欧美成人综合视频| 欧洲成人免费视频| 国产一级做美女做受视频| 国产精品高清国产三级囯产AV| 欧美成人国产| 亚洲色婷婷一区二区| 手机精品视频在线观看免费| 婷婷五月在线视频| 成人欧美日韩| 国产高清在线精品一区二区三区 | 亚洲成人在线网| 国产人成网线在线播放va| 日韩免费成人| 国产成人综合亚洲网址| 亚洲一区黄色| 国产美女在线观看| 亚洲第一福利视频导航| 亚洲欧美成人网| 欧美精品高清| a在线观看免费| 亚洲国产综合精品一区| 少妇人妻无码首页| 欧美日本视频在线观看| 五月丁香在线视频| 亚洲欧洲日韩国产综合在线二区| 欧美在线一级片| 亚洲一区免费看| 国产浮力第一页永久地址| 国产精欧美一区二区三区| 五月天久久婷婷| 在线观看亚洲天堂| 亚洲一区二区三区麻豆| 国产资源免费观看| 麻豆AV网站免费进入| 久久人体视频| 亚洲日韩AV无码一区二区三区人| 亚洲一区精品视频在线| 视频一区视频二区中文精品| 亚洲美女一级毛片| 亚洲品质国产精品无码| 天天操天天噜| 福利小视频在线播放| 九九九九热精品视频| 国产激情无码一区二区APP| 国产精品久久久久久久久| 欧美天堂久久| 91视频99| 婷婷五月在线视频| 国产一国产一有一级毛片视频| 日本高清免费不卡视频| 欧美日韩国产精品综合| www精品久久|