999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于python爬蟲的圖片信息檢索與分析

2019-12-17 03:32:10劉雷周玫江西工業(yè)職業(yè)技術學院
數(shù)碼世界 2019年12期
關鍵詞:信息

劉雷 周玫 江西工業(yè)職業(yè)技術學院

一、研究背景

在日常生活中,我們在網(wǎng)絡上檢索圖片信息,一般采用百度搜索、谷歌搜索、360搜索等等搜索引擎,但是在檢索過程中,一般都會出現(xiàn)搜索引擎本身提供的廣告、推廣等信息,為了使搜索內容簡單、準確化,利用python爬蟲技術,開發(fā)了一款圖片搜索功能程序,便于圖片檢索的精準化。

二、具體實現(xiàn)目標:

1.數(shù)據(jù)抓取

利用爬蟲技術,輸入檢索關鍵字,將網(wǎng)絡上雜亂無章的初步數(shù)據(jù)進行整理,并在盡量少的先驗假定條件下進行數(shù)據(jù)分析,爬取優(yōu)質網(wǎng)頁數(shù)據(jù),檢索出篩選出符合條件的最優(yōu)質的圖片資源信息。

2.圖片存儲

將爬取回來的可能存在數(shù)據(jù)缺失、錯誤等情況,使用pandas 包方法進行數(shù)據(jù)的二次處理,最后直接用文件的形式存在本地文件夾中。

三、采用關鍵技術

1.爬蟲技術數(shù)據(jù)檢索

使用現(xiàn)階段較為流行的網(wǎng)絡爬蟲技術,根據(jù)關鍵字進行數(shù)據(jù)針對化檢索,將檢索的信息最大程度符合用戶需要。

2.數(shù)據(jù)處理

對爬取的URL數(shù)據(jù)信息進行二次處理,將數(shù)據(jù)缺失,無效。錯誤信息進行篩選,以保證爬取信息真實有效。

3.URL 存儲

將篩選后有效的圖片資源數(shù)據(jù)信息保存到本地文件夾中,方便用戶使用。

四、工具及解決方案

爬蟲是采用python語言開發(fā),按照特定規(guī)則自動獲取網(wǎng)絡資源的腳本或程序,其爬取過程大部分都是按“發(fā)送請求——獲得頁面——解析頁面——抽取并儲存內容”這樣的流程來進行,這其實也是模擬了瀏覽器獲取網(wǎng)頁信息的過程。

1.本系統(tǒng)采用的研究方法及技術路線:利用基于Python設計及實現(xiàn)一個完整的網(wǎng)絡爬蟲,利用檢索關鍵字方法爬取符合條件的所有目標網(wǎng)站及待抓取的鏈接地址,對鏈接地址中的信息進行有效分析提取,并保存在網(wǎng)絡收藏夾或本地文件當中。

2.試驗方案:通過現(xiàn)有URL進行分析,查看各類符合條件的網(wǎng)頁源代碼,繼續(xù)網(wǎng)頁抓包分析,將各類網(wǎng)頁文件、代碼形式進行分類概括,基本步驟:

(1)不設防的網(wǎng)站,直接爬取,不做任何偽裝

(2)基礎防備的網(wǎng)站,爬取過程中增加休眠次數(shù),降級爬取頻次,防止被限制。再可以每次爬取切換頭信息,偽裝成多個終端發(fā)起的請求

(3)需要登錄的情況下,需要多個用戶賬戶,爬取過程中切換cookie 信息,模擬不同用戶在請求。

(4)使用 IP 代理池,切換 IP,越過高級限制。

3.可行性分析:利用基于Python設計及實現(xiàn)一個完整的網(wǎng)絡爬蟲,爬取用戶需要的更準確的檢索信息,可以在互聯(lián)網(wǎng)上驗證實驗方案的可行性和正確性。

4.數(shù)據(jù)處理

數(shù)據(jù)處理包括數(shù)據(jù)收集、數(shù)據(jù)預處理、數(shù)據(jù)分析及存檔。

數(shù)據(jù)的收集,這需要對爬蟲軟件進行時間設置以保障收集到的數(shù)據(jù)時效性質量。

預處理環(huán)節(jié)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉換等內容,可以大大提高搜索數(shù)據(jù)的總體質量,是數(shù)據(jù)過程質量的體現(xiàn)。數(shù)據(jù)清理技術包括對數(shù)據(jù)的不一致檢測、噪聲數(shù)據(jù)的識別、數(shù)據(jù)過濾與修正等方面,有利于提高數(shù)據(jù)的一致性、準確性、真實性和可用性等方面的質量。

圖1爬蟲流程圖

數(shù)據(jù)分析是數(shù)據(jù)處理與應用的關鍵環(huán)節(jié),它決定了數(shù)據(jù)集合的價值性和可用性,以及分析預測結果的準確性。在數(shù)據(jù)分析環(huán)節(jié),應根據(jù)數(shù)據(jù)應用情境與決策需求,選擇合適的數(shù)據(jù)分析技術,提高大數(shù)據(jù)分析結果的可用性、價值性和準確性質量。

存檔是將通過數(shù)據(jù)收集、預處理病分析后的正確數(shù)據(jù)保存到網(wǎng)絡收藏夾或者本地文件夾中,是爬取數(shù)據(jù)結果的體現(xiàn)。

5.系統(tǒng)測試

針對基于python的高職教育信息爬取與數(shù)據(jù)分析進行測試,包括三個方面:

(1)針對場景測試,可以通過輸入關鍵字進行測試,包括成功的爬取場景和失敗的場景,比如無數(shù)據(jù)、無效數(shù)據(jù)。

(2)爬蟲質量測試,主要是根據(jù)整體設計和代碼實現(xiàn)來分析爬蟲的處理方式是否是高可用的。

(3)爬蟲效率測試,主要針對錄入關鍵字進行數(shù)據(jù)爬取,包括成功爬取所使用的時間和數(shù)量。

五、總結

根據(jù)以上設計,利用python技術實現(xiàn)了關鍵字檢索往哪里圖片信息的作用,該系統(tǒng)主要是將網(wǎng)絡上零散的數(shù)據(jù)信息,通過在線數(shù)據(jù)分析主要包括探索性數(shù)據(jù)分析,并成功的將檢索關鍵字將檢索符合條件的圖片信息保持到本地文件夾中。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
展會信息
展會信息
展會信息
展會信息
展會信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲无线国产观看| 国产福利小视频高清在线观看| 日韩国产一区二区三区无码| 婷婷丁香在线观看| 久草视频精品| 真实国产乱子伦高清| 亚瑟天堂久久一区二区影院| 亚洲精品福利网站| 亚洲中文字幕久久精品无码一区| 亚洲美女一区二区三区| 色网站在线视频| 五月婷婷亚洲综合| 国产精品露脸视频| 色悠久久久| 国产福利在线观看精品| 中文字幕在线永久在线视频2020| 第一页亚洲| 日韩毛片在线视频| 久久这里只有精品免费| 国产精品刺激对白在线| 日本道中文字幕久久一区| 亚洲人成日本在线观看| 亚洲天堂网在线观看视频| 不卡无码h在线观看| 亚洲第一国产综合| 国产无人区一区二区三区| 热这里只有精品国产热门精品| 在线观看国产精品第一区免费| 小蝌蚪亚洲精品国产| 国产在线91在线电影| 性激烈欧美三级在线播放| 波多野结衣中文字幕一区二区| 在线视频精品一区| 亚洲欧美精品一中文字幕| 嫩草国产在线| 国产啪在线| 在线亚洲小视频| 国产18在线| 精品第一国产综合精品Aⅴ| 久久国产拍爱| 免费在线一区| 她的性爱视频| 人妻中文久热无码丝袜| 狠狠亚洲婷婷综合色香| 精品一区二区久久久久网站| 精品视频免费在线| 久久婷婷六月| 91在线一9|永久视频在线| 天天综合网色| 欧美激情视频一区二区三区免费| 国产精品一区在线麻豆| 亚洲爱婷婷色69堂| 久久久久夜色精品波多野结衣| 日韩国产高清无码| 色窝窝免费一区二区三区 | 一级做a爰片久久毛片毛片| 波多野结衣视频网站| 久青草免费视频| 91尤物国产尤物福利在线| 中文字幕 91| 在线国产欧美| 亚洲乱码在线视频| 91色国产在线| 国产福利小视频高清在线观看| 日本人妻一区二区三区不卡影院| 精品国产自在现线看久久| 特级精品毛片免费观看| 欧美综合中文字幕久久| 97免费在线观看视频| 成人国产精品网站在线看| 黄色网在线| 国产精品流白浆在线观看| 国产情精品嫩草影院88av| 玖玖免费视频在线观看| 久久久久国产精品嫩草影院| 在线观看免费黄色网址| 又污又黄又无遮挡网站| 免费a在线观看播放| 亚洲综合婷婷激情| 久久久久人妻精品一区三寸蜜桃| 国产91成人| 99久久国产综合精品2023|