999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XPath的天氣數據的爬取研究

2021-11-17 08:16:10史雅婷梁洪炎吉卓嘎強巴卓瑪
江蘇通信 2021年5期
關鍵詞:利用信息

王 康 史雅婷 梁洪炎 吉卓嘎 強巴卓瑪

西藏民族大學信息工程學院

0 引言

在大數據時代,誰擁有了數據,誰就有更多的籌碼。氣象服務是這個時代必不可少的部分,人們每天的出行計劃需要依靠今天的天氣狀況來定。氣象部門每天通過手機、電視、報紙、廣播、短信來告知人們今天的天氣狀況,以防范自然災害等突發狀況。截至2018年,全國共有661個市,每小時統計一次,在一天內就收集到了661×24=15 864條數據。

網絡爬蟲本質上是利用程序在網上搜集有用的數據,是一種按照一定的規則,自動抓取互聯網信息的腳本。開發者可以隨意地擴展各個組件,來實現抓取邏輯。網絡爬蟲能幫助人們快捷、方便地獲取天氣網特定城市近7天內的天氣預報數據。

網絡爬蟲有很多類型,不同類型的爬蟲適用于不同的場景,本文提到的爬蟲為批量性爬蟲,這種爬蟲一般適用于用戶明確自己想要的信息或者知道所需信息的網絡結構位置。但在一些大數據或者超大數據的分析與處理中,一般要用增量型爬蟲,其是一種沒有明確限制的爬蟲,信息量大且比較雜亂,需要用機器學習和深度學習對爬去的信息進行分析和處理,而且增量型爬蟲容易被網站反爬蟲程序檢測。除此之外,還有深度網絡爬蟲等。

1 XPath及其應用

XPath是在XML文檔中查找信息的一種語言,用于在XML文檔中通過元素和屬性進行導航。XPath使用路徑表達式來選取XML文檔中的節點或節點集。XPath依賴于Python中的lxml第三方類包。XPath使用路徑表達式選取XML文檔中的節點或節點集。正則表達式是一個特殊的字符序列,用來檢查一個字符串是否與某種模式匹配,通過特殊的語法來表示。正則表達式依賴于Python中的re模塊。部分正則表達式常用符號如表1所示,正則表達式的書寫規則較多,這里不再一一贅述。XPath解析的原理如圖1所示。

表1 具體正則表達式常見符號(部分)

圖1 XPath解析的原理

1.1 lxml,xwlt,matplotlib

lxml用于解析XML和HTML文件??梢钥焖俣ㄎ唬阉鳌@取特定內容。其支持XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且實現了常見的ElementTree API。lxml模塊中常用的有lxml.html,lxml.etree,lxml.cssselect,lxml.BeautifulSoup。在天氣數據爬取中,本設計主要用到的是lxml.etree模塊。Xwlt是Python用來在Excel寫入數據和格式化數據的工具包,是用來生成兼容Excel997/2000/XP/2003,OpenOffice.org CalcGnumeric的表格庫。本文利用 xlwt模塊將爬取的天氣數據寫入Excel文件。Matplotlib是Python中類似MATLAB的繪圖工具,文章引入Matplotlib模塊將爬取的天氣數據以圖片形式保存,并且引入了 xlwt模塊以excel形式保存數據。

1.2 數據爬取

首先,得到詳情頁的url,隨機獲取一個瀏覽器的表頭,將獲取的瀏覽器信息賦給agant_chose,其核心代碼是agant_chose = random.choice(agant)

其次,確定要爬取天氣數據的城市,作者以是衡陽、咸陽、西安、成都、廣州5個城市為例,進行7天天氣數據的爬取。爬取天氣數據的核心代碼是:html=etree.HTML(data.text)

first_weather=html.xpath(‘/html/body/div[5]/div[1]/div[1]/div[2]/ul/li[1]/p[1]/text()’)。上述代碼只是對某個節點的數據的爬取,而讀者可以根據自己想要的數據所處的位置編寫代碼來爬取自己想要的節點或節點集數據。根據代碼所寫的html路徑所選取的節點依次將爬取的近7天的天氣數據進行保存。數據爬取過程如圖2所示。

圖2 爬取數據的過程

2 數據可視化處理

利用python語言中帶的xwlt模塊和matplotib模塊將保存的數據進行可視化處理,讓數據可以用折線圖和Excel表格形式保存,讓數據變得更加生動形象并且能夠更好地利用。將爬取的天氣數據寫入excel文件,核心代碼是excelpath=(‘{}.xls’.format(city_name[number])

Workbook=xlwt.Workbook(encoding=’utf-8’)。將數據用圖片的形式保存的核心代碼是pyplot.plot(x,highest_temperature)

pyplot.plot(x, lowest_temperature),以西安為例的excel表格的部分數據如圖3所示。

圖3 以excel形式保存的部分天氣數據(西安)

3 結束語

本文介紹了利用XPath爬取網頁數據的相關原理,并爬取了一些天氣數據。利用XPath爬取網頁數據簡單而且靈活,相對于使用正則表達式稍簡單,可以在知道數據爬取的HTML位置或者是爬取的數據的網頁位置相對固定的情況下使用,適合剛接觸Python爬蟲的人。在爬蟲開發中,為追求高效可以優先選擇正則表達式。

猜你喜歡
利用信息
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
利用倒推破難點
利用一半進行移多補少
利用數的分解來思考
Roommate is necessary when far away from home
利用
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 91成人在线观看视频| 国产精品香蕉在线观看不卡| 57pao国产成视频免费播放| 欧洲亚洲一区| 亚洲综合亚洲国产尤物| 她的性爱视频| 成人在线视频一区| 国产激情国语对白普通话| 亚洲色图欧美视频| 日韩精品无码免费一区二区三区 | 免费观看亚洲人成网站| 日本亚洲最大的色成网站www| 亚洲天堂日韩av电影| 久久久久久久97| 9久久伊人精品综合| 国产人成在线观看| 一区二区午夜| 欧美成人国产| 在线国产综合一区二区三区| 亚洲国产成人无码AV在线影院L| 欧美亚洲日韩不卡在线在线观看| 日韩成人在线一区二区| 无码国内精品人妻少妇蜜桃视频 | 欧美日韩午夜视频在线观看| 精品五夜婷香蕉国产线看观看| 国产精品hd在线播放| 免费三A级毛片视频| 久久中文电影| 91蝌蚪视频在线观看| 麻豆精品视频在线原创| 亚洲精品国产综合99久久夜夜嗨| 国产白浆视频| 美女视频黄又黄又免费高清| 久久久久夜色精品波多野结衣| 久久精品无码国产一区二区三区| 91在线精品免费免费播放| 亚洲Av综合日韩精品久久久| 色综合久久88| 四虎综合网| 国产精品午夜电影| 无码福利视频| 国产大片黄在线观看| 青青草一区二区免费精品| 一区二区三区精品视频在线观看| 成人免费一区二区三区| 亚洲嫩模喷白浆| 在线网站18禁| 欧洲成人免费视频| 中文字幕在线播放不卡| 欧美午夜视频| 中文字幕第1页在线播| 在线播放精品一区二区啪视频| 九九久久99精品| 国产黄视频网站| 97精品伊人久久大香线蕉| 久久不卡精品| 日韩在线欧美在线| 欧美中文字幕在线二区| 青青草原偷拍视频| 亚洲国产中文综合专区在| 国产噜噜在线视频观看| 日韩毛片免费观看| 午夜无码一区二区三区| 亚洲成人www| 777国产精品永久免费观看| 国产精品极品美女自在线看免费一区二区| 国产乱子伦视频在线播放| 国产三级精品三级在线观看| 亚洲人成网线在线播放va| 久久中文字幕不卡一二区| 日本高清在线看免费观看| 国产精品久线在线观看| 国模视频一区二区| 国产精品视频a| 精品国产电影久久九九| 婷婷色中文| 国产精品香蕉在线| 91在线精品麻豆欧美在线| 欧美人与性动交a欧美精品| 在线观看国产精品日本不卡网| 国产在线观看一区精品| 18禁影院亚洲专区|