999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于房產交易網站的數據獲取與在線工具開發

2017-06-05 14:15:40王藎梓賴雯潔
計算機技術與發展 2017年5期

王藎梓,賴雯潔

(華東師范大學 地理科學學院,上海 200241)

基于房產交易網站的數據獲取與在線工具開發

王藎梓,賴雯潔

(華東師范大學 地理科學學院,上海 200241)

房屋交易網站提供了每個交易房產的詳細信息,自動獲取這些數據并進行在線分析可以幫助人們更好地分析一個地區房產情況,更有利于決策。開發網頁分析工具是分析大數據發展的趨勢,其具有更少的代碼,同時擁有不亞于應用程序的功能實現數據采集與數據分析的實時對接,使得其成為工具開發的新寵。房產交易網站在線工具利用Python語言結合Scrapy、ArcPy等第三方模塊開發,可自動提取房產數據,并針對不同數據類型,對某一地區的房產進行空間分布分析和規律監測等。以鏈家網、安居客兩個房產交易網站為例,從中獲取上海市的新房、二手房等房產數據,通過統計圖表的形式顯示上海市房產的空間分布情況,房價漲幅,各地區房產數量分布比例等,實現用戶對大數據的進一步分析認識。

房屋交易網站;網絡爬蟲;地理編碼;ArcPy

0 引 言

隨著房產市場的快速發展和互聯網技術的廣泛應用,目前網上已有很多房屋交易網站,如鏈家網、安居客、yes515、愛屋吉屋、我愛我家等,這些網站為購房者和售房者提供了交易平臺,用戶可以從網站上查看每個交易房產的詳細信息,如房產位置、房價、房屋的建造年代、樓層等。由于房屋交易網站覆蓋面廣,反映的信息實時性強,因此,對房屋交易網站上的房產信息進行分析能實時掌握一個地區的房產市場情況。但網站上的信息是以Web頁面的形式呈現,并不是直接可以用于分析的數據,如以瀏覽網頁的方式來進行分析,顯然效率很低,很難實現對房產市場的實時變化監測。從網頁中抓取原始數據,并處理成可以直接用于分析的數據這方面已有很多研究。較流行的抽取工具有MDR[1]、改進方法Depta[2]等,但其更希望目標網頁是結構化的,因為抽取的信息主要是在列表或表格中。梅雪等[3]基于網頁模板的設計準則,提出了全自動生成網頁信息抽取包裝器Wrapper的方法—PSNT(extraction based on temPlate Structure aNd Tag tree),該方法同時實現了對網頁中嚴格和松散的結構化信息的自動化抽取,在相似網站中模板生成的匹配效果較好。例如主網站及其各個子網站,針對不同開發商的網站,還需要重新匹配模板。歐健文等[4]使用多個網頁對模板進行訓練,以得到較為普適的模板,而后對歸類爬取網頁的主題信息,這對于搜索引擎十分實用。在地理信息提取方面,王曙等[5]針對同一地理要素有不同描述的語言特點,建立地理語料庫,使用搜索引擎與通用主題相結合的爬蟲抓取網頁。該方法沒有事先訓練樣本,是先廣泛獲取相關網頁,而后從篩選下來的網頁中再次爬取內容,才可獲取數據。這幾種方法都是大面積爬取地理信息,并沒有真正意義上利用Web中的原始數據,因此為了對地理數據進行統計分析,定點定抓的輕量級主題爬蟲更為適合,功能全面且獲取的是原始數據。

從網站抓取房產信息不僅是文本數據,還需要轉換成GIS數據,以方便對房產信息進行空間分析。除此之外,由于在大城市及特大城市中房產相應特征指標變化較其他城市迅速[6-8],比起耗時長的精確研究,實時監測可以掌握房產變化最新動態。以鏈家網和安居客網站為例,研究基于房屋交易網站的房產數據獲取與在線分析工具開發,并演示在上海市的應用。

1 主要房產交易網站介紹

1.1 鏈家網網站

鏈家網(http://www.lianjia.com/)是鏈家房地產經紀有限公司在2009年成立的房產交易線上平臺,其主要業務領域為新房、二手房和租房。房產數據包括小區名稱、地址、小區房屋均價、建造年代、樓棟總數、房屋總數、容積率、綠化率等信息。不僅如此,鏈家網中有百度地圖提供的定位顯示功能,可以直接得到小區的經緯度信息,如圖1所示。

圖1 鏈家網顯示信息

1.2 安居客網站

安居客(http://shanghai.anjuke.com/)是2007年成立的互聯網房產交易平臺,主要業務領域為新房、二手房、租房、商業寫字樓四部分,2015年進入58同城旗下。與鏈家網相比,安居客的房產沒有地理坐標,需要經過地理編碼得到地理坐標;在數據細節方面,安居客的數據較鏈家網更為全面。以春申景城為例,在鏈家網中搜索結果只有“春申景城(公寓)”1條數據,如圖1所示,但在安居客中搜索結果有4條,如圖2所示,分為一、二、三期和MID-TOWN,分類更為細致。另外,安居客房產信息中有物業類型、物業費用、總建面、停車位、出租率等,數據種類更為全面。

2 原始房產數據獲取方法

從網站中獲取數據主要包括三個過程:確定網頁地址(URL),解析網頁文件,存儲數據規范格式。下面介紹利用Scrapy爬蟲框架實現上述過程的方法。

2.1 Scrapy簡介

Scrapy是Python的第三方軟件包,是一個簡單輕量級的爬蟲框架,操作簡便,適合爬行簡單網頁數據。如果HTML格式復雜,含有JSON,或需要用戶身份驗證等,可以考慮使用Java的分布式Nutch或穩定性更好的Heritrix[9-15]。Scrapy規范了完整爬蟲應有的核心:服務請求與返回、網頁解析、數據存儲。同時提供給用戶足夠的空間來完善爬蟲,用戶鎖定目標網站后只需分析網頁結構,即可快速編寫爬蟲。

使用Scrapy需要安裝第三方擴展包,Python2.x版本中需要安裝:zope.interface,pypiwin32,pyOpenSSL,twisted,libxml2dom,lxml,Scrapy。Scrapy框架的工作原理是:首先傳入URL,調度器(scheduler)將其傳入下載器(downloader)對服務器發出訪問請求,返回結果傳入爬蟲(spider)中進行解析。如果含有超鏈接,則傳回調度器,否則傳入解析器(ItemPipeline),利用ScrapySelector對HTML文件進行解析。

2.2 確定URL

通常情況下,傳入爬蟲的是網站的主網頁,即用戶最先瀏覽的主頁,而后根據不同的需求在主頁相關的網頁之間切換。因此確定URL的關鍵是網頁的相互切換,其可分為當前網頁的切換和超鏈接跳轉兩種,而本質上兩者都是通過對URL的改變來實現的。以安居客網頁為例演示確定URL方法。

圖2 安居客網站房產信息網頁

在Scrapy中免去了爬蟲需要編寫的請求返回命令,用戶只需直接傳入URL即可。觀察安居客主網站為目錄界面,為抓取全網數據需要機器模擬翻頁。在view-source中查找“下一頁”的源碼,所在主標簽為

,當在第一頁時,“下一頁”所在標簽為,標簽中含有超鏈接,即需要抓取的URL。而在最后一頁時,“下一頁”所在標簽為,標簽中不含超鏈接。可以將之作為循環條件,遇到無鏈接的情況則跳出循環翻頁。

實現模擬翻頁代碼如下:

classConSpider(Spider):#創建URL池類ConSpider

name="con" #爬蟲名稱為con,必須唯一

allowed_domains=["shanghai.anjuke.com"]#域名

start_urls=[]

tpath='//div[@class="page-content"]/div[@class="multi-page"]/a[@class="aNxt"]/@href'

npath='//div[@class="page-content"]/div[@class="multi-page"]/i[@class="iNxt"]'

while True:

#rpage為當前網頁傳入selector的解析,利用XPath尋找路徑,

nxtpage=rpage.xpath(npath)

#限制循環條件,如果最后一頁的“下一頁”標簽不存在,即為空,未到最后一頁

ifnxtpage==[]:

turl=rpage.xpath(tpath)[0]

#讀取“下一頁”標簽中的超鏈接,@href讀取屬性,結果為只含有一個元素的list

start_url.append(turl) #將URL加入鏈接池

else:

break

在當前目錄頁一般含有的小區信息是不全面的,需要跳轉到該小區網頁進行抓取。首先對當前網頁進行DOMtree分析。小區信息包含在

  • 中,嵌套于
  • 主站蜘蛛池模板: 亚洲手机在线| 伊人AV天堂| 婷五月综合| 国产一级二级在线观看| 在线播放真实国产乱子伦| 视频一区亚洲| 啪啪啪亚洲无码| 欧美日韩一区二区在线播放| 亚洲综合在线最大成人| 色亚洲成人| 久久99这里精品8国产| 国模极品一区二区三区| 国产成年女人特黄特色大片免费| 亚洲一区无码在线| 亚洲日本一本dvd高清| 亚洲天堂自拍| 99伊人精品| A级全黄试看30分钟小视频| 少妇精品在线| 免费a在线观看播放| 日韩欧美中文字幕一本| 成年免费在线观看| 成人噜噜噜视频在线观看| 97一区二区在线播放| 国产无遮挡猛进猛出免费软件| 亚洲三级成人| 伊人AV天堂| 欧美日韩91| 欧美成一级| 97久久超碰极品视觉盛宴| 亚洲一区二区三区在线视频| 欧美午夜视频在线| 精品人妻AV区| 久久国产高清视频| 午夜高清国产拍精品| av尤物免费在线观看| 国产精品久久精品| 国模极品一区二区三区| 国产精品免费露脸视频| 91成人在线观看视频| 久无码久无码av无码| 色网站在线视频| 69免费在线视频| 国产欧美日本在线观看| 亚洲天堂伊人| 四虎影视8848永久精品| 在线不卡免费视频| 久久人妻xunleige无码| 欧美日韩另类国产| 精品1区2区3区| 片在线无码观看| 免费啪啪网址| 久久永久精品免费视频| 看国产毛片| 无码久看视频| 国产SUV精品一区二区| 欧美人与性动交a欧美精品| 亚洲乱码精品久久久久..| 国产成人艳妇AA视频在线| 国产一区亚洲一区| 亚洲AV无码久久精品色欲| 丁香五月婷婷激情基地| 一本一道波多野结衣av黑人在线| 亚洲无线国产观看| 91视频99| 嫩草国产在线| 中国一级毛片免费观看| 欧美伊人色综合久久天天| 国产精品免费福利久久播放| 成人免费视频一区| 欧美日韩国产在线播放| 亚洲日韩精品综合在线一区二区| 黄色一级视频欧美| 永久成人无码激情视频免费| 亚洲视屏在线观看| 91无码人妻精品一区二区蜜桃| 国产一区二区三区在线精品专区| 亚洲熟女偷拍| 国产亚洲视频播放9000| 激情综合婷婷丁香五月尤物| 一本无码在线观看| 色AV色 综合网站|