999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于百度地圖API和Moran

2019-10-06 14:41:49劉琛
現代商貿工業 2019年26期

劉琛

摘 要:在進行空間統計分析的方法中,傳統的空間統計方法在構建空間權重矩陣時,往往需要進行人工測量和手寫,這些可能步驟會降低精準度和增大誤差的偶然性,為了簡化空間統計分析中構建空間權重矩陣的步驟,提出了一種基于百度地圖API和Moran'sI指數的空間統計分析方法。該方法調用了百度地圖開放的免費接口可以得到目標地點的精確位置,從而利用了百度地圖的準確性,減少了人工構建矩陣的誤差可能性。經過對江蘇省代理ip延遲分布的空間自相關分析實驗,得到江蘇省代理ip存在空間自相關的結論,驗證了該方法的可行性。雖然在驗證的過程中使用的是傳統的Moran'sI檢驗,但經過可視化處理后觀察得到與模型結論的一致性,驗證了模型的可行性。因此提出的方法有效的提高了模型的準確性和簡化了模型的構建難度。

關鍵詞:百度地圖接口;代理ip;空間權重矩陣;Moran'sI檢驗

中圖分類號:TB 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.26.106

1 引言

隨機互聯網發展迅猛,重要數據很容易沉沒于互聯網之海。人工采集數據的方法已經不能滿足快速獲取有效信息的需求。網絡爬蟲成了當下獲取網絡信息的一大渠道,同時各網站也出現了對應的反爬蟲策略,比如將爬蟲的ip拉入黑名單就是最常用的策略。通常避免ip黑名單的方法就是加入代理ip。并且免費代理ip在西刺代理、快代理等各大網站有發布。面對雜亂無章的代理ip列表,對各地列表進行空間統計分析,作為采集ip的一種參考。

空間相關性研究是空間統計學的研究手法,其應用領域已經進入到金融學、病理研究、社會學、環境學等多種領域。對于傳統空間統計方法有MoransI檢驗和GearysC檢驗,但幾乎所有空間統計方法需要用到空間權重矩陣,該矩陣一般由研究者監測和手寫,有不易編輯的缺陷。百度地圖 API 是百度公司免費為開發者提供的地圖應用網絡編程接口,無須任何版權費用,利用它可以很好地實現本系統的開發。本文充分利用百度地圖 API 提供的豐富的地圖接口進行開發計算空間權重矩陣,以我國代理ip網站特點的基礎,將空間統計分析方法運用到免費代理ip分布研究中。

2 相關技術研究

2.1 空間自相關指標Moran'sI指數

空間單元的分布特征和聚集趨勢可以由空間自相關性來反應,因此對空間相關性進行測度,也就是單元聚集趨勢的程度。Moran指數是由Moran于1948年提出的 ,反映的是空間鄰接或空間鄰近的區域單元屬性值的相似程度。MoransI檢驗是對已知某種屬性的數據數組進行評估,從而判斷其是否滿足離散模式、聚類模式或是隨機模式。指數計算公式如式(1)。

在(1)式中,I為全局MoransI指數,Ii為局部MoransI指數,wij為空間權重矩陣i行j列元素,xi為空間觀測值矩陣第i個觀測值,xMean為觀測值平均值,n為觀測值個數。I的取值可經過標準化到[-1,1]中,正數表示觀測值相似的空間會趨近在一起,負數表示觀測值相近的空間會遠離,等于0表示不存在空間自相關;I值與1的差越小,空間單元之間差距越小。I值與-1的差越小,空間單元差距越大。當I接近于-1/(n-1)時,觀測值之間才相互獨立,即屬性的分布呈無規律的隨機分布狀態。全局型指標能夠判斷出現像在空間上的整體分布情況,但難以探測出聚集的位置所在及區域相關的程度。忽略了空間過程的潛在不穩定。到底是高高集聚還是低低集聚?哪個區域單元對全局貢獻更大?這就必須進行局部空間自相關分析。局部指標用于反映整個大區域中一個局部小區域單元上的某屬性值與相鄰局部小區域單元上同一屬性值的相關程度。對觀測值在空間上是否存在空間自相關,可計算Z值推斷,計算公式如式(2)。

2.2 百度地圖坐標接口

百度地圖為開發者提供了豐富的接口調用主要提供JavaScript、iframe、WebService和http + xml 等接口,包括定位、地圖、搜索、鷹眼軌跡、導航路線規劃路況等功能。開發者可以很方便地訪問百度服務和數據,創建功能全面、交互性強的地圖應用程序,支持 PC端和移動端基于瀏覽器的地圖應用開發,且支持HTML5特性的地圖開發。其中的正/逆地理編碼功能即可得到對應地點的經緯度,利用Python的requests模塊對百度地圖應用發起請求可隨時使用該功能。百度地圖的開發文檔可見網址http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-geocoding,請求需要填寫的參數如表1。

2.3 爬蟲爬取免費代理網站

為了研究代理ip的分布特征,需要爬取代理ip的數據,數據公布較全面、反爬蟲策略較少、更新及時的網站適合作為數據來源。反爬蟲機制,即一系列反爬蟲措施的集合。反爬蟲機制通過預處理請求頭、封鎖IP、異步加載、使用加密JS算法、設置驗證碼等措施達到封鎖爬蟲的目的。支持網絡通信的編程語言均可以編寫網絡爬蟲,Python因為有大量優秀的爬蟲庫,代碼簡潔易懂,在網絡爬蟲領域有著廣泛的應用。與調研百度地圖API的原理相同,需要用到Python的requests模塊對免費代理網站進行訪問。在獲得網頁HTML源碼后,利用xpath表達式可以得到對應網頁中的元素,其中xpath表達式可在瀏覽器進入代理網站后,右擊對應元素打開開發者工具可以得到瀏覽器提供的表達式。最后將數據寫入sqlite數據庫,供后續程序調用。

3 基于百度地圖API和Moran'sI指數的空間統計分析方法

代理ip廣泛應用與信息安全領域,本文研究的方法以江蘇省代理ip延遲在空間自相關的統計分析為例,在爬取完數據后,數據應有ip、端口、延遲時間、地點等屬性,數據庫中部分代理ip如表2。

3.1 利用百度地圖API構建空間權重矩陣

按照文檔內容,利用python的requests編寫爬蟲填寫表1參數發起get請求即可得到對應地點的經緯度。空間數據自身帶有空間位置屬性,隱含了相對地理位置關系,因此需構造空間權重矩陣度量空間單元的距離,把空間信息轉化為數值,利用API獲得經緯度如表3。

對兩地坐標計算歐氏距離,然后以反距離權重法計算距離的p次方的倒數作為權重,本文的p為3,為了得到標準的Moran'sI指數,需要進一步的將矩陣進行行歸一化使得行元素和為1如式(4),最終的權重矩陣下:

空間權重矩陣行列索引均為[南京市,南通市,常州市,徐州市,無錫市,淮安市,鹽城市,蘇州市,鎮江市]。市區與市區間的權重表示距離,距離越大,權重越小,主對角元素為0表示自己不與自己相鄰。空間權重歸一化后,不再有數量級影響,只反應空間單元的位置關系。

3.2 Moran'sI檢驗

本文的觀測矩陣為2016年江蘇省代理ip的延遲均值,觀測空間為江蘇省9個市,因為網站對2016年公布的代理ip最為齊全,保證各市當年樣本量大于30,觀測矩陣如表4。

根據式(1)可求得全局Moran'sI指數為0.37710,說明江蘇省市級之間的ip代理之間呈空間正相關,局部Moran'sI指數見表5,Moran散點圖如圖1,以觀測離差值和標準化觀測值為坐標點的Moran散點圖,常來研究局部的空間不穩定性,它對空間滯后因子進行可視化。變量觀測值和其空間滯后之間的擬合程度(直線的斜率)恰好是Moran'sI系數。

可見無錫市、鎮江市和蘇州市存在顯著空間正相關,呈現空間聚集模式,對全局的空間聚集模式貢獻較大,將觀測值和局部Moran'sI指數進行可視化繪制熱力圖,如圖2和圖3。

由圖1和圖2可看出江蘇地區的代理ip延遲有屬性值高的區域與屬性值高的區域聚集在一起現象,為了進一步驗證該特征,需進行Z值檢驗以確認造成此種相關性的原因是由于偶然因素或系統過程,根據式(2)可以得到全局Z檢驗數為2.3906,局部Z檢驗數如表6。

原假設為觀測空間上不存在空間自相關,全局Z檢驗數>1.96,證明觀測值在0.05的水平上顯著,選擇拒絕原假設,因此認為觀測空間上存在空間自相關,Z值大于0且顯著,相似的觀測值(高值或低值)趨于空間聚集。

4 結論

本文提出一種基于百度地圖API和Moran'sI指數的空間統計分析方法,以江蘇省各市的免費代理ip分布為例,首先用Python編寫爬蟲爬取得到代理網站的數據。整理得到各市的代理ip延遲時間平均值作為觀測值矩陣,然后編寫爬蟲發起網絡請求調用百度地圖API得到江蘇省各市的經緯度,使用反距離權重法求得空間權重矩陣,最后求出全局和局部Moran'sI指數,進行顯著性驗證后得到江蘇省代理ip延遲存在空間自相關的結論。整個過程驗證了該研究方法的可行性,成功緩解了傳統研究方法對生成空間權重矩陣的不便,同時利用了百度地圖的精準度提高了研究的精準度。

本文利用基于百度地圖API和Moran'sI指數的空間統計分析方法進行實驗,并取得了良好的實驗效果,但該方法并沒有考慮空間統計學中時間維度的影響,也沒有采用當下更前端的空間統計檢驗方法,只是從技術層改進了傳統空間統計的步驟,所以討論更多改良算法是下一步研究的重點。

參考文獻

[1]白楊.Python代理IP定向采集爬蟲的設計與實現[J].中國新通信,2019,21(01):40-41.

[2]劉石磊.對反爬蟲網站的應對策略[J].電腦知識與技術,2017,13(15):19-21.

[3]王雪青,陳媛,劉炳勝.中國區域房地產經濟發展水平空間統計分析——全局Moran's I、Moran散點圖與LISA集聚圖的組合研究[J].數理統計與管理,2014,33(1):59-71.

[4]王仲君,鄒亞娟,趙華玲.基于空間自相關的肺結核擴散的機理分析[J].中國衛生統計,2013,30(5):630-634.

[5]曾昭法,左杰.中國省域城鎮化的空間集聚與驅動機制研究——基于空間面板數據模型[J].中國管理科學,2013,(S2):580-586.

[6]潘竟虎,張文,李俊峰,等.中國大范圍霧霾期間主要城市空氣污染物分布特征[J].生態學雜志,2014,33(12):3423-3431.

[7]王紅崧,周海晏.基于百度地圖API的旅游地理信息系統開發[J].現代計算機(專業版),2012(23):60-63.

[8]戴平生,陳建寶.空間統計學研究應用綜述[C]//國際應用統計學術研討會,2008.

[9]鄭靜,許學強,陳浩光.廣州市人口結構的空間分布特征分析[J].熱帶地理,1994,14(2):133-142.

[10]Cliff A D,Ord J K.Spatial Processes[M].London:Pion,1981:266.

[11]苗得文,邱滿,許忠奇,等.基于NewMap API的地圖服務系統在交通擁堵識別中的應用研究[J].計算機科學,2013,40(Z6):384-386.

[12]王靜.基于Scrapy的電子商務網絡測量與網絡特征分析[D].北京:北京交通大學,2012.

[13]彭程.基于空間統計分析的農產品價格數據挖掘——以豬肉價格為例[J].農業現代化研究,2014,35(1):000029-32.

[14]李新,程國棟,盧玲.空間內插方法比較[J].地球科學進展,2000,15(3):260-265.

[15]徐偉嘉,何芳芳,李紅霞,等.珠三角區域PM_(2.5)時空變異特征[J].環境科學研究,2014,27(9):951-957.

主站蜘蛛池模板: www.youjizz.com久久| 日本一区二区不卡视频| 国产精品吹潮在线观看中文| 在线日韩日本国产亚洲| 毛片视频网址| 色妞www精品视频一级下载| 成年人视频一区二区| 久久中文无码精品| 一区二区影院| 国产成人精品亚洲日本对白优播| 91色在线观看| 国产毛片高清一级国语| 国产免费精彩视频| 成人一级免费视频| 伊人精品成人久久综合| 亚洲天堂日韩av电影| 波多野结衣一区二区三区AV| 亚洲国产天堂久久综合226114| 三上悠亚在线精品二区| 国产国产人在线成免费视频狼人色| 狠狠ⅴ日韩v欧美v天堂| 夜色爽爽影院18禁妓女影院| 永久免费av网站可以直接看的| 亚洲欧美成人在线视频| 国产在线无码av完整版在线观看| 98超碰在线观看| 国产精品亚洲а∨天堂免下载| 九九久久精品免费观看| 国产一区免费在线观看| 国产成人免费观看在线视频| 国产va在线观看免费| 日韩精品免费一线在线观看| 白丝美女办公室高潮喷水视频 | 911亚洲精品| 毛片在线看网站| 国产精品免费电影| 精品午夜国产福利观看| YW尤物AV无码国产在线观看| 亚洲人妖在线| 久久精品aⅴ无码中文字幕| 亚洲欧美综合精品久久成人网| 久久综合干| 久久久久久国产精品mv| 激情综合图区| 中文成人在线| 国产办公室秘书无码精品| 在线观看免费人成视频色快速| 亚洲日韩精品伊甸| 国内精自线i品一区202| 污污网站在线观看| 99精品欧美一区| 精品久久人人爽人人玩人人妻| 手机永久AV在线播放| 无码国产伊人| 国产偷国产偷在线高清| 国产午夜无码专区喷水| 国产在线精品网址你懂的| 九九九九热精品视频| 精品国产自在现线看久久| 国产免费久久精品99re丫丫一| 国产成人超碰无码| 国产亚洲美日韩AV中文字幕无码成人| a毛片在线免费观看| 天天躁狠狠躁| 喷潮白浆直流在线播放| 免费无码网站| 国产精品太粉嫩高中在线观看| 免费国产高清视频| 国产成人禁片在线观看| 国产成人三级在线观看视频| 久久亚洲美女精品国产精品| 精品少妇人妻av无码久久| 亚洲美女久久| 国产视频一区二区在线观看| аⅴ资源中文在线天堂| 1级黄色毛片| 欧美自慰一级看片免费| 一级高清毛片免费a级高清毛片| 国产免费a级片| 精品色综合| 2020最新国产精品视频| 少妇高潮惨叫久久久久久|