999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Scrapy的賭博網(wǎng)站數(shù)據(jù)采集與分析

2020-07-18 11:40:00付順順
關(guān)鍵詞:引擎頁面

◆付順順

(1.安徽省公安教育研究院 安徽 230088; 2.安徽公安職業(yè)學院 安徽 230031 )

賭博問題滋生違法犯罪、對社會安全穩(wěn)定和人民群眾財產(chǎn)安全等造成嚴重危害。隨著互聯(lián)網(wǎng)的快速發(fā)展,利用互聯(lián)網(wǎng)和網(wǎng)上金融支付手段進行賭博的現(xiàn)象迅速發(fā)展。據(jù)《人民公安報》報道,2019年全國公安機關(guān)共偵破網(wǎng)絡賭博刑事案件7200余起,抓獲犯罪嫌疑人2.5萬名,查扣凍結(jié)涉賭資金逾180億元,這一系列數(shù)字表明,我國的防控治理工作面臨的形勢依然嚴峻復雜[1]。當前網(wǎng)絡賭博的一種重要表現(xiàn)形式就是開設專門賭博網(wǎng)站,采用嚴密的內(nèi)部分級制度發(fā)展不同級別的會員,邀約賭博人員、利用特定對象設立賭博規(guī)則等組織不特定的境內(nèi)人員,通過各種形式參賭。因此,收集和分析賭博類網(wǎng)站,有助于從源頭治理網(wǎng)絡賭博案件的發(fā)生。網(wǎng)絡賭博,作為一個需要大規(guī)模不同階層的人群參與的違法活動,為了保證目標人群的接入方便性,從而要求此類網(wǎng)站需依托于互聯(lián)網(wǎng)技術(shù)存在,而不是像暗網(wǎng)一樣。這就使得我們可以使用網(wǎng)絡爬蟲采集賭博網(wǎng)站數(shù)據(jù)。

網(wǎng)絡爬蟲,是實現(xiàn)自動瀏覽網(wǎng)頁和網(wǎng)頁數(shù)據(jù)抓取的計算機應用程序。Scrapy 是使用 Python 編寫的爬蟲應用框架程序,具有結(jié)構(gòu)簡單、使用方便的特點,用戶借助Scrapy可以快速瀏覽下載網(wǎng)頁信息,并根據(jù)需要保存關(guān)鍵數(shù)據(jù)為需要的數(shù)據(jù)格式。目前,Scrapy 被廣泛應用于數(shù)據(jù)挖掘領(lǐng)域,已經(jīng)發(fā)展成為數(shù)據(jù)挖掘研究領(lǐng)域重要的應用工具。本研究將以某賭博網(wǎng)站為例,基于Scrapy 設計爬蟲,并將該爬蟲應用其他賭博網(wǎng)站并存儲,以期為賭博網(wǎng)站數(shù)據(jù)的進一步挖掘利用提供基礎(chǔ)。

1 基于Scrapy的賭博網(wǎng)站爬蟲設計

1.1 Scrapy框架工作流程

Scrapy主要分為5部分:Scrapy Engine(引擎)、Scheduler(調(diào)度器)、Spiders(蜘 蛛)、Item Pipeline(數(shù)據(jù)處理流水線)和Downloader(下載器)如圖1所示。

具體流程是:首先,引擎(Engine)將初始URL(s)交給處理該網(wǎng)站的Spider,并在調(diào)度器(Scheduler)以Request調(diào)度,之后引擎向調(diào)度器請求下一個要爬取的URL,調(diào)度器返回下一個要爬取的URL給引擎,引擎將URL通過下載中間件轉(zhuǎn)發(fā)給下載器(Downloader),一旦頁面下載完畢,下載器生成一個該頁面的Response,并將其通過下載中間件發(fā)送給引擎,引擎從下載器中接收到Response并通過Spider中間件發(fā)送給Spider處理,Spider處理Response并返回爬取到的Item及(跟進的)新的Request給引擎,引擎將爬取到的Item給Item Pipeline,將(Spider返回的)Request給調(diào)度器,重復執(zhí)行直到調(diào)度器中沒有更多地request,引擎關(guān)閉該網(wǎng)站[2]。

1.2 模型建立

原有的賭博網(wǎng)站數(shù)據(jù)采集同大部分網(wǎng)絡爬蟲程序一致,主要關(guān)注某一具體HTML標簽中的內(nèi)容,如網(wǎng)頁head、title等特定標簽,并以這些內(nèi)容作為特征,進行賭博網(wǎng)站的識別。通過研究發(fā)現(xiàn),現(xiàn)在部分賭博網(wǎng)站的特定標簽內(nèi)容不具有實際意義。為了能很好地支持后續(xù)研究,提高賭博網(wǎng)站的自動識別率,本文將從初始url出發(fā),并以該url為限定域,采集網(wǎng)站的全部頁面內(nèi)容和存儲[3]。具體步驟如下:

圖1 Scrapy 框架工作流程

(1)使用Scrapy提供的全站爬取類CarwlSpider,方便在爬蟲在工作的時候能自動根據(jù)定義的一些規(guī)則判斷探測到的url鏈接是否需要下載。

(2)為了避免字段出錯,提高數(shù)據(jù)傳遞過程的準確性,使用Scrapy中的 item文件集中創(chuàng)建需要爬取的字段屬性類,在其他需要的地方實例化該類即可,通過此種方式的被實例化的類的字段可直接被傳遞到pipelinet文件中集中處理字段值的保存事項。本爬蟲中需要在 item 中定義的字段有四個:“url”,當前頁面的url;“url_md5”,當前頁面的 urlde md5 值,方便檢索;“url_text”,頁面內(nèi)容;“url_text_samples”,去除頁面內(nèi)容的標簽。

(3)設置一個common文件,放置一些常用的處理函數(shù),比如url的md5處理。

(4)在setting文件中打開自動接收并處理的pipeline管道,并在 pipelines中設置所有數(shù)據(jù)的存儲和處理,本爬蟲采用的是csv存儲。

(5)突破反爬蟲機制,當前大部分網(wǎng)站的反爬蟲策略會對訪問用戶的User Agent進行檢查,為保證爬蟲的有效進行,收集當前用戶還在使用的瀏覽器的User Agent,在每次請求頁面時隨機替換。

(6)將 robot協(xié)議改為不要遵守,避免尋找網(wǎng)站里面的robots.txt,導致爬蟲會很快停掉。

(7)創(chuàng)建analysis.py,對采集到的數(shù)據(jù)進行簡單分析。

2 基于Scrapy的賭博網(wǎng)站爬蟲實現(xiàn)

2.1 建立爬蟲

由于 Scrapy是一個框架,為了能正常使用這個框架的各個中間件和接口,需要項目自動創(chuàng)建,具體命令:

scrapy startproject 爬蟲項目名

此時只是創(chuàng)建了一個工程框架,但還沒有爬蟲。接下來,創(chuàng)建爬蟲文件,在Scrapy中提供了多種爬蟲模板,由于本爬蟲時整站爬取,故使用CarwlSpider,具體命令如下:

scrapy genspider -t crawl vns36101 vns36101.com

其中,通過-t指定使用 crawl模板創(chuàng)建crawlspider整站爬蟲,爬蟲的名字是vns36101,要爬取的域名范圍是vns36101.com。

2.2 實現(xiàn)爬蟲主文件

通過使用 crawl模板創(chuàng)建crawlspider整站爬蟲時,在爬蟲主程序文件中重點只需編寫兩項內(nèi)容。首先是url鏈接規(guī)則分析,由于本爬蟲時為了重點保存頁面,因此我們 Rule規(guī)則的設為LinkExtractor(allow=r'.*'),“.*”,即正則表達式的所有頁面。其次是編寫頁面解析字段,本例中采用的是 ItemLoader實例化在items中寫好的本爬蟲的item對象,包含四個字段。本頁面主要代碼如圖2所示。

2.3 實現(xiàn)爬取字段

在scrapy中定義結(jié)構(gòu)化字段,都在items.py中。在數(shù)據(jù)通過return到此處是還可以通過MapCompose加載自定義的處理字段的函數(shù)。本爬蟲在處理 url_text_samples時使用了一個去除所有空格和換行符的函數(shù),使得該字段存儲的都是文本,具體如圖3所示。

圖3 items.py

2.4 實現(xiàn)數(shù)據(jù)存儲

在pipelines.py中創(chuàng)建本爬蟲中使用的時csv格式存儲,具體參考如圖4。

圖4 pipelines.py

3 數(shù)據(jù)分析

為了可視化該賭博網(wǎng)站的主要關(guān)鍵詞,在本爬蟲中還實現(xiàn)了簡單的網(wǎng)頁內(nèi)容分析[4-5]。具體分析方式時將爬出獲取的整站數(shù)據(jù)里面的url_text_samples字段的值讀取之后合并,隨后用jieba分詞進行分詞,,得到詞文件之后采用,textrank算法抽取該網(wǎng)站的關(guān)鍵詞,最后通過wordcloud將該網(wǎng)站的關(guān)鍵詞的其云圖生成如圖5所示。

圖5 詞云圖

通過具體分析發(fā)現(xiàn),在該賭博網(wǎng)站中,關(guān)鍵詞的前50個中具有非常明顯的博彩、彩票、投注等詞這,這些特征對實現(xiàn)進一步分析有非常強的指導意義,如圖6。

圖6 前50個關(guān)鍵詞

4 結(jié)語

本文基于 Scrapy框架實現(xiàn)賭博網(wǎng)站爬蟲,通過 crawlspider模板的整站爬蟲,達到了預期爬取數(shù)量和質(zhì)量。此外通過簡單分析,得知賭博網(wǎng)站的整個網(wǎng)站的文字特性非常強,可以用于指導進步對賭博網(wǎng)站的分析。

猜你喜歡
引擎頁面
微信群聊總是找不到,打開這個開關(guān)就好了
大狗熊在睡覺
以學促干 挺膺擔當 激活砥礪前行的紅色引擎
刷新生活的頁面
三生 三大引擎齊發(fā)力
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發(fā)
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術(shù)
主站蜘蛛池模板: 国产精品极品美女自在线网站| 亚洲精品福利视频| 人妻丰满熟妇av五码区| 少妇人妻无码首页| 亚洲精品大秀视频| 国产成人一区| 在线看国产精品| 国产女人在线视频| 国产超薄肉色丝袜网站| 亚洲色欲色欲www在线观看| 亚洲不卡影院| 任我操在线视频| 亚洲中文在线视频| 国产在线精品人成导航| 亚洲视频一区| 亚洲午夜福利在线| 91久久偷偷做嫩草影院免费看| 亚洲视频黄| 国产黄色视频综合| 精品福利国产| 亚洲色无码专线精品观看| 色综合五月婷婷| 日韩无码视频专区| 亚洲中文精品人人永久免费| 亚洲无码视频图片| 国产亚洲日韩av在线| 日日噜噜夜夜狠狠视频| 在线日韩日本国产亚洲| 色亚洲激情综合精品无码视频 | 亚洲色精品国产一区二区三区| 国产丝袜无码一区二区视频| 在线免费无码视频| 亚洲黄色视频在线观看一区| 国产农村1级毛片| 女同久久精品国产99国| 国产高清国内精品福利| 国产精品无码一二三视频| 中文字幕在线看| 欧美日韩亚洲综合在线观看| 国产菊爆视频在线观看| 亚洲欧美日韩中文字幕在线| 91精品专区国产盗摄| 国产精品视频公开费视频| 色欲国产一区二区日韩欧美| 激情亚洲天堂| 亚洲资源在线视频| 91无码视频在线观看| 综合五月天网| 丁香五月亚洲综合在线| 十八禁美女裸体网站| 国产99热| 国产日韩精品一区在线不卡| 九色91在线视频| 中文字幕无码电影| 国产美女在线免费观看| 亚洲AⅤ波多系列中文字幕| 国内精品小视频在线| 91精品国产麻豆国产自产在线| 婷婷成人综合| 国产精品第| 在线国产91| 欧洲在线免费视频| www.国产福利| 91探花在线观看国产最新| 国产91麻豆视频| 欧美亚洲综合免费精品高清在线观看| 久草视频精品| 91精品aⅴ无码中文字字幕蜜桃| 国产丰满成熟女性性满足视频| 亚洲天堂高清| 久久天天躁狠狠躁夜夜躁| 亚洲VA中文字幕| 成人免费视频一区| 色综合中文| av在线手机播放| 一区二区在线视频免费观看| 国产在线小视频| 国产h视频免费观看| 久久熟女AV| 日韩欧美综合在线制服| 亚洲av中文无码乱人伦在线r| 青青国产成人免费精品视频|