999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡爬蟲的京東電商平臺數據分析

2018-04-16 00:55:00魏倩男賀正楚陳一鳴
經濟數學 2018年1期
關鍵詞:數據分析

魏倩男 賀正楚 陳一鳴

摘 要 以京東平臺的網頁數據抓取為例,研究如何提高網絡爬蟲技術對網頁數據的抓取效率,進而對抓取到的數據進行數據挖掘和數據分析.該網絡爬蟲技術主要建立在分布式系統的基礎上,多臺計算機多線程同時運行,使數據抓取效率顯著提高.分析京東平臺的網頁信息,統一分類,抓取分類下的商品信息,獲取到網頁內容后,利用解析器重建網頁DOM樹,通過JQUERY選擇器,針對選擇不同的標簽名稱和標識名稱獲取商品信息,把獲取到的數據進行過濾、整合,然后進行數據挖掘和數據分析,對電商行業走勢進行預測,進而指導電商運營團隊決策.

關鍵詞 電商平臺;數據分析;分布式系統;AJAX;MapReduce;Jumony Core

中圖分類號 F424,F716,F724.6文獻標識碼 A

Abstract Taking the data web Jingdong platform as an example, this paper researched how to improve the efficiency of data capture of web crawler technology, and to crawl into data for data mining and data analysis. The crawler technology is mainly built on the basis of distributed system, and multiple computers run simultaneously at the same time, so that the efficiency of data capture is significantly improved. After analyzing Web information, Jingdong platform unified classification, grasping under the category of commodity information, and the access to web content, DOM tree was reconstructed by using parser, and through the JQUERY selector, different commodity information was selected according to the label name and logo name, and the obtained data was filtered, integrated, and then data mining and data analysis were carried out to predict the trend of the e-commerce industry, and then to guide the decision-making of the e-commerce operations team.

Key words electronic business platform;data analysis;distributed system;AJAX;MapReduce;Jumony Core

1 引 言

2017年1月,中國互聯網絡信息中心(CNNIC)發布第39次《中國互聯網絡發展狀況統計報告》,根據報告顯示,截至2016年12月,中國網民規模相當于歐洲人口總量,高達7.31億,全年新增網民共計4229萬人.互聯網普及率達53.2%,較2015年底提升了2.9個百分點.其中在商務交易應用類發展方面,截至2016年12月,中國有99.0%的企業使用計算機辦公.在電子商務方面,開展在線采購、在線銷售的比例分別為45.6%和45.3%,大約有38.7%的企業利用互聯網開展營銷推廣活動.中國的互聯網行業整體向價值化、規范化的方向發展,同時,移動化聯網推動了共享化、設備智能化和場景多元化的消費模式[1].

圖1為CNNIC中國互聯網絡發展狀況統計調查結果.圖1顯示截至2016年12月全國有45.3%的企業開展在線銷售業務.“十二五”期間,中國電子商務市場發現迅速,交易額翻了兩番.2016年,“十三五”的開局之年,電子商務市場規模的增速依然保持穩定,企業的參與程度越來越深入,開展在線銷售的企業數量也大幅增加.隨著企業對品牌推廣意識的提升、電子商務的日益普及,以及中國互聯網的廣告市場逐步規范化,互聯網的營銷市場仍然有很大的增長空間.但是近幾年來電商行業的各大網站為搶占市場經常采取的策略是打價格戰,紛紛通過促銷、甚至降價等方式來吸引客戶.據KPCB的調查報告顯示,2009年到2016年全球移動端新用戶的增長率持續下滑,可以預測在2017年這一增長率將繼續放慢,用戶增長將更加乏力,這就意味著人口增長帶來的流量紅利正在逐漸消退.那么,單純地通過價格戰來吸引新用戶的方式已不容樂觀.嚴峻的市場競爭形勢迫使企業思考,在不依靠價格戰這種野蠻增長的方式下,當企業面臨增長困境,該如何應對?2017年11月在北京舉辦的“第三屆中國行業互聯網大會”為這一問題指出了解決思路,即在互聯網時代下“新動能,新模式”將助推企業轉型升級,優化要素配置,促進新經濟轉型.因此,對電商平臺來說,數據是電商分析問題的基礎,面對不斷增長的海量信息,如何高效的獲取數據、挖掘信息是電商企業精細化運營和數據驅動決策中亟待解決的問題.網絡爬蟲技術在電商信息來源方面和其他領域都有很廣泛的應用.

2 網絡爬蟲技術的發展現狀

隨著Internet規模的不斷擴大的和Internet技術的迅速發展,Web信息量呈指數增長,數據呈現出數據量大、種類多、實時性強、價值大等特點,大數據的應用已經蔓延到各個領域[2].數據挖掘是從海量數據中尋找其規律和聯系的技術,是統計學、數據庫技術和人工智能技術的綜合.目前,在數據挖掘的領域范疇中,相關研究機構(如:Google、百度等)已經給出了較為成熟穩定的大型網絡爬蟲解決方案,由于涉及商業化利益和機密,相對成熟的搜索引擎技術不會被公開化,網絡中的相關資源也只是膚淺的描述和概括,而且這些方案大都只能為一般用戶提供一種不可定制的搜索服務,大部分公司并不提供相關的技術方案支持.開源在網絡爬蟲方面,也已經有一些相對成熟的網絡爬蟲項目,但很多并不能被廣泛采用,并且可能會存在一些問題,如:不穩定、體驗效果差、配置繁瑣等.在開源爬蟲項目中,大部分都是單機版的,無法應用于海量數據的采集等其他情況,因此,針對電商平臺研究出一套配置簡單、穩定性強、效率高的爬蟲是很必要的.

網絡爬蟲追求的方向是如何盡可能及時、全面、有效地獲取互聯網上的數據索引,主要包括以下方面的研究:發展大規模分布式系統、提高系統的性能[3].一是分布式系統有效地推動了搜索引擎技術的發展.搭建一套擴展性強、性能穩定、成本低廉的分布式集群系統,多臺機器并行運算,可以有效地解決多個網間訪問速度過慢對網頁信息獲取的影響,加快數據的計算速度,提高網絡爬蟲的性能[4];二是網絡數據抓取內容越來越多元化.人們對網絡資源的需求不僅僅是單純的文字,需求正朝著多元化的道路發展,例如,視頻搜索,圖片搜索以及各類文檔搜索,因此網絡爬蟲面對這些也應該能夠準確的解析并且準確的獲取;三是更多的個性化服務.當前抓取內容需要具備個性化搜索,人們關心的并不是所有的電商平臺網站和其他品類網站,而只是滿足自己所需要的一些電商網站等站點,因此就需要網絡爬蟲有針對性的去獲取,不同的站點對應不同的權值;四是AJAX數據獲取[5].AJAX框架有大量的表現層代碼,由于網絡和其他的反爬蟲因素在一定程度上降低了網絡爬蟲的效率.因此,開展支持AJAX框架站網絡爬蟲的研究,對解決AJAX站點地址(URL)獲取以及檢索隱藏在其中大量數據的問題,具有重要的理論意義與實用價值[6].

事實上,在網絡爬蟲領域,學術界以及商業界都已有一些研究,其中包括:網絡爬行策略、海量數據存儲方式、海量數據索引方式、網頁評級分類等.隨著網絡信息資源的快速增長以及網絡信息資源動態的變化,傳統的爬蟲技無法滿足人們對個性化服務的需求,以何種方式訪問網絡,提高爬蟲效率,已成為近幾年來網絡爬蟲研究的主要問題之一.但大多數研究僅著眼于某一個方面的改進,因此對于一個完整的爬蟲系統來說,或多或少的會存在著某些不足.本文在已有研究成果基礎上,設計一個高效可行的網絡爬蟲方案,進而對爬取到的數據進行數據分析和數據挖掘,為企業決策提供指導.

本文主要基于MapReduce分布式系統實現了網絡爬蟲在電商中的應用,提高了網爬蟲性能,加快頁面信息獲取速度[7].針對海量信息無法存儲的問題,采用非結構化分布式存儲技術,它是一種全新的非關系型的分布式存儲技術,采用新的數據模型,具有海量數據存儲、高性能、高可用性、強伸縮性等特點,可以有效地解決數據存儲的問題.針對頁面通過AJAX異步請求獲取后臺數據,呈現到網頁信息無法獲取的問題,采用Selenium技術,它可以通過調用瀏覽器的方式,加載頁面自身內容和通過AJAX異步請求展現的內容,完全加載后,Selenium可以獲取到所有頁面內容,Selenium還可以模擬鼠標單擊、雙擊、右擊等一些操作,解決隱藏數據無法獲取的問題[8].

3 相關理論基礎

3.1 MapReduce

MapReduce是Google在2004年提出的一個用于處理大規模數據集合的分布式計算架構.該構架的提出是由編程函數中常用的Map,Reduce函數啟發結合而來,通過這個架構,可以幫助對分布式計算不太了解的程序員完成分布式計算程序的編程,實現對問題的分解與合并[9].

分布式計算是將整個任務先分割成很多小的子任務到子節點處理,再將子節點處理得到的結果進行合并整理,獲取最終結果[10].在MapReduce的執行任務的過程中主要分為Map和Reduce兩個步驟:當用戶輸入一條指令后,Map程序首先把任務分割成不相關的小任務塊,這些小的任務塊會被分配到不同的計算機進去處理,得到的結果通過Reduce程序整合.MapReduce的一般運行結構如圖2所示.

“Map”過程:Master節點接收到輸入的數據后會將數據分割成許多小的數據塊并把它們分給不同的Worker節點.Worker節點可能會再次重復上面內容;或者Worker節點調用用戶自定義的函數,將處理得到的鍵值數據對寫入到本地磁盤中.

“Reduce”過程:在Worker節點上執行Reduce函數,整理Map函數處理好的全部數據,把鍵名相同的數據通過用戶提交的指定的方法合成不同的數據集合,保存到磁盤中.

3.2 AJAX

Ajax并不能說是一種新的研發技術,而是提取的Java、XML與JavaScript等技術的特點,創建了交互式網頁應用的Web開發技術,其中包括這些技術:使用HTML和CSS定義呈現給用戶的頁面內容和媒體信息;使用DOM實時動態修改頁面顯示內容和加載效果;使用XML和XSLT進行數據交換獲取和結構化處理;使用XMLHttpRequest方法進行異步數據的查詢和獲取;使用JavaScript綁定和處理以上部分.

AJAX Web應用模型如圖3所示.

客戶端與Web服務器之間增加了Ajax引擎,客戶端接口與Ajax引擎交互,而Ajax引擎再通過HTTP傳輸協議與Web服務器端交互.Ajax Web應用采用了異步交互模式,比傳統的Web應用體驗效果更佳,更加受用戶的喜愛,有5個方面的優點[11]:①Ajax能在不刷新整個頁面的前提下更新頁面信息和頁面數據,網頁加載的速度更加快速,用戶等待頁面加載的時間更短.在等待服務器響應的過程中,用戶可以在已加載頁面進行任何操作,縮短可感知時間.②通過異步調用模式,可以帶來更好的用戶體驗,用戶可以更加直觀感覺到豐富、動態的頁面內容.③Ajax采用的原則是“按需按量取數據”,可以最大程度的減少冗余請求和大量數據的一次性加載,優化服務器和客戶端的傳輸,從而提高網絡帶寬的利用率,減輕服務器負擔.④Ajax不但可以調用本地資源,還可以加載外部數據,非常具有靈活性.⑤Ajax技術應用非常簡單,沒有任何插件和程序的安裝,操作簡單,能被開發者廣泛支持.

3.3 Jumony Core

Jumony Core是一個非常真實的HTML引擎.目前的HTML解析器加上簡單的正則表達式已經可以滿足用戶操縱HTML文檔的需求,但對于Jumony Core,它更加強大.Jumony Core解析結果和瀏覽器的解析結果相似度非常高,無論是無結束標簽的元素,可選結束標簽的元素,或是標記屬性,或是CSS選擇器和樣式,一切合法的,不合法的HTML文檔,瀏覽器解析成什么樣式和內容,Jumony Core出來的效果幾乎和瀏覽器一樣.Jumony Core包含的封裝方法及作用如表1所示.

4 本研究對爬蟲技術的設計

4.1 設計思想

目前,爬蟲在抓取數據上,一般采取兩種策略:廣度優先策略與深度優先策略[12].廣度優先是指爬蟲沿著樹進行橫向遍歷,直到抓取完起始網頁中連接的所有網頁為止,然后再選擇其中的一個網頁鏈接,循環這個過程.此方法可以讓爬蟲并行進行,提高了抓取速度.深度優先是指爬蟲沿著樹進行縱向遍歷.深度優先策略是一個遞歸的過程,因此在程序執行的時候會大量消耗計算機的內存,很容易使爬蟲陷入問題,甚至是電腦死機.另外,遞歸與多線程是無法兼容的,因為多線程可以一次運行多個任務,但每個線程都要有自己的堆棧.而在遞歸時,當一個方法調用它自身時,它們需要使用同一個堆棧.因此,本爬蟲程序采用廣度優先策略.具體實現方式為:首先,統一不同電商平臺的分類信息,通過比較判斷找出不同電商平臺的公共分類信息,分類信息還分為一級分類和二級分類,一級分類下面包含多個二級分類;其次,整合所有二級分類,獲取所有二級分類所對應的商品列表URL,初始化URL,直到對應的URL沒有商品為止;最后,把獲取到的產品信息存儲到數據庫,存儲到數據庫中的數據經過清洗過濾得到標準化的數據,然后進行數據統計分析,從而把握電商行業的銷售趨勢.圖4為本程序對商品數據獲取及保存示意圖.

4.2 操作流程與實現

圖5清晰地展示了程序的主要流程.收集網絡中不同的電商平臺進行分析對比,獲取不同電商網站針對的不同分類的側重點,對于相似的分類,可以關聯分類后統一化名稱.對于每個分類下面的商品,需要不斷的初始化對應URL,從而獲得不同分頁下面的商品信息,獲取商品信息的時候,對信息不完整的商品進行舍棄.在數據整理的時候,過濾不符合規則、異常的數據.

4.3 統一分類

當前網絡電商平臺眾多,其中國內比較知名的主要有淘寶、天貓、京東等,但這些電商平臺的一級分類和二級分類,甚至更深層的分類錯綜復雜[13].把這些電商平臺的所有分類整合,挑選出其中具有代表性的一級分類,在一級分類的決斷中,盡可能的要包含人們生活的各方面.對于二級分類的確定,通過與一級分類的關聯度和常識去決定.最終,可以得到基于不同電商平臺下的一套相對統一的標準化分類.

4.4 初始化URL

不同電商平臺的二級分類下面可能會有更細的小分類,但不是商品列表,要盡可能完整的獲取到所有分類下面的信息就需要把這些更小的分類下面的商品列表對應的URL也存儲到數據庫,這些小的分類應該與其父級分類建立關聯外鍵.每個URL對應的商品列表只有一頁,一般要想獲取更多的頁面列表就需要改變URL中對應頁碼的數值.尚待訪問URL隊列可以被構造為一個先進先出(FIFO)隊列,信息搜索的下一個將要爬行的頁面來自隊列頭,新的URL被加入到隊列尾.每一步都是從隊列頭中選出下一個URL供爬蟲抓取,直到爬完此隊列中所有URL為止.

4.5 頁面信息提取

在提取頁面信息時,首先必須先判斷頁面的編碼方式,目前的字符集種類非常多,其中主要以“UTF-8”,“GBK”,“GB2312”為主,具體可以在網頁頭部可以看到,例如:.在讀取頁面內容時,先要判斷獲取內容的類型,如果是多媒體數據,則可以下載存儲到網頁數據庫中,如果是無結構或半結構化的網頁文本,則需要繼續分析.在獲取URL頁面內容時,如果出現超時、頁面丟失、獲取錯誤等現象時,就認為此網頁失效,對應的URL就被存儲到相應的錯誤列表中,如果能正常獲取,則需要解析網頁內容.

4.6 解析頁面內容

網頁解析主要是內容分析和鏈接提取.獲取頁面內容后,根據頁面內容去解析提取所需要的信息,并通過標簽,CSS名稱或者標簽ID獲取目的標簽路徑.一般情況下,元素會包含很多屬性,其中具有唯一性的屬性就是元素的ID,這樣能更快更精確的找到需要的內容,其次就是元素的CSS名稱,CSS名稱可以存在有很多,可以通過下標或者結合元素其他屬性來準確獲取,最后就是通過元素的標簽獲取,一個頁面內容會包含很多這樣的標簽,想確定唯一想要的就要逐步的查找該元素的父級,通過不同的父級元素來獲取唯一的子級元素.獲取到的元素內容文檔可以提取到如下信息:

1)文檔標題:通過文件頭標簽可以得到元素title里面的字符串內容,一般元素title里面的內容就是當前頁面的標題,展示了當前頁面的主要信息和性質.

2)商品鏈接:鏈接一般都是元素里面的屬性“href”的值,通過鏈接可以得到商品的詳情頁面,獲取更多的商品信息.

3)商品標題:商品標題一般可以在兩個地方獲取,第一,商品列表中有標題的信息,第二,在商品詳情頁面中可以獲取商品的標題信息.

4)圖片:電商平臺中商品幾乎都是存在圖片的展示,圖片的信息可以通過命令符或里面的屬性“src”或”background”的值獲取,屬性值代表了商品圖片的鏈接地址,并不能直接下載存儲在數據庫中.網頁圖片的獲取要通過程序解析圖片的二級制字符流,把這些字符再在程序中下載并保存到本地數據庫.

5)多窗口頁面:通過命令符引號中的字符串得到.

各種電商平臺信息采集最直接得到的就是以上4個方面獲取標記,并作相應的處理.其中文檔標題,商品標題這些可以直接從當前網頁中獲取,其他通過URL相關的信息則需要記錄URL并標記,從而進行更深一步的采集.

電商平臺采集主要是獲取關于每個商品的詳細信息,其中包括商品標題,商品ID,商品的價格,商品的發售地,商品的月銷量,商品的評論數甚至商品的評論,還有當前商品的店鋪名稱,店鋪ID,店鋪鏈接,店鋪信譽(評分)都要獲取到,這些信息有的并不能在網頁內容中直接獲取,例如,在京東商品詳情頁里面,店鋪的地址,評分等一些不能直接在網頁內容中找到,有的要更加深一步的找到相關的URL,通過再次解析網頁內容的方式獲取.還有的就更加復雜,這些信息在新的頁面也不能夠找到,這時候就要查找當前頁面所有的JS文件,看是否能夠在JS文件中獲取所需要的信息,然后找到相關此JS文件的路徑進行分析,看和其他商品的此路徑有什么不同,找出規律,拼接成相應的URL地址來獲取內容.

4.7 程序實現

電商平臺數據采集建立在分布式系統上,計算機集合通過通訊網絡相互連接,實現資源共享和協同工作,而呈現給用戶的是單個完整的計算機系統,分布式系統與面向對象技術相結合過后,極大的擴展了分布式軟件的應用領域,提高了軟件的性能和生產效率.程序使用的開發程序主要有Visual Studio和SQL SERVER.電商平臺采集數據量非常龐大,需要定義多線程或線程池來加快程序的運行速度.這里主要以京東為例.首先在程序中定義一個線程,線程執行需要一個無返回(void)方法,在這個線程中定義所要執行的方法,名稱定義盡量規范,方法里面是關于電商平臺采集的主要編程代碼.

1)獲取分類URL:獲取SQL SERVER中存儲的二級分類對應的所有URL,聲明一個表格(DataTable),把所獲取到的URL存放到表格當中.為避免重復的用到SQL SEVER增刪改查的一些方法,在程序中新建一個類,這個類中定義了一些基本的SQL SEVER增刪改查的方法,對應的代碼填充完畢后,每次需要用到這些方法得時候,可以直接通過類名和相應的方法調用,如表2所示.

2)循環商品列表:循環表格里面的URL,獲取并解析里面的內容,找到本頁面所有的商品集合,通過URL的規律,找到下一頁(page=1,2….),直到獲取此分類中的所有商品.

3)獲取商品信息:獲取商品集合后,通過選擇器得到相應商品詳情頁的URL,在商品詳情頁里面,把剩下所需要的信息提取出來,提取信息的各種方法如表3所示.

4)存儲到數據庫:得到所需要的信息,通過定義的SQL方法把得到的數據存入數據庫.

在商品信息的獲取過程中,會出現很多不規范的商品信息,在程序運行過程中,無法解析網頁內容時,程序就會停止并拋出異常信息.此時就需要手動去處理這些異常,而人工處理的效率非常低,因此添加異常處理是必不可少的,一般情況下,都會舍去這些不規范的商品.當一個商品信息獲取完畢時,開始執行保存到數據庫的操作,在保存數據庫之前,需先判斷數據庫中是否已經包含此商品,在數以萬計的商品中,免不了存在非常多的重復商品.對于帶有AJAX和JavaScript的動態網頁,通過模擬鼠標事件來獲取相應信息.

5 網絡爬蟲技術的應用

事實上,越來越多的電商運營團隊已意識到精細化運營和數據驅動思維已經成為電商自身增長日益重要的因素[14-18],所以一個能高效率的網絡爬蟲對一個電商平臺進行數據挖掘有效信息而言是非常重要的.因此,本文主要建立在分布式系統的基礎上,多臺計算機多線程同時運行,對京東平臺的商品信息進行抓取.通過對獲取信息的整理、分析,對京東電商的發展形勢進行把握.基于以上介紹對京東電商平臺信息獲取的運行界面如圖6所示.

圖6界面簡潔,信息框顯示程序正在獲取的商品信息.當點擊開始時,所有線程開始工作,每個線程都有唯一的標識名稱,不同線程分配不同的分類任務,獲取的內容信息也不一樣,圖6信息框顯示程序運行時商品信息一些展示,其中包括商品標題,商品所屬分類,線程標識以及商品的型號,當某個商品信息不規則或者信息獲取不符合要求時,程序就會自動提示異常,丟棄此商品.當點擊暫停時,所有的線程都會停止工作,多線程提高了商品信息獲取的效率.

通過本程序獲取到了京東電商平臺的各類信息,其中比較重要的有月銷售量、價格、產品的一些重要屬性.通過獲取每個月所有產品的總銷量,總銷售額,通過統計分析計算,預測下個月電商行業景氣度指數,結合前端HTML,CSS和JavaScript技術,把結果進行圖形化處理,更加直觀清楚的看到電商景氣度的變化趨勢,如圖7所示.

根據圖7電商景氣度指數折線圖顯示,京東電商景氣度大體上呈上升趨勢,雖然在上半年有過幾次波折,但是總體來看是在曲折中上升的,尤其后半年電商景氣度走勢大致已經趨于穩定,該分析結果可以在運營團隊進行決策時作為參考資料.

進一步地,分別篩選出一級類目和二級類目數據,可以對不同分類產品進行分析,獲取更詳細的信息,如圖8所示.

根據圖8電商類目銷售趨勢顯示,實線部分展示了護膚彩妝行業近一年的銷售量和銷售額的趨勢變化情況.虛線部分展示了對護膚彩妝行業未來一個月的銷售量和銷售額進行預測的結果,結果僅供參考.同樣的,運用網絡爬蟲技術可以獲取其他行業類別的不同信息,然后對獲取到的信息進行清洗、整合等標準化處理后,建立不同的數據挖掘模型,獲取有效信息指導企業決策.

6 結束語

隨著電商平臺信息資源的快速增長以及商品信息資源動態的變化,傳統的爬蟲技術無法滿足對海量信息及時獲取的需求,以何種方式訪問網絡,提高爬蟲效率,已經成為近年來數據挖掘研究領域的主要方向之一.因此,本文采用多線程的網絡爬蟲技術對京東平臺資源信息進行采集和提取,把整個京東平臺的產品信息集成為一個數據倉庫,進行數據挖掘和數據分析,獲取有用的信息以提供完善的實時監控和精細化運營策略.基于MapReduce技術并行加載頁面,多個頁面內容同時采集,針對調用JavaScript所展現出的內容,通過Selenium技術模擬瀏覽器打開相應網址,等待JavaScript執行完畢后再獲取頁面內容,對于帶有分頁的頁面,Selenium可以模擬鼠標單擊指定元素達到翻頁的效果,頁面加載完畢后再次獲取內容,直到獲取最后一頁內容為止.

在電商行業飛速發展的時代,搜索引擎不斷更新,電商平臺不斷完善,電商平臺數據的獲取面臨挑戰.電商平臺商品的重要數據的不公開,對網絡爬蟲的訪問限制成了獲取數據的主要難題.在以后的研究中,會嘗試通過代理IP、控制訪問速度、尋找真正的JavaScript地址等方式解決上述問題.(本論文特別感謝課題組成員楚少波、楊艷艷等同志的協助與支持)

參考文獻

[1]中國互聯網絡信息中心.中國互聯網發展狀況統計報告[R].中國互聯網絡信息中心,2017.

[2]李志義.網絡爬蟲的優化策略探略[J].現代情報,2011,31(10):31-35.

[3]李代祎,謝麗艷,錢慎一,吳懷廣.基于Scrapy的分布式爬蟲系統的設計與實現[J].湖北民族學院學報(自然科學版),2017,35(3):318-322.

[4]ZHONG S J,DENG Z J. A Web crawler system design based on distributed technology[J].Academy Journal,2011,6(12):1682-1689.

[5]楊俊峰,黎建輝,楊風雷.深層網站Ajax頁面數據采集研究綜述[J].計算機應用研究,2013,30(6):1607-1616.

[6]張升平.Ajax在優化Web系統中的應用[J].通信技術,2009,42(2):286-288.

[7]孔濤,曹丙章,邱荷花.基于MapReduce的視頻爬蟲系統研究[J].華中科技大學學報(自然科學版),2015,43(5):130-132.

[8]岳雨儉.基于Hadoop的分布式網絡爬蟲技術的設計與實現[J].網絡通訊及安全,2015,11(8):36-38.

[9]趙輝,楊樹強,陳志坤.基于MapReduce模型的范圍查詢分析優化技術研究[J].計算機研究與發展,2014,51(3):606-617.

[10]吳黎兵,柯亞林,何炎.分布式網絡爬蟲的設計與實現[J].計算機應用與軟件,2011,28(11):177-213.

[11]胡晟.基于網絡爬蟲的Web挖掘應用[J].軟件,2012,33(7):145-147.

[12]岳雨儉.基于Hadoop的分布式網絡爬蟲技術的設計與實現[J].網絡通訊及安全,2015,11(8):36-38.

[13]李也 賀正楚 , 潘紅玉.基于眾籌商業模式的中國動漫產業培育研究[J].東莞理工學院學報,2015,22(2):69-74.

[14]賀正楚,黃穎琪,吳艷,等.跨境電商發展的制約因素、優勢及措施--兼以湖南為例而論[J].長沙理工大學學報(社會科學版),2016,31(5):115-121.

[15]吳艷.戰略性新興產業的評價與選擇[J].科學學研究,2011,29(5):678-683,721.

[16]賀正楚,張訓,周震虹.戰略性新興產業的選擇與評價及實證分析[J].科學學與科學技術管理,2010,31(12):62-67.

[17]賀正楚,潘紅玉.中國制造業跨境電商發展面臨的問題及對策[J].求索,2017(6):129-135.

[18]賀正楚, 黃穎琪, 吳艷.制造業電子商務發展面臨的問題及其對策[J].地方財政研究,2016(6):9-18.

猜你喜歡
數據分析
電子物證檢驗的數據分析與信息應用研究
基于matlab曲線擬合的數據預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 福利在线免费视频| 97一区二区在线播放| 日本在线欧美在线| 国产精品午夜电影| 99视频国产精品| 日韩国产精品无码一区二区三区| 亚洲精品欧美日韩在线| 99无码中文字幕视频| 欧美亚洲国产精品第一页| 成人精品区| 国产成人欧美| 人妻夜夜爽天天爽| 四虎永久在线| 老司机午夜精品视频你懂的| 精品国产污污免费网站| 国产精品女主播| 免费aa毛片| 精品無碼一區在線觀看 | 国产成人喷潮在线观看| 永久免费AⅤ无码网站在线观看| 亚洲国产日韩一区| 福利在线免费视频| 91福利国产成人精品导航| 国产综合亚洲欧洲区精品无码| 亚洲人成在线免费观看| a欧美在线| 亚洲无码高清视频在线观看| 国产小视频免费观看| 国产精品自在自线免费观看| 成人精品午夜福利在线播放| 四虎影视无码永久免费观看| 在线观看av永久| 欧美天堂在线| 亚洲精品在线影院| 国产91无码福利在线| 亚洲免费成人网| 在线观看无码a∨| 国产在线视频欧美亚综合| 操美女免费网站| 日本在线亚洲| 91网址在线播放| 免费一级毛片| 亚洲国产精品无码AV| 美女扒开下面流白浆在线试听| 亚洲成人黄色在线| 欧美一级在线播放| 人妻精品久久无码区| V一区无码内射国产| 无码精品国产VA在线观看DVD| 亚洲爱婷婷色69堂| 亚洲精品制服丝袜二区| 午夜毛片免费看| 国产色偷丝袜婷婷无码麻豆制服| 国产乱论视频| 狠狠色噜噜狠狠狠狠色综合久| 国产精品自拍露脸视频 | 狠狠做深爱婷婷久久一区| 久久精品国产国语对白| 成人精品视频一区二区在线| 国产一区二区精品高清在线观看| 日韩成人午夜| 国产sm重味一区二区三区| 色久综合在线| 伊人久久大线影院首页| 国产亚洲一区二区三区在线| 亚洲一区二区日韩欧美gif| 久久久久久高潮白浆| 老司机aⅴ在线精品导航| 手机在线免费不卡一区二| 日本www色视频| 成人国产一区二区三区| 久久久久夜色精品波多野结衣| 久草国产在线观看| 欧美综合激情| 国产尤物jk自慰制服喷水| 国产成人高清亚洲一区久久| 国产成人夜色91| 国产资源免费观看| 播五月综合| 女高中生自慰污污网站| 亚洲国产中文精品va在线播放| 亚洲AV无码一区二区三区牲色|