999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子商務數據采集方法研究

2017-11-13 00:46:18苗妍
商情 2017年40期

苗妍

【摘要】近年來,我國電子商務經過長時間的探索發展,已逐漸進入中高速發展階段,市場規模也不斷擴大,網購人群、商品種類、金額、平臺等快速增長,電子商務數據數量巨大、類型多樣、來源廣泛,如何采集我們需要的數據,成為我們面臨的又一問題。本文主要通過將這一問題簡化為“按數據類型進行采集”和“按數據需求采集”,并提出對應的采集方法,從而實現對電子商務數據采集方法的系統梳理,為相關研究者提供豐富的理論基礎。

【關鍵詞】電子商務 數據分類 數據采集方法

一、引言

數據采集也叫數據獲取,是指在一個系統采集數據后將數據信息傳輸到另一個系統中,為后續系統數據分析做準備。電商大數據伴隨消費者和企業的行為實時產生,廣泛分布于電商平臺、社交媒體、智能終端、企業內部系統和其它第三方服務平臺上,其類型多種多樣,既包含消費者交易信息、消費者基本信息、企業的產品信息與交易信息,也包括消費者評論信息、行為信息、社交信息和地理位置信息等。在大數據環境下,電商平臺中的數據是公開、共享的,但數據間的各種信息傳輸和分析需要有一個采集整理的過程。

目前文獻的研究主要集中于對“大數據采集方法”的研究,主要包括系統日志采集方法、網絡數據采集方法、感知數據采集方法、網絡數據爬取、輿情信息采集等方法。而沒有對‘電子商務數據采集方法”的專門研究。本文的研究思路主要體現在三個方面:一是,針對繁雜的電子商務數據,提出“按數據類型進行采集”和“按數據需求采集”這一使人比較明晰的分析方式;二是,參考“數據采集”的各種方法,并與電子商務研究相結合,篩選出可以對電子商務數據進行采集的方法;三是,將前兩點所提到的“采集分類”和“采集方法”一一對應。

二、電子商務數據

(一)基于電商平臺的基礎數據

電商平臺是指為企業或個人提供網上交易洽談的平臺。企業、商家可充分利用電子商務平臺提供的網絡基礎設施、支付平臺、安全平臺、管理平臺等共享資源有效地、低成本地開展自己的商業活動。電商平臺是電子商務數據產生的基本載體,主要包括商品數據、客戶基本信息數據、交易數據、客戶評價數據。

(1)商品數據。在進行電子商務活動之前,各企業、商家將商品的相關數據錄入電商平臺數據庫中,進而在網頁中呈現出來,一般地,商品數據在一定時期內是相對穩定的。商品數據主要包括商品分類、商品品牌、商品價格、商品規格、商品展示,主要有文字描述、具體數值、圖片等數據格式。對商品數據的采集主要是獲取不同類目、顏色、型號等對銷售量和銷售額的影響,以便調整運營策略、實施銷售計劃。

(2)客戶數據。目前,各大電子商務平臺的訪問均需客戶進行注冊,其中不乏用戶的隱私信息,如:用戶聯系電話、電子郵件和通訊地址等。同時通過線上交易、線下物流,可以獲取更完整的客戶數據,主要包括姓名、性別、年齡等內在屬性數據,城市、教育程度、工作單位等外在屬性數據,首次注冊時間、VIP等級、消費頻率、購物金額等業務屬性數據。了解客戶的過程,實際上是一個為用戶打上不同標簽并分群的過程,對這些數據的采集,有利于分析客戶消費行為和消費傾向等特征。

(3)交易數據。當客戶在電子商務平臺上產生購買行為之后,其交易數據包括購買時間、購買商品、購買數量、支付金額、支付方式等。對交易數據的采集是促進通過數據分析評估客戶價值,將潛在客戶變為價值客戶的重要環節。電子商務網絡營銷其最主要的目的是促進商品銷售,因此按照客戶對商品的購買情況,可對當前和這個商品相關的營銷策略其實施效果進行評價,以便進行相關的調整。

(4)評價數據。21世紀經濟研究院所做《2017年電商消費十大趨勢》顯示,80、90、00后的消費者更愿意在互聯網上分享自己的真實購物體驗,并且消費評價成為其產生購買行為的重要影響因素。這些評價數據主要以文本的形式體現,包含商品品質、客戶服務、物流服務等方面的內容。對評價數據的采集是可以幫平臺商家更好地跟消費者溝通,了解需求、完善產品、提高服務。

(二)基于電商專業網站的研究數據

隨著電子商務的發展,國內電子商務研究性網站也隨著增多,比較典型的有“中國電子商務研究中心…阿里研究院…艾瑞咨詢”等。

中國電子商務研究中心以“電子商務”為研究對象,以推動和擴展電子商務研究為核心宗旨,以開放性和專業性為導向,致力于不斷提升電子商務研究的質量與水準。其數據板塊主要分為產業數據、企業數據、行業數據、互聯網金融數據、地方數據五個方面,報告板塊主要包括電子商務報告、移動電子商務報告、季度報告、年度報告、B2B報告、B2C報告、網絡零售報告等多個層面。

其次,阿里研究院依托阿里巴巴集團海量數據,聚焦電子商務生態、產業升級、宏觀經濟等研究領域,共同推出阿里巴巴網購核心商品價格指數aSPI core、阿里巴巴全網網購價格指數aSPI、阿里巴巴電子商務發展指數aEDI、阿里巴巴消費者信心指數aCCI、阿里巴巴小企業活躍指數aBAI及面向公眾媒體,結合開放的國家統計數據、區域經濟數據、電子商務行業數據以及阿里集團數據。

艾瑞咨詢專注于互聯網相關領域的數據研究、數據調研、數據分析、互聯網咨詢數據等互聯網研究及報告,電子商務是其研究領域的重要組成部分。其主要通過形象化的表格、圖片,提煉出電子商務歷年發展情況、階段性發展情況及專項內容發展情況,為電子商務提供了豐富的數據信息。

(三)基于電商媒體的報道、評論數據

電商媒體是指對電子商務的動態進行實時報道、評論的介質平臺。國內典型的電商媒體主要包括新聞和社交兩大部分:新聞網站主要有騰訊網、新浪網、鳳凰網、網易、搜狐網等,及電子商務專業新聞網站

億邦動力網;社交網站主要包括微博、博客、百度貼吧等。

各大新聞網站對于各地區電子商務的發展合作動態有著準確、及時的把握,并使用專業性的語言發布在網絡平臺,對于國家電商政策、重大電商會議、論壇等宏觀信息還原度高且及時,同時對于地方電子商務發展的微小事件也有相關提及,地域度和事件范圍較廣。億邦動力網是國內權威電子商務新聞門戶,圍繞傳統企業做電商、B2B、B2C、外貿電商、移動電商、電商服務、電商政策、電商資本等領域開展信息與研究服務,是獲取電商發展動態數據必不可少的來源。endprint

社交網站中的電子商務數據主要體現在微博中的電子商務話題及用戶評論數據,博客中電子商務政策解讀、技術分析、事件討論等文章性數據,貼吧中電子商務問題、話題的討論數據等,這些數據多以文本形式呈現。

三、按數據類型進行數據采集的方法

電子商務數據集通常具有不同類別的屬性,包括字符類屬性和數值類屬性。字符類屬性通常是對鍵值的外部歸類,如性別、所在地區名,信用等級等。數值類屬性又可分為順序屬性,離散值屬性和連續值屬性,數值類屬性是對變量的量化記錄,其中順序屬性是對鍵值進行順序排列,并用數字表示順序,如喜愛程度、滿意度等;離散值屬性是不具有運算意義的離散值鍵值,如身份證號碼、郵編等;而連續值屬性是最為常見的數值類屬性,如貨幣收入,或者統計的人數等。

目前互聯網中的網頁信息多是半結構化或結構化,絕大多數的互網頁信息的編寫或標記語言為超文本標記語言HTML,分析其組成結構可知它主要由HTML標簽和穿插其中的普通文本信息組成。簡而言之,電子商務數據主要可以歸類為由文字、數值組成的文本類型數據,同時還包括圖片、視頻等媒體數據。因此,對電子商務數據的采集,可以參考文本數據和媒體數據的采集方法。如下圖所示為不同類型電子商務數據可使用的采集方法:

(一)HTML網頁文本、圖片數據采集

獲取網頁是WEB采集最基本的操作。互聯網是一個類似蜘蛛網一樣的數據信息網絡,包含有網頁中的一些圖片、視頻、壓縮文件、超鏈接等媒體文件。

Web采集的核心是網頁爬蟲,用以采集相關網址所包含的海量信息,并從中提取所需的網頁信息資料。目前國內外對網絡爬蟲的研究主要分為三類:基于網站的信息采集、基于關鍵詞的網站信息采集、增量式網站信息采集。

(1)傳統網絡爬蟲。傳統網絡爬蟲的原理是:通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網頁。這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。其一般工作流程如下:

傳統的網絡爬蟲主要用于抓取新聞門戶類、論壇類及傳統博客類網站的數據,更擅長處理靜態網頁的數據。運用網絡爬蟲進行電商數據采集時,可以使用Python或java等語言實現。

(2)主題網絡爬蟲。Web結構越來越復雜,網頁數量越來越多,傳統爬蟲對所有鏈接指向的網頁不加選擇地爬取,其越發不可能遍歷整個Web上的所有網面。而主題爬蟲有選擇的爬行符合預定主題的網頁,分析每個頁面的鏈接,并通過相關性算法的計算預測鏈接指向的網頁與主題的相關度、優先度高的鏈接先爬行,舍棄與主題無關的鏈接。

主題網絡爬蟲按照預先確定的主題,分析超鏈接和抓取的網頁內容,獲取下一個要爬行的URL,盡可能保證多爬行與主題相關的網頁。它從一個初始的URL種子集出發,根據一定分析算法判定URL指向的頁面及其上的鏈接的主題相關度,過濾掉相關度低的頁面與鏈接,保留與主題相關的頁面和新的鏈接,頁面存入主題頁面庫,鏈接放入待采集URL隊列中,再從待采集URL隊列中根據設定的采集策略選擇下一次要抓取的URL,重復以上過程,直到爬蟲根據自己的策略達到某一條件停止爬行,這一過程中不斷從當前頁面抽取新鏈接放入URL隊列中,所有抓取的頁面被存貯在主題頁面庫中。其工作流程如下圖所示:

(二)JSON或XML頁面文本、圖片數據采集

盡管可以通過網絡爬蟲的一些改進技術實現各類網絡數據的采集,但網絡爬蟲獲取的往往是整個頁而數據,缺乏針對性。利用網站自身提供的API實現網絡數據采集即調用網站API,可以很好地解決數據針對性的問題。

越來越多的社會化媒體網站推出了開放平臺,提供了豐富的API,如Twitter、新浪微博、人人網、博客等。這些平臺中包含了許多關于“電子商務”的話題和評論、圖片等,它們允許用戶申請平臺數據的采集權限,并提供相應的API接口采集數據。

(1)開放認證協議。開放認證(OAuth)協議不需要提供用戶名和密碼來獲取用戶數據,它給第三方應用提供一個令牌,每一個令牌授權對應的特定網站(如社交網站),并且應用只能在令牌規定的時間范圍內訪問特定的資源。為了降低OAuth協議的復雜性,OAuth 2.0協議很快就被提出,OAuth 2.0更加關注客戶端開發者的簡易性,它為手機應用,桌面應用和Web應用提供專門的認證流程。目前各大社交網站諸如Faeebook,Twitter、新浪微博等都提供了0Auth 2.0認證支持。

在己獲授權的情況下,第三方程序可通過這些API直接獲取網絡數據。通過API獲取的網絡數據通常以JSON或XML的格式呈現,具有清晰的數據結構,非常便于通過程序直接進行數據抽取。其大致過程示意圖如下所示:

(2)開源API的調用。開源API的調用方法步驟為:①創建HttpClient對象;②如果需要發送get請求,創建httpget對象,同樣,post請求一樣;③發送參數,可調用HttpGet、Httppost共同的setParams()方法來添加請求參數;HttpPost對象而言,也可調用setEntity()方法來設置請求參數;④調用Httpclient對象的execute()發送請求,執行該方法會返回一個Httpresponse⑤調用Httpresponse的getAllHeaders()、getHearders(strigname)等方法可獲取服務器的響應頭。調用getEntity()方法可獲取HttpEntity對象,該對象包裝了服務器的響應內容。

四、按數據需求進行數據采集的方法

數據需求是指為了達到或實現某種目的而需要進行的數據采集。本文主要從“用戶購物推薦”,“電商網站流量獲取兩種數據需求進行采集方法的分析。endprint

(一)用戶購物推薦

分析網購用戶的行為,離不開電商數據的采集、獲取。電子商務中應用協同過濾算法的情景就是如何根據用戶行為數據預測出用戶可能要購買哪些商品的過程。協同過濾算法根據用戶已有的信息,推算出用戶可能會含有或即將會含有的信息。協同過濾算法大致可分為兩類,基于物品的與基于用戶的。

(1)基于物品的協同過濾算法?;谖锲返膮f同過濾算法的實現過程及主要環節說明。

①查找這個用戶喜歡過的物品(即偏好的產品,并查出偏好值),以及還沒有喜歡過的商品,前者是推薦運算的根據,后者作為一個產生推薦的一個集合。②查找這兩個集合之間的關系,這是一對多的關系:一個沒有偏好過的物品與該用戶所有偏好過的物品間的關系,有一個值來衡量這個關系叫相似度Similarity。③得到這個一對多的關系后,就可以計算這個物品對于這個用戶的推薦值了,圖中similarity_i-x表示Item_i與Item_x之間的相似度,Item_x是該用戶偏好過得,該用戶對其偏好值記為value_x,相乘;Item_i與該用戶偏好過的所有物品以此做以上運算后,得到的值取平均值便是Item_i的推薦值了。④對該用戶沒有偏好過的集合中的所有Item都計算了推薦值,這里就會得到一個list,按推薦值由大到小排序,返回前面的一個子集即可。

(2)基于用戶的協同過濾算法?;谟脩舻膮f同過濾算法的實現過程及主要環節說明:

①查詢與該用戶相似的用戶,包括關系數據源,以及相似用戶與該用戶的相似度。②查詢關系數據源,得到相似用戶即鄰居偏好過的物品。③被推薦的Item集合是由該用戶的所有鄰居的偏好過的物品的并集,同時再去掉該用戶自己偏好過的物品。④集合優化。⑤依次計算被推薦集合中Item_i的推薦值,計算的方式略有不同,Value_1_i·表示鄰居1對Item_i的偏好值,乘以該用戶與鄰居1的相似度Similarityl~若某個鄰居對Item_i偏好過,就重復上述運算,然后取平均值;得到Item_i的推薦值。

(二)電商網站運營狀況

網站流量統計常用來衡量網站的整體效果,主要的統計指標如下表所示:

(1)監聽網絡數據包。數據包是網絡傳輸中的基本單元,主要由發送端IP地址、傳輸數據和接收端IP地址組成,里而包含了發送端用戶所有數據信息。通過監聽網絡數據包獲取流量數據,需要在客戶端和Web服務器之間加一個基于軟件或者硬件的包嗅探器,才能對經過的所有數據包進行監聽,從中提取出有用的信息,比如用戶的IP地址、請求訪問的URL資源以及瀏覽器類型等,接收到數據包的時間還可以作為用戶訪問的時間。

(2)分析服務器日志。當用戶瀏覽網站時,便與遠程計算機(即Web服務器)產生了Internet連接,服務器端通過TCP/IP協議請求向客戶端傳送文件。TCP/IP協議將文件數據打包分成分組,通過Internet網絡傳到用戶的計算機。這些分組將在用戶計算機中重組并顯示在瀏覽器中。Web服務器定位和傳遞用戶請求的文件,每一次請求后,服務器便在日志文件中記錄信息交換結果。常用的Web服務器如IIS、Apache都具有一套完整靈活的日志系統,均能在服務器端自動生成日志文件,里而記錄了里而記錄了用戶訪問網站的各種數據,包括IP地址、訪問時間、訪問方式、請求內容等。

(3)添加頁面標記。頁面標記法指的是在需要被監測的網頁源文件中插入一小段可執行的JavaScript程序代碼,當該網頁被下載到客戶端的瀏覽器上時,這段JavaScript代碼就會被執行,然后,它就會如實的將采集到的訪客行為信息不間斷的發給所對應的服務器。通過JavaScript來進行流量統計得到的用戶IP基本是真實的用戶訪問IP。

五、總結

隨著數據采集技術的不斷發展,目前可使用的電商數據采集技術、采集工具及采集軟件層出不窮,為電商數據的快速、準確、大量采集提供了有力支撐。而本文主要以數據采集的方法分析為核心,偏向于理論分析。在文章的第四章實際上還有電商輿情評論、消費者滿意度等等數據需求需要進行數據采集,這些都可以使用第三章的網絡爬蟲方法實現,為避免重復,僅列舉了兩種數據需求。endprint

主站蜘蛛池模板: 国产精品99久久久久久董美香| 少妇精品在线| 91 九色视频丝袜| 2021亚洲精品不卡a| 无码人妻热线精品视频| 亚洲视频三级| 亚洲第一天堂无码专区| 欧美精品成人一区二区在线观看| 亚洲大尺码专区影院| 免费看的一级毛片| 一本大道香蕉中文日本不卡高清二区| 欧美色综合网站| 久热这里只有精品6| 国产成人精品无码一区二| 免费毛片在线| 国产成人精品亚洲77美色| 四虎永久在线精品国产免费| 久久精品无码国产一区二区三区| 色网在线视频| 国产精品福利导航| 日韩精品成人在线| 欧美色图久久| 国产精品漂亮美女在线观看| 伊人久久精品无码麻豆精品| 久久久久亚洲av成人网人人软件| 国产一区二区三区免费| 欧美性爱精品一区二区三区 | 香蕉久久永久视频| 精品久久国产综合精麻豆| 亚洲精品中文字幕午夜| 福利在线不卡一区| 国产精品久久久久无码网站| 国产三级毛片| 自拍中文字幕| 免费人成网站在线高清| 欧美伊人色综合久久天天| 青青草原偷拍视频| 91精品国产91久无码网站| 亚洲日本中文字幕天堂网| 日韩在线观看网站| 国产精品色婷婷在线观看| 免费在线国产一区二区三区精品| 国产亚卅精品无码| 亚洲黄色成人| 国产精品中文免费福利| 激情无码字幕综合| 91精品国产福利| 国内精品免费| 九色视频在线免费观看| 国产精品久久久久鬼色| 91免费国产高清观看| 四虎永久免费地址| 激情综合五月网| 九九精品在线观看| 国产成人精品亚洲日本对白优播| 欧美日韩国产在线人| 免费毛片a| 国产日韩欧美精品区性色| 91成人在线观看| 日韩精品无码不卡无码| 热思思久久免费视频| 国产人人射| 久久综合结合久久狠狠狠97色| 在线国产91| 国产一区二区免费播放| 亚洲天堂.com| 国产精品永久不卡免费视频| 亚洲午夜福利精品无码不卡| 午夜视频免费一区二区在线看| 国产精品.com| 国产精品免费p区| 欧美激情综合一区二区| 精品视频一区二区观看| 国产自在线拍| 国内精品视频区在线2021| 国产精品视频系列专区| 一本大道东京热无码av| 欧美天堂久久| 欧美一区二区三区欧美日韩亚洲 | 成人中文在线| 91视频青青草| 国产免费高清无需播放器|