摘 要 隨著互聯網和計算機技術的迅速發展,我們生活中的許多行為和言語都會以數據的形式被存儲,而這些數據的背后則蘊含著巨大的價值。大數據時代的到來,使社會各行各業都發生了很大的變化。我國電子商務行業發展迅速,如何牢牢抓住“大數據”這一機會,是擺在眾多電子商務企業面前的挑戰。本文主要通過分析大數據在電商行業中的應用實例,反映出大數據對電商行業的發展影響以及對社會發展的推動作用。
【關鍵詞】大數據 電子商務 京東
1 電商行業的發展過程
電子商務行業在我國沒有很長的發展歷史,因為互聯網在我國也是近些年才迅速發展的。電子商務在發展初期,僅僅是做到將線下的交易過程轉移到線上,人們雖然能夠通過互聯網進行購物等行為,但是沒有體驗到線上交易的便捷性和優越性。所以電子商務行業一開始發展遲緩。
隨著計算機技術和網絡技術的進步,用戶可以通過電腦或者手機方便的進行線上交易。這個階段,電子商務行業遇到了另一個問題,那就是訂單量過多,物流速度無法適配,導致物品要過一段時間才能夠到達目的地。這令用戶和商家都非常苦惱。
大數據時代到來后,電商行業遇到了轉機,通過大數據技術,可以為用戶推送用戶感興趣的商品以及距離用戶更近的商品,這樣既提高了用戶使用的舒適度,也盡可能的減少了在運送過程中消耗的時間。
2 大數據及大數據技術簡介
2.1 大數據簡介
大數據是目前非?;馃岬囊粋€詞匯,本文將大數據定義為產生于信息爆炸的時代背景下,數量龐大,種類豐富的數據的集合,并且該數據集合蘊含著很大的開發和使用價值。大數據具有“4V”特征,分別是Volume(數據量龐大),Variety(數據類型多元化),Velocity(數據產生速度快)以及Value(數據價值高)。同時具備這4個特征,則可以稱之為大數據。
大數據的計量單位已經不是GB能夠滿足的了,要用TB甚至PB或更大。并且在未來的幾年內,還會有幾十ZB的數據源源不斷地產生。這體現了大數據數據量的龐大。
大數據的數據類型非常豐富,包括大量結構化以及非結構化數據,比如音頻,圖片以及視頻等等,還包括傳感器的數據,互聯網搜索的數據等。所以大數據不僅僅是數據量大,并且數據類型也很繁多。
如果沒有快速處理數據的能力,僅僅擁有龐大的數據是遠遠不夠的。通過云計算的存儲和計算,大量的數據可以被較快的處理,這樣可以使大數據被較快地使用。
在海量的數據中,蘊藏著無限的價值,許多行業和企業已經嗅到了其中的價值,本文介紹的就是電商行業是如何利用大數據進行變革和發展的。
2.2 大數據技術簡介
大數據的總量每兩年就會翻一倍,呈現出爆炸式的增長趨勢。如果只存儲大數據,而不處理和分析大數據,那么大數據是沒有價值的,所以大數據的出現促進了大數據技術的發展。本文對大數據技術的定義如下:大數據技術是能夠在海量的各類數據中,有效地進行篩選并且快速找到具有利用價值的數據的技術。
大數據技術中,使用較廣泛的是Hadoop技術。Hadoop可以簡單的理解為是HDFS(Hadoop Distributed File System)和MapReduce技術的集合。
HDFS是一種分布式文件系統,與普通文件系統有所差異。每個磁盤上有一個默認的數據塊的大小,一般為512字節,是磁盤對數據進行讀寫時要求的最小單位。文件系統也有塊的概念,大小一般是磁盤塊大小的整數倍。HDFS塊的大小一般默認為64MB,要比普通文件系統的塊大很多(普通文件系統塊大小一般為幾千個字節)。這樣使得HDFS減小了很多磁盤尋址的開銷,提高了讀寫速度。HDFS最大的優勢是可以存儲超大文件。原理是HDFS不是將所有文件的塊存儲在一個磁盤上,它可以利用磁盤系統上的任意一個磁盤進行數據的存儲。因此HDFS通常可以存儲TB級別,PB級別甚至更大級別的數據。
HDFS讀寫原理:
在了解HDFS讀寫原理之前必須要了解兩個分布式節點概念,一個是NameNode,另一個是DataNode。NameNode在HDFS中扮演者“調度員”的角色,其中存儲了HDFS的元數據,比如集群中的節點信息,每個數據有幾分副本數據等。DataNode就是集群中數據的存儲節點。每個文件會有多個副本存儲在不同的DataNode中以保證數據不會丟失。
HDFS寫原理:
(1)客戶端將消息發送至NameNode,如圖1①。
(2)NameNode給客戶端發送消息,指引客戶端將文件寫入Data A,B,D中。并且先向B節點發送請求,如圖1②。
(3)客戶端給B節點發送消息,希望它保存一份副本,并且希望B向A,D發送消息,讓A,D都保存一份副本,如圖1③。
(4)B節點發送消息給A節點,告訴它保存副本文件,并且希望它給D節點發送消息,讓D節點保存一份副本,如圖1④。
(5)A節點向D節點發送消息,希望D節點保存一份副本,如圖1⑤。
(6)D節點向A節點發送消息,確認已經保存副本,如圖1⑥。
(7)A節點向B節點發送消息,確認D節點已經保存副本,A節點已經保存副本,如圖1⑦。
(8)B節點向客戶端發送消息,確認已經將文件寫入HDFS,如圖1⑧。
HDFS將文件寫入系統,保證在系統集群中保留多份副本,才返回給客戶端寫入完成,這樣在某個節點死亡的情況下,依然能夠讀出數據,下面就是HDFS讀文件的原理:
(1)客戶端向NameNode發送消息詢問從哪里讀取數據,如圖2①。
(2)NameNode向客戶端返回信息,告訴客戶端副本存在的DataNode的ip,如圖2②。
(3)客戶端聯系相關DataNode,請求其中的數據,如圖2③。
(4)相關DataNode返回文件給客戶端,并且關閉連接,完成讀文件操作,如圖2④。
MapReduce可以拆分為Map+Reduce。
Map的思想是將海量的各類型的數據按照某一標準,將數據轉換為鍵-值的形式,這樣會提高數據的讀寫速度,是一種大而化小的思想。
Reduce的思想是將Map后的數據按照鍵的類型進行歸約,整合數據。最終是海量復雜的數據標準化,簡單化,是一種異而化同的思想。
MapReduce技術恰好應對了大數據的數量龐大(Volume)和種類繁多(Variety)的挑戰,是大數據技術中非常重要和基礎的技術。
3 大數據技術在京東中的應用
3.1 京東簡介
京東是目前中國最大的自營式電商企業,占中國自營式電商市場份額一半以上。京東商城有很多種類的商品,比如手機,電腦,日用品,化妝品等,也有手機繳費,酒店預訂等虛擬產品。是目前唯一能與淘寶(天貓)一爭高下的網上商城。京東商城的迅速發展得益于其強大的倉庫設施,京東的倉庫覆蓋全國所有大區,基本輻射所有省,運營數百個大型倉庫。加上快速的配送服務,基本實現早上下單,當日送達,下午下單次日送達的承諾。
京東能夠做到如此快速優質的配送服務,除了有強大的倉庫系統支持外,更是少不了大數據技術的支持。京東商城會從不同地區和不同年齡的消費者的購買數據中分析出各類商品的供需情況,根據該供需情況調配商品和管理倉庫,減少跨區域的貨物調度。
3.2 京東大數據平臺簡介
在2013年年初,京東將大數據戰略規劃為公司下一個十年的重點戰略方向。京東的大數據平臺分為:技術模塊,模型模塊,工具產品模塊和客戶模塊。
技術模塊主要包括Hadoop,Spark,Magpie等大數據技術;
模型模塊中主要包含了用戶畫像(消費者的特征描述),銷售預測,信用模型,配送網格等。這些預測模型能夠使京東更加精準的進行策劃和決策。
工具產品模塊中主要包括搜索引擎,數據挖掘平臺,數據質量監控平臺等,通過該模型可以對消費者的數據進行處理和應用。
客戶模塊包括消費大眾,合作伙伴,內部客戶等數據,可以得到內外全方位的客戶數據。
京東需要對實時的數據進行計算和查詢,還需要對歷史和離線數據進行處理,所以數據量相當大。它采用HDFS進行數據存儲,使用MapReduce,Spark等技術進行數據處理,最后訪問數據。
3.3 京東大數據應用框架
圖3是京東大數據應用框架。
(1)收集用戶進行操作留下的日志數據,交易及非交易數據,這些數據是整個架構中最底層的數據。
(2)對用戶的行為建立模型,比如興趣模型,信用模型等。
(3)在用戶行為模型之上,再建立用戶畫像,對用戶的營銷價值和用戶的風險等級進行評估,將評估結果供應給各個營銷系統,這一層是把數據轉換為價值的關鍵部分。
(4)采用各種廣告的形式進行精準推廣。
該框架是一個動態并且循環的過程,底層數據是由上層推廣之后得到的,上層推廣需要底層數據的支持。
以下是京東數據庫的用戶表字段(如表1所示)。
可以看出,京東除了記錄用戶的基本數據之外,還會記錄用戶的月收入,興趣愛好,購物次數等個性化信息,就是為了能夠更好地建立一個用戶畫像,從而更好地為大數據框架服務。
3.4 京東大數據應用的效果
通過大數據平臺對大數據的獲取和分析,京東會給每個用戶打上不同的標簽,每位用戶都會有很多的標簽和畫像,并且這些標簽會根據用戶的瀏覽和交易行為進行動態更新。這樣可以為用戶推薦用戶感興趣的商品,并且可以從用戶交易后的反饋獲得推薦的效果,再次對標簽進行更新。
應用大數據后,京東可以獲取到各種用戶的消費購物習慣和喜好,找出相似人群以及潛在客戶,并且預測并推出市場受歡迎的產品。這與傳統的電商相比,京東的優勢顯而易見,也體現出大數據技術的極高價值。
通過京東用戶畫像大數據顯示,過去的5年中,女性網購用戶數增長超過200%,使得京東更多地將注意力轉移到女性購物習慣上。在近五年時間里,京東平臺的交易額實現了10倍的增長,從2012年的869億,飆升到今年的9392億,除了品牌建設的成功以及用戶購買力等因素,大數據起到了很大的作用。
4 總結
本文通過簡單的介紹了大數據以及大數據技術的概念,分析我國電商行業的發展過程,并且結合大數據在電商行業中應用的實例,反映出了大數據技術對電商行業的發展是具有很深遠的意義的。大數據能夠很真實地展現出當前事物的現狀,也能夠分析預測出該事物對未來的影響。大數據不僅影響著電商行業的發展,而會對人類社會中各行各業的未來起到關鍵的作用,人們應該充分發揮大數據的優勢,以求更好地發展。
在研究分析了大數據在電商行業的應用后,我認為大數據將是未來科技發展的趨勢,也將會是科技發展的基礎。離開了大數據的支撐,那么這個行業將會逐漸成為歷史,合適地利用了大數據技術,這個行業將會有很大的發展空間。
參考文獻
[1]甘麗新,涂偉.大數據時代電子商務的機遇與挑戰探討[J].科技廣場,2013(03):137-140.
[2]胡艷輝.淺析大數據時代電子商務發展的新特征[J].改革與戰略,2016(01):118-122.
[3]蔡永鴻,劉瑩.基于大數據的電商企業管理模式研究[J].中國商論,2014(31):74-75.
[4]陳忠義.基于Hadoop的分布式文件系統[J].電子技術與軟件工程,2017(09):175-175.
[5]郝勝宇,陳靜仁.大數據時代用戶畫像助力企業實現精準化營銷[J].中國集體經濟,2016(04):61-62.
作者簡介
周哲賢(2000-),男,河南省鄭州市人。就讀于鄭州市第一中學。
作者單位
鄭州市第一中學 河南省鄭州市 450007