鄒倩穎, 羅 嵐
(電子科技大學成都學院 云計算科學與技術系, 四川 成都 611731)
電子商務大數據分析綜合實踐平臺建設
鄒倩穎, 羅 嵐
(電子科技大學成都學院 云計算科學與技術系, 四川 成都 611731)
電子商務大數據分析綜合實踐平臺的構建是在響應國家提出的“互聯網+”計劃后,結合云計算、大數據等新技術,以電商企業需求為核心而提出的。在分析了電商企業目前對電子商務大數據分析人才的缺乏,以及當前高校電子商務專業實踐教學的現狀與問題后,提出了電子商務大數據分析綜合實踐平臺的建設思路和方案,著重介紹了該平臺的構成核心技術及相應數據分析流程模塊,方案具有較強的可操作性,并對電子商務大數據分析人才培養具有一定的理論價值和實踐指導意義。
電子商務; 實踐教學; 大數據分析
中國電子商務專業教育最早可追溯到1998年,在接近20年的發展中,電子商務專業經歷了嘗試期和蓬勃發展期,尤其是進入2012年以后,云計算、大數據以及物聯網這些信息時代的新概念不斷涌入電子商務領域,使得中國電子商務進入了“后電商時代”[1]。2014年11月21日,李克強考察義烏劉村,將電子商務等新業態比作中國發展的“新發動機”。自此社會對電子商務專業創新創業型人才出現了“井噴式”需求[2]。2015年3月,李克強在十二屆全國人大三次會議上的政府工作報告提出“互聯網+”計劃后[3],促使各行各業快速滲透,加速產業融合,而電子商務平臺成為各行各業產業融合的有效平臺。
以大數據為背景,介紹了電子商務實踐教學與大數據技術在數據分析與挖掘等方面的融合。以開源平臺Hadoop技術為核心架構,提出了基于電子商務數據的數據采集、數據存儲、數據清洗、數據分析與挖掘以及數據可視化等方面的大數據分析綜合實踐平臺解決方案,以及為電子商務數據分析師人才培養提供的實踐平臺。
從目前電子商務專業實踐課程教學內容來看,大部分院校該專業實踐教學存在以下特點[4-7]。
(1) 實踐教學條件與教學內容不足。由于缺乏相應的資金、設備等基本硬件投入,大部分院校該專業所開設的實踐教學課時數無法滿足實踐教學的要求;從實踐教學內容上看,實踐性不強,由于前期資金的缺乏,買了硬件卻不愿花錢買軟件,使得電子商務實驗變成了上網、辦公軟件應用、建Web網站、計算機應用等基本技能的實踐場景,并且這些實踐教學內容之間關聯性不強,無法體現綜合素質的培養。
(2) 實踐教學體系落后。大學電子商務專業4年開設的實踐教學內容包括辦公軟件應用實訓、計算機應用實訓、數據庫實訓、Web應用實訓、網頁與網站設計實訓、奧派移動客戶端運用、行健客戶管理系統運用、金蝶K3系統運用。以上實踐教學內容只能部分反映電子商務專業的培養體系,無法體現該專業全部的教學內容及實踐內容,尤其是在數據分析與挖掘方面目前根本沒有這方面的資源。
(3) 實踐技能型師資不足。電子商務的實踐性特點要求教師不僅具備電子商務基本技能,還需具備較強的實戰水平。但大多數該專業的教師雖學歷高,但缺乏實踐經驗,對學生的實踐培養更多的是“紙上談兵”,沒有從企業需求出發修訂相應的實踐教學內容,致使實踐教學目標與企業人才需求嚴重脫節。
在“互聯網+”時代背景下,電子商務專業實踐教學要根據企業需求不斷修訂實踐教學內容、增加新的實踐教學手段。從目前電商平臺急需電子商務大數據分析師這一需求出發,向電子商務專業提供了基于大數據環境的電商平臺大數據分析綜合實踐平臺解決方案,該方案的實施一方面填補了一些高校在數據分析與挖掘方面的實踐教學空白,另一方面也適應企業需求,為企業在數據分析與挖掘方面提供了人才儲備[8-9]。
2.1 大數據分析平臺的選擇
在硬件方面,大數據分析綜合實踐平臺以Hadoop YARN作為基礎框架。由于該框架是典型的分布式平臺系統,因此可以整合目前所有硬件設備,在無需購買新硬件的同時構建此平臺。在軟件方面,Hadoop是Apache社區的開源軟件,以Hadoop為框架的其他軟件因遵循開源社區規則,也是免費使用。因此該平臺軟件成本為零。
2.2 綜合實踐平臺構建
整個綜合實踐平臺框架由軟硬件基礎層、架構層及應用層組成。軟硬件基礎層包含分布式集群、虛擬機、Linux等;架構層由Hadoop Yarn框架組成;應用層由數據采集、數據存儲、數據清洗、數據分析和數據可視化5個模塊組成,見圖1。

圖1 綜合實踐平臺框架圖
該平臺的建設具備普適性,并非只能用于電子商務專業,只要與數據分析相關的專業都可建設該平臺,為實踐教學提供有效手段。該平臺包含以下幾個方面內容:
(1) 數據采集模塊。利用網絡爬蟲等工具從全網獲取所需分析的數據對象。
(2) 數據存儲模塊。由于處在信息爆炸的時代,傳統關系型數據庫已不能滿足海量數據存儲的需求,因此該平臺選擇利用分布式數據庫,將獲取的數據進行存儲以備后續使用。
(3) 數據清洗模塊。由于采集的數據可能存在缺失、冗余、異常等問題,因此對數據進行清洗可實現數據質量的提升,為數據分析做準備。
(4) 數據分析模塊。數據分析與挖掘是提供決策支持的基礎,利用Hadoop框架下的機器學習算法可實現實時計算、離線計算等數據處理需求,從中挖掘數據間潛在關聯。
(5) 數據可視化模塊。單純的數據不利于客戶對其結果進行分析與研究,因此將數據分析后的信息進行可視化展示,以圖、表或其他方式展示結果,有利于提升客戶體驗及提高決策人員的研判速度,同時也最大化地避免感性思維帶來的風險。
從以上分析看,構建大數據分析綜合實踐平臺是開展大數據與電子商務專業實踐融合的重要一步。雖然實驗室中所使用的數據并不能真正達到大數據的5 V特征,但它奠定了全過程應用大數據的基礎,與電商企業需求相符。
2.2.1 數據采集模塊
數據采集模塊采用的網絡爬蟲技術,可分為2種運行模式。針對靜態網頁使用Python編寫的網絡爬蟲工具來完成數據采集,針對動態網頁使用JavaScript編寫的網絡爬蟲工具來完成相應工作。兩者有機結合,確保了在爬取信息時的全面性。
2.2.2 數據存儲模塊
由于互聯網時代信息量不斷增加,所需存儲的環境也發生了巨大改變。傳統的以關系型數據庫為核心的集中式數據環境已不再適合這樣的場景,本方案選取NoSQL數據庫中的HBase作為分布式數據存儲載體,為實踐中的大數據場景做鋪墊。而NoSQL數據庫本身的優勢,如列式數據庫、內存數據庫、橫向擴展等優勢為數據存儲提供的優化場景。
2.2.3 數據清洗模塊
通過對數據進行清洗可清除存儲在數據庫中的缺失、冗余、異常的數據,從而實現數據質量的提升。該方案中包含的數據清洗模塊由前期準備、數據檢測、質量評估、數據修正、數據輸出5個模塊,見圖2。

圖2 數據清洗模塊框架圖
前期準備時需先對已存儲數據進行簡單分析,確立清洗目標與所需具體實現方法,獲取完善的數據清洗方案。
數據檢測需完成數據預處理與基本檢測,然后將檢測結果進行統計。數據預處理主要用于消除數據不一致、空數據、無效數據等。同時數據檢測還需檢測冗余數據、缺失數據、異常數據[10]。通過此過程,可獲取質量水平較高的數據信息,為后面的數據挖掘做鋪墊。
質量評估通過數據質量檢測的統計結果對數據質量進行定位與評估,結合業務影響與問題本質分析情況,參照前期準備好的清洗方案,進行方法改進,得到新的數據清洗方案,即數據修正方案。
數據修正采用各種方法對檢測后的數據進行修正,大體功能有通過采用排序、融合、基于規則等方法消除已標志的不一致數據[11];刪除空數據、合并重復數據,降低冗余。
數據提交時需結合之前的清洗方案與質量評估來驗證清洗之后的數據是否真實合理,若滿足則提供給數據挖掘模塊,不滿足可反復提升數據質量。
數據清洗一直貫穿著數據處理的整個生命周期,篩選符合輸入要求的數據源、評估并修正挖掘后的數據,確保輸出數據的正確性。該數據清洗框架能在不同階段提供高質量的數據,并具有松耦合、高靈活性、可擴展性、交互性良好的優點。
2.2.4 數據分析模塊
數據分析是提供決策支持的基礎,采用YARN框架緊密結合多個組件,通過機器學習算法實現實時計算、離線計算等綜合大數據分析流程,并做合理歸納推理,從中挖掘出數據間潛在關聯,基本架構見圖3。

圖3 基于YARN的離線、實時計算數據分析架構圖
在離線數據處理方面,主要利用Mahout中常用關聯分析、協同過濾、分類算法、聚類算法等進行數據分析。在實時數據處理方面,主要利用Spark框架下Streaming與MLlib相結合的方式進行數據分析,更加快速地獲取分析結果。
2.2.5 數據可視化模塊
該綜合實踐平臺數據可視化模塊通過集成百度開源項目Echarts可視化工具來實現。通過Echarts將數據挖掘的結果進行圖形化繪制,從而呈現數據間的關聯。
3.1 需求分析
現客戶需要在電商平臺上購買某一特定商品,且這一商品客戶之前重未購買過,希望通過該平臺向客戶推薦這一商品綜合評價最高的店鋪信息。
傳統電商平臺的推薦引擎是根據客戶歷史消費行為去推薦某一商家的某一產品,又或是通過客戶自身屬性對客戶進行細分,相似客戶屬性信息進行商品推薦。若客戶需要在電商平臺上購買一個新商品,或客戶細分組中也從未出現過類似的所購商品,且該商品售賣商家數量較多,客戶將如何選擇才能獲得一次滿意度較高的購物歷程呢?基于以上需求,通過分析可知,客戶在購買新商品時主要注重以下2點:第一,商品價格;第二,賣家好評度。其中,賣家好評度中可挖掘出商家態度評價、商品本身質量問題、商品物流情況等隱藏信息。
3.2 綜合實踐平臺操作流程
通過以上分析,在數據采集模塊中制定相應規則,從購物網站爬取相應賣家店鋪名稱、此商品的價格及評論信息,存儲于分布式數據庫中;利用數據清除模塊將無效信息清除;通過數據分析模塊對所獲得的用戶評價數據進行聚類,將商家態度評價、商品質量評價和物流評價分類,并通過關聯分析算法,將商品價格與這些數據進行關聯分析,獲得綜合推薦率;在數據可視化階段,將數據分析所獲得結果以推薦表的形式,向客戶推薦綜合排序前10名的商店供客戶決策參考。
3.3 結果展示
實驗以淘寶網電商平臺為例,客戶需購買商品為“飛利浦新安怡寬口徑自然玻璃奶瓶”,數據采集結束后,顯示數據量為11 772 000條記錄,其中包括賣家店鋪名稱、商品價格以及對該商品的所有評論。在經過數據清洗后,數據量為10 049 207條記錄。根據客戶需求進行數據分析后,通過數據可視化展示,其結果如表1所示,向客戶推薦綜合排序前10名的商家及對應的價格信息。

表1 商品可視化展示結果表
由表1可知,該商品的價格范圍在64.00~79.00元之間性價比最高,且以上店鋪均出自淘寶天貓商城,說明天貓商城的商品比普通店鋪的商品更有信譽,更有客戶群。
通過該綜合實踐平臺的建設,電子商務專業學生可在該實踐平臺上體驗整個大數據分析的全流程,并能夠根據個人愛好有選擇性地進行各個模塊的深入學習與實踐,為成為電子商務大數據分析師做準備。
電子商務大數據分析綜合實踐平臺的建設為順利開展電子商務大數據分析師人才培養提供了實踐教學環節。該平臺的建設也體現了以電商企業需求為核心、以學生為本,提升綜合實踐能力、培養綜合實踐應用型人才的培養目標。對提升電子商務專業人才競爭力有非常重要的意義。在未來的實踐探索中,可利用該平臺建立更加完善的電子商務實踐教學內容,實現更多的實踐教學環節,比如消費者行為分析、市場調查與預測等方面的實踐教學內容。
References)
[1] 唐人.后電商時代來臨:4萬億產業的互聯網進化[M].北京:機械工業出版社,2016.
[2] 姚建莉.李克強考察義烏:電子商務將成發展新發動機[EB/OL].(2014-11-21). http://it.sohu.com/20141121/n406237729.shtml.
[3] 李克強.制定“互聯網+”計劃促電子商務健康發展[EB/OL].(2015-03-05). http://www.chinanews.com/gn/2015/03-05/7103116.shtml.
[4] 魏小銳,李勇,趙維佺.電子商務三元制實踐教學體系探索[J].實驗室研究與探索,2016,35(3):157-160,172.
[5] 劉浩.電子商務開放式實驗教學淺析[J].湖北經濟學院學報(人文社會科學版),2011(7):183-184.
[6] 肖斌,唐美玉.創新型電子商務實驗室建設方案[J].企業技術開發,2014(10):82-83.
[7] 支侃買.互聯網+時代背景下民辦高校電子商務專業建設研究[J].現代經濟信息,2015(18):399,401.
[8] 賀衛紅,曹毅.創新型電子商務實驗室的建設與改革[J].中國教育信息化,2008(17):13-15.
[9] 董春橋,張延榮. “互聯網+實驗室”建設探討[J].實驗技術與管理,2017,24(1):240-243.
[10] 宋金玉,陳爽,郭大鵬,等.數據質量及數據清洗方法[J].指揮信息系統與技術,2013(4):63-70.
[11] 王曰芬,章成志,張蓓蓓,等.數據清洗研究綜述[J].現代圖書情報技術,2007(12):50-56.
Construction of comprehensive practical platform for E-commerce big data analysis
Zou Qianying, Luo Lan
(Department of Cloud Computing Science and Technology, Chengdu College of University of Electronic Science and Technology of China, Chengdu 611731, China)
In response to the national “Internet+” program, and according to the demands of E-commerce enterprises, the construction of the comprehensive practical platform for E-commerce big data analysis is put forward with combining the new technologies such as the cloud computing, big data, etc. In the analysis of the fact that the E-commerce enterprises lack the big data analysis talents, and based on the current situation and problems of the practical teaching of E-commerce majors in colleges and universities, the idea and scheme for the construction of such platform are proposed. The core technology of the platform and the corresponding data analysis process module are introduced. The scheme has the strong operability, and the certain theoretical value and practical guiding significance for training the E-commerce big data analysis talents.
E-commerce; practical teaching; big data analysis
10.16791/j.cnki.sjg.2017.11.049
G642.0
A
1002-4956(2017)11-0198-04
2017-06-12
四川省教育廳基金資助項目(172A0819);電子科技大學成都學院院級教改項目(17JG0227)
鄒倩穎(1980—),女,四川成都,碩士,講師,電子科技大學成都學院大數據教研室主任,研究方向為大數據應用、數據挖掘.
E-mailzqy_bb@163.com