摘 要:本文從東莞電子商務的現狀出發,對在Web數據挖掘技術影響下,東莞電子商務企業產生的大量復雜信息進行了實時和深層次地分析。隨著數據倉庫及Web等新型數據源的日益普及,在龐大的信息海洋中找到有用的數據,并對這些數據進行分析處理,從而發現數據之間的關聯性變得越來越重要。在對數據進行推理的過程中找到對企業有用的信息,從而提高企業在電子商務中的競爭力,為企業謀取更多的利潤。
關鍵詞:東莞電子商務;數據挖掘
中圖分類號:TP311.13 文獻標識碼:A 文章編號:2096-4706(2018)04-0021-03
Abstract:In this paper,for the current situation of electronic commerce in Dongguan,the Web data mining technology was employed to deeply analysis the large number of complex information in real time which produced by Dongguan electronic commerce enterprise. With the growing popularity of data warehouses and new data sources such as Web,it is becoming more and more important to find useful data in a huge ocean of information,and to analyze and process these data. In the process of inference to the data,find the useful information to the enterprise,so as to improve the competitiveness of the enterprise in the e-commerce and make more profit for the enterprise.
Keywords:Dongguan e-commerce;data mining technology
0 引 言
東莞是一座工業大都市,地處廣州與深圳之間。據不完全統計,東莞本地網民的數量已超過350萬,且從事互聯網相關的企業,包括網站營銷、網站搭建和網絡推廣等業務的電子商務企業有近2000家。此外,在全市范圍內,具備上網條件的企業達到95%,企業擁有自己網站的數目為32萬家,其中具有電子商務功能的網站,比如能夠進行商品訂購或商品物流信息查詢的網站約有1500家。據2016年統計,全市的企業借助自有的B2B網站開展網上貿易且完成的訂單額達到300億,故東莞擁有發展電子商務的天然優勢,而且發展電子商務有利于促進企業信息與東莞工業智造相互融合,進而推動企業結構調整和轉型升級。東莞目前正全力進行產業結構升級,傳統的制造業經過幾十年的高速發展,正面臨轉型升級的問題,這也讓電子商務在東莞擁有更大的發展空間。2014年東莞獲批創建國家電子商務示范城市,計劃用3~5年的時間建設成為一個以“東莞制造”網絡品牌和跨境貿易電子商務為核心的、具有國際影響力的電子商務名城,這是促進實體經濟外貿轉型的戰略性決策。市政府出臺了每年1.5億的《東莞市電子商務專項資金管理暫行辦法》和《東莞市進一步加快電子商務發展實施意見》,為電商發展保駕護航。可以說,東莞電子商務已經由表及里、從虛到實,從宣傳、啟蒙和推廣階段進入了務實發展的實施階段。
電子商務的發展使企業積累了大量的數據,那么多的商業數據正迅速充實著數據庫空間,特別是數據倉庫及Web等新型數據源的日益普及。因此,在龐大的信息海洋中找到需要的或有用的數據,并將這些數據轉化為綜合性的信息成為需要解決的問題。通過對這些數據進行分析處理,找到數據間的關聯性,轉換成“數據資產”為企業服務,提高企業的競爭力,從而為企業謀求更多潛在的利潤。Web數據挖掘技術為這一需求提供了強有力的技術支持,Web數據挖掘對Web頁面內容及后臺交易的數據庫進行深度挖掘,在大量的數據海洋中提取對企業有用的信息和隱含的信息,有效地幫助企業進行分析統計和預測,使企業信息資源的價值得到充分地體現。本文從東莞電子商務的現狀出發,對在Web數據挖掘技術影響下,東莞電子商務企業產生的大量信息進行了實時和深層次地分析,通過分析和探究Web日志記錄的規律,從中找出真正有用的信息,識別電子商務潛在的客戶,提高對最終用戶的服務質量。這對企業的決策支持有很大的幫助,可以促進企業優化資源,開拓市場,通過電子商務使企業更加智能化,使客戶服務更加個性化,在網絡時代為東莞的電子商務企業贏得競爭優勢。
1 數據挖掘主要方法
數據挖掘的技術是從數據庫的大量數據中揭示出隱含的、先前未知的、并有潛在價值的信息的非平凡過程,主要的方法有神經網絡方法、統計方法、數據庫方法和機器學習方法。統計方法又可細分為回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、CBR、貝葉斯信念網絡、遺傳算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。就電子商務行業來說,數據挖掘職位在企業內部非常重要,營銷管理、客戶管理等環節都需要應用數據挖掘的結果,利用數據分析來發現企業內部的不足、營銷手段的不足和客戶體驗的不足等,同時還可以利用數據挖掘來了解客戶的內在需求。為了達到這些效果,在電子商務行業,大數據挖掘主要采用以下算法以及模型。
1.1 RFM模型
RFM模型是衡量客戶價值和客戶創造利潤能力的重要手段,對于有過購買行為的客戶,模型會通過對客戶購買的時間、頻率、金額等幾個方面進行客戶分析,并通過這個模型進行數據挖掘,確定該客戶的價值,與客戶建立長期的關系。對于一些長時間都沒有購買行為的客戶,會對他們做出一些有針對性的營銷活動來刺激消費。使用RFM模型只要根據三個不同的變量進行分組就可以實現會員區分。
1.2 Apriori算法
Apriori算法是一種數據挖掘工具,屬于關聯性分析的一種。可以看出哪兩種商品具有關聯性。例如衣服和褲子等的搭配穿法,通過Apriori算法,就可以得出兩個商品之間的關聯性,確定商品的陳列等因素,也可以對客戶的購買經歷進行組套銷售。
1.3 Spss分析
Spss分析主要是針對營銷活動的精細化分析,它使營銷活動對于客戶而言更加有針對性,也可以對數據庫中客戶購買過的商品進行分析,例如哪些客戶同時購買過這些商品。尤其現在針對電子商務的細分越來越精細,做好精細化營銷地分析,對于企業的營銷效果有很大的好處。
1.4 網站分析
訪問量、頁面停留等數據都是重要的流量指標。進行網站數據挖掘時,流量以及轉化率是衡量工作情況的方式之一,通過這個指標來了解其他數據的變化也至關重要。
2 數據挖掘在電子商務中的應用流程
數據挖掘在電子商務中的應用流程圖如圖1所示。
圖1 數據挖掘在電子商務中的應用
2.1 數據準備與數據預處理
(1)數據準備:根據數據挖掘任務的具體要求,在相關數據源中抽取與挖掘任務相關的數據集。
(2)數據清洗:清除錯誤異常樣本,處理缺失數據,清除重復樣本。
(3)數據審核:數據統計錯誤審核、數據源錯誤審核和數據統計口徑審核。
2.2 數據探索和準備
通知輸入的數據質量決定著模型輸出的結果,所以我們要先花時間對收集的數據進行分析和處理。一般來說,這個階段基本上占據了整個項目周期70%的時間,主要涉及兩項工作:第一,對數據進行單變量分析和雙變量分析,驗證數據是否符合相關的指標;第二,因為缺失的值會削弱模型的擬合能力或者得到的結果會變成有念頭的模型,故需要對數據中的缺失值和異常值進行處理,變量轉換后產生新的變量。
2.3 算法選擇
根據建模場景進行算法選擇。描述類有分類規則、聚類分析;預測類有神經網絡、決策樹、時間序列、回歸分析、關聯分析、貝葉斯網絡、偏差檢測;評估類有因子分析、主成分分析、數學公式。結合數據情況(如離散值、連續值、數據量大小)等選擇合適的算法。
2.4 模型及評估優化
(1)模型選擇:對于數據挖掘任務,可以先采用LR(分類)測試效果,數據挖掘3架馬車(分類/回歸),即RF、GBM和XGBOOST。
(2)Baseline設置:可利用一些簡單規則,比如global average預測和眾數預測等。
(3)評估方法:1)留出法(hold-out):直接將數據集分為互斥的兩個集合,一個拿來訓練,另一個拿來驗證訓練的模型,注意保持數據分布的一致性;2)交叉驗證(cross-validation):將數據集隨機分為N份,依次拿一個fold作為測試,剩下的N-1個fold作為訓練,共實驗N次。
(4)分類任務:錯誤率與精度;查全率、查準率與F1;ROC與AUC等。
(5)回歸任務:平均絕對值誤差;均方誤差;方差等。
另外,可根據實際的業務指標設定自己的度量標準。
3 創新點
利用數據挖掘技術可以節約企業的成本。節約成本是企業盈利的關鍵,將電子商務中產生的數據信息,比如交易數據、庫存數據和財務數據,采用數據挖掘技術,找到企業的投入產出比例,最大限度地利用已有的客戶資源,開發新的客戶,增加客戶的回頭率,在數據挖掘的過程中提取有價值的商業信息,為企業的資源優化配置提供依據,使企業最大限度地利用人力資源、物質資源和信息資源,合理協調企業內外部資源的關系,實現最佳的經濟效益。
4 結 論
數據挖掘作為一個新興的技術手段已經表現出巨大的應用潛力。目前,數據挖掘技術在電子商務方面的應用已經不僅僅是商家掘取和利用數據,電子商務行業競爭越來越大的今天也是一個花錢的時代,花出去的錢能否得到收益是企業最關注的,投資回報率是大家都要考慮的,利用數據挖掘技術來分析電子商務產生的大量數據,可以充分挖掘客戶的商品消費規律以及客戶的訪問模式,更有效地幫助企業制定有針對性的營銷策略,充分發揮企業自身的優勢,提高企業的競爭力。因此數據挖掘技術在電子商務行業的位置也越來越重要。
參考文獻:
[1] 姜寧,牛永潔.Web數據挖掘在電子商務中的應用——以淘寶網為例 [J].計算機時代,2016(7):49-52.
[2] 程宏水.網絡數據挖掘在電子商務網站設計的應用 [J].中山大學研究生學刊(社會科學版),2007(1):107-114.
[3] 孫銘蔚.面向電子商務的WEB數據挖掘技術的應用研究 [J].中國新通信,2016,18(19):101.
作者簡介:吉珊珊(1985-),女,廣東梅州人,講師,網絡工程師,研究生。研究方向:計算機教育。