錢丹丹 周金海
摘要:為了將大數據與傳統商業智能相結合,重新設計了商業智能的架構平臺,著重探討了數據獲取方式,以中藥飲片企業電商數據為例,用聚類分析中的K-Means算法對消費者進行分群,以此實現對不同消費者進行個性化營銷的目的。
關鍵詞:大數據;商業智能;數據挖掘;聚類分析
引言
商業智能(Bl)概念由Gartner Group提出,涉及信息搜索、管理和分析,目的是使企業決策者獲得知識,促使他們做出對企業更加有力的決策。商業智能不是一種獨立的技術,而是一套完整的解決方案。它將數據倉庫,聯機分析(OLAP),數據挖掘和可視化等技術結合應用于業務活動,使企業的復雜信息轉化為可供輔助的知識,最后將知識呈現給用戶,以支持企業決策[1]。
隨著Internet應用程序規模的不斷擴大,需要處理的數據量呈指數級增長,數據結構變得越來越復雜。業務運營壓力急劇增大,從而直接推動了大數據處理技術的發展[2]。隨著電子商務、云計算、移動社交媒體等新一代IT技術的快速發展,傳統的Bl系統逐漸不能滿足企業數據分析的需求。個性化、數據化、科學的數據分析技術逐漸使傳統的Bl系統需要與大數據技術相結合,實現一種滿足大數據分析的新平臺架構。
1、基于傳統BI體系的大數據應用設計
在大數據時代,傳統BI的數據存儲能力、數據分析能力、實時數據處理能力不能勝任非結構化的復雜數據源的應用分析。因此,如何綜合利用現有的BI和大數據技術是新平臺架構設計的關鍵。傳統的BI數據主要來自內部操作系統和管理系統;大數據的主要來源是互聯網,如微博,網頁和其他數據交換。在數據源、數據收集、數據處理、數據存儲和以后的數據應用程序方面,這兩者都有本質上的不同?;谝陨峡紤],設計了新的架構平臺如圖1所示。
數據源主要包括企業的內部數據和外部數據,內部數據由OA系統、ERP系統、財務報表系統等相關結構化數據組成;外部數據包括互聯網上的非結構化數據,如超文本,圖像和視頻。數據采集在原有采集方式中新增了互聯網網頁爬蟲的采集方式。針對結構化和非結構化的數據采用不同的處理方法。非結構化數據整理成結構化數據存儲在分布式結構化數據庫中;傳統數據仍存儲在關系型數據庫中。大數據主要以分布式文件系統(HDFS)和NoSQL數據庫的形式存儲。最終數據主要用于聯機分析處理,數據挖掘,數據可視化等方面。
2、數據采集方式
大數據背景下的數據收集方法主要包括三類:系統日志收集,網絡數據收集和數據接口收集。日志數據的采集是通過設備中的日志記錄子系統實現的,這個子系統能夠在必要的時候生成日志消息。常用的商用數據API都支持REST API的方式獲取數據信息。網絡數據采集主要采用網絡爬蟲技術,其核心原則是:使用超文本傳輸協議HTTP仿真瀏覽器通過統一資源定位器URL地址訪問Web服務器,獲取Web服務器的權限,返回到原始頁面并解析數據[3]。
傳統的網絡爬蟲技術可能存在問題,因此為爬取web資源而設計的聚焦爬蟲技術應運而生。聚焦爬蟲有選擇地訪問因特網上的與網頁相關的鏈接,以基于已建立的爬行目標(使用某電商銷售主題)獲得他們所需的信息。聚焦爬蟲并不追求網頁的全面覆蓋,相反,它針對與特定主題相關的網頁,并為面向主題的用戶查詢準備數據資源。
3、中藥飲片企業電商數據應用案例
3.1中藥飲片企業發展狀況
傳統中藥飲片在生產銷售過程中比較混亂,沒有統一的質量標準,因此,質量監督管理難度較大。由于中藥飲片生產企業已經逐漸全面實施藥品GMP認證,其生產已從純手工加工獨立出來成為中藥行業的一項產業。也因此中藥飲片、中藥材、中成藥并稱為中藥的三大組成部分。隨著GMP認證的實施,中藥飲片生產企業也發生了本質的變化,中藥飲片的質量得到了提高,同時取得了良好的社會效益。然而,中藥飲片的來源,加工方法和用途均有其傳統特征。這一目標特性與GMP要求之間存在很大差異。因此,在實施過程中存在很多問題,特別是2010版的GMP和附錄對中藥飲片生產的要求達到了前所未有的高度,中藥飲片企業的管理面臨嚴峻挑戰。
3.2 K-Means算法
K均值是一種廣泛使用的聚類方法,它將D個實體劃分為N個聚類。從而確保集群內的相似性盡可能高,集群之間的相似性盡可能低。K-means算法的過程如下:
(1)隨機選擇N個數據點作為質心;
(2)計算數據集中每個數據點到質心的距離,并將數據集中的所有數據點聚合為N個簇;
(3)根據第2步計算得到的N組數據點,迭代計算出新的質心:
(4)重復步驟2-3,直到最終質心與前一個質心之間的距離很小(滿足收斂);
(5)最后讀入所有的觀察值,將每個觀察值按照最接近質心的類別進行分類,分類結束。
質心和距離是K-MEANS算法的兩個基本概念。質心可以被看做是一個樣本,或者可以被認為是數據集中的某個數據點A,并規定它是具有相似性的一組數據的中心。質心的選擇對聚類結果有很大影響,因為該算法是隨機選擇任何一個對象作為初始聚類的質心,并且最初表示聚類結果。當然,這個結果通常是不合理的,只是隨機劃分的數據集。質心的具體校正還需要多輪迭代計算才能逐漸逼近所需的聚類結果:具有相似性的對象被分組為一組,所有這些對象都具有共同的質心。另外,由于初始質心選擇的隨機性,最終結果不一定是預期的,因此需要多次迭代,在每次迭代時重新隨機獲得初始質心,直到最終聚類結果滿足預期。
距離實際上是相似度的度量。常見的距離公式計算有:曼哈頓距離,歐幾里德距離,閔可夫斯基距離,切比雪夫距離等。聚類分析中最常用的距離公式是歐氏距離,因為歐氏距離直觀且容易計算,而且歐式距離對對象的點進行坐標偏移和變化旋轉,最后,距離的值保持不變,因此仍然可以通過對象的原始相似性來判斷對象相似性。設d(x,y)為對象a和b之間的距離,則d(x,y)應滿足以下三個屬性:
(1)非負性:即d(x,y)30恒成立;當且僅當x=y時,d(x,y)=O。
(2)對稱性:即d(x,y)=d(y,X)。
(3)三角不等式:任意對象a,b,c恒有d(x,y+d(y,z)3d(x,z)。
3.3中藥飲片企業電商數據應用分析
在大數據時代,獨立的數據本身價值不大,通過數據預測未來趨勢以及利用數據發現隱藏的知識才是關鍵。眾多中藥飲片企業緊跟時代發展,在電商網站都有相應的門店銷售中藥飲片,因此積累了大量顧客購買中藥飲片的消費記錄。對這些消費記錄的分析可以對消費者進行分組,不同群體的消費者可以根據消費行為對營銷進行個性化??蛻舴诸愑欣谥兴庯嬈髽I針對性的為不同群體客戶提供差別化服務,也能夠讓企業及時察覺市場和客戶的一些微小變化并針對其調整策略。
RFM模型是廣泛應用的多因素客戶分類方法,R(Recency)表示客戶最近交易到當前時間的時間段。F(Frequency)代表在指定時間段內客戶與企業合作的次數(即購買行為),M(Monetary)代表在指定時間段內客戶與企業交易所產生的金額[4],RFM是以客戶創造的絕對金額來衡量客戶價值的。
現從某中藥飲片電商網站爬取相關數據,依據一定的數據處理原則對原始數據進行清洗采集,經過處理后得到消費者數據(3000條),R在這里表示最近一次購買中藥飲片的時間間隔,F表示購買中藥飲片頻率,M表示在某平臺上消費的總金額,截取部分有效數據見表1:
不同數據項之間存在著數值大小和數值單位的差異,因此不能直接用來參與運算。比如,消費者購買的產品總金額M是一個很大的數值屬性,單位一般在百以上,而在一定時間內購買產品的頻率往往較小,且相對于消費金額來說沒什么作用。為了讓這些屬性都能發揮作用,需要將屬性與其自身對應的范圍進行比較,保證單位和數值不存在差值性,以便后期直接使用這些標準數據進行運算。本文采用歸一化處理方法對數據進行處理,以下表2是經過處理后的3000條數據中的部分數據。
使用K-Means算法設置簇的數量為3,最大迭代次數為3,距離函數使用歐幾里德距離。由于初始質心是隨機的,因此每個簇的結果可能不同。經過多次重復實驗后,檢測聚類結果基本相同,因此可以采用此聚類結果,對聚類用戶進行群體特征分析,并進行群體個性化營銷。以下是K-Means算法聚類生成的群體一、二、三的圖片,如圖3消費群體所示:
群體一:這些客戶最近一次在電商網站消費間隔天數(R)較短,消費總金額(M)較多。他們是企業最理想的客戶類型,同時也是潛在客戶,對公司貢獻大,但所占比例很小。企業應優先考慮將資源投放到他們身上,以此實現差異化管理和一對一營銷,從而提高此類客戶的忠誠度和滿意度,并最大限度地提高此類客戶的高消費水平。
群體二:這些客戶的購買頻率(F)一般,最后一次在電子商務網站上消費的時間間隔(R)較短,并且消費總量(M)是適中的。他們客戶價值變化的不確定性很高,消費下降的原因各不相同,因此及時了解客戶信息并與客戶保持互動尤為重要。企業可以根據近期消費間隔時間和消費頻次來推測顧客消費行為的變化,重點關注這些客戶并采用特定的營銷方案來延長這類客戶的生命周期。
群體三:這類客戶的購買頻率(F)一般,最近一次在電商網站消費間隔天數(R)適中,消費總金額(M)較少。他們是中藥飲片企業的一般用戶與低價值客戶,可能只有中藥飲片打折促銷時才會購買。
4、總結
在大數據的背景下,充分利用數據挖掘信息可以抓住市場機遇。眾多企業除了線下實體銷售外也開展了具有獨特優勢的線上交易,從電商大數據中挖掘隱藏的信息,根據這些信息,針對不同的客戶群體進行個性化營銷,從而提高企業的客戶滿意度和經濟效益。本文主要研究了大數據與傳統商業智能在電商企業(中藥飲片電商網站)數據分析中的應用,重點描述聚類分析的K—Means算法并應用于電子商務網站中客戶消費數據的挖掘。通過聚類分析將客戶分為3個群體,根據不同客戶群體的特征有助于企業識別客戶,從而實現差異化的營銷目標。
參考文獻:
[1]陳榮鑫,付永鋼,陳維斌.基于Pentaho的商業智能系統[J].計算機工程與設計,2008,09: 2407-2409.
[2]楊超.基于大數據技術的BI系統關鍵技術研究[D].華南理工大學,2016.
[3]卞偉瑋,王永超,崔立真,郭偉,李暉,周苗,薛付忠,劉靜.基于網絡爬蟲技術的健康醫療大數據采集整理系統[J].山東大學學報(醫學版),2017,55[06): 47-55.
[4]李品睿,許守任,許暉.基于RFM模型的核心客戶識別與關系管理研究——以保險業為例[J].現代管理科學,2015,(6):24-26.