顏琪 電子科技大學成都學院
“互聯網+”概念提出后,以互聯網平臺為基礎的電子商務企業蒸蒸日上,而實體商務卻處于低迷狀態。通過大數據交易平臺可解決這類問題,它將生成客戶要求的邏輯策略并執行采集、存儲、清洗、挖掘、可視化的數據處理。主要應用于實體商業的量化信息服務,針對用戶的屬性,加以合理的處理分析,促使更多的潛在用戶消費,實現精準營銷,提高實體商業對于電子商業的競爭力。平臺框架由硬件層、架構層、存儲層、處理層及應用層組成。實體商業大數據交易平臺架構如圖1所示。

圖1 實體商業大數據交易平臺架構
數據采集模塊將采集商品的位置信息與用戶坐標信息。商品的位置信息通過預處理商家的歷史交易數據獲得,為后續數據挖掘提供基礎。用戶坐標信息采用群智感知的方式進行采集。通過采集商店中攜帶智能設備用戶的信息,得到客流量情況。
實體商店處于數據量日益增加的大數據環境中。由于關系型數據庫橫向擴展、海量數據的并發讀寫能力差等缺陷,對實體商店的商業環境特征的分析,選取NoSQL 數據庫中的——HBase 作為數據存儲載體。
建立三個模塊表,即商店信息表,商品表及用戶表。平臺在實際運行中,直接查詢所存儲的表信息的所有信息會增加時間成本,所以通過構造合理的二級索引表來提升查詢效率。
實體商店的HBase 數據庫存儲結構通過滿足運營商、商店及用戶的需求實現高性能的存儲。增加二級索引表提高響應速度,優化用戶體驗。
通過定期對數據進行清洗解決數據采集產生的數據缺失、數據冗余及數據異常等問題,實現數據質量的提升。
前期需對商店信息表、商品表及用戶表中的數據進行簡單的分析,結合清洗設備,確立清洗的目標與所需具體方法,并檢測數據中是否存在冗余數據、設備故障、中斷或人為損壞所致的異常數據、設備采集值超過正常設定參數值等不一致數據。評估定位檢測的輸出結果并評估,從業務影響與問題本質兩方面進行分析,優化原方案。最后修正檢測輸出的數據,刪除空數據、結合排序消除不一致數據、結合優先權隊算法合并冗余數據、結合K 最近鄰法減少缺失屬性值對分析的影響,估測缺失數據并進行填充。
通過集成多組件與YARN 框架,獲得合理的歸納,獲得數據中潛在的規律。
離線數據處理主要完成歷史交易數據的挖掘。將采集的用戶購物信息作為離線數據進行分析,不指定分類標準,根據數據全面客觀地劃分用戶群體,結合邏輯回歸算法預測不同用戶群體的發展趨勢,以此招納符合發展趨勢的商家入駐。
實時數據主要完成用戶實時數據的挖掘。采用模糊Apriori 算法挖掘用戶與商品間的聯系,推測用戶還可能購買的商品信息。之后挖掘頻繁項集,即多次購買的商品信息,若得到的頻繁性數據與預定的最小支持度一致,產生強關聯規則。
數據可視化模塊通過使用百度開源項目Echart 對輸出數據進行圖形化繪制,呈現出數據間的關聯。平臺提供商家離線、實時數據的可視化圖像、決策支持與趨勢預測,提高決策人員對營銷運行體征的研判速度,最大化地避免感性思維帶來的風險。
面向商家,提供商店基礎銷售情況,輔助商家調整商品庫存、逆向營銷。實時反饋人群遷移信息判斷客流量情況,擬合下一時段的客流量,以此提醒商家應對短時間的客流量急增現象。實時客流量及趨勢預測如圖2 所示。

圖2 實時客流量及趨勢預測圖
面向運營商,可視化重復率高的購物路徑,糾正用戶的購物直觀印象,或在這條購物路徑上重新規劃設立廣告推送,促進消費;反饋時間序列的全景地形人流量堆積圖,觀察人群的聚集位置及遷移方向,用于大型廣告推送及活動設立。
基于Hadoop 分布式集群并行實現自適應式移動軌跡算法與模糊Apriori 算法。以百貨商店為例,針對10 萬條用戶和商家數據進行分析。
其中Apriori 算法匹配程度在70%~75% 的數據有9585條,'75%~80%的數據有82533條,80%~85的數據有6742 條,85%~90%的數據有135 條,90%以上的數據有5 條,相比于傳統銷售系統,推薦精度平均提高25.6%。
該平臺提供了模塊的優化設計,如在存儲方面,設計了相應的查詢優化,設計了清洗框架以保證整個生命周期的數據質量。通過實體商業大數據平臺,能夠實現精準營銷,并為決策者們提供決策支持與個性化營銷方案的目標。但該交易平臺還需要集成更多的功能模塊,不斷改善以達到實體行業的創新。