涂順林,趙義霞,劉利
(惠州學院計算機科學系,惠州 516007)
分類算法在服裝行業的挖掘應用
涂順林,趙義霞,劉利
(惠州學院計算機科學系,惠州 516007)
數據挖掘從理論研究到產品的開發只用了短短數年,目前在國內外都已經進入應用階段。數據挖掘技術的應用十分廣泛,從政府企業的管理、商業經營、科學研究到工業決策等各個領域都可以找到其用武之地。數據挖掘的定義幾經變動,有多種不同的定義方式。其中為大家廣泛采用的是:數據挖掘是從大量數據中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則。這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,可以為經營決策、市場策劃和金融預測等方面提供依據。數據挖掘的模式主要有分類、聚類、關聯規則和時序模式等[1]。
服裝行業與國民經濟及人民的生活消費密切相關,發展迅速。隨著企業信息化的逐步應用和完善,企業已經逐漸累積了大量的數據。接下來企業信息化應用成熟的企業會逐步考慮如何利用這些海量數據為企業做決策支持,由此數據挖掘便成了企業挖掘數據中有價值信息的最好選擇。本文詳細分析了如何將決策樹和貝葉斯分類算法應用到服裝行業,并為決策者提供決策輔助,以此為服裝企業進一步智能化提供參考。
無論是線上還是線下的銷售,客戶的信息都是可以獲取的。根據客戶的屬性、行為、需求、偏好以及價值等因素對客戶進行分類。屬于同一客戶群的消費者具備一定程度的相似性,反之則存在明顯的差異性。正確的客戶細分能夠有效地降低成本,有針對性地改善客戶關系,方便制定有針對性的營銷策略,避免客戶流失,提高市場占有率[2-3]。
1.1客戶類別的自動劃分
把客戶的年齡、學歷、職業、收入等可能影響到其對于服裝消費的數據收集起來作為條件屬性,把年消費總額大小作為決策屬性,構建客戶分類的決策樹。
部分數據如表1所示,針對表1構造決策樹如圖1所示。根據需要,本文將年消費2000元以上的定為高價值客戶,1000-2000為中等客戶,500-1000為低價值客戶,500以下為流失客戶。并將月收入小于1000定為A,1001-2000定為B,2001-3000定為C,3001-4000定為D,4001-5000定位E,以此類推。
通過分類發現類似 “若客戶年齡為18-30歲,月收入在5000-10000元,學歷為高中,職業為工人,性別為女,則為高價值客戶”這樣的結論。這樣一來,就可以將所有的客戶都分類,并有針對性地制定營銷策略。

表1 客戶分類訓練集部分數據示例

圖1 客戶分類決策樹
由此構建的決策樹模型便可以為企業制定相關策略提供支持。例如,對于高價值客戶要加強售后服務與感情聯系,對于流失客戶要制定優惠促銷措施。對于那些由分類模型預測為高價值客戶但實際并不是的客戶,這意味著他或許已經轉向于購買其他品牌的服裝了。那樣的話要加強對這些客戶的服裝推薦與優惠措施,爭取將其轉化為高價值客戶。
1.2客戶服裝的偏好模型與服裝推薦系統
通過數據采集系統可以容易的得到 “顧客年齡”“職業”“教育背景”“收入”“購買款式”等信息的交易記錄。因為顧客的年齡、職業、教育背景等信息都可能影響到對衣服款式的選擇,所以本文通過構建決策樹來找到不同類型的顧客對衣服款式的選擇[4]。
本文將決策樹應用于具體的數據表,得到這樣的結論,年齡小于30的年輕部門經理喜歡窄領、開叉的西服;13-18歲的男生喜歡籃球服等。這樣一來,如果有年齡小于30的部門經理在選購服裝時,服裝推薦系統就可以為其推薦窄領、開叉的西服。分類如果再繼續做下去,或許還可以找到年齡小于30的部門經理還喜歡淺色的圓領T恤。那么服裝推薦系統就可以根據該經理最近的瀏覽記錄來推薦到底是買T恤還是買西裝。
1.3賬號的真實性判斷
對于電商來說,不真實帳號是普遍存在的。如果能檢測出其中的不真實帳號,便可以有效地對真實用戶進行管理,包括商品推送等。這樣可以提高服裝的推薦成功幾率,更節約了成本。
本文用貝葉斯分類可以預測賬號的真實性。通過數據采集系統可以得到每個用戶這樣的信息:登錄天數/注冊天數;交易數量/注冊天數;是否使用真實頭像等可能與賬戶真實性有關的數據。
再利用已經被檢測出真實與否的賬戶構建貝葉斯判斷模型。通過模型,我們可以知道每個類別(真實/虛假)下各屬性(登錄天數/注冊天數;交易數量/注冊天數;是否用真實頭像等)的頻率。得到例如“登錄天數/注冊天數<0.05且賬號為真的概率是0.32。”這樣的結論。
最后就可以利用判斷模型來判斷每一個用戶的真實性。例如當得到賬戶2014001有90%是虛假賬戶時,就可以考慮取消該賬戶的服裝推薦功能以節約資源。
1.4構建線下快速銷售模型
目前,線下營銷基本上都是靠銷售人員的經驗來實現服裝的推薦,同樣的也可以用決策樹構造推薦模型。從而更加合理、科學地進行服裝營銷。例如,通過數據采集系統可以收集服裝城中顧客的性別、年齡、身高、體重、服裝、服飾、發型、言談、眼神等信息與購買服裝款式的信息。利用這些信息來構建線下服裝的推薦模型[5]。
2.1按季度預測每一款衣服的銷售情況
收集以往每一季度各款服裝的顏色、布料、袖型、領型、樣式、價格等所有可能影響到該款服裝的銷量的屬性作為條件屬性,以該款服裝的銷售量為決策變量,構建服裝銷售量預測的決策樹。部分數據如表2所示,針對表2構造決策樹如圖2所示。

表2 銷量預測訓練集部分數據示例

圖2 銷量預測決策樹
最終得到例如“淡黃色、絲光棉、翻領、短袖、條紋T恤是熱銷款式”這樣的結論。當然,怎么樣才叫“熱銷”,月銷量在什么范圍內是“一般”,怎么樣叫“滯銷”,這些都是要反復討論的。一旦模型建立好,就可以通過服裝銷量決策樹去預測每一款衣服的銷量,當然也包括新款未上市的服裝,也一樣能夠預測出該款服裝的銷量。
2.2判斷某款衣服是否適合減價促銷
根據以往的減價銷售的記錄來判斷某款服裝是否適合減價銷售。具體是收集以往每款服裝的屬性,包括顏色、布料、袖型、領型、樣式、價格、上市時間、上市天氣情況等所有可能影響到該款服裝的銷量情況的屬性作為條件屬性,以是否做過減價促銷,做什么級別的促銷作為決策屬性來構造判斷服裝是否適合促銷的決策樹。
3.1實體店的選址
目前實體店的選擇基本都是靠決策者按照多年的經驗進行選址。同樣可以利用決策樹找出店鋪的級別,營業面積,店鋪性質,店鋪地址,人流,員工數量等與營業額的關系。以營業額大小作為決策屬性,幫助決策者判斷某地是否適合經營某種級別的店鋪。
3.2線上交易成敗預測
收集過往每筆交易的交易的記錄 (包括退貨等交易失敗的記錄),服裝信息(包括顏色、布料、袖型、領型、樣式、價格等信息),發貨店鋪(或者是倉庫),物流公司等所有可能引發交易失敗的信息,作為條件屬性,把交易狀態(成功/失敗)作為決策屬性構造判斷交易是否成功的決策樹。這樣可以預測是否交易成功。同時也可發現具體是什么環節容易造成交易失敗,方便內部管理。
在信息爆炸的時代,數據量的飛速增長已經成為一個不容忽視的問題。利用數據挖掘幫助服裝企業在大量的數據中找到有用的數據更是大勢所趨。因為客戶的購買行為還要從多方面進行考慮,所以本文僅從這幾個方面利用分類算法挖掘出外部環境與客戶的購買行為之間的關系。由于具體缺乏確切數據可供挖掘,所以很多想法的可行性還有待討論。而且由于很多客戶不填完整信息、不填真實信息等原因也會導致挖掘結果不盡如人意,但隨著多方面大量數據的獲得,數據挖掘工具可以挖掘出更多有參考價值、易于理解、并具有很高的分類準確度的規則為生產實踐服務。因此,分類算法數據挖掘技術在實際服裝行業應用中有著很廣泛的應用前景,值得進一步研究。
[1]陳安,陳寧.周龍驤.數據挖掘技術及應用[M].北京:科學出版社,2006.111-120
[2]吳建源.決策樹ID3算法在客戶信息分類中的應用[J].廣東培正學院學報.2014,14(1):34-36.
[3]胡蘭蘭.決策樹在淘寶店鋪中的應用研究[J].貴州師范學院學報.2010,26(6):40-43
[4]齊揚,朱欣娟.基于數據挖掘的服裝推薦系統研究[J].西安工程大學學報,2010,24(04):438-443.
[5]張革伕,歐陽浩男,徐琪.決策樹在基于消費者外表的服裝營銷中的應用[J].計算機應用.2010,30(07):1999-1921,1929.
Classification Algorithm;Garment;Data Mining
Application of Classification Algorithms in Clothing Industry
TU Shun-lin,ZHAO Yi-xia,LIU Li
(Department of Computer Science,Huizhou University,Huizhou 516007)
1007-1423(2015)20-0052-04
10.3969/j.issn.1007-1423.2015.20.012
涂順林(1994-),男,廣東惠州人,在校本科生,研究方向為數據挖掘、算法設計與分析
趙義霞(1962-),女,山東濟寧人,本科,研究方向為數據挖掘、算法設計與分析
劉利(1979-),女,四川宜賓人,碩士研究生,研究方向為模式識別、機器學習、數據挖掘、圖像檢索
2015-05-07
2015-07-01
隨著信息化進程的推進,服裝企業同樣也在大力發展。如何利用好這些數據資產,如何使其更合理,更科學地為企業輔助決策成為一個熱點議題。詳細地分析分類算法在客戶、服裝、區域等信息方面的應用,可為服裝企業建立數據挖掘系統做參考。
分類算法;服裝;數據挖掘
廣東省大學生創新創業訓練計劃項目(No.201410577030)
With the advancement of information technology,garment enterprises also develop vigorously.How to make good use of these data assets,how to make it more reasonable,more scientific has become a hot topic for the enterprise decision-making.Analyzes the classification algorithm applied in the customer,clothing,region and etcetera in details which can provide a reference to set up a mathematics mining system for garment enterprises.