游 星
(成都理工大學(xué)管理科學(xué)學(xué)院 四川 成都 610059)
中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)報(bào)告,截至2020年3月,中國電子商務(wù)使用用戶人員已經(jīng)達(dá)到7.1億,較2018年底增長1億,占網(wǎng)民整體的78.6%;通過手機(jī)購物使用客戶達(dá)7.07億,比2018年底高出1.16億,占手機(jī)用戶的78.9%,如圖1所示。

圖1 2015.12—2020.3網(wǎng)絡(luò)購物用戶規(guī)模及使用率(數(shù)據(jù)來源:CNNIC中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)調(diào)查)
當(dāng)前,網(wǎng)絡(luò)商城已經(jīng)深度融入人們的日常生活中,電子商務(wù)使用用戶規(guī)模已經(jīng)得到不斷發(fā)展。網(wǎng)絡(luò)商鋪采取了多種多樣的銷售手段來提高銷量,但在這一過程中,也出現(xiàn)了違規(guī)造假該領(lǐng)域業(yè)內(nèi)數(shù)據(jù)來蒙騙廣大客戶等情況,擾亂市場次序。因此,如何杜絕這種現(xiàn)象的出現(xiàn),使廣大客戶和消費(fèi)者接受更好的服務(wù),進(jìn)而逐步增強(qiáng)消費(fèi)者的購買欲望及不斷拉高商鋪的銷售額度成為電子商鋪需要解決的一個(gè)關(guān)鍵問題(力蕓,2013)。借助數(shù)據(jù)挖掘、人工智能等技術(shù)可以在大數(shù)據(jù)背景下分析網(wǎng)絡(luò)商鋪運(yùn)行的決策數(shù)據(jù)(李行龍,2013),通過提取網(wǎng)絡(luò)商鋪的相關(guān)關(guān)鍵指標(biāo),結(jié)合相關(guān)定量化方法,為最終商品銷量策略制定提供依據(jù)。
基于指標(biāo)評價(jià)體系的構(gòu)建,使電子商鋪用戶數(shù)量保持穩(wěn)定性。依據(jù)合法性、客觀性、科學(xué)性與量化性相結(jié)合、公平性、準(zhǔn)確性、公正性等原則(樊正洪等,2011),本文從某電子商務(wù)平臺(tái)中抽取了100家知名品牌運(yùn)動(dòng)鞋商鋪,利用數(shù)據(jù)挖掘技術(shù)及分類方法對這些商鋪的各項(xiàng)指標(biāo)進(jìn)行研究分析,并建立指標(biāo)評價(jià)體系結(jié)構(gòu),如圖2所示。

圖2 商鋪評價(jià)指標(biāo)體系
ID3算法原理及步驟
決策樹是一種數(shù)據(jù)挖掘分類算法,具有高效的數(shù)據(jù)挖掘分類的能力,因而受到學(xué)術(shù)各領(lǐng)域的廣泛應(yīng)用。本文基于ID3算法對電子商務(wù)網(wǎng)絡(luò)商鋪的客戶穩(wěn)定性進(jìn)行分類研究。其具體步驟如下:
訓(xùn)練集為X={(xi,yi)|i=1,2,…,total},其中樣本xi(i=1,2,…,total)用維特征向量xi=(xi1,xi2,…,xid)來表示,xi1,xi2,…,xid分別對應(yīng)個(gè)描述屬性A1,A2,…,Ad的具體取值;yi(i=1,2,…,total)表示樣本的類標(biāo)號(hào),假設(shè)訓(xùn)練集中包含個(gè)類別,則yi∈{c1,c2,…cm}。
(1)
設(shè)描述屬性Af(f=1,2,…,d)中包含個(gè)不同的取值{a1f,a2f,…,aqf},那么可以將研究屬性的訓(xùn)練集劃分為多個(gè)不同子集{X1,X2,…,Xq}。其中Xs(s=1,2,…,q)中的樣本具有相同的取值。則對應(yīng)的熵:
(2)
其中:
(3)
式(2)中所計(jì)算的熵值越小,意味著該屬性劃分訓(xùn)練集具有更高的純度。
根據(jù)上述三個(gè)公式,可以得到描述屬性Af(f=1,2,…,d)的信息增益,如下式所示:
Gain(Af)=I(n1,n2,…,nm)-E(Af)
(4)
該決策樹將以“最大”信息增益值的描述屬性作為根節(jié)點(diǎn),自上而下進(jìn)行計(jì)算,直到某個(gè)分枝上的所有數(shù)據(jù)不再具有多個(gè)不同類別時(shí)停止劃分,在每個(gè)停止點(diǎn)上的葉節(jié)點(diǎn)定義為一個(gè)分類。
本文選取的電子商務(wù)商鋪樣本百家(即:total=100),表現(xiàn)為“穩(wěn)定性”的類別屬性(m=3)的值域?yàn)閧高;中;低}。設(shè)c1為“高”,包含的樣本量n1=37,c2為“中”,包含的樣本量n2=30,c3為“低”,包含的樣本量n3=33。本文使用SQL Server 2008進(jìn)行決策樹分類驗(yàn)證,采用Analysis Services以導(dǎo)入的網(wǎng)絡(luò)商城商鋪數(shù)據(jù)進(jìn)行決策樹分類挖掘。將客戶穩(wěn)定性作為基礎(chǔ)及其他屬性進(jìn)行導(dǎo)入,進(jìn)而創(chuàng)建決策樹用于“商鋪數(shù)據(jù)挖掘”,結(jié)果如下圖3、圖4所示。

圖3 客戶穩(wěn)定性決策樹結(jié)果圖

圖4 屬性依賴關(guān)系圖
基于數(shù)據(jù)挖掘的思想,本文利用決策樹ID3算法研究并分析了在電子商務(wù)平臺(tái)上的百家商鋪客戶數(shù)量的穩(wěn)定性。本文所提取的商鋪屬性劃分為高、中和低三類,該算法有效地避免了對商鋪屬性數(shù)量值的依賴。通過ID3算法所確定的屬性指標(biāo)能夠客觀真實(shí)地反映了網(wǎng)絡(luò)商鋪客戶數(shù)量的穩(wěn)定性。結(jié)果表明:通過本文建立的模型可以有效、定量地對網(wǎng)絡(luò)商店進(jìn)行較為全面的綜合評價(jià),同時(shí)也為網(wǎng)店的管理、為網(wǎng)絡(luò)商鋪發(fā)展等提供了重要的數(shù)據(jù)參考依據(jù)。