彭文軍 尹倩




基金項(xiàng)目:安徽省高等學(xué)校自然科學(xué)重點(diǎn)課題“社交網(wǎng)絡(luò)視角下基于數(shù)據(jù)挖掘技術(shù)的體育消費(fèi)研究”(KJ2019A1079);安徽省高等學(xué)校省級(jí)教學(xué)示范課項(xiàng)目“體育市場(chǎng)營(yíng)銷”。
作者簡(jiǎn)介:彭文軍(1981-),男,安徽合肥人,碩士,講師,研究方向:體育市場(chǎng)營(yíng)銷;尹倩(1984-),女,安徽淮北人,碩士,副教授,研究方向:數(shù)據(jù)挖掘。
摘要:決策樹是使用最為廣泛的分類預(yù)測(cè)算法之一,它能探究并直觀展現(xiàn)多維數(shù)據(jù)的內(nèi)在規(guī)律。本文采用C5.0決策樹構(gòu)建健身課程重購(gòu)意愿影響因素模型,發(fā)現(xiàn)5個(gè)關(guān)鍵因素按重要性從高到低排序依次為“健身消費(fèi)意愿”“課程時(shí)間自主性”“課程預(yù)約便利性”“每周健身次數(shù)”和“每次健身時(shí)長(zhǎng)”,模型具有較好的準(zhǔn)確性(96%)和預(yù)測(cè)泛化能力(82%)。
關(guān)鍵詞:決策樹;健身課程;重購(gòu)意愿
中圖分類號(hào):F27文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2022.01.024
1算法簡(jiǎn)介
決策樹產(chǎn)生于統(tǒng)計(jì)信息理論,該理論認(rèn)為信息傳遞是通過信源、信道和信宿組成的系統(tǒng)來實(shí)現(xiàn)。在信息傳送過程中,信源是發(fā)送段,信宿是接收端。在通信前,信宿對(duì)信源狀態(tài)具有不確定性,實(shí)際通信過程中信息是用來消除不確定性的,信息量的大小由其消除的不確定性大小衡量。C5.0是決策樹模型中的經(jīng)典算法,是在ID3算法的基礎(chǔ)上發(fā)展起來的,它以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量及分割點(diǎn)。
信息增益可由公式(1)表示:
GainsU,V=EntU-EntU|V(1)
C5.0算法以信息增益率作為選擇標(biāo)準(zhǔn),同時(shí)兼顧了信息增益的程度和付出的代價(jià),可由公式(2)表示:
GainsRU,V=GainsU,V/Ent(V)(2)
在上述公式中,EntU為信源信息熵,Ent(V)為信宿信息熵,EntU|V反映了信宿接收到信息后的條件信息熵。
2研究設(shè)計(jì)
2.1樣本采集
本研究采用問卷調(diào)查的方式收集數(shù)據(jù),問卷共有20個(gè)調(diào)查題項(xiàng)。在課程內(nèi)容與服務(wù)體驗(yàn)層面,參考已有研究,分別設(shè)置課程內(nèi)容質(zhì)量、課程服務(wù)體驗(yàn)2個(gè)題項(xiàng)。在課程預(yù)約與付費(fèi)方式層面,參考已有研究,分別設(shè)置課程預(yù)約便利性、課程時(shí)間選擇自主性和課程付費(fèi)方式靈活性3個(gè)題項(xiàng)。在體育消費(fèi)經(jīng)歷層面,設(shè)置6個(gè)題項(xiàng)分別調(diào)查被訪個(gè)體是否在運(yùn)動(dòng)APP會(huì)員、線上健身課程、智能健身設(shè)備、可穿戴運(yùn)動(dòng)裝備、健身補(bǔ)劑和運(yùn)動(dòng)營(yíng)養(yǎng)套餐上是否有消費(fèi)經(jīng)歷。在個(gè)體運(yùn)動(dòng)行為層面,設(shè)置每周健身課程次數(shù)、每次健身時(shí)長(zhǎng)和每周戶外運(yùn)動(dòng)頻率3個(gè)題項(xiàng)。在人口變量層面,設(shè)置性別、年齡、學(xué)歷和收入4個(gè)題項(xiàng)。此外,設(shè)置2個(gè)題項(xiàng)分別調(diào)查被訪個(gè)體的健身消費(fèi)意愿和課程重購(gòu)意愿。本研究采用線上電子問卷和線下實(shí)地發(fā)放問卷相結(jié)合的方式進(jìn)行數(shù)據(jù)采集,面向國(guó)內(nèi)健身消費(fèi)人群,剔除一部分購(gòu)買健身年卡的消費(fèi)人群后重點(diǎn)篩選出采取單次購(gòu)課消費(fèi)的健身人群,在進(jìn)一步剔除有缺省項(xiàng)和答案有矛盾的問卷后,線上線下共獲得1330份有效樣本。此外,將樣本數(shù)據(jù)集分為訓(xùn)練集(n=925,70%)和測(cè)試集(n=405,30%)兩個(gè)部分。
2.2模型變量設(shè)定
本研究將“課程重購(gòu)意愿”設(shè)定為模型輸出變量,其余變量設(shè)定為模型輸入變量。在構(gòu)建模型前,首先考察各輸入變量與“顧客重購(gòu)意愿”間是否存在相關(guān)性,方法是將各輸入變量分別與“顧客重購(gòu)意愿”進(jìn)行雙變量相關(guān)性檢驗(yàn)(Pearson相關(guān)系數(shù)),該步驟從19個(gè)輸入變量中選取15個(gè)作為模型預(yù)測(cè)因子,檢驗(yàn)結(jié)果可見表1。
在數(shù)據(jù)集中,輸出變量“課程重購(gòu)意愿”以及“預(yù)約課程便利性”等6個(gè)輸入變量均為李克特5級(jí)量表變量(見表1),若全部作為分類變量進(jìn)入模型將使得決策樹過于復(fù)雜。因此,首先,將輸出變量“課程重購(gòu)意愿”轉(zhuǎn)換為二分類變量(見表1),轉(zhuǎn)換完成后的輸出變量正負(fù)樣本比例為1∶1.27,平衡性較好。其次,將上述6個(gè)量表類輸入變量視作連續(xù)變量,采用MDLP熵分組法對(duì)它們的值進(jìn)行離散化處理,以進(jìn)一步降低該6個(gè)量表類輸入變量的類別數(shù)。MDLP熵分組法是一種有指導(dǎo)的數(shù)據(jù)分箱方法,基本思想是輸入變量應(yīng)在輸出變量的指導(dǎo)下進(jìn)行分組,準(zhǔn)則是尋找連續(xù)性輸入變量最佳分割點(diǎn)以獲取最大的輸入變量信息增益貢獻(xiàn),MDLP法下6個(gè)量表類輸入變量的最佳分割結(jié)果見表1。
3模型構(gòu)建
3.1決策樹構(gòu)建
本研究通過SPSS modeler構(gòu)建C5.0決策樹模型。在現(xiàn)有15個(gè)輸入變量中,模型首先發(fā)現(xiàn)“健身消費(fèi)意愿”帶給輸出變量的信息增益率最高,因此首先選擇“健身消費(fèi)意愿”作為根節(jié)點(diǎn)最佳分組變量,MDLP下的分箱(見表1)值作為最佳分割點(diǎn)。在決策樹生長(zhǎng)過程中,依次計(jì)算在每層節(jié)點(diǎn)時(shí)信息增益率最高的分組變量,在進(jìn)行適當(dāng)剪枝以削減冗余后,最終優(yōu)化后的決策樹如圖1所示。在圖1中,YES代表課程重購(gòu)意愿為高,NO代表課程重購(gòu)意愿為低。
3.2提取規(guī)則
模型通過PRISM算法,經(jīng)過規(guī)則約簡(jiǎn),生成如下規(guī)則集:
R1:IF健身消費(fèi)意愿=低 AND 自主選擇課程時(shí)間段=低、中 THEN 課程重購(gòu)意愿=低(置信度為100%);R2:IF 健身消費(fèi)意愿=低 AND 自主選擇課程時(shí)間段=高 THEN 課程重購(gòu)意愿=高(置信度為100%);R3:IF 健身消費(fèi)意愿=高 AND 自主選擇課程時(shí)間段=低 THEN 課程重購(gòu)意愿=低(置信度為100%);R4:IF 健身消費(fèi)意愿=高 AND 自主選擇課程時(shí)間段=中 AND 預(yù)約課程便利性=低THEN 課程重購(gòu)意愿=低(置信度為100%);R5:IF 健身消費(fèi)意愿=高 AND 自主選擇課程時(shí)間段=高 AND 每周健身次數(shù)=高THEN 課程重購(gòu)意愿=高(置信度為97%);R6:IF 健身消費(fèi)意愿=高 AND 自主選擇課程時(shí)間段=高 AND 每周健身次數(shù)=中AND 每次健身時(shí)長(zhǎng)=中、高 THEN 課程重購(gòu)意愿=高(置信度為87%)。
在決策樹模型中,根據(jù)變量所在節(jié)點(diǎn)位置進(jìn)行變量重要性排序,從高到低依次為“健身消費(fèi)意愿”“課程時(shí)間自主性”“課程預(yù)約便利性”“每周健身次數(shù)”和“每次健身時(shí)長(zhǎng)”。
4模型評(píng)估與測(cè)試
首先,使用10折交叉法發(fā)現(xiàn)模型的平均準(zhǔn)確率為80.8%,模型識(shí)別準(zhǔn)確率較好。其次,模型在訓(xùn)練樣本集和檢驗(yàn)樣本集的整體正確率、整體錯(cuò)誤率以及混淆矩陣見表2所示。根據(jù)表2,在訓(xùn)練樣本集925個(gè)樣本中,895個(gè)樣本的實(shí)際值與預(yù)測(cè)值吻合(正確率為96%),30個(gè)樣本實(shí)際值與預(yù)測(cè)值不符(錯(cuò)誤率為4%);在檢驗(yàn)樣本集405個(gè)樣本中,333個(gè)樣本的實(shí)際值與預(yù)測(cè)值吻合(正確率為82%),72個(gè)樣本實(shí)際值與預(yù)測(cè)值不符(錯(cuò)誤率為18%)。模型在檢驗(yàn)樣本集的準(zhǔn)確率較訓(xùn)練樣本集有所下降,但仍獲得了不小于80%的準(zhǔn)確率。最后,在模型置信度檢驗(yàn)中,訓(xùn)練集的平均置信度為0.852,檢驗(yàn)集的平均置信度為0.841,整體上較好。
5結(jié)論與討論
本文利用C5.0算法構(gòu)建了健身課程重購(gòu)意愿影響因素模型,模型在訓(xùn)練集和檢驗(yàn)集上的準(zhǔn)確率均超過80%,同時(shí)具有較好的準(zhǔn)確度和預(yù)測(cè)泛化能力,模型擬合較為均衡。此外,發(fā)現(xiàn)了影響課程重購(gòu)意愿的關(guān)鍵因素,并生成了規(guī)則集,可為后續(xù)進(jìn)一步研究提供參考。研究發(fā)現(xiàn),“課程內(nèi)容質(zhì)量”和“課程服務(wù)體驗(yàn)”兩個(gè)變量均與輸出變量具有相關(guān)性,但它們?cè)谀P皖A(yù)測(cè)能力上均低于“課程時(shí)間自主性”和“課程預(yù)約便利性”。與此同時(shí),在與輸出變量的相關(guān)性上以及模型的預(yù)測(cè)能力上,“健身消費(fèi)意愿”均高于“收入水平”,決策規(guī)則集也反映出“健身消費(fèi)意愿”“每周健身次數(shù)”“每次健身時(shí)長(zhǎng)”相組合能有效預(yù)測(cè)健身課程重購(gòu)意愿。
綜上所述,國(guó)內(nèi)健身行業(yè)商業(yè)模式上的變革帶來了健身人群消費(fèi)決策觀念上的變遷,時(shí)間自主性、預(yù)約便利性等課程預(yù)約層面因素在健身消費(fèi)重購(gòu)決策中的重要性正在提升,這說明健身課程在一定程度上被市場(chǎng)賦予了“快餐”屬性。技術(shù)進(jìn)步帶來的健身模式變革大幅降低了健身消費(fèi)的顧客成本,為避免走向與競(jìng)爭(zhēng)對(duì)手的同質(zhì)化競(jìng)爭(zhēng),未來課程內(nèi)容和服務(wù)體驗(yàn)仍是健身房服務(wù)質(zhì)量以及顧客滿意度的重要影響因素。在單次購(gòu)課健身消費(fèi)人群中,收入水平并不能有效驅(qū)動(dòng)個(gè)體產(chǎn)生課程重購(gòu)意愿,而健身消費(fèi)習(xí)慣以及時(shí)間精力上的投入意愿對(duì)于課程購(gòu)買意愿更具影響力,這進(jìn)一步說明了目前健身課程更接近于普通消費(fèi)品而不是以往年卡制消費(fèi)模式下的“奢侈品”。
雖然本文的研究有助于進(jìn)一步認(rèn)識(shí)健身消費(fèi)行為,但還存在一些不足。例如,可能存在遺漏潛在影響因素,服務(wù)過程中的設(shè)備設(shè)施、人際互動(dòng)、關(guān)鍵事件等未納入模型考慮,個(gè)體的自我效能以及周圍人意見等主觀規(guī)范因素也未進(jìn)行考慮,上述將在未來的研究中加以完善。此外,由于健身消費(fèi)決策變得更加頻繁,本研究采用橫截面數(shù)據(jù)難以展現(xiàn)被訪個(gè)體消費(fèi)行為意向的動(dòng)態(tài)變化,因此未來可考慮進(jìn)行長(zhǎng)時(shí)間的跟蹤調(diào)研。
參考文獻(xiàn)
[1]陳明亮.生命周期不同階段客戶重復(fù)購(gòu)買意向決定因素的實(shí)證研究[J].管理世界,2002,(11):93-100.
[2]陳明亮.客戶重復(fù)購(gòu)買意向決定因素的實(shí)證研究[J].科研管理,2003,24(1):110-115.
[3]黃海燕,朱啟瑩.中國(guó)體育消費(fèi)發(fā)展:現(xiàn)狀特征與未來展望[J].體育科學(xué),2019,39(10):11-20.
[4]劉東升.論體育消費(fèi)中的象征性行為[J].上海體育學(xué)院學(xué)報(bào),2014,38(6):37-42.
[5]焦素花,郭衛(wèi)玲,倪海寧,等.體育消費(fèi)行為變化與新余暇生活方式的生成[J].體育與科學(xué),2021,42(2):114-120.
[6]周強(qiáng).健身俱樂部利用者感知服務(wù)質(zhì)量對(duì)利用滿意和行為意向影響的實(shí)證研究[J].武漢體育學(xué)院學(xué)報(bào),2011,45(6):45-51.
[7]徐開娟,張林,朱洪軍,等.基于內(nèi)容分析的商業(yè)健身會(huì)所服務(wù)質(zhì)量評(píng)價(jià)指標(biāo)體系構(gòu)建研究[J].南京體育學(xué)院學(xué)報(bào),2015,29(5):18-25.