999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)字貿(mào)易對消費者行為的影響研究

2024-05-04 03:35:35徐晨旸
中國商論 2024年7期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘 要:本文選取2022年抽樣的淘寶數(shù)據(jù)進行分析與挖掘,并基于K-means算法對買家進行聚類分析,初步篩選出疑似刷單行為的買家和賣家。在剔除這些用戶后,又利用回歸分析法分析賣家獲得評價、信用評價體系、賣家店鋪等級對銷量的影響;采用LSTM算法對銷量數(shù)據(jù)的時間序列進行預(yù)測;通過Apriori關(guān)聯(lián)規(guī)則算法找到買家與賣家和商品之間的關(guān)聯(lián)。其中,在賣家獲得評價對銷量的影響中,建立獎勵函數(shù)來描述好評和差評的影響,結(jié)果顯示獎勵函數(shù)與銷量呈正相關(guān)關(guān)系。在信用評價體系對銷量的影響中,服務(wù)和發(fā)貨對銷量的影響較大。賣家店鋪等級,則無明顯關(guān)系。預(yù)測的銷量數(shù)據(jù)雖沒有較好的結(jié)果,但給出了合理的解釋。關(guān)聯(lián)結(jié)果顯示,買家與賣家和商品之間有一定的聯(lián)系,本研究僅供參考。

關(guān)鍵詞:數(shù)字貿(mào)易;數(shù)據(jù)挖掘;聚類分析;回歸分析;時間序列;關(guān)聯(lián)規(guī)則

本文索引:徐晨旸.<變量 2>[J].中國商論,2024(07):-085.

中圖分類號:F063.2;F742 文獻標識碼:A 文章編號:2096-0298(2024)04(a)--04

隨著科技的發(fā)展、移動互聯(lián)網(wǎng)的普及和數(shù)據(jù)傳輸速率的提高,網(wǎng)絡(luò)對人們生活的影響日益顯著。越來越多的人習(xí)慣于網(wǎng)絡(luò)購物,作為電商平臺的佼佼者——淘寶,發(fā)展規(guī)模和電商數(shù)據(jù)可謂是驚人。過去十年,淘寶注冊用戶從2010的3.7億上升至2022年的8億。在此背景下,海量數(shù)據(jù)的背后有著不可估量的價值。如何挖掘、利用數(shù)據(jù)已成為各個行業(yè)、企業(yè)競爭的焦點。本文從數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、總結(jié)與展望,這三步來對2022年抽樣的淘寶數(shù)據(jù)進行分析與挖掘。

1 數(shù)據(jù)預(yù)處理

1999年,Pyle首次提出并強調(diào)了數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘過程中的重要性,并闡述了數(shù)據(jù)預(yù)處理過程在數(shù)據(jù)挖掘中占據(jù)了60%的時間[1]。

本文的參考數(shù)據(jù)來自四個文件,dsr.csv(以下簡稱四項評分表)、user.xls(以下簡稱賣家信息表)、trans.csv(以下簡稱詳細交易表)、rate.txt(以下簡稱賣家評價表)。其中,參考數(shù)據(jù)是從2022年4月10日到2022年10月10日的抽樣數(shù)據(jù)。

本文先進行了數(shù)據(jù)假設(shè),再對上述四個文件進行了消除噪聲、缺值數(shù)據(jù)處理、數(shù)據(jù)類型轉(zhuǎn)換等四個操作[2]。數(shù)據(jù)預(yù)處理并不代表之后的數(shù)據(jù)不再處理,只是進行了初步的處理,而后對得到的疑似刷單行為的買家和賣家也進行了處理。

1.1 數(shù)據(jù)假設(shè)

本文做如下假設(shè):

(1)詳細交易表中買家購買的數(shù)量是一個整體,不考慮具體時間前后的影響,即先有了評價、四項評分,才有了賣家的銷量。

(2)賣家評價表中的0代表賣家獲得了中評,對其他買家的影響微乎其微,在考慮評價對銷量的影響時,這部分數(shù)據(jù)予以剔除。

(3)由于抽樣數(shù)據(jù)的不完整性,關(guān)聯(lián)數(shù)據(jù)表之后,對有評價無銷量或者空缺數(shù)據(jù)的數(shù)據(jù),本文認為是系統(tǒng)原因造成的無效數(shù)據(jù)予以剔除。

(4)產(chǎn)品類型是影響消費者購買決策的一個不可忽視的因素[3]。在考慮評價對銷量的影響時,忽略產(chǎn)品類型的影響,也不考慮搜索引擎以及廣告等對銷量的影響,只考慮評價這個單因素。

(5)買家只購買一位賣家或幾位賣家的商品且購買的數(shù)量超過100將視為惡意刷單用戶。

1.2 消除噪聲

買家的四項評價指標為0到5的整數(shù)[4],本文將四項評分表中商品得分進行了四舍五入處理以消除數(shù)據(jù)收集過程中的系統(tǒng)誤差。自此本文得到處理后的詳細交易表。

1.3 缺值數(shù)據(jù)處理

由于四項評分表的四項評價指標(服務(wù)、發(fā)貨、物流、商品得分)存在缺值,需要對其進行數(shù)據(jù)處理。常見的方法有:插值法、回歸法、統(tǒng)計估計法等。該表中除物流得分缺值約占24.2%外,其他三項占比不高,服務(wù)得分缺值約占2.2%、發(fā)貨得分缺值約占2.3%、商品得分缺值約占0.9%。對于缺少兩項及以上的數(shù)據(jù)因為只占1.09%左右,本文予以剔除。本文將物流得分作為自變量y,其他三項作為因變量x1、x2、x3進行多元線性回歸[6]。由實驗結(jié)果可得,y=0.2479x1+ 0.5919x2+0.145x3,然后用此回歸方程來填補只缺物流得分的記錄條。F值為529030,P值近乎為0,說明回歸的模型較好。自此本文得到處理后的四項評分表。

1.4 數(shù)據(jù)類型轉(zhuǎn)換

根據(jù)淘寶賣家店鋪20個等級,本文將賣家信息表中的等級替換成相應(yīng)數(shù)字,如:1星級為1,1鉆為6,1皇冠為11,2紅冠為17。而本身信用得分為0的商家,售出的商品為0,予以剔除。信用得分小于等于3的商家替換成0[5]。自此本文得到處理后的賣家信息表。

2 數(shù)據(jù)挖掘

2.1 聚類分析

模式識別也叫模式分類,可以分為監(jiān)督模式識別與非監(jiān)督模式識別。本文根據(jù)樣本特征將樣本聚成幾個類,使屬于同一類的樣本在一定意義上是相似的,而不同類之間的樣本則有較大差異[7]。這種非監(jiān)督模式識別也稱為聚類。

本文對詳細交易表的買家、總費用、購買數(shù)量三列數(shù)據(jù)進行了聚類分析,旨在對買方網(wǎng)絡(luò)進行分類,根據(jù)其消費水平大致分為三類:低、中、高消費水平。本文一共選取了637192位買家進行基于K-means的聚類分析。

圖1 聚類結(jié)果

結(jié)果顯示位為低消費水平,254位為中消費水平,6004位為高消費水平。其中藍色、綠色、紅色分別為低、中、高消費水平的質(zhì)心。

2.2 回歸分析

本文對數(shù)據(jù)進行說明,回歸分析中的銷量數(shù)據(jù)均指剔除刷單買家后詳細交易表中買家購買的數(shù)量,而不是賣家信息表和詳細交易表中的總銷量。且本文假設(shè),具體的時間前后對銷量無影響。

2.2.1 賣家獲得評價對銷量的影響

剔除刷單賣家后,關(guān)聯(lián)賣家評價表和詳細交易表,剔除評價為0的數(shù)據(jù)后,發(fā)現(xiàn)部分數(shù)據(jù),賣家獲得了評價但是并沒有銷量,予以剔除。接下來,文章對8094位賣家進行分析。

對于好評和差評,本文建立簡單的獎勵函數(shù)g(ID,x1,x2) = a1x1+a2x2。其中,ID為賣家ID,x1為好評數(shù)量,x2為差評數(shù)量,a1+a2=1。若好評對銷量的影響更顯著,則x1>x2。

由于刷單以及惡意評價屢見不鮮,購物人群并沒有那么在意口碑。鑒于此,本文假設(shè)好評和差評對銷量的影響相同,即a1=a2=0.5,并算出每個賣家的獎勵得分。最終,本文得到賣家ID-獎勵得分-銷量表。

以獎勵得分作為自變量,銷量作為因變量進行線性回歸分析,得到線性回歸方程:y(銷量)=5.8793+0.5694×獎勵得分。線性回歸圖見圖2。

圖2 線性回歸

方程通過F和T檢驗,R2為0.458。R2過小,存在著欠擬合的現(xiàn)象。接下來,對其進行多項式回歸而R2反而減小。因此本文并沒有對其修正,一方面疑似刷單賣家并沒有剔除干凈(異常點并不能完全剔除),另一方面賣家數(shù)量比較多,采樣的數(shù)據(jù)不全而且分布并不理想。光從圖像上觀察,本文認為結(jié)果已在接受范圍內(nèi)了。

2.2.2 信用評價體系對銷量的影響[8]

本文得到詳細交易表所有賣家9264家的總銷量和10842家賣家的平均四項信用評價體系。兩者根據(jù)賣家ID關(guān)聯(lián)得到7677名賣家ID-銷量-服務(wù)-發(fā)貨-物流-商品表。

當(dāng)四項評分作為自變量,銷量作為因變量進行回歸分析時見表1,自變量都落入拒絕域。此時模型不是太好。

本文使用AIC法則來選擇最優(yōu)模型,得到最優(yōu)的模型是將服務(wù)和發(fā)貨得分引入模型。新方程通過F和T檢驗,得到回歸方程:y(銷量)=598.9469+30.4838×服務(wù)得分-146.3415×發(fā)貨得分。從方程上來看,銷量與服務(wù)呈正相關(guān),與發(fā)貨得分成反比。更好的解釋是,有部分人覺得產(chǎn)品和服務(wù)并沒有問題,于是產(chǎn)生了銷量,發(fā)貨和物流有一定的關(guān)系,很多人將兩者混淆起來[9],并且發(fā)貨和物流沒有建立完整的體系,所以得分低很好理解。于是,有了銷量、高服務(wù)分卻是較低的發(fā)貨得分。后續(xù)查看數(shù)據(jù)也得到了驗證。

2.2.3 賣家店鋪等級對銷量的影響

關(guān)聯(lián)剔除刷單賣家后的賣家信息表和詳細交易表,得到賣家ID-銷量-店鋪等級表。結(jié)果顯示,店鋪等級與銷量并沒有呈明顯的線性關(guān)系和非線性關(guān)系。店鋪等級和銷量見圖3。

圖3 店鋪等級-銷量散點圖

2.3 時間序列分析

時間序列是指將某種現(xiàn)象某一個統(tǒng)計指標在不同時間上的各個數(shù)值,按時間先后順序排列而形成的序列。時間序列法是一種定量預(yù)測方法,亦稱簡單外延方法,在統(tǒng)計學(xué)中作為一種常用的預(yù)測手段被廣泛應(yīng)用,是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法[10]。

本文對四項評分表的日期進行提取,剔除疑似刷單買家和賣家之后,得到賣家ID-買家ID-日期表。累計每個月的1號至31號的銷量,得到日期銷量折線圖。

圖4 日期銷量折線圖

其中,31號因只有3天,而1號至30號均有六天,所以31號的銷量明顯比30號少一倍乃至更多。接下來,本文對5月、6月、7月、8月每天銷量數(shù)據(jù)作為學(xué)習(xí)樣本,以9月數(shù)據(jù)作為測試樣本建立LSTM模型。實驗結(jié)果運用均方根誤差(RMSE)作為評價指標,具體公式如式(1)所示:

重復(fù)實驗100次,選取RMSEmin=556.25的預(yù)測,得到圖5。其中藍色為測試樣本,橙色為預(yù)測樣本。

從圖5看出,每個月的20號左右和月底前幾天的銷量明顯高于其他時間。四項評分表的數(shù)據(jù)來源有兩種:一是買家收到貨物后的及時評分,二是買家收到貨物后的十五天的自動評分。時間序列分析中的銷量是以評分后的銷量來計算的,所以真實的顧客下單時間為月初前幾天和月中15號左右以及月末后幾天。淘寶購物主力還是大學(xué)生群體和工薪階級,工薪階級月中發(fā)工資,大學(xué)生群體月末月初拿到生活費,自然而然這個時間段銷量提升。

圖5 測試-預(yù)測圖

圖5結(jié)果顯示,RMSEmin=556.25,預(yù)測的結(jié)果也不是很理想。本身商品的買賣受季節(jié)性波動非常大,而拿節(jié)假日和假期期間的數(shù)據(jù)(5、6、7、8月)來預(yù)測9月數(shù)據(jù)缺乏一定的依據(jù)。在數(shù)據(jù)量較小的情況下進行LSTM時間序列分析,導(dǎo)致均方根誤差偏大,預(yù)測準確性也不是很好。

2.4 關(guān)聯(lián)規(guī)則分析

在剔除惡意刷單買家和賣家后,得到買家ID-賣家ID-價格表。本文對買家與賣家和商品進行關(guān)聯(lián)。

本文對數(shù)據(jù)進行基于Apriori算法的關(guān)聯(lián),其中最小事務(wù)同時發(fā)生數(shù)為10,最小置信度為0.5,接下來將展示三條數(shù)據(jù)結(jié)果。

(frozenset({‘120810098}),frozenset({‘277836633s, 5.5}),10,1.0):表示買家ID為120810098的客戶,當(dāng)他購買賣家ID為277836633商家中的商品時,一定會購買價格為5.5元的商品。

(frozenset({‘128268950}),frozenset({‘89486154s, 800}),12,0.923):表示買家ID為128268950的客戶,當(dāng)他購買賣家ID為89486154商家中的商品時,有92.3%的概率會購買價格為800元的商品。

(frozenset({‘3,84471847}),frozenset({‘288922974 s}),36, 1.0):表示買家ID為84471847的客戶購買3元價格的商品時,一定是在賣家ID為89486154商家處購得。

3 總結(jié)與展望

回顧全文,本文得到如下的結(jié)論和相應(yīng)的展望:

(1)得到疑似刷單買家和賣家名單。通過后續(xù)的分析發(fā)現(xiàn),雖然剔除名單后的數(shù)據(jù)更準確,但是刷單玩家并沒有完全剔除干凈,而且也沒有很好的依據(jù)判定刷單等惡意行為。希望后續(xù)能找到很好的依據(jù)來進一步剔除刷單玩家。

(2)將買家聚成三類有一定的效果。但是,低消費水平買家占絕大多數(shù),可以進一步考慮分更多的類將低消費水平買家分得更清晰。

(3)本文建立的獎勵得分與銷量呈線性正相關(guān)關(guān)系,獎勵得分越高,銷量越高。R方太小,模型存在欠擬合現(xiàn)象,后期應(yīng)進一步對惡意刷單行為進行剔除。如今,口碑影響力越來越大,差評占的比重也越來越大,商家更應(yīng)該提高商品質(zhì)量以減小差評在評價中的比例來提高獎勵得分,最終影響銷量。

(4)服務(wù)得分和發(fā)貨得分分別與銷量成正比和反比。大家對四項評分太過于武斷、主觀,甚至存在較多的缺失數(shù)據(jù)。對于淘寶,應(yīng)該建立更加完善和激勵的四項評分體系。對于商家,應(yīng)該提升服務(wù)水平。

(5)店鋪等級與銷量并沒有呈明顯的線性關(guān)系。淘寶店鋪等級就呈現(xiàn)兩頭少中間多的規(guī)律。那時的買家也未過分關(guān)注店鋪等級信息,導(dǎo)致分析的結(jié)果并沒有明顯的關(guān)系。

(6)時間序列分析的預(yù)測效果并不是很好。樣本量不夠多,且商品的交易受季節(jié)性波動較大,對更大的樣本量可能會有較好的預(yù)測結(jié)果。

(7)實現(xiàn)買家與賣家和商品之間的關(guān)聯(lián),可以給用戶推送相關(guān)聯(lián)的賣家店鋪的動態(tài)和推薦同價位的商品,以提高客戶滿意度。本文并沒有實現(xiàn)推薦算法,希望后續(xù)能將關(guān)聯(lián)的結(jié)果與推薦算法相結(jié)合,以實現(xiàn)對買家集店鋪、商品類型、價格于一體的推薦功能。

參考文獻

鄭躍平. 基于約束數(shù)據(jù)預(yù)處理的Web日志挖掘研究[D].福州: 福州大學(xué),2006.

張治斌,劉威.淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2017(10):216-217.

薛文怡. 電子商務(wù)在線口碑與觀察性學(xué)習(xí)對產(chǎn)品銷售的影響[D].天津: 河北工業(yè)大學(xué),2016.

龐鑫. 基于演化博弈的淘寶網(wǎng)動態(tài)評分對賣家銷量的影響研究[D].濟南: 山東大學(xué),2018.

小狼.五六折? 全新的返利模式[J].電腦迷,2010(20):79.

劉鋒,譚祥勇,何卓.函數(shù)性線性回歸模型分析方法及其應(yīng)用[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2015,29(11):135-138.

顏子寒,張正軍,王雅萍,等.基于加權(quán)馬氏距離的改進深度嵌入聚類算法[J].計算機應(yīng)用,2019,39(S2):122-126.

韓旭芳. 基于開放API的電子商務(wù)個性化服務(wù)推薦研究[D].石家莊: 石家莊鐵道大學(xué),2011.

Sakurai Y , Papadimitriou S , Faloutsos C . BRAID: Stream mining through group lag correlations[C]// Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005. ACM, 2005.

楊青,王晨蔚.基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)的全球股票指數(shù)預(yù)測研究[J].統(tǒng)計研究,2019,36(3):65-77.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 亚洲天堂色色人体| 国产伦精品一区二区三区视频优播 | 亚洲中文字幕97久久精品少妇| 亚洲Aⅴ无码专区在线观看q| 国产精品成人观看视频国产| 永久在线播放| 一级黄色网站在线免费看| 久久综合伊人 六十路| 免费看av在线网站网址| 国模粉嫩小泬视频在线观看| 99久久精品国产自免费| 午夜无码一区二区三区在线app| 亚洲制服丝袜第一页| 在线观看精品国产入口| 成人国产三级在线播放| 日本久久免费| 91精品网站| 亚洲天堂在线免费| 国产婬乱a一级毛片多女| 国产最新无码专区在线| 一级黄色片网| 国产成人狂喷潮在线观看2345| 亚洲AV无码不卡无码| 制服无码网站| 中文字幕丝袜一区二区| 欧美一级一级做性视频| 一本大道无码日韩精品影视| 国产九九精品视频| 国产精品爆乳99久久| 国产成年女人特黄特色毛片免| 天堂网亚洲系列亚洲系列| 久久久噜噜噜久久中文字幕色伊伊| 91欧美在线| 日本午夜三级| 蝴蝶伊人久久中文娱乐网| 四虎国产在线观看| 国产激情无码一区二区APP| 国产免费久久精品99re丫丫一| AV无码一区二区三区四区| 欧美午夜网站| 欧洲精品视频在线观看| 五月天香蕉视频国产亚| 成人国产免费| 综合色区亚洲熟妇在线| 国产女同自拍视频| 波多野结衣第一页| P尤物久久99国产综合精品| 国产精品亚洲va在线观看| 日韩欧美91| 日韩无码视频专区| 日韩在线第三页| 中文字幕一区二区视频| 人妻精品久久无码区| 色妞www精品视频一级下载| 亚洲男人的天堂久久香蕉网| 亚洲a级毛片| 欧美激情福利| 在线观看精品国产入口| 97视频免费看| 亚洲国产精品人久久电影| 国语少妇高潮| 97久久免费视频| 九九热在线视频| 国产美女久久久久不卡| 91在线日韩在线播放| 亚洲成综合人影院在院播放| www.亚洲一区| 亚洲精品少妇熟女| 亚洲成综合人影院在院播放| 免费高清自慰一区二区三区| 中文字幕 91| 亚洲成综合人影院在院播放| 成人免费一级片| 天堂网亚洲系列亚洲系列| 综合色在线| 色综合网址| 老司国产精品视频91| 国产另类视频| 国产在线98福利播放视频免费| 国产精品一区二区在线播放| 日韩在线永久免费播放| 黄色网在线|