999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘在跨境電商客戶(hù)特征分析中的應(yīng)用

2021-07-19 21:41:44孫海波
電腦知識(shí)與技術(shù) 2021年15期
關(guān)鍵詞:數(shù)據(jù)挖掘

孫海波

摘要:近些年來(lái),經(jīng)濟(jì)全球化程度逐步加深,互聯(lián)網(wǎng)信息技術(shù)迅速發(fā)展,跨境電子商務(wù)已然變成了中外貿(mào)易的新增長(zhǎng)點(diǎn)。同時(shí),在跨境電商平臺(tái)上,銷(xiāo)售的商品日益豐富。對(duì)于消費(fèi)者來(lái)說(shuō),要在這么海量的商品里面,選擇符合他需求的商品是一個(gè)普遍存在的問(wèn)題困境。通過(guò)統(tǒng)計(jì)分析和挖掘跨境電商客戶(hù)自身的一些屬性特征和其購(gòu)買(mǎi)的商品的一些屬性特征,為跨境電商企業(yè)的營(yíng)銷(xiāo)策略和物流布局提供參考,幫助消費(fèi)者快速挑選到滿(mǎn)意的商品。

關(guān)鍵詞:數(shù)據(jù)挖掘; 跨境電子商務(wù); 特征分析; Hadoop; FP-Growth算法

中圖分類(lèi)號(hào):F272.3? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)15-0239-03

Abstract:In recent years, with the deepening of economic globalization and the rapid development of Internet information technology, cross-border e-commerce has become a new growth point of Sino foreign trade. At the same time, on the cross-border e-commerce platform, more and more goods are sold. It is a common problem for consumers to choose the products that meet their needs in such a large number of commodities. Through statistical analysis and mining some attribute characteristics of cross-border e-commerce customers and their purchased goods, this paper provides reference for marketing strategy and logistics layout of cross-border e-commerce enterprises, and helps consumers quickly select satisfactory goods.。

Key words:data mining; cross border e-commerce; feature analysis; hadoop;? fp-growth algorithm

1 引言

11月4日晚,第三屆中國(guó)國(guó)際進(jìn)口博覽會(huì)開(kāi)幕式在上海舉行,盡管受到疫情影響,今年中國(guó)擴(kuò)大開(kāi)放的步伐仍在加快。對(duì)企業(yè)來(lái)說(shuō),跨境電子商務(wù)構(gòu)建的開(kāi)放、多維、立體的多邊經(jīng)貿(mào)合作模式,極大地拓寬了進(jìn)入國(guó)際市場(chǎng)的路徑,大大促進(jìn)了多邊資源的優(yōu)化配置與企業(yè)間的互利共贏[1];對(duì)于消費(fèi)者來(lái)說(shuō),跨境電子商務(wù)使他們非常容易地獲取其他國(guó)家的信息并買(mǎi)到物美價(jià)廉的商品。通過(guò)數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法分析以往的跨境電商業(yè)務(wù)數(shù)據(jù)來(lái)分析跨境電商客戶(hù)的特征,給出對(duì)于企業(yè)的一個(gè)更好的營(yíng)銷(xiāo)策略和消費(fèi)者更好的一個(gè)消費(fèi)體驗(yàn)。

2 算法及數(shù)據(jù)預(yù)處理

2.1 算法

在本研究中,我們采用FP-Growth算法挖掘頻繁項(xiàng)集,F(xiàn)P-Growth算法的主要思想是:將代表頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮存儲(chǔ)在頻繁模式樹(shù)中,每條事務(wù)數(shù)據(jù)中的項(xiàng)之間的關(guān)系被保留在頻發(fā)模式樹(shù)中。然后,將頻繁模式樹(shù)按照條件模式基拆分成一組條件FP樹(shù),并分別挖掘這些條件FP樹(shù)[2]。

FP-Growth算法的步驟:

1) 第一次掃描數(shù)據(jù)庫(kù),尋找頻繁1-項(xiàng)集,并按照由大到小的順序排序;

2) 創(chuàng)建FP模式樹(shù)的根結(jié)點(diǎn),記為“null”;

3) 根據(jù)頻繁1-項(xiàng)集的順序?qū)?shù)據(jù)庫(kù)中的每條事務(wù)數(shù)據(jù)進(jìn)行排序,并存儲(chǔ)在FP模式樹(shù)中,并建立項(xiàng)頭表;

4) 為每一個(gè)頻繁1-項(xiàng)集尋找前綴路徑,組成條件模式基,并建立條件FP樹(shù);

5) 遞歸挖掘條件FP樹(shù),獲得頻繁項(xiàng)集。

2.2 數(shù)據(jù)預(yù)處理

由于跨境電商業(yè)務(wù)的多年開(kāi)展,其中的數(shù)據(jù)庫(kù)中存儲(chǔ)著大量的數(shù)據(jù)包括商品的物流信息、商品信息、訂單信息、報(bào)關(guān)信息等[3]。這些信息中很大程度上可以代表了消費(fèi)者的消費(fèi)習(xí)慣,但這些數(shù)據(jù)中同時(shí)也包含了大量對(duì)本次實(shí)驗(yàn)無(wú)用的數(shù)據(jù)和噪音,因此要再分析數(shù)據(jù)的構(gòu)成和意義,篩選其中有用的數(shù)據(jù),并預(yù)處理后作為本次實(shí)驗(yàn)的分析對(duì)象[4],本文從存儲(chǔ)在SqlServer數(shù)據(jù)庫(kù)中的物流信息表、商品信息明細(xì)表等四張表中獲取實(shí)驗(yàn)所需的數(shù)據(jù)進(jìn)行數(shù)據(jù)的預(yù)處理。以下是對(duì)于各表的介紹。

在物流信息表(Tbl_ImportLogisticsInfo)中包含了很多消費(fèi)者購(gòu)買(mǎi)物品后的物流相關(guān)信息,但是本次實(shí)驗(yàn)所需字段僅兩個(gè)即省份ConsigneeProvince和城市ConsingeeCity字段。省份字段可以根據(jù)省份代碼對(duì)照表找出消費(fèi)者所在省份,根據(jù)城市字段和城市等級(jí)劃分表得出消費(fèi)者所在城市的等級(jí) 。 在商品信息明細(xì)表(Tbl_IDX_CUSTOM_IE_DETAILS)中,選取CreateTime(下單時(shí)間)、ORIGIN_COUNTRY(原產(chǎn)國(guó))、DECL_PRICE(商品單價(jià))、DECL_TOTAL(商品總價(jià))、CODE_TS(商品編碼) 作為實(shí)驗(yàn)的數(shù)據(jù)。根據(jù)下單時(shí)間劃分出下單時(shí)間范圍區(qū)間,根據(jù)商品原產(chǎn)國(guó)代碼和國(guó)家代碼對(duì)照表找出商品的原產(chǎn)國(guó)家,根據(jù)商品的單價(jià)和商品的總價(jià)分別處理,得到消費(fèi)者的消費(fèi)金額區(qū)間。報(bào)關(guān)信息表(Tbl_IDX_CUSTOM_IE_HEADER)中包含的是通關(guān)過(guò)程中所需的一些信息,其中本文只獲取公司代碼CompanyID這一字段,根據(jù)公司代碼字段判斷出消費(fèi)者所在的消費(fèi)平臺(tái)。(訂單信息表)Tbl_ImportOrder中選取ConsigneeCard身份證號(hào)字段,根據(jù)身份證的編碼規(guī)則判斷出訂單消費(fèi)的性別信息,以及年齡段信息

據(jù)上述的數(shù)據(jù)進(jìn)行處理得出表1客戶(hù)及其購(gòu)買(mǎi)商品屬性維度及維度值,該圖表從多個(gè)維度出發(fā)用于描述出跨境電商客戶(hù)所可能具有的一些特征。

3 實(shí)驗(yàn)

由于本次實(shí)驗(yàn)的數(shù)據(jù)倉(cāng)庫(kù)采用的Hadoop集群,程序采用的是Maven框架所以需要搭建Hadoop的集群環(huán)境和Maven框架的搭建及編碼。

3.1 Hadoop集群環(huán)境搭建

由于本次實(shí)驗(yàn)所采用的Hadoop集群采用的是主從結(jié)構(gòu),slave1、slave2做兩條從機(jī),master服務(wù)器作為主機(jī)。三臺(tái)服務(wù)器的IP地址如圖1所示。在實(shí)驗(yàn)中各服務(wù)器所需要安裝的軟件如圖2所示。

在圖3中是將SqlServer數(shù)據(jù)經(jīng)過(guò)處理后存儲(chǔ)在Hive中的部分?jǐn)?shù)據(jù)。

3.2 Maven框架項(xiàng)目搭建

實(shí)驗(yàn)的相關(guān)業(yè)務(wù)是在Maven框架下采用Java語(yǔ)言進(jìn)行實(shí)現(xiàn)的,故首先需要搭建一個(gè)Maven項(xiàng)目然后進(jìn)行實(shí)際的業(yè)務(wù)處理。相關(guān)業(yè)務(wù)模塊包括,源數(shù)據(jù)處理模塊、源數(shù)據(jù)分析模塊和Hadoop數(shù)據(jù)挖掘分析模塊。

項(xiàng)目框架搭建之后進(jìn)行各模塊的編碼工作,在源數(shù)據(jù)處理模塊中首先需要進(jìn)行SqlServer數(shù)據(jù)庫(kù)的連接,程序采用JDBC的連接方式獲取到程序所需的源數(shù)據(jù),在獲取到源數(shù)據(jù)之后進(jìn)行源數(shù)據(jù)的一個(gè)數(shù)據(jù)預(yù)處理的工作,數(shù)據(jù)的預(yù)處理包括根據(jù)物流信息表中的城市字段判斷出用戶(hù)所在的城市等級(jí)和所在區(qū)域,根據(jù)商品信息中的商品編碼判斷出商品的類(lèi)別,根據(jù)訂單表中的身份證信息判斷出客戶(hù)的年齡信息和性別信息。在源數(shù)據(jù)分析模塊中將上一步獲取的源數(shù)據(jù)根據(jù)客戶(hù)的年齡、客戶(hù)所在區(qū)域和客戶(hù)購(gòu)物的時(shí)間統(tǒng)計(jì)分析各個(gè)節(jié)點(diǎn)的單量,從而判斷出客戶(hù)購(gòu)買(mǎi)跨境電商商品的一些特征。在Hadoop數(shù)據(jù)挖掘分析模塊中利用Maven中的相關(guān)依賴(lài)將預(yù)處理過(guò)后的數(shù)據(jù)導(dǎo)入到Hive中,并采用FP-Growth算法對(duì)數(shù)據(jù)進(jìn)行挖掘分析,找出頻繁項(xiàng)集。序采用的是Maven框架所以需要搭建Hadoop的集群環(huán)境和Maven框架的搭建及編碼。

3.3 實(shí)驗(yàn)結(jié)果

1)在挖掘出的頻繁項(xiàng)集中可以發(fā)現(xiàn),little、f、SZBH出現(xiàn)多次,其中l(wèi)ittle代表是購(gòu)買(mǎi)少量商品,f代表的女性客戶(hù),SZBH代表的是一家跨境電商公司。從頻繁項(xiàng)集中可以分析得出,大部分人還是購(gòu)買(mǎi)跨境電商的貨物都是少量并且女性購(gòu)買(mǎi)者居多,這也符合跨境電子商務(wù)小包裹數(shù)量少的特點(diǎn),同時(shí)結(jié)合日常生活經(jīng)驗(yàn),相比男性可能女性更熱衷于網(wǎng)上購(gòu)物。通過(guò)程序運(yùn)行后的實(shí)際情況如圖4所示。

2)在根據(jù)下單時(shí)間進(jìn)行單量的統(tǒng)計(jì)是發(fā)現(xiàn)跨境電商消費(fèi)者在購(gòu)買(mǎi)時(shí)間上的特征比如在凌晨5點(diǎn)的時(shí)候訂單量是最少的而上午10點(diǎn)的時(shí)候是訂單最多的時(shí)候,分析原因也合乎邏輯,上午5點(diǎn)的時(shí)候大部分人還在休息自然下單量最少,而上午10點(diǎn)單量最多,說(shuō)明大家更加傾向于在這個(gè)時(shí)間段進(jìn)行消費(fèi)。根據(jù)下單時(shí)間統(tǒng)計(jì)的實(shí)際單量統(tǒng)計(jì)如圖5所示。

3)在根據(jù)年齡段的分析中發(fā)現(xiàn),90后是購(gòu)買(mǎi)的主力,而00后或更小60后或更大的年齡群體購(gòu)買(mǎi)力下降明顯。分析原因可能是00后或更小的經(jīng)濟(jì)實(shí)力較差,而60后或更大的年齡層消費(fèi)者對(duì)于跨境電商業(yè)務(wù)可能不是太感興趣,而90后消費(fèi)者從經(jīng)濟(jì)方面和新業(yè)務(wù)的了解和接受方面分析都優(yōu)于其他年齡層次消費(fèi)者。根據(jù)年齡段統(tǒng)計(jì)的實(shí)際單量統(tǒng)計(jì)如圖6所示。

4)在購(gòu)買(mǎi)區(qū)域上統(tǒng)計(jì)分析中發(fā)現(xiàn)發(fā)達(dá)城市是購(gòu)買(mǎi)主力,比如深圳、上海,而在寧夏是最少的,這也符合人們合理的預(yù)期。在發(fā)達(dá)城市消費(fèi)的經(jīng)濟(jì)能力較好,而且發(fā)達(dá)城市的物流也比較有優(yōu)勢(shì),更適合業(yè)務(wù)的開(kāi)展。而在發(fā)展較為落后地區(qū)則有消費(fèi)者購(gòu)買(mǎi)力不足,物流成本高等問(wèn)題。

根據(jù)購(gòu)買(mǎi)區(qū)域統(tǒng)計(jì)的實(shí)際單量統(tǒng)計(jì)如圖7所示。

4 結(jié)論

本文實(shí)驗(yàn)采用Maven框架,運(yùn)用Java語(yǔ)言進(jìn)行編碼實(shí)現(xiàn)了FP-Growth算法并將該算法運(yùn)用于處理后的數(shù)據(jù)進(jìn)行了分析。在搭建好的hadoop集群平臺(tái)上以及預(yù)處理過(guò)的數(shù)據(jù)和跨境電商客戶(hù)特征分析系統(tǒng)的設(shè)計(jì)的基礎(chǔ),上針對(duì)實(shí)際的情況進(jìn)行了測(cè)試。分析了實(shí)驗(yàn)所產(chǎn)生的頻繁項(xiàng)集以及數(shù)據(jù)本身的一些特性并得出符合邏輯的結(jié)論。根據(jù)實(shí)驗(yàn)結(jié)果可以得出,一些跨境電商客戶(hù)的消費(fèi)特征,從而滿(mǎn)足企業(yè)的營(yíng)銷(xiāo)效果,將相應(yīng)的跨境電商商品推薦給滿(mǎn)足該特征的跨境電商客戶(hù),另一方面也給跨境電商客戶(hù)購(gòu)買(mǎi)跨境電商商品帶來(lái)了方便,使得他們可以快速地購(gòu)買(mǎi)到自己想要的商品。

參考文獻(xiàn):

[1] 李延光.基于Hadoop的海量工程數(shù)據(jù)處理技術(shù)研究[D].北京:北京交通大學(xué),2013.

[2] 周詩(shī)慧.基于Hadoop的改進(jìn)的并行Fp-Growth算法[D].濟(jì)南:山東大學(xué),2013.

[3] 馬盈.基于MapReduce構(gòu)造多維數(shù)據(jù)及關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用[D].長(zhǎng)春:東北師范大學(xué),2013.

[4] 李明江,盧玉.基于數(shù)據(jù)挖掘的電商中貴州茶葉產(chǎn)品分類(lèi)分析[J].黔南民族師范學(xué)院學(xué)報(bào),2015,35(4):78-82.

[5] 王海青,呂曉安.數(shù)據(jù)挖掘在網(wǎng)購(gòu)商品特征分析中的應(yīng)用[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,15(2):35-37.

[6] 黃雅萍,馬可辛,周余洪,等.面向中小企業(yè)的電商平臺(tái)挖掘系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)時(shí)代,2015(4):18-20.

[7] 雷玄.服裝篇:發(fā)貨延遲退貨率高[J].中國(guó)質(zhì)量萬(wàn)里行,2014(12):12-13.

[8] 楊欣,呂本富,彭賡,等.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的突發(fā)事件對(duì)股票市場(chǎng)影響分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2013,43(23):17-28.

[9] 羅紅梅.電商企業(yè)基于數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)的探討[J].武漢商業(yè)服務(wù)學(xué)院學(xué)報(bào),2013,27(3):46-48.

【通聯(lián)編輯:李雅琪】

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 东京热高清无码精品| 国产精品综合色区在线观看| 国产一级片网址| 国产福利免费视频| 在线无码私拍| 国产噜噜噜| 成人年鲁鲁在线观看视频| 亚洲精品天堂在线观看| 91久久国产综合精品| 国产精品一区不卡| 日本午夜三级| 精品国产三级在线观看| 国产免费黄| 国产精品无码AV片在线观看播放| 国产麻豆另类AV| 特级精品毛片免费观看| 欧美日韩资源| 免费看av在线网站网址| 亚洲成人一区在线| 88av在线| 91破解版在线亚洲| 无码内射在线| 久久精品无码一区二区国产区| 日本免费新一区视频| 久操中文在线| 亚洲中文字幕在线一区播放| 中国成人在线视频| 色噜噜狠狠狠综合曰曰曰| 国产毛片基地| 中文字幕永久视频| 日韩二区三区无| 91亚瑟视频| 麻豆精品在线视频| 天天操天天噜| 伊人激情久久综合中文字幕| 国产精品永久不卡免费视频| 亚洲最新网址| 久久国产精品国产自线拍| 日本午夜影院| 97国产精品视频人人做人人爱| 国产一级视频久久| 久久夜色精品| 亚洲浓毛av| 99久久精品国产麻豆婷婷| 亚洲成a人片77777在线播放| 国产视频久久久久| 久久无码av三级| 亚洲福利视频一区二区| 996免费视频国产在线播放| 香蕉蕉亚亚洲aav综合| 91精品国产91欠久久久久| 四虎精品黑人视频| 国产v精品成人免费视频71pao | 久久久久久尹人网香蕉| 欧美成一级| 欧美啪啪网| 成人午夜网址| 欧美日韩国产成人在线观看| 激情成人综合网| 亚洲精品黄| 色播五月婷婷| 91久久偷偷做嫩草影院精品| 一区二区理伦视频| 精品久久国产综合精麻豆| 91欧美在线| 国产va在线| 麻豆精品在线| 欧美综合区自拍亚洲综合绿色| 亚洲天堂日本| 2018日日摸夜夜添狠狠躁| 日韩精品视频久久| 亚洲国产成人自拍| 国产精品999在线| 久久黄色毛片| 欧美国产在线精品17p| 九九热视频在线免费观看| 激情综合网址| 日韩欧美国产另类| 青青草一区| 99精品国产电影| 午夜成人在线视频| 亚洲国产欧美国产综合久久|