999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)背景的電子商務(wù)商品實體識別算法

2021-06-24 09:30:36王玉玲
微型電腦應(yīng)用 2021年6期
關(guān)鍵詞:背景

王玉玲

(西安航空職業(yè)技術(shù)學(xué)院 航空管理工程學(xué)院, 陜西 西安 710089)

0 引言

近年來,隨著網(wǎng)絡(luò)和電子商務(wù)不斷發(fā)展,電子商務(wù)逐漸步入大數(shù)據(jù)時代,電子商務(wù)大數(shù)據(jù)化為人們工作和生活提供便利,電子商務(wù)數(shù)據(jù)量增加為計算機(jī)研究學(xué)者帶來極大挑戰(zhàn)[1]。電子商務(wù)大數(shù)據(jù)是指針對不同需求者通過不同數(shù)據(jù)挖掘方法為客戶提供需要信息,大數(shù)據(jù)背景的電子商務(wù)具有商品種類繁多,商品數(shù)據(jù)質(zhì)量參差不齊以及異構(gòu)性和多源性特點[2],不同電子商務(wù)平臺對相同商品定義并不相同,導(dǎo)致電子商務(wù)大數(shù)據(jù)平臺中商品應(yīng)用和分析受到影響。

大數(shù)據(jù)背景的電子商務(wù)商品實體識別是電子商務(wù)數(shù)據(jù)不斷發(fā)展而出現(xiàn)的重要研究課題[3],通過大數(shù)據(jù)背景的電子商務(wù)平臺識別所需商品實體,為大數(shù)據(jù)分析與集成提供基礎(chǔ)。研究大數(shù)據(jù)背景的電子商務(wù)商品實體識別算法,將電子商務(wù)商品實體識別算法應(yīng)用于Hadoop云計算平臺中,Hadoop云計算平臺可有效應(yīng)用于海量大數(shù)據(jù)處理中,該算法可有效識別大數(shù)據(jù)背景的電子商務(wù)商品實體。

1 大數(shù)據(jù)背景下的電子商務(wù)商品實體識別算法

1.1 Hadoop平臺

Hadoop平臺是可對電子商務(wù)商品實體大數(shù)據(jù)實施分布式處理的基礎(chǔ)架構(gòu)平臺。Hadoop平臺主要部分是Hadoop分布式文件系統(tǒng),通過分布式文件系統(tǒng)存儲Hadoop集群內(nèi)全部節(jié)點文件[4]。Hadoop平臺通過特定節(jié)點建立,主要包括可控制外部客戶機(jī)訪問與負(fù)責(zé)管理文件系統(tǒng)名稱的姓名節(jié)點,可回應(yīng)分布式文件系統(tǒng)客戶機(jī)讀寫記錄并存儲將文件分成不同數(shù)量塊的多個數(shù)據(jù)節(jié)點[5],Hadoop分布式文件系統(tǒng)位于Hadoop平臺最底層。分布式文件系統(tǒng)最上層為Map-Reduce執(zhí)行引擎,其中包括Task Tracker以及Job Tracker,Job Tracker數(shù)量為1,并且單獨運(yùn)行于主節(jié)點中;Task Tracker數(shù)量眾多,運(yùn)行于集群節(jié)點[6],Task Tracker中運(yùn)行任務(wù)主要通過Job Tracker調(diào)度與協(xié)調(diào)。

Map-Reduce執(zhí)行引擎是應(yīng)用于大數(shù)據(jù)任務(wù)處理和分布式計算的軟件架構(gòu),Map-Reduce執(zhí)行引擎主要包括映射(MAP)與化簡(REDUCE),通過鍵-值對作為Map-Reduce執(zhí)行引擎輸入與輸出,通過Map函數(shù)接受數(shù)據(jù)并轉(zhuǎn)換至列表后發(fā)送至Reduce函數(shù),Reduce函數(shù)接受數(shù)據(jù)列表后通過鍵縮小列表,實現(xiàn)大數(shù)據(jù)高速處理[7]。

1.2 屬性/值的規(guī)范化處理

電子商務(wù)平臺存在大量等價的屬性/值節(jié)點,但表達(dá)方法并不相同,大數(shù)據(jù)背景的電子商務(wù)商品實體識別前需要將等價的屬性/值節(jié)點合并[8],便于電子商務(wù)商品實體識別。設(shè)大數(shù)據(jù)背景的電子商務(wù)商品中的倒排索引集合為R,依據(jù)R內(nèi)的全部屬性/值記錄設(shè)置全局模式圖用G=表示。其中M與N分別為全部屬性與值形成點集合,連接屬性與值點集的帶權(quán)邊集合用J表示。設(shè)存在隨機(jī)屬性與值分別滿足A∈M和U∈N,倒排索引集合R內(nèi)存在特征項的商品集合和商品數(shù)量分別為Z和k,可得J內(nèi)具有邊且權(quán)重為k時,用ω〈A,U〉標(biāo)記。

Simvalue(Ui,Uj)≥μ1

(1)

通過構(gòu)建基于值文本語義相似度聚類獲取等價值集合,利用Brown所提方法語義相似性分析Ui與Uj兩值式,如式(2)。

(2)

等價值結(jié)合建立方法如下。

1.3 實體識別算法

通過上文屬性/值的規(guī)范化處理獲取可體現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實體間相似關(guān)系的實體對集合[12]。將全部相似對用圖表示,用不同實體以及實體間的相似關(guān)系表示圖的頂點與邊,利用圖聚類思想的實體劃分算法實現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實體識別,該算法可依據(jù)電子商務(wù)商品實體節(jié)點收縮鄰居信息關(guān)系[13],劃分圖獲取具有統(tǒng)一實體的實體簇。圖聚類思想的實體劃分算法具體實現(xiàn)過程如下。

算法中,W(v)為圖中頂點v的鄰居節(jié)點集合,且滿足v∈W(v)。

算法:

輸入:依據(jù)相似實體對建立圖H=(V,F)以及參數(shù)λ;

輸出:識別電子商務(wù)商品實體D={H1,H2,…,HN},其中Hi={Fj|Fj表示相同類別實體}。

1. In order to independenceF=(a,b) do;

2. What If |W(a)∩W(b)|≥λ|W(a)∩W(b)| and then;

3. Commingle (a,b);

4. Renew=real;

5. Over if

6. What If renew=real then

7. Return 2;

8. Over if

9. Over for

10. Send out H;

以上算法中通過迭代的圖聚類方式實現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實體識別,由大數(shù)據(jù)背景的電子商務(wù)商品構(gòu)成的圖內(nèi)的隨機(jī)邊用(a,b)表示,通過以上算法判斷圖的頂點a和b是否符合|W(a)∩W(b)|≥λ|W(a)∩W(b)|,參數(shù)λ依據(jù)實際情況設(shè)置,當(dāng)符合以上條件時,收縮a以及b至相同頂點a′={a,b},重復(fù)迭代直至不存在邊符合收縮條件為止。圖中剩余頂點表示的頂點集即為采用該算法劃分圖結(jié)果[14],不同頂點集表示相同實體類實體。

大數(shù)據(jù)背景的電子商務(wù)商品實體識別過程中,獲取結(jié)果|W(a)∩W(b)|與|W(a)∪W(b)|的代價為O(d),圖中結(jié)點平均度用d表示,最大迭代次數(shù)為O(|F|),其中|F|表示圖中存在邊數(shù),通過以上過程可知,該算法最差時間復(fù)雜度用O(d×[F])表示,以上聚類算法僅通過頂點所屬聯(lián)通分量集合獲取[15],依據(jù)圖的聯(lián)通分量實現(xiàn)并行識別處理,利用各結(jié)點負(fù)載平衡獲取最優(yōu)識別速度。

2 實驗結(jié)果與分析

為有效檢測本文研究大數(shù)據(jù)背景的電子商務(wù)商品實體識別算法識別大數(shù)據(jù)背景的電子商務(wù)商品實體有效性,通過開源的虛擬化軟件Oracle Virtualbox利用浪潮英信NF8560M2服務(wù)器設(shè)置50個主機(jī)節(jié)點布置分布式大數(shù)據(jù)硬件環(huán)境。選取CPU為銳龍 5 2600X 處理器、內(nèi)存為8 GB的計算機(jī)作為實驗主機(jī),選取Ubuntu12操作系統(tǒng)的Hadoop 0.20.2平臺作為實驗節(jié)點平臺。實驗數(shù)據(jù)集來源于我國綜合B2C電子商務(wù)平臺天貓、京東、拼多多三個主流平臺實時數(shù)據(jù),通過Map-Reduce框架的開源平臺實現(xiàn)實驗。

統(tǒng)計2019年3月的10類30個二級分類共848 430件電子商務(wù)商品,來自各平臺不同類別的電子商務(wù)商品數(shù)量如表1所示。

表1 不同類別實驗數(shù)據(jù)集分類情況

(3)

算法平均召回率如式(4)。

(4)

算法平均綜合評價指標(biāo)如式(5)。

(5)

三種算法識別大數(shù)據(jù)背景的電子商務(wù)商品實體結(jié)果如表2所示。

表2 不同算法電子商務(wù)商品實體識別結(jié)果

通過表2實驗結(jié)果統(tǒng)計采用本文算法識別大數(shù)據(jù)背景的電子商務(wù)商品實體的平均識別精度,并將本文算法與HMM算法以及Winnow算法對比,對比結(jié)果如圖1所示。

圖1 不同算法平均識別精度對比

通過圖1可以看出,采用本文方法識別大數(shù)據(jù)背景的電子商務(wù)商品實體平均識別精度均高于98%,對于不同類別電子商務(wù)商品實體均具有較高的平均識別精度,有效驗證本文方法的識別準(zhǔn)確性。

統(tǒng)計采用本文算法識別大數(shù)據(jù)背景的電子商務(wù)實體平均召回率,并將本文算法與HMM算法以及Winnow算法對比,結(jié)果如圖2所示。

圖2 不同算法平均召回率對比

通過圖2可以看出,采用本文算法識別電子商務(wù)商品實體平均召回率明顯高于另兩種算法,本文算法的平均召回率均在98%以上;而HMM算法以及Winnow算法的平均召回率均低于98%,再次驗證本文算法識別性能。

統(tǒng)計采用本文算法識別大數(shù)據(jù)背景的電子商務(wù)實體的平均綜合評價指標(biāo),并將本文算法與HMM算法以及Winnow算法對比,結(jié)果如圖3所示。

圖3 不同算法平均綜合評價指標(biāo)對比

通過圖3可以看出,采用本文算法識別大數(shù)據(jù)背景的電子商務(wù)商品實體平均綜合評價指標(biāo)明顯高于另兩種方法。

以上實驗結(jié)果表明,采用本文算法識別大數(shù)據(jù)背景的電子商務(wù)實體準(zhǔn)確率、召回率以及綜合評價指標(biāo)均優(yōu)于另兩種方法,具有較高的識別性能。

為進(jìn)一步檢測本文算法在大數(shù)據(jù)背景下識別性能,統(tǒng)計不同算法在不同數(shù)據(jù)量情況下識別效率,結(jié)果如表3所示。

表3 不同算法識別效率對比

通過表3可以看出,數(shù)據(jù)量較小時,本文算法運(yùn)行效率并不高;大數(shù)據(jù)量情況下,本文算法識別性能顯著上升。主要原因是數(shù)據(jù)量較小時,本文算法無法發(fā)揮并行性能,運(yùn)行效率較低;隨著數(shù)據(jù)量提升,本文算法可充分發(fā)揮算法優(yōu)良性能,利用不同進(jìn)程執(zhí)行并行任務(wù),獲取較好的識別效率。采用本文算法識別大數(shù)據(jù)背景的電子商務(wù)商品實體,不同數(shù)據(jù)量以及復(fù)雜的數(shù)據(jù)環(huán)境下均具有良好識別結(jié)果,驗證本文算法具有較優(yōu)的適用性。

3 總結(jié)

電子商務(wù)商品具有數(shù)據(jù)來源復(fù)雜、數(shù)據(jù)量龐大的異構(gòu)多源特征,導(dǎo)致傳統(tǒng)電子商務(wù)商品實體識別算法無法識別大數(shù)據(jù)下電子商務(wù)商品實體。研究大數(shù)據(jù)背景的電子商務(wù)商品實體識別算法,利用圖聚類思想的實體劃分算法實現(xiàn)大數(shù)據(jù)背景的電子商務(wù)商品實體識別。選取京東、天貓和拼多多3個電子商務(wù)平臺數(shù)據(jù)作為實驗對象,驗證該算法具有較高的識別準(zhǔn)確率以及識別性能,對大數(shù)據(jù)下的電子商務(wù)商品實體具有較優(yōu)的識別性能。

猜你喜歡
背景
“三新”背景下關(guān)于高考一輪復(fù)習(xí)策略的思考
“新四化”背景下汽車NVH的發(fā)展趨勢
《論持久戰(zhàn)》的寫作背景
黑洞背景知識
基于高考背景下的高中數(shù)學(xué)教學(xué)探討
活力(2019年21期)2019-04-01 12:18:06
I ROBOT AI背景下的2018火人節(jié)
晚清外語翻譯人才培養(yǎng)的背景
背景鏈接
從背景出發(fā)還是從文本出發(fā)
語文知識(2015年11期)2015-02-28 22:01:59
“雙背景”院長獲認(rèn)同
主站蜘蛛池模板: 新SSS无码手机在线观看| 99精品视频在线观看免费播放| 国产 日韩 欧美 第二页| 孕妇高潮太爽了在线观看免费| 国产浮力第一页永久地址 | 日韩精品一区二区三区免费| 国产精品不卡片视频免费观看| 国产欧美日韩精品第二区| 无码内射中文字幕岛国片| 无码国内精品人妻少妇蜜桃视频| 精品国产香蕉在线播出| 国产高清无码第一十页在线观看| аv天堂最新中文在线| 亚洲V日韩V无码一区二区 | 亚洲天堂自拍| 伊人久久大香线蕉成人综合网| 日韩精品高清自在线| 亚洲AV一二三区无码AV蜜桃| 日本黄色不卡视频| 日韩色图区| 91亚洲精品第一| 日韩欧美中文字幕在线韩免费 | 婷婷综合亚洲| 日韩乱码免费一区二区三区| 亚洲日本精品一区二区| 国产综合日韩另类一区二区| 日韩欧美中文在线| 中文国产成人精品久久| 一级香蕉视频在线观看| 久久亚洲国产最新网站| 91精选国产大片| 久久国产毛片| 999福利激情视频| 亚洲视频色图| 日本爱爱精品一区二区| 91在线日韩在线播放| 亚洲欧美天堂网| 日韩成人在线视频| 69综合网| 欧美日韩一区二区三区四区在线观看| 国产超薄肉色丝袜网站| 无码精油按摩潮喷在线播放 | 亚洲综合专区| 久久精品一卡日本电影| 欧美精品啪啪一区二区三区| 麻豆国产在线观看一区二区| 成AV人片一区二区三区久久| 久久精品国产电影| 欧美成人午夜在线全部免费| 黄色网站在线观看无码| 国产精品无码AV中文| 欧美一区二区三区欧美日韩亚洲 | 最新精品国偷自产在线| 五月婷婷丁香综合| 美女免费黄网站| 日韩精品无码免费一区二区三区| 四虎国产永久在线观看| 国产农村精品一级毛片视频| 国产精品白浆在线播放| 国产99欧美精品久久精品久久| 四虎国产永久在线观看| 亚洲永久视频| 欧美成在线视频| 亚洲国产成熟视频在线多多| 国产91特黄特色A级毛片| 久久国产毛片| www.99在线观看| 综合亚洲色图| 在线观看欧美国产| 色香蕉影院| 全裸无码专区| 精品国产成人高清在线| 999福利激情视频| 91精品免费高清在线| 亚洲国产精品国自产拍A| 日本国产精品一区久久久| 国产欧美性爱网| 三级欧美在线| 国产XXXX做受性欧美88| 国产白丝av| 久久综合色视频| 婷婷五月在线|