999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

線性回歸和隨機(jī)森林算法融合在餐飲客流量的預(yù)測

2018-10-22 06:56:08楊森彬
軟件工程 2018年7期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘 要:數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè)具有一定的社會價值,通過預(yù)測餐飲行業(yè)客流量,根據(jù)客流量多少餐廳合理為顧客準(zhǔn)備用餐,有利于提升顧客用餐體驗(yàn),提高餐飲質(zhì)量的同時讓餐飲行業(yè)更高效運(yùn)作。本文通過研究線性回歸算法與隨機(jī)森林算法理論,提出將線性回歸算法與隨機(jī)森林算法融合的思想,將其應(yīng)用在餐廳顧客回訪數(shù)量預(yù)測,并通過實(shí)驗(yàn)證明該思路的合理性和可實(shí)施性。通過實(shí)驗(yàn)對比,算法融合思路比線性回歸算法準(zhǔn)確率提高了約3.004%,比隨機(jī)森林算法提高了約2.022%。比以往大部分研究取得更優(yōu)的預(yù)測效果,為數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)的應(yīng)用提供了新的思路。

關(guān)鍵詞:數(shù)據(jù)挖掘;線性回歸;隨機(jī)森林;算法融合;餐飲行業(yè)

中圖分類號:TP312 文獻(xiàn)標(biāo)識碼:A

文章編號:2096-1472(2018)-07-24-04

1 引言(Introduction)

數(shù)據(jù)挖掘運(yùn)用相關(guān)的算法從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的,以及用戶感興趣的知識,建立模型,用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程[1]。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。隨著互聯(lián)網(wǎng)時代的到來和數(shù)據(jù)大爆發(fā),數(shù)據(jù)挖掘技術(shù)普遍而且迫切地應(yīng)用于各個領(lǐng)域,比如金融、電信、保險、醫(yī)療、餐飲等行業(yè)。它通過運(yùn)用整理、分析、總結(jié)、推理等方法對大量地數(shù)據(jù)進(jìn)行處理,從而對實(shí)際問題進(jìn)行指導(dǎo)和分析,得出相關(guān)地預(yù)測結(jié)果,從而做出更加有利的決策[2]。

本文主要針對餐飲行業(yè)對餐廳客流量進(jìn)行預(yù)測。餐飲是我們?nèi)粘I畹闹匾徊糠郑瑫r也伴隨著巨大的行為數(shù)據(jù)產(chǎn)生。如果能更好地利用這些數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行分析、預(yù)測,讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗(yàn),提高餐飲質(zhì)量,同時也可以讓餐飲行業(yè)經(jīng)營更好,商家獲得更大的利潤。筆者查閱相關(guān)資料得知,數(shù)據(jù)挖掘在餐飲領(lǐng)域運(yùn)用的普遍性還有待提高,數(shù)據(jù)挖掘運(yùn)用在餐飲行業(yè)的相關(guān)技術(shù)還有待提高。如以往有不少人研究的線性回歸模型或隨機(jī)森林模型運(yùn)用在餐飲行業(yè)仍然存在準(zhǔn)確性不夠的不足。本文針對這一不足提出了一個新的解決方法,整合兩個模型的優(yōu)點(diǎn),避開它們的缺點(diǎn),融合成一個新的模型,提高數(shù)據(jù)挖掘技術(shù)在餐飲行業(yè)應(yīng)用的水平。

本文通過介紹線性回歸和隨機(jī)森林兩種模型,運(yùn)用數(shù)據(jù)挖掘工具對餐飲行業(yè)大量數(shù)據(jù)進(jìn)行分析預(yù)測,對比線性回歸、隨機(jī)森林和兩個模型融合后的新模型之間的預(yù)測結(jié)果,通過對比結(jié)果數(shù)據(jù),從而得出合理的論斷,融合后的模型在餐飲行業(yè)客流量預(yù)測中的效果更好,準(zhǔn)確性更高。

2 算法介紹(Algorithm introduction)

2.1 線性回歸模型簡介[3,4]

對于,其中n組結(jié)果值為取值為0或1的隨機(jī)變量,滿足與的關(guān)系為:

選取的估值,使式(6)達(dá)到最大值。

2.2 隨機(jī)森林算法簡介

隨機(jī)森林(random forest)是一種基于分類樹(classification tree)的算法(Breiman,2001)。這個算法需要模擬和迭代,被歸類為機(jī)器學(xué)習(xí)中的一種方法。經(jīng)典的機(jī)器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò)(Hopfield,1982),有半個多世紀(jì)的歷史了。神經(jīng)網(wǎng)絡(luò)預(yù)測精確,但是計(jì)算量很大。20世紀(jì)80年代Breiman等人(1984)發(fā)明了分類和回歸樹(Classification And Regression Tree,簡稱CART)的算法,通過反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸,計(jì)算量大大降低[5]。

RF是由一系列樹型分類器{h(x,Θ)}k,其中k=1,…,組合成的分類器,其中Θk是獨(dú)立同分布隨機(jī)向量,且每棵樹對輸入向量x所屬的最受歡迎類投一票[6]。RF生成步驟如圖1所示:(1)從總訓(xùn)練樣本集D中用Bootstrap采樣選取k個子訓(xùn)練樣本集D1,D2,…,Dk,并預(yù)建k棵分類樹;(2)在分類樹的每個節(jié)點(diǎn)上隨機(jī)地從n個指標(biāo)中選取m個,選取最優(yōu)分割指標(biāo)進(jìn)行分割;(3)重復(fù)步驟(2)遍歷預(yù)建的k棵分類樹;(4)由k棵分類樹形成隨機(jī)森林。

Bootstrap隨機(jī)抽樣得到輸入訓(xùn)練集和節(jié)點(diǎn)隨機(jī)選取指標(biāo)進(jìn)行分割,使得RF對噪聲有很好的容忍性,且降低了分類樹之間的相關(guān)性。單棵樹不剪枝任意生長的特點(diǎn)可獲得低偏差分類樹,且能夠保證對新測試數(shù)據(jù)分類的正確率。

RF的生成和單棵風(fēng)險分類樹如圖1和圖2所示[7]。

2.3 線性回歸和隨機(jī)森林算法融合原理

本文使用的模型融合是加權(quán)平均法。首先,根據(jù)兩個模型的預(yù)測效果和模型得分,對其求權(quán)重;然后對兩個模型預(yù)測值求加權(quán)平均值為最終的預(yù)測結(jié)果。

其中,表示最終的預(yù)測結(jié)果,表示線性回歸模型的預(yù)測結(jié)果,表示線性回歸模型的預(yù)測結(jié)果,a表示求得的線性回歸模型的權(quán)重,b表示求得的隨機(jī)森林模型的權(quán)重。

2.4 模型評價標(biāo)準(zhǔn)

對于客流量的預(yù)測,我們更加關(guān)注的是所預(yù)測的客流量與實(shí)際客流量之間的誤差[8],因此,本文采用均方根誤差RMLSE作為評價模型效果優(yōu)良的標(biāo)準(zhǔn)。

表示真實(shí)訪客數(shù)量,表示預(yù)測的訪客數(shù)量。

當(dāng)RMLSE越小時,表明誤差越小,模型效果越好。

3 模型數(shù)據(jù)分析(Data analysis of model)

3.1 數(shù)據(jù)預(yù)處理與特征工程

餐飲店客流量預(yù)測的數(shù)據(jù)來源與kaggle數(shù)據(jù)競賽平臺Recruit Restaurantor Visitor Forecasting賽題中的數(shù)據(jù)。本文經(jīng)過數(shù)據(jù)清洗和預(yù)處理[10]后提取出對本次實(shí)驗(yàn)有用的328298條記,每條記錄12個字段,見表1。

預(yù)處理后的數(shù)據(jù)并不能滿足實(shí)驗(yàn)的要求,仍然有大量的潛在特征價值未被挖掘,此時需要進(jìn)行相應(yīng)的特征工程,本次實(shí)驗(yàn)對訪客數(shù)量做log處理、時序問題趨勢穩(wěn)定處理、關(guān)于顧客就餐是否為周末等時間問題處理等特征工程,充分挖掘了數(shù)據(jù)中隱藏的大量價值。特征處理后每條記錄62個字段,如表2。

3.2 模型構(gòu)建

在對數(shù)據(jù)進(jìn)行預(yù)處理和特征工程之后,就可以輸入數(shù)據(jù)進(jìn)行模型訓(xùn)練,其中除表2中的visitors_log屬性外為輸入數(shù)據(jù)集的X,visitors_log屬性為標(biāo)簽輸入。模型輸入數(shù)據(jù)如表3所示。

表4為模型輸出的示例,以Logistic回歸作為預(yù)測模型。其中,Id表示店鋪的地址和該店鋪對應(yīng)的日期,visitors表示該店鋪在對應(yīng)日期訪客量的預(yù)測人數(shù)。

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 各模型預(yù)測值與真實(shí)值對比

為了便于觀察實(shí)驗(yàn)現(xiàn)象和分析實(shí)驗(yàn)結(jié)果,本文在數(shù)據(jù)規(guī)模一致且合理的情況下分別對線性回歸模型、隨機(jī)森林模型和兩個模型融合后預(yù)測的訪客量數(shù)與真實(shí)訪客量數(shù)進(jìn)行對比,并作圖分析。由圖3—圖5分析可得,線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個模型的預(yù)測值和真實(shí)值是吻合的。分析可得,三個模型適用于本文實(shí)驗(yàn),模型應(yīng)用合理。

3.3.2 不同數(shù)據(jù)集大小的情況下各模型誤差對比

分別取全部數(shù)據(jù)的20%、40%、60%和100%,分別訓(xùn)練以上三個模型,得出三個不同模型的錯誤率,并作圖對比,如圖6所示。

其中,圖6圖例LR、RFR和Fusion model分別表示線性回歸模型、隨機(jī)森林模型和融合后的模型的錯誤率。

3.3.3 實(shí)驗(yàn)結(jié)果分析

由圖3—圖5分析可得,線性回歸模型、隨機(jī)森林模型和融合后的模型在一定程度上三個模型的預(yù)測值和真實(shí)值是吻合的。分析可得,三個模型適用于本文實(shí)驗(yàn),模型應(yīng)用合理。分析圖6,對于某一模型,隨著數(shù)據(jù)量不斷增加,模型預(yù)測預(yù)測訪客的錯誤率不斷降低,模型效果不斷提高,并且當(dāng)數(shù)據(jù)量大到一定范圍時,模型預(yù)測訪客數(shù)量的錯誤率下降趨緩;對比三個模型可得,在相同的數(shù)據(jù)規(guī)模下,融合后的模型預(yù)測訪客數(shù)量的錯誤率明顯低于線性回歸模型和隨機(jī)森林模型。

4 結(jié)論(Conclusion)

本文介紹了線性回歸和隨機(jī)森林算法,以及兩個算法融合思路及原理,把數(shù)據(jù)挖掘技術(shù)運(yùn)用于餐飲行業(yè),并通過實(shí)驗(yàn)證明兩個算法融合這一思路在餐飲行業(yè)預(yù)測餐廳某一時間段訪客數(shù)量的應(yīng)用是可行合理的,具有較大的社會價值,讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗(yàn),提高餐飲質(zhì)量,同時也可以讓餐飲行業(yè)經(jīng)營更好,商家獲得更大的利潤。本文線性回歸和隨機(jī)森林算法融合思想彌補(bǔ)了之前單模型研究的不足,降低餐廳訪客量預(yù)測的錯誤率,模型效果更優(yōu),使模型在餐飲行業(yè)使用范圍更廣,更容易泛化和推廣;在一定范圍內(nèi),隨著訓(xùn)練數(shù)據(jù)規(guī)模增加,模型的效果不斷優(yōu)化。

參考文獻(xiàn)(References)

[1] 張晴,高廣銀,賈波.數(shù)據(jù)挖掘技術(shù)在超市營銷系統(tǒng)中的應(yīng)用[J].軟件工程,2016,19(5):35-38.

[2] 張慧,徐勇.數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學(xué)報,2016,31(2):68-73.

[3] 冷建飛,高旭,朱嘉平.多元線性回歸統(tǒng)計(jì)預(yù)測模型的應(yīng)用[J].統(tǒng)計(jì)與決策,2016,16(7):82-85.

[4] 王朋,呂寒,李若詩.基于logisitic回歸的《中國好聲音》受眾行為分析[J].廣州大學(xué)學(xué)報,2013,12(11):54-58.

[5] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報,2013,50(4):1190-1197.

[6] Jonathan D W,Jennifer L I,Suzana J C.Coastal flooding by tropical cyclones and sea-level rise[J].Nature,2013,504(8):44-52.

[7] 賴成光,陳曉宏,趙仕威,等.基于隨機(jī)森林的洪災(zāi)風(fēng)險評價模型及其應(yīng)用[J].水利學(xué)報,2015,46(1):58-66.

[8] 劉偉,徐鵬濤.O2O電商平臺在線點(diǎn)評有用性影響因素的識別研究——以餐飲行業(yè)O2O模式為例[J].中國管理科學(xué),2016,24(5):168-176.

[9] Dong L J,Li X B,Peng K.Prediction of rockburst classification using Random Forest[J].Transactions of Non-ferrous Metals Society of China,2013,23(2):472-477.

[10] 李強(qiáng),趙晨杰,羅先錄.基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計(jì)[J].軟件工程,2018,21(5):34-37.

作者簡介:

楊森彬(1993-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),文本挖掘.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 日韩激情成人| 波多野结衣无码中文字幕在线观看一区二区 | 在线亚洲小视频| 在线a视频免费观看| 精品福利国产| 久久美女精品| 日韩毛片免费观看| 成人福利在线视频| 国产精品自拍合集| 亚洲无码37.| 国内熟女少妇一线天| 欧美激情,国产精品| 黄色网站在线观看无码| 欧美日韩中文字幕二区三区| 欧美日韩国产综合视频在线观看| 国产第八页| 99伊人精品| 国产视频资源在线观看| 国产乱视频网站| 久久精品免费国产大片| 国产精品久线在线观看| 日韩二区三区| 91精品国产自产在线老师啪l| 毛片网站在线看| 国产一区二区三区视频| 人妻无码一区二区视频| 97视频免费看| 一级成人a做片免费| 中文字幕亚洲乱码熟女1区2区| 国产麻豆永久视频| 国产精品部在线观看| 国产一级二级在线观看| 成人免费一区二区三区| 无码一区二区三区视频在线播放| 日韩在线视频网站| 久久亚洲欧美综合| 日韩a级片视频| 中文字幕亚洲第一| 妇女自拍偷自拍亚洲精品| 亚洲av无码片一区二区三区| 久久精品波多野结衣| 亚洲中文字幕手机在线第一页| 欧美亚洲另类在线观看| 国产一级无码不卡视频| 99久久精品国产麻豆婷婷| 国产综合精品一区二区| 国模沟沟一区二区三区| 五月婷婷综合色| 性喷潮久久久久久久久| 日韩精品一区二区三区大桥未久| 成年看免费观看视频拍拍| 久久国语对白| 国产情精品嫩草影院88av| 国产精品va| 欧美日一级片| 女人18毛片一级毛片在线| 国产一区二区精品福利| 色综合天天综合中文网| 九色视频线上播放| 国产又粗又爽视频| 精品久久综合1区2区3区激情| 国产在线观看人成激情视频| 国产男人天堂| 欧美劲爆第一页| 精品人妻一区无码视频| 免费看黄片一区二区三区| 午夜不卡福利| 国产精品性| 亚洲视频在线网| 久久精品人人做人人爽97| 热九九精品| 久久夜色撩人精品国产| 欧美一级夜夜爽| 啪啪啪亚洲无码| 国产精品冒白浆免费视频| 久久综合五月婷婷| 国产免费人成视频网| 色综合狠狠操| 天天综合网亚洲网站| 亚洲人成网站在线播放2019| 亚洲侵犯无码网址在线观看| 精品国产一二三区|