999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘技術的紅酒評分預測模型的設計與分析

2019-03-21 00:23:34王柏
現代商貿工業 2019年7期
關鍵詞:機器學習數據挖掘

王柏

摘要:隨著現代社會的快速發展,紅酒行業已慢慢走向全球化與大眾化,更多的紅酒品牌和品種也逐漸被世人所知。然而,紅酒品質也分三六九等,如何判斷一款紅酒是優是劣?利用SPSS,Excel等軟件,使用回歸、決策樹、聚類等經典機器學習算法,對紅酒的價格、評分、產地等因素進行統計與分析。最終得出紅酒的原產國,省份以及品種基本可以決定紅酒的優劣。

關鍵詞:紅酒;數據挖掘;機器學習

中圖分類號:TB文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.07.100

1前言

紅酒,是一種有著漫長歷史的飲品。早在公元前1000年,紅酒就在地中海沿岸大部分地區繁衍傳播,并逐漸發展成為高檔飲品。在全世界的基督教信徒的眼中,紅酒被視為耶穌的血液,這一點也促進了紅酒的平民化。紅酒不僅僅給人以高雅和浪漫的感覺,在很多女性心中還有美容駐顏的功效,隨著時間的推移,社會也在快速發展,人們生活水平逐步提升,紅酒市場目前擁有著巨大的發展潛力和良好的發展前景,紅酒也將逐漸走向全球化與大眾化,讓越來越多的人有機會去品嘗。

近年來,越來越多的人更加講究紅酒的品質,傳統紅酒的品鑒,要考慮紅酒的香氣、口感、結構、釀造工藝、風土和價格等綜合因素。但這些復雜的品鑒技術需要積年累月的品酒經驗,對于大多數普通人來說,學習這門技術并不容易。因此,人們對于紅酒的品質界定十分地模糊,并不清楚哪些紅酒檔次較高,而哪些紅酒檔次相對較低。為了幫助人們通過更簡單直接的方法去了解紅酒的品質,本文根據Kaggle網站上Wine Reviews專題提供的129970組數據,使用決策樹,聚類等經典機器學習算法,分析數據規律,建立了根據紅酒產地、品種、制造商等因素預測紅酒品質的模型;并探索了影響紅酒檔次的最主要因素。該模型可以為喜歡紅酒的人們提供參考,從而使他們對于紅酒品質有著更加清晰的認識。

2數據介紹和預處理

本文使用的Wine Reviews數據集的原始出處是WineEnthusiast網站上不同國家用戶對眾多紅酒的評論。本數據集主要包含了129970款紅酒的產地國(Country)、省份(Province)、城市(Region)、評分(Points)、描述(Description)、制造商(Winery)、品種(Variety)、價格(Price)等重要因素。

數據集中,評分和價格都是數值型屬性,為了構建決策樹模型,在預處理過程中,要對這兩個屬性進行離散化處理。本文根據分數的高低初步劃分這些紅酒的檔次,大于等于90分的為高等(High),大于等于85分,小于90分的為中等(Medium),小于85分的則為低等(Low)。同時,本文對價格進行排序,將紅酒的價格劃分為三個檔次:大于等于500美元的為貴(Expensive),大于等于100美元,小于500美元的為普通(Normal),小于100美元的為便宜(Cheap)。

同時在這129970組數據當中,缺失部分數據的紅酒樣本會對計算產生影響,為消除這部分影響,本文刪除了部分數值或資料缺失的樣本,保證紅酒數據的完整性,為后文中的預測模型的準確性提供更加科學的依據。

3單因素數據分析

3.1原產國、價格與評分

首先,本文將對129970款紅酒按照國家(country)分類,分別求出不同國家紅酒的平均價格和平均評分。使用了Excel的“分類匯總”功能,將國家作為“分類字段”,將“價格”和“評分”作為“匯總方式”,使用“平均值”作為匯總項。得到分類匯總的結果后,本文使用“定位”功能,將匯總結果單獨取出,使用EXCEL圖表中的“組合圖”,分別用柱形圖表示“評分”,用折線圖表示“價格”,得到結果如圖1所示。

通過比較每個國家紅酒的平均價格與平均評分,我們可以判斷哪些國家的紅酒更加物美價廉。根據圖1我們分析得出,法國、匈牙利、盧森堡、德國、意大利等這些我們熟知的紅酒發展歷史悠久的歐洲國家的紅酒性價比反而比較低。反而,如印度、摩洛哥、阿爾巴尼亞、塞爾維亞、智利、土耳其等國家,其紅酒擁有不俗的品質,但是價格并不高,他們出產的紅酒往往是性價比高的選擇。

其次,我們重點觀察了高品質紅酒的原產地。紅酒平均得分最高的五個國家均在歐洲,分別是英國、奧地利、法國、德國和意大利。在亞洲國家中,評分最高的三個國家是土耳其、印度和以色列。韓國、中國、黑山共和國的紅酒的平均評分是最差的。

由此可見,原產國對于紅酒的評分與價格或多或少產生了一定的影響,本文會將在多因素分析中進一步解釋與說明。

3.2省份、價格與評分

本文使用同3.1相似的辦法,對各個原產國中不同省區(province)的性價比進行了計算,發現每個原產國都會有至少一個較大的紅酒產區。這些較大的紅酒產區出產的紅酒評分都相對較高,同時價格也相對較昂貴。例如,我們熟知的法國波爾多紅酒產區,其紅酒的平均得分在所有的省份中并不算很高,但紅酒的平均價格高達57.3美元(約合372.45元人民幣)。

由此可見,出自著名產區的紅酒并不一定都是性價比可行的紅酒。同樣,本文將會在多因素分析中運用決策樹算法進一步研究省份對于價格與評分的影響。

3.3描述、價格與評分

如何預測一款紅酒的價格與評分,評價者們對紅酒的描述(description)也成為了一個不可或缺的因素。我們使用python NLTK package對描述中詞進行解析統計。其中,出現頻率最高的Top10名詞是:wine,flavor,fruit,acid,cherri,aroma,tannin,palat,spice,間接說明了描述的內容主要是以紅酒的氣味、口味為主,“果味”、“香料”、“酸甜度”都是評價一款紅酒很重要的因素。

為了簡單分析紅酒描述對于價格和評分的影響,本文主要提取了6個不同方面的關鍵詞:絲滑(Smooth),純正(Pure),余味(Aftertaste),百分百(100%),顏色(Color)和新鮮(Fresh),并計算出含有這些高頻詞匯的紅酒平均價格與平均評分的關系。在性價比方面含有“新鮮”關鍵詞的紅酒性價最低,含有“百分百”關鍵詞的紅酒性價比最高。在評分方面,平均得分最高的是描述中含有“純正”關鍵詞的紅酒,為9041;但這些紅酒價格不菲,平均價格為51.12美元。同時我們發現,性價比相對較低的紅酒組平均得分也不是很高。

由于描述眾多,不便于統計,并且經過初步分析,描述對于紅酒的性價比影響并不是很大,因此在下面的多因素分析中將暫時不作為自變量進行分析。

3.4品種、價格與評分

如何更加全面準確地預測紅酒的評分,紅酒的品種也是一個不可或缺的重要因素。本文運用Excel當中的“分類匯總”功能,將紅酒的性價比根據紅酒的種類進行分類匯總并進行比較。其中Nebbiolo的性價比最高,為0.68;最低的是Rosé,為0.20。而Nebbiolo品種的紅酒得分普遍較高,為90.22分,但價格也較為昂貴,平均價格為61.70美元(約合401.05人民幣),總體來看,評分較高的紅酒品種價格都相對較高,評分較低的紅酒品種也相對較便宜,因此紅酒的品種對于紅酒評分的預測基本呈正相關,即越高檔的品種,預測的評分也會越高。

3.5綜述

在單因素數據分析中,本文主要通過比較平均價格與平均得分的比值,初步對各個影響因素進行初步的分析。本文初步認為,原產國有可能會成為預測紅酒得分、價格模型中一個較為重要的評分標準;描述也會有所影響,但是由于描述眾多,暫不作為預測紅酒評分的標準之一。本文將會在下一章中,運用決策樹等經典機器學習算法,進一步分析各個因素對于紅酒品質的影響,構建評分預測模型。

4多因素數據分析

為使該模型更加簡潔,本文通過計數的方式將48個國家分為US,France,Italy,Spain,Chile,Argentina,Portugal,Australia和Others九大類,其中前八類占總數據的90.75%;將446個省區分為California,Washington,Tuscany,Northern Spain,Mendoza Province,Oregon,Burgundy,Veneto,South Australia,Piedmont,Bordeaux,New York,Sicily & Sardinia和Others十四類,其中前十三類占總數據的68.14%;將620個紅酒品種分為Chardonnay,White Blend等和Others共二十類,其中除Others以外的其他類別占總數據的7316%。這樣的提取基本可以為下面紅酒評分預測系統的測試提供可靠的規律。

進行該處理后,本文在每條數據后添加隨機數函數 RAND,生成一個所在行的隨機數,根據隨機數的大小對樣本進行重新排序,并選取其中最先出現的20000款紅酒的數據,作為我們的隨機樣本數據,建立決策樹模型進行分類和預測。在該決策樹模型中,本文以得分作為因變量,原產國,省區和品種作為自變量,價格為影響變量。選取這20000款中70%作為訓練樣本,剩余的30%作為測試樣本。訓練樣本的決策樹模型如圖2所示。

根據計算結果分析,該決策樹模型的正確率約為87.8%,樹的深度為6,共有43個節點。其中,來自Tuscany,Burgundy,Bordeaux, Piedmont和South Australia的Merlot, Syrah和Bordeaux-Style White Blend品種紅酒的預測得分最高,為93.602;來自Chile, Argentina, Spain和Portugal的Zinfandel, Sauvignon Blanc,White Blend, Rosé, Merlot, Nebbiolo和Shiraz品種的紅酒預測得分最低,為85.100.大多數紅酒的分數都在87分至92分之間。據此,該模型基本可以準確根據紅酒的原產國,省區和紅酒的品種對紅酒的評分進行預測。

5總結

本文首先單因素分析了原產國,產地和品種對紅酒的價格與評分進行了簡單的分析,之后以此為基礎,運用決策樹算法,建立了較為簡單的紅酒評分預測系統的模型。從實驗結果來看,該系統的準確率較高,因此基本可以說明紅酒的原產國,省份以及品種大致決定了紅酒的評分。

但是,該紅酒評分預測系統也有一定的局限性。首先,隨機選取的樣本當中不排除平均數值較實際數值偏低或偏高的情況,因此不一定能夠準確地反映一款紅酒的整體水平;其次,該紅酒評分預測模型也只是通過分析紅酒的原產國、省份和品種而建立的,忽略了酒廠,描述以及品牌對于預測紅酒評分的影響,因此有可能會錯誤地預測紅酒的評分。

雖然有一定的局限性,但是該紅酒評分預測系統提供的數據依然有值得參考的價值,人們可以通過這個系統初步了解一款紅酒的得分,從而了解這款紅酒處于什么樣的檔次。同時隨著服務業的快速發展,該紅酒評分預測系統也將具有根據人們的需求為人們推薦評分較高或性價比較高的紅酒的功能,同時也會根據用戶對于這款紅酒的評論不斷更新紅酒的評分,使該紅酒評分預測系統更加完善。

然而,無論該紅酒評分預測系統有多么地完善,真正評分高的紅酒,依然需要專業的品酒師進行品鑒,提供更可靠,更科學的結論。

參考文獻

[1]尚朝軒.基于類決策樹分類的特征層融合識別算法[J].控制與決策,2016,31(6):1009-1014.

[2]Wang size.The Study on Evaluation System of Wine Based on Data Mining[J].Advances in Applied Mathematics,2015,4(4):376.

[3]Li,Weishu,et al.Improved Wine Quality Recognition Based on Particle Swarm Optimization Neural Network[Z].2018.

猜你喜歡
機器學習數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于詞典與機器學習的中文微博情感分析
數據挖掘技術在中醫診療數據分析中的應用
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 久久免费成人| 国产性精品| 丁香婷婷激情网| 成人一区专区在线观看| 无码精品一区二区久久久| 日本欧美午夜| 在线永久免费观看的毛片| 欧美色香蕉| 精品国产成人高清在线| 亚洲美女高潮久久久久久久| 亚洲欧洲日韩国产综合在线二区| 国产永久无码观看在线| 国产大片黄在线观看| 日本国产在线| 992Tv视频国产精品| 久久亚洲欧美综合| 日本亚洲成高清一区二区三区| 精品一区二区无码av| 夜色爽爽影院18禁妓女影院| 在线无码九区| 91久久偷偷做嫩草影院电| 乱人伦99久久| 国产在线视频导航| 精品国产网| 国产成人精品一区二区| 亚洲人在线| 日本三级欧美三级| 日韩 欧美 小说 综合网 另类| 伊人成人在线| 激情综合激情| 中文字幕乱妇无码AV在线| 毛片三级在线观看| 国产成人久久777777| 亚洲αv毛片| 四虎影视8848永久精品| 日韩无码精品人妻| 丁香亚洲综合五月天婷婷| 国产视频一区二区在线观看| www精品久久| 精品少妇人妻一区二区| 国产黄色爱视频| 欧美国产视频| 一本无码在线观看| 国产午夜精品一区二区三| 日本黄色a视频| 日韩av无码精品专区| 国产女人在线观看| 免费观看男人免费桶女人视频| 欧美激情首页| 日本五区在线不卡精品| 在线亚洲精品自拍| 麻豆AV网站免费进入| a级毛片免费看| 中文字幕日韩丝袜一区| 国产探花在线视频| 成色7777精品在线| 久久永久视频| 四虎永久免费网站| 伊人久久大香线蕉影院| 久久久久免费精品国产| 亚洲一区二区三区国产精华液| 久久不卡精品| www.狠狠| 成年女人a毛片免费视频| аv天堂最新中文在线| 午夜精品区| 免费一级毛片不卡在线播放| 777午夜精品电影免费看| 精品国产三级在线观看| 精品国产污污免费网站| 怡红院美国分院一区二区| 9999在线视频| 日本福利视频网站| 手机在线看片不卡中文字幕| 久久黄色免费电影| 日韩午夜片| 国产亚洲高清在线精品99| 日韩色图区| 呦视频在线一区二区三区| 亚洲人妖在线| 精品人妻无码区在线视频| 亚洲系列中文字幕一区二区|