佘朝兵
摘 要:運用數據挖掘技術中的線性回歸算法,對上海市61家火鍋餐廳在大眾點評網的數據進行處理,分析與評分有關的影響因素,幫助火鍋餐廳管理者做出決策。數據挖掘結果表明:朋友之間在餐廳中聚餐的次數、口味、服務質量越高、評分越高;家庭在餐廳聚餐次數、提供夜宵次數、餐廳老字號年數越多,評分越低。
關鍵詞:線性回歸;影響因素;火鍋餐廳
中圖分類號:F224.31 文獻標志碼:A 文章編號:2095-2945(2018)10-0168-02
Abstract: Using the linear regression algorithm in data mining technology, the data of 61 hot pot restaurants in Shanghai on dianping.net are processed, and the influencing factors related to score are analyzed to help the managers of hot pot restaurants to make decisions. Data mining results show that: the higher the number of times, taste, quality of service of friends are in the restaurant, the higher the score is; the larger the dinner times, the number of times to provide supper, the years of running the restaurant are for families in the restaurant, the lower the score is.
Keywords: linear regression; influencing factors; hot pot restaurant
1 概述
在移動互聯網時代,客戶選擇餐飲的決策方式已經悄然發生改變。過去,客戶通過同事、朋友的介紹選擇餐廳。而今,雖然上述決策方式還產生作用,但是越來越多的客戶主要選擇利用移動互聯網信息選擇餐廳,例如依賴“大眾點評網”的上其他客戶對餐廳的點評信息進行決策。餐廳在“大眾點評網”等信息平臺上的評分越高,客戶選擇該餐廳的概率越大。因此在餐飲行業,傳統的宣傳手段已經無法適應現在的用戶的要求。如何提高在“大眾點評網”等互聯網信息平臺上的評分,已經成為餐飲營銷宣傳的關鍵問題。眾所周知,服務、環境等因素都可能影響客戶的評分,哪些因素是影響客戶評分的關鍵因素呢?通過線性回歸算法分析影響餐飲行業評分的關鍵因素,可有利于餐飲行業管理者為營銷宣傳提供決策依據。上海是全球著名金融中心,全球人口規模和面積最大的都會區之一。以上海市火鍋餐廳為例進行分析,可以為其他城市的餐飲評分影響因素分析提供參考。
2 線性回歸算法
回歸分析是指通過分析已知的大量數據,發現變量之間的統計關系,構建描述這種關系的模型,最終利用構建的模型預測新的數據。回歸分析不僅可以通過指定變量的值預測結果,還可以準確描述指定變量影響結果的程度。
2.1 線性回歸算法的基本原理
線性回歸是利用統計原理來分析變量之間定量關系的一種方法。該算法主要的目的是通過一個變量來預測另外一個變量的值。線性回歸分為一元線性回歸和多元線性回歸兩類。前者是指在回歸分析中,只包含一個自變量和一個因變量,并且這兩者的關系可以通過直線來描述;后者是指在回歸分析中,包含多個自變量和一個因變量,并且變量之間的關系也是直線關系。
在實際生活中,一個結果的出現可能與多個因素有關。因此處理實際問題時,一般將多個因素抽象為多個自變量,將結果抽象為因變量,用多元回歸分析方法進行處理。
不妨設y為因變量,x1,x2,…,xn為自變量。則多元線性回歸方程可表示為y=w1*x1+w2*x2+…+wn*xn+w0;其中w1,w2,…wn表示回歸系數,w0是常規項?;貧w系數wi表示了第i個自變量對因變量的影響程度,系數為正,則該自變量與因變量正相關;系數為負,則該自變量與因變量負相關。多元線性回歸分析就是通過大量數據計算多元線性回歸的系數。系數的參數估計一般采取最小二乘法來表示,即要求估計的系數得到的預測值與實際值的誤差平方和最小。誤差平方和的計算公式如(1)所示:
e=∑■■(y(i)-x(i)Tw(i))2 (1)
其中y(i)表示第i個線性方程的因變量的實際值,x(i)是第i個線性方程自變量向量,w(i)第i個線性方程回歸系數向量。用矩陣表示如公式(2)所示:
e=(y-Xw)T (y-Xw) (2)
由于采取最小二乘法,因此目標是上述公式中的最小值。通過公式(2)對w進行求導,即可以得到回歸系數的公式如下:
w'=(XTX)-1XTy (3)
2.2 算法步驟
線性回歸算法的步驟如下:
步驟1:收集數據;
步驟2:預處理數據特別是對數據進行歸一化處理;
步驟3:輸入訓練數據得出回歸系數;
步驟4:根據回歸系數,分析回歸效果。
3 應用實例
3.1 數據來源
本節通過網絡爬蟲技術,在“大眾點評網”收集上海市61家火鍋餐廳的數據。數據集包含了61個樣本,每個樣本包括店名、點評條數、人均消費額、口味、環境、服務、有無團購、有無外賣、有無訂座、朋友聚餐次數、隨便吃吃次數、刷卡次數、家庭聚會次數、情侶約會次數、夜宵次數、無線上網次數、休息小憩次數、老字號年數、免費停車次數、點評分等屬性數據。部分實例數據如表1所示;訓練樣本中屬性的排列順序如表2所示。
表2 屬性排列順序
3.2 數據預處理
由表1的數據可知,部分屬性的數值屬于離散型數據,例如有無團購、有無訂座、有無外賣三個屬性的值是“有”、“無”兩個類型。為了計算方便,將“無”用數值0表示、將“有”用數值1表示。其次屬性的值得數值差距較大,如點評條數的屬性的值的區間是[587,4762],而口味、環境、服務等屬性的值在10內。由于屬性之間的數值差距較大可能大致求解最優解時迭代多次,收斂速度慢等原因。因此有必要對屬性之間的數據進行歸一化處理。歸一化處理的方法有線性歸一化、標準差標準化、非線性歸一化等方法。本文采用的是線性歸一化方法。該方法的目的是將所有屬性值設定在[0,1]區間。具體計算如公式(2)所示。
xnarmalization=■ (4)
3.3 測試結果
本文利用之前的代碼,通過對收集的61個樣本數據進行預處理后利用線性回歸算法進行訓練,算法得到回歸系數的結果如表3所示。
表3中得到的回歸系數可分成三類,第一類是系數值低于5%;其余絕對值高于5%的系數又可分為系數值為正和負兩類。回歸系數數值低于5%,可認為該系數對應的自變量對因變量的變化的影響忽略不計。由表3可知,回歸系數w2、w6、w7、w8、w10、w11低于5%,對應的自變量即人均消費額、有無團購、有無外送、有無訂座、隨便吃吃次數、刷卡次數等屬性對餐廳的評分的影響可忽略。在所有正相關屬性中,w9、w5、w3、w16等系數對應的屬性值對餐廳評分的影響較大。其他屬性值不變的情況下,這些屬性值越大,評分越高。這些屬性分別是朋友聚餐次數、服務質量、口味、休閑小憩次數。在所有負相關的屬性中,w12、w14、w17等系數對應的屬性的值對餐廳評分營銷較大。其他屬性值不變情況下,這些屬性的值越大,評分越低。這些屬性分別是家庭聚會次數、夜宵次數、老字號年數。
參考文獻:
[1]哈林頓.機器學習實戰[M].李銳,譯.北京:人民郵電出版社,2013.
[2]李瑞,姜新元,秦濤.多元線性回歸在大壩變形監測數據處理中的應用[J].黃河水利職業技術學院學報,2017,29(1):17-19.
[3]陳海鵬,盧旭旺,等.基于多元線性回歸的螺紋鋼價格分析及預測模型[J].計算機科學,2017,44(s2):61-64.
[4]胡繼禮,楊松濤.線性回歸在糖尿病診斷中的應用[J].河南工程學院學報(自然科學版),2011,23(4):57-61.
[5]田秀芹.基于多元線性回歸的糧食產量預測[J].科技創新與應用,2017(16):3-4.
[6]李琦,李華新.基于多元線性回歸分析的安徽省金寨縣域經濟發展研究[J].科技創新與應用,2013(07):266.
[7]石偉,劉愛華,張立忱,等.多元線性回歸在密山井水位影響因素分析的應用[J].科技創新與應用,2014(01):294.