999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lasso-LDA的酒店用戶偏好模型

2021-02-25 07:48:18趙志杰張艷榮周婉婷孟令躍
計算機應用與軟件 2021年2期
關鍵詞:特征用戶方法

趙志杰 劉 巖 張艷榮 周婉婷 孟令躍

(哈爾濱商業(yè)大學計算機與信息工程學院 黑龍江 哈爾濱 150028)(哈爾濱商業(yè)大學黑龍江省電子商務與信息處理重點實驗室 黑龍江 哈爾濱 150028)

0 引 言

互聯(lián)網與新興信息技術的快速發(fā)展使得人們不再只是信息的傳遞者同時也是信息的創(chuàng)造者。互聯(lián)網海量數據的存在,使用戶難以高效地獲取自己感興趣的數據,導致“信息過載”現象的存在。2018年年末在線旅游數據生態(tài)與治理峰會上八大OTA平臺聯(lián)合發(fā)布行業(yè)數據治理倡議書《在線旅游行業(yè)內容和數據生態(tài)共建》。這一倡議書建議為消費者提供更真實可靠的旅游數據,幫助用戶正確、高效地選擇和決策。隨著移動互聯(lián)網基礎設施的不斷完善,互聯(lián)網的普及率急速上升,多元化、專業(yè)化的酒店顧客需求開始覺醒。中國互聯(lián)網絡信息中心發(fā)布的《第43次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截止到2018年12月,30.3%的網民在網上預訂酒店[1],這一舉措給酒店業(yè)的建設提出挑戰(zhàn)。由此可見,研究消費者的用戶偏好對如今的酒店業(yè)而言意義非凡。

本文以OTA巨頭“攜程網”上的五種類型酒店顧客產生的酒店評論為基礎數據,運用文本挖掘技術、情感分析技術和機器學習算法分別對五類用戶評論數據進行分析處理,通過對文本數據進行特征聚類、權值計算、情感傾向性估計值計算、特征優(yōu)選,構建基于Lasso-LDA的用戶偏好模型。采用LDA主題模型聚類,總體得出顧客對于酒店的一系列偏好因素;運用Lasso回歸進行特征篩選,基于每一類型的顧客剔除不重要的特征因素以達到特征優(yōu)選,最后得到用戶偏好模型。模型有助于顧客根據自己的需求精準地選擇適合的酒店,而對于商家,也可以依此有針對性地打造出個性化服務和創(chuàng)新經營方式,提升市場競爭力。

1 相關研究

1.1 LDA模型聚類

LDA是最先由Blei等在2003年提出的包含文檔-主題-詞3層貝葉斯文檔主題生成模型,LDA是一種無監(jiān)督的機器學習方法,用來識別隱藏在文檔集或語料庫中的主題信息。對于LDA在文本挖掘中的應用,文獻[2]使用LDA對小紅書中的評價文本數據進行主題建模,將聚類得出的高頻詞劃分為8個主類目,構建結構方程模型研究小紅書用戶粘性形成的動態(tài)機制。文獻[3]將LDA這種半監(jiān)督方法與其他的半監(jiān)督方法和監(jiān)督分類方法對比,結果表明,在文本分類精度方面LDA方法遠優(yōu)于其他方法。同時,實驗證明LDA方法可適用于標簽文本缺失的情況下。

隨著LDA模型的不斷完善,LDA被廣泛應用于各行各業(yè)的文本分析。文獻[4]采用LDA模型對汽車保險欺詐索賠中的文字信息進行文本分析,結合深度神經網絡對數據進行訓練。實驗結果表明,結合深度神經網絡和LDA的框架適用于判斷汽車保險欺詐問題。文獻[5]描述一個使用電子請愿數據訓練和驗證LDA的框架,通過嚴格的訓練和評估,87%的LDA生成的主題對法官了解請愿者的主要訴求有參考意義,發(fā)現LDA主題可以比通過手動內容分析提取的主題更具一些優(yōu)勢。LDA能夠反映文本中表達的多個主題,提取人類編碼器未突出顯示的新主題,并且不易受人類偏見的影響。

1.2 Lasso特征優(yōu)選

Lasso是由Robert Tibshirani于1996年首次提出的一種基于壓縮估計的特征選擇方法并且應用于各個行業(yè)領域。文獻[6]將Lasso框架應用于虛擬金融上,把返回的21個潛在因素優(yōu)化替換為8個因素,找出影響強度最重要的兩種變量。文獻[7]將Lasso應用于船舶業(yè)中,用以預測不同海況和天氣下船舶的燃油消耗,得到大量的特征變量,應用Lasso實現特征選擇,提出一種新的預測模型。文獻[8]應用Lasso研究與金融因素、市場驅動指標和宏觀經濟預測因素相關的市場隱含信用評級的決定因素,記錄了實質性的預測能力,將Lasso選擇的模型與基準有序概率模型進行比較,發(fā)現Lasso選擇的模型具有卓越的預測能力,在全部樣本預測中都優(yōu)于基準有序概率模型。文獻[9]將Lasso應用在醫(yī)藥行業(yè)上,提出一種新的藥物-靶標相互作用預測方法,使用Lasso減少提取的特征信息維度,然后使用合成少數過采樣技術(SMOTE)方法處理不平衡數據。最后,將處理后的特征向量輸入隨機森林(RF)分類器以預測藥物-目標相互作用。文獻[10]提出一種自適應特征提取算法,預先生成各種大氣條件下的光譜特征,然后利用Lasso算法進行快速特征優(yōu)選,選擇出最優(yōu)目標-背景組合重構背景光譜,最后提取目標特征。文獻[11]將Lasso應用于金融領域,不同于以往常規(guī)的變量選擇,提出針對時間序列的改進自適應Lasso方法,提高對未來的預測能力。

1.3 用戶偏好

新興信息技術推動著消費結構從生存型消費向享受型、發(fā)展型消費轉變,消費者不再被動地接受來自商家提供的服務,而是通過自身的參與和網絡生成內容主動地發(fā)表自己的偏好。文獻[12]提出一種從一組評論中提取評論貢獻者偏好的方法。提取的偏好用于酒店推薦,使得貢獻者給出的具有類似于用戶偏好的評估值被賦予更大的權重,用此方法可以推薦符合用戶偏好的酒店。文獻[13]提出用于從評論文本中學習和表示用戶的偏好知識,利用所獲得的表示來支持評級預測的一種混合方法,并用此方法對亞馬遜產品數據集進行實驗,揭示用戶偏好知識表現的能力以及對評論預測的影響。文獻[14]利用用戶的評分與評論數據,提出一種基于貝葉斯網絡的用戶偏好建模方法。利用隱變量確定模型的初始結構約束和初始參數約束,使用亞馬遜電影評價數據集作為測試數據,對用戶偏好模型進行驗證。文獻[15]針對高維、稀疏的評分數據提出一種基于深度信念網絡和貝葉斯網絡的用戶偏好建模方法,分別利用深度信念網絡和貝葉斯網絡對評分數據進行分類以及描述相關屬性間的不確定性,最后使用MovieLens和大眾點評數據對模型進行驗證。

CNNIC報告顯示,截止到2019年6月我國在線旅行預訂用戶占網民整體的48.9%。隨著中國經濟發(fā)展加速,“人均GDP 1萬美金俱樂部”成員呈指數上升,越來越多的新人口進入旅游消費市場,使得酒店預訂需求進一步增長。Trustdata移動大數據監(jiān)測平臺于2019年8月29日發(fā)布的《2019上半年中國在線酒店預訂行業(yè)發(fā)展分析報告》顯示,主流在線酒店預訂平臺用戶粘性均超20%,其中攜程表現最優(yōu)達24.3%。因此,本文基于攜程網平臺進行調研,將本文所得情感傾向性估計值與之相比,發(fā)現存在評論與分值具有偏差的問題。本文利用AipNLP計算情感傾向性估值對存在偏差的數據進行剔除,以便得到實驗所需的真實數據,本文構建的模型進一步提升酒店的管理經營模式。攜程有著自有的評價指標,分別是環(huán)境、設施、服務和衛(wèi)生四個方面,但分析大量的評論數據后,發(fā)現評論的文本與攜程自有的用戶偏好特征不能完全地進行匹配,評論文本本身包含更多和更詳細的信息。為了獲得更加客觀和細致化的用戶偏好特征,本文在評價指標的獲取中使用LDA模型進行用戶偏好特征聚類,為使獲取的特征更理想,使用Lasso算法剔除掉聚類中不重要的特征,得以分辨出五種不同類型的顧客所關注的特征指標的不同,使得不同類型的顧客個性化偏好存在差異。例如,假設用戶重視交通的便利程度,則對于這類顧客而言個性化偏好為交通方面,使用Lasso特征優(yōu)選盡可能地剔除與偏好特征不一致的特征,從而使商家有效地對不同類型的顧客提供不同的酒店服務。

綜上所述,目前國內對酒店用戶偏好模型的構建還有待完善,大多數學者只是從酒店本身總體的經營情況進行建模,得出的一系列特征指標是針對酒店總體性的,并沒有從酒店客戶群體進行考慮,未細分顧客群體,盲目地將總體的偏好強加于各類顧客上。因此,本文基于這一問題,首先使用LDA主題模型將所得到的數據進行總體聚類,得出一系列特征因素;然后針對每種類型客戶的TF-IDF權值計算每種類型客戶的個性化偏好屬性值;最后通過對比三類回歸方法,利用更為精準的Lasso特征優(yōu)選得到每種類型客戶的優(yōu)選特征,構建基于Lasso-LDA的用戶偏好模型,為酒店管理者隨時追蹤顧客認知和服務質量提供客觀、真實、有效的信息,從而能快速有效地為不同的用戶群體提供其滿意的個性化服務,而不再局限于現有酒店行業(yè)一成不變的服務,為酒店提升行業(yè)競爭力。

2 模型設計

本文主要運用LDA模型對用戶偏好特征聚類,基于TF-IDF對用戶偏好權值進行計算,結合情感傾向性分析方法對酒店用戶評論進行統(tǒng)計分析,確定用戶偏好程度,最后運用Lasso算法對用戶偏好特征進行篩選,構建出基于Lasso-LDA的用戶偏好模型。該模型按照信息處理的先后順序分為三個部分:數據的采集及預處理,基于LDA的用戶特征偏好的確定,基于Lasso-LDA的用戶偏好模型的構建。本文的研究框架如圖1所示。

圖1 基于Lasso-LDA用戶偏好模型研究基本框架

2.1 數據來源及預處理

(1) 數據來源。攜程財報公布數據顯示,截至2018年12月31日,攜程全年住宿預訂收入為116億元人民幣,同比增長21%,全年旅游度假業(yè)務營業(yè)收入為38億元,同比增長27%,整體行業(yè)發(fā)展呈上升趨勢,行業(yè)優(yōu)勢明顯。因此,本文主要以攜程網上的酒店評論數據為數據源,借助網絡信息采集工具“八爪魚采集器”對數據進行采集,并將采集到的每一條記錄內容通過八爪魚采集器以Excel表格形式導出。

(2) 基于AipNLP的反差評論數據剔除。由于在所收集的數據中會存在評論數據與評分數據不一致的數據,因此采用情感傾向性分析方法對這類數據進行排除,確保數據的有效性。本文采用百度自然語言處理平臺進行情感傾向性估值計算,該平臺可自動對包含主觀信息的文本進行情感傾向性判斷,為口碑分析、話題監(jiān)控和輿情分析等應用提供基礎技術支持。同時,該平臺基于深度學習訓練,在相對長的句子上仍能確保較高的效果,可得到整體精度很高的情感傾向性分析結果。此外,該平臺垂直類效果優(yōu),在酒店、汽車等多個垂直類上情感傾向性分析可達到95%以上的準確率,并且已應用于實際電商產品銷售分析中。在測試過程中本文應用情感傾向分析接口對包含主觀觀點信息的文本進行情感傾向性類別(積極、消極和中性)的判斷,例如用戶評論:“前臺的服務意識沒有達到星級標準,體驗超差!直接給安排的吸煙區(qū)房間,這季節(jié)根本不滿房,離店時又說沒提早和她說開發(fā)票,服務和體驗超差!”經過AipNLP處理之后,可得到表1所示的結果,其中:positive代表積極類別的概率;negative代表消極類別的概率;confidence代表分類的置信度;sentiment代表情感傾向性分類結果。在測試過程中主要應用post方式進行調用,JSON作為返回格式。由于攜程平臺上的酒店用戶評分采用5分制原則,為了便于對比,本文根據5×′positive′將得出的情感傾向性估值與酒店評分進行對比,將評論數據與評分數據不一致的數據剔除。通過分析示例用戶評價內容可知該評論為差評,而用戶給出的星級評分為5分,這明顯高于情感傾向性估值0.03分,為無效數據,需剔除。在實驗數據處理中將采集到的每條評論數據運用AipNLP進行上述處理,將反差數據排除,由于AipNLP計算出的情感傾向性估值較攜程平臺上用戶星級評分值更加客觀和具體,因此,將得到的情感傾向性估值數據進行保存,方便后續(xù)建模使用。

表1 反差數據用例

(3) 數據預處理。數據預處理是為了保證數據的有效性,是數據處理過程和分析過程中不可缺少的關鍵步驟。在本文數據預處理過程中主要對數據進行清洗、分詞、去停用詞及去噪處理。為了保證模型構建的準確度,采用中科院譚松波教授整理的酒店評論數據集作為本文模型構建時數據處理的數據集。該數據集共10 000篇評論,將其80%的評論作為訓練集,20%的評論作為測試集。在對所收集到的數據進行分析測試時發(fā)現,需要清洗掉的數據主要包括:① 同一個用戶進行多次評論,且評論內容相同,此時必須對重復數據進行刪除,否則會對所測試的真實的正負面評論產生“虛高”影響;② 有些用戶評論為無效評論,比如評論內容全部為標點符號或表情符號,這些數據需全部刪除。接下來針對清洗后的評論語句,在處理過程中運用jieba分詞工具進行分詞處理,同時加載哈工大的停用詞表,停用詞表會根據本文的需要剔除一些詞匯。最后利用過濾函數過濾如日期、英文等噪聲數據,將經過預處理后的數據保存進行后續(xù)處理。

2.2 基于LDA的用戶特征偏好確定

本文采用LDA(隱含狄利克雷分布)主題模型聚類方法面向處理過的數據,聚類一定量的因素來確定用戶對酒店服務的特征偏好。LDA是判斷兩個文檔的關聯(lián)程度使用的方法,主要查看兩個文檔中出現相同單詞的個數,一個文檔表示一些主題所構成的概率分布,一個主題代表一些單詞所構成的概率分布。同時,詞袋方法被應用于LDA中,該方法使每篇文檔被看作一個詞頻向量,并將文本信息轉化為易于建模的數字信息。由于詞袋方法不考慮兩個詞之間的順序,因此問題的復雜性也就被簡單化。LDA概率圖模型如圖2所示。

圖2 LDA的概率圖模型結構

圖2中,m表示文章序號;k表示主題個數;n表示詞袋長度;Nm表示第m篇文章中單詞的總數;α表示每篇文章的主題分布的先驗分布狄利克雷(Dirichlet)分布的參數(也被稱為超參數,簡稱Dir);β表示每個主題的詞分布的先驗分布Dirichlet分布的參數,是一個V維向量,V代表詞匯表里的所有詞的個數;θm是一個K維列向量,表示第m篇文章的主題分布;θm~Dir(α)表示本文所需參數;φk是一個V維向量,表示第k個主題的詞分布;φk~Dir(β)也為本文所需參數;zm,n表示第m篇文章第n個詞被賦予的主題;wm,n表示第m篇文章第n個詞。主題分布表示為:

(1)

詞分布表示為:

p(w,z|α,β)=p(w|z,β)p(z|α)=

(2)

根據式(1)-式(2)結合代碼可知LDA工作流程為:① 將預處理后的數據集、關鍵詞數量、主題數量三個參數傳入主題模型函數中,并使用gensim接口,將文本轉為向量化表示,構建詞空間,使用BOW模型向量化,根據TF-IDF算法對每個詞進行加權計算,得到加權后的向量表示;② 選擇加載的模型LDA,得到數據集的主題-詞分布;③ 對詞分布和文檔分布的相似度進行計算,將相似度最高的詞作為關鍵詞,再對輸入文本與每個詞的主題分布進行相似度計算;④ 取相似度最高的前8個詞作為用戶特征偏好影響因素。LDA實驗結果如表2所示。

表2 主題分布相似度

數據結果顯示,酒店用戶在總體感受、設備設施、餐飲、位置、交通、價格、服務和衛(wèi)生八個方面的主題分布相似度測試數據位于測試結果的前八位,其中:主題分布相似度最高的是服務屬性,設備設施屬性位于第二。因此可知酒店用戶通常會將入住酒店的服務作為首要關注點,其次為酒店提供的設備設施條件。毋庸置疑,好的服務水平和設備設施條件從感官上會直接帶給用戶舒適的入住體驗。同時,總體感受、交通、價格、餐飲、位置、衛(wèi)生這六個用戶特征偏好也會得到很高的用戶關注,因此,酒店管理人員應及時調整各方面的服務水平,確保酒店良好運營。

2.3 模型構建

(1) 基于TF-IDF的用戶偏好權值計算。TF-IDF是詞頻和反文檔頻率兩個算法的綜合應用,利用TF-IDF算法結合情感傾向性分析方法對評論文本數據特征進行賦值,并將情感傾向性估計值作為用戶的偏好程度。一個文檔里的詞匯重要性計算式表示為:

(3)

(4)

式中:|D|表示語料庫中存在的文件總數。如果該詞不在庫中,則被除數為零,因此式(4)被除數由式子1+|{j:ti∈dj}|代替,最后得到TF-IDF值為:

tfidfi,j=tfi,j×idfi

(5)

由式(5)可知,一個文件內的詞頻率乘以該詞在整個文件集合中的文件頻率,可得到TF-IDF值。一般來說,文本表示方式分為離散式和分布式兩種,結合本文的數據情況,采用離散式文本表示方法中的TF-IDF算法對評論數據進行權重計算以得到特征屬性表示值,具體執(zhí)行過程為:① 獲取總的文檔數,記錄每個詞出現的文檔數;② 按公式將其轉換為IDF值,然后進行拉普拉斯平滑處理,使用該方法目的是將分母加1,對于沒有在字典中出現的詞,將該詞默認為只在其中一個文檔中出現過,最后得到默認的IDF值;③ 按公式計算TF-IDF值,根據TF-IDF的排序,取排名前keyword_num個詞作為關鍵詞,在評論中每個因素如果有多個就進行TF-IDF值的求和運算,如果評論中未出現某影響因素,則賦值為0。例如評論:“位置距離哈站只有幾分鐘的車程,打車起步價。剛開業(yè)三個月大堂豪華,室內干凈高檔完全不像這個價位的酒店,性價比極高,就是距離地鐵站有點小遠步行大概十幾分鐘,總之住宿體驗很好”,實驗結果如表3所示。

表3 TF-IDF實驗結果

(2) 基于Lasso的用戶特征偏好篩選。本文主要利用Lasso回歸,剔除相關性較小因素,得到Lasso預測模型,對用戶特征偏好進行篩選。Lasso是一種處理具有復共線性數據的有偏估計,它利用所構造的懲罰函數確定相對精煉的模型,利用這個模型壓縮一些系數,同時設定某些系數為零,通過這個方法能夠將子集收縮的優(yōu)點保留下來。Lasso回歸又叫線性回歸的L1正則化,它通過對最小二乘估計加入L1范數作為罰約束,使某些系數估計為0,因此可以減少參數數量,Lasso回歸預測模型目標函數表示為:

(6)

式中:RSS是實際值減去估計值的差的平方和;λ是調優(yōu)參數;p為參數個數。根據式(6)可知,由于Lasso回歸模型的目標函數包含懲罰項系數λ,因此在計算模型回歸系數前,需要得到最理想的λ值,λ值的確定可以通過定性的可視化方法和定量的交叉驗證方法。同時,Lasso作為一種λ特征選擇方法相比于嶺回歸,其在完成系數估計的同時就能夠完成特征的選擇,還能夠降低過擬合,是近幾年備受關注的特征選擇工具,綜合以上研究結果結合用戶偏好相關理論研究,可得不同類型用戶的偏好模型表示為:

(7)

式中:user_preferences代表用戶偏好;Intercept代表截距項;si代表用戶偏好特征因素;ωi代表對應si的系數。

3 實 驗

3.1 總體方案

本文利用八爪魚數據采集器從攜程網的酒店社區(qū)共采集15 000條用戶評論數據作為數據源,在采集過程中主要以用戶類型為獨自出行、朋友出游、親子旅行、情侶出游、商務出差的五類人士,對酒店進行的評論以及對應的酒店總評分和環(huán)境、設施、服務、衛(wèi)生四個方面的評分為采集數據。采集后利用AipNLP剔除評論反差數據,對剩余有效數據再進行預處理,然后采用LDA主題聚類的方法提取用戶特征偏好,并通過TF-IDF統(tǒng)計特征值對評論文本數據特征進行賦值,利用情感傾向性估計值作為用戶的偏好程度,最后采用Lasso進行特征的篩選及預測。

3.2 實驗結果及分析

在篩選過程中針對用戶類型為獨自出行、朋友出游、親子旅行、情侶出游、商務出差這五類人士在總體感受、設備設施、餐飲、位置、交通、價格、服務和衛(wèi)生八個方面的數據利用Lasso回歸與線性回歸和嶺回歸做對比,以商務出差用戶評論數據為例,將80%的數據作為訓練集,20%的數據作為測試集,采用sklearn子模塊linear_model中的Lasso類及Ridge類對Lasso回歸和嶺回歸中目標函數所包含的懲罰項系數進行計算,如圖3和圖4所示。

圖3 LASSO回歸結果圖

圖4 嶺回歸結果圖

可以看出,初始迭代的λ值落在10-5~102之間,圖中的每條曲線指代不同的變量。由于出現了喇叭形曲線,說明該變量存在多重共線性,圖3中λ值落在0.000 5附近,圖4中λ值落在0.05附近,此時絕大多數變量的回歸系數趨于穩(wěn)定,所以可以鎖定合理的λ值范圍。接下來分別采用sklearn子模塊linear_model中的LassoCV類及RidgeCV類,采用10重交叉驗證的方法分別得到Lasso回歸與嶺回歸的最佳的λ值,Lassoλ=0.000 8,Ridgeλ=0.074 1,與可視化方法確定的λ值范圍基本一致。最后基于最佳的λ值分別得到Lasso和嶺回歸的模型回歸系數,采用statmdels子模塊api類對數據進行訓練得到多元線性回歸模型的系數。基于以上回歸系數分別得到多元線性回歸、嶺回歸及Lasso回歸的表達式:

Y1=3.511 3+0.017 2X1-0.166 8X2+

0.708 5X3+0.403 5X4+0.125 0X5+

0.021 3X6+0.649 1X7-1.299 8X8

(8)

Y2=3.570 6+0.023 5X1-0.168 3X2+

0.646 7X3+0.369 6X4+0.111 6X5-

0.057 2X6+0.577 7X7-1.226 2X8

(9)

Y3=3.594 9-0.161 6X2+0.629 8X3+0.373 3X4+

0.052 4X5+0.580 4X7-1.258 2X8

(10)

利用上述回歸模型,分別在測試集上進行預測后,采用均方根誤差RMSE對模型的預測效果進行衡量,三種回歸的RMSE值如表4所示。

表4 Lasso回歸與線性回歸及嶺回歸比較數據

從商務出差類型用戶的三種回歸所對應的RMSE值中可知使用Lasso回歸進行測試所得到的RMSE值最小,這表明使用Lasso回歸確定的特征值更接近實際特征值。對比式(8)、式(9)和式(10)發(fā)現在X1和X6兩個特征中,嶺回歸和線性回歸測試結果雖然很小,但還有其測試值,不能貿然對該特征偏好進行刪除。然而在Lasso回歸測試結果中,發(fā)現其值為零,這就更加直觀地反映出總體感受和價格對于商務出差用戶來講屬于相關性較小特征因素,因此根據式(10)可知在計算用戶特征偏好中X1和X6兩個特征因素不加以考慮。同理,對用戶類型為獨自出行、朋友出游、親子旅行、情侶出游的用戶進行計算分析可知X1為獨自出行用戶的相關性較小特征偏好,X4和X5為朋友出游用戶的相關性較小特征偏好,X2、X6和X7為親子旅行用戶的相關性較小特征偏好。

在對比剩余四類出行用戶的三種回歸方法中的RMSE值后發(fā)現四組數據中運用Lasso回歸方法進行剔除相關性較小特征值所產生的數據離散程度比嶺回歸及線性回歸方法產生的離散程度都要小,這進一步表明使用Lasso回歸方法進行測試產生的數據結果更接近真實情況。

分析實驗數據可知,用戶類型為獨自出行、朋友出游、親子旅行、情侶出游和商務出差這五類人士的特征偏好主要表現在總體感受、設備設施、餐飲、位置、交通、價格、服務和衛(wèi)生這八個方面,其中:用戶類型為獨自出行和朋友出游以及情侶出游的用戶在服務和飲食兩個特征方面表現出極高的興趣;用戶類型為親子旅行的用戶最為關注的是酒店位置及入住的總體感受;商務出差的用戶比較關注飲食及酒店服務。同時通過對五種類型用戶在八個特征方面運用Lasso回歸和嶺回歸以及線性回歸的方法進行測試,可知運用Lasso回歸方法對特征偏好進行過濾所產生的RMSE(均方根誤差)值相對較小,因此本實驗應用Lasso方法進行特征偏好篩選是符合實驗要求的。

本文根據實驗結果及分析對酒店提出幾點建議:酒店作為服務行業(yè),不單單要注重客戶的總體感受、餐飲服務、酒店衛(wèi)生,對酒店內的設備設施進行定期檢查,制定合理的住宿價格,良好的服務態(tài)度也是至關重要的。針對本文研究成果,酒店管理人員可針對不同類型的用戶提供不同的服務標準。面向獨自出行及情侶出游類型的顧客,酒店需提供優(yōu)質的入住環(huán)境。面向朋友出游類型顧客,由于除位置和交通兩類特征偏好以外其余六種均為用戶關注的特征偏好,因此酒店人員可在定期檢查設備設施、及時滿足顧客要求、制定合理價格等方面進行優(yōu)化。面向親子旅行類型客戶需提供新鮮營養(yǎng)的餐飲服務,同時酒店可規(guī)劃出足夠的停車區(qū)域等。面向商務出差類型的顧客,酒店可為其提供安靜的辦公區(qū)域、舒適的入住房間等。綜上,酒店管理人員可為不同類型的顧客制定不同的服務方案,有助于提高酒店的服務標準。

4 結 語

酒店在線評論反映了用戶對入住酒店的真實感受,如何分析用戶評論并從中挖掘用戶對酒店的需求是現如今酒店競爭情報研究領域的熱點問題,對酒店經營領域具有重要的商業(yè)價值。本文根據酒店用戶評論的直接性和客觀性,將TF-IDF算法、LDA聚類算法、情感分析技術、Lasso特征優(yōu)選方法結合起來,構建基于Lasso-LDA的用戶偏好模型。通過該模型能夠客觀地對不同類型用戶對入住酒店的影響因素進行量化打分,確定用戶特征偏好,彌補酒店經營者和酒店住戶之間信息交流的延遲性。實驗結果表明:針對酒店用戶可應用該方法對各酒店評論進行不同維度的情感傾向分析,并以此分析該酒店各項服務標準是否滿足自己的需求,最終做出合理決策。面向酒店經營人員,能夠及時準確地反饋用戶特征偏好程度,幫助其準確地調整酒店經營模式及設備設施建設。本文主要是利用酒店預訂系統(tǒng)中高星級酒店的用戶評價數據進行建模,使得應用該研究模型分析出的用戶特征偏好更適用于高星級酒店的調查。在后續(xù)調查研究中會結合市場中低星級酒店用戶評價進行改進,為不同需求的用戶提供合理的住宿條件,合理分配酒店流動資源。

猜你喜歡
特征用戶方法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何獲取一億海外用戶
主站蜘蛛池模板: 激情无码字幕综合| 亚洲精品无码av中文字幕| 99国产精品一区二区| 亚洲女同一区二区| 不卡午夜视频| 一级一毛片a级毛片| 亚洲精品少妇熟女| 国产日产欧美精品| 欧美午夜视频| 久久a级片| 69综合网| 成人在线不卡视频| 国产亚洲视频免费播放| 青青草国产精品久久久久| 国产欧美在线观看一区| 欧美日韩亚洲综合在线观看| 91精品专区国产盗摄| 激情亚洲天堂| 99爱视频精品免视看| 一级毛片免费观看久| 99视频在线免费观看| 久久黄色视频影| 美女毛片在线| 亚洲无码一区在线观看| 特级做a爰片毛片免费69| 亚洲天堂久久久| 国产无码网站在线观看| 日韩欧美91| 99久久精品免费看国产电影| 东京热高清无码精品| 久久青青草原亚洲av无码| 国产欧美又粗又猛又爽老| 综合色婷婷| 国产爽爽视频| 精品久久久久久久久久久| 日韩在线播放中文字幕| 91精品国产麻豆国产自产在线| 亚洲人网站| 亚洲一区精品视频在线| 最新日韩AV网址在线观看| 久青草国产高清在线视频| 亚洲高清中文字幕在线看不卡| 黄色成年视频| 九九久久99精品| 日韩一级毛一欧美一国产| 高清精品美女在线播放| 色综合天天操| 国产视频一二三区| 国产在线视频二区| 国产视频入口| 青青极品在线| 色综合久久88色综合天天提莫 | 精品国产一区二区三区在线观看| 91亚洲精选| 免费人成视频在线观看网站| 97国产一区二区精品久久呦| 日本91视频| 欧美日本不卡| 国产熟睡乱子伦视频网站| 亚洲成a人片| 亚洲欧美一区二区三区图片 | 国产免费精彩视频| 欧美成人午夜视频| 亚洲男人的天堂视频| 2021国产v亚洲v天堂无码| 色哟哟色院91精品网站| 欧美精品亚洲精品日韩专| 精品国产成人国产在线| 国产毛片网站| 国产不卡国语在线| 日韩欧美在线观看| 四虎永久在线精品影院| 亚洲AV无码乱码在线观看代蜜桃| 国产麻豆精品在线观看| 久久精品丝袜| 欧美另类精品一区二区三区| 国内熟女少妇一线天| 国产精品视频观看裸模| 99成人在线观看| 综合天天色| 欧美国产日韩在线| 国产视频入口|