999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據分析角度論述游客目的地印象

2021-12-24 10:48:51蔡金勇羅浩杰李澤星沈洋
電子樂園·上旬刊 2021年3期
關鍵詞:數據分析

蔡金勇 羅浩杰 李澤星 沈洋

摘要:本文旨在利用數據分析對游客對景區與酒店的評價進行數據挖掘,由于游客滿意度與目的地美譽度緊密相關,游客滿意度越高,目的地美譽度就越大。找出其中穩定客源、取得競爭優勢、吸引游客到訪消費等的主要原因。這對于旅游企業科學監管、資源優化配置以及市場持續開拓具有長遠而積極的作用。

關鍵詞:數據分析;jieba分詞; 停用詞; 均方誤差; 編輯距離

一、問題重述

提升景區及酒店等旅游目的地美譽度是各地文旅主管部門和旅游相關企業非常重視和 關注的工作,涉及到如何穩定客源、取得競爭優勢、吸引游客到訪消費等重要事項。游客滿意度與目的地美譽度緊密相關,游客滿意度越高,目的地美譽度就越大。

二、景區及酒店印象分析

(一)使用方法

我們將會用到jieba分詞的方法,有三種分詞模式

(1) 精確模式:試圖將句子最精確地切開,適合文本分析;

(2) 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義問題;

(3) 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。

(二)問題解決

1.目的地TOP20熱門詞

本節使用jieba模塊中的精準模式對網評文本進行分詞,再使用中文常用停用詞(中文停用詞表“cn_stopwords.txt”,哈工大停用詞表“hit_stopwords.txt”,百度停用詞表“baidu_stopword.txt”,四川大學機器智能實驗室停用詞庫“scu_stopwords.txt”)表對文本進行過濾,遍歷所有詞語,每出現一次加一,再將對應鍵值轉換為列表,根據詞語出現的次數進行從到大到小進行排列,將排名前二十的熱詞及熱度輸出。

2. 每家酒店和景區的印象詞云表

我們將景區評論及酒店評論使用JupyterNotebook將其轉換為矩陣,新建一個空列表list1,創建一個循環,將矩陣中第一列一樣的評論依此增加如list1中,每次添加完一次之后對list1進行分詞及過濾之后將前20個數據保存入對應名稱的后綴為.csv的文件中。

總結:由于數據處理對象為景區評論和酒店評論,我們選用停用詞表時可以選用針對性較強的,可以過濾更多無關詞語。分詞方法有很多,可以針對不同情況使用。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8

三、景區及酒店的綜合評價

1. 數學模型及相應算法

我們對問題一中的熱度數據對景區及酒店的服務、位置、設施、衛生、性價比進行分析,在列表中衛生熱度只有1931,而與其近似的干凈則占熱度3459,所以我們決定用干凈的熱度來表示衛生的熱度。以及列表中性價比的熱度為2237,與其近似的便宜熱度為3190,及免費2360,考慮到有可能會有一句網評中都包含了這幾個詞語,所以我們決定用熱度較高的便宜來表示性價比的熱度。然后對這五個求權重得到下表:

提取出這五個的權重生成5×1的矩陣mat3,mat3則為評分權重矩陣。再將酒店評分提取出來生成5×50的矩陣mat1,將景區評分提取出來生成5×50的矩陣mat2。

用x1=np.dot(mat1,mat3)求得對酒店評分的預測矩陣,x2= np.dot(mat2,mat3)求得對景區的預測矩陣,在excel表中提取出酒店評分真實值y1及景區評分真實值y2。然后使用預測矩陣x減去真實矩陣y,分別得到差值矩陣d1,d2。

然后使用預測矩陣x減去真實矩陣y,分別得到差值矩陣d1,d2。

最后使用均方誤差進行模型判斷:

MSE:

計算酒店評分的均方誤差:np.dot(np.transpose(d1),d1)/50

計算景區評分的均方誤差:np.dot(np.transpose(d2),d2)/50

計算酒店加景區評分的均方誤差:

(np.dot(np.transpose(d2),d2)+np.dot(np.transpose(d1),d1))/100

得到MSE(酒店)≈0.0098

MSE(景區)≈ 0.0121

MSE(酒店+景區)≈ 0.0109

當MSE越小,我們建立的模型越好。

四、網評文本的有效性分析

出于各種原因,網絡評論常常出現內容不相關、簡單復制修改和無有效內容等現象,為了解決這個問題,我們使用了計算編輯距離的方法。

1.算法

編輯距離,又稱Levenshtein距離(也叫做Edit Distance),是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數,如果它們的距離越大,說明它們越是不同。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。

代碼實現:

Levenshtein.distance(’abc’,’cba’)

Levenshtein.distance(’kitten’,’sitting’)

2.問題解決

通過計算編輯距離,我們剔除距離小于0.5的數據,使得數據更加簡潔,提高數據有效性。

在執行過程中,為了減少計算,我們首先對數據進行了清洗,主要用到了去停用詞,結巴精準分詞等方法,然后計算編輯距離。但是通過對比較結果進行分析,我們發現距離普遍較小,即相關性普遍較大,無法進行有效剔除。因此我們放棄了此方法,選擇分析文本。

我們將每個文本與后面的文本進行比較,得到對應的相關性(代碼用的是1-aa,因此,值越靠近1相關性越強):

我們將這些篩選出的相關度高的數據進行剔除,就整理出來了一個更有效的數據。

猜你喜歡
數據分析
電子物證檢驗的數據分析與信息應用研究
基于matlab曲線擬合的數據預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 亚洲系列无码专区偷窥无码| 在线观看无码av五月花| 久久亚洲精少妇毛片午夜无码| 亚洲日韩久久综合中文字幕| 国产超碰一区二区三区| 久久精品丝袜高跟鞋| 免费人成在线观看成人片| 国产亚洲精| 高h视频在线| 精品人妻一区无码视频| 香蕉久久国产精品免| 午夜啪啪福利| 亚洲美女操| 91无码网站| 91视频精品| 亚洲中文在线视频| 国产福利小视频高清在线观看| 国产在线97| 91精品啪在线观看国产91九色| 亚洲成人在线免费观看| 国产成人区在线观看视频| 国产精品毛片在线直播完整版| 最新精品久久精品| 91亚洲国产视频| 日韩欧美国产中文| 91视频首页| 动漫精品啪啪一区二区三区| 天天综合网色中文字幕| 亚洲欧美日韩中文字幕一区二区三区| 狠狠干欧美| 精品久久高清| 国产色偷丝袜婷婷无码麻豆制服| 日韩精品一区二区三区swag| 亚洲天堂777| 曰AV在线无码| 久久一色本道亚洲| 亚洲国产中文精品va在线播放| 国产经典三级在线| 国产原创自拍不卡第一页| 久久美女精品| 亚洲国产亚洲综合在线尤物| 亚洲成人手机在线| 好紧太爽了视频免费无码| 在线观看91精品国产剧情免费| 无码区日韩专区免费系列| 精品乱码久久久久久久| 国产一区二区三区在线精品专区| 国产成人啪视频一区二区三区| 国产AV无码专区亚洲A∨毛片| 欧美中文字幕无线码视频| 有专无码视频| 色窝窝免费一区二区三区| 国产乱论视频| 国产农村妇女精品一二区| 自慰网址在线观看| 国产清纯在线一区二区WWW| 日韩精品一区二区三区免费| 福利一区三区| 欧美翘臀一区二区三区| 国产精品久久自在自线观看| 99精品在线看| 萌白酱国产一区二区| 亚洲成人一区在线| 无码av免费不卡在线观看| 国产亚洲日韩av在线| 精品少妇人妻av无码久久| 九九香蕉视频| 久久精品欧美一区二区| 欧美一级在线播放| 重口调教一区二区视频| 日本亚洲欧美在线| 手机精品福利在线观看| 久久青草热| 成人午夜视频在线| 伊人久久久大香线蕉综合直播| 手机精品福利在线观看| 欧美国产三级| 日韩高清无码免费| 欧美日韩国产成人在线观看| 在线国产你懂的| 超碰精品无码一区二区| 日韩a级片视频|