999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的旅游市場需求分析

2023-01-10 06:38:04關(guān)海楨包莞暉羅正禤世麗
華東科技 2022年12期
關(guān)鍵詞:微信文本旅游

文/關(guān)海楨,包莞暉,羅正,禤世麗

本文以茂名市旅游產(chǎn)品為對象采集了樣本數(shù)據(jù),并運(yùn)用TF-IDF算法和LDA主題模型求得樣本數(shù)據(jù)的樣本相似度,進(jìn)行文本分類和數(shù)據(jù)預(yù)處理;運(yùn)用TextRank算法提取了微信公眾號等平臺有關(guān)旅游產(chǎn)品的數(shù)據(jù);采用關(guān)聯(lián)性規(guī)則Apriori算法對提取的數(shù)據(jù)進(jìn)行關(guān)聯(lián)度分析,進(jìn)而明確旅游產(chǎn)品之間的聯(lián)系。

隨著互聯(lián)網(wǎng)的發(fā)展,國內(nèi)旅游產(chǎn)業(yè)逐漸進(jìn)入“大智慧旅游”和“智慧旅游2.0”時代,網(wǎng)絡(luò)評論成為游客表達(dá)旅游感想的新形式。但網(wǎng)絡(luò)評論數(shù)量龐大、內(nèi)容繁雜,游客面對海量的網(wǎng)絡(luò)評論,很難快速找出適合自己的旅游主題和旅游產(chǎn)品。基于此,本文結(jié)合多種數(shù)據(jù)處理與分析手段,以期明確旅游市場的真實需求。

一、算法與模型簡介

(一)TF-IDF算法

TF-IDF算法的主要邏輯是:如果某個詞語或短語在一篇文章中出現(xiàn)的頻率(TF)高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞或者短語具有很好的類別區(qū)分能力,適合用來分類。[1]TF-IDF算法表達(dá)式如下:

式中,各參數(shù)的具體含義如表1所示。

表1 TF-IDF算法中各參數(shù)含義

(二)LDA主題模型

LDA主題模型是由布萊(Blei)等人在2003年提出的一種無監(jiān)督的主題模型,這是一個文檔生成概率模型。[2]LDA指的是隱含狄立克雷分布,主題模型則是指基于無監(jiān)督學(xué)習(xí)的方法對文檔隱含的語義結(jié)構(gòu)進(jìn)行聚類的一種模型。

(三)TextRank算法

TextRank算法是一種用于文本的基于圖的排序算法。[3]TextRank算法的基本邏輯是:通過把文本分割成若干組成單元并建立圖模型,利用投票機(jī)制對文本中的重要成分進(jìn)行排序,僅利用單篇文檔本身的信息即可實現(xiàn)關(guān)鍵詞提取[4],獲得比較高分的N個單詞作為文本關(guān)鍵詞。TextRank算法的計算公式如下:

式中,各參數(shù)的含義如表2所示。

表2 TextRank算法計算公式各參數(shù)含義

(四)Apriori算法

Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心邏輯是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。[5]在使用Aprior算法時,使用者需要先找出support≥min_support的 頻 繁項集,之后在頻繁項集中生成強(qiáng)關(guān)聯(lián)規(guī)則。

二、數(shù)據(jù)分析

(一)數(shù)據(jù)準(zhǔn)備

本次分析的數(shù)據(jù)來源于5個數(shù)據(jù)集。其中包括50篇游記攻略,共計采集到450條數(shù)據(jù),涉及9個指標(biāo);50篇酒店評論,共計采集到300條數(shù)據(jù),涉及6個指標(biāo);50篇景區(qū)評論,共計采集到150條數(shù)據(jù),涉及3個指標(biāo);50篇餐飲評論,共計采集到200條數(shù)據(jù),涉及4個指標(biāo);80篇微信公眾號文章,共計采集到160條數(shù)據(jù),涉及2個指標(biāo)。

(二)數(shù)據(jù)預(yù)處理

本文首先使用Jieba詞庫對采集到的數(shù)據(jù)進(jìn)行預(yù)處理。文本分詞結(jié)束后,本文利用“哈工大停用詞表”去除停用詞。隨后使用TFIDF相似度模型對處理后的數(shù)據(jù)進(jìn)行粗加工,對分詞后的文件進(jìn)行第一遍相似度檢驗,最后采用LDA主題模型對分詞后的數(shù)據(jù)做精準(zhǔn)度更高的第二遍相似度檢驗。

(三)提取旅游產(chǎn)品數(shù)據(jù)

本文基于酒店評論、景區(qū)評論和餐飲評論,通過直接匯總的方式得出旅游產(chǎn)品。以游記攻略為例,本文主要對攻略中展示的旅游產(chǎn)品進(jìn)行提取。在此過程中,本文利用python(計算機(jī)編程語言)從附件提供的OTA(空中下載技術(shù))、UGC(用戶原創(chuàng)內(nèi)容)數(shù)據(jù)中提取景區(qū)、酒店、民宿、特色餐飲、鄉(xiāng)村旅游等旅游產(chǎn)品的實例和其他有用信息;同時利用PandasDataFrame.columns算數(shù)運(yùn)算,使行、列標(biāo)簽上的數(shù)據(jù)全部預(yù)處理,并進(jìn)行分詞、重組之后,最終整理出6286條數(shù)據(jù),匯總成一份9469行×5列的表格,部分內(nèi)容如表3所示。

表3 部分餐飲旅游產(chǎn)品提取表

(四)熱度分析

1.統(tǒng)計情感得分

考慮到中文情感分析庫(cnsenti)能夠?qū)ξ谋具M(jìn)行情緒分析、正負(fù)情感分析,本文通過其Sentiment正負(fù)情感計算類功能進(jìn)行計算,以統(tǒng)計相關(guān)旅游產(chǎn)品的情感得分(正向為1分,負(fù)向為-1分,中性為0分)。該功能支持正負(fù)情感詞典自定義,并且可以利用hownet情感詞典對文本中的正、負(fù)面詞語進(jìn)行統(tǒng)計。

2.按年份統(tǒng)計旅游產(chǎn)品出現(xiàn)的次數(shù)

旅游產(chǎn)品出現(xiàn)的頻次在一定程度上反映了該產(chǎn)品的受歡迎程度。本文按年份統(tǒng)計了采集數(shù)據(jù)中各類旅游產(chǎn)品的出現(xiàn)次數(shù),得出如下結(jié)果:2018年980次,2019年1228次,2020年2124次,2021年5137次。在此基礎(chǔ)上,本文將旅游產(chǎn)品的情感得分和出現(xiàn)頻次相加,最終得出旅游產(chǎn)品熱度。根據(jù)相關(guān)數(shù)據(jù)可知,熱度排名前五的旅游產(chǎn)品均是來自2018年餐飲評論中被多次提及的清香面包店(車田街店),其熱度總分為175分。

(五)分析產(chǎn)品的類型

為了進(jìn)一步提高旅游產(chǎn)品熱度的準(zhǔn)確度,本文還做了如下處理。(1)對旅游產(chǎn)品熱度得分表的文本進(jìn)行分詞和去停用詞處理;(2)對旅游產(chǎn)品熱度得分表的文本進(jìn)行排列;(3)根據(jù)不同的年份去除旅游產(chǎn)品熱度得分表中的重復(fù)項。經(jīng)過處理后,本次旅游產(chǎn)品(部分)的類型如表4所示(部分)。

表4 部分旅游產(chǎn)品類型表

(六)計算相關(guān)度和關(guān)聯(lián)度

1.計算相關(guān)度

在相關(guān)度計算過程中,本文借助TF-IDF(詞頻與逆向文件頻率)模型和LDA(聚類分析)主題模型對微信公眾號文章進(jìn)行分類,并根據(jù)其內(nèi)容與文旅的相關(guān)性把微信公眾號文章劃分為“相關(guān)”和“不相關(guān)”兩類(見表5)。

表5 部分微信公眾號文章相關(guān)與不相關(guān)結(jié)果分析表

2.計算關(guān)聯(lián)度

在計算相似度的基礎(chǔ)上,本文以樣本集的旅游產(chǎn)品為基礎(chǔ)進(jìn)行one-hot編碼(狂熱編碼),并將編碼轉(zhuǎn)化為字符串,通過“支持度(數(shù)據(jù)集D中觀測到的含有A所有項的比例,其表示的是項集{X,Y}在總項集里出現(xiàn)的概率)乘以10作為關(guān)聯(lián)度”這一公式計算關(guān)聯(lián)度,(部分)計算過程如圖1所示。圖中,每一個藍(lán)色圓圈都代表一個旅游點(diǎn),圓圈與圓圈間的連線則代表不同旅游點(diǎn)之間的關(guān)聯(lián)性。連接線越多,說明該旅游點(diǎn)的支持度總和越大、置信度越高、關(guān)聯(lián)規(guī)則越強(qiáng)。

三、結(jié)論與建議

(一)結(jié)論

本文基于Python和大數(shù)據(jù)分析了茂名市旅游產(chǎn)品之間的關(guān)聯(lián)度,結(jié)果顯示,茂名市景點(diǎn)和景區(qū)之間相互帶動,酒店和特色餐飲之間相互促成,游客對于某種旅游產(chǎn)品的選擇和喜愛會間接影響對另一種旅游產(chǎn)品的選擇。在這各種關(guān)聯(lián)性的影響下,茂名市的旅游產(chǎn)業(yè)蓬勃發(fā)展。

(二)建議

當(dāng)下,旅游行業(yè)需要打破常規(guī)開辟新思路。旅游產(chǎn)品之間普遍存在關(guān)聯(lián)性,一個有特色的景點(diǎn)可以帶動周邊旅游產(chǎn)品的發(fā)展,進(jìn)而提升景區(qū)的知名度。從長遠(yuǎn)角度來看,景區(qū)可以推出特色游覽價格,讓利于民;酒店可與本地特色餐飲店聯(lián)合,共同推出優(yōu)惠套餐,吸引游客體驗;特色的旅游產(chǎn)品可以通過連帶關(guān)系帶動著小眾旅游產(chǎn)品吸引游客關(guān)注,從而促使當(dāng)?shù)芈糜萎a(chǎn)業(yè)平衡發(fā)展。

猜你喜歡
微信文本旅游
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
微信
旅游
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
微信
微信
微信
旅游的最后一天
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美h在线观看| 曰韩免费无码AV一区二区| 免费99精品国产自在现线| 午夜综合网| 激情成人综合网| 亚洲AⅤ无码日韩AV无码网站| 在线欧美国产| 蝴蝶伊人久久中文娱乐网| 国产精品成人免费视频99| 午夜一级做a爰片久久毛片| 无码在线激情片| 久久香蕉国产线看精品| 欧美精品v欧洲精品| 波多野结衣第一页| 白丝美女办公室高潮喷水视频 | 激情六月丁香婷婷四房播| 国产成人在线小视频| 99视频在线免费观看| 国产精品思思热在线| 亚洲精品无码高潮喷水A| 欧美日本在线播放| 99精品视频播放| 福利在线不卡| 在线观看亚洲精品福利片| 精品国产女同疯狂摩擦2| 在线国产毛片手机小视频| 国产99热| 激情网址在线观看| 免费观看亚洲人成网站| 午夜老司机永久免费看片| 日韩无码白| 精品人妻一区无码视频| 国产自无码视频在线观看| 婷婷六月综合网| 激情無極限的亚洲一区免费| 午夜精品久久久久久久无码软件| 午夜国产精品视频黄| 亚洲人成网站在线观看播放不卡| 在线高清亚洲精品二区| 国产极品嫩模在线观看91| 亚洲av片在线免费观看| 国产精品视频白浆免费视频| 手机精品视频在线观看免费| 国产色网站| 国产精品香蕉在线观看不卡| 小说 亚洲 无码 精品| 成人在线不卡| 亚洲午夜国产片在线观看| 亚洲浓毛av| 99re在线免费视频| 亚洲欧洲AV一区二区三区| 精品人妻无码中字系列| 欧美一道本| 中文字幕日韩久久综合影院| 国产精品自在在线午夜区app| 国产免费一级精品视频| 精品少妇人妻一区二区| 99久久性生片| 色妺妺在线视频喷水| 福利一区在线| 伊人天堂网| 四虎在线观看视频高清无码| 久久婷婷国产综合尤物精品| 国产精品一区在线观看你懂的| 亚洲AV无码不卡无码| 熟女视频91| 国产三级a| 国产男人的天堂| 新SSS无码手机在线观看| 播五月综合| 四虎永久在线精品国产免费 | 91丝袜美腿高跟国产极品老师| 午夜国产精品视频黄| 成人免费一级片| 免费精品一区二区h| 在线国产欧美| 丝袜国产一区| 亚洲av无码片一区二区三区| 综合色在线| 亚洲视频免费在线看| 国产成人无码AV在线播放动漫| 一级全免费视频播放|