999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交媒體數據挖掘的旅游者情緒感知

2022-02-23 08:37:14琪,彭霞,吳
地理與地理信息科學 2022年1期
關鍵詞:情緒模型

馮 澤 琪,彭 霞,吳 亞 朝

(1.北京聯合大學應用文理學院,北京 100088;2.北京聯合大學旅游學院,北京 100101;3.北京工業大學信息學部,北京 100124)

0 引言

在自媒體時代,旅游者成為旅游目的地評價與營銷的重要力量,因而旅游者情緒成為旅游地理領域關注的重點,相關研究集中于旅游者情緒的時空分布特征[1-3]、影響因素[4,5]和詞典構建[6,7]以及對酒店滿意度[8,9]、旅游目的地形象感知[10-12]等。常用的社交媒體數據主要有點評數據[13-15]和網絡游記數據[16-18]。在旅游者常用的社交媒體中,新浪微博用戶多、數據量大、實時性強,微博文本篇幅較短、主題多樣且帶有位置信息,非常適合開展大規模旅游者情緒分析。然而,目前國內旅游學者對微博數據關注較少,在文本分析方法上多采用ROST軟件,該方法只能處理較少的數據量,且結果準確率低、靈活性差。采用深度學習方法對社交媒體數據進行大規模旅游者情緒挖掘,提高分析準確率,獲取更多有用信息,成為旅游者情緒研究的重點。鑒于此,本文基于2017-2019年旅游者發布的新浪微博數據,采用BERT(Bidirectional Encoder Representation from Transformers)模型進行旅游者情感分析,探討旅游者情緒的時空分布規律;而后基于BERT模型對旅游者微博進行文本分類,分析不同主題下旅游者的情緒特征;最后,考慮到負面評價對旅游者的影響遠大于正面評價[19],針對旅游者負面微博進行話題提取,進一步分析可能導致旅游者負面情緒的相關因素。

1 數據與方法

1.1 研究區與數據

本文研究區為北京市行政區劃范圍,研究數據為2017-2019年帶有地理位置信息的新浪微博數據,該數據通過新浪微博API抓取,包含用戶編號、文本信息、發布位置(經緯度)、發布時間等信息。利用文獻[20]中的方法,根據用戶在長時間內的歷史簽到特征,采用隨機森林模型將用戶分為本地居民和旅游者兩類,其中旅游者發布的微博共1 554 230條(圖1)。

圖1 研究區與旅游者微博空間分布Fig.1 Study area and spatial distribution of tourists′ microblogs

1.2 研究方法

本文研究流程(圖2)為:首先基于篩選出的旅游者微博,利用BERT(Bidirectional Encoder Representation from Transformers)模型將微博情緒分為正面、中性、負面3類;然后運用基于扎根理論的質性分析方法對隨機抽取的游客微博確定主題的數目和類別,再通過BERT模型對全體游客微博進行多主題文本分類;最后利用LDA(Latent Dirichlet Allocation)和BERTopic模型對游客負面微博進行話題提取,進而分析導致游客產生負面情緒的相關因素。

圖2 技術路線Fig.2 Technology roadmap

1.2.1 基于BERT模型的微博情感計算 不同于其他語言模型只處理左側的上下文,且使用從左到右或從右到左的編解碼器(transformer)進行預訓練,BERT模型[21]在所有層中共同依賴于左右上下文,使用多層雙向編解碼器進行預訓練,“從左到右”或“從左到右和從右到左”模型的淺層連接具有更強大的特征提取能力。因此,本研究采用BERT模型和chinese_L-12_H-768_A-12中文預訓練模型,將中文維基百科作為中文文本訓練的語料庫,使用12層的編解碼器和多頭注意力機制(multi-headed attention),輸出一個768維的詞向量;隨機抽取旅游者微博進行正面、中性、負面情感標注,讀取情感標簽對模型進行訓練,最終預測出屬于每個標簽的概率,將概率最大的標簽作為該條微博的情緒標簽,并從預測的微博集合中隨機選取1 000條記錄進行驗證,情感分類的準確率達94.2%。

1.2.2 基于質性分析與BERT模型的旅游者微博文本分類 基于扎根理論[22]的質性研究方法指通過對搜集到的資料進行開放、主軸、選擇三階段編碼,對資料加以分解、提取現象并將現象概念化,再以適當方式將概念重新抽象、提升、歸納為類屬,繼而形成理論的過程。常用的質性研究軟件有ATLAS.ti、Nvivo、MAXQDA。本研究從旅游者微博中隨機抽取1 000余條記錄,運用Nvivo11對旅游者微博進行三階段編碼,最終歸為天氣、游覽、餐飲、休閑、住宿5個類別。進一步對上述5個類別分別構建關鍵詞詞典并對旅游者微博進行第一遍過濾,將旅游者微博劃分為包含類別關鍵詞及不含關鍵詞的兩個集合,對不含關鍵詞的集合進行準確率驗證,發現所有類別中不含關鍵詞集合的分類準確率均達99%以上;然后,在5個包含類別關鍵詞的集合中隨機抽取1.5萬條微博進行人工標注(屬于該類別的微博標注為1,不屬于則標注為0),而后分別對5個包含類別關鍵詞的集合進行基于BERT模型的文本二分類,最終獲得天氣、游覽、餐飲、休閑、住宿5個主題的微博,經驗證準確率分別達97.8%、91.4%、98.8%、91.3%、97.1%。

1.2.3 基于LDA和BERTopic模型的旅游者負面微博話題分析 LDA模型可將文檔集中并計算每篇文檔主題的概率分布,之后根據主題分布進行主題聚類;該模型采用詞袋模型,在一篇文檔中,僅考慮某詞匯是否出現,而不考慮其出現的先后順序。BERTopic模型采用句子編解碼器(sentence transformers)對數據文本創建詞向量,通過UMAP和HDBSCAN對詞向量進行降維,并將語義接近的詞向量進行聚類,然后用c-TF-IDF提取類簇主題詞。為進一步了解天氣、游覽、餐飲、休閑、住宿5個主題中導致旅游者負面情緒的具體原因,本文分別運用LDA和BERTopic模型對負面微博進行話題提取,最后將兩種方法所得結果融合。

2 結果與分析

2.1 旅游者微博情感分析

本文通過BERT模型對旅游者微博文本進行情感分類,得到的旅游者中性微博最多(853 904條),正面微博次之(396 259條),負面微博最少(304 067條)。男性旅游者發布微博614 349條,其中正、負面微博數分別為131 985條和110 184條,分別占男性旅游者微博總數的21.48%和17.94%;女性旅游者發布微博939 881條,其中正、負面微博數分別為264 272條和193 883條,分別占女性旅游者微博總數的28.12%和20.63%。可見,女性比男性旅游者更樂于分享,且情緒反應比男性更強烈。

統計每月旅游者微博數量(圖3a)可知,微博數量與假期密切相關。夏季(6-8月)與秋季(9-11月)節假日較多,旅游者數量多于春季和冬季;冬季(12月-次年2月)有節假日但天氣寒冷,而春季(3-5月)天氣適宜但節假日較少,故春季出游人數反而小于冬季。統計一周內每日的旅游者微博數量(圖3b)可知,旅游者多選擇周六、周日到北京旅游,旅游者數量從周一到周四較平穩,周五開始上升,周六達到峰值,周日開始減少,負面微博占比在一周內基本穩定。通過統計一日內每小時的旅游者微博數量(圖3c)可知,微博數量呈現出雙峰和波浪形變化特征:在凌晨4時達到波谷繼而逐漸上升,在中午13時達到一個小高峰,從15時開始繼續上升,并在23時達到最高峰,說明大部分旅游者喜歡下午游玩,休閑活動持續到23時。負面微博占比在24時-次日6時之間顯著增加,可能是由于失眠對情緒造成負面影響。

圖3 旅游者微博情緒統計Fig.3 Statistics of tourists′ emotions expressed by microblogs

一年中旅游者情緒總體呈現出3個波谷(4月、7月、11月)和3個波峰(6月、9月、12月)(圖4a),4月和11月旅游者情緒較低落,可能與這兩個月份出現大風、低溫、霧霾等不良天氣狀況的概率較高有關。旅游者在溫暖天氣下的情緒優于冷涼天氣,而過于炎熱的天氣(7月)也會影響旅游者的情緒,男性和女性旅游者在不同月份的情緒反應差異較大。在一周內(圖4b),旅游者情緒值從周一開始降低,周三達到波谷,之后緩慢上升,周日達到峰值,且男性和女性旅游者表現出相同規律,即在休息日旅游者的情緒更好。在一天內(圖4c),旅游者情緒值在1時之后驟降,凌晨4時達到最低,之后逐步上升,中午13時達到第一個波峰,之后逐漸下降,16時達到一個相對低點,之后再次上升,直至23時達到一天的最高峰。結合之前的微博數量統計,旅游者多在中午到達景點,此時情緒達到一個小高潮,在下午進行游覽活動,至16時左右產生疲勞從而情緒變得低落,經過休息之后情緒恢復;男性和女性旅游者在20時之后的情緒變化趨勢出現差異,女性旅游者情緒高漲,直至23時入睡,而男性旅游者的情緒逐漸趨于平緩,這可能與男性和女性旅游者的夜間活動差異有關。

圖4 旅游者微博情緒值統計Fig.4 Statistics of tourists′ emotional value on microblogs

旅游者微博數量基本呈現由市區向郊區遞減趨勢(圖5)。在北京市城六區中,朝陽區的微博數量最多,其次是海淀區、東城區、西城區和豐臺區,石景山區的微博數量最少;郊區中,昌平區的微博數量最多,其次是順義區、大興區、通州區和房山區,遠郊的延慶區、密云區、門頭溝區和平谷區較少。各區正面、中性、負面微博數與該區微博總數基本呈正比。密云區、平谷區、石景山區、東城區和延慶區的正面情緒占比較高;順義區、大興區、海淀區、西城區、昌平區和通州區的負面情緒占比較高,且唯獨順義區負面微博數超過正面微博數,推測與順義首都國際機場飛機延誤易導致游客作出負面評價有關;門頭溝區正、負面情緒占比均較少,總體情緒較平和。

圖5 北京市各行政區旅游者微博情緒統計Fig.5 Statistics of tourists′ emotions expressed by microblogs in each administrative region in Beijing

2.2 旅游者微博主題分類分析

本文通過BERT模型進行旅游者負面微博文本分類,最終獲得“天氣”“游覽”“餐飲”“休閑”“住宿”5個主題的旅游者微博數量分別為110 095、90 545、116 114、96 557、8 731條。其中,“游覽”“餐飲”“休閑”“住宿”均為旅游者活動,“住宿”微博數量與其他3類活動的微博數量相距甚遠,最不受旅游者關注,而“天氣”是旅游者體驗的重要影響因素。

在5個主題中(圖6a),“天氣”和“餐飲”主題產生強烈情緒的概率超過其他3個主題,且“天氣”是最易產生負面情緒的主題;“餐飲”和“休閑”較易產生正面情緒而不易產生負面情緒;“游覽”主題的正、負面評價占比均較少,總體情緒較平和。從每月不同主題旅游者微博的數量看(圖6b),“餐飲”主題在7-8月數量最多,10月和1月次之,可能與上述月份節假日和聚餐活動較多有關,而2月是春節期間,人們因回鄉而較少在外用餐,數量最少;“天氣”主題在1月、6-8月、10-12月數量較多,可能因為這幾個月高溫、大風和霧霾對旅游者的影響較大;“休閑”主題在7-8月數量最多,9-10月次之,1月及3-6月較為均衡,11-12月較少、2月最少,可能受到節假日及天氣的雙重影響;“游覽”主題在10月數量最多,7-8月次之,應該是受到這3個月假期較多的影響,9月數量稍微減少,1月和12月數量最少,與北京旅游淡旺季時間相吻合。

圖6 旅游者微博主題數量統計Fig.6 Statistics on the number of themes of tourists′ microblogs

2.3 旅游者負面微博主題提取分析

本文運用LDA和BERTopic主題模型分別提取“天氣”“游覽”“餐飲”“休閑”“住宿”5個主題的旅游者負面微博話題,分析旅游者負面口碑產生的原因。對話題進行命名、整理,并將同類話題歸類,得到5個主題的旅游者情緒影響因素(表1);此外,還統計了各主題高頻詞,通過繪制詞云圖(圖7)可以發現,在天氣主題中旅游者對氣溫“熱”“冷”“風”較為敏感;長城、天安門和恭王府是旅游者抱怨較多的游覽目的地;“住宿”主題中“床”“賓館”“價格”討論較多;而休閑主題中“演唱會”是旅游者易出現負面情緒的活動內容。

圖7 旅游者負面微博各主題詞云Fig.7 Cloud diagram of each theme for tourists′ negative microblogs

游覽主題中,導致旅游者產生負面情緒的主要因素有“旅游吸引物”“活動”“天氣”“體驗”“旅游產品”等,如排隊買票的人過多、一日游的體驗太差、故宮周一閉館、看升旗遭遇大風或寒冷天氣等,大數據分析的優勢在于可以動態、精細捕捉各景區存在的問題,并根據負面口碑的原因提出改進措施。餐飲主題中,導致旅游者產生負面情緒的主要因素有“餐廳/食物”“服務質量”“口味”“用餐環境”等,如餐廳太貴、豆汁等北京小吃不合胃口、喜茶排隊太長等。天氣主題中,導致旅游者產生負面情緒的主要因素有“天氣”“所在地”“活動”“體驗”等,如高溫、霧霾、大風等不良天氣對旅游者游覽造成影響。住宿主題中,導致旅游者產生負面情緒的主要因素有“設施”“服務”“體驗”,如床品舒適度差、房間溫度不合適、衛生條件差、價格貴等。休閑主題中,導致旅游者產生負面情緒的主要因素有“活動”“所在地”“體驗”,如演唱會后天氣不好、咖啡口感差、在酒吧喝醉酒等。從表1可知,惡劣天氣對“游覽”“餐飲”“休閑”“住宿”4類活動中的旅游者負面情緒都有貢獻。可見,如何在旅游過程中屏蔽惡劣天氣影響,如改進室內場館的空調與新風設施、安裝室外遮陽棚、提高綠蔽率等,將是提升旅游者體驗的關鍵之一。

表1 旅游者負面微博各主題對應的話題及情緒影響因素Table 1 Topics and emotion influencing factors corresponding to each theme for tourists′ negative microblogs

3 結論與討論

本文以2017-2019年北京市帶地理位置的新浪微博為例,通過BERT模型進行情感計算和主題分類,挖掘旅游者情緒的時空分布規律,探討不同主題下旅游者的情緒特征,并通過LDA和BERTopic模型提取旅游者負面微博話題,進而分析每個主題中可能導致旅游者負面情緒的相關因素。研究結果表明:1)旅游者情緒呈現出晝夜、周和季節性節律變化,不同性別旅游者在情緒反應強度及晝夜、季節性變化上存在差異。女性比男性旅游者更樂于分享,且情緒反應比男性更強烈,正、負面情緒的比例比男性分別高6.64%和2.69%;旅游者情緒值在日內呈現出雙峰和波浪形變化特征,男性旅游者在20時后情緒逐漸趨于平緩,而女性旅游者情緒峰值持續至23時。2)中等強度情緒與強烈情緒在空間分布上存在差異。密云區、平谷區、石景山區、東城區和延慶區的旅游者正面情緒占比較高;而順義區、大興區、海淀區、西城區、昌平區和通州區的旅游者負面情緒占比較高,其中唯有順義區負面微博數超過正面微博數;門頭溝區旅游者情緒最為平穩。3)旅游者負面微博主要包括“游覽”“餐飲”“休閑”“住宿”4個活動主題以及“天氣”主題,其中旅游者對“天氣”和“餐飲”主題較敏感,而惡劣天氣最易導致負面情緒。因此,為提升旅游者體驗,應考慮在特定旅游景區加強應對天氣影響的管理措施。

本文探索了系統的旅游者情緒分析方法,可從多維度、多層次挖掘旅游者情緒特征且準確度較高,可用于旅游目的地輿情監測與預警。然而,本文對旅游者情緒與外部環境之間的交互關系缺乏深入探討,未來將加強此方面的研究。

猜你喜歡
情緒模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
小情緒
小情緒
小情緒
小情緒
小情緒
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩无码黄色| 亚洲综合日韩精品| 国产AV无码专区亚洲精品网站| 国产精品永久免费嫩草研究院| 国产免费精彩视频| 成人一级免费视频| 欧美一区二区啪啪| 色综合天天视频在线观看| 丰满人妻久久中文字幕| 欧美区一区| 午夜精品一区二区蜜桃| 久久精品中文无码资源站| 亚洲成a人片7777| 亚洲香蕉久久| 日本精品视频一区二区 | 国产精品视屏| 日韩一级毛一欧美一国产| 久久亚洲国产视频| 国产成人精品优优av| 丁香婷婷综合激情| 美女无遮挡被啪啪到高潮免费| 人人妻人人澡人人爽欧美一区| 在线综合亚洲欧美网站| 久久九九热视频| 亚洲男人天堂2018| 国产SUV精品一区二区6| 亚洲系列中文字幕一区二区| 中文字幕中文字字幕码一二区| 97视频在线精品国自产拍| 国产精品免费电影| 91久久国产成人免费观看| 蜜桃视频一区二区| 国产呦精品一区二区三区网站| 日韩欧美网址| 91免费国产高清观看| 亚洲黄色视频在线观看一区| 超薄丝袜足j国产在线视频| 久久精品亚洲热综合一区二区| 国产精品3p视频| AV在线天堂进入| 国产午夜小视频| 四虎永久在线精品影院| 日本精品视频一区二区| 亚洲三级电影在线播放| 欧美日韩久久综合| 国产精品第5页| 91在线免费公开视频| 精品伊人久久久大香线蕉欧美| 美女无遮挡免费视频网站| 777午夜精品电影免费看| 日本午夜精品一本在线观看| 88国产经典欧美一区二区三区| 欧美高清日韩| 日韩专区欧美| 成人国产一区二区三区| 一级黄色网站在线免费看| 亚洲色图狠狠干| 欧美午夜性视频| 又污又黄又无遮挡网站| 日本草草视频在线观看| 午夜老司机永久免费看片| 久久永久精品免费视频| 中文无码精品A∨在线观看不卡| 欧美成人一区午夜福利在线| 亚洲无限乱码| 九九精品在线观看| 激情综合婷婷丁香五月尤物 | 无码福利视频| 激情综合五月网| 91小视频在线| 国产无码精品在线| 最近最新中文字幕免费的一页| 国产视频自拍一区| 欧美性爱精品一区二区三区| 亚洲中文字幕在线观看| 久久毛片免费基地| av在线无码浏览| 日韩亚洲综合在线| 欧美日韩国产在线观看一区二区三区| 国产成人免费观看在线视频| 亚洲男人天堂久久| 久久精品波多野结衣|