何西遠,張岳,張秉文
(山東青年政治學院信息工程學院,山東濟南 250103)
隨著旅游業的發展和人們生活水平的提高,人們越來越注重旅游質量和體驗。同時,網絡技術、移動設備和社交媒體的普及,使得游記評論成為游客選擇旅游目的地和產品的重要依據[1]。在當前的背景下,用戶畫像被廣泛應用于電商、社交媒體、金融、旅游等領域[2-5]。在旅游領域,基于用戶畫像和景區畫像的構建和分析可以幫助旅游從業者精準地把握游客需求,提供個性化旅游服務,同時對旅游市場的分析和預測也具有重要意義。
目前,在相關文獻中,學者們通過對游記評論數據的分析挖掘,成功地構建了用戶畫像和景區畫像,并應用于實際的旅游推薦系統中。例如,燕山大學的劉海鷗等人提出了基于用戶畫像的旅游情境化推薦模型,通過對游客的基本信息、用戶旅游情境和行為數據進行建模,成功地將用戶畫像運用于旅游推薦系統中,并進行了實驗測試[6]。另外,單曉紅等人以在線酒店評論為基礎,結合用戶信息屬性、酒店信息屬性和用戶評價信息屬性,成功構建了酒店用戶畫像。可以為酒店提供決策依據,幫助酒店更好地了解用戶需求并進行精準營銷[7]。
本文旨在利用數據挖掘和自然語言處理技術來分析游記評論,構建旅游領域的用戶畫像和景區畫像。本文將從游客和景區經營者的角度出發,運用機器學習算法和大數據分析手段分析游記評論中的主題、情感傾向、用戶特征和景區特征,以便更好地了解旅游者的喜好、需求和行為模式,挖掘景區的核心優勢和服務瓶頸,構建用戶畫像和景區畫像,為旅游從業者提供有用的信息和洞見,進一步促進旅游行業的創新和發展。
基于上述研究背景,該研究首先分析了旅游領域中游記評論的特征,設計了基于自然語言處理和機器學習的游記評論文本分析方法,實現了游記評論文本的預處理、情感分析、文本聚類等操作,構建了旅游領域用戶畫像和景區畫像,并根據研究結論設計了相應的旅游景區畫像評價指標體系。具體的畫像構建過程如圖1所示。
該研究主要創新包括以下幾個方面:

圖1 旅游領域用戶畫像和景區畫像
1)在游記評論文本預處理中,針對游記評論文本的特點和主題,設計了一種基于樸素貝葉斯模型的情感分析方法。該方法利用游記評論文本中的每個單詞作為一個特征,對分詞文本進行建模,并為樣本預設類別。樸素貝葉斯算法通過樣本的先驗概率計算樣本的后驗概率,并選擇具有最大后驗概率值的類別作為樣本的最終歸屬分類類型。
2)在游記評論文本情感分析中,基于樸素貝葉斯模型的情感分析方法采用了改進的TF-IDF(Transformer Filtered Document Frequency) 算法和SMOTE(Synthetic Minority Over-Sampling Technique) 技術,以更好地進行建模和情感分析。經過實驗驗證,改進后的算法顯示出更好的效果。
3)針對旅游游記評論數據規模大的特點,采用了分布式數據庫MongoDB 進行數據存儲。MongoDB 是非關系型數據庫中功能最豐富、最像關系型數據庫的一種。使用MongoDB存儲旅游評論和游記數據,方便數據的存儲、管理、查詢和分析,并能夠適應不斷增長的數據量,是適合大數據存儲的解決方案。
文本情感分析技術在目前被廣泛應用。該技術有助于旅游企業更好地了解用戶的需求和偏好,進而提供更加貼心和個性化的旅游服務。此外,通過文本情感分析,旅游企業可以了解用戶在旅游過程中遇到的問題和不滿意的地方;這些數據可以幫助企業改善和優化相應服務,提高服務質量,進而增強用戶的滿意度。本文通過對景區評論和用戶游記進行文本情感分析來評估景點的受歡迎程度和了解游客的個人偏好。通過分析景區評論,可以推斷出游客對該景點的情感傾向。通過對用戶游記進行情感分析,可以更好地了解游客對于出行的態度、偏好以及行為習慣等方面的信息。
本文采用樸素貝葉斯模型進行情感分析。樸素貝葉斯分類的首要步驟是對用戶評論數據進行訓練,獲取單詞、短語或其他文本屬性的特征及其對應的分類。在情感分類中,將情感視為分類標簽,單詞或短語作為特征。若有m條文本數據,n個特征,k個情感類別,則使用公式(1)計算某個文本屬于某種情感的概率:
其中,c表示情感類別,x表示文本數據,P(c|x)表示在給定x 的情況下,c的后驗概率,P(x|c)表示在c的情況下,x的概率,P(c)表示c的先驗概率,P(x)表示x在每個情感類別下的概率。在樸素貝葉斯分類器中,通常假設每個特征都是相互獨立的(即樸素條件),這個假設使得可以用以下公式計算P(x|c):
其中,w表示一個特征屬性(單詞或短語)。在訓練過程中,計算出每個特征在每個分類下的出現概率。在分類時,將待分類的文本中每個特征的概率分別與其在各個分類下的概率相乘,即為該文本屬于該分類的后驗概率。最終將前述每個特征的后驗概率相加,即為該文本屬于該分類的概率。結果越靠近1表示情感越正面,越靠近0表示情感越負面。而且設置了閾值,概率大于0.5為積極評論,小于0.5為消極評論。
本文將景色、住宿、交通和美食作為旅游四要素。本文利用TF-IDF 算法,對景點評論和用戶游記的單個詞語進行權值計算,并進行旅游四大要素的分類,求出均值,進而得到該景點評論的旅游四要素得分和用戶游記的旅游四要素得分。該算法具體的實現公式如下:
在一篇文檔j中,詞語i的TF-IDF 值為:
其中,TF(i,j)表示詞語i在文檔j中的詞頻,IDF(i)表示詞語i在所有文檔中的逆文檔頻率,計算公式如下:
其中,N表示所有文檔的總數,ni表示詞語i在所有文檔中出現的文檔數。
綜合起來,詞語i在所有文檔的權重為:
通過計算TF-IDF 值,可以得到每個詞語在文本中的權重值。該權重值可以用來計算景區和用戶的旅游四要素的評分。
本文利用文本挖掘技術,構建用戶畫像和景區畫像,進而為景點提供更全面和準確的評估和決策支持。整合用戶畫像和景區畫像,可以為景區提供更加精準的推薦服務,也可以為景區經營決策提供更加全面的市場分析和洞察。本文的方法流程包括以下幾步:首先,從多個旅游網站上收集游記和評論數據,并進行預處理,包括分詞、詞性標注、去除停用詞等;其次,基于游記評論數據,構建用戶畫像,提取用戶消費水平、出游時間、偏好等信息,最終得出用戶在旅游四要素方面的情感占比;然后,對旅游景區的評論數據進行挖掘,提取出景區的關鍵特征和用戶情感傾向,并構建景區畫像,得出景區在旅游四要素方面的評分;最終,利用用戶畫像和景區畫像,對用戶的偏好進行分析和挖掘,以推薦更符合用戶需求的旅游產品和景區。

圖2 工作流程圖
本文利用文本挖掘技術構建用戶畫像和景區畫像。其中,用戶畫像包括用戶基本信息、情感感知和偏好三個維度。通過用戶畫像,可以直觀了解用戶的喜好和行為習慣。景區畫像包括景區偏好、情感感知和基本信息三個維度。通過景區畫像,可以了解景區的特色和優勢。
3.1.1 爬取數據
景區評論和用戶游記主要是通過Python 爬蟲在攜程、馬蜂窩等旅游平臺上進行采集。通過Python的Scrapy庫和的Selenium庫可以獲取到海量的數據。獲取的景區信息主要包括景點的名稱、景區評分、景區簡介、景區評論、評論時間和評論評分;獲取的用戶信息主要包括用戶ID、游記內容和用戶基本信息。通過景區的特定標簽和用戶信息可作進一步的分析。
3.1.2 文本預處理
文本預處理主要包括構建標簽值和處理文本特征兩個部分。預處理的目的是清理無用信息,減少噪聲干擾,提高分析的準確度,為后續建模作準備。
1)構建標簽值
針對景區評論數據,本文對評論的評分進行了劃分。由于景區評分范圍為1~5 分,本文將3 分以上的評分設為積極評論,將3分以下的評分設為消極評論。將已標注的數據作為訓練語料模型的語料,通過把情感評分轉化為標簽值為1的概率值,成功將情感分析問題轉換為文本分類問題。
2)文本特征處理
針對景區評論數據和用戶游記數據,對文本進行分詞、去除停用詞,提取特征,并劃分訓練集和測試集。在此過程中,使用停用詞表去除無用數據,使用jieba庫進行分詞,將文本數據劃分為單獨的詞語。接著,使用TF-IDF技術實現文本轉向量,以便后續模型的運用。
3.1.3 情感分析
情感分析采用樸素貝葉斯算法。特征值為評論文本經過TF-IDF 處理后的向量,標簽值分為好評和差評兩類,其中好評標簽為1,差評標簽為0。情感評分為分類器預測出1類標簽的概率值。另外,為了防止樣本不均衡對模型的影響。本文采用過采樣(SMOTE)進行數據增強,進而提高分類算法的精度和魯棒性。具體的算法流程如圖3所示。
3.1.4 主題提取
本文通過建立景色、住宿、交通和美食四要素的情感詞典。通過TF-IDF算法預處理后的數據來完善詞典。然后,將文本數據進行分詞后,根據情感詞典進行匹配。根據標注的情感極性和權重計算景區和用戶在四要素方面的情感得分。
3.1.5 數據存儲

圖3 情感分析算法流程圖
使用MongoDB數據庫存儲景區評論和用戶游記,方便數據的訪問和管理。MongoDB 提供強大的查詢和分析功能,可以針對不同需求進行復雜的數據查詢和分析,得出準確的結論和決策。此外,MongoDB 具備良好的數據安全性和完整性,采用備份、恢復和數據加密等技術,保護存儲的數據。
3.1.6 可視化
本系統采用了Django作為主要框架,該框架具備簡潔、實用和免費開源的特點。此外,本系統還使用了Wordcloud 繪制詞云圖,并使用Pyecharts 生成動態交互式圖表。
作為旅游行為的載體,景點具有重要的旅游價值和意義。景點信息與用戶行為、情感之間存在著密切的耦合關系。用戶畫像反映了用戶在景點類型和旅行方式上的偏好;景區畫像反映了景區的特色與優勢。本文利用畫像之間的耦合關系,實現了旅游景點的個性化推薦,并提供了改善提升景區質量的建議。
1)個性化推薦
在旅游推薦中,用戶標簽和景點標簽相關[8]。根據用戶在景色、住宿、交通和美食旅游四要素上的情感占比得出用戶標簽,由景區在旅游四要素的情感評分得出景點標簽。然后,用戶標簽和景區標簽進行匹配,為用戶推薦合適的景點。
2)景區改善
通過分析景區在旅游四要素方面的情感評分,可以得出景區在各個方面的優勢和不足。針對不足之處,可以向專家咨詢或通過網上收集資訊,為景區提供改善建議,以便景區不斷提升服務質量,增強競爭力。
第一、采用數據挖掘技術構建用戶畫像和景區畫像,并建立二者的耦合關系。該方法可輔助景區決策和游客出行,具有廣闊的應用前景。第二、利用文本情感分析技術和文本提取技術,得出用戶和景區標簽,提高了推薦算法的準確性,實現了個性化推薦。第三、采用過采樣(SMOTE)數據增強技術解決了樣本數據不均衡問題。利用K-近鄰生成新的反例,提高了模型的魯棒性和準確度。
傳統的用戶畫像研究大多采用問卷調查或簡單的統計分析方法。本文通過使用數據分析和文本挖掘技術,為用戶興趣和旅游情感的刻畫提供了更加準確和全面的手段,在提高旅游市場的營銷效率和用戶體驗方面具有重要意義。同時,本文還構建了景區畫像,利用該畫像進行個性化推薦,并提高了推薦的速度和準確率。該方法引入情感分析和標簽,提高推薦結果的精確度和針對性,為旅游企業提供了實用的解決方案。
本文以用戶游記和景區評論為數據源,利用機器學習和文本挖掘技術,從用戶和景區兩個角度,構建了旅游領域的用戶畫像和景區畫像。通過情感分析和主題提取技術,對旅游者的行為、偏好和需求進行深入挖掘和理解,為旅游企業提供更準確的市場信息和決策支持。同時,景區畫像的構建不僅能夠對景區進行精細化管理和優化,還能為用戶提供更具個性化的旅游服務和推薦。本文研究創新性突出,研究方法深入系統,為旅游領域的用戶畫像和景區畫像構建提供了有效的思路和實踐。