王航飛+賈素玲+李明偉
[摘 要]隨著旅游產業的逐步發展和Web 2.0時代的到來,各種與旅游目的地相關的輿情見諸網絡,因此而產生的旅游網絡輿情數據量也與日俱增。然而,如何從海量的旅游網絡輿情數據中提取有價值的信息,成為了急需解決的問題。本文以澳門地區為例,從互聯網上采集與該地區相關的旅游輿情數據,采用文本挖掘的相關技術,建立主題模型并進行分析。這對于旅游企業維護企業形象、制定發展戰略;政府進行旅游目的地輿情監測及制定建設規劃,具有積極的借鑒意義。
[關鍵詞]旅游;網絡輿情;澳門
doi:10.3969/j.issn.1673 - 0194.2017.14.113
[中圖分類號]F592.7 [文獻標識碼]A [文章編號]1673-0194(2017)14-0-02
0 引 言
隨著社會經濟的平穩發展,我國旅游業進入了蓬勃發展階段。同時,隨著信息技術的快速進步,新興的社會化媒體和傳統的大眾媒體,更加便捷地通過互聯網對旅游熱點事件或議題表達情感、意見、觀點和態度。旅游網絡輿情這一新興的網絡現象,越來越被科研工作者、政府、旅游企業所重視。針對旅游網絡輿情數據量大、噪聲多的特點,本文采用主題模型的方法對其進行分析研究,不僅可以及時掌握旅游者出游過程中的利益訴求,還可以了解旅游目的地的熱點問題,從而為政府機構和旅游企業提供有價值的決策信息。澳門作為世界上有名的旅游目的地之一,廣受廣大旅游愛好者尤其是內地游客的喜愛。自2003年澳門自由行政策開放以來,赴澳旅游人數大幅增加,其間的旅游問題層出不窮。因此,本文擬采集澳門旅游網絡輿情的相關數據,建立主題模型并進行分析,并最終給出結論。
1 主題模型
主題模型是目前文本挖掘領域常用的語言模型,是結合機器學習和自然語言處理等相關方法的一種統計模型。主題模型的基本思想認為文本是由多個主題混合而成的,而主題是特征詞上的一種概率分布,即每篇文本是主題的混合分布,而每一個主題是一組特征詞的混合分布。主題模型中最常用的是LDA(Latent Dirichlet Allocation)。類似于分層貝葉斯,LDA模型包括3層(語料層、文檔層、詞層),如圖1所示?;疑幱安糠諻代表可觀測隨機變量,Z和θ代表潛在變量,α和β是在語料層的超參數,矩形框(plate)代表貝葉斯概率求解的迭代過程。最外邊的矩形框M代表文檔,里面的矩形框N代表在一個文檔中重復地選擇潛在主題和詞。
其中,α是服從Dirichlet分布的參數,決定主題之間的差異性,α越小,主題之間差異性越大;θ是一個1×K的隨機列向量,表示各主題發生的概率,P(θ)~Dirichlet(α);zi,j是由θi概率分P(θ),產生的離散隨機變量,表示文檔i中詞j的話題概率;φ是一個K×|V|的矩陣,表示話題K的詞匯概率分布,且β是φ分布的超參數。那么,在α和β已知的情況下,可以得到θ、z、w的聯合分布:
因此,在LDA模型中,只需要知道α和β的參數值便可用于表示文檔集。通過貝葉斯概率模型,使用極大似然估計(EM)的方法求α和β的后驗分布。具體的參數估計方法此處不進行贅述。
困惑度(Perplexity)是一種常用來衡量主題模型的指標。通常來說,一個較低的困惑度的模型表示具有更好的泛化性能力。對于M篇文檔,困惑度的定義如下:
2 主題建模與分析:以澳門為例
2.1 數據來源及預處理
針對澳門地區2015年的旅游網絡輿情,本文使用網絡爬蟲采集每條輿情的標題、內容、發布時間,其中,將發布時間轉化為時間戳,作為該輿情的唯一標識符(ID)。接著,對采集的內容進行清洗、分詞、去停用詞等預處理操作。
值得注意的是,采集的澳門旅游輿情數據為繁體字,并不能簡單地將其轉換為簡體字進行處理。因為粵語在表達方式上與普通話存在一些差別。因此,為了保證模型的效果,本文沒有采取繁轉簡的操作,而是針對語料特點,反復迭代建立繁體停用詞表及字典。
2.2 主題模型訓練與結果分析
在預處理的基礎上,本文對2015年澳門旅游網絡輿情數據建立LDA主題模型。為了確定需要的主題的個數,本文先設定主題數分別為10、20、30、40、50、70、90,分別得到各個主題數下的困惑度,并繪圖(見圖2)觀察。
根據圖2可以看出,主題數為20時,困惑度發生了明顯變化,且隨著主題數的增加,困惑度變化幅度不再顯著。同時,根據觀察所得結果,主題數為20時,各個主題之間差異相對明顯,且能代表所有網絡輿情。所以,選取最佳主題數為20,主題模型結果如圖3所示。
為了了解輿情的著重點,本文在訓練得到的LDA模型基礎上,得到每條輿情屬于哪個主題,從而可以統計得出每個主題的主題強度,結果如圖4所示。
統計結果顯示,主題10、主題11、主題2依次占有較大比重,是輿情的主要焦點。通過總結歸納,主題10主要與零售業相關,主題11主要與政府旅游規劃相關,主題2主要與政府立法活動有關。另外,通過主題模型的結果,還可以發現,水貨客(主題3)、突發事件(主題17)、酒店業(主題16)、社會矛盾(主題20)、金融投資(主題1)等也是澳門旅游業中相對集中的話題。
3 結 語
本文以澳門為例,將文本挖掘方法中的LDA模型(Latent Dirichlet Allocation,LDA)應用于旅游網絡輿情分析,對澳門地區2015年旅游網絡輿情有了整體、客觀的了解。這對于政府制定旅游政策和引導輿論方向,具有積極的借鑒意義。
主要參考文獻
[1]付業勤,鄭向敏.網絡新媒體時代旅游網絡輿情研究:源起、價值與構想[J].河北學刊,2013(5).
[2] T K Landauer,D S Mcnamara,S Dennis,et al. Handbook of Latent Semantic Analysis[M].NewYork,NY:John Wiley & Sons Ltd,2007.endprint