彭濤 劉小安 劉暢 孫連英 劉宇



[摘要]通過大數據技術對海量的用戶貢獻內容構建數據分析系統框架,以酒店為例,進行多維度分析及可視化應用。基于TripAdvisor網站的列表和點評信息,通過分布式爬蟲框架爬取所需的數據,經過數據預處理,采用分布式文件系統存儲數據,在此基礎上運用統計建模及自然語言處理方法進行數據分析研究,借助第三方框架對分析結果進行可視化。研究者在使用該框架時,可以根據自身需求從多個維度進行數據分析及可視化應用。該框架能夠有效地對旅游評論大數據進行多維度的統計分析,進而為旅游相關人員提供基于旅游評論大數據的參考信息。
[關鍵詞]旅游評論;觀點分析;大數據;數據可視化
[中圖分類號]F 592[文獻標志碼]A[文章編號]10050310(2019)01005707
Research on a Multidimensional Data Analysis and Visualization
Framework Based on Traveller Review
Peng Tao1,Liu Xiaoan2,Liu Chang1,Sun Lianying3,Liu Yu4
(1. College of Robotics, Beijing Union University, Beijing 100101, China; 2. Smart City College, Beijing Union University,
Beijing 100101, China; 3. College of Urban Rail Transit and Logistics, Beijing Union University,
Beijing 100101, China; 4. Tourism College, Beijing Union University, Beijing 100101, China)
Abstract: This study aims to establish a multidimensional data analysis and visualization framework based on traveller review and uses a case study to apply our data analysis and visualization framework. A distributed crawler framework was developed to craw data. A preprocessing method was applied to improve data quality. A distributed file system was used to store data. Based on massive review data, some models were built and nature language process methods were applied for data analysis. At last, the result data was visualized using thirdparty visualization framework. Users could analyse and visualize traveller review data from multiple dimensions, as well as find valuable information. This framework can analyse and visualize traveller review data from multiple dimensions and help tourismrelated personnel find valuable information from big data.
Keywords: Traveller review; Opinion analysis;
Big data; Data visualization
0引言
隨著大數據時代的到來和第三方旅游點評網站的迅速發展
及普及,在線評論已成為消費者獲取信息的重要來源,并對旅游者的旅游行為產生了重大影響,同時也為研究者提供了海量的用戶貢獻內容(User Generated Content,UGC)[1]。面對這些海量的旅游信息,通過智能化手段對信息進行處理,挖掘其中包含的有價值旅游信息,反饋給旅游者、旅游企業、旅游管理部門及旅游研究者就顯得非常重要。已有研究在面對海量UGC時,主要通過爬蟲工具[2]、問卷調查[3]、網上調研[4]等基于小樣本的、有代表性的數據進行研究。這些研究方法既滯后于整體的旅游業發展的需求,又無法體現海量信息可實現廣域空間及多維度研究的巨大價值。
本文選取全球最大的旅游點評網站TripAdvisor(全球領先的旅游網站)作為數據源,通過分析TripAdvisor網站上酒店、景點和餐飲的點評信息(包括文本、圖片),使用分布式爬蟲框架爬取所需的數據,經過數據預處理(過濾、修正),將數據存儲到Hadoop分布式文件系統中。在此基礎上結合統計建模和自然語言處理方法、Java Web技術、Python語言以及D3數據可視化工具,構建面向旅游評論大數據的多維度分析及可視化系統,并將其進行應用實踐。研究結果將為旅游研究人員、旅游者、旅游企業及旅游管理部門提供基于旅游大數據分析的實踐系統框架。
1相關研究
在信息化時代,需求越來越個性化的旅游者更多地依靠網絡、智能移動終端、移動應用軟件來滿足自己的旅游需求;旅游者在線安排行程,利用社會化媒體進行評級,撰寫點評、博文及點贊,產生大量的結構化及非結構化數據。基于此,越來越多的旅游研究學者開始利用這些數據進行相關研究。目前,既有研究集中在以下幾個方面:沈體雁等[5]通過抓取旅游局官網數據構建目的地網絡形象;王佳果等[6]利用網絡文本進行質性分析;王琨等[7]、靜恩明等[8]基于旅游評論進行旅游地關注度及空間格局分析;Cenni等[9]、程翠瓊等[2]、李素科等[10]通過旅游網絡文本進行情感分析;王帆[11]、皮瑞等[12]、鐘彥清等[13]基于旅游評論進行目的地形象感知分析;汪秋菊等[14]、楊艷霞[15]基于網絡數據進行旅游預警的研究;逯燕玲等[16 ]進行區域競爭力評價與空間優化研究。
通過對已有研究進行分析發現,基于大數據的分析有力地推動了相關旅游研究,但較之于不斷增長的海量在線數據,既有旅游研究的廣度和深度都有限,對于海量數據的利用程度,僅是“冰山”之一角,究其原因,在于數據采集不足和數據分析框架缺失兩個方面:
北京聯合大學學報2019年1月
第33卷第1期彭濤等:旅游評論多維度分析及可視化的研究
1) 已有研究主要通過爬蟲工具[2]、問卷調查[3]、網上調研[4]等基于小樣本的、有代表性的數據進行研究。研究所基于的數據量往往處于幾百到幾萬條信息的量級,而實際旅游產生的數據量遠大于幾萬條數據,這使得已有研究存在片面性。研究的基礎數據存在缺失和不完全的地方,必然影響研究結果和結論的有效性和可靠性。
2) 目前利用大數據進行分析研究的學者多是社會學、地理學或管理學背景,其學科背景決定了其無法駕馭“大數據”的分析技術;而在計算機技術領域也沒有成型開放的面向旅游研究人員提供大數據支持和多維度統計分析的網站或系統。上述原因使得旅游領域研究人員通過大數據的方法進行行業研究存在困難。
因此,本文以旅游研究和計算機相結合的思路,嘗試構建基于旅游評論大數據的統計分析框架,并進行實踐應用,為旅游研究相關人員提供基于旅游大數據分析的實踐系統框架,以推進旅游行業與大數據技術深度結合。
2系統設計
21系統架構設計
整個系統架構從下至上分為大數據采集及預處理層、大數據存儲及分析層、大數據可視化層,如圖1所示。
圖1系統架構設計
Fig.1Design of system structure
大數據采集及預處理層是整個系統的基礎,該層采用層級數據爬取的方法,設計基于分布式技術和多線程技術的爬蟲框架來爬取數據,主要包括全國省、市、縣數據爬蟲,全國酒店、景點和餐飲列表數據爬蟲及全國酒店、景點和餐飲評論數據爬蟲;在此基礎上,通過過濾程序和修正程序,過濾無效的數據,修正有效數據中的部分格式和缺省值等信息,進而為統計和分析提供高質量、高可靠的源數據。
大數據存儲及分析層是整個系統的核心,該層采用分布式大數據存儲和計算框架Hadoop搭建分布式存儲和計算環境,運用自然語言處理工具,建立各維度數據分析模型進行數據分析,采用MySQL作為結果存儲數據庫。該部分通過計算機集群方式,提供大容量的存儲和高效率的計算性能。
大數據可視化層是整個系統的最高層,直接面向旅游研究人員、旅游者、旅游企業及旅游管理部門,主要通過Java Web技術、Python語言和D3數據可視化工具,將爬取到的數據和統計分析的結果數據以列表、詞云圖、直方圖等多種形式進行數據可視化。
22關鍵分析模型
1) 熱點城市選擇模型
通過對爬取到的數據進行分析,熱點城市的影響因子包括景點、酒店、餐飲的數量以及對應的評論數量,因此熱點城市計算方法如公式(1)、(2)、(3)所示:
Ci=WTiXi,(1)
WTi=[wi1,wi2,wi3,wi4,wi5,wi6],
(2)
XTi=[xia,xih,xir,xiac,xihc,xirc]。(3)
其中,Ci表示城市i的熱度總分,由因子向量Xi和權重向量WTi線性相乘得到。xia,xih,xir,xiac,xihc,xirc分別表示該城市景點數量、酒店數量、餐飲數量、景點評論數量、酒店評論數量、餐飲評論數量。
在綜合TripAdvisor旅游信息特點的基礎上,分別賦予wi1=01, wi2=01, wi3=01, wi4=024, wi5=023,wi6=023權重值,用于熱點城市得分加權。
2) 用戶關注度模型
本文采用結巴分詞工具對用戶評論信息進行處理,獲取用戶關注熱點及其關注度。首先將用戶評論文本進行分詞、去停用詞和詞頻統計操作;然后通過分析得到,體現用戶關注度的詞匯主要以名詞、名形詞、名動詞為主,因此對分詞結果得到的詞匯進行詞性分類,從中篩選出名詞、名形詞、名動詞作為候選詞;最后基于TF/IDF權重的關鍵詞提取方法,得到用戶關注熱點詞及其詞頻,并通過公式(4)和(5)計算關注度:
Fw=fwfw,
(4)
Nw=e1+Fw。
(5)
其中,fw表示詞的詞頻,fw是所有關鍵詞和名詞的詞頻之和,Fw表示詞w歸一化后的頻度,Nw表示詞w的關注度。
3) 跨語言用戶觀點分析模型
觀點是由觀點持有者、目標對象和觀點表達組成。一個觀點可以表示成五元組,如公式(6)所示:
Oj,ajk,soijkl,hi,tl。(6)
其中,Oj為目標對象,ajk為對象的特征,soijkl為觀點所表達的情感值,hi為觀點持有者,tl為觀點表達時間。在此基礎上,為了進行跨語言觀點分析,將公式(6)拓展成公式(7):
Oj,ajk,soijkl,hi,tl,li。(7)
其中,li表示觀點所用語言。通過對爬取到的數據進行進一步分析,并根據TripAdvisor網站提供的專業分類標準,定義Oj目標對象列表如表1所示。
表1目標對象列表
Table 1Target object list
大分類小分類
酒店星級酒店、特色酒店、家庭式酒店
餐飲餐廳、甜點、咖啡與茶、面包糕點、酒吧酒館
景點景點與地標、博物館、自然與公園、動物園與水族宮……
對于每大類目標對象,通過對TripAdvisor網站定義的酒店、景點、餐飲的各項指標進行分析,定義其對象特征如表2所示。
表2對象特征表
Table 2Object features list
目標對象特征
酒店性價比、位置、舒適度、服務、衛生
景點整體印象
餐飲服務、食品、性價比、氛圍
定義觀點所表達的情感值分為5級,分別是:很糟、差、一般、很好、非常好。進而將半結構化的旅游評論數據表示成結構化的旅游評論觀點模型(即五元組)。在此基礎上,通過統計和歸一化處理,進行觀點分析。
3系統應用
圖2各類酒店數量分布直方圖
Fig.2Distribution of all kinds of hotels
為了驗證系統架構的有效性,以全國酒店、景點和餐飲數據為例,結合本文提出的系統框架進行實踐和應用。通過3個多月的數據爬取工作,爬取到的數據(數據的時間范圍是2006年10月至2016年5月)包括:全國省、市、縣數據339條(不含港澳臺),全國酒店、景點和餐飲具體數據量如表3所示。
表3全國酒店、景點和餐飲具體數據量統計表
Table 3Statistical table of the number of Chinese hotel,
sight spot and restaurant條
數據類型酒店景點餐飲合計
列表數據70 031109 95523 043203 029
評論數據626 536226 520155 3931 008 449
照片數據41 96583 89257 218183 075
在這些數據的基礎上,以酒店為例,進行酒店分布統計、評論熱度統計、熱點城市用戶關注度分析及北京市星級酒店跨語言觀點分析。
31酒店分布統計
從酒店列表數據中,根據酒店的地理位置信息和酒店的分類信息對酒店進行統計,結果如表4所示,并以堆疊直方圖的形式展現,如圖2所示。
表4酒店數量統計表(部分)
Table 4Statistical table of hotel number
地域酒店數量地域酒店數量
廣東省10 324上海市4 866
浙江省7 547湖北省4 187
北京市7 048福建省4 155
云南省6 758湖南省4 119
江蘇省6 606陜西省4 058
山東省6 036遼寧省3 776
四川省4 872廣西3 520
從整體上看,全國酒店分布大多集中在廣東省、北京市、上海市、浙江省、江蘇省等國際化大都市和沿海城市,而在內陸地區,酒店數量相對少很多;但是云南省的酒店數量卻也較多,通過圖2可以進一步發現,云南省之所以酒店數量較多是因為該省包含大量的家庭式酒店,如麗江、大理等地的家庭式民宿酒店業態發達。
從具體類別上看,星級酒店在各類型酒店(星級酒店、特色酒店、家庭式酒店)中占有很大比例,并且在除云南省之外的各個省市中也占有較大的比例;而對于家庭式酒店,主要集中于云南省、浙江省、廣東省和福建省,究其原因,在于云南省的大理和麗江等地、浙江省的杭州市、廣東省的毗鄰港澳地區的區域以及福建省的廈門等地,是國內休閑度假旅游發達地區,進而培育了大量的家庭式的民宿酒店;特色酒店分布較為均衡,沒有特別大的差距。
32酒店評論熱度統計
從酒店評論數據中,以省份信息作為分類對酒店評論數量進行統計,并按評論熱度進行排序,得到結果如表5所示。
表5酒店評論熱度(前14名)
Table 5Top 14 cities of hotel review number
地域評論熱度地域評論熱度
北京市187 846四川省48 587
上海市164 094陜西省45 265
廣東省159 699福建省42 518
浙江省86 552湖南省39 445
江蘇省81 995云南省37 010
山東省57 061廣西32 992
湖北省53 672遼寧省30 119
33熱點城市用戶關注度分析
根據熱點城市選擇模型和前面所得到的統計結果,進一步計算得到城市排名的前10名分別為:北京、上海、廣州、深圳、西安、成都、武漢、杭州、重慶、廈門。
本文選取前兩名(即北京和上海)為例,分別進行用戶在酒店方面的關注度分析,得到數據結果如表6所示。
表6北京、上海酒店方面關注度列表(部分)
Table 6Hotel focus list of Beijing and Shanghai
北京上海
熱點詞關注度熱點詞關注度
酒店285酒店286
房間285房間285
感覺279感覺279
設施277設施277
交通276交通276
早餐275早餐276
價格275價格275
環境275上海275
北京275隔音274
服務員274服務員274
地理位置274環境274
隔音274地理位置274
性價比274地鐵274
地鐵274性價比274
服務態度273前臺274
熱情273服務態度273
圖3北京酒店的用戶關注度詞云圖
Fig.3Word cloud diagram of users
attention to Beijing hotels
圖4上海酒店的用戶關注度詞云圖
Fig.4Word cloud diagram of users attention
to Shanghai hotels
進一步將用戶關注度結果以詞云圖的形式可視化展示,如圖3和圖4所示。
從列表和詞云圖可以看出,北京和上海這兩座熱點城市在酒店方面,用戶關注熱點較為集中,主要包括房間、感覺、設施、交通、早餐、價格、環境、隔音、地理位置、性價比、服務員、服務態度、地鐵等。
由此可見,用戶對于酒店的關注點不僅僅是價格、地理位置、設施等酒店的基礎設施,還包括早餐質量、服務態度、房間隔音效果等一些細節服務。因此,酒店管理人員可參考分析結果,從這些方面進一步提升酒店的服務質量。
34跨語言用戶觀點分析
以北京市星級酒店為例,進行跨語言用戶觀點分析。北京市星級酒店評論共有180 257條,其評論語言分布比例如圖5所示。
圖5評論語言分布圖
Fig.5Distribution of users comments language
其中,圖5藍色區域是中文評論占比,紅色區域是英文評論占比,其他區域是各個小語種評論占比。經計算得到,中文評論在總評論中占759%,英文評論在總評論中占161%,兩種語言在總評論中占92%,因此本文選取中文和英文評論進行分析。
首先通過北京市星級酒店評論數據,構造出觀點六元組,得到結果如表7所示。
表7北京星級酒店觀點六元組(部分)
Table 7Comments sixgram of star hotels in Beijing
目標對象特征情感值觀點持有者時間語言類型
星級酒店性價比4LizBrighton_UK2010-08-11中文
星級酒店位置3龍鳳常居2010-04-04
中文
星級酒店舒適度5Mux1232015-12-02
中文
星級酒店衛生4lian1322016-01-14
中文
星級酒店服務4lian1322016-01-14
中文
星級酒店性價比3HadarS_122016-01-17英文
星級酒店位置4Lovetotravelalot72016-01-04英文
其中觀點所表達的情感值分為5級,分別是:很糟、差、一般、很好、非常好,其對應的分數分別為1、2、3、4、5。
然后從六元組中篩選出所有的中文評論和所有的英文評論,對性價比、位置、舒適度、衛生、服務這5類特征分別進行打分統計和歸一化處理,得到結果如表8和表9所示。
表8中文評論觀點傾向性分布表
Table 8Distribution of Chinese users
comments tendency
打分性價比位置舒適度衛生服務
100090004000800070012
200300022002800220030
302670197022301630217
405240531053105580518
501710246021002490224
表9英文評論觀點傾向性分布表
Table 9Distribution of English users
comments tendency
打分性價比位置舒適度衛生服務
100280014002300250041
200450034004000330049
301720145015201080142
403560301031102760275
503990505047505590494
為了從多角度來進行對比,本文進一步將結果數據進行可視化,如圖6所示。
圖6中英文評論用戶觀點傾向性對比圖
Fig.6Comparison of Chinese and English
users comments tendency
其中基線以上為正向情感傾向,包括很好、非常好;基線以下為非正向情感傾向,包括一般、差、很糟。結合圖表可以看出,整體而言,中外游客對北京市星級酒店評價較高,并且對于各個特征(性
價比、位置、舒適度、衛生、服務)外國游客認可度比中國游客更高。從局部來看,外國游客對酒店各個特征的觀點主要集中在“非常好”這一情感傾向,而中國游客對酒店各個特征的觀點主要集中在“很好”這一情感傾向。對于各個特征而言,中外游客
均對“性價比”特征的非正向情感傾向最多。由此可見,北京市的星級酒店很受中外游客歡迎,并且很多外國游客都覺得北京的星級酒店非常好;此外,中外游客、尤其是中國游客認為北京市星級酒店的性價比不夠高。
上述結果顯示,通過本文提出的系統框架,能夠有效地對旅游大數據進行數據采集和相關的數據分析。
4結語
本文將旅游研究和計算機相結合,構建了基于旅游評論大數據的統計分析框架,并根據框架進行具體的旅游大數據分析實踐,在此基礎上進行了相關數據分析與知識發現,為旅游領域研究人員提供基于大數據的研究實踐框架。在今后的工作中,主要可以從以下兩點開展進一步的深入研究:
1)? 構建更多的數據爬取框架,從更多的數據源(如去哪兒網)獲取旅游評論數據,并將來自不同數據源的數據進行數據融合,從而獲得更豐富的數據。
2) 結合機器學習和深度學習的方法,對評論數據進行更多角度、更為深入的數據分析與知識挖掘,以獲取更多知識。
[參考文獻]
[1]高寶俊, 孫含琳, 王寒凝. 在線評論對酒店訂滿率的影響研究[J]. 旅游學刊, 2016, 31(4):109-117.
[2]程翠瓊, 徐健. 面向網絡游記時間特征的情感分析模型[J]. 數據分析與知識發現, 2017, 1(2):87-95.
[3]李莉, 張捷. 互聯網信息評價對游客信息行為和出游決策的影響研究[J]. 旅游學刊, 2013, 28(10):23-29.
[4]張天問, 吳明遠. 基于扎根理論的旅游幸福感構成——以互聯網旅游博客文本為例[J]. 旅游學刊, 2014, 29(10):51-60.
[5]沈體雁, 黃寧, 彭長江,等. 中國景區網絡形象指數研究——基于互聯網內容分析方法[J]. 旅游學刊, 2015, 30(6):80-90.
[6]王佳果, 王堯. 基于NVivo軟件的互聯網旅游文本的質性研究——以貴州黔東南肇興的旅游者文本為例[J]. 旅游論壇, 2009, 2(1):30-34.
[7]王琨, 郭風華, 李仁杰,等. 基于TripAdvisor的中國旅游地國際關注度及空間格局[J]. 地理科學進展, 2014, 33(11):1462-1473.
[8]靜恩明, 郭風華, 李仁杰,等. 基于新浪旅游博客的河北省A級景區網絡關注度研究[J]. 地理與地理信息科學, 2015, 31(3):118-122.
[9]Cenni I, Goethals P. Negative hotel reviews on TripAdvisor: A crosslinguistic analysis[J]. Discourse,Context & Media, 2017, 16:22-30.
[10]李素科, 蔣嚴冰. 基于情感特征聚類的半監督情感分類[J]. 計算機研究與發展, 2013, 50(12):2570-2577.
[11]王帆. 鎮北堡西部影城旅游形象感知研究——基于游客網絡評論的內容分析[J]. 旅游縱覽(下半月),2015(12):218-220.
[12]皮瑞, 鄭鵬.“網評少林”:少林寺旅游認知、情感、整體形象研究[J].干旱區資源與環境,2017,31(4):201-207.
[13]鐘彥清, 羅明春. 基于網絡文本分析云南石林旅游形象感知[J]. 新西部(理論版), 2016(9):19-21.
[14]汪秋菊, 劉宇. 基于網絡關注度的旅游景區客流量預警:研究框架與實證分析——以國家游泳中心水立方為例[J]. 旅游論壇, 2014, 7(5):9-15+25.
[15]楊艷霞. 基于本體的旅游網絡評論情感分析與預警系統[J]. 計算機與數字工程, 2016, 44(4):649-652.
[16]逯燕玲,何丹,齊震宇.北京市旅游區域競爭力評價與空間優化研究[J]. 北京聯合大學學報,2017,31(3): 31-40.