梁旭楷 周尚武 楊 曦
(黔東南民族職業技術學院,貴州凱里 556000)
近年來,貴州省作為全國首個大數據綜合試驗區,省政府頻頻出招,持續推動大數據領域交流合作。貴州省黔東南州具有豐富的旅游資源,伴隨著當前旅游業網絡化、散客化、大眾化的趨勢,以“億萬”計數的游客旅游活動過程就是大數據的產生過程,在移動互聯網、5G 時代借助數據資產發展旅游產業化,能夠提升產業收益、提高管理效率、滿足個性化服務等方面的價值空間。通過利用互聯網和大數據技術,可以實現旅游信息獲取與分享、數據分析與決策支持、旅游信息輿情分析等方面的應用和提升,重構旅游產業的發展。隨著大數據時代的到來,對大規模旅游數據進行有效地分析、處理和可視化是一項挑戰[1]。
黔東南州全稱為黔東南苗族侗族自治州,地處貴州省東南部,是全國苗族侗族人口最集中的地區,被稱為“歌舞之州”“森林之州”“神奇之州”“百節之鄉”“民間文化藝術之鄉”“苗族侗族文化遺產保留核心地”“民族文化生態博物館”等。截至2023年3 月2 日,黔東南州擁有國家A 級旅游景區81 個,其中5A 級景區1 個,4A 級景區18 個,3A 級景區55個,2A 級景區7 個[2]。黔東南州旅游總收入同比呈現上升趨勢,游客數量明顯回升,旅游市場復蘇提速。
目前,黔東南州積極地實施大數據旅游云平臺開發、涉旅數據采集、智慧旅游服務中心和信息化基礎設施建設,圍繞“吃、住、行、游、購、娛”六大要素,依托“一碼游貴州”平臺建設黔東南州文旅產品消費專區,實現門票預訂、商品購買、導游導覽、VR 體驗、語音講解、安全預警等功能體驗。數據中心運用騰訊公司大數據,通過QQ、微信等定位信息確定游客是否到達黔東南州內、停留時長等數據,為游客線路定制、健康飲食、交通出行、購物消費等提供個性化的推薦服務等。在此基礎上,通過對旅游數據的采集、分析和可視化的方式,可以幫助旅游企業和政府更好地了解市場需求、競爭情況以及消費者行為,找出游客需求和不足之處,從而進行有針對性的優化和改進,提高旅游體驗和滿意度[3]。
本文介紹的平臺功能模塊如圖1 所示。首先,利用Python 爬蟲框架實現對旅游目標網頁的爬取。通過發送URL 請求并解析返回結果,使用Python 基于Scrapy 爬蟲框架所需數據進行解析,主要提取旅游線路、旅游景區、旅游評論、旅游酒店、旅游搜索等相關信息。其次,重復數據和空值行數據等進行數據預處理,讀取導入系統的數據文件,連接MySQL 數據庫并進行增刪改查操作。最后,采用阿里云DataV 數據可視化平臺實現結果的表達,連接對應的數據庫信息,將采集的結果數據動態地添加到曲線圖、詞云等圖表中。

圖1 平臺模塊劃分
為了快速地獲取目標網頁的數據信息并實現數據分析和可視化,本文系統采用網絡爬蟲技術來進行數據采集。考慮到本文系統需要處理大量數據,并且普通爬取技術效率低下且容易受到反爬蟲機制的影響,因此選擇了Scrapy 分布式爬蟲框架。筆者選擇了攜程網、馬蜂窩、去哪兒等網站作為數據獲取的目標[4]。數據爬蟲的基本流程包括發起請求、解析內容、獲取響應內容和數據保存。整個數據采集過程類似于用戶在網頁上收集所需數據的過程。
筆者的目標是爬取攜程網、馬蜂窩等旅游網站的相關數據,包括旅游線路、旅游景區、旅游評論、旅游酒店、旅游搜索等信息[5]。筆者使用瀏覽器自帶的開發者工具查看網頁的HTML 代碼并對所需數據進行核查,將對爬取的數據進行預處理并進行數據分析。
編寫Scrapy爬蟲程序的基本流程包括發起請求、解析信息、獲取響應內容和存儲數據。首先,程序發送HTTP 請求到目標網站,并等待服務器的響應。如果得到正常的響應,就會獲得一個包含網頁數據的響應的JSON字符串。然后,筆者將對響應進行解析,提取出所需信息。
在平臺的搭建過程中,使用正則表達式或BeautifulSoup 庫去除HTML 標簽,只保留文本內容,使用strip()方法去除字符串的前后空白字符,使用正則表達式或字符串方法去除特殊字符,識別并清除錯誤無效的數據。通過對獲取的數據進行預處理操作,便在接下來的統計和分析過程中使用。
將預處理后的旅游數據標準化、格式化存入MySQL 數據庫,在Scrapy 項目中配置MySQL 數據庫連接,在項目的settings.py文件設置數據庫地址、端口號、用戶名等數據庫相關配置,通過pipelines.py文件中創建一個MySQL 連接池,配置pipelines.py 文件中創建一個新的Pipeline,并存儲到MySQL 數據庫中具體的數據庫表名。
數據展示層部分通過DataV 技術的使用涵蓋了模塊設計、文字和顏色設計以及圖表選擇等三個方面。
1.模塊設計
根據旅游數據信息等爬取,本平臺采用了單頁在大屏上展示數據,展示內容涵蓋了旅游數據概覽、旅游搜索指數、熱點旅游景區排名、旅游評價關鍵詞、旅游實時輿情評價等方面。
2.文字和顏色設計
在可視化中,色彩和文字是非常重要的元素。色彩可以幫助人們快速區分不同的信息,而文字則可以用來簡要說明內容,避免用戶產生閱讀疲勞。
3.圖表選擇
圖表是圖形化展示數據的主要方式。在本平臺中,采用了曲線圖、滾動圖和詞云圖等不同的圖表形式。曲線圖用于展示黔東南旅游搜索指數并反映搜索的趨勢,滾動圖直觀地展示熱點旅游景點、旅游線路排名,詞云圖則用于表示游客對黔東南旅游的高頻率和重要性評價,將數據轉化為各種動態的可視化圖表實時展示給用戶。
該平臺系統采用Python 語言進行開發,展示層使用DataV 數據可視化控件進行頁面布局,并使用連接數據技術進行數據調取。數據采集和存儲部分采用Scrapy 爬蟲框架和MySQL 數據庫同步編程。黔東南州旅游大數據可視化平臺包含“黔東南州搜索趨勢”“旅游評價關鍵詞”“熱門景區排名”“旅游實時輿情評價”等模塊,根據實際運行,旅游數據可視化展示效果良好,大屏首頁如圖2所示。

圖2 可視化大屏首頁
該可視化平臺可在黔東南州旅游在旅游搜索趨勢分析、旅游輿情預警監測、旅游高頻評價詞云等領域進行應用,為政府、行業和企業提供了基于大數據視角的決策依據,促進了旅游的精細化、智慧化管理。
基于可視化框架來分析旅游搜索趨勢可以幫助筆者了解公眾對旅游目的地、景點或旅行主題的興趣和需求變化。可以通過API 接口獲取搜索引擎(如百度、360 搜索、搜狗搜索)和旅游相關網站的搜索數據收集旅游搜索數據,包括搜索關鍵詞、搜索量等。從近30天的可視化搜索趨勢來看,元旦假期后黔東南旅游搜索熱度上漲23.5%,圍繞熱門景區“西江千戶苗寨”“肇興侗寨”“鎮遠古城”和“村超”等旅游數據持續上升,搜索地域排名前三的為“廣東”“浙江”“北京”,搜索人群以20 歲至29 歲人群為主,占比達到35%。通過這些可視化展示旅游搜索趨勢的變化,可以更好地幫助旅游行業進行目標定位、產品開發和市場推廣策略的制定。
基于可視化平臺,利用旅游大數據通過對包括攜程、馬蜂窩、微博等旅游網站、社區論壇、社會媒體等渠道的實時監測和分析,及時發現和預警與旅游相關的負面輿情。通過數據可視化分析,游客對黔東南旅游景點評價良好,例如“西江夜景美妙”“侗寨景色迷人”“民族文化質樸”等滿意的評價,在住宿、餐飲、購物等方面整體評價是積極的,但也存在如“服務不到位”“酒店設施不滿意”等負面反饋。旅游輿情預警的建立和合理運用可以幫助旅游行業更好地應對,提升公眾對旅游目的地、旅游產品或服務的滿意度,保持黔東南旅游良好的聲譽和持續的發展。
當前,對黔東南旅游數據的可視化應用研究仍然存在旅游數據本身的內涵價值挖掘不夠、可視化結果簡單、旅游數據之間缺乏關聯性分析等不足。接下來將進一步地研究和探索,深化對黔東南旅游數據的挖掘,整合多維度數據,深入地挖掘數據中隱藏的相關關系,豐富可視化結果的表達方式,讓用戶能夠更好地理解地數據。