趙梓軒 許銳



本文以2011-2019年大陸赴臺自由行游客為研究對象,使用Python爬蟲技術抓取馬蜂窩、窮游網游記及行程文本數據,運用自適應DBSCAN算法、社會網絡分析法,提取游客訪問景點,探測旅游熱點AOI,并對出行時長為8日及15日的游客流動情況進行探究,以期總結經驗,為類似研究及旅游規劃發展提供參考。研究表明,大陸赴臺游客旅游熱點AOI呈環島狀分布;8日游、15日游游客均以臺北為主要集散地,前者路徑成輻射狀分布,多到訪知名景點,小眾景點較少涉及;后者多采用環島旅行方式,對臺灣地區人文風情有更細致地游覽。
引言
近年來,人們的旅游意愿隨著生活水平的提升日益增強,同時得益于網絡社交媒體的蓬勃發展,人們的旅行方式有了極大改變。游客通過平臺可實時發布自己的旅游見聞,與網友互動、討論,并隨之產生了豐富的關于旅游目的地的信息數據。這些由游客編輯生成的數據形成了一種新的數據類型,用戶生成數據(User Generated Content,UGC)。該類數據中包含了大量有關旅游目的地的時空、情感等信息,有效解決了樣本規模問題的制約,逐漸成為現階段旅游行為研究的主要數據源。
從基于UGC數據挖掘游客時空行為提取旅游行為空間特征的具體研究方法上來看,主要包括旅游熱點提取和軌跡發現兩個關鍵步驟。在旅游熱點提取方面,早期研究多采用核密度分析方法探測城市旅游熱點。該方法能夠有效反映旅游熱點分布的大致趨勢,但無法對熱點與非熱點區域進行準確區分,難以進一步研究游客在不同熱點之間的轉移路徑。近年來,相關研究聚焦于使用具有噪聲點濾除特性的DBSCAN聚類算法探測旅游熱點區域。秦靜、Vu等人分別使用P-DBSCAN識別北京、香港城市內部AOI,探尋游客時空分布特征,準確反映了游客在城市內部的真實分布,并進一步生成和分析游客流動規律。但不難發現,使用DBSCAN探測旅游熱點區域需人工指定參數,存在客觀性不足的缺陷。
對于游客軌跡發現,早期研究多采用問卷調查或旅游景區直接統計等形式進行,受制于樣本大小,相關研究多集中在小尺度(縣區行政級別),對其內部旅游流空間分布及游客流動規律進行刻畫,未能準確反映游客在各旅游熱點之間的轉移,研究區域小且代表性不強。而使用UGC大數據能夠有效解決樣本制約,精細刻畫游客流動規律。秦靜等針對此類現狀使用馬爾科夫鏈對北京市內部游客流動軌跡進行推演,取得了良好的效果。不可忽視的,此類研究多采用具有地理標記的游客照片數據,對游客發布的大量無地理標記的文本數據利用甚少,其中,如何有效利用文本數據成為新的問題。
綜上,針對以上問題,本文以臺灣地區為實證研究區,選取大陸赴臺游客為研究對象,基于游客發布的行程、游記等文本UGC數據,引入自適應DBSCAN算法自動求解閾值,提取旅游熱點區域,總結游客旅游趨勢。進一步利用社會網絡分析法解析各旅游熱點AOI特征,探索臺灣地區旅游現狀。本文對大陸對臺開放自由行時段內游客空間行為進行研究,總結游客行為及市場規律,以期為類似科學研究及區域旅游發展提供思路及方案。
一、研究區概況及數據來源
(一)研究區概況
臺灣是我國第一大島,地處中國大陸東南部,屬亞熱帶-熱帶過渡區,氣候宜人。全島山巒綿延,溪谷交錯,散落大安、墾丁、阿里山等諸多風景名勝,自然環境優美,風光秀麗。較之于大陸等其他地域,臺灣島四面環海,對外交流相對繁盛,多元文化在此交融,造就了豐富的旅游資源,吸引了大量游客旅游觀光,極具研究價值。
(二)數據來源及預處理
本文使用Python爬蟲技術,抓取2011年1月1日-2019年7月31日馬蜂窩、窮游網等旅游門戶網站大陸赴臺游客行程及游記文本數據,抓取內容包括:文本標題、作者、來源地、出行日期、上傳日期、出行時長、花費以及文本內容共計8項信息。
數據預處理主要包括:廣告、營銷、純圖片游記數據剔除;同一游客分章游記合并;文本分詞及游覽景點按序提取;景點地理編碼及游客路徑生成4個步驟。經爬蟲抓取和預處理,本文共計獲得窮游網行程數據3 279篇,馬蜂窩游記文本數據14 279篇。
二、研究方法
(一)自適應的DBSCAN聚類
DBSCAN是一種典型的基于密度的聚類算法,從數據對象的分布密度出發,通過一組“鄰域”參數(Eps,MinPts)刻畫樣本分布的緊密程度,具有發現任意形狀的聚類和有效識別噪聲點的特性,但DBSCAN算法需人為指定Eps和MinPts參數,存在客觀性不夠、人工成本過高等缺陷。為此本文引入李文杰等人提出的自適應的DBSCAN算法,該算法基于參數尋優策略,分析數據集自身的分布特性,自動求解Eps和MinPts參數,并在實踐中取得了良好的效果。
(二)社會網絡分析法
社會網絡分析法是一種基于點、線、復雜網絡結構關系的跨學科研究和思維方法,借助圖論、數理統計以及拓撲學等定量研究方法,實現網絡內部個體、區域以及系統結構的整合,廣泛運用于經濟學、心理學等領域。近年來,該方法正逐步應用于游客行為研究、旅游市場分析等領域。本研究引入該方法,構建大陸赴臺游客旅游流空間特征網絡結構,借助Gephi軟件,對結果進行可視化,用直觀網絡圖分析各旅游片區在整體網絡中的作用及中心地位。
三、結果分析
本文使用jieba庫對游客文本數據進行分詞和詞性標注,提取名詞部分,并依賴“臺灣旅游部門”及網絡公開景點名稱對結果進行修正,例如將“故宮”“故宮博物館”“故宮博物院”等修正為“臺北故宮博物院”,依此建立臺灣地區旅游景點庫,通過地理編碼,實現文本景點數據向地理數據的轉換。經提取及編碼,本文共計獲取景點2 786個,并基于景點的經緯度坐標,使用自適應DBSCAN算法求取閾值,進行聚類。經實驗,當Eps、MinPts分別為0.069 016 837 967 462 4、19.930 032 292 787 9時,聚類效果最佳,最佳簇數為18。
從可視化聚類結果(圖1)不難看出,受臺灣島中央山脈影響,旅游熱點AOI依附城市,呈環島狀分布。北部地區臺北、桃園、基隆3塊片區所占比重較大,三者間聯系緊密且有成片趨勢;南部地區旅游熱點AOI呈散落狀分布,各AOI之間相距較遠,AOI內部點密度高,聯系緊密;東部海岸地區,如宜蘭、花蓮、北回歸線標志公園等,受山脈及臺灣島斷層海岸地形共同影響,AOI呈現狹長狀態,沿地勢較緩區域分布;中部地區則形成了清境農場、日月潭景區、阿里山風景區為主的自然風光類小型AOI。進一步依據游客出行時長規律,本文選取8日游和15日游為代表,按照景點在游客文本出現的次序,提取并生成游客流動軌跡圖。不難看出,8日游、15日游游客均喜好選擇臺北作為入境點,流動軌跡以臺北為中心呈放射狀分布,8日游游客平均到訪景點32個,15日游客平均到訪景點48個。區別于8日游,15日游游客流動軌跡稠密度高,縱橫交錯,涉及更多內部景點及細小片區,且有環島趨勢。
為更深層次地刻畫大陸赴臺游客空間特征,本文根據不同片區之間游客轉移數據建立矩陣(圖2),引入網絡分析方法,以聚類所得片區為節點,節點間流入、流出游客數量為邊,采用力引導布局進行可視化,對各片區之間內在關系進行探索。從直觀網絡圖上來看,8日游(圖3-a)出現單核心狀態,臺北片區與花蓮片區有重疊現象,與桃園、基隆、墾丁和高雄片區構成核心模塊,其余各片區與之聯系較為松散,清境農場、彰化等小規模新興旅游片區聯系度低;結合各片區所處地理位置,充分反映出該類游客旅游觀光目的性強,多選擇從旅游城市到旅游城市的游覽方式,對路徑上所包含的小眾旅游片區有所省略。區別于8日游游客,選擇15日游出行方式的游客,旅游觀光時間充裕,旅行活動更為細致,對各片區的游覽也更加全面。圖3-b中,各片區之間均有聯系,構成了多核心的網狀結構,游客對彰化、宜蘭等小眾旅游區也有不同程度的到訪。值得注意的是,臺北與基隆片區出現重疊現象,筆者認為,二者在地理位置上趨近并有片區融合的趨勢,且片區內部有較多旅游景點,有較為充裕的旅游時間,使游客在以臺北、基隆片區構成的小區域內開展細致的旅游活動,出現頻繁往來的情況。
四、結論與建議
本文使用Python爬蟲技術抓取2011-2019年馬蜂窩、窮游網中大陸赴臺游客游記及行程文本數據,引入自適應DBSCAN探索游客旅游熱點,并使用社會網絡分析法對8日游、15日游兩種旅行方式的游客流動情況進行了分析。結果顯示,大陸赴臺游客AOI片區在臺灣地區呈環島狀分布,人文類、自然風景類AOI交雜。北部區域(臺北、桃園、基隆)有綿延成片趨勢,南部區域則較為松散。大陸赴臺游客旅游流呈現以臺北片區為中心,放射狀分布,且有環島趨勢。8日游旅行模式中,游客旅游針對性更強,表現為臺北、花蓮、基隆、墾丁、桃園、高雄六片區的直接流動。15日游旅行模式中,臺北片區中心度雖有所下降但依舊處于核心位置,與基隆片區形成融合態勢,其余片區間游客流動量增大;綠島片區在網絡中的地位上升,其余片區中心度僅有小幅增減。不難看出,游客在旅行時間充裕的情況下,對臺灣地區進行更為細致地觀光游覽,對離島區域也展現出濃厚的興趣。
綜上,臺灣旅游部門應加大對臺北片區內部交通、文旅等基礎設施建設,做好游客入境、集散等基礎服務工作;同時,建設臺北、基隆、桃園區域級游覽區,充分協調周邊資源,實現優勢互補、市場互動;進一步提升宜蘭、彰化、清境農場、綠島等小眾旅游片區知名度、吸引力,為游客提供更為豐富的旅行體驗。
(作者單位:1.福州大學數字中國研究院(福建);
2.福建工程學院信息科學與工程學院)