宦正東 朱曉菲 李翛
摘要:本研究將蘇州市內(nèi)43個景點資料作為待處理文本,利用jieba分詞對其進行了分詞、去停用詞、提取特征項、計算特征項權重的處理,繼而用空間向量模型實現(xiàn)非結構化信息向數(shù)字化信息的轉(zhuǎn)變,最后采用k-均值聚類方法,通過計算各文本間的相似度,確定類別數(shù)得出景點特征分類結果。繼而利用分類結果設計出了5條蘇州市特色旅游線路。
關鍵詞:文本相似度算法;旅游線路;開發(fā)
一、研究背景和意義
隨著經(jīng)濟的發(fā)展和技術的進步,人們的休閑時間與時俱增,恩格爾系數(shù)與時俱減,人們可支配收入大幅度增加,生活水平提高了,對旅游的需求也越來越大。旅游已經(jīng)成為現(xiàn)代人生活中重要的部分,并且旅游者已不滿足傳統(tǒng)的旅游產(chǎn)品,越來越傾向于選擇個性化的,具有鮮明特色的休閑度假旅游產(chǎn)品。旅游收入在國內(nèi)生產(chǎn)總值中的占比越來越大,加快旅游業(yè)發(fā)展成為推動我國經(jīng)濟發(fā)展的重要方式之一。中國旅游業(yè)發(fā)展已進入爆發(fā)式增長期,大眾旅游時代即將全面來臨。旅游業(yè)發(fā)展與周邊產(chǎn)業(yè)緊密聯(lián)動??萍寂c創(chuàng)新是旅游發(fā)展的主要推動力,在線預訂、電子旅游信息、社交網(wǎng)絡等的廣泛應用改變了原有旅游業(yè)的面貌,同時旅游業(yè)的發(fā)展也促進了科技技術的創(chuàng)新。旅游業(yè)不僅促進文化產(chǎn)業(yè)發(fā)展,文化更是旅游產(chǎn)品的靈魂,沒有文化的旅游是不存在的。旅游業(yè)的發(fā)展還直接促進了與其相關的餐飲業(yè)、服務業(yè)和零售業(yè)的發(fā)展。當前的旅游線路產(chǎn)品參差不齊,文化內(nèi)涵不夠深厚,趨同性較高,品牌建設意識淡薄。
蘇州市旅游資源豐富,旅游景點眾多,但開發(fā)程度有待提高的問題明顯。運用全新的旅游線路開發(fā)思路,將文本相似度算法應用到旅游線路開發(fā)中,通過描述景點的文本信息,分析得出景點的特征,將具有相同特征的景點歸為一類,結合地理位置的特征將同類型的景點設計在一條線路中形成特色旅游線路。線路開發(fā)具有可行性且具有現(xiàn)實意義。旅游業(yè)較低的資源消耗、高度的產(chǎn)業(yè)關聯(lián)、緊密的地域聯(lián)系、顯著的富民效應,在京津冀協(xié)同發(fā)展中占有重要的地位。豐富人們的休閑娛樂生活,提高居民幸福感。隨著大眾旅游時代的到來,使旅游成為人們在緊張的工作學習之余的首選;人們生活水平的提高、帶薪休假的增加及對生活品質(zhì)的追求,高質(zhì)量旅游線路的設計是及其重要的;上班族在快節(jié)奏的生活下,需要釋放壓力,放松心情,才能更好地投入工作;老年人退休好,講究健康養(yǎng)老,康養(yǎng)旅游正當時;年輕學生朝氣蓬勃,更需要感受祖國大好河山的錦繡壯麗,激發(fā)愛國主義情懷,將來投身到祖國建設中來。如何針對現(xiàn)有的旅游資源進行有效的整合,打破現(xiàn)階段“單打獨斗”的狀態(tài),在充分利用蘇州市古城區(qū)旅游資源的同時,進行資源整合,從而推動蘇州市旅游業(yè)的整體發(fā)展,促進文旅深度融合。如何規(guī)劃游覽這些分散在蘇州大街小巷中的古跡、有效地安排旅游線路、提升游客的旅游質(zhì)量和旅游效率,在智慧旅游的設計中十分必要。特別是在散客時代,只有特色旅游線路的推出才能更好地滿足游客的需求。
二、基于文本相似度算法的特色旅游線路的開發(fā)方法
(一)文本處理
文本通常是具有完整、系統(tǒng)含義的一個句子或多個句子,屬于自然語言,是非結構化的信息。若要計算文本間的相似度,需要把這些非結構化的信息即文本,轉(zhuǎn)化成計算機能夠識別和計算的數(shù)字化的表示形式,這樣才能計算出文本間的相似度。計算文本相似度前期需要完成的過程主要包括分詞,去停用詞、提取特征項、計算特征項權重,度量相似度等。文本預處理過程包括分詞和去停用詞。將要分析的內(nèi)容為蘇州市市內(nèi)43個景點的文本信息。43個主要景點涵蓋了蘇州市古城內(nèi)的主要蘇州園林、博物館、寺廟、古城門、歷史文化名街。一個景點的信息為一個文本,其中包含著基本信息、歷史、建筑特點、作用地位等,內(nèi)容豐富全面,但是整個一句話,計算機是無法識別的,要實現(xiàn)文本相似度的計算,首先需要將文本進行預處理,就是將一句一句的話分成具有獨立意義的詞語。文本在預處理后得到幾百甚至幾千個具有獨立意義的詞語,要想對文本特征有比較準確的把握,就需要對能顯著體現(xiàn)文本特征的詞語賦予高權重,對出現(xiàn)頻率較低的詞語賦予低權重,這樣更能體現(xiàn)出景點的特征。但并不是每個詞語都是有用的,都能代表景點特征,接下了的首要目的是提取能夠代表景點特征的詞語,一般意義上講,文本中出現(xiàn)頻率越高的詞語,對文本的重要性越大越能在一定程度上代表文本的特征。提取出文本特征項之后就是計算特征項的權重,選用應用最多的、經(jīng)典的TF-IDF 權重計算方法。這個權重計算方法的中心思想為:如果某個詞語在整個文本中出現(xiàn)的頻率高。然后利用k 均值聚類算法對需要的文本預處理、特征項提取及其權重的計算過程,之后將43個景點的文本信息進行分類。
(二)基于高頻詞的景點特征分析
首先將全部43個景點的資料作為待處理文本,調(diào)取 jieba 分詞模塊進行分詞和去停用詞的預處理。將預處理之后的文本進行生成高頻詞的操作,調(diào)用 jieba.analyse 包,對完成上述預處理后的文本提取出現(xiàn)頻率最高的前 20 個詞作為該文本的高頻詞。保存軟件生成的景點的高頻詞,分析各景點的特征。接下來,將所有景點文本信息中的高頻詞整合在一起,從 wordcloud 包中調(diào)取Word Cloud 模塊生成高頻詞詞云,設置最大詞量為 1000,出現(xiàn)頻率最高的詞大小設置為 40。分析生成全部景點的高頻詞詞云,這樣能夠更直觀得體現(xiàn)出這景點的總體特征。
(三)基于K-均值聚類的景點特征分析
上述43個景點文本信息完成了分詞與去停用詞的文本預處理,接下來,提取能夠代表文本獨特性和具體性的特征項,根據(jù)對各景點高頻詞的分析,可以得出,高頻詞能夠作為各文本的特征項;用 TF-IDF 方法計算特征項的權重以降低文本表示模型的維度;用空間向量模型表示文本,完成文本為非結構化信息向計算機能夠識別、計算的數(shù)字化信息的轉(zhuǎn)變。最后調(diào)用 sklearn.cluster 包中的 KMeans 模塊,用 k-均值聚類方法計算各文本間的相似度。在聚類的過程中,類別數(shù)設置的越大,同一類別里的景點數(shù)相對越少,景點之間的特征就越接近。經(jīng)過反復計算,設置不同的類別數(shù)分析得出的景點之間特征的形式情況,設定類別數(shù)為 5,即將個景點分為5 類。利用 k-均值聚類方法將包括 43 個文本的集合劃分為 5類,實現(xiàn)過程包括,隨機選出 5個文本作為初始聚類中心點,之后計算還剩下的38 個文本與選出的這 5個點的距離,并把與中心點距離近的歸為同一類,然后重新隨機選取中心點,迭代計算上述過程,直至聚類中心點不再發(fā)生改變。分析各類別中包含的景點可以得出類別內(nèi)部的特征,其中部分類別特征在一定程度上與高頻詞具有一定的聯(lián)系。從側(cè)面體現(xiàn)出算法具有科學性且與現(xiàn)實情況相符。
三、特色旅游線路開發(fā)——以蘇州市為例
通過文本相似度算法得到了 5 類具有不同特征的景點分類結果,將各類別的特征確定為線路主題。在線路設計的過程中,為突出蘇州市特色景點,只保留了蘇州市內(nèi)交通方便、歷史文化內(nèi)涵豐富、旅游設施相對完善、游客數(shù)較多的部分景點。最后,結合地理位置特點,設計出下列 5條蘇州市內(nèi)特色旅游線路。以 “韻存千秋·大美昆曲” 為主題,從中國昆曲博物館到蘇州昆劇傳習所,再到江蘇省蘇州昆劇院,了解了昆曲的歷史和文化;以 “匠心獨妙·蘇作天工”為主題,從蘇州博物館到蘇州工藝美術博物館,再到蘇州民俗博物館,以“一玉一木一錦,一燈一扇一繡”為主線,觀賞出的玉雕、木雕、宋錦、燈彩、蘇扇、蘇繡,感受蘇作工藝的匠心獨妙;以 “康乾南巡·駐蹕姑蘇” 為主題 ,結合《康熙南巡圖卷.第七卷.無錫至蘇州》、《乾隆南巡圖卷.第六卷.駐蹕姑蘇》的背景,從閶門出發(fā),經(jīng)過胥門、江蘇巡撫衙門舊址、蘇州府學,最終到蘇州織造署舊址,了解康熙與乾隆南巡駐蹕蘇州的歷史故事;以“狀元故里·文脈尋根” 為主題,從懸橋巷的洪鈞故居出發(fā),經(jīng)過臨頓路來到鈕家巷“狀元博物館”,再到十全街的狀元第,最后到達三元坊,了解“中國歷史上惟一的狀元外交官”、“蘇州門第最顯赫的狀元”、“祖孫狀元”、“連中六元狀元”的故事;以 “光輝之路˙紅色遺跡” 為主題,游覽張冀牖故居、中共蘇州獨立支部舊址、五卅路紀念碑、上海戰(zhàn)役指揮機關舊址等紅色遺跡,重溫蘇州革命歷史。
參考文獻:
[1] 張志雄、費理源、廖宇. 基于蟻群算法的蘇州古城徒步旅游線路規(guī)劃[J].看世界,2020(21)
[2] 黃文彬、車尚錕.計算文本相似度的方法體系與應用分析[J].情報理論與實踐. 2019(11)
基金項目:2021年度蘇州經(jīng)貿(mào)職業(yè)技術學院院級課題“基于大數(shù)據(jù)的情感分析技術在蘇州旅游網(wǎng)絡評價中的應用研究”,項目編號為701K703。2021年江蘇省高等學校大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目“基于大數(shù)據(jù)的情感分析法在蘇州旅游網(wǎng)絡評價中的應用研究” 。