鄭俊+樓佳媛



摘 要: 提出基于旅游需求模板的景區評價數據分析輿情滿意度方法。通過基于旅游需求模板的關鍵詞模板庫構建、關鍵詞模板庫的擴充、針對景區評價數據的輿情滿意度的分析和景區輿情與滿意度分析模型的構建,給出了具體實施方式,解決了以往游客游記、評價等非結構化內容難以被其他游客高效搜索利用的問題,不僅可以向游客提供某個景區的綜合滿意度值,還可以向游客提供該景區具體的關于吃、住、行、游、購、娛六個方面的滿意度值,以及比吃、住、行、游、購、娛更具體的相關內容的滿意度值,從而讓游客快速了解該景區的各個評價參數。
關鍵詞: 關鍵詞模板庫; 景區輿情; 滿意度; 評價數據
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2017)03-62-03
Abstract: This paper puts forward a method of analyzing public opinion and satisfaction on the evaluation data of scenic spots based on tourist demand template. By means of keywords template library building and expansion based on the template of tourism demand, the paper analyses and builds the model of the public opinion and satisfaction on the evaluation data. It solves the problem that unstructured content such as tourists' travels and evaluation cannot be efficiently searched and utilized by other tourists. It can not only provide tourists with scenic spots' comprehensive satisfaction value, but also satisfaction values in the specific area of cuisine, housing, transportation, travelling, shopping, and entertainment, and even more specific related content of the satisfaction value in those six aspects. Thus it helps visitors quickly understand the evaluation of the various parameters of the area.
Key words: template library; public opinion of scenic spots; satisfaction; evaluation data
0 引言
隨著經濟的發展,現在已經進入旅游智能化階段和大數據的時代,游客通常通過查看媒體互動分享評價來決定自己旅游計劃。然而,傳統游客在游記中對景區景點的評價內容是非結構化、離散的,即難以采用一定的算法對其進行有規律地提取和組織,從而導致不能采用計算機智能對其提取分類。然而游客對“吃、住、行、游、購、娛”的評價獲取需求頗為急切,因此需要采用一種新的技術來實現游客評價的自動化提取并對大量的數據進行高效的有價值的分析[1-3]。
1 本文提出的方法步驟及特征
本文提出一種基于旅游需求模板的景區評價數據分析輿情滿意度方法,主要有基于旅游需求模板的關鍵詞模板庫構建(見圖1)、關鍵詞模板庫的擴充(見圖2)和針對景區評價數據的輿情滿意度分析計算三個步驟。該方法的特征在于:所述的旅游需求模板主要由內容大類關鍵詞、內容子類關鍵詞和情感關鍵詞構成,每個內容大類關鍵詞下分屬有其對應的內容子類關鍵詞,每個內容子類關鍵詞下分屬有其對應的情感關鍵詞[4-5]。
1.1 基于旅游需求模板的關鍵詞模板庫構建
主要由基于旅游需求模板引導評價的內容大類關鍵詞、內容子類關鍵詞和情感關鍵詞構成,每個內容大類關鍵詞下分屬有其對應的內容子類關鍵詞,每個內容子類關鍵詞下分屬有其對應的情感關鍵詞。
關鍵詞模板庫初始由列舉而成,所述的內容大類關鍵詞包括吃、住、行、游、購、娛的六個類別;所述的內容子類關鍵詞是在內容大類關鍵詞的基礎上構建的;所述情感關鍵詞是對內容子類關鍵詞的描述性詞語。
1.2 關鍵詞模板庫的擴充
關鍵詞模板庫的擴充具體是采用以下方式對內容子類關鍵詞和情感關鍵詞進行擴充:
⑴ 在已構建的關鍵詞模板庫基礎上,通過網絡爬蟲工具在內容大類關鍵詞所在段落文字附近搜索內容子類關鍵詞,將找到的在已構建關鍵詞模板庫中不存在的內容子類關鍵詞作為新的內容子類關鍵詞,并加入到關鍵詞模板庫中;
⑵ 在已構建的關鍵詞模板庫基礎上,通過網絡爬蟲工具在內容子類關鍵詞所在段落文字附近搜索情感關鍵詞,將找到的在已構建關鍵詞模板庫中不存在的情感關鍵詞作為新的情感關鍵詞,對新的情感關鍵詞賦權值后加入到關鍵詞模板庫中。
1.3 針對景區評價數據的輿情滿意度分析計算
所述針對景區評價數據的輿情滿意度分析計算具體是:由擴充后的關鍵詞模板庫通過網絡爬蟲工具搜索景區下的文字數據,抽取出內容大類關鍵詞所在段落文字附近的內容子類關鍵詞,再搜索抽取出每個內容子類關鍵詞所在段落文字附近的情感關鍵詞,從而獲得所有情感關鍵詞及其每個情感關鍵詞對應的內容子類關鍵詞和內容大類關鍵詞,然后構建景區輿情與滿意度的分析模型,通過景區輿情與滿意度的分析模型獲得以平均滿意度值作為該景區的輿情滿意度值。
2 景區輿情與滿意度的分析模型
⑴ 先采用以下公式計算獲得文字數據中所有評論中的關于某一個內容子類關鍵詞的滿意度值:
其中,表示第i個內容大類關鍵詞下第j個內容子類關鍵詞的平均滿意度值,t是分值(1~5),表示i個內容大類關鍵詞下第j個內容子類關鍵詞對應分值為t的情感關鍵詞的數量,Bij表示第i個內容大類關鍵詞下第j個內容子類關鍵詞,B{B11,B12,B13…B21,B22,B23…}代表內容子類關鍵詞集合。
⑵ 再采用以下公式計算獲得文字數據中一個內容大類關鍵詞的滿意度值:
其中,表示第i個內容大類關鍵詞的滿意度值,表示第i個內容大類關鍵詞下第j個內容子類關鍵詞的權值,n表示第i個內容大類關鍵詞下內容子類關鍵詞的數量,A{A1,A2,…,A6}代表內容大類關鍵詞集合。
⑶ 再采用以下公式計算獲得該景區的綜合滿意度值:
其中,Y表示景區的綜合滿意度值,i表示內容大類關鍵詞的序號,i取值范圍是1~6,表示第i個內容大類關鍵詞下的的權值。
3 具體實施方式
3.1 基于旅游需求模板的關鍵詞模板庫構建
⑴ 內容大類關鍵詞構建,主要包括吃、住、行、游、購、娛幾個大類。
⑵ 內容子類關鍵詞構建,主要是在內容大類關鍵詞的基礎上構建,比如和內容大類關鍵詞吃相關的內容子類關鍵詞有飯店、餐館、快餐店、小吃街等。
⑶ 情感關鍵詞構建,主要是在內容子類關鍵詞基礎上構建,比如和內容子類關鍵詞‘吃對應的情感關鍵詞有味道很好,價格實惠,環境優美等。
3.2 關鍵詞模板庫的擴充
⑴ 基于需求模板引導評價的內容子類關鍵詞庫擴充,通過網絡爬蟲工具在內容大類關鍵詞附近搜索相關的內容子類關鍵詞并與已有的模板庫進行對比,遇到新的內容子類關鍵詞后,自動加入到模板庫,比如遇到與內容大類關鍵詞吃相關的新的內容子類關鍵詞野味店等。
⑵ 基于需求模板引導評價的情感關鍵詞庫擴充,通過網絡爬蟲工具八爪魚采集器,在內容子類關鍵詞附近搜索相關的情感關鍵詞并與已有的模板庫進行對比,遇到新的情感關鍵詞后,自動加入到模板庫。
⑶ 情感關鍵詞均已由用戶進行賦分,給出分值(1~5),比如非常好/棒極了/美妙極了,這三個情感詞表達的滿意度是相同的,對應的分值都是5分,一般/湊合/還行對應的分值則都是3分;差極了/難受死了/簡直就是受罪/再也不會去了,對應的分值則是1分。
3.3 針對景區評價數據的輿情滿意度分析計算
⑴ 根據已有模版庫構建評價體系表。內容大類關鍵詞和內容子類關鍵詞的權重和情感關鍵詞的分值以及相同分值評論數量如表1所示,表中{}表示第i個內容大類關鍵詞下第j個內容子類關鍵詞對應分值為t的情感關鍵詞的集合。
⑵ 通過網絡爬蟲工具搜索景區網頁的每個帖子,按內容子類關鍵詞,搜索所有相關的情感關鍵詞,根據表1進行分類統計,把相應的情感關鍵詞的數量記錄到對應到中。
比如:通過網絡爬蟲工具搜到網頁得到1000個情感關鍵詞,有600個是與內容大類關鍵詞‘吃A1有關的,其中300個是與內容子類關鍵詞‘味道B11有關的,對應的情感關鍵詞集{}及數量如表2所示。
由內容子類關鍵詞滿意度計算公式可知該景區關于吃的味道的滿意度值為:
即:該景區關于吃的味道的滿意度值為3.6,同理可以計算其他內容子類的關鍵詞的滿意度值。
4 結束語
通過這種方法得到滿意度值,解決了以往游客的游記、評價等非結構化內容難以被其他游客高效搜索利用的問題,除了可以向游客提供某個景區的綜合滿意度值外,還可以向游客提供該景區具體的關于吃、住、行、游、購、娛六個方面的滿意度值,以及比吃、住、行、游、購、娛更具體的相關內容子類關鍵詞的滿意度值,讓游客快速了解該景區的各個評價參數。
參考文獻(References):
[1] 維克托.邁爾舍恩伯格著,盛楊燕,周濤譯.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社,2013.
[2] 馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013.2:10-11
[3] 黃先開,張麗峰,丁于思.百度指數與旅游景區游客量的關系及預測研究-以北京故宮為例[J].旅游學刊,2013.11:93-100
[4] 趙風霞.基于數據挖掘的旅游智能推薦系統的研究和設計[J].科技創新與應用,2013.4:2-4
[5] 徐波林,李東和,錢亞林,劉燕桃.智慧旅游:一種新的旅游發展趨勢-基于現有研究成果的綜述[J].資源開發與市場,2013.3:7