張軍洲,連云凱
(桂林旅游高等??茖W校 ,廣西 桂林541006)
虛擬社區在近些年發展得非常迅速,博客、論壇、YOUTUBE、Wikis、2nd life等都是虛擬社區發展的例子,這些技術的發展使人們可以和全世界的人們共享自己的經驗[1]。而虛擬社區又分為兩大類,一類是以YOUTUBE和2nd life為代表,關注點在于視覺的經驗分享,比如視頻和圖片;另一類是以論壇和博客為代表,關注點是網頁上的文本,文字的內容容易獲取、標記,進而可以綜合分析,使管理者能得到需要的商業信息。而作為近幾年的一個熱門產業——旅游,由于越來越被人們重視,人們總是會在節假日安排自己的旅行。由于網絡的發展,越來越多的人樂于以博客和論壇的形式發表自己的旅行經驗以及對旅游產品的評價,所以旅游博客和旅游論壇近幾年也迅速發展。很多人計劃旅行時,也會通過網絡查看自己計劃旅游地的外部評價,從而選擇最優的旅行安排。
本文以旅游博客和旅游論壇為著眼點,介紹了它們對傳統旅游產業的影響,論證了在新的網絡時代,如何利用旅游博客和旅游論壇為旅游管理者提供改善旅游產品的方向。
傳統的旅游業主要通過一些傳統媒體,比如電視、報紙、雜志,宣傳自己的旅游產品。但是,面對現在新的網絡時代,這些做法已經落后,具有明顯的缺點:
(1)投資較高。由于傳統媒體資源有限,要達到廣告效益,投資必然較高。
(2)缺少交互性,較少得到旅游消費者的反饋,不能改進提高。
(3)旅游管理者不易把握旅游市場發展的動向,不易了解自己的競爭對手。
而通過網絡的方式則可以明顯得以改善?,F在很多旅游管理者已經看到這個趨勢,在網絡上投入廣告,推廣自己的旅游產品,稍有遠見的管理者則專門建立自己的旅游網站進行宣傳,通過傳統媒體和新媒體的結合推廣自己的旅游產品。不過,如何利用當前發展迅速的旅游博客和論壇,卻少有人了解。
游客在博客和論壇上所寫的文章,往往會包含很多信息,比如自己的喜好、期望得到什么樣的服務、對已經去過的旅游景區的評價、下次他可能會去哪里旅游、他對某個酒店的評價等。而且由于網絡的發展,虛擬社區可以使游客非常容易地和全世界的人分享自己的旅行經驗,從而他的文章不僅僅代表了個人的旅游產品消費信息,還能對其他有同樣旅游動機的消費者產生巨大的影響[2-4]。比如,對一個酒店負面的評價有可能會立即減少預定該酒店的顧客,而關于某個餐館的美味菜肴和服務員的熱情接待的正面評價,則可能迅速增加這個餐館的顧客。
因此,旅游管理者應該盡快學會利用旅游博客和論壇獲取信息,從而使其成為改善和提高旅游產品質量的有力工具。旅游管理者使用旅游博客和論壇的優勢如下:
(1)通過分析,可以知道消費者是如何評價自己的旅游產品的,或者了解消費者對其它旅游產品的評價,從而做到知已知彼,提高自己的競爭力。
(2)通過檢查消費者對某旅游產品正面或負面的評價,可以找到自己存在的問題,以改進和提高服務質量,提高自己在相關領域的產品競爭力,開發新的產品服務,對已有的優勢加強宣傳。
(3)通過分析消費者感興趣的內容,可以預測旅游發展的趨勢,從而有助于旅游管理者為將來的發展方向做決策。
由于網絡博客和論壇快速擴張,要分析所有相關的旅游文章成為一個巨大的任務,為了達到分析目的,通常要在一定時間間隔內閱讀分析幾百甚至上千的文章,很明顯,這不是一個人可以在一天、一周或者一個月可以完成的任務。因此,人為的分析博客論壇文章顯然是不可能的。
而與此同時,博客和論壇文章的數量還在迅速增長,這些文章隨時都在增加,而且分析工作還在不斷更新,需要每隔一段時間檢查一次。而這些工作可以使用軟件應用程序完成,還可以通過設置一些參數來完成不同的功能,而軟件由于依賴于使用者的參數設定,所以不會像人為的那樣,容易根據先前的經驗而產生一些帶有偏見的選擇,且軟件應用程序可以存儲相應的內容到自身數據庫里,從而避免檢查重復的數據。另外,人工的核查分析代價非常昂貴,耗費時間和金錢,而軟件應用程序從長遠考慮具有非常高的性價比。
要從網絡中大量的旅游博客和論壇文章數據中搜索旅游管理者需要的信息,需要使用網絡搜索引擎,按照搜索條件或者用戶設定的范圍,對網頁中的數據進行搜索,得到相關的一系列的網址列表,接著利用程序對獲得網址的文本內容進行劃分,去除不相關的或者很少相關的網址鏈接,此后,提取相關文本的內容并存儲到文件數據庫系統,接著利用文本提取算法對數據庫當中的文本進行分析,抽取需要的句子,簡化分析,獲得文本的關鍵詞或者合成詞關鍵詞,生成數據表,并鏈接到相應的句子和文本當中,接著根據設定的分類機制進行文件劃分,確定文本的評價性質是正面的,中性的或者是負面的,最后產生報告,給軟件程序使用者。其流程圖如圖1:

圖1 程序模型的流程圖
其中,搜索引擎為一個聚焦網絡爬蟲程序[5],它是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。
實現此軟件模型需要考慮的具體步驟是:
第一步:準備必要的搜索數據。在執行自動搜索前,用戶要手工定義一些相關主題、關鍵詞、URL等希望查詢的信息,其中也可以包含一些用戶想要檢查的指定的論壇和博客。
第二步:運行搜索引擎網絡爬蟲程序。將第一步設定的主題表(檢查條件)放入到搜索引擎網絡爬蟲程序中,從而得到相關的博客和論壇文章內容,這一步會產生大量的URL列表鏈接。
第三步:評測搜索到的URL結果。對第二步產生的URL列表進行檢查,移除用戶認為不相關的或極少相關的,保留用戶認為相關的。
第四步:提取URL列表里的相關內容。在這一步,網絡爬蟲從URL列表里提取所有的相關內容,并寫入到文件數據庫系統中。
第五步:線性分析。應用線性分析,將前面步驟獲得的文件內容拆分成句子,所有的句子富含語法信息(有精簡的主謂賓等,句子類型,比如是疑問句,還是陳述句等),句子也將分組成段落。除此之外,將所有的關鍵詞或者合成關鍵詞從文章中也提取出來,構成一張數據表,并鏈接到相應的句子和文章中,且文本中只要出現和程序使用者提供的關鍵詞相同的詞,也標記出來,添加到數據表當中。
第六步:文本分類?;诘谖宀降臄祿恚瑢⑽谋靖鶕煌姆诸悪C制進行分類,比如酒店、景區、活動場所等,把這些分類信息加入到程序模型中,也包含作者、URL、時間等信息。
第七步:確定各個文本評價結果的性質(正面的,中性的或負面的),根據產生的數據表中的關鍵詞或句子的權值和極性來確定文章的評價分類。
第八步:產生報告,反饋給程序使用者。
要考慮的核心問題是:
(1)文本劃分:如何將文本劃分,去除不相關的或相關很少的文本。
可以通過搜索已有的主題詞列表中的關鍵詞實現,將網頁文本中獲得的關鍵詞與初始使用者設定的條件區域關鍵詞進行匹配,計算出每個網頁的相似度,從而得到按相似度排序的一系列網頁,設定一個相似度門限閾值,低于此閾值的網頁被去除,高于此閾值的保留,留做進一步的分析使用。
(2)文本提取算法[6]:如何提取文章里的核心句子,關鍵詞,合成關鍵詞。
當前的文本提取算法有很多,比如K-最近鄰分類算法(K_Nearest_neighbor)、樸素貝葉斯分類算法(NB)、支持向量機算法(SVM)、神經網絡方法、最小平方擬合算法(LLSF)、線性回歸模型算法、決策樹算法(Decision Tree)等。
(3)對文本總結評價算法實現:如何確定文本的評價結果,比如是正面的、中性的,還是負面的,評價的程度如何等。
通過對生成的數據表中關鍵詞或者合成關鍵詞和已有的數據字典匹配,賦予極性(POL)和權值(POW),極性有3種,分別是正面的(Pos)、中性的(Neu)、負面的(Neg),而權值是0到1之間的數字。數據字典需要人為的添加并不斷更新而生成,它是保證評價結果準確性的關鍵。表1為一個數據字典表的例子。這里需要注意,如果關鍵詞前面有“很”、“非常”、“特別”等表達程度的副詞時,其權值應相應地按比例增加。
另外,不同的程序使用者可以按不同的目的選擇自己想要的信息。比如,一個負責酒店服務質量的酒店經理,往往會關注負面的評價結果,以找出自己企業的不足,從而改進。因此,他在使用時,可以降低對正面信息的關注度,而提高對負面信息關注的參數設定。而客戶經理也會關注負面評價,以便能盡快地改進服務,市場部經理會比較關注正面的評價,用這些數據加大網絡上對自己旅游產品的宣傳。

表1 數據字典表
本文分析了新網絡時代旅游博客和論壇對傳統旅游產業的影響以及如何使用旅游博客和論壇分析提高旅游產品質量,提高自己的競爭力,更進一步可以預測旅游發展的趨勢,從而有助于旅游管理者為將來的發展方向做決策。文中給出了軟件程序實現的步驟,并分析了其中的核心問題,給出了解決方法。由于本軟件程序由多個模塊構成,下一步的工作是要完成具體各個子模塊的算法實現,選擇最優的算法,以便進一步提高此軟件程序的正確性。
[1]Archdale G.Computer reservation systems and public tourism offices[J].Tourism Management,1993:3-14.
[2]李莉,王靜.從“觀望者”到“購買者”:中國旅游電子商務消費者購買決策行為探析[J].旅游學刊,2008,23(5):49-56.
[3]石建中,康偉,李志剛 .關于在線旅游企業網絡組織的研究 [J].旅游論壇,2011,21(5):48-53.
[4]王玉潔,顏琪,劉承良.旅游電子商務網站服務質量的感知實證分析[J].旅游論壇,2009,10(1):28-31.
[5]周立柱,林玲.聚焦爬蟲技術研究綜述 [J].計算機應用,2005(9):25.
[6]曹鋒,張代遠.文本分類技術研究[J].電腦知識與技術,2009,5(32):9023-9025.