【摘 要】在旅游過程中,網(wǎng)民總會遇到各種各樣的問題,網(wǎng)絡(luò)新媒體讓網(wǎng)民有了可以表達(dá)意見,傳播新聞的自由,形成網(wǎng)絡(luò)輿情。對于網(wǎng)絡(luò)輿情正確引導(dǎo),還原游客意見構(gòu)成、聽取游客訴求,有利于及時發(fā)現(xiàn)問題、化解矛盾、釋放壓力,實(shí)現(xiàn)旅游市場的良性健康發(fā)展。本文利用數(shù)據(jù)挖掘算法對輿情中文本關(guān)鍵詞的提取提出了自己的看法。人工對比實(shí)驗(yàn)證明了該算法的有效性,有較高的準(zhǔn)確率和召回率。
【關(guān)鍵詞】旅游;關(guān)鍵詞;輿情
一、前言
網(wǎng)絡(luò)新媒體解放了人類的嘴巴,逐步消解新聞制造者與新聞閱讀者之間的鴻溝,讓每位新聞閱讀者都擁有在公共領(lǐng)域自由表達(dá)的平臺,打破傳統(tǒng)媒體”一對多”的傳播霸權(quán),不再是媒體一家之詞,新聞閱讀者也可以制造傳播新聞,形成了”多對多”的傳播格局,新聞閱讀者生產(chǎn)、新聞內(nèi)容共享、自由的意見交流為特征的網(wǎng)絡(luò)新媒體時代。
二、發(fā)現(xiàn)處理旅游網(wǎng)絡(luò)輿情的重要性
在旅游過程中,網(wǎng)民總會遇到各種各樣的問題,會聽到或看到各種各樣的現(xiàn)象,則不可避免的在網(wǎng)絡(luò)空間針對這些聽到或看到遇到的各種現(xiàn)象和問題發(fā)表意見,爭取權(quán)益,建言獻(xiàn)策,交流思想、抒發(fā)感情。通過新聞評論、論壇社區(qū)、博客空間、即時通訊、微博和微信等網(wǎng)絡(luò)新媒體形式,網(wǎng)民可隨時爆料、由此產(chǎn)生新聞話題。不同意見觀點(diǎn)進(jìn)入網(wǎng)絡(luò)這個自由市場,有些尖銳的意見之間形成博弈、交鋒、碰撞,與此同時,網(wǎng)絡(luò)新媒體與傳統(tǒng)媒體互相對接、引用和報道,傳統(tǒng)媒體越來越將獲取新聞線索和素材的重點(diǎn)放在網(wǎng)絡(luò)新媒體上,改變著輿論的生成與傳播機(jī)制,被官方壟斷的話語權(quán)由于網(wǎng)絡(luò)新媒體的出現(xiàn)而逐漸被下放和分解,形成旅游網(wǎng)絡(luò)輿情。旅游網(wǎng)絡(luò)輿情已成為旅游過程中游客社情民意的集中體現(xiàn),是旅游管理方探察民情、傾聽民意的重要渠道。通過對旅游網(wǎng)絡(luò)輿情研究,還原游客意見構(gòu)成、聽取游客訴求,有利于及時發(fā)現(xiàn)問題、化解矛盾、釋放壓力,實(shí)現(xiàn)旅游市場的良性健康發(fā)展。旅游網(wǎng)絡(luò)輿情作為我國現(xiàn)階段最集中、最接近真實(shí)的游客民意代表,為旅游管理部門審視政策利弊得失,提供了成本低廉、反應(yīng)快速的平臺。某種程度上,旅游網(wǎng)絡(luò)輿情代表的游客民意已成為旅游管理部門制定政策的民間智庫。
根據(jù)新華網(wǎng)網(wǎng)絡(luò)輿情監(jiān)測分析中心、武漢大學(xué)、中國社會科學(xué)院(2011)的研究結(jié)果顯示,地區(qū)網(wǎng)絡(luò)輿情事件的發(fā)生頻率和熱度高并不一定對該地形象產(chǎn)生負(fù)面影響,然而事件處理失當(dāng)對地區(qū)形象的破壞卻是巨大的。旅游管理部門對旅游網(wǎng)絡(luò)輿情事件的應(yīng)對是影響地區(qū)旅游網(wǎng)絡(luò)形象的關(guān)鍵。重視旅游網(wǎng)絡(luò)輿情、傾聽游客民意訴求、善用網(wǎng)絡(luò)建構(gòu)和提升旅游地區(qū)形象的理念,已被越來越多的地方所接受。
旅游業(yè)具有綜合性、關(guān)聯(lián)性、依賴性和異地性等特征,當(dāng)政治、經(jīng)濟(jì)、社會、自然等危機(jī)事件發(fā)生時,旅游業(yè)是國民經(jīng)濟(jì)最易遭受沖擊的行業(yè)之一。隨著我國旅游產(chǎn)業(yè)進(jìn)入大眾化的全面發(fā)展階段,國內(nèi)旅游規(guī)模迅速擴(kuò)大、出入境旅游均有大幅增長,游客構(gòu)成更加多樣、利益訴求逐步多元,加上網(wǎng)絡(luò)新媒體和傳統(tǒng)媒體監(jiān)督報道的推波助瀾,提高了旅游危機(jī)事件的發(fā)生幾率和破壞程度。這會影響到旅游地區(qū)的聲譽(yù),也在一定程度上危及整個旅游產(chǎn)業(yè)的安全。如上文所述,新媒體時代的危機(jī)事件在發(fā)生、演化和傳播上都與傳統(tǒng)媒體時代有巨大差異。因此,要科學(xué)有效的應(yīng)對各類旅游危機(jī)事件、修復(fù)和維護(hù)政府、企業(yè)和個人的受損形象,采用網(wǎng)絡(luò)輿情的監(jiān)測方法和管理手段必不可少。
三、旅游網(wǎng)絡(luò)輿情中關(guān)鍵詞提取的主要方法
關(guān)鍵詞提取主要包括以下幾種類別:(1)在基于有監(jiān)督學(xué)習(xí)的關(guān)鍵詞提取算法中,詞頻,TF-IDF,N-Gram,詞長,出現(xiàn)位置,共出現(xiàn)頻率等常常被當(dāng)做有效的特征加以使用。這種方法主要是對較多的訓(xùn)練語料進(jìn)行一定的訓(xùn)練,在訓(xùn)練中獲得各項(xiàng)系統(tǒng)的相關(guān)參數(shù)并建立一定的模型,最后利用這種模型對語料庫進(jìn)行測試,從測試中檢測此種模型提取關(guān)鍵詞的效果,Kea算法是一個基于貝葉斯模型的非常有效的算法。基于“信息增益”(Information Gain)的英文關(guān)鍵詞提取系統(tǒng)是以實(shí)用性為最終目標(biāo)的算法,稱為KPSpotter。(2)基于無監(jiān)督學(xué)習(xí)的關(guān)鍵詞提取。Mihalcea和Tarau受Page Rank的啟發(fā),把詞看做網(wǎng)頁,將詞與詞之間的語義關(guān)系看做鏈接,開發(fā)了Text Rank算法。他們提出了自己的短語合并算法。他們先將每個單詞作為基本元素參與迭代,迭代完之后,取出排名靠前的一部分詞作為候選。如果候選的詞在文中相鄰,則將他們合并成為短語。基于有監(jiān)督學(xué)習(xí)的算法充分利用了各種先驗(yàn)知識,實(shí)驗(yàn)結(jié)果表現(xiàn)較好。但由于過度依賴訓(xùn)練數(shù)據(jù),使得實(shí)用性較差。基于圖的算法利用詞語間的語義相似度建立網(wǎng)絡(luò),通過某種特定的規(guī)律構(gòu)建一個比較復(fù)雜的網(wǎng)絡(luò)模型,也取得了不錯的成績。很多工作都注意到了短語級別的關(guān)鍵詞的重要性,同時也提出了相應(yīng)的方法。
四、本文提出的關(guān)鍵詞提取算法
給定閾值k, k 為最近鄰對象個數(shù)
輸入: 要聚類的數(shù)據(jù)集D,參數(shù)k
輸出: 聚類好的簇列表S
對數(shù)據(jù)集D,計(jì)算所有對象的距離矩陣M,得到詞語語義距離后,對所有詞語進(jìn)行聚類。
方法: repeat 判斷輸入點(diǎn)是否為核心對象P,P∈D
IF P為核心對象{以對象p 建立一個新簇C, 對簇C 內(nèi)新加入的對象O, O∈C,遞歸將核心對象繼續(xù)聚到簇C 中,直到?jīng)]有新對象加入。
}
ELSE P為非核心對象{
如果P是一個邊界對象,P被標(biāo)記為噪聲
}
until 所有輸入點(diǎn)都判斷完畢
repeat 針對所有核心對象的D領(lǐng)域所有直接密度可達(dá)點(diǎn)找到最大密度相連對象集合,合并密度可達(dá)對象。
util 所有核心對象的D領(lǐng)域都遍歷完畢
輸出聚類好的簇列表S={C1,C2,……Cm}
算法的主要思想是通過詞語間的語義距離,對詞語進(jìn)行密度聚類,得到主題相關(guān)類,并簡化參數(shù)輸入, 同時能夠發(fā)現(xiàn)空間密度不同的簇。人工對比實(shí)驗(yàn)證明了該算法的有效性,有較高的準(zhǔn)確率和召回率。
五、總結(jié)
加強(qiáng)旅游行業(yè)網(wǎng)絡(luò)輿情引導(dǎo)機(jī)制的研究,應(yīng)用信息化技術(shù)加強(qiáng)旅游業(yè)網(wǎng)絡(luò)輿情引導(dǎo),營造一個有序、繁榮的旅游市場,隨著數(shù)據(jù)挖掘技術(shù)等大數(shù)據(jù)應(yīng)用越來越多的融入到旅游的各管理領(lǐng)域,通過互聯(lián)網(wǎng),指導(dǎo)人們的旅游行為和旅行計(jì)劃,從而實(shí)現(xiàn)方便快捷的智能化感知和交互性旅游體驗(yàn)。今后旅游業(yè)還應(yīng)在網(wǎng)絡(luò)輿情預(yù)警分析的研究和應(yīng)用方面進(jìn)行進(jìn)一步的探索。
參考文獻(xiàn):
[1]李 鋒.目的地旅游危機(jī)管理:機(jī)制、評估與控制[D].西安:陜西師范大學(xué),2008.
[2]吳曉梅.十年發(fā)展鑄輝煌—十六大以來旅游業(yè)發(fā)展述評之一[N].中國旅游報,2012-9-12.
[3]劉 棟,張彩環(huán).基于短語的中文標(biāo)簽自動生成混合算法[J].計(jì)算機(jī)科學(xué),2014.
注:
項(xiàng)目名稱:智慧旅游中的數(shù)據(jù)挖掘算法研究(項(xiàng)目編號:SKL2015C18)。
項(xiàng)目名稱:數(shù)據(jù)挖掘算法在智慧服務(wù)中的應(yīng)用(項(xiàng)目編號:LYC15-16)。
作者簡介:
張貴紅(1973—),女,樂山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,講師,研究方向:數(shù)據(jù)挖掘。