凌萬云 方 升 張曉如
(1.江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212003)(2.江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院 鎮(zhèn)江 212013)
旅游是服務(wù)業(yè),對(duì)于旅游景點(diǎn)而言,獲得高滿意度不僅取決于景區(qū)本身的吸引力,還要注重游客的思想與感受。近年來,隨著世界范圍內(nèi)對(duì)游客滿意的科學(xué)理論研究的發(fā)展,有關(guān)游客滿意度方面的研究也日益受到關(guān)注。通過研究,Whipplet 表明,游客滿意度存在“暈輪效應(yīng)”。換句話說,游客對(duì)景點(diǎn)具體方面的不滿將影響旅游產(chǎn)品的整體滿意度[1]。研究旅游者的滿意度,發(fā)現(xiàn)景區(qū)性能的弱點(diǎn),并確定應(yīng)立即改善其工作的領(lǐng)域,將是旅游勝地建設(shè)和管理中當(dāng)前的重要主題之一。游客經(jīng)常會(huì)通過在線評(píng)論來表達(dá)對(duì)景區(qū)的意見、建議和滿意度,以此同時(shí)潛在客戶會(huì)通過閱讀大量景點(diǎn)在線評(píng)論來協(xié)助做出旅游決策[2]。對(duì)于景區(qū)管理及服務(wù)者而言,游客滿意度能夠在在線點(diǎn)評(píng)中分析及體現(xiàn),且能從有價(jià)值的評(píng)論信息中提取改善景區(qū)服務(wù)的建議及意見[3]。景點(diǎn)評(píng)論大多是由海量的短文本集合組成,且游客攥寫評(píng)論時(shí)隨意性較強(qiáng),由此會(huì)產(chǎn)生許多冗余評(píng)論。因此,從大量的景點(diǎn)評(píng)論文本中研究游客關(guān)注點(diǎn)和總體情感傾向,進(jìn)而為潛在游客提供選擇參考必然意義非凡[4]。
目前,國內(nèi)外學(xué)者對(duì)景點(diǎn)情感分析的研究主要集中在對(duì)景點(diǎn)在線評(píng)論滿意度影響因子等方面,以及基于景點(diǎn)在線評(píng)論的個(gè)性化旅游推薦。如,Mauri& Minazzi 等通過實(shí)驗(yàn)證明在線評(píng)論影響潛在游客的消費(fèi)傾向[5]。Levy 等分析得出的結(jié)論是,游客差評(píng)可能會(huì)對(duì)酒店聲譽(yù)造成破壞性影響[6]。王少兵等通過實(shí)驗(yàn)直觀提取景點(diǎn)在線評(píng)論信息中各個(gè)旅游形象的游客關(guān)注點(diǎn)和總體情感,為潛在有價(jià)值游客提供可選擇性的參考依據(jù)[7]。本文在前人基礎(chǔ)研究上提出一種基于用戶評(píng)論的情感分析及景點(diǎn)優(yōu)選排序方法,分析并研究景點(diǎn)的評(píng)論數(shù)據(jù),依次評(píng)價(jià)游客關(guān)心的多個(gè)景區(qū)形象屬性。本研究采集大量的游樂園主題下游客評(píng)論數(shù)據(jù),并依據(jù)游客滿意度提出新的景點(diǎn)優(yōu)選排序方法,滿足游客不同選擇的同時(shí)也便于景區(qū)管理者及時(shí)作出相應(yīng)調(diào)整。
通過python 爬蟲框架[8]編寫網(wǎng)絡(luò)爬蟲程序,從攜程網(wǎng)上采集游樂場主題下的包括上海迪士尼,蕪湖方特,廣州長隆歡樂世界等7 個(gè)景點(diǎn)游客評(píng)論信息。為避免景點(diǎn)熱度差異引發(fā)的的評(píng)論數(shù)據(jù)稀疏問題而影響后續(xù)分析,選取評(píng)論數(shù)據(jù)多余100 條的景點(diǎn),共有66000條原始評(píng)論數(shù)據(jù)。
高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù)集直接影響文本分析結(jié)果的準(zhǔn)確性,因此數(shù)據(jù)清洗[9]至關(guān)重要。篩選數(shù)據(jù)以刪除一些重復(fù)和不必要的數(shù)據(jù)叫做數(shù)據(jù)清洗。數(shù)據(jù)清洗處理規(guī)則如下。
規(guī)則1:刪除空評(píng)論數(shù)據(jù)。空評(píng)論數(shù)據(jù)即使無實(shí)際意義,也會(huì)影響最終的綜合性評(píng)價(jià)結(jié)果,刪除空評(píng)論數(shù)據(jù)以保證景點(diǎn)評(píng)論分析結(jié)果的可行性。
規(guī)則2:刪除虛假數(shù)據(jù)。像攜程一類的推薦系統(tǒng)大多依據(jù)景點(diǎn)綜合評(píng)分的高低做出一系列推薦排序。為了追逐利益最大化,景區(qū)多存在虛假刷單的不良競爭行為。因此大量的評(píng)論數(shù)據(jù)中,必然存在虛假和冗余的數(shù)據(jù)。刪除虛假數(shù)據(jù),才能保證景點(diǎn)分析結(jié)果的客觀性和公平性。刪除虛假數(shù)據(jù)的方法是遍歷所有的評(píng)論數(shù)據(jù),刪除評(píng)論相同的數(shù)據(jù)。
使用NLPIR-ICTCLAS 中文分詞系統(tǒng)對(duì)評(píng)論文本進(jìn)行分詞;然后過濾掉“的”“了”等無實(shí)意的“停用詞”;最后將單個(gè)景點(diǎn)的評(píng)論文本集合保存在一個(gè)文本文件中,文本一行表示一條評(píng)論文本。
本研究主要包括建立景區(qū)形象屬性計(jì)算其重要度、關(guān)聯(lián)景區(qū)形象與評(píng)論數(shù)據(jù)、評(píng)估景點(diǎn)滿意度得分、構(gòu)建基于景點(diǎn)滿意度排序模型等四個(gè)階段:1)通過關(guān)鍵詞提取技術(shù)獲取6 個(gè)景區(qū)游客滿意度影響因素,并計(jì)算每個(gè)因素的重要度。2)利用語義相似度方法關(guān)聯(lián)評(píng)論[10]并對(duì)評(píng)論數(shù)據(jù)進(jìn)行評(píng)論觀點(diǎn)提取與情感分析。3)利用評(píng)估函數(shù)對(duì)景點(diǎn)滿意度進(jìn)行評(píng)估,建立基于景點(diǎn)滿意度得分的景點(diǎn)排序模型并引入威爾遜置信區(qū)間算法對(duì)景點(diǎn)排序模型做適當(dāng)修正。
景點(diǎn)評(píng)論中會(huì)涉及眾多的影響游客選擇的因素,包括環(huán)境、服務(wù)、門票價(jià)格、設(shè)施完善、是否需要排隊(duì)等。通過處理某一主題下的景點(diǎn)評(píng)論,并且識(shí)別這些評(píng)論中的評(píng)價(jià)對(duì)象,由于游客評(píng)論文本中對(duì)景點(diǎn)某個(gè)屬性提及的次數(shù)越多,表明游客對(duì)該屬性的關(guān)注度越高,因此通過關(guān)鍵詞提取并結(jié)合人工的校正的方法,構(gòu)建景點(diǎn)形象屬性集。
景點(diǎn)形象屬性集是從海量實(shí)驗(yàn)數(shù)據(jù)中提取的高頻率關(guān)鍵字集合。如若每條實(shí)驗(yàn)數(shù)據(jù)包含n個(gè)關(guān)鍵字,有K條實(shí)驗(yàn)數(shù)據(jù),令A(yù)為實(shí)驗(yàn)數(shù)據(jù)提取的關(guān)鍵字總和[11],即:


由于影響游客選擇一個(gè)景點(diǎn)的因素通常被標(biāo)記為一個(gè)個(gè)的詞匯,導(dǎo)致設(shè)定的每一個(gè)景點(diǎn)形象也只包含一個(gè)詞匯,限制了與其直接關(guān)聯(lián)評(píng)論的數(shù)量,影響后續(xù)評(píng)估的準(zhǔn)確性,因此需要利用Word2vec 的語義相似度計(jì)算方法[12~13]對(duì)利用每個(gè)景點(diǎn)形象進(jìn)行擴(kuò)展。本文利用開源的向量生成工具(Word2Vec)將各個(gè)詞全部映射到一個(gè)低維向量空間,本文選取的是300 維度,從而通過計(jì)算形象屬性集中各個(gè)單詞距離最近的前N個(gè)詞,再設(shè)定合適閾值來對(duì)距離較遠(yuǎn)的詞集進(jìn)行過濾,依次擴(kuò)充景點(diǎn)形象屬性集。提取出6 類影響景區(qū)滿意度因素及其擴(kuò)展后景區(qū)形象屬性集如表1。

表1 滿意度影響因素及擴(kuò)展后景區(qū)形象屬性集
本文將景區(qū)形象屬性形式化表示為以下形式:

游客在選擇景點(diǎn)時(shí)對(duì)于景點(diǎn)形象屬性的關(guān)注程度是不同的。因此需要對(duì)每個(gè)景區(qū)形象的重要度進(jìn)行分析計(jì)算,以便為游客提供更為便利的服務(wù)。由于原始評(píng)論數(shù)據(jù)文本中并非每條評(píng)論都提及到本文提取的景點(diǎn)形象屬性或者存在一條評(píng)論文本中提及景點(diǎn)形象屬性的多個(gè)方面,故本文采用的方法是先計(jì)算提及景區(qū)形象屬性的評(píng)論條數(shù)占總評(píng)論數(shù)的比重。再對(duì)各自的比重進(jìn)行歸一化處理,計(jì)算每個(gè)影響因素的權(quán)重。對(duì)實(shí)驗(yàn)中的選取的部分評(píng)論數(shù)據(jù)進(jìn)行滿意度影響因素重要度分析結(jié)果如表2所示。

表2 景點(diǎn)滿意度影響因素重要性排名
為了與景區(qū)形象進(jìn)行關(guān)聯(lián)并支撐后續(xù)景區(qū)形象評(píng)分的分析,首先利用經(jīng)過中文分詞處理后的評(píng)論文件作為與景區(qū)形象進(jìn)行關(guān)聯(lián)的基礎(chǔ),其中文件中每一行代表一條經(jīng)過中文處理的評(píng)論數(shù)據(jù)詞匯集。通過計(jì)算評(píng)論數(shù)據(jù)詞匯集與景區(qū)形象屬性T中詞匯集的相關(guān)度,來計(jì)算評(píng)論與某個(gè)景區(qū)形象屬性的相關(guān)度,計(jì)算公式如下:

評(píng)論觀點(diǎn)提取和情感分析是基于方面的情緒分析的兩個(gè)基本的細(xì)粒度子任務(wù)[14]。觀點(diǎn)抽取是從海量非結(jié)構(gòu)化數(shù)據(jù)中抽取信息的觀點(diǎn)[15]。由于每條評(píng)論文本中可能包含游客對(duì)于多個(gè)形象屬性的觀點(diǎn)且這些觀點(diǎn)情感傾向各不相同。例如,在一段游客評(píng)論中“園區(qū)超級(jí)大,超級(jí)漂亮,項(xiàng)目安全措施很不嚴(yán)謹(jǐn)”,游客提到兩個(gè)景區(qū)形象屬性即“園區(qū)環(huán)境”,“項(xiàng)目”,表達(dá)了對(duì)前者的積極情感和后者的消極情感。本文是通過預(yù)測(cè)一個(gè)句子中某個(gè)方面的情感極性來綜合計(jì)算景區(qū)在各個(gè)形象屬性方面的得分。因此需要對(duì)評(píng)論文本進(jìn)行觀點(diǎn)提取后在分別基于評(píng)論文本的不同方面做情感分析。本文采用百度AI 評(píng)論觀點(diǎn)抽取與情感分析自定義方法,自動(dòng)分析自定義的評(píng)論內(nèi)容關(guān)注點(diǎn)和評(píng)論觀點(diǎn),提取評(píng)論的評(píng)論觀點(diǎn)標(biāo)簽,并計(jì)算評(píng)論中各個(gè)方面的情感得分,即將情感分析結(jié)果中的感情積極的概率記作最終情感得分值。
由于景區(qū)形象屬性不僅關(guān)聯(lián)相關(guān)評(píng)論且包含每條評(píng)論的情感得分,因此可以對(duì)景區(qū)形象屬性進(jìn)行滿意度量化計(jì)算,進(jìn)而從景區(qū)形象屬性中間接得到游客對(duì)景區(qū)的滿意程度。基于評(píng)論的景點(diǎn)滿意度計(jì)算公式為

依據(jù)各景點(diǎn)滿意度分值SR的大小對(duì)各景點(diǎn)做進(jìn)行推薦排序,SR 值越高,景點(diǎn)在推薦序列中的排序結(jié)果越前,反之越后。按照式(4)計(jì)算得出的景點(diǎn)滿意度從高到低進(jìn)行排序如表3所示。

表3 基于滿意度的7個(gè)景點(diǎn)排序
由表4 可知,南京銀杏湖樂園及上海迪士尼樂園的基于評(píng)論的情感滿意度得分分別為0.633、0.630,按照滿意度由高到低對(duì)進(jìn)去進(jìn)行推薦排序,南京銀杏湖樂園應(yīng)在上海迪士尼樂園之前,而南京銀杏湖樂園評(píng)論數(shù)量遠(yuǎn)低于上海迪士尼樂園評(píng)論數(shù)量。為了使排序模型更具可信度,對(duì)于滿意度得分差距不大的兩個(gè)景點(diǎn)排序時(shí),除考慮原始景點(diǎn)滿意度得分,還需綜合考慮兩個(gè)景點(diǎn)的評(píng)論數(shù)量。因此引入威爾遜置信區(qū)間[16]來修正景點(diǎn)推薦排序結(jié)果的可信度。
置信區(qū)間的本質(zhì)是修改可信度并彌補(bǔ)小樣本量對(duì)排序結(jié)果產(chǎn)生的影響。如果樣本足夠多,則意味著它更可信且不需要進(jìn)行大的校正,因此置信區(qū)間將變窄,下限值將變大;如果樣本很少,則意味著它不一定是可信的,必須進(jìn)行較大的修正,因此置信區(qū)間將變大,下限將變小。本文采用以下威爾遜置信區(qū)間公式來計(jì)算經(jīng)典滿意度得分的置信下限

其中p,z,n 分別表示為經(jīng)典滿意度得分,置信水平,景點(diǎn)評(píng)論數(shù)量。通過比較修正后景點(diǎn)滿意度得分對(duì)景點(diǎn)進(jìn)行推薦排,引入威爾遜置信區(qū)間修正排序結(jié)果如表4所示。

表4 威爾遜置信區(qū)間修正后的7個(gè)景點(diǎn)排序
綜上所得,當(dāng)景點(diǎn)評(píng)論數(shù)量分布存在不均衡的情況時(shí),無論景區(qū)滿意度得分是否存在差異,均引入威爾遜置信區(qū)間作景區(qū)滿意排序s 的修正,以獲得更加公正的排序結(jié)果。
本文提出了一種基于評(píng)論的景點(diǎn)情感分析方法。本研究通過爬取大量用戶的評(píng)論數(shù)據(jù),構(gòu)建影響景點(diǎn)滿意度的一組因素集,并以此對(duì)評(píng)論進(jìn)行分類后計(jì)算不同影響因素的評(píng)論情感得分,根據(jù)滿意度評(píng)估函數(shù)實(shí)現(xiàn)影片的滿意度得分計(jì)算,按照評(píng)估結(jié)果對(duì)景點(diǎn)進(jìn)行推薦序列排序,考慮到評(píng)論數(shù)據(jù)對(duì)景點(diǎn)排序結(jié)果可靠性的影響,利用威爾遜置信區(qū)間引入景點(diǎn)評(píng)論數(shù)量得出最終排序結(jié)果。本研究提供給不同顧客同一景點(diǎn)形象屬性的滿意度評(píng)分結(jié)果,能某種程度上幫助顧客精準(zhǔn)關(guān)注自身的選擇傾向,也為景區(qū)管理者提供關(guān)注游客喜好和改變經(jīng)營方式的數(shù)據(jù)參考。