劉文龍, 黃 維
(清華大學深圳國際研究生院,深圳 518000)
近年來,中外在風景園林這一傳統學科的研究中逐步引入信息技術的量化思維、技術處理方法[1]。有部分研究運用大數據挖掘與自然語言處理技術對風景園林進行多景點系統分析,研究中較多基于地理分布的多景點橫向評價對比為用戶選擇景點服務,如王少兵等[2]基于評論的景點推薦研究、楊鑫等[3]對民宿評論情感分析方法的研究。目前較為缺少對單一景點展開多維度的深入分析,為園林管理方有針對性提升服務的研究。同時,互聯網多平臺的景點評價數據量大、涵蓋面廣、時效性高,整合可深度挖掘游人對景點多維度的認識,對傳統高定性分析提供一種用戶視角的量化分析補充,也因此選用了較為成熟且穩定性高的基于領域詞典的分析方法[4]。
現對單景點——留園的關注度進行分析,并對整體與基于構成要素的進行聚類的局部展開情感分析,重點是對基礎自然語言處理的技術方法在園林應用領域的方法論展開實踐應用研究。實驗探究留園多要素間游人關注度情況,以及對各要素的情感評價傾向,并對極性為負面的展開相關聯因素分析,補充了傳統園林領域的分析中較少有實驗案例運用網路評價數據及計算機技術對單景點用戶評價進行分析,運用交叉學科的理論與方法為留園的游人評價調研、規劃決策提供幫助,為園林領域其他景點亟需分要素精準優化提供分析思路。
研究方法如圖1所示。

圖1 留園關注度與構成要素情感分析模式圖Fig.1 The Liuyuan Garden attention model and sentiment analysis pattern diagram of component
(1)語料獲取。Webscraper獲取攜程網與去哪兒網的公開數據作為分析語料數據,共計7 057條。
(2)對語料數據進行清洗,主要為基于園林專業特點進行去重、標記、降噪、對齊等。分析粒度為語句級,對文檔內單獨的語句,標記其情感極性,把句子區分為正面、中立和負面3類,并按分句與評論段落分別分析情感加權結果。分詞使用了多個開源模塊,結巴分詞以及中科院計算所NLPIR為主,并進行停用詞過濾,詞性標注用HANLP的開源版本[5-6]。
(3)對留園整體評論展開詞頻分析(term frequency-inverse document frequency,TF-IDF),并根據詞性進行分類篩,獲取評論數據中關注度最高的序列。而后以語句顆粒度展開情感分析。情感分析(sentiment analysis)基于情感詞典匹配,計算結果依賴于情感詞典和每個情感詞的權重。本文研究詞典基于開源詞典并結合園林領域常用專業詞匯不斷優化調整詞條和權重整理得到[7]。
(4)對負面情感相關聯因素進行挖掘,將上步驟的分詞,以及詞頻篩選后的負面情感關聯的篩選詞,進行共詞矩陣分析,形成共詞網絡,對負面情感來源挖掘分析。
(5)根據園林構成要素篩選相關的標簽詞庫,構建基于園林構成要素(建筑、山石、植物、水體、空間組構、人文要素)的聚類,對單聚類數據進行情感分析并橫向對比,挖掘留園各構成要素的游人認知與評價情況,為分要素精準提升提供方向。
通過web scraper對旅游平臺攜程網與去哪兒網獲取的留園評價數據進行獲取,共收集7 057條評價數據,此2處平臺為旅游信息與服務的頭部平臺,評價數據全面且評價質量較高。對數據進行清洗,進行去重、標記、降噪、對齊,去除1 494項,實際有效數據5 563條,形成留園評論分析語料庫(corpus)。
對數據進行詞性標注,通過詞頻分析的方法對留園評價數據中主要的要素進行順序篩選,得到受關注度序列如圖2和表1所示。

圖2 留園各要素的受關注度詞云圖Fig.2 The word cloud map of the attention of each element of the garden

表1 各要素的受關注度詞頻分析表(部分)
如表1所示,通過評價數據展開的云圖與數據分析可以直觀看到,受關注度較高的前10位為建筑、假山、盆景、山水、庭園、太湖石、亭臺樓閣、空間、花園,涵蓋了留園構成要素的主要方面。但不可避免的同一類構成要素會多次出現,如假山與太湖石,后者是前者的主要構成材料。
為便于對同一要素評論情感進行分析,進行分要素劃分與聚類處理。
為便于對同一要素評論情感進行分析,進行分要素劃分與聚類處理。對園林主要構成要素分為建筑、山石、植物、水體、空間組構、人文要素6大類[8-9]。并對每類基于園林專業知識進行人工匹配分類,檢索標簽詞如表2所示。

表2 留園構成要素分類標簽詞
根據留園構成要素的標簽詞分類檢索得到關于6項構成要素的相關評論數據數量,作為各要素評論關注度的參照,結果如圖3所示。

圖3 留園各構成要素受關注度圖Fig.3 The attention degree of each component of the garden
(1)出乎意料,評論中6項構成要素中對于“山石”的關注度最高,建筑其次。空間組構的各構成元素“回廊、小徑、小路、庭院”等也受到了較多的關注,結合詞頻分析可以發現冠云峰、太湖石、假山的出現次數貢獻了主要的關注量,考慮假山相較于其他形態的空間營造較為獨有,且冠云峰充分體現了太湖石“瘦、漏、透、皺”的特點,為江南四大奇石而著名,吸引力強烈[10]。
(2)日常中,園林學者對園林中人文藝術構成部分研究占有重要地位,如書法、典故、古韻、圖案、評彈、雕刻等,而評論關注度中對此方面關注處于6個構成要素關注度的末位,與直觀認知有所不同。
3.3.1 留園整體情感分析
對留園整體評價數據進行分詞后對語句進行了切分,并進行情感分析,詞匯的情感值公式為
s(w)=v(w)p(w)
(1)
式(1)中:s(w)表示詞匯的情感值;v(w)表示詞匯的情感強度;p(w)表示詞匯的情感極性。遍歷每條切分句中情感詞之間的否定詞和程度副詞,并對其相應的權重值進行計算。每個語句情感傾向的情感值計算公式為
l(w)=n(w)a(w)s(w)m(w)
(2)
式(2)中:l(w)表示情感傾向的情感值,n(w) 表示否定詞的權重值;s(w) 表示情感詞匯的情感值,a(w)表示情感詞前所有程度副詞權重值的累加和;m(w) 表示情感詞前否定詞和程度副詞間的相對位置。如果程度副詞前有否定詞修飾時,m(w) 賦值為 0. 5,反之m(w)賦值為 1,對切分語句情感極性正面記為1,按評論切分句子計算情感值,然后合并后進行加總處理,形成評論語句段落的情感值,情感值分布情況如表3所示[11-12]。
忽略段落按分句分值分布可以得到情感評價數據如表4所示。通過分析可得:

表3 留園整體評論分句情感數據
(1)正面評價占比69.930%,中性評價占比24.163%,負面評價僅為5.908%,游客對留園整體評價呈價是積極的。
(2)負面評價有一定誤差,中文自然語言在使用中常使用多重否定與夸張,目前情感詞典對復雜語句判斷有一定難度,如游客評論中“嘈雜是不存在的”“好不美麗”。
對正面評價語句進行詞頻分析,得到結果如表5所示,并繪制可視化詞云圖,如圖4所示。
游客正面評價中呈現了游客的意猶未盡,“再來”“流連忘返”的詞頻為前兩位,綜合評價詞匯也可以歸納出留園美學及現觀賞情況的一些特點,如“精湛”“秀美”“鬧中取靜”“細細品味”“干凈”“麻雀雖小五臟俱全”“細膩”。
負面評價的詞頻分析結果如表6所示,可視化詞云圖如圖5所示。

表4 留園整體評論情感數據

圖4 留園正面情感詞云圖Fig.4 The positive emotion word cloud in Liuyuan Garden

表5 留園評論正面情感詞頻數據
其中通過分析結果可以直觀得出負面評論核心的有擁擠、嘈雜、不好玩。
對照詞頻文本數據可以得到:
(1)節假日、周末留園較為擁擠,游客體驗受到影響。可通過節假日預約、限流等方式控制一定的游覽人數,保證游客體驗。
(2)人流量因素造成部分游客感覺到嘈雜。
(3)部分游客感覺不好玩,對評論段落定位挖掘其原因,一方面為留園觀賞行為占據主導,較少有互動式、參與式的游玩項目,該部分可加強;另一方面留園營造中講求“雖由人作宛自天開”,形態上主要以自然景觀面貌呈現,蘊含的文化典故、山石植物欣賞基礎需要一定的積累鋪墊,對此可增加對園林了解較少游客的講解,通過生動的圖像、影像等方式讓游人了解園林之美。
對照表6可得,負面情感標簽詞匯中形容詞占據多數,如一般、不對、不行。具體關聯的負面情感成因未能體現。因此對負面詞頻頻率較高的詞匯進一步展開共詞矩陣分析,形成共詞復雜網絡探究負面情緒的主要原因。對幾個比較典型且共詞網絡頻率高的標簽詞單獨展開,分析結果可得。

表6 留園評論負面情感詞頻數據

圖5 留園負面情感詞云圖Fig.5 Liuyuan Garden negative word cloud
(1)出乎意料的,拙政園在各標簽詞共詞網絡中出現頻繁,游人在對留園進行評價時較多的傾向于將留園與同為四大名園的拙政園進行比較。獅子林也較多作為一同比較的對象。
(2)“小”“人多”“擁擠”“講解”“雨”“不行”是幾個標簽詞出現較多的共性標簽詞匯,對照可以說明用戶的“一般”“差”的評論點集中在上述標簽詞的方面。
3.3.2 園林構成要素的聚類情感分析
根據標簽詞對各要素相關句子進行檢索并單獨歸類為數據集,而后對單個構成要素進行情感評價分析,分句情感極性相加的值大于1為正面,小于-1為負面,0為中性。各構成要素的游人評論情感評價結果如圖6所示。
對留園各要素情感評價橫向對比分析,如表7與圖7所示,可以得到:

圖6 留園各要素的情感分析百分比圖Fig.6 Percentage analysis of sentiment analysis of various elements of the Liuyuan Garden

表7 留園各要素的情感分析百分比數據

圖7 留園各要素的情感分析橫向對比Fig.7 Horizontal comparison of sentiment analysis of various elements of the Liuyuan Garden
(1)整體上留園6項主要構成要素游人評論正面情感為主,平均正面情感為78.3%,接近80%。其次各要素情感評價有明顯波動,既留園中構成要素的評價具有不均衡性。
(2)山石正面情感占比相對較低,為66%,中性評價占比較高為27%,但負面評價并非最高,為7%。前文關注度分析中山石排列為首位,但評價相對較弱。較多的關注度與評論體量的增大使得不同的游人情感傾向多樣性得到體現,該結果為按要素精準提升與優化園林提供方向參照。
(3)人文相關部分涵蓋面較廣,正面情感占比81%,同時負面在各要素中未最高,占比9%??梢钥闯鋈宋牟糠衷u價的多元性,既游人情感中喜歡的非常喜歡,不喜歡的也會態度鮮明,即人文部分正負面評論具有明確的獨立性。
通過橫向的留園各構成要素的游人評論情感分析,可以清晰地查找出整體情感傾向中不足的短板部分,如山石部分正面情感占比66%相對較低,人文部分負面情感占比9%相對較高,為進一步精準優化提升提供參照。同時,結合共詞網絡分析,可以對比出負面情感的問題方向,有針對性地繼續展開深入分析。
此外,基于互聯網與計算機技術的評論大數據挖掘與分析對園林領域用戶視角的優化研究起到很好的方法論補充,傳統園林學科與信息技術的結合具有趨勢性。
也為傳統風景園林領域以定性為主的研究提供一種基于用戶的量化分析方法,推進園林管理方分園林要素提升與優化的相關研究。