李林東 張 誠 韓龍玫 卿粼波 計浩浩
(1.四川大學電子信息學院,四川成都 610065;2.成都市規劃研究院,四川成都 610041)
現代城市日益發展,城市居民對公共空間尤其是城市公園有了更高的要求。如何準確評價城市公共空間,營造品質更優、城市居民更滿意的城市環境,成了一個重要的課題。成都作為“公園城市”首提地,也同樣面臨這一課題。
社交媒體文本數據解決了傳統方法無法適應評價對象較多、工作量較大的問題,但基于點評文本的評價研究存在對文本數據挖掘不夠深入的問題。如王志芳等[1]利用大眾點評評論文本對廣州市公園進行的對比性評價研究,趙書、劉博敏[2]利用大眾點評評論文本對南京主城區公園的訪客感知研究,龔凱麗、張科偉[3]利用網易云音樂評論信息對歌曲進行評價研究,這些研究對文本數據的利用都停留在評論數量、詞頻、整體情感分析等較為粗淺的層面。用戶評論往往包含評論對象多個尺度的評價要素,對文本內容進行多尺度劃分及分析,可以得到更加精細化的評價結果。
為了實現對公園的精細化評價,本研究基于點評文本,選擇成都公園為研究對象,構建了基于關鍵詞檢索法的情感傾向評價體系,將點評文本精確劃分為交通、美學、維護和安全、市場價值、保護和繼承等5個尺度,利用百度情感傾向分析API對點評短語句打分,對公園進行相關尺度的語義網絡分析,從使用者角度對公園分尺度做出客觀評價,為公園城市的建設提供有力的數據支撐。
成都作為“公園城市”首提地,具有得天獨厚的自然資源和人文環境,各種形式的公園分布在城市的各個角落,是人們茶余飯后的休息場所,更是成都“慢生活”的主要載體。本研究選擇成都主城區評論總數在500條以上的13個公園作為研究對象,獲取其點評文本。
本研究采用的點評文本來源于大眾點評上的公園評價數據,其評論總數均在500條以上,避免了樣本太少帶來的分析誤差。
本研究采用以下工具進行輔助研究:(1)大型免費社會計算平臺ROSTCM6[4-5](語義網絡分析);(2)中文分詞工具jieba;(3)百度文本情感傾向分析API。
本研究構建了一套完整的公園評價體系。首先,關鍵詞檢索法將點評文本切割為不同尺度的短語句;然后,通過百度情感傾向分析API對短語句進行打分;最后,根據打分結果對公園進行語義網絡分析,得到影響公園評價的具體要素,通過多變量線性回歸的方法對各尺度評價的重要程度進行評估。
為了便于說明,現將獲取的評論文本數據做層次性的定義和解釋:將數據劃分為文檔級、段落級、語句級和詞語級,從大到小的包含關系,數據層次劃分如圖1所示。

圖1 數據層次劃分
文檔級:將獲取的評論數據按公園文檔F分類,則各公園的文檔組成所有研究數據D={F1,F2,…,Fn};段落級:公園文檔F由諸多用戶評論組成,把每位用戶的評論都看成段落P,則所有的用戶評論構成公園文檔F={P1,P2,…,Pn};語句級:段落P由諸多語句S組成,各語句代表訪客對公園各尺度的評價,則P={S1,S2,…,Sn};詞語級:一條語句由諸多詞語W組成,則S={W1,W2,…,Wn}。
用戶評論內容往往包括公園評價的多個方面,本研究通過基于關鍵詞檢索的方法分別提取評論中多方面的內容。首先,對文檔內容F進行分句,劃分為內容單一的語句S;然后,對語句進行分詞;最后,用基于關鍵詞檢索的方法對語句進行分類。
結合綠地系統評價指標[7]和對評價數據的詞頻分析,將公園評價分為交通、美學、維護和安全、市場價值、保護和繼承5個尺度,并從高頻詞中分別找出能代表這5大尺度的詞語,如表1所示。
設計意圖:通過討論與交流,學生逐漸形成基于事實證據,分析生物規律,理解生命本質的科學思維。教師充分利用實驗資料,在學生原有認知上挖掘深層知識,初步滲透科學探究的方法教育。

表1 類別(尺度)詞典
具體檢索方法:對輸入的已分詞語句逐一檢索每一個詞,若詞語Wi(i=1,2,3,..,n)存在于類別詞典中,則返回該詞對應的類別,并作為該語句Si(i=1,2,3,..,n)的類別。如果所有詞語都不在類別詞典中,則該語句不歸屬于任何類別。
通過百度情感傾向分析API分析段落和語句,得到段落或語句的評分,計算如下:

式中,p——段落或語句情感傾向為積極的置信度,范圍[0,1],計算得到段落或語句的評分s,范圍[0,5]。
對段落的評分或各類別下各語句的評分si(i=1,2,3,..,N)求均值,得到公園的總體評分或該類別的總評分m:

為了分析公園評價的積極因素和消極因素,將語句分為積極和消極兩部分,計算如下:

式中:c——語句的情感傾向,積極或消極;pos——積極;neg——消極;p——語句情感傾向為積極的置信度。
將計算得到的各類別評分xi(i=1,2,3,4,5)和公園總體評分y分別作為自變量和因變量,通過多變量線性回歸的方法求得各類別的權重wi(i=1,2,3,4,5):

權重wi越大,對應尺度評分xi在公園總體評價中占比就越大,表明該類別是訪客評價公園相對重要的因素。另外,多變量線性回歸的擬合效果由決定系數評估,計算如下:

式中,fi——模型預測值;yi——標簽值;-y——平均標簽值。決定系數范圍[0,1],越大表示擬合效果越好。
首先對公園各尺度的得分和排序進行客觀評價分析,然后根據公園本身得分情況和排名情況選取部分公園進行語義網絡分析,討論影響公園評價的具體因素所在,最后通過多變量線性回歸的方法分析各尺度評價對公園總體評價的重要程度。
為了進一步分析影響公園評價的具體要素,對各尺度文本分別進行語義網絡分析。在語義網絡中,詞語引出的線段越多,說明這個的詞語的詞頻越高,與中心節點的距離越近,表示和中心詞語的關系越緊密[7]。
根據式(1)和式(2)計算公園各尺度的總評分進行排序,得到的結果如圖2所示。


圖2 各尺度評分排序
在交通方面,評分按照交通的便利程度從高到低排序。總體上,公園交通的便利程度與公園、交通站點(尤其是地鐵站點)的聯系緊密程度強相關,與區位的關系相對較弱。成都的單中心圈層式結構導致市中心地鐵公交的線網密度較高,市中心的公園交通普遍比較便利,如人民公園、百花潭公園、浣花溪公園。但一環的望江樓公園沒有緊鄰地鐵,交通評分只排在中游。較遠的青龍湖公園因地鐵直達,評分反而高于望江樓公園。交通語義網絡對比如圖3所示。

圖3 交通語義網絡對比
由圖3對比可知,地鐵在青龍湖公園的交通要素中占據了更加重要的位置。
在美學方面,根據表1,評分依賴于公園訪客的主觀感受和主觀評價。各公園都取得了較高的分數,但塔子山公園和新華公園相對偏低。提取兩公園美學方面的負面評價,發現基本與“特色”一詞相關,占負面評價80%以上,說明這兩個公園在景觀、特色方面的建設有待加強。
在市場價值方面,訪客主要關注消費情況,諸如門票、單車租賃、餐飲等。
消費性價比是公園市場價值評分的重要依據,統計13個公園市場價值方面的語義網絡圖發現除UPARK公園外訪客評價都集中在公園門票上。其他消費也是影響評價的關注點。而UPARK公園與其他公園表現出截然不同的特點,UPARK公園是公園和商業的結合體,關注點多為商業相關。市場價值方面語義網絡對比如圖4所示。

圖4 市場價值方面語義網絡對比
在維護和安全方面,主要關注點在于公園設施、衛生、服務等。天府芙蓉園和東湖公園排名靠后。天府芙蓉園的消極評價主要集中在“設施”“垃圾”“管理”三個中心節點。結合其子節點可以看出該公園存在設施不夠完善且有人為破壞現象,垃圾清理不夠及時,疏于管理等問題。右圖中的東湖公園也存在類似的問題。維護和安全消極評價語義網絡如圖5所示。

圖5 維護和安全消極評價語義網絡
在保護和繼承上,百花潭公園、人民公園、浣花溪公園、望江樓公園、塔子山公園等具有悠久歷史或由文化古跡區改造而成的公園以及成都露天音樂公園、天府芙蓉園、青龍湖公園等建成時間短但具有現代文化元素或特定文化背景的公園評分較高。
新華公園保護和繼承語義網絡如圖6所示。

圖6 新華公園保護和繼承語義網絡
承載一代成都人記憶的新華公園評分較低,可由圖6的語義網絡圖中的相關節點得到推斷:新華公園和記憶中的印象不符,在隨時代的發展中,沒有將歷史文化元素較好的保護和繼承下來。
根據多變量線性回歸方法擬合各尺度評分與公園總體評分,擬合效果評估參數R2≈0.67,同時為了分析訪客負面評價的主要關注點,本研究統計了各尺度差評數并以比值方式呈現圖中。
各尺度權重與各尺度差評占比如圖7所示。

圖7 各尺度權重與各尺度差評數占比
分析圖7可知,從各尺度權重來看,訪客關注度較高的是公園美學方面的內容,其次是交通、保護和繼承兩個方面,較少關注維護和安全、市場價值兩方面;而從各尺度差評數比值來看,訪客對公園的負面評價主要集中在市場價值、維護和安全兩方面。
可能的原因有:訪客對公園最直觀的感受是對視覺元素的感知,其貫穿游覽公園的全過程,故美學評分占據了總體評分接近50%。
保護和繼承這一尺度是對美學評價的進一步評價,是對公園歷史底蘊、現代文化等自身特色的評價,因此重要程度排在美學評價之后。
本研究以成都市公園為例,利用點評數據,借助百度情感傾向分析API等工具,通過基于關鍵詞檢索法的評價體系對公園的交通、美學、維護和安全、市場價值、保護和繼承等5個尺度進行了分析。該評價體系解決了基于點評文本的研究中對文本數據挖掘不夠深入的問題,為利用海量的文本數據提供了有效的方法。
研究中也存在諸多有待改進和完善之處,主要體現在以下兩點:
(1)百度文本情感傾向分析API是通用版本,缺乏對點評文本的針對性分析;
(2)社交媒體數據不只包括文本數據,還包括圖像、打卡、消費等數據,多模態分析才能更加全面地對公園進行分析評價。