胡 永,趙艷香,馬嚴彥
(北京市園林綠化局信息中心,北京 100013)
古樹名木是一種珍奇的綠色資源,又是一種記錄環境變遷,社會演變的重要見證,是城市歷史文化遺產的主要組成部分[1]。北京市共有各級別的古樹名木4萬多棵[2],從全球范圍來看,北京也是保存古樹名木數量和類別最多的大都會,保護好珍貴的古樹名木資源,對于弘揚北京燦爛的歷史文化,促進生態文明建設,具有十分重要的作用[3]。
近年來,公眾參與古樹名木保護與管理的熱情逐漸興起,但參與主體人數少、參與形式簡單、參與機制缺失[4],無法達到古樹名木得到更為良好的保護與管理的需要,也不能滿足公眾參與的需要。
現如今在電子政府背景下,為讓公眾更好地參與到北京古樹名木的保護中,本研究應用數據分析技術對古樹名木的二維碼留言數據進行分析,從數據的角度,客觀了解和掌握公眾對古樹的需求、關注度、喜好等,精確地反映公眾對古樹名木產生的行為特征,為管理部門提供古樹名木管理和規劃的決策依據,提升政府和公民網絡互動的效能。
北京市作為歷史文化名城,古樹名木資源豐富,共有4萬多株古樹名木,樹種主要多為側柏、油松、國槐、榆樹等鄉土樹種;在全市16個區均有分布,分布密度不均,主要集中在皇陵墓地、皇家園林、王府、寺廟及庭院等地,僅古樹群就有100多處。2018年北京市園林綠化局把每株古樹名木都掛上了二維碼樹牌,建立了二維碼管理系統,鼓勵公眾通過掃描樹牌查詢和瀏覽樹木的信息及照片,同時可進行評價、留言和拍照上傳等,使公眾與古樹名木的互動交流更為便捷,在公眾和古樹名木之間架起了平行、全方位的信息溝通橋梁,鼓勵普通公眾在參與模式下更多地參與全市古樹名木建設[5]。
數據主要來源于2018-09—2019-08公眾對古樹名木二維碼樹牌的留言。對留言進行采集和分類,把公眾每一次通過掃描二維碼樹牌發布的留言作為“留言次數”統計,共采集到對北京市古樹名木的二維碼留言數據3 580條,部分樣本數據見表1。

表1 部分樣本數據二維碼編號古樹名稱科屬管護單位樹齡/a留言內容留言時間r6riAb側柏柏科側柏屬頤和園管理中心126歐德錘2018-09-01 12:27AB3Mfu側柏柏科側柏屬頤和園管理中心136到此一游2018-09-01 12:53iQJbye國槐豆科槐屬故宮博物院400難得2018-09-01 13:35UNfEvm檜柏柏科圓柏屬故宮博物院200贊!2018-09-02 08:14zyeI7b檜柏柏科圓柏屬頤和園管理中心110真香2018-09-02 12:52QZ3yEz檜柏柏科圓柏屬頤和園管理中心110溥儀來過吧?2018-09-02 14:21nYNVFr側柏柏科側柏屬頤和園管理中心138你好呀!!2018-09-03 14:22fARfqy側柏柏科側柏屬頤和園管理中心124愛護樹木2018-09-03 16:45……………………
主要應用自然語言處理和多維度拆解分析兩種方法,并利用二維碼留言信息內容和時空分布特點,分析游客對北京市古樹名木的關注程度和喜好程度。
自然語言處理(Natural LanguageProcessing,NLP)是將人類交流溝通所用的語言經過處理轉化為機器所能理解的機器語言,旨在設計算法使計算機像人一樣理解和處理自然語言[6]。自然語言處理在實體抽取、情感分析等任務上的準確度不斷提高[7],為精確處理留言評論數據提供了可能。本次古樹名木留言數據分析中,運用了NLP即自然語言處理技術。基于NLP技術,進行挖掘,智能統計分析出古樹名木留言詞云圖。
多維度拆解分析方法,是從多個維度拆解分析數據。在數據分析中,通過不同的維度去觀察同一組數據,從而從多個角度觀察出數據呈現的規律。
2.2.1 自然語言處理
1)文本預處理。利用NLTK自然語言處理庫對留言數據進行文本預處理,預處理包括:文本提取(提取所需要的文本)和文本過濾(過濾掉空格空行、重復數據、以及火星文)。在3 580條古樹名木留言數據中,提取留言內容中的文本,并進行文本過濾,去掉無效文本。
2)分詞處理、關鍵詞提取。將文本預處理后的留言內容,采用jieba(結巴)分詞處理工具[8](Python的一個中文分詞組件工具),進行分詞拆分和處理,用TF-IDF[9](詞頻—逆文件頻率)算法進行留言文本關鍵詞信息提取,TF是一個詞條(term)出現的頻率,IDF是一個詞條的重要性值。
(1)
(2)
得出TF和IDF之后,某個詞t的TF-IDF值為:
TF-IDF(t)=TF(t)*IDF(t)
(3)
通過TF-IDF值過濾掉常見的詞,提取二維碼留言信息中的關鍵詞。
3)生成留言詞云圖
經過TF-IDF算法得到關鍵詞信息后,通過加載詞云包wordcloud庫,對古樹名木留言熱詞進行詞云圖繪制(圖1)。可通過調整wordcloud的參數設置詞云圖形狀,達到不同顯示效果。

圖1 留言詞云圖
2.2.2 多維度拆解分析
將3 580條古樹留言數據,基于留言頻次、時間、位置進行整理統計排序,從多個維度進行分析。
從二維碼留言數據中,統計出各公園古樹名木的留言次數數據,用各公園留言次數數據除以公園內古樹名木數量,得出各公園古樹名木平均被留言評價次數,經排序后得到全市公園內古樹名木留言評價次數前九的公園如圖2所示。從圖2可知,故宮內的古樹名木平均被留言評價次數最多。故宮是國家5A級旅游景區,也是第一批全國重點文物保護單位,聞名國內外,故宮內的“活文物”——古樹名木,也因其樹齡古老、姿態奇絕而備受公眾關注和喜愛。

圖2 各公園古樹名木平均被評價次數分析圖
將二維碼留言頻次,基于古樹名木類別進行匯總統計排序(圖3),得出楸樹是全市平均被留言評價次數最高的古樹。楸樹是北京的鄉土樹種,樹形優美、高大粗壯、花大色艷,更多地受到公眾的喜愛和關注。

圖3 各類古樹名木平均被評價次數分析圖
將每株古樹名木評論數量進行排序,得出評論數量前三甲的古樹名木,分別是潭柘寺編號為110109A00677的銀杏樹、中山公園的編號為110131A06915和110131A06918兩株側柏,它們的樹齡都在1 000 a以上。潭柘寺古銀杏樹為乾隆御封的“帝王樹”,是迄今為止,皇帝對樹木御封的最高封號,其樹高超過30 m,胸干周長達9 m,遮蔭面積約600 m2,樹齡1 300 a;中山公園的側柏,已有上千年的生長史,樹干周長達一丈九尺余,偉岸挺拔。
將古樹名木留言數據,按照月份進行匯總統計,經排序分析后得出月度公眾留言數,詳見圖4,可知4—8月份古樹名木留言評論人數相對較多,五月份人數最多,春季至初夏公眾出游觀賞意愿較高,也是古樹名木最佳觀賞時間。

圖4 月度公眾留言數
將古樹名木留言數據,按照每小時為一個時間段進行匯總統計,經排序分析后得出各時段公眾留言數,詳見圖5,可知公眾留言評論較集中的時間段為每天的9:00—15:00。9:00至15:00一般是公眾觀賞游覽較集中的時間段,因此與古樹名木的交流也集中在這個時間段。

圖5 每天各個時段公眾留言數
留言信息中有20條留言反饋古樹名木瀕臨死亡的信息,10條留言反饋二維碼信息錯誤,8條留言反饋古樹名木遭到破壞,此外還有123條分享古樹名木知識的互動留言,89條祝福古樹名木的留言,881條贊美古樹名木和2 439條打卡紀念留言,涉及到古樹名木各個相關方面,內容豐富。詳見圖6。
留言詞頻統計得出:帶有“古樹”留言有279條,帶有“到此一游”留言有170條,帶有“歷史”留言有106條,帶有“見證”留言有74條,帶有“大樹”留言有61條,帶有“厲害”留言有50條。得出公眾與古樹名木互動最頻繁的詞是古樹、到此一游、歷史、保護、見證等詞,表達了公眾對古樹名木積極向上的情感。

圖6 留言類別統計
本文創新性地依據古樹名木二維碼留言數據,利用自然語言處理、多維度拆解分析數據分析方法,分析展示了公眾對古樹名木關注情況及時空特征。從數據分析得出:
1) 公眾對了解古樹名木種類以及相關信息有較強需求,特別是對它們的樹齡有較大偏好。
2) 中山公園、天壇公園、故宮成為公眾參觀古樹名木的最佳去處。
3) 觀賞時間大多集中在春季,每天的觀賞時間一般集中在9:00—15:00。
4) 二維碼留言拓寬了管理部門與公眾之間的溝通渠道,提高了公眾參與全市古樹名木建設與保護的便利性和積極性。
5) 古樹歷史悠久,是與歷史對話的橋梁,因此越來越受到公眾關注,同時北京古樹名木也給公眾提供了美好愿望與祝福的寄托。但大量公眾基本全是通過掃二維碼了解古樹,也說明古樹科普工作有待進一步加強。
1)目前統計的古樹名木大多分布在北京五環以內,建議加大對北京偏遠地區的未知古樹名木的調查統計,進而加強對全市古樹名木的保護。
2)在游客較集中的公園景區,每年春夏兩季的9:00—15:00時間段,多組織一些古樹名木觀賞及知識普及活動,進一步提升公共服務能力,加大公眾與古樹名木的交流。
3)在游客留言較少的公園景區,加大古樹名木二維碼留言功能與活動的宣傳,更多地引導公眾參與古樹名木的游覽與互動交流。
4)加強古樹名木的標牌與標識配置,強化科普工作,普及古樹名木生長環境和生長價值的相關知識,提高公眾參與保護古樹名木意識。