張 昊 尹 力 ZHANG Hao, YIN Li
大量的實證研究在全球范圍內驗證了建成環境和公共健康(運動量、肥胖等)之間的關聯[1-6]。當前,人居尺度的建成環境(城市設計)對公共健康的影響正成為新興研究的關注重點[7],[8]147,[9]。大數據分析的重要意義在該領域愈發凸顯。隨著健康城市研究的深入,大數據分析方法提供了高效客觀地探究建成環境的平臺,同時幫助研究人員更準確地理解個人對環境的主觀感受。具體來說,一方面,研究者們通過客觀度量街景要素來量化人居尺度上建成環境和公共健康的關聯。另一方面,眾包分析被廣泛應用于在線收集和分析個人對環境的感性認知,以突破實地調研的種種限制。本文系統地梳理了近10年(2011—2020年)大數據、機器學習等新技術新方法在建成環境和公共健康中應用的相關文獻,從機器學習在街景分析中的應用與眾包分析兩個層面入手,指出大數據分析和傳統研究的優缺點,藉此凝練出大數據在建成環境和公共健康研究領域的未來發展趨勢。
本文所納入文獻依據Web of Science,Google Scholar,PubMed等搜索引擎進行檢索。關鍵詞包括built environment(建成環境),public health(公共健康),big data(大數據), machine learning(機器學習)等。研究以文章的引用頻率作為其代表性的體現。由于大數據分析為近年來的新研究方向,因此大部分引用文獻發表于2016年后(見圖1)。根據關鍵詞檢索,本文初始錄入42篇文獻。其中,7篇未使用大數據分析方法,而是仍采用傳統的現場調研或問卷形式獲取數據。因此,這7篇文章未被納入該文獻綜述。基于此我們系統分析了剩余的35篇文章[8,10-43]。其中包括28篇實證類文章[8,10-20,23-24,28-33,35-40,42-43],3篇理論類文章[21-22,27]和4篇文獻綜述[25-26,34,41]。
建成環境的高分辨率影像數據提供了世界上主要城市的全景圖,例如谷歌街景(Google street view)、百度街景(Baidu street view)、騰訊街景(Tencent street view)等。為了探討人本尺度上建成環境和公共健康的聯系,研究人員通過在街景分析中應用機器學習,來客觀度量建成環境的微觀要素[8]149,[10]2,[11]632,[20]3,[23]8,[24]260,[31]4,[32]1。既有研究包括論證街景分析的有效性、人行步道的可達性、步行的視覺圍合感、街道綠化、街道視覺感受、社區環境、步行和騎行等方面[10]4,[11]634,[20]2,[23]5,[24]264,[28]64,[31]2,[32]3,其主要觀點包括視覺圍合感與步行性和步行指數(walk score)有關,對環境安全性的感知影響老年人的身體和心理健康,設立人行橫道與降低肥胖率有關等。Rundle等[10]2通過谷歌街景對紐約市37個適合步行的社區環境進行調研,為創造促進公共健康的人居環境提供理論依據。通過比較實地調研和谷歌街景遠程調研的相似度,該研究論證了使用谷歌街景量化建成環境的可行性。Yin和Wang[8]148探討了使用谷歌街景圖像度量城市街景視覺特征的大數據分析潛力。通過在谷歌街景圖像上應用機器學習算法,該研究提出了客觀度量跨區域街景特征的新方法,例如標準化衡量視覺封閉性(visual enclosure)。作為街道的重要元素之一,人本尺度的城市綠化在改善環境、休閑和審美方面的重要性得到了充分的實證研究和印證[44-45]。然而,相關研究成果卻很少為城市規劃和設計實踐提供具體、有針對性的指導。為了進一步合理化城市規劃的決策依據,Ye等[31]3通過分析新加坡的谷歌街景圖像,提出一種簡潔易行的方法來量化城市居民與視線內綠化的日均接觸量。具體做法包括整合關于綠化和可達性的高分辨率測量圖像。該研究從以人為本的角度探討街道綠化,通過識別出城市中需要規劃干預措施的優先區域,為決策者提供實證支持。此外,通過比較基于谷歌街景的街道綠化和遙感測繪的城市綠地之間的關聯,該研究方法的合理性得到了驗證。谷歌街景在公共健康研究中的應用案例主要集中在北美、歐洲和新西蘭的城市地區,位于亞洲和南美的研究則相對較少[26]243。通過谷歌街景探討的健康相關主題包括運動量(physical activity)、精神健康、煙酒使用等。相關研究通過分析街景圖像,將大數據與機器學習集成,為城市規劃人員提供了政策支持。近年的研究更加關注人本尺度的街景特征測量,以求進一步推動以促進公共健康為導向的城市規劃實踐的發展。

圖1 文獻綜述統計年份和數量Fig.1 Statistical information of reviewed literature
在缺乏谷歌街景數據的地方(例如中國),研究人員使用開放式街道地圖(OpenStreetMap)和類似谷歌街景的數據(騰訊街景或百度街景)來衡量城市設計質量。Gu等[28]67基于騰訊街景圖像構建了街道環境評估框架體系,用于量化中國4個城市(重慶、天津、昆明、石家莊)的步行和騎行環境質量。Cheng等[23]10使用騰訊街景數據測量街道景觀特征的視覺感知,提出了4類描述街景視覺感知的指標,包括顯著區域飽和度、視覺熵值、綠色視線指數和天空開放指數。Long和Liu[20]2分析了中國245個主要城市的騰訊街景圖像,著重探討了可視街道綠化的客觀度量。該研究促進了行人對環境的日常感知的評價標準建設。基于百度街景的140 000張上海市中心的街景圖像,Ye等[37]6通過機器學習算法SegNet量化了行人對街道的視覺感知。從圖像中提取的視覺要素包括:建筑臨街立面、綠化、天空開闊度、行人空間、車流和多樣性。通過客觀度量人對建成環境的主觀意識,該研究提供了以人本為核心的規劃設計新思路。街景大數據分析方法提供了一種自動信息獲取技術,用來客觀測量街道景觀以及人們對于微觀尺度建成環境的視覺感知。該類研究方法同樣可應用于其他尺度的地理區域,例如街道、鄰里、街區乃至城市范圍。這類研究為促進公共健康的規劃設計實踐提供了有針對性的政策指引(見圖2)。
傳統評價人們對建成環境感知的方法受限于空間精度不足或難以收集不同地理尺度的數據樣本。互聯網支持的數據收集方法(眾包分析)同時促進了這兩方面。已有研究包括探討幸福感的空間分布,居住環境與體重、城市活力(urban vibrancy)的時空差異等[13]1,[29]780,[43]2。主要觀點體現在社交媒體可以用來評估實時動態的健康信息如肥胖率變化等。Mitchell等[13]2通過對帶地理標簽的推特消息進行文本分析,論證了美國各地幸福指數的空間分布。該研究證明了社交媒體可以用于評估人們精神健康的空間尺度的實時水平和變化。社交媒體數據的空間分布密度和地理普遍性使其對于評估跨區域的大數據樣本具有優勢。然而,在特定區域采集的數據將不可避免地存在偏差。此外,任何單條信息中所表達的幸福感未必總是包含街道景觀特征的描述。類似地,微博信息也被用來分析健康相關的主題和建成環境質量[14]20。Wang等探討了微博上討論的各種健康問題。結果表明,微博中體現的流感信息與中國的流感發病率顯著相關,這就表明微博數據可以用來分析現實事件的趨勢。Salha[15]建構了上海行人的質量路徑,例如兩個節點之間最安靜的路徑。研究者通過微博消息和其他地理定位數據,包括大眾點評分數(帶地理標記的興趣點,例如餐廳的排名)和Flickr圖像(帶地理標記的照片的標題和標簽),建立模型研究道路的安靜程度。研究指出,針對當前眾包分析的局限,在未來的研究中應進一步改善數據的準確性,同時納入時間因素綜合考慮,以提高結論的外部有效性并加深對基礎數據的理解。

圖2 街景圖像Fig.2 Street view images
麻省理工學院媒體實驗室(MIT Media Lab)的研究人員利用群眾對街景特征的評價來衡量個人對建成環境的感知[12]1。實驗室網站(http://pulse.media.mit.edu/)向訪問者展示成對出現的街景圖像,并向他們詢問一系列與圖片相關的問題。例如,“哪張圖片的街景看起來更安全?”或“哪張圖片的街景看起來更漂亮?”研究人員通過網站瀏覽者的回答獲得大量數據,用于評估人們對隨機分布在美國和奧地利的4座城市的4 000多組街景的感知。該研究為我們提供了一種評價街道景觀特征的眾包平臺,以論證城市街道環境與人們活動之間的關聯。當然,眾包分析也存在相應局限,例如,其過程往往受制于有限范圍內的視覺感知,因此難以度量其他感官體驗(溫度、濕度、噪音、氣味等)。盡管如此,眾包分析仍可通過收集社交網絡媒體用戶在大范圍內的感知體驗,對街景特征進行具備空間精度的測量和評估。
傳統方法從實地調研中獲取詳細的微觀數據,花費大量的時間、金錢和人力資源。并且實地調研容易受到不利天氣的影響,可能對調研人員造成潛在的安全隱患。而街景圖像的出現打破了傳統測量街景特征數據的限制。街景圖像細節豐富、覆蓋面廣,包含大量街道級別建成環境特征的信息。例如,研究者通過行人街景微觀調研(Microscale Audit of Pedestrian Streetscapes, MAPS) 在 線工具來評估微觀尺度的建成環境對運動量的影響[46]83。該方法使用在線衛星圖像或全向圖像(Bing Maps Street Side或Google Maps Street View)進行虛擬調研。這種“虛擬調研”模式突破了現場調研的眾多限制,例如能夠進行涵蓋不同地理區域的大范圍比較研究。在線地圖服務能夠訪問的任何地區都可以進行遠程調研。網絡輔助數據收集等新方法可以同時促進空間精度和不同地理范圍的大數據采樣。研究者通過分析大數據識別研究對象的空間模式,或評估個人對建成環境質量的感知。例如開展對推特或微博等標注地理位置的社交網絡的文本分析,來揭示公共健康相關的主題;或利用大眾對街景圖像的評分來衡量個人對城市的直觀感受。
由于谷歌街景提供同一地點的歷史圖像,因此,在線調研工具(如MAPS Online)可以進行追溯或縱向研究。相較于現場實地調研,大數據分析具備理解建成環境如何隨時間變化的研究潛力。然而,依賴谷歌街景或其他街景數據的局限性在于,街景圖像未必涵蓋整個研究區域。例如,出于保護隱私的原因,或是應商住戶的要求,街景服務有時會故意遮蓋圖像所覆蓋的地區。同時,一些街景圖像包含公交、卡車、樹葉等,而這些物體會遮擋研究關注的建成環境要素。此外,一些街景數據并不是實時更新的,且不同區域的街景數據年份也不同。因此,大樣本區域分析仍存在局限。就數據處理難易程度而言,MAPS計算步行指數的方式較為復雜。因此,使用自動評分軟件開發更簡潔的在線調研工具將成為未來的研究方向。
眾包數據(例如推特或微博信息)的空間精度和地理普遍性非常適合于評估不同城市的建成環境大數據樣本。然而,研究者需要考慮眾包數據樣本的有效性。例如,使用微博的人群普遍年輕。同時,還需要考慮隱私對眾包數據的影響。例如,人們可能不愿意給動態加上定位。此外,這類數據對于研究吸引力較低或互聯網設施較差的地區會產生偏差,因為人們在社交媒體上討論這些地區的可能性較小。此外,建成環境很少體現在單條消息上。盡管如此,研究者仍能通過聚集大量的社交媒體數據來探討建成環境和公共健康的關聯。因為每條消息將不可避免地受到個體所處環境的影響,因此這類大數據在一定程度上有助于理解個人對環境的整體感知。眾包分析的不足在于,關于建成環境的大數據雖然能獲得居民的感官體驗,但往往缺乏居民的個人信息(一般只有性別、年齡,其信息的真實性也存疑)。盡管如此,眾包分析仍然促進了對個人感知在空間上的精確測量,并且可以在跨地理范圍內開展研究(見表1)。
綜上所述,對于建成環境和健康的關聯,傳統研究方法主要包括資源密集型的實地調研和基于GIS的分析。關于個人對建成環境感知的研究則往往通過大量訪談或問卷的形式來記錄和收集用戶的感受和行為。這類方法過程繁雜且耗費大量資源。因此,如何在大范圍內高效地收集數據成為研究者面臨的挑戰之一。幸運的是,GIS技術、大數據和計算分析方法的持續發展極大促進了關于建成環境與公共健康之間關系的研究。基于互聯網的眾包和社交媒體數據采集,尤其是帶有地理標簽(如推特或微博)的社交媒體,代表了收集跨區域建成環境特征的大數據的未來方向。

表1 大數據與傳統方法的優缺點比較Tab.1 Comparison of the advantages and disadvantages of big data analysis and traditional methods
大數據在預測分析、智能安全、智慧城市等領域已得到廣泛應用。在健康城市領域,技術的進步客觀上推動了度量建成環境并評估其對公共健康影響的方法。隨著算法能力的快速提升,以及地理編碼的社交網絡的擴展,大數據分析將在城市規劃設計和公共健康研究中發揮越來越重要的作用。令人鼓舞的是,大數據分析使連續、高效和精確地度量大區域建成環境成為可能。一方面,越來越豐富的空間數據極大地促進了建成環境和公共健康的研究。例如,OpenStreetMap提供了世界范圍內的建筑物輪廓和街道信息;各類街景數據為研究跨區域的建成環境提供了建筑立面、樹木、天空和道路的圖像。另一方面,計算機視覺、機器學習和攝影測量技術的進步使研究人員能夠自動識別和描述人本尺度上的建成環境要素,以定量地論證其與公共健康的關系。隨著人工智能、計算分析技術的發展以及空間精度更高的大數據資源,未來應進一步開發改進更加客觀和可復制的建成環境度量方法。在這個意義上,我們離系統地揭示建成環境與公共健康之間的關聯更進一步,而這類研究在過去往往受制于小樣本區域和主觀測量的影響。