我們的城市變得越來越繁華,問題也越來越多,如交通擁堵、污染等。隨著傳感器技術的發展和大規模的計算環境的成熟,我們有了很多大數據,如果使用得當的話我們可以利用大數據解決大城市的問題。
城市里面有哪些大數據?有了高速公路與房子連續多年的數據累計,我們就會知道這個城市是朝哪個方向發展;有了北京市酒吧和電影院的數據(興趣點數據),我們就能知道城市里有哪些商業在衰亡,有哪些商業在發展,有哪些商業模式在變化;有了氣溫、氣壓、濕度,這些氣象數據,我們就能知道空氣質量的變化;有了出租車GPS的熱度數據,我們就可以分析城市里人是怎樣移動的。
我們做了一個城市計算框架,它包括四個環節,第一,城市感知;二,城市管理;三,城市數據的分析和挖掘;四,服務提供。這是一個多數據分析框架,它的數據種類非常多,任務也很多,可以是改進城市規劃,也可以緩解交通擁堵,在一個任務中我們要同時用到多個數據,對數據要進行整合分析。
以空氣質量分析為例。現在很多城市都建了空氣質量監測站,每個小時發布一些數據,告訴大家這個地方空氣質量是多少。我們國家的站點數目有限,北京六環以內22個站點已經是全國最多了。一方面,站點成本昂貴。另一方面,城市里的空氣質量是不均勻的,每個地方變化也是不一樣的。我們不能用一個平均讀數來代表整體,也不能通過簡單的差值來算出空氣質量。
我們利用兩方面的大數據來解決這個問題。第一,歷史和實時的空氣質量數據,包括天氣、濕度、氣壓、氣溫等等。第二,交通流量數據。這里有多少公園,密度是多少,有多少紅綠燈,多少高速公路。結合這些數據,我們就可以算出整個城市里面每個角落的空氣質量。我們可以知道,什么時候該關開窗,什么時候該關窗,去哪里跑步,線路是什么樣的。也許有人會問這個準不準?我們在9個城市用我們的方法來預測該城市的空氣質量,該城市的預測精確度提升了20%,環保部門對這個工作非常重視。
再來看另外一個例子。利用人們的興趣點數據來分析這個城市里面不同功能區域的分布和它的核心區域所在。開一個超市,我們要知道居民住宅區的居民,開電影院要知道周邊的分布。單單用一種數據是不能完全反應地貌的。如兩個餐館在數據庫里都是表示是中餐館,但反應的地域地貌是完全不一樣的。一個是住宅區,一個是商業區,它代表的意義是完全不同的。另外,人的移動性也反應了區域的功能。利用興趣點數據我們能發現城市里的功能區在不斷的變化。
我們認為利用大數據進行城市計算前景廣闊,我們的目的是達到城市、人和環境三盈的局面。