劉敬民,郭長國,符興斌,趙文輝,宗建建
(中軟信息系統工程有限公司,北京 102209)
城市是人類文明的重要組成部分,也是伴隨人類文明和進步發展起來的[1]。城市在社會發展中扮演著重要的角色,承載了人類社會、經濟、文化活動的大部分職能。城市的發展經歷了物理城市、數字城市和智慧城市三個主要階段[2]。物理城市是指客觀物理存在城市實體,“城”代表城市的邊界、面積、人口、地理位置;“市”代表人流、物流、經濟流、信息流等經濟社會活動。數字城市是城市地理信息與其他城市信息相結合并存儲在計算機網絡上的、能供用戶訪問的一個將各個城市和城市外空間連接在一起的虛擬空間,數字城市實現了物理城市的數字化,可以虛擬地展現城市的全貌,實現輔助規劃、設計、城管、導航和決策等信息服務,但數字城市只是一個網絡空間,只能實現在網絡上查看信息。智慧城市是在數字城市建立的數字框架的基礎上通過物聯網、云計算、大數據和人工智能將現實世界與數字世界有效融合,為經濟發展、城市管理和公眾提供智能服務的虛擬現實空間,同數字城市相比,智慧城市是一個網絡物理空間,不僅可以在網絡上查看信息,還可以在網絡上執行所需的操作。在第二屆數字中國建設峰會上,中國電子提出了“安全為先,需求牽引,迭代發展”的現代數字城市理念與建設思路,認為數據是真正的基礎資源和創新引擎,城市現代化要守正創新,回歸“數字”本質[3]。同智慧城市相比,現在數字城市是一個安全的網絡物理空間,可以安全地在網絡上查看信息和執行所需的操作。數據就像現代數字城市的血液一樣,是城市信息交換的載體和信息流動的動能,因此,大數據技術是現代數字城市建設不可或缺的支撐,大數據中心作為數據存儲和處理的核心部位是現代數字城市建設必不可少的重要環節。當前業界對智慧城市大數據中心的架構進行了探討和研究[4-5],但尚未形成統一意見,本文參考已有研究,在對現代數字城市大數據中心的功能進行分析和大數據參考架構研究的基礎上,提出一種現代數字城市大數據中心的架構。
李德仁院士[6]提出智慧城市可以用ISGBP模型進行描述,ISGBP模型由5個部分組成,分別是公共基礎設施(Infrastructure)、服務(Service)、政府(Government)、企業(Business)、公眾(Public),結合現代數字城市“安全為先,需求牽引,迭代發展”理念,將公共基礎設施增強為安全基礎設施(Security Infrastructure),這樣現代數字城市可用SISGBP模型表示,如圖1所示。

圖1 現代數字城市模型
SISGBP模型強調安全基礎設施、數據服務和智能服務的核心地位,安全可信的基礎設施是整個現代數字城市建設的內核,為政務信息、行業數據和個人隱私安全提供本質的安全保障;數據服務是建立在“安全內核”之上城市的流動的動能;再之上是城市的功能服務和模型服務;政府、企業、公眾是城市的主體,他們三者是現代數字城市需求的提出者,是城市建設的牽引力,通過基于數據和信息交換的智能服務形成良好的互動,達到和諧共處,從而降低行政成本,提高綜合效益??梢钥闯鰯祿沁@個模型得以運轉和流動的動能,因此大數據中心建設是現代數字城市建設的重要基礎環節。
現代數字城市除具有大數據4V(Volume、Variety、Velocity、Value)的典型特征外,還具有基礎設施安全性、需求牽引性等特征,整理歸納如下:
(1)數據量大(Volume)?,F代數字城市通過無所不在的物聯網將現實城市與數字城市連在一起,人們每分每秒以極速在網絡上交換思想、數據和信息?,F代城市每日產生超乎想象、數據量不斷擴張的大數據,單個高清攝像頭每小時產生3.6 GB數據,全國攝像頭數目超過2 000萬個,數據量將達到PB到EB級;民航飛機裝有大量傳感器,每個引擎每飛行1小時產生20 TB數據;北京公交一卡通每天使用量達4千萬人次,地鐵1千萬人次,北京市交通調度中心每天的數據增量為30 GB,存儲量為20 TB;國家電網年均產生數據510 TB(不含視頻),累計產生數據5 PB;單個病人的CT影像往往多達兩千幅,數據量已經到了數十GB,如今大城市的醫院每天門診上萬人,全國每年門診更是達數十億人次,住院已經達到兩億人次,按照醫療行業的相關規定,患者的數據通常需要保存50年以上,醫療大數據也將會達到EB級[7]。
(2)數據多樣性(Variety)?,F代數字城市數據來源包括城市的地理信息數據、政府的政務數據、各個企業和行業的行業數據、公眾的個人數據;各類信息的種類多,并以各種信息載體形式存在,數據類型不僅包括傳統的關系數據類型,也包括以網頁、視頻、音頻、e-mail、文檔等形式存在的未加工的、半結構化的和非結構化的數據。
(3)處理高速性(Velocity)。城市的快節奏發展需要能夠高速處理數據,一是數據的獲取、存儲以及挖掘有效信息的速度需要快速完成,比如從海量的視頻數據中快速檢索出有用的信息;二是數據快速動態變化形成流式數據,數據流動的速度快到難以用傳統的系統去處理,比如社交數據,其實時動態變化,如果超出時間限制,分析結果就不再具有價值。
(4)數據價值性(Value),或者叫真實性(Veracity)。數據量呈指數增長的同時,隱藏在海量數據的有用信息卻沒有按相應比例增長,反而使人們獲取有用信息的難度加大。以監控視頻為例,連續長時間的監控過程,使數據量很大,但可能有用的數據僅有一兩秒。
(5)基礎設施安全性(Infrastructure Security)。構建現代數字城市大數據的基礎設施要為安全可控的基礎設施,以保證數據中心的核心安全可控。
(6)需求牽引(Needs Traction)。構建現代數字城市大數據中心的架構和技術路線選擇,要以政府、企業和公眾的現實和未來需求和需要為牽引,而不是以技術發展來驅動。
分析現代數字城市SISGBP模型,可以看出政府部門、企事業單位和個人通過現代數字城市應用系統獲取所需服務,大數據中心的主要功能是為現代數字城市應用系統提供數據服務支撐。本文分析現代數字城市大數據中心相關角色和用例如圖2所示。

圖2 現代城市大數據中心角色及用例
政府部門通過政務信息系統,提供政務活動與服務,對公眾服務與生產經營活動進行監督管理,并為大數據中心提供政務數據信息;企事業單位通過行業應用系統,提供公共服務與生產經營活動,接受政府部門的政務活動與服務,也可使用其他企事業單位提供的生產經營服務,并為大數據中心提供行業數據;個人通過現代數字城市應用系統和應用終端使用公眾服務,接受政府部門的政務活動與服務,產生的眾多數據也同時提供給大數據中心作為一類重要的數據源。
大數據中心主要功能需求包括:
(1)數據采集。能夠采集來自政府部門、企事業單位、個人及互聯網的文本、圖像、視頻等結構化、半結構化和非結構化數據。
(2)數據預處理。能夠對采集的數據進行標記、清洗、轉換。
(3)數據存儲。能夠存儲和管理各種結構化、半結構化和非結構化數據。
(4)數據分析。提供數據挖掘和分析能力,具有文本分析、圖像識別、語音識別和視頻分析等功能。
(5)數據可視化。提供根據不同數據類型特點的數據可視化能力。
(6)數據處理。具有批處理計算、流處理計算和圖計算等大規模數據處理能力。
大數據中心主要非功能需求包括:
(1)數據存儲能力。能夠存儲PB級以上的數據。
(2)數據處理能力。具有快速的秒級的實時處理能力和大規模TB級以上的批量數據處理能力。
(3)數據訪問能力。具有開放的對外提供數據訪問的接口供現代數字城市應用系統使用。
(4)數據安全性。具有基礎設施核心安全可控性,具有保護數據安全和隱私的能力,使得數據能夠按權限訪問,長期存儲不丟失。
在大數據參考架構方面,NIST(美國國家標準和技術研究所)提出了其大數據參考架構NBDRA[8],我國國家標準化管理委員會在國標GB/T35589-2017[9]提出了大數據參考架構,如圖3所示。

圖3 大數據參考架構
該參考架構提供了一個構件層級的分類體系,用于描述大數據參考架構中的邏輯構件以及定義邏輯構件的分類,邏輯構件分為3個層級,從高到低依次為角色、活動和組件。該架構總體上可以概括為“一個概念體系,兩個價值維度”。“一個概念體系”是指它是一個通用的大數據系統概念模型,可以作為各種類型的大數據應用系統架構的通用技術參考框架?!皟蓚€價值維度”分別為信息價值鏈(水平軸)和信息技術價值鏈(垂直軸),信息價值鏈表示大數據的價值通過數據的收集、預處理、分析、可視化和訪問等活動來實現,信息技術價值鏈表示大數據的價值通過為大數據應用提供存放和運行大數據的網絡、基礎設施、平臺、應用工具以及其他服務來實現。
參照大數據參考架構,結合現代數字城市大數據中心功能需求,本文設計現代數字城市大數據中心分層架構如圖4所示。該架構從下到上分別為基礎設施層、數據存儲管理層、數據處理框架層、數據處理應用層、數據接口層、數據感知層和現代數字城市應用層,以及運維管理分系統。其中,基礎設施層對應于大數據參考架構的基礎設施組件;數據存儲管理層對應于大數據參考架構的平臺組件;數據處理框架層對應于大數據參考架構的處理框架組件;數據處理應用層對應于大數據參考架構的收集、預處理、分析、可視化組件;數據接口層對應于大數據參考架構的訪問組件;數據感知層對應于大數據參考架構的數據提供者;現代數字城市應用層對應于大數據參考架構的數據消費者;運維管理分系統對應于大數據參考架構的安全和隱私、管理兩個角色。

圖4現代數字城市大數據中心架構
現代數字城市大數據架構各層和運維管理分系統功能描述如下:
(1)基礎設施層?;诎踩煽氐幕A設施、云計算技術,采用物理資源與虛擬資源相結合的方法建立基礎設施,為大數據中心提供運行所需核心安全的計算資源、存儲資源和網絡資源。
(2)數據存儲管理層。按照大數據中心所需的各種數據類型,提供分布式數據庫、分布式文件系統、內存數據庫、列數據庫、圖數據庫等來存儲結構化數據、半結構化數據和非結構化數據,并提供數據的統一訪問功能。
(3)數據處理框架層。提供滿足需求的主流的批處理計算框架、流處理計算框架、圖計算框架,并為上層應用提供統一的大規模計算資源的統一管理功能。
(4)數據處理應用層。提供數據采集、數據預處理、數據分析挖掘、智能處理引擎和數據可視化等數據應用工具。數據采集支持實時監控數據、政務數據導入導出、行業數據接入、互聯網數據爬取和人工數據錄入等功能;數據預處理支持數據標記、數據分類、數據清洗、數據交換與融合、數據索引與存儲等功能;數據分析挖掘支持基于可擴展的數據挖掘算法庫的數據挖掘與交互分析功能;智能處理引擎提供文本分析、圖像識別、語音識別、視頻分析和知識圖譜分析功能;數據可視化提供統計圖可視化、地圖可視化、網絡數據可視化、文本數據可視化和流數據可視化等功能。
(5)數據接口層。提供統一的訪問接口供各類現代數字城市應用使用,各類現代數字城市應用根據授予的權限獲取大數據中心提供的數據計算、數據分析和可視化服務;提供數據采集接口采集數據感知層各類數據提供者提供的數據。
(6)數據感知層。提供各類數據源的感知功能,感知數據類別包括RFID、條碼/二維碼、各類傳感器、生物識別、政務數據信息、行業數據信息和互聯網數據等。
(7)現代數字城市應用層。提供各類現代數字城市應用功能,按需可包括政務信息系統、公眾服務、應急指揮、智能交通、智能醫療等。
(8)運維管理分系統。提供全方位的資源分配、調度和安全管理功能,包括設備管理、流程監控、資源規劃、資源調度、資源管理、資源部署和安全隱私管理等方面。
數字城市的發展已進入現代數字城市階段,大數據已成為現代數字城市建設和研究的熱點之一,分析和設計現代數字城市大數據中心功能和架構將是現代數字城市大數據中心建設的首要任務。本文在分析現代數字城市模型和大數據特征的基礎上,整理歸納了現代數字城市大數據中心相關的角色和用例信息、功能和非功能需求,參考通用大數據參考架構,提出了現代數字城市大數據中心架構,描述了架構各層的功能,可供現代數字城市大數據中心架構設計參考。具體的現代數字城市大數據中心架構設計還需要根據不同城市的特點和建設目標,以及技術路線選擇進行豐富和完善。