■ 文/過敏意
過敏意,上海交通大學電子信息與電氣工程學院計算機系主任,博士生導師,致遠講席教授,國家杰出青年基金獲得者。
對多源城市大數據進行高效地融合與集成,使大數據技術轉化落地,真正推動產業發展。
從多源城市大數據中挖掘有用的知識,以提供監測預警、決策支持等服務,是智慧城市建設必不可少的技術支撐,已成為全球技術競爭的制高點和下一輪信息技術發展的焦點。如何讓海量數據真正為人所用,真正推動產業發展,是目前大數據技術轉化落地的瓶頸。多源城市大數據遭遇難以共享等諸多困難,在使用過程中常常面臨數據低質、冗余和繁雜等問題,因此,需要對多源城市大數據進行高效地融合與集成,從而為城市大數據的計算和分析提供必要的支持。
在信息化推進和發展的過程中,很多城市的政府與公共服務部門積累了大量的數據資源,為大數據融合與集成技術的研究與發展奠定了豐富的數據基礎。然而,城市大數據具有來源廣泛、類型眾多、結構復雜、動態實時且關聯復雜等特點,難以實現數據的“聚、通、用”,在使用過程中遇到以下的困境:
●多源異構數據使得數據聚而不通;
●數據關系復雜,數據價值難以體現;
●海量動態數據持續到達,數據集成壓力加劇;
●對數據缺乏理解,不能形成以數據為核心的數據應用解決方案。
高質量、高效率地解決前三個有關“聚、通”的問題,將為最后的多源城市大數據的“用”提供必要的技術支持。

多源城市大數據的異構性導致數據聚而不通。例如,城市旅游大數據來自多個不同的行業和領域,包括大量游客吃、住、行、消費能力信息,以及景區地理數據、人流情況、交通狀況等信息。這些數據結構多樣,由于采用了不同的表達模型(包括關系模型、鍵值對模型、樹模型和圖模型等),使得數據之間無法互通。如果通過多粒度的統一表達和優質萃取來研究多源城市大數據的融合方法,就可以打通多源大數據壁壘。
我們可以采用統一表達模型刻畫并融合多源異構城市大數據,將行業數據與統一模型進行聯系和映射,分析不同行業數據的特征,通過降維、沖突消解等技術,在統一模型中為它們選擇合適的表達方式,從而形成可嵌套的多粒度統一表達模型。考慮到實際數據采集中的種種問題,比如可能存在大量冗余或者老舊數據,我們對采集的數據進行優質萃取,構建質量評估模型,建立低質數據的冗余清洗機制,從不斷增長的海量信息中動態地選擇出有用的數據源和數據段,制定動態選擇策略。
城市大數據中的關鍵知識描述呈現多元化、深度化、層次化、知識關聯復雜化、隨時間演化等特點,為城市數據向城市知識的轉化帶來巨大困難。例如,城市旅游大數據的旅游知識具有層次化,包含地理位置、歷史文化等多層次因素。針對上述問題,我們需要研究多源城市大數據的深度知識融合,比如針對城市大數據中常見的非結構化文本數據,研究非結構化文本數據的主題融合分析模型,設計“(動態)主題發現、主題代表提煉”算法,并結合深度學習等實現時序性多源異構城市大數據的融合預測。
為了有效利用多源城市大數據中的結構信息和語義信息,實現多層次交叉關聯的深度融合,我們需要構建多層次知識圖譜,將結構信息和語義信息無縫地融入多源數據的特征表示模型中,并研究知識和知識關聯的進化,深入分析多層次知識圖譜的演化性質,建立進化的多層次知識圖譜。此外,上述融合分析需要對海量跨空間數據進行分布式檢索,因此要針對應用需求研究出分布式索引技術,從而高效率、高質量地訪問和查詢數據對象。
城市大數據的海量動態特點,要求對數據進行協同處理,提供全方位的集成支持,從而從系統層面優化大數據平臺,使其具有良好的時效性和擴展性。具體來說,需要研究基于數據流模型的多源大數據處理系統,通過構建數據流圖,串聯各個領域的數據資源,實現多源數據協同處理。
為了利用現有的大量移動設備、智能終端、傳感設施產生的海量數據,我們需要研究建立云霧混合系統處理多源大數據,將智能手機、傳感器等小型分布式的霧計算設備與中央式的云計算系統進行整合,實現協同增效,服務旅游、交通等行業。不同類型的應用對計算資源有著不同的要求,如面向社會的查詢對延遲較為敏感,而知識發掘等應用對數據的吞吐量更為敏感,所以需要針對不同的應用特征進行異構大數據的計算優化。城市交通等行業應用由于實時性需要,對計算響應時間有較高要求,這與不斷增長的龐大數據和復雜的網絡產生矛盾。為此,我們需要設計基于軟件定義的多目標網絡資源調度,實現網絡傳輸和數據計算的聯合優化。
如何更高效地融合和集成多源異構、復雜高維的數據已經引起了研究人員極大的興趣。通過跨行業、跨部門、跨應用的數據融合與分析,實現了深入挖掘公共數據的價值,從而形成數據驅動的商業模式創新的做法也屢見不鮮。利用實時文本、時空和多媒體等異構數據融合分析的結果推動公共服務的現代化已經在多個國家得到了實踐。
總而言之,融合與集成是城市大數據發展的必由之路,對融合與集成技術的研究將推動我國在大數據應用基礎理論的發展,促進城市大數據科學的發展和技術進步。