◆何 軍
(上海科技網絡通信有限公司 上海 200233)
支持數據交易的大數據試驗場關鍵技術研究
◆何 軍
(上海科技網絡通信有限公司 上海 200233)
數據的開放、共享、流通是當前發展大數據的關鍵問題。數據交易是數據流通的新型手段。大數據試驗場和大數據交易中心成為大數據產業的兩大支撐基礎設施。大數據交易中心迫切需要大數據試驗場提供技術支撐,研制安全可信公平的數據交易技術和規范、數據訪問和權屬管控,以有效地支持數據交易,促進數據流通。
大數據;試驗場;關鍵技術
大數據[1]是數據、技術和應用三者的統一,數據隱含價值、技術發現價值、應用實現價值。大數據改變了人類生產和生活方式,對各行各業各領域都產生重大影響。
數據的開放、共享、流通是當前發展大數據的關鍵問題:一方面數據的需求者不知道數據特別是合適的數據在哪里,也不知已知數據的真實性和真實價值,更缺乏有效的數據價值發掘技術和平臺;另一方面,數據的擁有者有著重重顧慮,擔憂一旦數據被其他公司使用后帶來的各種風險和價值損失。這需要通過技術手段打破兩者的藩籬,降低數據擁有者在數據共享過程中的風險,并提高數據價值的可見程度,從而發現數據價值,促進數據流通。數據交易是數據流通的新型手段,人們可以利用數據交易中心作為數據需求方和供應方的中介服務,發布數據目錄,實現數據共享。
各地政府在陸續推動成立數據交易中心,然而數據對于用戶的價值評估以及公平交易的安全保障需要合適的技術平臺。因此,有必要研制支持數據交易的大數據試驗場作為大數據關鍵基礎設施。支持數據交易的大數據試驗場建設可以構建公平可信安全的計算環境,發掘數據價值,促進數據流通。通過大數據試驗場提供系列工具,進行數據質量分析和價值評估,促成數據交易,從而將分散沉淀在數據擁有者手里的數據通過大數據試驗場共享出來,發掘這些數據的價值,支持數據交易中心的數據交易工作,促進大數據技術和產業的快速發展。因此,大數據試驗場的建設、大數據試驗場關鍵技術研究具有十分重要的應用價值和時代意義。
1.1 國外方面
在數據流通和交易方面,歐美發達國家尤其是美國已經走在了前面,數據中介通過政府、公開和行業渠道,從數據源頭處收集各類信息,進而向用戶直接交互數據產品和服務。其中,數據源頭、數據中介和最終用戶構成了數據流通和交易的主體。數據源頭和中介環節構成了大數據資源的供給端。譬如Twitter將自身數據授權給公司Gnip、DataSift和NTT DATA進行售賣;Acxiom等公司通過各種手段收集、匯聚關于企業和個人的信息;Sermo.com和Inrix等公司則通過網絡和傳感器直接從公眾采集數據,獲得傳統上單個企業難以采集的海量、實時數據[2]。
數據市場的另一端是數據需求方,包括各類數據分析服務商和行業用戶,涉及政府決策、公共服務、交通物流、醫療健康、人力資源、廣告營銷等領域。國外的數據供給端和需求端可以概括如下特征:(1)數據中介大多與采集和聚合為主;(2)集市類的形態逐漸弱化,相關平臺都最終在數據類型上有所側重,不再以“綜合類”為主要賣點。(3)用戶端需求強烈、應用廣泛。
在引入外部數據支撐自身業務的典型案例中,Rentrak公司基于機頂盒數據,檢測各種屏 幕上的媒體消費情況,為影視制作公司和廣告公司提供咨詢服務;Carolinas HealthCare System公司采集200 多萬客戶的消費數據,識別其中高風險的患者;SAP公司從運營商處手機智能手機使用信息和位置信息,并銷售給市場營銷機構等等。從世界各國的實踐來看,建立統一的數據開放共享平臺,并集中開放可加工的數據集和工具集已經成為了一個通行做法,如美國的data.gov網站、新加坡的data.gov.sg網站、印度的data.gov.in網站、西班牙的 datos.gob網站等。Google公司內部的數據共享平臺推動了Google公司數據產品的創新[3]。
1.2 國內方面
隨著數據治理理念的影響逐步加大,我國的大數據開放共享平臺的進程開始逐漸加快。2011-2013年陸續上線了國家數據(data.stats.gov.cn)、北京市政務數據資源網(BjData.gov.cn)和上海市政府數據資源網(DataShanghai.gov.cn)等大數據開放共享平臺。據“開放知識 基金會”發布的《2013年開放政府數據普查》結果,在被普查的全球70個國家和地區政府中,我國綜合排名第35位,這與我國經濟大國和數據大國的身份極不匹配。為此,我國政府工作報告中也多次提出發展大數據,并啟動了一批相關科學研究計劃。2015年8月,國務院印發了《大數據行動綱要》,強調要大力推動政府部門數據共享,穩步推動公共數據資源開放,統籌規劃大數據基礎設施建設,支持宏觀調控科學化,推動政府治理精準化,推進商業服務便捷化,促進安全保障高效化,加快民生服務普惠化,明確了大數據領域的十大工程建設。同時,上海《關于加快建設具有全球影響力的科技創新中心的意見》明確指出要 “實施一批重大戰略項目,布局一批重大基礎工程”,其中就包括大數據和云計算等[4]。2014年起,各地開始建設大數據交易場所。2014年12月31日,貴州在貴陽成立第一所以大數據為命名的交易所[5];2016年3月29日,浙江省批準籌建大數據交易中心;2016年4月1日,上海市在靜安區掛牌成立大數據交易中心。
這些交易場所的籌建為數據流通奠定了良好的場所基礎,但也對如何保障和進行數據交易提出了嚴峻挑戰。國內數據流通環節上,普遍存在數據源活性不夠、應用覆蓋面較窄等問題,也就是我國大數據產業發展尚處于非常初級的階段。在這個階段,大數據價值發現和實現鏈條缺位,缺少像大數據試驗場這樣的基礎設施幫助數據擁有者和最終用戶發現并認可數據價值;此外,數據交易雙方普遍對數據流通存在各種恐懼心理:包括擔憂虛假數據、數據泄密、隱私泄露、數據價值流失等。
作為大數據產業的兩大支撐基礎設施,大數據試驗場和大數據交易中心存在著各自亟待解決的問題:(1)大數據試驗場迫切需要大量的數據資源與殺手級應用以為大數據試驗場的技術選型和核心技術攻關指明方向;(2)大數據交易中心則迫切需要大數據試驗場提供技術支撐,提供各類數據資源,包括真實數據、樣本數據、仿真數據,保障數據交易前、中、后中對數據的質量分析、價值評估、交易風險控制、數據訪問控制、隱私保護等[6]。
支持數據交易的大數據試驗場是支撐用戶進行基于數據組織、分析、探索及其系統架構方面試驗,促進數據開放共享的公共平臺,目的是保障數據交易,促進數據流通,幫助交易雙方發現數據,發掘數據價值。試驗場將為從事大數據交易的企業、個人和科研機構提供大數據處理的模擬環境,以支撐用戶從平臺、數據、數據分析方法等方面對大數據的處理、應用和分析系統進行展開實驗,保障數據交易。

圖1 大數據實驗場總體架構
主要包括:(1)探索性大數據分析與價值評估系統:實現數據選取、數據融合、工具選取、數據價值評估、數據推薦等功能;為支持交易的大數據試驗場提供大數據探索性分析服務。(2)大數據試驗沙箱:支持應用適配的軟硬件集群(Hadoop、Spark)自動配置、全局優化的自適應資源調度功能,支持多用戶在大數據試驗場2000節點的共享集群上創建隔離的試驗專用空間;為支持交易的大數據試驗場提供安全可信試驗環境。(3)支持公平可信數據交易的保障工具集軟件:支持數據可信公平交換、交易總賬管理、結果驗證、試驗沙箱安全初始化、可信審計數據采集;為支持交易的大數據試驗場提供可信公平交易服務。

圖2 大數據管理及控制子系統
通過支持數據交易的大數據試驗場建設,研制安全可信公平的數據交易技術和規范、數據訪問和權屬管控,保障大數據交易。研制支持數據交易的大數據試驗場,厘清并解決數據質量評估與修復、探索性大數據分析與價值評估、公平可信數據交易與交易審計、及交易試驗沙箱等關鍵技術問題,形成關鍵工具集,將有效地支持數據交易,促進數據流通。其中的關鍵點包括:
(1)基于融合后數據的數據分析方法,解決試驗場大數據探索性分析的價值評估問題,達到輔助用戶進行數據選取的目的。
(2)基于FCM(因子準則測量)方法,維度可剪裁與擴展的數據質量度量模型與評估指標體系,解決多樣化數據質量評估需求,建立可定制質量度量模型與評估指標體系。
(3)基于質量規則和管道過濾架構的多算法數據修復融合方法,解決目前單一質量指標方法難以解決的質量修復問題,提高數據流通及應用價值。
(4)基于異構應用模糊適配和共享狀態全局調度的軟硬件集群自適應配置技術,為多用戶構建大數據試驗沙箱專用空間,支持隔離和高效的大數據交易與數據分析試驗。
(5)基于區塊鏈技術的去中心化公平交換技術,解決公平交換對可信第三方的依賴,為數據交易及試驗提供可信機制和保障。
(6)基于可信審計監管機制,形成試驗虛擬環境的可信初始化以及審計數據的可信生成方法,建立可信的、具備安全隔離和全流程可追溯可取證能力的大數據試驗沙箱虛擬環境,支持公平可信的交易和試驗。
(7)基于數據資源血緣圖譜的大數據試驗場數據權屬管理方法,解決大數據試驗過程中衍生數據的結果控制難題。
(8)面向大數據試驗的平臺即服務的系統集成技術,解決試驗場內異構工具集與系統間集成問題,簡化大數據試驗構建。

圖3 大數據實驗場關鍵技術
大數據試驗場擬建成一個公益性、開放性的功能性平臺,支持大數據應用及產業發展,為需要進行大數據研究及試驗的組織及個人提供相關基礎設施及專業咨詢、培訓服務。試驗場通過提供交易前、中、后的技術支持服務促進包括大數據交易中心在內的數據交易場所的建設。
[1]周寶曜,劉偉,范承工.大數據戰略·技術·實踐[M].電子工業出版社,2013.
[2]Greenberg A,Hjalmtysson G,Maltz D A,et al.A cle an slate4D approach to network control and management[J].A CMSIGCOMM Computer Communication Review,2005.
[3]De Tejada Muntaner G R.Evaluation of OpenFlow co ntrollers[D].KTH,2012.
[4]程瑩,張云勇,楊紹光.云網融合及原型驗證研究[J].電信技術,2013.
[5]鄭葉來,陳世峻.分布式云數據中心的建設與管理[M].清華大學出版社,2013.
[6]杭州華三通信技術有限公司.新一代網絡建設理論與實踐(第2版)[M].電子工業出版社,2013.