張斌 王露露 張臻



摘 要:[目的/意義]對美國政府大數據互操作性框架提出的背景、具體內容和主要特點進行分析與總結,以期為我國制定大數據參考框架、促進跨界合作提供有益的參考。[方法/過程]以內容分析法和文本分析法為主要研究方法,以從美國NIST官網獲得的公開政策、研究報告等作為主要數據來源,從數據層、框架層、角色層和應用層等方面分析總結美國大數據參考框架的特點。[結果/結論]分析發現:NIST構建了一個具有較強參考性與適用性的大數據概念框架,著重體現了大數據范式的前后變化并鼓勵挖掘大數據應用的可能性。啟示我國政府在制定大數據參考框架時,應當在理論層面達成共識的前提下,關注可參考價值與利益相關者的開發需求,同時在需求與價值之間構建起映射關系。
關鍵詞:大數據;政府;參考框架;概念模型;利益相關者
DOI:10.3969/j.issn.1008-0821.2019.11.001
〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)11-0003-10
Abstract:[Purpose/Significance]Through the analysis on the background and content of NIST Big Data Interoperability Framework,the main characteristics were summarized to provide beneficial advice for the big data development in China.[Method/Process]With the methods of content analysis and text analysis,from the aspects of data layer,frame layer,role layer,and application layer,the analysis and summary on NIST Big Data Interoperability Framework were made based on the data of public policy and research report mainly collected from the NIST official websites.[Result/Conclusion]It is found that NIST established a comparatively perfect reference framework,and emphasis on the changes in the big data paradigm and encourage the possibility of big data applications.When formulating the big data reference framework,China can pay attention to the reference value and the development needs of stakeholders under the premise of reaching a consensus on the theoretical level,and build a mapping relationship between demand and value.
Key words:big data;government;reference framework;conceptual model;stakeholder
大數據已成為推動經濟發展、完善社會治理、提升政府服務和監管能力的新動力和新途徑。各國在積極制定和實施大數據發展戰略的過程中,面臨一個重要挑戰就是如何處理好跨部門、跨領域的大數據管理問題從而發揮大數據的基礎性和戰略性價值。2016年5月,美國國家標準與技術研究院(National Institute of Standards and Technology,簡稱NIST)發布了大數據互操作性框架(NIST Big Data Interoperability Framework)并于2018年3月進行了更新[1],以適應新階段的發展要求。美國的NIST大數據互操作性框架針對的是跨部門大數據管理與應用問題,本文通過分析與研究該框架,對面臨同樣發展困境的我國大數據發展具有一定的參考價值。
以“大數據+互操作/參考框架/參考架構/標準/概念模型”為檢索關鍵詞,筆者在中國知網檢索到了87篇相關文獻,在Springer、Science Direct和EBSCO檢索到了323篇相關文獻。通過中外對比,發現在關鍵詞分布上國內外呈現出較為明顯的區別。國內文獻重點關注的是大數據指導標準的建立,譬如,肖筱華等[2]和張群[3]對當前國內大數據標準體系及標準研制情況的研究。相較而言,大數據參考架構和概念模型的研究成果不如標準多,但是也占據了較高的比例,譬如,鄭大慶等綜合了大數據治理的內部要素和外部應用特征構建了一個大數據治理參考框架[4]。國外文獻相較于標準制定,更偏重于對參考架構的研究,Nadal S等遵循軟件工程原則細化了大數據系統的參考模型,并用它創建支持Semantic-aware大數據系統的軟件參考體系架構[5]。Pkknen P等認為將Twitter、LinkedIn和Facebook等大數據開發案例的方法抽取到統一概念模型上尚且存在研究空白,因此,對已公布大數據用例實現架構進行了分析,由此提出了大數據系統的技術獨立參考架構[6]。筆者認為,國家標準和行業標準提供的是相對具體的指導,在大數據范式尚處于探索階段時,宏觀概念層次的參考架構可以為大數據領域的創新提供更多的空間,抽象化的體系也更加有利于不同技術、組織和資源的融合與交流,然而,國內對該主題的研究尚顯得較為薄弱,這為本文提供了研究空間。另外,筆者未發現以NIST大數據參考性框架為研究對象的文章,因此,本文以該框架作為介紹與分析的對象,具有一定的研究意義。
本文選擇美國NIST大數據互操作性框架作為研究對象的主要原因如下:第一,該框架旨在促進政府各部門、學界與企業之間開展有效合作,所針對的問題是當前大數據發展過程中所有國家政府都需要面臨的問題,大數據的概念之所以成立,在于數據通過有機、大規模集合可達成量變引起質變,該特性決定了必須進行跨部門、跨界合作,而在合作過程中的優劣互補、利益協調等問題同樣困擾著我國政府部門。第二,2016年10月,習近平在主持中央政治局第三十六次集體學習時指出:“以數據集中和共享為途徑,建設全國一體化國家大數據中心,推進技術融合、業務融合、數據融合,實現跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務[7]”。該指導理念與美國政府“大數據研究和發展計劃”的核心原則有共通之處,都強調了對國家大數據開展工作進行集中指導與統一規劃。NIST大數據互操作性框架是美國“大數據研究和發展計劃”的政策產物,與我國自上而下的工作部署方向相一致,因此,可為我國的大數據戰略開展提供一定的參考。第三,該計劃于2016年形成,截至目前已實施了兩年多的時間,在這期間并未廢止且在向第二階段推進,可見該框架具有較強的可行性;同時,該框架還對第三階段的工作重點提前進行了規劃,對于未來大數據的趨勢形成了一定的洞見,因此,也具有一定的前瞻性。
1 提出背景
1.1 大數據的潛在價值催生合作需求
早在2002年,為了對大容量的流數據進行實時數據分析,美國政府就開發大規模可拓展的集群基礎設施與IBM公司展開合作[8]。由此帶動IBM后續開發的IBM InfoSphere Stream和IBM Big Data等大數據產品受到了美國政府和企業的廣泛歡迎。2009年,美國政府Data.gov網站開始運行,大大推動了美國的政府信息公開和數據開放。所建設的數據倉庫整合了涵蓋交通、經濟、衛生保健、教育和人類服務等領域的數據以及多個應用的數據源[9]。2010年,總統科學技術顧問委員會在其《設計數字化未來:聯邦資助的網絡和信息技術研究與開發(Designing a Digital Future:Federally Funded Research and Development in Networking and Information Technology)》報告中明確闡述了美國即將實施大數據戰略。2012年,奧巴馬政府啟動“大數據研究和發展計劃(Big Data Research and Development Initiative)”,總投資為2億美元,計劃涉及80多個合作項目,要求多個聯邦部門共同參與,包括白宮科技政策辦公室,國家科學基金會,國家衛生研究院,國防部,國防高級研究項目局,能源、健康和人類服務部以及美國地質調查局。該計劃明確要求產業界、研究型大學和非營利組織與聯邦政府合作,最大限度地利用大數據帶來的機遇[10]。
由上述發展趨勢及其政策要求可見,當前美國無論是政府部門、商業界,還是學術界,都已經充分認識到大數據在推動經濟社會發展和增進人類福祉等方面的潛在價值。美國已從總統層面開始推動各個部門之間積極開展合作,同時,美國政府也與IBM、Aamazon、Google等公司展開合作,從技術研發、產業應用等方面共同推動大數據的發展。因此,可以說,大數據的潛在價值已促使利益相關者之間廣泛構建和發展合作關系。
1.2 大數據技術應用帶來挑戰和問題
盡管跨部門和跨界合作的政策環境已經基本具備,但是在具體的實施過程中卻面臨著諸多問題與挑戰,主要表現為兩個方面:一是在大數據的幾大關鍵問題上尚未達成共識。NIST大數據公共工作小組(Big Data Public Working Group,NBD-PWG)認為,未達成共識的問題包括:1)哪些屬性可以用來界定大數據解決方案;2)大數據與傳統數據環境的應用流程有何區別;3)大數據環境的基本特征是什么;4)新環境如何與當前部署的體系結構進行集成;5)為加速部署強大的大數據解決方案,需要解決哪些核心科學、技術和標準化問題帶來的挑戰。二是尚未形成足夠的大數據應用能力[11]。美國白宮科技政策辦公室前主任霍爾德倫(John P Holdren)認為:美國擁有大量善于生成數據的機構,但作為一個國家,還沒有充分發揮我們的能力來共享潛在競爭資源、協作分析與分享經驗[12]。不同于其他物質型的國家資產,他們所對應的實現場景和所具備的價值是清晰可見的,大數據屬于信息導向型資產,需要多元化的利益主體共同參與,通過持續的試驗與探索才可以發現其潛在的應用價值,因此,需要足夠的協作經驗與頂層指導為大數據戰略的開展保駕護航。
根據2012年“大數據研究和發展計劃”要求,NIST開始著手制定大數據互操作性框架,以促進大數據有關專業力量間的合作,進一步確保大數據的安全和有效應用。2013年1月15~17日,NIST舉辦了“云與大數據論壇”,專門成立了大數據公共工作組負責開發大數據互操作性框架。2016年5月11日,NIST正式發布了大數據互操作性框架1.0版本,將美國的大數據發展分為3個階段,不同階段的工作任務對應參考框架的特定環節。2018年3月23日,NIST又對大數據互操作性框架進行了更新,明確指出當前美國大數據的發展已步入第二階段[13]。
2 核心概念界定
要在大數據關鍵領域達成共識,確保利益相關者合作項目的順利開展,必然要進行核心概念的界定。因此,該框架的目標之一是形成基于共識的理論范式,為實際操作的交流消除誤區,同時也促進對大數據技術有更深刻的理解與認知,擴大其影響力。
盡管大數據具有很多特征,但是大體量(Volume)、多樣性(Variety)、時效性(Velocity)和可變性(Variability)的“4V”特征真正推動了新型數據密集型并行架構的產生,并且決定了對大數據系統的整體設計和大數據生命周期模型的構建。基于大數據的“4V”特征,NIST將大數據界定為:“大數據由大量數據集組成,主要集中在數量、種類、速度和/或可變性等特征上,這些數據集通過建設可擴展架構可實現高效的存儲、操作和分析。”值得注意的是,NIST在概念界定中強調了各個特征之間的相互作用關系,同時重點關注了為了滿足所需性能和成本效率需求可以使系統架構變得可擴展。“系統架構可拓展”通常被描述為垂直或水平拓展兩種思路,垂直拓展意味著增加處理速度、存儲和內存的系統參數,以獲得更高的性能。這種方法受到物理能力的限制,其改進需要引入更復雜的元素(例如,硬件和軟件),無疑會增加現實過程中的時間和經濟成本。另一種方法是使用水平擴展,即利用集成的分布式單個資源作為單個系統,而這種橫向擴展才是大數據革命的核心。同時,NIST也將與大數據系統設計相關的子概念進行了界定,譬如,大數據范例(Big Data Paradigm)包括跨水平耦合的獨立資源分布數據系統,旨在提供有效處理大量數據集所需的可擴展性[14]。
3 美國的NIST大數據互操作性框架及其特征 ?NIST大數據互操作性框架的開展以NIST大數據參考架構(NIST Big Data Reference Architecture,NBDRA)的構建過程為主線,分為以下3個階段:第一階段,確定高級別大數據參考架構關鍵組件,這些組件是技術、基礎架構和供應商當前所不可知的。第二階段,定義NBDRA組件之間的通用接口。第三階段,通過通用接口構建大數據通用應用程序來驗證NBDRA。不同的發展階段對應不同的框架版本,指導相應階段大數據公共工作小組目標的實現。
NIST大數據互操作性框架主要由概念、分類、應用案例和一般要求、安全和隱私、架構白皮書調查、參考架構和標準路線圖七大主題組成,這些主題并非隨意選擇,是由大數據公共工作小組通過調查與研究所得。本文在進行介紹性分析時,并未按照該框架的主題順序展開,原因在于各個主題之間前后邏輯順序與相互關聯性較弱,不便于在文章中進行系統性分析與特征總結。因此,筆者對各個主題進行了整合與概括,將其分為數據層、框架層、角色層和應用層。
3.1 數據層:關注新舊數據范式的變化
理解大數據工程首先需要理解數據本身的特征。通過檢查不同顆粒度的數據在數據資源中所占的比例情況,可以更好地看到數據是怎樣改變了大數據范式以及不同數據層級需要重點解決的問題。因此,NIST提供了基于不同數據粒度的數據特征分析,見圖1。數據特征層級模型(Data Characteristic Hierarchy)將大數據的數據狀態分為數據、文件、數據集和多個數據集4個層次。
數據層在新的大數據范式中沒有發生大的變化,還是通過自身的數據類型和其他上下文數據(或元數據),元數據提供關于數據的歷史記錄等進行理解。數據層關注的是數據格式、數據價值和詞匯表、元數據和語義、質量和真實性。數據會被分配到描述具體實體、事件或者事物的文件中,即文件層。在文件層,體現出了大數據帶來的變化,譬如,在非結構化的文本中,1個數據文件可以指的是1個短語或者句子。該層次關注的是文件格式、復雜性、容量、元數據和語義。文件分組后即形成了數據集,數據集層次也體現了大數據帶來的變化。例如,在非結構化文本中,數據集指的是完整的文檔。該層次關注的是質量與一致性。對多個數據集的關注即形成了集成或融合多個數據集的需求,該層次體現的是大數據的多樣性。大量的數據集不能總是轉換成一個集成結構,例如,大量的天氣數據無法都轉換在同一個時空網格上。由于無法將大容量數據集簡單復制到規范化結構中,因此正在開發新的技術來根據業務需求來集成數據。例如,在非結構化文本中,多個數據集可以同時引用一個文檔集合。該層次關注的是個體數據集的標識。
3.2 框架層:提高系統框架的可參考性
制定統一的參考框架(Reference Architectures)可以通過權威的信息來源,為某個主題領域存在的多樣化的系統架構和解決方案提供指導并給予一定的約束[16]。鑒于大數據領域的復雜性,NIST專門推出了大數據參考框架(NIST Big Data Reference Architecture,NBDRA)。為此,專職工作小組調查了目前支持大數據框架的領先企業或個人發布的大數據平臺,并對收集到的資料進行了分析,從中提煉出了當前普遍的大數據開發架構之間的一致性,并將調查結果形成了白皮書,即架構白皮書調查(Architectures White Paper Survey)[15]。
NIST大數據架構主要由2個坐標軸、5個角色與2個底層結構組成。首先,該框架圍繞信息價值(Information Value)橫軸和信息技術價值(Information Value Technology)縱軸展開。沿著橫軸,通過數據收集、保管、分析和可視化等價值鏈后續流程來創建價值。沿著縱軸,通過提供網絡平臺、基礎設施、應用工具和其他IT服務來創建價值,這些服務用于承載和操作大數據,以支持所需的數據應用程序。其次,5個角色指的是系統協調員(System Orchestrator)、數據提供者(Data Provider)、數據用戶(Data Consumer)、大數據框架提供者(Big Data Framework Provider)和大數據應用提供者(Big Data Application Provider)。在這些角色中,需要注意的是,大數據應用程序提供者和大數據框架提供者使用“Provider”一詞表示這些組件在系統中提供或實現特定的技術功能,并非普遍意義上的“提供”。總體上看,這5個角色是在任何大數據系統中都必然存在的技術角色。其中,系統協調員負責定義所需的數據應用程序活動,并將其集成到一個可操作的垂直系統中;數據提供者負責將新的數據或信息導入大數據系統;大數據應用提供商負責執行數據生命周期,滿足安全、隱私需求和系統編配定義需求;大數據框架提供商負責建立計算框架,在轉換特定應用的同時,保護彼此數據的隱私和完整性;數據用戶指的是終端用戶及其使用大數據應用程序成果的其他外部系統。最后,容納5個角色的2個底層結構分別是隱私與安全(Security and Privacy)、管理(Management),這兩個底層結構是所有大數據系統都必不可少的,負責為系統的所有組件提供保護隱私與安全的職能和管理的服務。此外,圖2中的服務應用代表軟件的可編程接口,“DATA”表示數據在組件之間通過引用或者直接的物理流動,“SW”表示在處理流程中大數據軟件工具發生轉移。
3.3 角色層:增強參考架構的適用性
在傳統的數據項目中,數據系統一般是由一個組織進行主持、開發、部署和資源承載,而在大數據時代,系統的開發布局則是轉變成為分布式的。由2.3的大數據參考框架可見,在系統中會出現多種技術角色,這些角色可以是個人、組織、硬件或者軟件,某個角色可以固定在某個業務實體中,也可以由不同的業務實體共同實現,無需指定具體的參與角色或在合作情況下劃分清晰的業務邊界。因此,大數據系統需要適用于各種不同的業務環境,既要滿足緊密集成的企業系統,又要適應松散耦合、依賴不同利益相關者合作的垂直行業。
NIST構建的大數據互操作性框架就是為了達成上述需求,他們認為在大數據系統開發項目中,“角色(Roles)”與“演員(Actors)”之間的關系與電影角色類似,某個角色可以由不同的演員來承擔,而不同的演員也可以重復扮演同一個角色,同樣地,某個活動可以由不同的行動者來承擔,而不同的行動者也可以承擔多種活動。為此,NIST提出了基于NBDRA系統的“角色”與“演員”樣本分類體系(Roles and a Sampling of Actors in the NBDRA Taxonomy),具體參見圖3。NBDRA“角色”與“演員”分類體系中的7個角色是由2.3的大數據參考框架中的5個角色與2個底層結構組成,即系統協調員、數據提供者、數據用戶、大數據框架提供者、大數據應用提供者、隱私與安全和管理角色組成。
7個角色的含義與職能如下:1)系統協調員負責提供并確保系統必須滿足的總體需求,包括策略、治理、體系結構、資源、業務需求、監視或審計等。雖然該角色的出現早于大數據系統,但在大數據范式中,一些與之相關的設計活動實則已經發生了變化,應當進行相應的調整與更新。2)數據提供者負責為自己或者其他角色提供數據。NIST提出的這一概念本身并不新鮮,但是大數據帶來了強大的數據收集和分析功能,為該角色創建數據價值開辟了新思路。此外,政策環境也為該角色提供了助力,美國政府積極倡議開放數據,作為公共數據管理者的聯邦機構也應積極承擔數據提供者的角色。3)數據用戶是大數據系統的價值輸出所在。正常情況下,數據用戶收獲的價值應當與大數據提供者提供的服務相對接。該角色受大數據系統的影響較小,較為明顯的相互作用主要在于反饋市場需求。4)大數據框架提供者擁有大數據應用程序提供者在創建特定應用程序時所需要的一般資源或服務,包括基礎架構框架、數據平臺框架和處理框架等。大部分情況下,該角色提供的是多種技術的混合實現,這是大數據所帶來的新變化,也是未來需要關注的新領域。5)大數據應用程序提供者按照數據生命周期執行具體的操作,滿足系統協調者提出的需求,同時滿足安全和隱私需求。該角色是將大數據框架內的一般功能結合起來產生特定數據系統的地方。6)隱私與安全角色主要開展的活動時隱私與安全的政策制定與監控,需要與系統協調員在政策、需求和審計等方面進行合作,還需要在系統開發、部署和操作方面,與大數據應用程序提供者和大數據框架提供者進行交互。7)管理角色是為了順應大數據的4V特征而建立的多樣性、復雜性和多功能平臺,主要用于存儲、處理和管理復雜數據。該角色既涉及處理大數據環境下的系統相關,也要處理大數據環境下的數據相關。
3.4 應用層:挖掘大數據應用的可能性
如果將大數據系統視為一個黑箱,想要盡可能地輸出更多的數據價值,就必須從源頭掌握大數據最新的技術、面臨的挑戰、市場發展等相關情況,從而向黑箱輸入更加合理的需求,因此,應當重視挖掘大數據應用的更多可能性,應用問題也是大數據發展過程中較為突出的一大挑戰。NIST為此專門進行了相關調研,形成了一份跨利益相關者的需求清單,該清單列舉了九大基礎應用領域,分別是:政府運行、商業活動、國防、醫療與生命科學、深度學習和社交媒體、研究生態系統、天文學和物理學、地球、環境與基地科學和能源九大領域。基于上述九大領域,NIST又從中歸納出了七大數據需求,使之更有延伸空間和概括性。具體的需求是:數據資源(如,數據大小、文件格式、增長率、靜態或動態);數據轉換(如,數據融合、分析);功能(如,軟件工具、平臺工具、硬件條件);數據使用(如,以文本、表格、可視化和其他格式處理結果);安全性和隱私;生命周期管理(如,策劃、轉換、質量檢查、分析前處理)和其他需求。針對七大需求,可以與2.3的系統架構的7個角色相對應,形成數據需求—NBDRA組件映射表,具體參見表1。
值得注意的是,在挖掘大數據應用可能性的同時,也要注意隱私和安全的保護。NIST將大數據系統中的隱私與安全分為以下5種情況,分別是數據保密性、數據來源、系統狀況、公共政策、社會和跨組織主題。前3種情況大致符合傳統的數據機密性、完整性和可用性要求,在大數據范式下,又被重新定位為需要并行考慮的大數據隱私與安全問題。
4 對我國的啟示
4.1 以可控性為前提,在概念層面達成局部共識
我國國務院2015年8月印發的《促進大數據發展行動綱要》將大數據界定為:“以容量大、類型多、存取速度快、價值密度低為主要特征的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態”[19]。無論國內還是國外,當前對于大數據尚未有一個公認的定義,不同的定義基本是從大數據的3V或者4V等特征出發,3V與4V都是當前在大數據領域較為普遍地達成共識的大數據特征描述,除了之前提到的4V,此處的3V指的是大體量(Volume)、多樣性(Variety)和時效性(Velocity)。總之,各界學者試圖通過這些特征的闡述和歸納試圖給出其定義[20],包括本文研究的NIST大數據框架。盡管如此,在概念上對大數據形成局部共識還是十分必要的,一方面,在實踐過程中,利益相關者需要致力于構建同一個解決方案,相互之間需要共同語言進行交流與理解,方可使各方作用于同一著力點,盡量減少溝通問題和擴大參與范圍;另一方面,大數據解決方案與大數據的特征是密不可分的,大數據的特征決定了大數據應用方案的創新,大數據思維帶來了不同粒度層次的數據價值的變化,這些是在具體實施過程中無法繞開的理解性問題,必須在特定工作范圍內達成一定的共識。
筆者認為,在實踐過程中,對于概念的界定,應以可控性為重點,以適用人群為導向,達成局部的共識,不必過度拘泥于具體的表述。任何范式在最初的時候概念都是綱要性的,探索性的概念界定不一定是完美的。因此,從大數據的3V或者4V特征出發,確保利益相關者在討論數據和數據系統時是可控的即可。譬如,NIST的概念界定是從4V特征出發,重點服務于以下人群:一是面向管理者,為他們理解這一變化領域所需的整體規劃提供支持;二是面向組織者,有利于理解組織需求并區分不同的解決方案;三是面向應用者而言,可以促進大數據解決方案和應用的創新與協作;四是面向技術人員,將提供一種通用語言,方便他們更好地區分大數據的特定技術產品。在概念界定的結構上,可以借鑒NIST的方案,圍繞核心概念,擴散出子概念,形成一個邏輯清晰、逐步深入的“概念樹”;在形式上,最終可以形成一份專有名詞詞匯表,方便社會各界進行查閱。另外,筆者認為,在進行概念界定時,需要體現出變化以及不同范式之間的差異性。Kuhn T在《科學革命的結構》中提出,不同科學范式之間具有不可通約性,即在革命和范式轉換過程中,是世界觀的轉變,即便是同樣的用詞,他們的真實含義也已改變[21]。Jim Gray將大數據視為“第四范式”,大數據在概念上帶來的混淆與不確定性需要通過新舊范式對比來進行解釋。
4.2 以指導性為目標,設計統一的系統構建框架
從國家層面規劃大數據發展是一個系統性、互操作的工程,需要融合多種技術與方法來共同解決問題。因此,構建一個無關技術與基礎設施的、統一的、中立的概念性結構模型,一方面,可以提高利益相關者對各種大數據組件、流程和系統的理解,鼓勵他們遵守國家推薦的標準、規范和模式;另一方面,又可以為政府部門、機構和其他用戶提供技術參考,以便共同理解、討論、分類和比較大數據解決方案。我國政府在制定統一架構時,可以適當借鑒NIST制定的大數據參考架構,在此基礎上,筆者認為,以下4點可供進一步思考與分析。
一是在架構構成元素方面。大部分參考架構在設計參考元素時都需要基于已有的開發案例數據進行歸納推理,而數據流、數據存儲和功能組件這三大基本角色是必須具備的[6]。
二是在大數據應用者環節。該環節分為收集、保管、分析、可視化和獲取等活動,但是針對不同的垂直領域,需要制定用于子組件之間定義與交換的元數據策略,不便于進行標準化。另外,盡管這些活動還是傳統數據管理活動的基本流程,但是大數據實則從本質上改變了他們的含義、價值和實現方式,因此需要對算法、機制和應用程序進行調整與優化,使之具有較強的可擴展性和較高的響應能力。
三是在大數據框架提供者環節,大數據領域對處理容量、多樣性、速度和可擴展性等的新要求大部分都發生在該環節,促使大數據框架的相關技術研發逐漸成為迭代更新的熱點,因而當前該環節具有相對充足的參考信息可供選擇,可以進行進一步的細化與標準統一。
四是在整體上,需要關注對互操作性、可移植性、可重用性和可擴展性等方面的分析與介紹[22]。此處,值得注意的是美國大數據互操作性框架的制定者是美國國家標準與技術研究院,該機構主要為美國發展提供標準、標準參考數據及有關服務[23],可見大數據框架所承擔的作用相當于標準類知識產品,制定機構本身的職能也使之可以起到較好的統籌規劃、提供指導的作用。
4.3 以適用性為要求,考慮各利益相關方的需求
NIST制定的“角色”與“演員”樣本分類體系實則是對NBDRA框架的補充,但是因為該體系的形成來自于NIST對已有大數據用例的市場調研,且這樣的列舉可以從某種程度上提高不同參與者對大數據標準的響應度與參與度,因此該體系的制定也值得我國進行借鑒與參考。
筆者認為,在制定類似的參與者框架時,需要注意以下幾點:一是對業務環境適應性的關注,大數據分布式的開發布局不僅促進了跨界合作,還使得大數據利益相關者邊界日益模糊化,對此,NIST采取的解決思路是對利益相關者的需求進行抽象化,轉化為對不同業務環境的適應性;二是對抽象與具體的把握。NIST大數據參考架構并不是特定大數據系統的架構,而是一個基于公共參考框架用于描述、討論和開發的工具。該模型不綁定到任何特定的供應商產品、服務或參考方案,也不定義限制創新的說明性解決方案。尤其是在“角色”與“演員”關系的構建方面,始終重點闡述的是角色的含義及目標,并未過多限定“演員”的可能性與職責。三是對數據所有權和數據治理的關注。NIST在第3階段的發展目標中明確提出了對這兩個問題的關注。這兩個問題屬于社會影響問題,雖然并非是當前亟需考慮的,但是鑒于頂層架構的宏觀指導性與社會影響力,都應當將它們納入討論范圍內。四是NIST在設計大數據架構時靈活運用了分類法。無論是3.1數據層的數據層級還是3.3角色層的角色分類,都可以更加清晰地展現大數據的概念結構,不斷收集新的數據并逐漸完善分類也是歸納推理法的體現,是NIST構建技術架構、數據層級、應用領域和角色體系的重要方法。
4.4 以應用性為重點,構建需求與價值的映射關系
NIST的應用層構建主要特色在于:一方面,鼓勵相關機構、學界和普通公眾自下而上提交市場案例;另一方面,將基于市場調研提煉出來的數據需求與大數據架構的功能組件相對應,形成一個相互映射的需求功能表。我國政府發布的《促進大數據發展行動綱要》提出了:“促進大數據應用市場化服務為重點,引導鼓勵企業和社會機構開展創新應用研究,深入發掘公共服務數據,在城鄉建設、人居環境、健康醫療、社會救助、養老服務、勞動就業、社會保障、質量安全、文化教育、交通旅游、消費維權、城鄉服務等領域開展大數據應用示范[19]”。為了實現上述目標,可以適當借鑒NIST分析大數據應用案例時所形成的需求功能表,在政府重點提到的應用示范領域構建大數據應用范例,以便于分析利益相關者的需求和構建指導性框架所需的功能組件。
具體可以從以下3個方面參考:一是重視規范化市場數據的收集,可以制定標準化的大數據應用案例信息提交表,引導大數據實踐工作者詳細收集數據的生命周期流程、數據資源的4V特征、數據用戶、應用軟件、分析工具、安全與隱私保護措施等相關信息。二是實現需求輸入—價值輸出的對接,這是構建需求功能表的關鍵。其具體步驟為:1)政府機構發布大數據應用案例信息提交表,利益相關者提交大數據應用需求,收集需求數據;2)將具體的應用需求進行提煉與歸納,完成需求輸入;3)基于已構建的大數據系統架構中的職能組件,完成價值輸出;4)將可能影響大數據應用布局的挑戰與變量列舉出來,總結過程參數;5)綜合對接需求輸入與價值輸出,形成需求價值清單,可參見圖4。三是對安全與隱私的關注。NIST發布了大數據安全與隱私架構和分類清單,作為NBDRA框架的補充,同時還主張探索安全與隱私分類清單與NBDRA框架之間的映射關系,這一關系的建立實則是將安全與隱私的需求落實到了具體的職能組件集合,更有利于指導解決方案的形成。
圖4 大數據應用需求與價值的功能映射流程
大數據既是新一代信息技術,也是一種服務業態,還改變了新的經濟、社會乃至政治環境。在這一背景下,美國NIST的大數據互操作性框架為美國政府部門、商業界、學術界和用戶等各個利益相關方提供了一個開展溝通和合作的重要框架,與大數據系統、資源和解決方案等有關的探討都可以在這個框架下展開。作為在美國推動大數據發展的重要舉措,NIST制定大數據互操作性框架這一行動本身,值得我國政、產、學、研等各界關注和重視。從框架的具體內容上看,美國NIST在設計過程中所采取的設計思路、所構建的概念映射關系等方面,都可以為構建具有中國特色的大數據發展指導框架提供一定參考。
參考文獻
[1]NIST.Big Data Information[EB/OL].https://www.nist.gov/el/cyber-physical-systems/big-data-pwg,2019-03-05.
[2]肖筱華,周棟.大數據技術及標準發展研究[J].信息技術與標準化,2014,(4):34-38.
[3]張群.大數據標準化現狀及標準研制[J].信息技術與標準化,2015,(7):23-26.
[4]鄭大慶,黃麗華,張成洪,等.大數據治理的概念及其參考架構[J].研究與發展管理,2017,29(4):65-72.
[5]Nadal S,Herrero V,Romero O,et al.A Software Reference Architecture for Semantic-aware Big Data Systems[J].Information and Software Technology,2017,90.
[6]Pkknen P,Pakkala D.Reference Architecture and Classification of Technologies,Products and Services for Big Data Systems[J].Big Data Research,2015,2(4).
[7]吳韜.習近平國家治理現代化思想的大數據觀及其現實意義[J].云南行政學院學報,2018,20(5):104-109.
[8]President s Council of Advisors on Science and Technology.Designing a Digital Future:Federally Funded Research and Development in Networking and Information Technology.Washington[EB/OL].http://www.whitehouse.gov/sites/default/files/microsites/ostp/pcast-nitrd-report-2010.pdf,2019-03-14.
[9]U.S.Government[EB/OL].Data.gov:http://www.data.gov,2019-03-14.
[10]Office of Science and Technology Policy,Executive Office of the President.Fact Sheet:Big Data Across the Federal Government[EB/OL].http://www.whitehouse.gov/administration/eop/ostp,2019-03-14.
[11]NIST.NIST Special Publication 1500-6[EB/OL].https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-6.pdf,2019-03-14.
[12]OSTP.“Data to Knowledge to Action” Event Highlights Innovative Collaborations to Benefit Americans[EB/OL].https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/Data2 Action%20Press%20Release.pdf,2019-03-06.
[13]NIST.NIST Big Data Interoperability Framework:Volume 5,Big Data Architecture White Paper Survey[EB/OL].https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-5.pdf,2019-03-06.
[14]NIST.NIST Big Data Interoperability Framework:Volume 1,Definitions[EB/OL].https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1.pdf,2019-03-06.
[15]NIST.NIST Big Data Interoperability Framework:Volume 2,Big Data Taxonomies[EB/OL].https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-2.pdf,2019-03-06.
[16]Office of the Assistant Secretary of Defense,Reference Architecture Description[EB/OL].http://dodcio.defense.gov/Portals/0/Documents/DIEA/Ref_Archi_Description_Final_v1_18Jun10.pdf,2019-03-06.
[17]NIST.NIST Big Data Interoperability Framework:Volume 6,Reference Architecture[EB/OL].https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-6.pdf,2019-03-06.
[18]NIST.NIST Big Data Interoperability Framework:Volume 3,Use Cases and General Requirements[EB/OL].https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-3.pdf,2019-03-06.
[19]國務院.促進大數據發展行動綱要[EB/OL].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm,2019-03-06.
[20]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[21]Kuhn T.科學革命的結構[M].金吾倫,胡新和,譯,北京:北京大學出版社,2012:5.
[22]Chang W.NIST Big Data.Reference Architecture for.Analytics and Beyond[EB/OL].https://bigdatawg.nist.gov/Day2_15_NBDRA_Anaytics_and_Beyond_WoChang.pdf,2019-03-06.
[23]百度百科.NIST[EB/OL].https://baike.baidu.com/item/%E7%BE%8E%E5%9B%BD%E5%9B%BD%E5%AE%B6%E6%A0%87%E5%87%86%E4%B8%8E%E6%8A%80%E6%9C%AF%E7%A0%94%E7%A9%B6%E9%99%A2/3931459?fr=aladdin&fromid=6274256&fromtitle=NIST,2019-03-06.
(責任編輯:郭沫含)