張耀日
(中科云智(深圳)科技有限公司,廣東深圳 518000)
近年來,隨著大數據處理平臺體系架構的完善和容器技術的發布應用,基于大數據處理環境的數據集成技術越來越流行,這也使得大數據集成平臺的架構和建設更加簡單和快速。與傳統的數據集成平臺相比,它在數據處理效率、可擴展性、容錯性等方面有了很大的提高。
信息集成化,是指把不同部門、不同系統、不同形式的異相信息,加以提取、轉化、添加到共同統一標準數據存儲庫的流程。信息集成化的主要目標,是為了能夠對所有異相信息進行一個統一的存儲、管理與顯示。數據分析集成化可以完全遮蔽各類異構數據之間的差異性、實現資源共享,并提升了數據共享的效率、更高效地提取數據的價值資訊。但數據分析集成化流程并非單純地將數據分析信息內容堆砌,必須在集成化過程中將“臟數據信息”加以清理、對各類表現形式(存儲格式、數據庫類型、語義等)的數據分析信息內容加以轉化、并重新統一裝載三個步驟。
在大數據集成應用的領域,目前已經有了一些方式方法來建立集成模式以及相關的平臺體系,目前普遍使用的方式主要有聯邦式、基于中間件模式以及數據倉庫等,并且已經較為普遍地運用于各類大數據集成行業中,在不同方面都能夠解決大數據間的相互訪問以及數據共享。
1.2.1 聯邦式數據庫
聯邦數據庫(FDBS)由半自治數據庫組成,在分散的數據源間彼此提供訪問連接,因此彼此也可以共享信息。這種數據庫的好處在于數據仍可以保存在一個分散的主系統下,不需形成一個集中統一的數據庫;但它的弊端也很明顯,即檢索速度較低,易產生死鎖、數據沖突等問題。
1.2.2 中間件模式模型
中間件模式模型是在大數據集成框架下處于分散的數據源體系(數據層)和系統應用(應用層)的中間,結構如圖1所示。中間件模型使用戶能夠通過統一的訪問入口進行存取數據,將所有分散的主數據庫系統視為一個統一的集合。該模型的最大優點是用戶不需要特別注意與底層主數據庫的關聯,從而提高了查詢結果。所有分散的主數據庫系統都可以描述為一個統一的數據集,使用單一的全局訪問入口。設計架構模型的最大困難是如何建立這種統一的全局訪問可見性,能夠使在語義、格式上都有很大不同的主數據庫系統,能夠反映在這個中間層。

圖1 中間件模式模型架構圖
1.2.3 數據倉庫模式模型
資料倉庫是近年來在信息行業最常用的一種詞語和方法,倉庫一般形容的是儲存東西的載體,在信息行業,是具體的存放信息的倉庫。同時數據倉庫又不同于資料庫,數據倉庫有著基于時間的、集成的、無易失性的、具有時間相關的特性,可以為公司、機構進行信息服務的信息集合。模型結構如圖2所示。數據存儲模式是一種多層次的結構模式,一般包括信息收集、數據加工整理、信息存儲、統計分析等,數據儲存儲型是把離散的異構數據資源加以綜合統一存儲,以便建立一個高質量、標準化的信息集合體,以供公司、機構研究決策。

圖2 數據倉庫模式模型架構圖
大數據時期,由于數據集成平臺應用要求逐漸呈現出多元、個體化的特點,加之各主體之間差異也更加突出,所以對數據集成平臺要重視技術要求的收集工作,以找出應用的實際需要、潛在要求以及未來需求,并對其準確認識、描述和集成,同時又按技術要求維度、集成層次和集成方式等方面加以分類整合,科學有效地解決技術要求問題,為數據集成平臺的順利開展技術業務打下了根基。
2.1.1 時效性
隨著市場競爭的越來越活躍,企業在產品創新和技術創業孵化的過程中對產品的使用要具備相應的時效性,從而保持了市場競爭優勢。
2.1.2 剛性
區域科技創新創業主體,通常并不會因為技術資源成本的降低而改變對人才的實際要求,所以用戶對技術的要求也缺少了相應的柔性。
2.1.3 復雜性
大數據處理環境下,應用中對技術的要求不僅單一化,而且還更加復雜,因此,除單純的技術要求之外,可能還要求與之相配套的專業隊伍、儀器設備等,甚至更可能的還是需要科技創業需求方案。
(1)根據技術需求的不同環節,可以將其分為不同需求,例如,初始階段主要對科技群體有較強的需求,中試階段主要對中試基地有較強的要求,產業化階段主要對市場條件有較強的要求。
(2)根據需求主體的不同可將需求分類為用戶科技創業需要、科研機構及高校科技創業需要以及行政管理機關需要等。
(3)根據技術要求領域的不同,可將其分類為新能源、生物工業、新材料、高端裝備工業、現代服務業等,但各個領域之間由于政策環境、資源基礎條件等原因,對技術要求也存在著很大差別。
2.3.1 縱向整合
數據融合平臺技術的縱向集成方法,指的是面向科技創新主體在各個技術創新環節中對某一個要求進行組合集成的技術方法。由于研究環節、成果轉化環節和工業化環節的資本市場技術需求程度略有差異,基于異構技術需求的垂直整合,大數據整合平臺還可以為科技金融行業提供融資渠道,如科技風險投資、風險投資和天使投資,以滿足全球商業技術融資的需要。
2.3.2 橫向整合
數據融合平臺技術需求橫向集成方法,指的是面向創新創業主體或某一特殊創業環節,對各類技術要求所進行的組合集成的方法。如在研究成果轉移過程各個環節的研究轉化團隊、轉移資本、技術工程化等方面的要求,以及在對異質性技術需求橫向集成的基礎上,數據集成平臺將能夠提供研究成果轉移的子平臺,并融入到整個數據集成平臺體系中去,從而為科技創業主體在整個研究成果轉移流程中提供必要的技術支撐與服務,同時促進公司在技術研究與產業化的各環節中進行了無縫銜接。
2.3.3 網絡化整合
從數據融合平臺整合技術需求網絡化的方法,是指將各種技術需求橫向和縱向交叉整合到各種應用程序中的方法,科技企業家的技術鏈接。網絡化集成可以通過技術問題和需求的有效集成,有效緩解技術需求在環境中分散分布的資源問題,提出了一個大數據集成平臺,通過大數據分析提出了一個服務解決方案,實現了企業之間的有效協作和交互技術要求和有關資源。
為提升科技對信息整合的效率與成果,同時減少信息整合系統的運營與管理成本,本文介紹了以容器為代表的大數據分析與科技,來打造信息整合系統。容器是一個輕量級的虛擬化產品,具備空間占用低、執行效率高的特性。容器通過進程分離的形式完成對工作平臺的分離,非常適合進行集群管理,能夠簡單、快捷地構建各種大數據處理應用系統。
3.1.1 云平臺層
云平臺層是整個平臺的基石,負責管理和調配分布式信息;同樣,通過對容器空間結構加以重新安排,達到更多用戶的租戶空間資源配置與隔離。
3.1.2 大數據基礎能力層
大數據管理平臺技術層通過整合各項大數據管理產品,以及通過云平臺層帶來的各項優勢,為技術企業管理信息集成的上層應用領域供給各項必備的軟件。
3.1.3 數據集成層
作為整個平臺的運行核心,信息集成層將通過大數據管理基礎能力層所提出的各類方法,對大科技管理信息系統涉及的各類信息進行收集、轉換、處理和分類運算,從而為服務層提供大數據服務。
3.1.4 應用服務層
通過對數據集成層加工、處理之后的大數據分析,應用服務層能夠面向不同的使用場合進行定制化的業務,包括大數據分析可視化、科研關系分析、項目管理風險評估等。同時,在應用服務層可以使用由云平臺層開發的應用統一調度體系,對應用實施容器式管控。
大數據能力的基本層是計算架構層,它可以快速整合所有重要的大數據處理部門,并提供更有效的工具來解決大數據收集的業務需求數據、數據存儲、信息處理等。大數據處理核心能力層的每個組件都可以更高效、更合理地利用各種分布式大型計算材料和資源云平臺層提供的存儲。大多數組件(與數據存儲相關的組件除外)都可以以容器形式部署,也因此,它能夠使用由云平臺層提供的統一資源調度機制來管理。大數據分析基礎能力層中所集成的組件則大致包括了如下五種。
3.2.1 數據采集組件
都是采用了分布式的數據采集平臺,整合了各種主要數據庫系統、各種網絡服務端口和本地操作系統,并具備容錯管理與修復機制,從而可以進行高安全、高速可用的數據收集與傳輸服務。常見的相關組件為Kafka 和Flume 等。
3.2.2 數據存儲組件
具有分布式的保存高度結構化、半構造化和非構造化的科技管理信息,并有利于進行快速搜索和查找的功能。常用的相關組件為HDFS、MPP(massively parallel processing)、HBase、Elas‐ticsearch、Redis 等。
3.2.3 計算引擎組件
大多都是分布式運算架構,支撐對大量的科技管理信息實施批數據處理,因此能夠有效提升大數據分析整體的運算效能。常見的相關組件為MapReduce、Spark 等。
3.2.4 數據處理組件
提供信息檢索與分析的數據倉庫手段,如能夠實現大量的離線統計分析。同時,通過數據處理軟件可以完成對MySQL、HBase、HDFS 等大數據文件的提取、轉化和加載等操作。目前使用的相關軟件主要有Hive、SparkETL 等。
3.2.5 其他組件
除這些組件之外,在大數據分析技術基礎能力層還有一系列機器教學組成部分,如SparkMLIB、TensorFlow、PyTorch 等;數據分析挖掘與數據分析的組件,如RapidMiner 等;數據分析組件,如Atlas、Grinffin 等。
數據集成層也是該系統的運行核心,它主要采用了ETL 技術,先從各個數據中提取出最初的數據管理信息,接著再根據預定義的數據模型,對原始數據信息進行轉化運算,然后再把轉化后的信息重新添加到原始數據庫中。其中,原始資料包含多深度、多維度、多領域的科學信息、技術資料、信息化業務數據資料等,這些原始數據共同組成了科技財務信息系統的數字財富,針對不同的使用情景,可將上述的數據資產以不同的方法整合出來。比如,將技術人員在各個階段出具的申請書、任務書、匯報資料等數據整合出來,能夠復現出相應項目的全部研發經歷;再比如,通過把同一個科學指南研究方向下全部的項目和課題數據整合到一起,就能夠便于管理者了解該科學領域各個方面的研究成果。而科技管理數據整合的具體過程則包含了數據提取、數據轉換、數據加載等。
本文從當前科技管理工作實際業務需要入手,并根據以往的調研工作,提供了一個基于大數據處理環境下的科技管理工作大數據分析綜合平臺,該平臺充分利用了大數據處理的各種控制、運算、儲存等組件,具有不錯的穩定性、可維護性和容錯性。利用這個網絡平臺,對高科技企業管理信息系統中產生的海量、多源、異構性數據資源加以整合,企業能夠高效地運用科技管理數據資源,為支撐企業科學技術經營決策、綜合統籌管理提供理論方法與科技保證。