李 浩
(中國電子科技集團公司第三十九研究所,陜西 西安 710065)
目前,云計算技術是國際網絡產業中的熱門技術之一,其誕生標志著以低成本為核心的超級計算機服務的時代已經來臨。云計算技術全面構建了新一代互聯網計算資源,為互聯網上的大部分高層數據處理系統提供必要的支持,不論是大數據和人工智能,還是其他各種應用,都離不開云計算所提供的基礎建設。對職業人員而言,核心是理解云計算技術,文章將以通俗的語言剖析云計算技術及其業務形態,并簡要介紹了云計算和大數據、人工智能之間的聯系,以期幫助讀者理解云計算技術下大數據分析平臺的具體設計。
大數據是抽象概念,并沒有完整定義。目前,有關網站對大數據的定義為一個用于數據采集、管理以及處理,并分析數據集的軟件。與曾經的“海量”數據相比,如今的數據流量已經以幾何級數的速度增加,并融合了采集、分類、處理等多元操作,使得人們可以從中發現更多的內在信息。大數據具有以下特征。
(1)大容量。隨著大數據的發展,目前企業數據規模已經接近艾字節(Exabyte,EB)級數量。
(2)多元化類型。過去常常使用結構化數據,其在存儲上有一些優點。例如:組件程序之間可以更好的協同工作,共享同一個文件夾;數據可以通過磁盤文件系統統一管理。目前,圖像和視頻等數據正逐步發展為非結構特點[1]。同時,由于數據種類的差異,處理信息的技巧有了更高的要求。
(3)價值密度過低。多數數據具有較高的固有價值,而大數據本身并不具有較高的價值密度,因此處理海量信息可以得到更多具有實際作用的數據。
(4)高速化。與傳統的數據挖掘方法相比,大數據技術對數據的處理要求更高,因此處理數據的效率對決策效果產生直接影響。具體應用時,應該基于數據的特征選擇處理形式,或有效整合各種數據,顯示對應的結果。
此外,云計算的顯著特征是規模龐大、虛擬化以及可擴展。其服務種類包括以下3 項:一是可以在服務結束后,打包各種基本的資源,如Amazon EC2/S3 云服務、硬件設備等,并將基礎設施提供給用戶使用;二是能夠將抽象的信息物質化,為使用者創造一個類似于谷歌Enjine 軟件的運行平臺;三是針對性的軟件,例如Salesforce online CRM 軟件可以包裝一些特殊的功能。
對于云計算機理而言,可以使用Web Services 作為使用者互動界面的存取界面,實時獲取使用者的需求;使用服務目錄作為使用者的服務清單。該系統的管理接口可以有效調度現有的資源,確保網絡的負荷平衡[2]。
設計研發大數據分析平臺的過程中,首先要考慮的是如何有效地存儲數據。由于大數據技術的特性,需要以分布式的體系架構為基礎,構建一個能夠滿足用戶多元化、個性化需求的分析平臺,從而實現數據采集與處理的多樣性。構建分布式文件系統時,除利用好系統中已有的各種資源之外,可以利用其他的一些可靠方式來檢測數據信息,以便能夠滿足用戶多元化的要求。由于大數據中存在大量的信息數據以及各種形式的文件圖片,且大量的信息存量都屬于半結構、非結構類型,為有效地處理這些信息數據,需要構建一個性能可靠的存儲模塊。目前,相關行業還沒有標準化描述鍵值、圖表類型的數據存儲,因此此處構建的存儲模型包含了該類型的數據存儲,用數據庫的方法管理鍵值和圖表數據,從而滿足現代的互聯網技術的要求。同時,與常規方式的數據庫建設相比,該模型省去了申請應用過程,有著顯著的優點。
互聯網技術快速發展的背景下,將會產生越來越多的匯集數據,因此要想提高數據采集和存儲的效率,就必須高效跟進數據發展。使用遠程內存訪問協議技術,可以明顯提高數據計算的效率和品質,同時可以有效處理存儲需求耗費過大的問題。滿足應具備規范的數據采集方法比較豐富,通過構建數據流處理系統,可以提高數據采集的效能,從而有效減少成本,最大限度地體現信息的價值[3]。
大數據分析平臺集云計算、分布式、存儲等多種能力于一身,提高了信息數據的處理速度和質量。云計算數據處理一體化平臺的體系架構分為3 部分:一是頂層,其作用是接口子系統處理工作流;二是中層,其作用是數據預處理;三是數據中心層,其作用是數據存儲。
一個Segment 主機通常會有多個節點,采用互聯網技術整合、連接Segment 主機、Master 主機以及相應的數據庫。整個系統的運作中,各存儲節點沒有發生任何的數據交互,相應的工作狀況也通常獨立,因此只能利用Master 的有關功能,讓整個Segment 主機與其數據庫之間建立起信息交流,且所有的應用程序都要利用Master 主機設定的權限,順利存取有關數據信息。各節點在Segment 服務器中的運轉有著同樣的工作任務,通過網絡媒介將各節點高效地聯系在一起,從而構成一個完整的服務器系統。
非交互的信息平臺體系結構中,為使該體系能夠在線操作數據,需要對數據庫、主機存儲區域網絡(Storage Area Network,SAN)/共享硬盤、硬盤SAN/網狀通道(Fibre Channel,FC)網絡進行特殊設計。該設計方式適合于小型的信息數據查詢。在非交互數據平臺的運作體制下,可以將客戶的信息詢問要求劃分為多個過程,并在一個完整的簇中進行統一的分析和計算,客戶的所有信息和數據要求都可以在基于因特網的高帶寬運作體制中迅速地得到滿足。該架構不僅結構簡單,而且獨立節點和硬盤之間都有一條可以讓所有節點單獨工作的高速信道,為高效、高質量地處理數據提供強大的數據支撐和安全保障。完全共享性架構如圖1 所示。

圖1 完全共享性架構
基礎設施即服務模式(Infrastructure as a Service,IaaS)中,用戶不必為其所需要的基礎設備支付高昂的費用,可以以租賃的形式,利用云計算服務商提供的服務器、存儲資源、網絡資源等,自行設定操作系統以及安裝運行軟件。此外,IaaS 云具有以下7 項基礎特性。
(1)資源抽象。資源抽象模式可以高效地分配和管理網絡中的資源流向。
(2)資源監控。監測整個網絡資源,可以確保網絡底層的設備高效運轉。
(3)負載管理。控制申請負載,不僅可以提高應用程序對緊急事件的反應能力,而且可以提高系統資源的利用率。
(4)數據管理。云計算中,IaaS 模式最根本的需求就是數據的完整性、可靠性以及可管理性。
(5)資源部署。將資源從創造到利用的全部過程實現自動化。
(6)安全管理。IaaS 安全管理的首要目的就是要確保合法存取、保留IaaS 架構及其所提供的資源。
(7)計費管理。基于精細的收費管理方式,方便用戶更加靈活地應用資源[4]。
該項技術的原則是通過使用多層次的分類方式,管理隸屬于平臺的身份信息,加密信息權限的接入設定。當數據操作員存取使用者的信息時,該技術可以使系統自適應記錄,并快速處理。工作人員可以解析操作痕跡,以確保使用者在存取數據時的安全。
訪問安全技術的存儲審計通常包含2 項流程:一是在訪問接入用戶大數據平臺前,必須進行接入認證,即一般性證書頒發機構(Certificate Authority,CA)認證技術,該技術是較核心的網絡信息保護部分,只有經過認證的訪問者才可以使用該架構系統;二是進入該平臺的安全體系后,使用者需要通過認證進入監測模塊,平臺系統以用戶的身份和授權的有關情況為依據作出響應,確定用戶能否獲得某種資源。進入監測模塊也具有多元的認證方法。其中,雙因子主要指利用加密和數字證書、數字簽名、指紋虹膜等特性中的2 項相融合的方法,來完成對用戶的身份認證方法,是目前最簡單、最容易實現的一種身份認證技術。
本系統采用口令機制實現對技術的授權與登錄操作,并通過雙因子身份認證登錄大數據分析平臺。同時,以計算機網絡作為中介的新型互聯網技術,利用數據行為審核分析機制,分析用戶的接入紀錄和權限,并利用數據庫審計的方法,高效地即時記錄互聯網上的數據庫活動,進而提升數據庫的運行行為的規范化以及審核工作的整體性。此外,功能完善的數據庫信息系統在遇到風險異常的情況下,會自動開啟告警,并迅速地阻斷危險行動。通過數據庫審計,可以從內部和外部2 方面強化對數據庫網絡信息的行為記錄,從而更好地提高數據庫信息資產的安全性,該行為機理是對審計用戶進行數據訪問與解析的一種有效方式。
在云計算融合于大數據分析平臺應用階段,Master 主機將保存最原始的信息,每個節點上的Segment 主機功能是保存用戶圖片,通過鏡像技術處理多個差異性Segment主機,進而保存鏡像數據。因此,如果Segment 服務器在運行過程中發生故障,那么負責鏡像數據保存的Segment 服務器可以將自己保存的鏡像數據恢復到原來的數據庫系統中,從而有效保障數據安全[5]。
為保障平臺的安全穩定運行,服務器的選擇應當標準。為保證系統的運轉效果,本次設計使用的是X86 的公開結構個人計算機(Personal Computer,PC)服務器。該服務器有著十分顯著的優點,不僅可以迅速、安全地分布存儲數據,而且可以高效、穩定地統一處理海量數據,甚至能夠出色解決復雜棘手的輸入/輸出(Input/Output,I/O)問題。
可以通過利用外部表進行比較簡單的處理來更新數據流結構化查詢語言(Structured Query Language,SQL),該處理具有很大的優勢,可以進行平行加載,加載的最高速度通常可以達到4.5 TB/h。
隨著我國互聯網信息技術的飛速發展,大數據技術已經在各產業領域得到了廣泛應用,而隨著新技術和新方案的不斷涌現,以大數據為中心的制造服務也不斷推向市場。文章分析闡述了云計算技術構建的大數據分析平臺的可用性,嘗試建立了一套分析平臺,該平臺可以有效、精準地處理結構復雜、關聯度高的信息數據,同時該設計方式可以很好地處理拍字節(Petabytes,PB)級的數據,為提高信息資料的處理效率和準確度提供了有力的保障,對建設基于云計算的大數據分析平臺的企業而言是一個極佳選擇。