張淑杰
(華北理工大學附屬醫院,河北唐山,063000)
對于大數據分析平臺的構建和應用,儲存數據問題的解決是第一要務。由于大數據技術所具有的特點,必須要按照分布式的系統結構建立分析平臺,從用戶的多元化、個性化需求出發,來設計具有多種數據收集管理的功能和方法。建立分布式文件系統需要對系統現有的資源進行充分的運用,也可以運用其它可靠的方法來實現對信息數據的檢測,以滿足用戶的多樣化需求。由于該兩種不同的數據服務類型,直接導致建立數據儲存結構的難度增大。這是因為大數據中所擁有著海量的信息數據和多種格式的文檔圖表,這些大規模的信息存量都多屬于半結構、非結構類型,要想實現對這些信息數據的高效處理,必須要建立功能穩定的儲存模塊。對于鍵值、圖表類型的數據的儲存,目前還未給予規范的說明,因此,這里所建立的儲存模塊,也包括對此類型信息進行的儲存,通過數據庫方式對圖標和鍵值進行處理,這樣可以與現今的網絡技術環境相適應。與傳統的方法相比,數據庫的建立可以避免申請這道環節,具有明顯的優勢。
在互聯網技術環境下,數據的匯集量會不斷增多,因此,必須要有效促進數據收集儲存的效率的提升。目前,所廣泛應用的數據收集技術依然無法較好的滿足各類用戶的多樣化需求,并且存在著內存消耗過大的問題。而通過遠程內存訪問協議技術的應用能夠有效的提升數據測量的效率和質量,并且有效解決了內存消耗過大的難題。從大數據處理技術特點來看,符合應有標準的數據收集方式是較為豐富的,通過數據流處理系統的建立,就能夠成功實現數據收集效率的提升,并且有效降低成本,讓信息價值得到最大化的發揮。
集云計算、分布式、儲存等多種功能為一體的大數據分析平臺,信息數據的處理效率和質量的提升都有了更加可靠的保證,對于云計算數據分析統一平臺的構建,結構框架主要包括三個方面:即頂層、中間層、數據層。其中,頂層主要涉及用戶接口子系統、工作流,中間層涉及數據預處理、并行數據子系統;數據中心層則是云計算系統里中心數據儲存模塊。
此次設計的方法和要求說明如下:第一,在企業內建立一個統一的數據運算平臺;第二,企業管理人員可以對數據實例進行直接控制;第三,以實體整合的方式實現對企業業績數據的訪問;第四,具有良好的擴展性,能夠在配置低的狀態下平穩運行,有效降低投資風險。在云技術應用環境下,計算機硬件配置具有良好的擴展性和較高的性價比,才能確保大數據平臺的構建具有低成本、高效益的效果,能夠支持PB級別和ZB級海量數據的儲存,并且支持對結構化、半結構以及非結構等多種類型數據的處理。以此同時,數據統一分析平臺的構建必須要充分發揮自身的價值,為企業帶來豐厚的經濟效益,實現這一目標的關鍵就是要保證數據價值得到最大化的挖掘。在本文中,筆者對應用云計算技術建立統一分析平臺所進行的分析闡述,針對這項技術我們所運用的數據庫存儲,其中Map Reduce的結構被重點運用,同時設計人員也構建了一個平臺,來對相關機構化數據以及半結構化的數據、一些非結構化的數據進行相關的處理與分析,這個平臺在項目中的實際應用,對所有客戶群體的信息數據進行準確高效的收集和分析,挖掘潛在的客戶群體,將是將數據價值變為經濟價值,用技術為企業創造更多的利潤提供支持和保障。
(1)軟件結構
對于Segment的主機而言,其中往往存在著很多的節點,在Segment主機中存在著多個節點,運用互聯網技術將Segment主機、Master主機和相關數據庫進行融合和連接。在網絡運行過程中,每一個儲存節點之間不產生任何信息交換,他們的運行狀態往往都是獨立進行的。我們只有通過使用Master的一些相關功能才能讓整個的Segment的主機與其他的數據庫之間形成信息交換的這一功能,所有的運用程序都要通過Master主機設置的權限來成功訪問相關數據信息。每個節點在segment服務器中的運行所具有的任務的相同的,在借助互聯網這一介質將這些節點進行了一個有效的連接之后,共同組成了服務器系統。服務器系統在運行過程中,所有的節點保持著獨立的狀態,不具備數據共享功能,其擁有的數據訪問權限僅限于本地資源,正式憑借著這一獨特功能,為服務器良好擴展提供了便利。從理論角度來講,服務器可以實現無限擴展。但是,根據目前的技術支持來看,互聯網CPU的可承載數為千個,節點可達到512個。在互聯網實現連接的前提下,所有節點直接可以穩定完成數據的共享,并且在共享的過程中不會對對方的內存進行訪問,這個運行過程我們可以將其稱為數據進行一個重新的分配。
(2)設計的具有較高可用性的方案
在此次設計的方案中,Master主機采用“一主一備”的配置模式,用G(gigabit ethemet)網絡來實現對Segment主機和Master主機的有效連接,這樣的配置模式可以讓Segment主機同時具有兩種類型的數據,即網段數據和備份網段數據,從而有效提升的服務器系統運行的穩定性和可靠性。
(1)現有的,共享的結構
在無交換的信息平臺架構中,為了讓系統具備在線處理數據的功能,專門設計了通用性較強的數據庫、主機SAN/共享磁盤和磁盤SAN/FC網絡,這種設計模式主要適用于小規模信息數據的查詢。在無交換數據平臺運行體系下,用戶所具有的信息查詢需求,可以分成多個流程步驟在整個集群中完成統一的分析計算,用戶所具有的所有信息數據需求都可以在以互聯網高帶寬的運行體系中快速實現。這種體系模式不僅具有簡潔化的優勢,其中沒一個節點與本地磁盤中間均具有一個保持數據獨立運行的高速通道,從而為信息的高質量、高效率處理提供了有力的支持與保障(如圖1所示)。

圖1 完全共享性架構
(1)為保護數據的節點鏡像提供了強大保證
在云計算技術下的大數據分析平臺的運行過程中,Master主機負責對最原始的信息數據進行保存,在各節點位置處的Segment主機主要就是保存用戶的形象,通過鏡像技術的運用,通過多個不同任務的Segment主機能夠對鏡像數據進行保存。這樣,如果Segment主機在運行過程中發生損壞,負責鏡像數據保存的Segment主機可以將自身已保存的鏡像數據恢復到原來的數據庫系統中,有效保證了數據的安全性。
(2)外部表的快速加載
對于數據流的SQL而言我們可以通過外部表來進行一個較為直接的操作,這樣操作有著非常明顯的優點,數據能夠進行并行加載,其中加載的最高速度往往能夠達到4.5TB/小時的峰值。
(3)Map R educe&SQL
應用云計算技術所建立的大數據分析平臺以Map R educe &SQL一體化的技術環境為保障,與傳統的編程理念所運用的技術環境有著較大的差異,并且也與傳統的關系類型的數據庫系統有著本質的區別。
(4)云計算平臺的私有性
要想使平臺的安全能夠較為穩定的運行,那么繼續用更加穩定的服務器,為了確保運行效果,此次設計采用了X86開放架構的PC服務器,這種類型服務器具有非常明顯的優勢,不僅能夠快速安全的完成對數據分布式的儲存;而且還能夠穩定支持數據信息的大規模統一計算,從而使得較為棘手的I/O難題得到了有效的解決(如圖2所示)。
從以上的內容中我們可以看出,由于我國近些年來高速發展的網絡信息技術,大數據這項技術已經充分的運用到了各個行業之中,,大量新技術、新方案的涌現使得以大數據技術為核心的產品紛紛推向市場。在此趨勢和背景下,企業只有充分的運用大數據技術,才能適應時代的發展,為企業創造更多的經濟效益。本文,筆者對依靠云計算技術建立大數據分析平臺進行了分析闡述,并且嘗試設計出了一套分析平臺,該平臺能夠穩定支持對結構復雜、關聯度高的信息數據的高效準確處理,并且這種設計模式還能夠很好的支持PB級別數據的處理,有效實現了信息數據處理的高效化、準確化目標。因此,在企業的大數據平臺構建中具有較高的借鑒參考價值。