張 軍
(中國電子科技集團公司第三十四研究所,廣西 桂林541004;)
大數據分析方案
張 軍
(中國電子科技集團公司第三十四研究所,廣西 桂林541004;)
隨著信息化建設在企業內部的不斷深化,通過信息化技術不僅增強了企業的核心競爭力、加速了企業的發展,而且為企業積累了海量的數據信息。為有效利用企業IT資源在運行中積累的各種數據,讓企業從戰略角度更準確地遇見未來,從而在經營模式、管理方式、戰略決策給企業帶來巨大的變化和創新。提出了一套大數據分析平臺建設方案,從“數據匯入、數據存儲、數據分析、數據展示”全過程對數據進行管理和分析。
大數據;分析;事件歸并;數據集中
當前全球已進入大數據時代,數據量巨大,增長速度極快,類型豐富,單元價值極小但規模價值很大。根據2012年出版的涂子沛的《大數據》一書記載[1],2010年全球企業一年新增的數據就超過了7000PB,全球消費者新存儲的數據約為6000PB,這相當于十多萬個美國國會圖書館的藏書量。最可怕的是,從2010年至今仍然不停地出現各種各樣的新設備、新技術、新機器幫助政府、企業和個人產生更多的數據。中國工程院院士大數據專家李國杰曾在報告中稱:大數據將帶來一場社會變革,特別是公共管理和公共服務領域;有行業報告顯示,某國政府通過大數據技術每年可節省330億英鎊[2]。據IDC2014年報告分析中國大數據技術與服務正在快速的增長,年增長率約38.6%,預計2017年的市場規模將達到8.5億美元[3]。
在大數據時代,企業和組織受到大數據的影響越來越大,未來各行各業都無法避免受其影響。互聯網企業正在通過大數據來刻畫用戶行為喜好特征,實現信息精準推送,增加用戶粘性流量以及業務收入[4]。企業正在通過大數據來評價鑒別個人的信用風險,從而調整信用額度來降低企業風險成本或增加業務收入。電信運營商隨著個性化業務不斷增減,產生了大量的運營數據,其需要進行分析才能提升業務價值,但采用傳統數據庫技術在性能和擴展成本上都嚴重制約著這一需求。
大數據分析平臺通過采用數據建模技術、節點管理技術、事件收集和事件歸并技術等先進的技術,解決了傳統數據分析平臺數據庫容量擴展困難、維護成本高、分析時效性低的問題,實現了不同來源的異構數據的集中挖掘分析與展示。
隨著信息化建設的不斷深入,企業和組織圍繞業務要求已經建設了大量的網絡設備、安全設備、終端、服務器、業務系統等IT資源。這些IT資源在運行過程中積累了大量的各種類型的數據,包括網絡基礎資源運行相關的數據、網絡安全相關的數據、業務相關的數據等等[4]。普遍存在的問題有:
a)沒有將這些數據集中收集和存儲起來,對其進行分析獲取其中潛在的價值;
b)雖然IT資源產生的部分數據正在被利用,但是數據量越來越大,已有的分析利用手段越來越低,數據的維護和利用壓力正在變大。
隨著數量的增加,遇到的一些數據分析相關的典型問題如下:
1)已建安管平臺遭遇瓶頸
為解決單個安全設備很難發現的安全問題,需要將安全設備產生的數據結合起來分析才能發現那些潛在的威脅。雖然安全廠商已經推出了安全管理平臺這類產品來解決安全設備間的信息孤島問題,但是其在融合新的數據時仍存在瓶頸,主要表現有:
a)數據處理過程中的定義不夠直觀、方便;
b)在進行數據分析時,分析規則功能簡單,無法對數據構建有效的分析模型;
c)一般的數據庫已無法適應大數據的存儲與訪問需求。構建在關系型數據庫上的安全管理平臺已無法適應這種數據增長的需要。
2)大量監管數據無法分析
具有監管職能的用戶為實現對目標結構、網絡、信息系統等的安全監管,部署大量檢測類設備和系統積累了大量的監測數據,數據量較大、存儲分散、沒有集中化的分析工具,導致面對這些數據無法分析,不能從中發現對被監管對象安全監管有價值的潛在信息。
3)業務數據分析變得困難
用戶需要對業務數據進行分析,但是業務規模的不斷擴大,互聯網、物聯網等各種新技術在業務中的不算應用帶來業務模式的不斷新增,需要分析的業務數據越來越大,在傳統關系型數據庫及數據倉庫上構建的業務分析系統面臨分析容量擴展困難、維護成本高、分析時效性低等諸多問題,企業和組織需要尋找一種新的方案解決當前面臨的困境。
基于對以上現狀及問題的考慮分析,企業和組織進行大數據分析需要走完五個主要任務,包括:
1)能建立大數據存儲支撐,實現對需要分析的大數據的存儲;
2)能完成對分析數據輸入,實現從各種不同的系統或設備中收集需要分析的數據,將數據集中匯入到大數據存儲支撐中;
3)能完成分析前的數據預處理,實現在數據輸入過程中、數據輸入后、數據分析前對數據格式進行統一,數據內容進行補充或修改,數據過濾、歸并等;
4)能完成快速支撐變化的各種數據分析需求。實現以分析引擎和規則為基礎,對大數據進行實時或歷史分析,對企業和組織中不斷變化的數據分析需求進行快速支撐;
5)能完成分析結果輸出,實現對分析結果的多種展示,并能將分析結果按照接口進行輸出。
大數據分析平臺提供一套完成的數據管理平臺架構,從“數據匯入、數據存儲、數據分析、數據展示”全過程對數據進行管理。通過各種采集方式將不同來源且異構的的數據集中匯入,將預處理后的數據進行分布式存儲,基于數據特性建模并引入分析規則進行數據的挖掘分析,通過多類型方式按需實現界面可視化展示及交互應用。
大數據分析平臺包含數據采集層、數據存儲層、數據分析層、核心業務層、平臺展示層,如圖1所示。

圖1 大數據分析平臺功能架構
2.3.1 平臺展示層
平臺展示層記賬了各類展現視圖,包含集中展示視圖、任務展示視圖、功能展示視圖。其中集中展示視圖將各種信息匯集起來進行綜合展示;任務展示視圖基于每個過程生成的任務進行展現;管理展示視圖實現對平臺配置操作應用的交互展現。
2.3.2 核心業務層
提供系統核心功能實現,包括可視化建模管理、組件庫管理、任務管理、采集管理、匯入管理、數據表管理、知識庫管理、用戶授權管理、平臺智能管理等功能。
2.3.3 數據分析層
數據分析層主要包含過程分析功能和流式分析功能[5]。
過程分析功能包含統計分析、多維分析、關聯分析。統計分析可定量的統計某類數據信息;多維分析可從一類數據的多個維度進行縱向和橫向綜合分析給出結果;關聯分析實現對多類型多來源的數據通過場景與規則進行關聯分析結果。
流式分析功能引用常見流式分析技術,保證數據信息被持續不斷完整地處理和保證數據信息被正確完整地執行,實現大數據持續不斷可靠的計算運行。
2.3.4 基礎架構層
為整個系統提供數據存儲的基礎支撐,包含分布式存儲、分布式計算、數據倉庫、分布式查詢、元數據存儲。
2.3.5 數據采集層
通過主動及被動方式采集實時數據,支持數據采集協議獲取其它外部數據源信息;數據采集層對采集到的數據進行歸一化過濾、歸并及實時分析的處理。
平臺的多維數據分析功能都是基于多維分析技術來實現。多維分析技術通過對業務數據的充分理解,首先通過數據索引建模技術完成數據倉庫的構建,然后在數據倉庫基礎上利用統計、關聯、挖掘等分析手段為構建數據分析模型、數據分析任務,然后通過數據分析任務執行輸出分析結果。
每個分析模型都被描述為大數據處理與分析系統的一個分析過程。這些分析過程可以定期執行,用戶可以直接可視化的查看這些分析過程分析出的結果。
大數據處理與分析系統支持可視化的定義分析過程。伴隨著客戶對該系統的熟悉和對數據認識的加深,后續用戶可自行添加分析過程。
業務分析模型的建設具有以下特點:
1)數據源靈活可配;
2)異構數據分析;
3)可視化過程定義;
4)豐富的過程組件;
測得補強件中心高度左邊測點和上邊測點的軸向與環向應變隨時間變化曲線如圖7所示。其中應變片3讀數不理想,可能出現了松動。屈曲后應變出現了突變,與開孔圓柱殼應變變化不同,補強后改變了應力分布。
5)變量綁定;
6)支持第三方擴展。
平臺中數據采集層、數據匯聚層設計的所有節點均使用統一的節點技術。該節點技術采用了微內核架構,將核心功能與業務服務功能進行剝離。
該技術可大幅度改善系統的非功能性技術指標,簡化系統的整體復雜度,提高系統運行的穩定性、健壯性、易擴展、易部署、易管理。可通過添加節點的方式擴展系統的處理能力;可通過添加組件的方式擴展系統的業務能力,保證系統的可擴展性。
平臺可通過代理收集多類安全事件源產生的日志信息,如安全設備、網絡設備、操作系統以及應用系統等。可支持的日志格式包括 syslog、snmp、trap、文件、ODBC 等多種采集格式。
平臺的事件歸并技術可以根據用戶指定的信息特征、字段等信息進行歸并,當多個信息的指定特征、字段的內容一致時,產生一個歸并信息。同時用戶可以自己指定是否丟棄原始信息。
平臺通過使用SQL 92語法標準制訂事件過濾條件,使用戶直觀的定義事件過濾條件,在事件收集、事件監視、報表定制中可以體現其強大的靈活性,滿足各種業務需要。
平臺通過基于狀態機的實時關聯檢測技術使用狀態機來抽象和描述攻擊的過程和場景,狀態機間的狀態轉換條件由不同安全事件觸發。同時,實施關聯分析技術通過對時間的關聯,可以有效地幫助用戶過濾事件,在大量事件中提取有用的信息。
大數據分析平臺可以使用內置的攻擊狀態機模型來抽取和描述攻擊行為,支持用戶手工建立攻擊關聯場景,可有效地從大量安全事件中準確識別出真實的安全威脅,幫助用戶快速響應安全問題,不斷優化網絡的安全狀況。
基于先進的數據采集技術,獲取企業和組織內部不同信息系統中的異構數據,通過數據過程分析和流式分析實現對異構數據的挖掘和分析,實現對信息的可視化展示,從而發現有價值的信息,為企業和組織的領導層和相關業務組織結構的運營決策提供數據支撐。
大數據對企業和組織的影響既是一種挑戰也是一種機遇,企業和組織想要在大數據時代保持高效運轉、實現創新、取得領先優勢,就必須積極應對大數據時代變化趨勢,應對的核心策略就是要在業務中引入大數據分析,發掘企業和組織所擁有的數據中蘊含的價值。
[1]涂子沛.大數據[M].廣西:廣西師范大學出版社,2012.
[2]李國杰.數據共享-大數據時代國家治理體系現代化的前提[C].開放政府數據,北京,中國人民大學,2014.
[3]中科智遠(北京)科技股份有限公司,2014-2015年度中國IDC產業發展研究報告[R].2015年4月.19-20.
[4]涂子沛.數據之巔:大數據革命,歷史、現實與未來[M].北京:中信出版集團股份有有限公司,2014.
[5]阿涅斯瓦蘭.顛覆大數據分析:基于Storm、Spark等Hadoop替代技術的實時應用[M].北京:電子工業出版社,2015.
An Analysis Schem e for Big Data
ZHANG Jun
(No.34th Institute of CETC,Guilin Guangxi541004,China)
With the in-depth development of IT construction in the enterprises,information technology greatly strengths the core competitiveness and speeds up the development,while accumulatesmassive data information for the enterprises.Formaking effective use of various data collected in the applation IT resources,the enterprises shouldmore precisely and strategically forecast its future development,thus bringing huge change and innovation to the enterprise in terms of businessmodel,managementstyle and strategic policy.This paper also proposes a construction scheme for big data analysis platform,thus to implement the whole-processmanagement and analysis of data information from data imputing,storing,analysis and displa.
big data;analysis;eventmerging;data concentration
TN915
A
1009-8054(2016)06-0105-03
2016-03-08
張 軍(1982—),男,學士,工程師,主要研究方向為信息化管理和信息系統安全。