相坤 楊建設
摘要:以流數據為核心主線,通過研究相關系列的流處理技術,如流采集、流存儲、流計算及流安全等,形成一套先進的分布式流數據處理體系。通過引用自適應編碼、時分復用及效用均值等先進技術,提升系統的處理效率和預測精準度。面對未來廣而大的電網應用場景,能夠從容面對龐大數據流的沖擊,并且在復雜的多源異構的數據業務接入時,能夠協同處理和精準計算,為未來電網順利融合發展提供數據安穩傳輸的可靠保障。
關鍵詞:多源異構;大數據;分布式流
中圖分類號:TP391文獻標志碼:A文章編號:1008-1739(2018)23-68-4
0引言
廣域智能電網將涵蓋多態能源發電、長短距離靈活輸電、穩定可靠變電及態勢感知配用電等多個環節的全景實時系統,支撐智能電網安全、自愈、綠色的基礎是電網中采集的數據,經過合理的數據處理聯動系統,準確掌握電網運行情況,數據信息與廣域電網相伴而生、同伴而行[1]。
電力數據處理聯動系統是一個數據全壽命周期管理的平臺,從數據的產生、錄入、采集、存儲、計算挖掘及安全應用系列管理流程,每一個步驟都應選擇合適的流處理算法或手段來增強數據傳動的效率。例如在流采集方式選擇時,應采用并發式采集方法,增加數據的并發量,通過強融合技術將跨業務數據編碼分類,刪除冗余部分,很大程度上壓縮了數據容量。流存儲是處理高效的關鍵,選擇合適的存儲器部署方式,可壓縮存儲服務器規模,提升數據調用及訪問速度。流數據挖掘是流處理的難點,計算分析結果直接影響業務系統運行的智能性和先進性,流安全是數據運行系統的保障,新業務和網絡的增加都會引入不安全因素,網絡不法分子會通過信息攻擊手段盜取有用數據信息,而造成系統不穩定運行,因此需利用監控、態勢感知、報警及阻斷等綜合手段進行非法隔離[2]。
1大數據流處理系統
數據流是不斷到達的數據元所構成的無限數據集,與傳統靜態數據相比,數據流具有無限性、時序性、噪聲性及規模不可預知性等特點,并且數據之間有一定的關聯性,數據流的特性會給處理過程帶來好處和挑戰[3]。
分布流處理系統是一個很復雜的過程,它由多個子系統組成,需要不同的子系統之間相互分工、共同協作。一個完整的流式數據處理系統由4部分組成:①數據采集系統:用于收集、匯總原始數據;②數據存儲子系統:一方面,在一些場景中需要將海量的原始數據保存較長時間,供后續數據分析及防止系統故障導致的數據丟失;另一方面,原始數據被處理之后,部分數據會被立刻交付給應用系統進行服務程序,也有部分是需要共享或者長期保存的,將處理后的結果存儲到可靠介質中;③數據計算:主要完成對數據的深度分析,尋找其關聯性,從而預測下一時間段出現的可能性或者尋找數據運行規律,計算算法系統會不斷擴容新分析算法放大到計算模型庫中;④數據安全管理:對系統數據全壽命周期過程的創建、存儲、訪問、傳輸、銷毀及回復等過程進行安全控制。
電網中存在的流數據占數據信息的絕大部分份額,針對流數據的不可控性,通過系列手段對其進行壓縮、智能處理,將數據充分融合到業務服務中,通過數據作為用戶的行為指導,提升電網的運行經濟性及社會服務水平。
2數據架構層次分析
隨著全球能源互聯網及北電南送等概念的提出,特高壓技術支撐著長距離的輸電場景的實現,智能電網已經不僅僅是表明狹義范圍內的電網智能化概念,更添加了廣域場景。在這種泛在的應用環境下,將會發生數據流的量崩,不同渠道的流式數據匯聚、交互、融合將會產生更加奇特的功能[4-5]。
流式數據應用是由數據采集、清洗、融合、分析及展示多環節所形成的有機整體,針對廣域多源數據構建適應其特征的流數據分析架構,在每一層次中優選算法進行數據分解、聚合和推導,量身定制的數據處理平臺更加適合未來電力系統發展趨勢,流數據處理分層架構如圖1所示。
從圖1中看到數據流處理框架分層明晰,數據源將不再局限于某個區域或某一類數據,而是將全球電網數據形成融合的大型數據資源池,不同國度、不同區域、不同業務系統的數據格式是各異的,數據流以一定的速度進入采集系統,通過區域代理的形式映射到數據采集區,再利用適配器將數據代理前端標識統一轉換,并按照一定的規約統一編碼,龐大的數據通過有序采集分類后,進一步壓縮數據,刪除部分冗余的重復數據,形成有效可利用的數據資源池,將流數據能夠長期保存還需通過下一步的流存儲步驟。
根據流式文件形式的不同,分為文件型、數據型、關聯型和即時消息型,采集好的分類數據通過流數據抽取到不同類型的數據庫,數據庫內部通過壓縮將數據長期保存,并可按需隨時調用。管理數據的目的第一是知曉系統運行狀態,第二是預測未來運行狀況,完成第一目標調用查看方式即可,完成第二目標則需要流挖掘的方式,在系統內部會存取各種數據流計算模型及模型調用程序,分析業務計算需求,調用驅動程序就能開啟算法運行,從而得到應用系統想要的預測結果。
由于數據是裸露在共享與全球大電網下,因此安全性是至關重要的,需通過各種安全手段實時監控數據流經過的每一個步驟,并根據每個環節的特點自適應開啟相應安全防護手段,一旦出現危機則立即報警,利用聯調互助手段,在最短時間內響應故障請求。
3分布式流協同處理技術
3.1分布式數據流融合采集
數據采集最終目的是實現在保證數據準確性的前提下,將廣域數據清洗融合后存入HDFS中。目前已有的采集方式雖能實現數據簡單的融合,并沒有清洗冗余重復的數據,并且數據在通道傳輸過程中缺少監控手段來保障數據的可靠性,適配器和代理不是一一對應關系。針對已有的問題,對采集方法進行改進,完善數據流采集性能。繼承分散收集和集中處理的思想,打破多個系統之間的割裂封閉狀態,形成統一數據模型,整合多系統數據,并在原有平臺資源動態支撐的基礎上,完成高級應用分析功能,如圖2所示。
數據流的來源范圍很廣,甚至遍布全球電網業務系統,每一個業務子系統數據都利用一個數據代理做數據映射,并通過統一的編碼和合適的適配器進行數據格式統一后,進入對應的傳輸通道,通道內啟用自動排序功能,數據按從大到小的順序排列,并部署監控探針,防止數據的丟失和噪聲干擾。電網業務系統間的數據會存在很大部分的數據重復,通過清洗過程,將重復的部分自動刪除后,仍然選擇分布式采集的方式進入HDFS數據庫存儲。
3.2數據流存儲技術
流存儲區別于靜態數據或文件存儲,數據流具有時序性,因此只能按照時間順序先到先存的機制訪問存儲器。本文利用時分復用的思想,將時間劃分為很短的時間間隔,每個時隙里傳輸一類短數據集,加快了存儲速率,也壓縮了通信開銷。流存儲器的帶寬不需太大,但接口速率盡量保持最大,時分復用流存儲原理如圖3所示。
時分復用存儲算法是借取了無線通信中數據傳輸的思想,流數據具有時序性,但不同業務系統數據流傳輸的速率是不同的,把時間劃分為很小的時隙,對于不同傳輸周期的數據流,在某些時隙上是不傳輸數據的,充分利用空閑的時隙,自適應的見縫插針,達到滿幀時按序排列進入數據庫存儲,這種存儲方式充分利用流數據的特性,開拓了時間維度的新方法,解決了大量數據流快速存儲的問題。
3.3智能流計算技術
數據被實時地收集和匯總形成數據流,為了盡快得到實時應用系統需要的數據結果,需要數據分析系統能完成對原始數據的處理。在大數據環境下,單臺服務器很難滿足短時間內大量的數據計算要求,且考慮到業務和數據的增長,這些都要求數據分析系統具有良好的擴展性。
由于廣域智能電網中所包含的數據領域非常廣,如需對數據預測精準分析,需要一個涵蓋面積大的計算模型池,通過驅動引擎調用的方式激活算法執行過程,從而得到最優結果。本文采用的是效用最大的驅動調用算法,首先將根據算法模型性質分類,計算每個算法的效用值,將同一類算法圈起來,并計算能效平均值,并按從大到小順序排序。當驅動接收到計算需求的廣播信息后,判斷需求屬于哪種計算類,然后調用效用值最大的驅動,最后執行對應的算法,采用這種方式不但能精準地選擇最優算法,而且提升了選擇效率,具體算法過程如圖4所示。
3.4數據流防攻擊處理技術
數據的安全管理需貫穿大數據全壽命周期的每個環節,在數據執行傳輸、存儲、訪問和調用等操作時,尤其軟件執行過程,很容易受到信息安全攻擊,須通過數據運行周期安全管理的方法進行管理。
①多源數據采集:通過Flume進行多源日志數據采集,采集方式包括文本、syslog等。
②數據聚合與異步處理:采用kafka對設備事件信息、實時狀態信息及網絡流量數據進行收集聚合,事件信息、狀態信息和網絡流量都可以視為一種流數據,作為一種分布式消息處理系統,kafka工作在發布或訂閱方式下,非常適合同時處理日志和網絡流量,利用kafka的異步消息處理功能能夠解決日志數據與網絡流量間不同速率的匹配問題。
③數據挖掘、分析、計算功能:采用Storm的流式計算功能,對采集的日志數據進行實時或者準實時的分析,分析的內容主要包括關聯分析取證、攻擊溯及操作分析審計等功能,這是系統的核心,計算的結果直接輸出到HBase進行存儲。
④分析結果展示功能:展示的內容包括數據生命周期證據鏈、審計結果展示界面、統計分析報表功能、告警響應功能及設備聯動功能等。
4實驗結果
為了驗證流數據處理系統的可行性和有效性,通過從某公司信息化系統調用1 000個連續數據,形成數據流在實驗室進行系統平臺驗證。平臺采用Matlab7仿真軟件實施時,每一個步驟的效率提升率及系統整體預測精準度進行計算,如表1所示。
從上表可以明顯看出,本文提出的算法在處理效率和預測精準度方面都有所提升,通過實驗驗證了算法的可行性,下一步可應用于線上系統,為實際應用帶來便捷性和智能性。
5結束語
隨著信息化技術深入到電網領域,電網各業務系統突增大量的數據信息。目前由于數據量的龐大及數據管理手段的缺陷,缺少一個統一的平臺對所有數據進行管理,現階段僅僅是融合部分業務子系統進行了應用,各子系統之間仍然存在信息孤島現象。因此本文的廣域性的大數據平臺更加符合未來數據發展需求,但從實驗階段的驗證結果看還不能完全滿足電網數據的性能要求,因此在技術深度和算法廣度上還需要進一步的探索和突破。
參考文獻
[1] Gibbons P B,Matias Y.New Sampling-based Summary Statistics for Improving Approximate Query Answers[J]. ACM SIGMOD Record,1998,27(2):331-342.
[2] Greenwald M,Khanna,S.Space-efficient Online Computation of Quantile Summaries[J].ACM SIGMOD Record,2001,30(2):58-66.
[3] Condie T,Conway N,Alvaro P,et al.Mapreduce online[J]. Nsdi,2009,156(4):647-667.
[4] Wang H, Fan W, Yu P S, et al. Mining Concept-Drifting Data Streams Using Ensemble Classifi-ers[J].Kdd,2003:226-235
[5] BarbaráD.Requirements for Clustering Data Streams[J]. ACM sIGKDD Explorations Newsletter,2002,3(2):23-27.