楊德勝,陳江江,張 明
(1.安徽南瑞繼遠軟件有限公司,230088;2.江蘇瑞中數(shù)據(jù)股份有限公司,210000 3.國網(wǎng)電力科學研究院,211100)
電力企業(yè)的數(shù)據(jù)已告別以往數(shù)據(jù)類型較為單一、增長較為緩慢的時代,隨著SG-ERP和智能電網(wǎng)建設的開展和深入,數(shù)據(jù)量以幾何級增長的速度在增長(由TB級向PB級轉變),數(shù)據(jù)來源更加復雜和多樣(結構化、非結構化和半結構化),如何充分利用應用這些巨量的多樣化數(shù)據(jù),對其進行深入分析以便提供大量的高附加值服務,需要應用大數(shù)據(jù)的理念與技術。另外,大數(shù)據(jù)是能源變革中電力工業(yè)技術革新的必然過程,而不是簡單的技術范疇,大數(shù)據(jù)不僅僅是技術進步,更是涉及整個電力系統(tǒng)在大數(shù)據(jù)時代下發(fā)展理念、管理體制和技術路線等方面的重大變革,是下一代智能化電力系統(tǒng)在大數(shù)據(jù)時代下價值形態(tài)的躍升。
本課題根據(jù)文獻研究成果,圍繞公司業(yè)務應用中面臨的實際問題和迫切需求以及業(yè)務應用中亟待提升的方向,研究面向電力大數(shù)據(jù)特征的高速存儲體系結構、索引體系結構以及流計算即時處理技術,解決系統(tǒng)建設與運行各環(huán)節(jié)所面臨的技術難題,探索各技術的應用以期實現(xiàn)突破,為電力大數(shù)據(jù)技術在公司系統(tǒng)的應用提供有效指導和切實支撐。
目前具有電力大數(shù)據(jù)特征的典型業(yè)務如用電信息采集系統(tǒng),電力用戶基數(shù)大,每天產(chǎn)生的數(shù)據(jù)量龐大,導致業(yè)務系統(tǒng)在統(tǒng)計分析業(yè)務上出現(xiàn)了響應緩慢,用戶等待時間較長的問題。分析研究用電信息采集等業(yè)務系統(tǒng)的數(shù)據(jù)存儲、檢索、流計算所采用的技術架構;總結歸納結構化數(shù)據(jù)與非結構化數(shù)據(jù)所采用的數(shù)據(jù)存儲與檢索技術架構與性能;研究典型業(yè)務系統(tǒng)中對即時流處理技術的現(xiàn)狀與需求。
研究基于Hadoop分布式存儲系統(tǒng)的多元數(shù)據(jù)服務的副本管理機制,研究元數(shù)據(jù)服務器異常情況下的重定向和副本替換算法,避免單一元數(shù)據(jù)服務器故障導致的整個分布式文件系統(tǒng)的癱瘓問題。研究Hadoop分布式文件系統(tǒng)的動態(tài)擴展機制以及備份和恢復機制:研究分布式文件系統(tǒng)與原有SAN網(wǎng)絡等存儲設備文件系統(tǒng)的兼容策略,研究Hadoop分布式文件系統(tǒng)的增量式備份方法和異常恢復機制,實現(xiàn)突發(fā)情況下的文件快速恢復。
針對Hadoop分布式文件系統(tǒng)配置靈活多樣、性能隨配置參數(shù)變化波動劇烈以及電力應用數(shù)據(jù)形態(tài)豐富的特點,深入分析并鑒別影響存儲性能的關鍵因素,設計自適應動態(tài)采樣算法,研究異構分布式存儲跨層配置降維機制,究應用感知的多節(jié)點協(xié)同配置優(yōu)化技術。研究大數(shù)據(jù)存儲系統(tǒng)性能評測數(shù)據(jù)集生成技術,設計并實現(xiàn)面向電力大數(shù)據(jù)應用的存儲系統(tǒng)性能基準測試原型系統(tǒng)。
圍繞電力大數(shù)據(jù)采集頻率高、數(shù)據(jù)量異常龐大以及長期持久化存儲等典型特征,研究支持數(shù)據(jù)節(jié)點副本數(shù)可調節(jié)的分布式存儲技術和架構,研究電力大數(shù)據(jù)高速存儲系統(tǒng)中數(shù)據(jù)副本動態(tài)調節(jié)算法,實現(xiàn)新增數(shù)據(jù)節(jié)點的快速部署和自動存儲均衡。研究基于副本的數(shù)據(jù)訪問加速技術;設計基于激勵理論的數(shù)據(jù)副本優(yōu)化放置算法;研究多副本的數(shù)據(jù)一致性協(xié)議和同步機制,保證多節(jié)點間的狀態(tài)同步。研究網(wǎng)絡分區(qū)故障敏感的多副本數(shù)據(jù)容錯機制以及自動恢復技術。
在分析當前大數(shù)據(jù)檢索體系結構與查詢方法,以及電力大數(shù)據(jù)及檢索特征的基礎上,研究電力大數(shù)據(jù)對檢索系統(tǒng)體系結構的特殊需求。對各類采集類電力大數(shù)據(jù)進行采樣分析,對檔案類大表數(shù)據(jù)進行分析,研究電網(wǎng)采集類大數(shù)據(jù)與檔案類數(shù)據(jù)的特征;對電網(wǎng)業(yè)務中涉及大數(shù)據(jù)檢索業(yè)務的檢索方法進行分析歸類與總結,研究電網(wǎng)業(yè)務檢索業(yè)務的類型分類與特征;基于上面的兩項總結,研究電網(wǎng)大數(shù)據(jù)特征與各類檢索對查詢系統(tǒng)體系結構邏輯結構的需求。
針對目前沒有成熟的大數(shù)據(jù)多維索引的情況,研究電力大數(shù)據(jù)與檢索的特點,設計電力系統(tǒng)專用的多維索引結構。支持高效的多表連接與多維區(qū)間查詢功能;研究自適應的、動態(tài)可擴展的分布式索引存儲方法、索引壓縮算法;研究高可用的分布式索引存儲方式與故障恢復方法;結合電力業(yè)務的需求,研究有效的負載均衡算法;針對電力數(shù)據(jù)量龐大的特點,研究大數(shù)據(jù)環(huán)境下索引快速建立與快速存儲的方法;為了降低索引訪問對查詢速度的影響,研究高速的索引訪問方法;研究基于索引結構的統(tǒng)計數(shù)據(jù)與數(shù)據(jù)元信息的預計算技術。
研究基于索引元數(shù)據(jù)的查詢?nèi)蝿战馕觥⒎纸夂筒樵冇媱澤伤惴ǎ谎芯恳欢〞r間窗口內(nèi),多查詢間依賴關系與多查詢合并優(yōu)化算法;基于電力系統(tǒng)中單表查詢的特點,設計基于索引的單表訪問方式的優(yōu)化方法;基于電力系統(tǒng)中多表關聯(lián)查詢的特點,設計基于索引的多表關聯(lián)優(yōu)化查詢方法;研究基于索引元數(shù)據(jù)與預計算統(tǒng)計數(shù)據(jù)的查詢優(yōu)化方法。
針對大數(shù)據(jù)環(huán)境下的電力實時處理業(yè)務需求,結合處理規(guī)模、處理時延及容忍誤差范圍等要求,從編程模型、消息處理、可靠性、擴展性等方面,分析目前主流流計算產(chǎn)品的技術特征、運用領域及優(yōu)缺點,研究各類流計算即時處理架構,結合容錯、事務的特性,提煉設計適合國網(wǎng)大數(shù)據(jù)環(huán)境下健壯、高效、可擴展的流計算即時處理框架。研究高并發(fā)模式下流計算框架的I/O模型與并發(fā)模型,分析數(shù)據(jù)流在節(jié)點內(nèi)部的處理流程,。研究流計算的任務調度算法和優(yōu)化,提升流計算即時處理平臺的處理能力。
針對電力大數(shù)據(jù)環(huán)境中系統(tǒng)規(guī)模大、節(jié)點異構性高的特點,研究分布式流處理系統(tǒng)的控制流與數(shù)據(jù)流傳輸機制,設計基于層疊網(wǎng)的數(shù)據(jù)路由算法,研究層疊網(wǎng)節(jié)點到物理網(wǎng)絡節(jié)點的高效映射算法;設計流處理節(jié)點同步及異步通信原語、接口;研究大并發(fā)場景下時間消息數(shù)據(jù)排隊緩沖策略,研究流處理網(wǎng)絡擁塞控制策略;研究異常情況下的數(shù)據(jù)重傳協(xié)議和系統(tǒng)恢復機制。
對電力應用業(yè)務邏輯所設計到的各個環(huán)節(jié)的對象及其關系進行分析和梳理,對整個復雜事件處理系統(tǒng)的各個模塊的功能進行規(guī)約;研究智能用能服務應用模式的軟件實現(xiàn),抽象、提煉并設計形成面向智能電網(wǎng)的事件模式(Pattern)集合;研究設計支持電網(wǎng)應用模式的復雜事件處理語言;研究事件處理語言的執(zhí)行引擎,設計事件的高效率檢測算法,并根據(jù)電網(wǎng)應用的特性進行算法的性能優(yōu)化。
用電信息采集:針對要在短周期內(nèi)完成用電信息采集數(shù)據(jù)異常判斷的需求,引入流計算技術,完成對實時采集的數(shù)據(jù)進行預處理,包括:對異常數(shù)據(jù)的過濾、處理以及相關警報;完成高效算法的設計,實時監(jiān)測并處理異常數(shù)據(jù);完成對數(shù)據(jù)在存儲節(jié)點上分布的均勻化操作。
數(shù)據(jù)質量監(jiān)測:針對業(yè)務數(shù)據(jù)質量在線實時監(jiān)測的需求,引入流計算技術,對數(shù)據(jù)傳輸環(huán)節(jié)上的數(shù)據(jù)質量監(jiān)測對數(shù)據(jù)從單位、頻度、來源系統(tǒng)、所屬業(yè)務等維度進行明細透視,對數(shù)據(jù)質量監(jiān)測異常實現(xiàn)互動預警及處理從及時、完整、一致、準確四方面對數(shù)據(jù)質量進行通報,持續(xù)改進數(shù)據(jù)質量。
視頻圖像處理:在視頻流計算應用方面,通過對視頻監(jiān)控圖像的實時計算,結合目標特征提取、運動目標分割、背景光影變化等分析處理算法,獲取電力設備原始數(shù)據(jù),掌握電力設備的運行狀態(tài),提高故障檢測的實時性,降低人工成本,提升管理效率和生產(chǎn)安全水平。
本課題重點研究電力大數(shù)據(jù)高速存儲體系結構和關鍵技術,研究電力大數(shù)據(jù)索引結構、多維索引關鍵技術及多維索引的快速關鍵技術;研究適應于電力大數(shù)據(jù)特征的索引體系結構與關鍵技術;研究面向電力大數(shù)據(jù)特征的分布式流處理系統(tǒng)原理;研究驗證流計算即時處理技術對于大數(shù)據(jù)典型應用的有效性。完成符合電力大數(shù)據(jù)特征的高速存儲體系結構研究與實現(xiàn)、索引體系結構的研究與實現(xiàn)以及流計算即時處理技術的研究與實現(xiàn),在此基礎開發(fā)面向電力大數(shù)據(jù)處理的原型系統(tǒng)并進行驗證,進而補充和完善技術研究成果,為提升公司業(yè)務系統(tǒng)性能提供統(tǒng)一技術支撐。
[1]李皎.大數(shù)據(jù)時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82-83.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-149.
[3]劉軍,呂俊峰.大數(shù)據(jù)時代及數(shù)據(jù)挖掘的應用[J].國家電網(wǎng)報,2012:1-2.
[4]宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術,2013,37(4):928-935.
[5]王元卓,靳小龍,程學旗.網(wǎng)絡大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013,36(6):1126~1136.