蘇立偉 劉振華 杜禮鋒 伊思諾 曾曉鋒



摘 要:針對(duì)Spark計(jì)算框架處理規(guī)模急劇增長(zhǎng)的大數(shù)據(jù)時(shí),處理速度會(huì)明顯減慢,無(wú)法滿足電力大數(shù)據(jù)分析的實(shí)時(shí)性處理需求的問(wèn)題,提出了一種基于GPU與Spark計(jì)算框架的電力大數(shù)據(jù)分析算法.將GPU的并行處理結(jié)合到Spark計(jì)算平臺(tái)上以提升電力大數(shù)據(jù)處理的效率,并通過(guò)構(gòu)建排隊(duì)模型來(lái)最大化該計(jì)算框架的性能.仿真結(jié)果表明,所提出的算法具有一定的精確性和有效性,且加入GPU計(jì)算后能夠明顯提升數(shù)據(jù)處理速度,可以滿足大規(guī)模數(shù)據(jù)處理的實(shí)時(shí)性需求.
關(guān) 鍵 詞:電力大數(shù)據(jù);分布式計(jì)算;并行計(jì)算;排隊(duì)模型;并行數(shù)據(jù);開關(guān)柜;超聲波;實(shí)時(shí)性
中圖分類號(hào):TM76 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1000-1646(2023)04-0371-05
隨著智能電網(wǎng)的快速建設(shè)與發(fā)展,大量的電網(wǎng)基礎(chǔ)設(shè)施和數(shù)以億計(jì)的智能電表產(chǎn)生了海量的電力數(shù)據(jù)[1].使用信息技術(shù)對(duì)電力大數(shù)據(jù)進(jìn)行處理與分析,是目前電網(wǎng)智能化和電力行業(yè)信息化發(fā)展的必然要求[2-3].
目前,世界各國(guó)根據(jù)電力大數(shù)據(jù)海量化、多樣化、價(jià)值化與快速化的特性,構(gòu)建了多種大數(shù)據(jù)處理平臺(tái),如以Zookeeper、Hbase與Hive等軟件為核心的Hadoop生態(tài)系統(tǒng)[4-6].Hadoop系統(tǒng)的核心技術(shù)是使用MapReduce編程框架進(jìn)行數(shù)據(jù)分發(fā)與計(jì)算,該框架需要將計(jì)算結(jié)果存儲(chǔ)到硬盤,會(huì)產(chǎn)生較高的計(jì)算延遲、遺落與錯(cuò)誤.因此,Spark計(jì)算框架[7-10]應(yīng)運(yùn)而生,該框架通過(guò)基于內(nèi)存的計(jì)算模式實(shí)現(xiàn)大數(shù)據(jù)的交互查詢、流式計(jì)算與批處理,然而當(dāng)數(shù)據(jù)規(guī)模急劇增長(zhǎng)時(shí),Spark計(jì)算框架的數(shù)據(jù)處理速度會(huì)明顯減慢,無(wú)法滿足電力大數(shù)據(jù)分析的實(shí)時(shí)性處理需求[11-13].
隨著CUDA與GPU技術(shù)的發(fā)展成熟,越來(lái)越多的人開始嘗試在Spark平臺(tái)上整合GPU的并行處理能力,通過(guò)利用GPU資源來(lái)提升大數(shù)據(jù)處理效率[14].其中,CuSpark[15]與SparkCL[16]是具有代表性的兩個(gè)項(xiàng)目,它們均在一定程度上實(shí)現(xiàn)了GPU與CPU的混合并行計(jì)算.CuSpark通過(guò)抽象管線將數(shù)據(jù)劃片存儲(chǔ)到內(nèi)存或顯存中;SparkCL則結(jié)合JaveCL技術(shù),將Java字節(jié)碼轉(zhuǎn)換為OpenCL支持的運(yùn)算語(yǔ)言以供GPU使用.