歐振國, 張永旺, 劉海斌, 舒曄, 黃博偉, 彭強
(廣東電網有限責任公司, 計量中心, 廣東, 廣州 510000)
電能計量是各個生產部門、企業用戶、商業、個體等各個環節的必需工作,也是發電部門、供電部門和用電部門之間實現電能傳遞的重要途徑。通過電能表實現電能計量的歷史已經很久,由于用電用戶較多,電能表計量留駐在千家萬戶,用電信息采集量很大,在對各種計量數據信息進行管理時,計量生產管理平臺等信息系統躍入人們的視線[1]。計量中心生產調度平臺在電能表計量狀態檢驗以及數據管理方面具有重要的作用。
現有技術中使用的電能表計量生產管理平臺存在諸多缺點。
(1)平臺結構簡單,數據庫管理不完善,在面對檢測規模巨大、檢測作業量較大的情況下,難以實現數據的統一調度,工作效率低下。
(2)數據計算量大,對數據分類、計算能力以及獲取信息的能力很差,調度時間信息發布和獲取時間長,造成生產滯后。
(3)自動化程度差,大量計量數據管理,仍離不開人工勞動,整體運行步幅遲緩,整體效率不高。
由于計量生產管理平臺大部分在省級計量中心應用,因此需要設計出新型的計量生產管理平臺[2]。
研究基于多層架構的管理模式實現計量生產管理平臺的智能化、自動化管理[3],架構示意圖如圖1所示。
數據層設置容納多種數據類型的數據庫信息,比如計量設備運行參數信息管理數據庫、生產運行數據信息管理數據庫、計量檢測數據管理庫、故障數據管理數據庫等,這些數據庫能夠包含計量設備全生命周期等一系列管理數據。研究的計量生產管理囊括范圍不局限于電能表,還涉及不同型號的專變終端、單相電能表檢定裝置、三相電能表檢定裝置、便攜式計量檢定該裝置或者公用配變考核設備等,上述計量設備在全生命周期過程的數據信息是一個龐大的數據系統,常見的數據庫管理軟件有SYBASE、duDB、Oracle、MySQL、ACCESS、Visual Foxpro、MS SQL Server、Informix、PostgreSQL等,在本研究的計量生產管理平臺設計中,采用MySQL數據庫[4]。
在訪問層中設置有應用接口、數據流、數據接口、通信接口以及各種訪問權限設置等,通過訪問層,用戶能夠獲取數據層中的各種數據信息,并與外界實現信息通信。其中通信接口可以為RS485通信接口、RS232通信接口、紅外通信接口、載波通信接口、TCP/IP通信接口、ZigBee無線通信接口、GPRS通信接口、CDMA無線通信或藍牙通信接口等[5]。通過這種多模式通信方式設置,能夠實現多設備的通信。
在計算層中設置計算單元,由于數據層存在大量不同類型的數據,在尋找、應用和數據管理時,常規人工方式顯然已經滿足不了當前需要。在本研究的計量生產管理平臺中,在計算單元中融入了數據挖掘算法,進而實現電能計量數據的多種處理和應用。數據挖掘算法更進一步地包含諸如Apriori算法、關聯算法、回歸分析、聚類算法、調度樹算法、貝葉斯算法、神經網絡、支持向量機等[6]的多種算法,通過不同的算法能夠實現不同的數據計算和處理功能,研究針對分類算法和AdaBoost算法故障診斷算法進行說明。
計量生產管理平臺包括計量客戶服務層、計量業務處理層、計量工作質量監控層和計量調度層,如圖2所示。計量客戶服務層主要實現與用戶以及客戶進行信息互通,可以在其內設置呼叫裝置、觸摸查詢裝置、通信設備、電子通信裝置、客戶服務管理系統等,以便實現與調度用戶的信息溝通。在計量業務處理層中,通過設置業擴報裝子系統、對電能計量進行統一管理的計量子系統、對電能進行計費計算的收費或者計費系統、對用電信息進行電費管理的子系統、對用戶用電進行監控的用電監查子系統、對市場供求側進行管理和調度的市場與需求側子系統、對線纜運行和線損耗進行管理的線損管理子系統、對配電信息進行配電管理的配電GIS管理子系統、對獲取的用電數據信息進行總結的報表匯總子系統和系統管理子系統等模塊進而實現不同數據類型的處理[7]。在計量工作質量監控層中,其內至少設置有工作質量管理子系統,用于實現工作流程控制、業務稽查、統計報表、綜合查詢和工作評估,所述工作質量管理子系統至少包括采購管理模塊、生產管理模塊、工藝管理模塊和質量報表管理模塊。在計量調度層中,其內至少設置有綜合調度子系統,用于經營業績分析、管理業績分析、策略效益分析、客戶動態分析和市場策劃,所述綜合調度子系統至少包括對用電信息進行數據存儲、分析和管理的計算模塊、對已獲取的電力信息進行數據查重的數據查詢模塊、對電能計量進行策劃的方案策劃模塊、根據計算出的結果進行方案執行的方案執行模塊和對電力數據信息進行調度的信息管理模塊[8]。

圖2 計量生產管理平臺示意圖
2.2.1 大數據分類算法
以KNN算法為例,對電能計量生產調度平臺中數據庫的數據進行分類,該算法在應用過程中,首先要輸入數據信息,將輸入的數據信息與數據庫中設置的標準數據信息進行比較,搜索與標準數據庫中相對比較類似的前k個數據,根據距離關系的遠近,將其分類。具體步驟如下。
(1)將待測數據信息的樣本信息與設置好的標準數據信息之間進行比對,利用的距離公式為
(1)
式中,xk和yk分別為數據集合中的2個不同的點,n為數據的維數。
(2)按照距離的遞增關系進行排序。
(3)選取距離最小的k個訓練集數據,確定前k個點所在類別的出現頻率。
(4)聚類分析,將抽出的數據樣本進行聚類,得出k個聚類個數,分別為C1,C2,…,Ck;然后輸出k個子簇;將k個子簇分為小子簇,選取距離中心,抽樣數據中的不同點到所選取距離中心點的距離集合記作d={d1,d1,…,dn}。
(5)根據距離中心點的遠近進行分類,其中將
(2)
中的比例的倒數
(3)
作為距離權值,其中k個值中的類別T的
(4)
個數分別為C1,C2,…,Ck,計算加權后的個數中最大的值作為樣本數據的預測類別,通過這種方式實現數據的分類。
其中,k大于2,可根據用戶需要進行設置,k值設置不宜過大,也不宜過小。如果k太小,則會降低分類精度[9];如果k太大,則會增加噪聲,降低分類效果。
在進行距離計算時,還可以采用曼哈頓距離、歐氏距離和閔可夫斯基距離。其采用的計算式為
(5)
式中,當p=1時,稱為曼哈頓距離(Manhattan distance),當p=2時,稱為歐氏距離(Euclidean distance);當p趨向于∞時,式(5)稱為閔可夫斯基距離。
2.2.2 AdaBoost故障診斷算法
為了計算方便,下面分步驟進行說明。首先構建AdaBoost算法模型,然后利用該模型進行電能表計量數據故障診斷,具體分為以下幾個步驟。
(1)獲取訓練樣本,訓練弱分類器,通過訓練多個弱分類器,訓練強分類器,表示為
D1(w11,w12,…,w1N)
(6)
其中,
(7)
(2)迭代計算。計算出不同弱分類器分類的誤差,所計算出的誤差等于各個不同電力營銷大數據樣本的權重和,算法迭代的次數小于弱分類器的個數。
(3)迭代誤差計算[10]。迭代誤差Gm(x)在訓練集上的誤差率計算式為
(8)
(4)歸一化處理。獲取最優分類器之后,進一步地計算所選取的分類器的權重,接著再更新各個不同樣本的權重,再進行歸一化處理,然后計算Gm(x)的系數,am代表Gm(x)在訓練后的最終分類器中的關鍵程度,表示為
(9)
式中,em≤1/2時,am≥0。通過式(9)可看出,am與em成反比例關系,即誤差率越小,分類器在最終分類器中起到的作用越大。
(5)迭代判斷。判斷迭代次數是否等于閾值:如果與閾值相等,則完成迭代計算,最后的分類器則由迭代過程中所選擇的弱分類器經過線性加權得到的;如果迭代次數不等于閾值,則重新進行迭代計算。
這樣就構建出了AdaBoost算法模型,然后,再計算每個樣本的相對誤差。當選擇的電能表計量數據是線性誤差時,則利用式(10):
(10)
如果選擇的電能表計量數據是平方誤差時,則利用式(11):
(11)
如果選擇的電能表計量數據是指數誤差時,則利用式(12):
(12)
然后,再計算回歸誤差率:
(13)
通過上述算法模型能夠實現數據的故障診斷,有利于用戶及時發現故障并排除故障。
在試驗時,試驗硬件條件為Pentium(R),其中CPU為8 G內存,硬盤容量為160 G,軟件環境為WinXP+sp2或者Win2003+sp1,數據仿真界面為MATLAB界面。然后根據樣本類型選擇數據樣本進行試驗。試驗目的是將文中研究方案與文獻[5]、文獻[6]以及常規技術進行對比分析,以顯示文中研究技術的優越性。
下面以電能表計量裝置為例,以文獻[5]和文獻[6]方法作為實驗對比對象,通過平臺整體數據接收的反應能力來衡量不同平臺的工作效率,為了提高測量精度,分別測試10次,據此得到3種方法進行10次測試的耗時對比結果,如圖3所示。

圖3 檢測耗時對比示意圖
在圖3中,文獻[5]方法在10次檢測實驗中的總耗時為103 s,文獻[6]方法在10次檢測實驗中的總耗時為97 s,而文中研究的技術方案總耗時為49 s,約為2種對比方法的一半。因此,文中研究的方法大大提高了數據傳遞和處理速度,從而提升了計量生產管理平臺的工作效率。
在對具有算法的計量生產管理平臺進行驗證時,將未采用算法的計量生產管理平臺作為對比對象,同時也觀察文獻[5]、文獻[6]處理數據的能力。測試時間為10 min,所處理的數據類型分別為相同的100萬種電能計量數據類型,在處理數據完成性上來看,得出如圖4所示的對比曲線圖。

圖4 3種不同方法的對比曲線圖
通過圖4可以看出,在10 min內,常規方法處理數據的能力極其落后,文獻[5]和文獻[6]雖然利用了算法,但是效果不夠好,文中研究的方法不到1 min的時間內就完成了所有數據的處理,因此,通過人工智能的大數據算法有效地實現了數據處理。
下面在對數據處理的誤差程度進行對比。在上述10 min的數據處理過程中,觀察數據處理誤差,其中誤差的計算式為

(14)
通過這種方式,得出如圖5所示的誤差曲線圖。

圖5 誤差曲線對比示意圖
通過圖5可以看出,通過10 min的持續測試,發現設置文中研究算法的平臺處理數據的誤差低于2%,相對于文獻[5]、文獻[6]和未融合任何算法的常規計量生產管理平臺的誤差曲線隨著測試時間的延長,逐步增大,因此,融入文中算法誤差較低,數據處理能力較強。
文中研究通過構建分布式多層架構的計量生產管理平臺,將平臺劃分為數據層、訪問層、計算層和應用層等層次,在不同層次之間實現互助配合,實現電能計量的多功能處理,并在計量生產管理平臺中融入大數據處理算法實現多種數據的分類、故障診斷等多種處理。通過試驗,文中研究比常規技術具有突出的技術進步性,但是仍舊存在一些問題,比如數據傳遞、多數據共享時存在的干擾等,這需要進一步的探討與研究,為下一步對計量生產管理平臺的研究奠定技術基礎。