方燕瓊 唐升衛 顧博川 代仕勇 葉向前
(1. 廣東電科院能源技術有限責任公司 廣州 510080;2. 廣東電網有限責任公司電力科學研究院 廣州 510080)
“十二五”以來,電網公司大力推進生產域信息化和智能化建設,目前已經建設并推廣了一批信息化系統,涵蓋了生產運營的多業務域。但數據分散在各個系統中,沒有得到有效的融合,無法進行多層次多維度的分析、預警和可視化的展現。隨著業務系統增加,系統規模增大,產生的數據呈現指數增長,數據結構和類型也多樣化和復雜化。數據量由每個城市每天的MB級增加到GB/TB甚至PB級,種類也由原來的單純結構數據變化到結構化、非結構化數據,由簡單的一個維度或者少數維度到集視頻、拓撲結構、數值、地圖等多維多源,主要特征包括:① 數據采集點多,每個采集點采集相對固定類別的數據,且分布在各個電壓等級內;② 不同采集點的采樣尺度不同,數據斷面不同;③ 數據不健全,數據采集存在誤差和漏傳;④ 不同業務數據分布在不同的應用系統中。為充分挖掘數據價值,支撐電網的規劃、建設、運營、改造、用戶接入等,提高供電可靠性,開展電力系統多業務系統的數據融合技術研究至關重要。
數據融合技術能夠綜合多個數據源提供的互補和冗余數據,獲得觀測對象更全面、更準確的數據,從而得到準確、快捷的決策和判斷[1]。同時,數據融合技術擴展了具體模型確定范圍,對目標或事件的確認增加了可信度,減少了信息的模糊性,改善了系統的可靠性[2]。國內外大數據多源信息融合技術逐漸發展和成熟,且所含技術領域寬廣,如智能電網[3-5]、國防、設備監測、環境保護、交通等都有涉及和應用。多源數據融合方法主要有卡爾曼濾波法[6-8]、貝葉斯(Bayes)推理法[9-12]、D-S 證據推理法[13]、聚類分析法[14-15]、神經網絡法[16]等。而基于大數據技術的數據融合技術也在電網中得到了應用,如文獻[17-18]提出基于大數據技術的數據融合技術在新能源接入、安全狀態評估和故障預警等領域的應用;文獻[19-21]利用多源數據融合技術實現電力系統故障診斷,提高預測準確率;文獻[22]在數據環境惡劣的情況下基于D-S 證據融合理論實現電力系統狀態估計;文獻[23-25]提出基于時間序列分析和灰色神經網絡學習等大數據技術,實現電網設備的異常數據的實時監測及預測。
上述數據融合技術研究僅針對數據融合中單一環節、單一情況的數據融合,而在實際電力系統建設中,往往是要考慮整個數據融合的過程,包括從數據抽取、數據校驗和多源融合。基于此,本研究將從數據融合全過程著手,系統研究數據結構不統一的數據抽取與多源融合兩個子過程,提出基于二進制位缺失標識和改進D-S 證據理論的數據融合技術。
在電力系統中,數據融合的主要工作就是對從傳感器設備、其他電力系統獲取的數據進行處理,存儲在數據中心供應用層可視化展示給用戶,主要包括數據抽取,數據抽取后的數據校驗,以及對校驗過后的數據進行多源融合。系統架構見圖1。

圖1 系統架構圖
在電力系統數據集成融合時,需要從多源系統或多傳感器中抽取數據,在數據抽取過程中容易出現數據遺漏、數據不完整的問題。本研究提出了基于二進制位的數據缺失標識方法(簡稱01 標識法)對缺失數據進行標識,在數據補全或補抄后用于數據融合過程中的數據校驗和多源融合。
數據缺失標識方法利用數值類型32/64 位特點,以每一位代表一個時間點,以二進制結果表示是否缺失實現對數據缺失的標識,數據缺失標識分為2 個環節。
(1) 設置存儲空間。在數據庫系統或文件系統中開辟一個固定存儲空間,用于標識數據的存儲。
(2) 設置缺失標識。不同采集頻率使用選擇不同的類型(long、int、short、byte)作為缺失標識字段類型。以1~2 min/次(不包含1、2,下同)的頻率,選用date(yyyy-mm-dd)+byte(1-24)+long;以2~12 min /次的頻率,選用date(yyyy-mm-dd)+byte(1-24)+ int;以12~60 min/次的頻率,選用date(yyyy- mm-dd)+long,以1~24 min/次的頻率,選用date(yyyy-mm-dd)+int,以日為單位采集則使用short(表示年)+int。其標識字段中以每一位二進制位代表一個時間點,以二進制01 值表示該位代表的時間點是否存在遺漏數據,最高位0 表示沒有遺漏數據,最高位為1 表示存在遺漏,使用中判斷數據是否小于0 即可。
以每日一次采集頻率為例,使用int 類型(32 位二進制)作為標識,而日期中每個月最多31 天,最多占用其中的31 位,最高位用來判斷該月是否存在數據缺失。當最高位為1,整個int 的屬性值小于0(int最高位為符號位,為1 時表示負數,為0 時表示非負數),否則大于等于0。另外,第1 位到第31 位(由最低位開始,下同),分別表示1 日到31 日,第1位為0 表示1 日數據未采集,第2 位為0 表示2 日數據未采集,以此類推,如圖2 所示。

圖2 二進制位缺失標識(以每日一次采集頻率為例)
根據數據缺失標識方法,數據抽取過程及缺失數據標識處理過程可劃分為以下3 個環節。
(1) 數據抽取時,首先取出t時刻所在年份標識記錄中月份mt對應的字段值ft(mt標識t時刻所在的月份)。
(2) 判斷當月數據缺失,出現缺失,進行缺失數據抽取請求獲取數據。假設抽取t時刻對象A 的數據,應進行步驟1)、2)。
1) 判斷ft是否小于0,假若ft<0,表示存在數據缺失,則利用p1=ft&(1 ?0),p2=ft&(1 ?1),…,p31=ft&(1 ?30)進行判斷,pi(i=1,…,31)中等于0的表示該日期對應數據缺失,不小于0 表示日期對應數據已經錄入,對其中小于0 的數據進行補抄,判斷時間忽略不計(位運算百萬次使用的時間小于10 ms)。數據補抄成功后,將dt日對應位的值置為1,運算公式為ft’=ft|(1 ?(dt-1))。
2) 若mt月數據全部補全完成,則將mt的最高位的值置為0,運算式為ftnew’=ft’|(1 ?31)。
(3) 同步實時數據,如數據正常獲取,將dt日對應位置的值置為1,公式為ft’=ft|(1 ?dt-1),如圖3 所示,如出現某對象數據缺失,則將ft的第dt位的值置為0,并將最高位的值置為1,ft’=ft&(~(1 ?(dt-1)))|(1 ?31),如圖4 所示。

圖3 正常數據標識示意圖

圖4 缺失數據標識示意圖
系統中的數據從數據源抽取并進行補全/補抄處理后,還需要多數據進一步融合才能進行有效的關聯展示。而在數據融合中,因數據通常來自不同的系統,往往沒有辦法直接關聯,此時需要通過某個特定特征進行處理融合。本研究考慮對象屬性數據類型和特征頻度,提出基于改進D-S 證據理論的數據融合技術,用以實現針對不同的數據類型進行高效準確的融合處理。
2.3.1 字符類型
字符類型的數據,數據融合中經常會遇到同一對象不同的名稱(如A 系統饋線資料數據中饋線的以F25 風度線表示,B 系統故障數據中饋線名稱以“F25 10 kV 風度線”甚至“董塘站F25 10 kV 風度線”等表示),此時需要對字符進行處理,提取專用詞進行對比。首先利用全數據生成正則表達式,再利用正則表達式提取專用詞,然后對比專用詞,相同即關聯,否則再根據置信度進行關聯。具體操作步驟如下(舉例中以“饋線”為例)。
(1) 首先建立專用名詞詞典、常用名詞詞典、人名詞典等(如所有饋線的簡稱,“F25 風度線”保存“風度”即可)。
(2) 對無法直接關聯的數據,根據相同屬性去重,生成全數據文件(如 “F25 風度線”、“F25 10 kV風度線”、“董塘站F25 10 kV 風度線”等)。
(3) 使用基于用戶詞典的雙向最大匹配法對數據文件進行分詞,去掉重復分詞結果,生成分詞后的文件。
(4) 提取分詞后的文件,去掉專用名詞詞典中的詞,根據每個類型生成一個特定正則式(饋線關聯的匹配正則式)如下所示
“(F)|( )|(\d+)|(KV|kV)|(\d+#)|(#+\d)|(\d+號)|(線)”+|(A|B|C|D|E|K|k)|(I|V|X)|(Ⅰ|Ⅱ|Ⅲ|Ⅳ)|((Ⅰ|Ⅱ|Ⅲ|Ⅳ)+回)|” + “(甲|乙|丙|丁|戊)|((\(.*\)))|(\S+站)”)。
(5) 對需要關聯的數據相同屬性利用特定正則式提取專用詞(提取后都為“風度”),進行匹配,若提取后內容一致,則為同一對象的不同數據(風度線的資料數據、故障數據),完成融合,如果不匹配,則進入步驟(6)。
(6) 不匹配的數據,則對提取后的字符進行全名詞匹配,若提取后的詞都存在,則表示不為同一對象,完成處理,若其中至少一個不存在,則利用置信度進行判斷,置信度達到設定的閾值即為同一對象(例如“坪石電廠”和“坪B 電廠”,提取后分別為“坪石”、“坪B”,因“坪B”是一個舊稱,故全名詞匹配時不成功,則進行置信度計算,因“坪石”和“坪B”有“坪”相同,置信度為0.5,若閾值≤0.5 則是同一對象)。
(7) 在詞典中的名詞,若頻率高于閾值,則自動增加到詞典中。
上述步驟中,步驟(1)~(4)只需要在數據集成時做一次處理,每次數據同步時利用步驟(5)~(7)即可,流程圖如圖5 所示。

圖5 字符數據處理流程
2.3.2 數值類型
針對數據實際類型為數值,但保存并非數值類型的數據,先去掉數據中非數值字符,然后提取規則,對規則計算概率(置信度),對于單一來源,選擇置信度最高的即可,針對多來源,選擇使用D-S證據推理法求得。
(1) 去掉數據中非數值字符(如“@”、“#”、“”等),替換數據的數字,用“#”替代,形成字符規則,統計每個規則出現數量和頻度。
(2) 判斷數據來源,如果是單一來源,直接根據頻度,選擇頻度最高的規則作為實際規則,若是多來源,則使用最大概率加權D-S 證據推理法求得最佳規則,形成規則替換正則式,將所有其他規則數據替換為推導出來的規則數據。最大概率加權D-S 證據推理法推導過程如下。
1) 定義U為多源數據中所有數據規則的完備集合,m(A)為規則A的基本概率賦值,如果m1,m2,…,mk是2U上n個獨立焦元A1,A2,…,An的基本概率賦值。
2) 根據每個數據源中數據出現的總數確定權值wj=Tj/(T1+T2+…+Tk),其中Tj表示第j個數據源中數據的總數量,k為數據源的數量。

替換后的統一規則,若規則為單純數值,則完成;若是四則運算表達式,則根據規則再生成專用四則運算正則式進行替換運算,運算出來為空的則直接使用默認值-1。
本研究選取某饋線下某臺區某個用戶表計計量數據作為測試數據,時間為2017 年9 月到2019 年9 月,采集頻率為1 日/次。應用實例使用程序抽取數據模擬數據同步過程,數據缺失標識記錄設計為“測量點ID+年+標識”,當標識小于0 表示存在數據缺失。2017 年9 月到2019 年9 月完整數據記錄為760 條,實際數據記錄為681 條,缺失79 條記錄。識別結果見表1。

表1 識別結果表
對比直接使用測量點ID+缺失時間標識的方法、測量點ID+加缺失時間標識+是否缺失標識的方法。選擇25 個月數據進行對比試驗,表2 為三種缺失標識方法數據總大小、平均每次大小和識別時間,使用Java 程序進行對比試驗,運算結果為所有25個月的平均值(運算1 000 次的平均值)。由表2 運算對比可見,本研究提出的基于二進制位缺失標識的數據抽取技術在相同精確度的前提下,識別時間上雖比加缺失時間標識的方法稍長,但在內存占用上可減少50%以上,特別是在大數據量中優勢會更加明顯。

表2 識別對比結果表
以某地市GIS 數據源中的變電站信息與營銷系統中的變電站信息為例,其中GIS 中變電站共128個,營銷系統中變電站共143 個,以營銷系統中變電站為目標進行匹配,結果見表3。以GIS 中變電站為目標進行匹配,結果見表4。

表3 以營銷系統中變電站為目標匹配結果表

表4 GIS 中變電站為目標匹配結果表
由表3、4 可見,基于正則規則的匹配更加穩定,匹配度更高(達85%),效率在可接受的1 s 內。尤其實時計算中大多都是50條甚至10 條以內數據匹配,效率差距在40 ms 以內甚至更少,可忽略不計。而在大數據量運算中,使用離線運算,解決正則規則匹配的效率相對較低的問題。
3.2.2 數值類型
利用改進的D-S 證據推理法可以降低因部分數據源小數據量數據源數據高概率事件的偏向問題,算法效果見表5、表6(試驗中的實際數據保存為分子/分母,因各數據源系統中存儲時沒有有效的驗證,導致出現多種存儲方式)。

表5 數據源權重系數

表6 數據源基本概率
辨識框架:Θ={#/#,#月#日,#-#,May-#,Jan-#}
基本概率:m(A)=CA/S,其中CA表示A 在樣本X 中出現的次數,S表示樣本總數量。
歸一化常數為
K=0.622×0.368×0.074×0.227×0.727+0.109×0.342×0.106×0.228×0.121+0.246×0.206×0.647×0.289×0.035+0.017×0.004×0.036×0.182×0.117+0.006×0.080×0.137×0.074×0.035=0.003 236 191 183 891 999。
mass 函 數 設 計:m(A)=m1⊕m2⊕m3⊕m4(A)=1/K×m1(A)×m2(A)×m3(A)×m4(A)×Wmax,其 中mn(A)為A在樣本n的基本概率,Wmax為A在n樣本中概率最大的樣本對應的權重。得到各規則的識別度為
(1) “#/#”的mass 函數(識別度):m(#/#)=0.622×0.368×0.074×0.227×0.727/K=0.863 7。
(2) “#月#日”的mass 函數(識別度):m(#月#日)= 0.109×0.342×0.106×0.228×0.121/K=0.033 7。
(3) “#-#”的mass 函數(識別度):m(#-#)= 0.246×0.206×0.647×0.289×0.035/K=0.102 5。
(4) “May-#” mass 函數(的識別度):m(May-#)=0.017×0.004×0.036×0.182×0.117/K=0。
(5) “Jan-#” mass 函數(的識別度):m(Jan-#)=0.006×0.080×0.137×0.074×0.035/K=0.000 1。
由表7 可判斷數據規則為“#/#”,再利用正則替換,將所有“#月#日”、“#-#”、“May-#”、“Jan-#”規則的數據替換為“#/#”規則。

表7 推理結果對比表
根據基于改進D-S 證據推理理論的數據融合技術靈活利用了基于詞典的分詞技術在關鍵詞提取、正則式數據匹配高效性、D-S 證據推理法多源數據融合的優勢,又避免了單純分詞低效、單純正則式生成繁瑣、單純D-S 證據推理法的不穩定性和對基本概率分配函數的敏感性以及小數據量數據源數據高概率事件的偏向問題。
針對電力信息化建設過程的數據融合問題,本研究提出基于二進制位缺失標識與改進D-S 證據理論的數據融合技術,尤其在配用電系統中優勢更為顯著,這對現階段電力系統數據處理有實質性的提升,主要體現在數據缺失標識減少50%的內存以上、字符型的數據融合匹配準確性達85%以上等方面。
(1) 本研究所構建的基于二進制位缺失標識與改進D-S 證據理論的數據融合技術,在數據抽取過程中的缺失標識,其數據采集頻率越大,特別是采集頻率在15 min/次及以上,占用的內存越小,運算越快。
(2) 基于改進D-S 證據理論的數據融合技術在字符類型數據融合時,數據文件非重復數據越多、詞典覆蓋面越廣、相同類型的重名名詞越小,得到的匹配式越精確,匹配效果越好。
(3) 基于改進D-S 證據理論的數據融合技術在數值類型數據融合時,樣本越多,各樣本中接近真實值的數據量越大,其結果約準確。因使用的是樣本數據量大小作為權重,存在大數據量數據源數據高概率事件的偏向問題。
基于二進制位缺失標識與改進D-S 證據理論的數據融合技術當前在縣域智能配電網建設過程中已得到了初步應用。注意到由于智能配電網數據的多樣化和復雜性,基于二進制位缺失標識與改進D-S證據理論的數據融合技術在數據融合的通用性上有所欠缺,下一步將繼續深化本研究方法的泛化適用性研究。