陳韓霏 張艷紅 張睿喆 江瓊宜 胡雅月



關鍵詞:數據治理;回歸分析;電網;認責體系
1引言
數據認責是數據治理的重要指標,能夠明確數據清洗、重復數據剔除等標準化處理中的責任認定問題[1],提高數據治理的可信度、安全性,便于后期的數據尋蹤、追責。但是,數據傳輸協議混亂[2]、端口兼容性差等問題,嚴重影響數據認責問題的研究。目前,數據認責主要采用人工數據認責方法[3],借助數據管理系統進行認責分析。該方式存在認責片面、數據標注不明等弊端,消耗大量的人力和物力,而且最終的認責效果不佳。基于此,本文利用回歸分析方法對電網中的數據認責問題進行分析,旨在實現電網數據的認責體系優化。
2回歸分析方法
回歸分析方法是基于統計學的智能分析方法,該方法通過尋找部分關鍵點,實現對數據認責體系的分析,并依據回歸結果得到認責的問題[4]。一旦回歸結果中出現異常系數,則要對該數據認責方案進行數據挖掘,找到出現數據認責問題的原因,并給予優化,具體分析如下。
認責方案的數學描述:隨機選擇數據認責方案[5],并將其設置為ai,數據治理結果為xi,標準化程度為,數據認責的權重為wi,標準化處理后的方案集合為set{o},治理數據結構為ci。那么,set{o}的計算過程為:
在數據認責過程中,要依據主觀評定系數調整權重、閾值。依據回歸分析方法,要對不同階段的數據認責結果進行分析,并形成連續的認責體現[7],有效地記錄數據認責的處理情況。
3回歸分析法在數據認責中的實施步驟
數據認責的關鍵是完整性、準確性和可追溯性,需要對數據治理方案進行抽樣調查,包括數據標準化處理程度、數據治理時間[8],數據治理安全性、數據完整性,以及數據兼容性。另外,依據回歸分析方法對數據認責中的異常值進行識別,并對不同時刻的異常值進行深入挖掘,找出數據認責問題的原因。同時,對不同數據標準化處理方案的重復性,數據清洗的干凈程度,重復數據剔除量進行回歸判斷,具體步驟如下。
步驟1收集電網后臺服務器中潮流、電壓、電能、功率的數據,確定數據治理的標準、指標和權重,并對標準化后的數據進行回歸分析,找出影響數據認責的問題。
步驟2依據數據認責的問題進行剖析,并對不同的問題進行深入挖掘,最終確定異常值的原因。
步驟3將主觀認責結果與理論認責結果進行對比,驗證結果的準確性,并記錄理論認責的時間[9]。
步驟4對所有標準化處理后的數據進行分析,并確定數據認責情況,若標準化數據全部處理完成,則停止認責分析,否則持續進行數據認責,并輸出最終的認責結果[10]。
4數據標準化建設中數據認責的實際案例
為了驗證回歸分析方法對數據認責的優化效果,以電網服務器中的1GB數據進行數據認責分析,調取數據的參數如表1所列。
依據表1中的數據類型、涉及內容、治理時間、標準化深度等參數之間無顯著差異,不具有相關性,可以作為回歸分析方法的基礎數據,能進行數據認責分析。其中,權重為0.25~0.34,閾值為各部門內部規定。
4.1數據認責的準確性
在數據認責中治理中,要對不同數據標準化的數據進行分析,驗證完整度、安全性和可信度的準確性,具體結果如表2所列。
由表2可知,回歸分析方法對數據認責的分析穩定性、準確性均大于80%,不同階段的同指標比較無顯著差異,不具有統計學意義。同時,完整度、安全性、可信度之間出現大幅變化,但不同階段的同指標變化幅度小,主要是不同指標的標準化處理條件不同,數據治理復雜度不同所致。為了進一步分析原因,將回歸分析法與人工數據認責法進行比較,結果如圖1所示。
由圖1可知,在參考線的輔助下可以發現,回歸分析方法的88%~90%的數據點多于人工認責法,而85%~88%之間的數據點少于人工認責法。整體來說,回歸分析法優于人工認責法,究其原因,回歸分析方法對重復數據進行刪除,注重安全性、完整性等指標的綜合分析,而且加入了權重、閾值,標準化后的數據復雜度小于人工數據認責法。
4.2數據認責的處理時間
處理日寸間是數據認責的輔助指標,是系統資源占用、數據處理能力的間接體現,更是回歸算法有效性的評價內容。將回歸分析算法與人工數據認責法進行分析,對比不同方法的計算時間,具體結果如表3所列。
由表3可知,在標準化處理中,回歸分析方法同指標的不同次數比較無顯著差異,說明該方法的處理時間比較穩定,而人工認責法存在顯著差異。在數據比例方面,回歸分析方法同指標的不同次數比較存在差異,但是成倍數變化,而人工認責法呈現指數化變化。在不同方法方面,回歸分析法的標準化處理、數據比例均優于人工認責法,存在顯著差異。究其原因,回歸分析方法以少量特征認責數據為基礎,對標準化后的數據復雜度進行簡化,剔除重復數據量。同時,通過調整相應的閾值和權重,以優化數據認責過程,實現安全性、可信度的高效處理。相對來說,人工評估方法的處理過程簡單,人工認責無法降低復雜度,而且剔除重復數據量的時間更長。
5結束語
針對數據標準化處理過程中數據認責不清、時間過長的問題,本文提出一種回歸分析方法,對標準化處理后的數據進行剔除、簡化。研究結果顯示,回歸分析方法的可信度、安全性和完整性的準確性大于80%,1~2次標準化處理的數據間無差異,50%~100%的數據量之間存在倍數增加,各項指標均優于人工數據認責法。而且,回歸分析方法的計算時間更短,計算效果更佳,可以滿足數據治理中的標準化分析要求。