徐敏
(云南電網有限責任公司,云南昆明 650217)
數字南方電網作為一家大型商業公司,擁有大量核心商業機密和國家安全機密的數據,同時也有許多敏感數據,包括用戶個人信息、位置以及一些重要設備名稱等[1]。如果沒有采取有效的保護措施,會導致這些重要的機密數據丟失或被破壞,不僅會給企業造成無法估量的嚴重后果,而且還會影響企業的良好形象[2]。伴隨著智能電網的迅速發展,對敏感數據的保護要求也越來越高,如何在數據交換、共享和使用過程中精確定位、充分脫敏,是當前實現數據安全使用的關鍵性問題。就當前存在的問題,有文獻提出采用傳統的“煙囪式”架構搭建數據的中間庫,但是該數據中間庫在數據使用監管方面存在薄弱點,對數據脫敏存在數據安全隱患;大數據使用面向HBase 的脫敏技術,并結合權限算法完成脫敏任務[3]。然而該方法計算步驟復雜,需要耗費大量時間,大大降低了電力數據的傳輸速率,大數據脫敏效果較差。綜上所述,提出了基于K-means 聚類的電力大數據脫敏技術研究。該技術結合K-means 聚類算法檢測異常電力大數據,實現數據高效脫敏。
采用目標函數最小化的方法,在初始聚類點處進行迭代選擇,對K-means 算法進行優化,達到局部最優聚類效果。在采用K-means 算法聚類時,要根據不同的聚類對象選擇組合,需要多次選擇不同的聚類對象,并據此進行聚類運算[4]。
在K-means 聚類分析結果的基礎上,對異常大數據進行檢測與計算,通過對電力系統大數據進行聚類,確定聚類中心的位置,比較各數據點到聚類中心的距離,判斷各數據點是否存在異常[5-7]。
假定在初始數據集中有樣本數據,執行K-means聚類算法,樣本數據的特征數據屬性為整數[8]。基于樣本數據的特征屬性,整個K-means 聚類過程產生聚類中心距離的平方和,公式為:
式(1)中,Aj表示第j個數據的中心點;Bi表示第i個聚類中心;λij表示聚類系數[9]。
基于計算得到的聚類中心距離平方和目標函數極值,將K-means 聚類算法應用于電力大數據異常檢測中,應用流程如圖1 所示。
在檢測過程中,首先要確定原始文本數據,然后隨機選取聚類中心,最后用K-means聚類算法進行數值計算[10]。如果這個值是常數,說明聚類算法在迭代過程中并不是最優的,需要通過更新聚類中心來重復迭代過程[11]。K-means 聚類結果如圖2 所示。

圖2 K-means聚類結果
由圖2 可知,依據K-means 聚類分簇結果,對電力大數據進行分類處理,以此進行異常數據檢測[12]。
根據上述檢測結果,構建脫敏系統,通過該系統實現數據高效脫敏。
電力大數據脫敏系統由四個層次構成。該系統分別通過各個層次的計算與存儲,發現敏感數據并對其進行脫敏處理,滿足終端用戶需求。
1)資源層:為系統提供計算、存儲等基本的物理資源,包括網絡資源,用于數據脫敏服務[13]。
2)數據層:負責對所有數據進行操作管理和安全管理,其中包括知識庫、規則庫和權限庫,利用機器學習形成模型庫對不同數據進行排除、管理的規則化脫敏策略,支持對敏感數據的權限管理[14]。
3)服務層:作為核心服務層,可提供數據脫敏引擎、規則化引擎和服務器引擎的支持,可發現結構復雜、較大的敏感數據,并完成這些數據的脫敏操作。
4)應用層:負責將數據庫、文件和多媒體脫敏按數據類型提供給終端用戶,可根據業務需要,分為靜態脫敏、動態脫敏,以滿足不同測試和研發過程的需要。
在脫敏系統上的電力大數據脫敏步驟如下所示:
步驟一:敏感配置信息導入。根據具體的接口信息需求,將元數據管理系統接口在數據脫敏系統中提取預留,方便敏感配置信息的輸入[15]。
步驟二:敏感數據識別。識別全部數據,從中選擇用戶想要訪問的信息,并對信息內容進行詳細分析。依據識別格式,結合處理技術,識別出敏感數據。
步驟三:敏感數據判斷。基于數據脫敏配置方法,在業務應用調用各種數據時,應根據業務用戶的數據進行權限和數據敏感性檢查,并判斷敏感數據的脫敏程度。如果用戶權限或數據觸發脫敏處理中敏感程度越高,則數據脫敏程度越低;如果用戶權限或數據敏感性較低,則觸發程度越高;如果未觸發數據解密過程,則數據直接呈現給業務用戶[16-17]。
步驟四:脫敏服務運行。針對脫敏服務,需從靜態和動態兩種方式展開,如下所示:
1)靜態數據脫敏
根據執行策略,通過脫敏程序對低權限個體訪問的敏感數據進行脫敏處理。靜態數據脫敏機制如圖3 所示。

圖3 靜態數據脫敏機制
從圖3 可以看出,儲存同一個數據庫中全部脫敏靜態數據,按不同權限級別對用戶訪問數據內容進行劃分。與分離組件相結合,獲得不同用戶的訪問請求,根據請求對敏感數據進行分類。高權限用戶可以獲得原始版本數據;低權限用戶只能獲得敏感版本數據。
2)動態數據脫敏
結合替代查詢功能的代理數據庫實現動態數據脫敏,對代理數據庫查詢語句進行自動識別,重新寫入這些敏感字段,轉換為不包含敏感字段的語句。向代理數據庫傳遞轉換結果,對查詢結果進行重新計算和修改,最終按所需的統一格式打包發送給用戶,完成敏感信息的處理,圖4 為動態數據脫敏機制。

圖4 動態數據脫敏機制
從圖4 可以看出,脫敏系統中的響應改寫模塊和請求改寫模塊作為數據容器出口,對用戶與服務器之間所有數據的請求和響應進行檢測和處理,或者應用程序代碼,無需更改數據存儲,從而實現代理機制。
使用Linux 操作系統,研究基于K-means 聚類的電力大數據脫敏技術的合理性,并進行試驗驗證分析。
數字南方電網以公司發展戰略為引領,以穩定、靈活的一體化數字平臺為核心,構建以數據驅動的業務運作、管控和決策體系,一體化數字平臺如圖5所示。

圖5 一體化數字平臺
該公司為全面開展數據資產運營,推進數據供給,實現數據供給側和數據需求側對接。目前該公司xx 部門利用生產庫ADG 為原始數據端,通過OGGDSGDBLINK 等不同的方式抽取同步到下游自建“中間庫”,為應用開發測試提供數據服務。同一個源頭數據庫中存在多個中間庫,這些中間庫分別由所服務的項目組進行維護,在數據集成、應用方面實現統一的管理。然而,由于中間庫服務結束后,沒有后續管理,如果項目組未能及時申報退運相關中間庫,則中間庫的軟、硬件資源不能回收,其中所承載的業務數據不能及時清除、銷毀。
分別使用基于“煙囪式”架構脫敏技術、面向HBase 的大數據脫敏技術和基于K-means 聚類脫敏技術,對電力大數據進行脫敏處理,處理結果如圖6所示。

圖6 三種技術脫敏處理結果
由圖6 可知,使用基于“煙囪式”架構脫敏技術無法有效保護電力用戶的身份信息安全,身份證大部分數據已暴露;使用面向HBase 的大數據脫敏技術,用戶部分姓名完全暴露,身份數據部分暴露;使用基于K-means 聚類脫敏技術,用戶姓名和身份證號均能被脫敏處理,有效保證了用戶身份信息安全。
分別使用三種技術分析大數據安全性,對比結果如表1 所示。
由表1 可知,使用基于“煙囪式”架構脫敏技術和面向HBase 的大數據脫敏技術無法保證用戶身份信息安全,而使用基于K-means 聚類脫敏技術能夠使電力大數據高效脫敏,保證用戶身份安全。

表1 三種技術大數據安全性對比分析
該文將提出的基于K-means 聚類的電力大數據脫敏技術應用于數字南方電網。該技術能夠保障用戶之間數據透明,確保業務緊密關聯,實現一個平臺上多數據源脫敏服務。在當今大數據時代,數據脫敏是企業進行數字治理所必需的一種安全機制。隨著數據脫敏技術的不斷發展,應以更高的精確度、最細的粒度以及更好的可用性來面對用戶。同時,大數據脫敏技術還需要具備更高的自動化能力,能夠進行良好的呈現,具有較強的擴展性,以適應未來用戶對多領域數據交換、共享與整合需求。