



摘 要:提出了一種基于集成學習技術的入侵數據檢測方法,并使用焦點損失函數處理數據不平衡,提高數據篡改分類能力,并利用隨機森林、深度學習、支持向量機與本文所提出方法進行性能比較。結果表明,當迭代次數大于80時,4種模型的收斂速度開始增加,并最終在迭代次數為140,趨于收斂。其中模型收斂的速度分別為深度學習gt;集成學習技術gt;隨機森林gt;支持向量機。集成學習技術方法實現了95.83%的準確率,92.46%的精度,97.47%的召回率和94.90%的F1得分。相對于隨機森林模型,集成學習技術方法在F1分數方面提高了約1.63%。集成學習技術的訓練時間及檢測時間分別為12、26 ms,均小于其他方法。
關鍵詞:電力系統;數據篡改;檢測;識別技術
中圖分類號:TP274 + .4TP391 文獻標識碼:A 文章編號:1001-5922(2024)11-0143-04
Identification of business system intrusion and datatampering attacks based on integrated learning technology
ZHANG Wenming
(State Grid Zhejiang Electric Power Co.,Ltd.,Pujiang County Power Supply Company,Pujiang 322299,Zhejiang China)
Abstract: In this paper,an intrusion data detection method based on ensemble learning technology was proposed,and the focus loss function was used to deal with the data imbalance,improve the data tampering classification abili?ty,and the performance of random forest,deep learning and support vector machine was compared with the pro?posed method. The experimental results showed that when the number of iterations was greater than 80,the conver?gence speed of the four models began to increase,and eventually tend to converge at an iteration number of 140.The speed of model convergence was as follows:deep learninggt;ensemble learning technologygt;random forestgt;sup?port vector machine. The integrated learning technology method achieved an accuracy of 95.83%,an accuracy of92.46%,a recall rate of 97.47%,and an F1 score of 94.90%. Compared to the random forest model,the ensemblelearning technology method improved F1 scores by approximately 1.63%. The training time and detection time of in?tegrated learning technology were 12 ms and 26 ms respectively,which were smaller than those of other methods.
Keywords: power marketing system;data tampering;detection;Identification technology
與傳統的檢測方法相比,集成學習技術可以有效識別電力營銷系統復雜的訓練數據結構 [1] ,并且可以很好地擴展到大型數據集,解決電力營銷系統難以處理入侵數據多樣性的困難。而焦點損失函數可以處理高度不平衡的入侵篡改數據檢測數據集 [2] ,使模型能夠優先處理難以分類的樣本,有助于緩解數據不平衡的問題,并提高模型準確分類正樣本和負樣本的能力。基于此,本文通過建立集成學習技術模型,進一步檢測電力營銷系統的入侵數據篡改攻擊。
1 入侵數據篡改攻擊檢測模型建模
1. 1 電力營銷系統狀態估計
狀態估計是維持電力營銷系統穩定性和效率的關鍵機制 [3] 。物理層的測量數據(如輸電預測、電力營銷和用電價格制定)由系統自動采集。將收集到的數據發送到電力營銷系統網絡層的控制中心 [4] 。控制中心根據接收到的數據估計電力系統的狀態,檢測突發入侵數據事件的可能性,并向物理層的遠程終端單元(RTU)發送相應的控制信號,從而確保電力營銷系統的可靠運行,完成物理電網的閉環控制。
隨著越來越多的電力營銷系統網絡層漏洞被發現,多種類型的數據篡改攻擊被證實具有潛在入侵電力營銷系統的能力 [6] 。然而,傳統的數據篡改攻擊檢測機制只能檢測某一類篡改攻擊,從而限制了檢測范圍。
1. 2 集成學習技術的攻擊檢測模型
隨著數據篡改攻擊研究的不斷深入,數據篡改攻擊的定義也得到了進一步擴展。從廣義上講入侵數據篡改攻擊可能發生在電力營銷系統中的各個抽象層,攻擊者可能針對監測、控制和保護裝置發起篡改攻擊,從而破壞電力營銷系統或與之相關的應用,如發電預測、狀態估計、經濟營銷調度和能量交易等 [7] 。
因此,在設計入侵數據篡改攻擊檢測模型時,應考慮對不同類型入侵數據篡改攻擊的檢測。
本文采用集成學習技術來檢測營銷系統的不同類型入侵數據篡改攻擊。當入侵數據篡改攻擊發生時,往往伴隨著物理層電力系統設備的故障在短時間內發生 [8] 。因此,當電力系統發生暫態過程時,測量數據的特征與數據篡改攻擊發生時的特征極為相似。為了準確區分故障和數據篡改攻擊,在設計該模型時還特別考慮了電力營銷系統故障的檢測 [9] 。為了反映輸入數據與檢測結果之間的關系,數據篡改攻擊檢測模型采用多分類集合分類器。對于多分類任務,設定原始數據集為 D ,數據集中有 j 個樣本,數據集的維數為 n ,則數據集 D 可用式(6)表示:如式(7)所示,數據篡改攻擊中 type1 、 type2 和type3 分別為數據增加攻擊、數據減少攻擊和數據破壞攻擊。本文提出的集成學習技術擴大了篡改攻擊檢測的范圍。且可以區分篡改攻擊是否有效地侵入電力營銷系統。當瞬態過程發生在物理層時,可以準確地檢測到特定類型的篡改攻擊 [10-11] 。
對于3種不同的篡改攻擊,由于每次攻擊概率不同,最終檢測概率和誤報概率也不同。并非所有攻擊都一定會同時發起攻擊。參考3種不同的攻擊類型,可以得到3個篡改攻擊的檢測概率和誤報概率。對于電力營銷系統, p Hd表示檢測概率, p Hf代表誤報概率,2個概率分別為:
1. 3 損失函數
焦點損失函數最初被提出用于具有高度不平衡數據集的目標檢測任務。在本文中,可以被應用于處理高度不平衡的入侵篡改數據檢測數據集 [12] 。焦點損失函數調整正樣本和負樣本的權重,使模型能夠優先處理難以分類的樣本,有助于緩解數據不平衡的問題,并提高模型準確分類正樣本和負樣本的能力。如果模型的檢測精度不能滿足電力營銷系統的要求,則不利于及時處理攻擊引起的故障。當篡改攻擊發生時,物理層的營銷數據往往包含異常分布的數據,這些異常數據樣本很難通過系統分類器進行分類。為了處理難分類樣本,利用焦點損失函數改進電力營銷系統分類器,為難分類的數據樣本賦予更高的權重 [13] 。
對于傳統的電力營銷系統分類器,多分類損失函數是交叉熵損失函數。如式(12)所示,
式中: p i 表示數據樣本容易分類的概率; y i 表示數據的實際標簽; T 表示類別數。而多分類損失函數迭代效率低,無法在數據量大的情況下檢測到入侵篡改攻擊。而本文利用焦點損失函數可以提高電力營銷系統分類器的檢測分類效率,焦點損失函數如式(13)所示:在焦點損失函數的迭代過程中,當數據樣本被錯誤分類時, p i 的值很小,調節因子( 1-p i )近似等于1,并且損失不受影響。當數據樣本易于分類時,調節因子( 1-p i )近似等于0,因此易于分類樣本的權重會降低。參數 γ 可以調整較低權重的比例,調節因子的作用可以通過增加參數γ來增強。基于上述分析,焦點損失函數降低了容易分類樣本的權重,增加了難分類樣本的權重。因此,電力營銷系統分類器在訓練分類器時更加關注難分類樣本,進一步提高數據篡改的檢測精度。
2 結果與討論
2. 1 實驗環境和數據集
本文使用的實驗硬件環境配備了英特爾酷睿i5-10300H 64位處理器、16 GB 內存和GTX1660Ti顯卡。實驗平臺采用TensorFlow 2.2.0和Keras 2.3.1框架,并使用Python 3.7進行編碼實現。輸入到模型中的采樣時間步長設置為10。學習率設置為 0.01。且為了進一步突出本文所提出的集成學習技術的檢測模型對篡改數據的檢測性能,與深度學習、支持向量機、隨機森林模型進行比較。
NSL-KDD數據集是入侵數據篡改檢測研究中常用的數據集,刪除了重復和冗余記錄。該數據集包含正常和異常數據,分為訓練子集和測試子集。訓練集包含125 973個樣本,測試集包含22 543個樣本。
入侵數據篡改攻擊的評價指標有4個,分別為準確率、精度、召回率和F1分數。其的計算公式如下所示:
式中:TP代表準確識別為具有攻擊樣本的數量;FP表示為具有攻擊的正常樣本的數量;TN代表準確識別為沒有攻擊的正常樣本數量;FN代表沒有攻擊的樣本數量。但是,由于精確度和召回率經常相互沖突,因此本研究采用精度和F1分數作為主要評價標準。準確率和F1分數的值越大,模型的性能就越好。
此外,本研究還增加了模型訓練時間這一指標,以評估模型訓練的速度。
2. 2 模型損失
圖1為4種模型檢測方法的測試損耗變化。
由圖1可知,隨著迭代次數的增加,上述 4種模型的整體損失逐漸減少并最終在迭代次數(epochs)140時穩定。當迭代次數小于40時,集成學習技術、隨機森林、支持向量機的模型損失差別較小,平均值為2.4%。而深度學習在迭代次數40時,已逐漸趨于收斂。當迭代次數大于80時,4種模型的收斂速度開始增加,并最終在迭代次數為140,趨于收斂。同時可觀察到,4種模型的最小損失分別為0.1%、0.2%、0.3%、0.35%。結果表明,集成學習技術可以更準確地識別數據篡改樣本。
2. 3 檢測性能變化研究
在模型訓練期間,訓練迭代的次數會極大地影響模型的準確性。較少的訓練迭代可能會導致模型收斂不足,而更多的訓練迭代可能會導致過度擬合,將模型迭代次數設定為140。表1為 比較 4種模型對電力營銷系統中篡改數據的檢測性能,包括準確率、精度、召回率和 F 1 分數。
由表4可知,通過比較 4種檢測模型對數據篡改的檢測性能,可以得出本文提出的集成學習技術方法在入侵篡改數據攻擊檢測方面具有最佳性能。集成學習技術方法實現了95.83%的準確率,92.46%的精度,97.47%的召回率和94.90%的F1得分。相對于隨機森林模型,集成學習技術方法在F1分數方面提高了約1.63%。在召回率方面提高了約2.19%。
2. 4 平均檢測時間及訓練時間變化
為進一步突出集成學習技術的入侵檢測性能,研究 4種模型的平均檢測時間及訓練時間變化,實驗結果如圖2所示。
由圖2可知,集成學習技術的訓練時間及檢測時間分別為12、26 ms。而隨機森林、深度學習、支持向量機的訓練時間及檢測時間均大于集成學習技術,其中深度學習的訓練時間及檢測時間最大,分別為26、42ms較集成學習技術分別增加53.84%、38.09%。集成學習技術的訓練時間優化效果較好,主要原因為本文提出的集成學習技術擴大了篡改攻擊檢測的范圍。且可以區分篡改攻擊是否有效地侵入電力營銷系統。
3 結語
本文利用集成學習技術進行電力營銷系統的入侵篡改數據攻擊檢測,并利用焦點損失函數處理數據不平衡,提高數據篡改分類能力。集成學習技術的訓練時間及檢測時間分別為12、26 ms。而隨機森林、深度學習、支持向量機的訓練時間及檢測時間均大于集成學習技術,其中深度學習的訓練時間及檢測時間最大,分別為26、42 ms較集成學習技術分別增加53.84%、38.09%。在電力營銷系統中,雖然深度學習模型的收斂速度比集成學習技術模型慢,但集成學習技術最終測試損耗最低。同時可觀察到,4種模型的最小損失分別為0.1%、0.2%、0.3%、0.35%。綜上所述,集成學習技術具有較好的檢測精度與準確率,且檢測時間較短,可滿足電力營銷系統的實際使用需求。
【參考文獻】
[1] 苗成林,李彤,呂軍,等. 基于Dempster-Shafer證據理論與抗頻譜感知數據篡改攻擊的協作式頻譜檢測算法[J]. 兵工學報,2017,38(12):2406-2413.
[2] 許爽,劉智穎,李元誠,等. 針對電池儲能系統假數據注入攻擊的智能化檢測方法研究[J]. 中國電機工程學報,2023,43(17):6628-6639.
[3] 陳真,乞文超,鮑泰宇,等. 面向服務質量感知云API推薦系統的數據投毒攻擊檢測方法[J]. 通信學報,2023,44(8):155-167.
[4] 楊航,樊凱,梁段.基于蟻群算法的電力數據網絡APT攻擊特征分析及防御技術[J].微型電腦應用,2023,39 (7):101-104.
[5] 顧仁龍,曾鴻孟,徐超,等.基于機器學習的云原生結構數據攻擊檢測系統設計[J].電子設計工程,2023,31 (14):62-65.
[6] 杜濤,王朝龍,朱靖,等. 基于聚類算法的變壓設備運行數據監測與異常檢測技術[J]. 粘接,2022,49(12):137-140.
[7] 黃鵬程,陳麗丹,祁恬,等. 基于GAF-DenseNet的航空發動機虛假數據注入攻擊檢測[J]. 航空動力學報,2023,38(7):1691-1702.
[8] 祝超群,朱怡蓉. 虛假數據注入攻擊下信息物理系統動態輸出反饋控制[J].蘭州理工大學學報,2023,49(1):74-82.
[9] 杜濤,王朝龍,朱靖,等. 基于聚類算法的變壓設備運行數據監測與異常檢測技術[J]. 粘接,2022,49(12):137-140.
[10] 劉浪,時宏偉. 基于注意力機制的CNN-LSTM的ADS-B異常數據檢測[J].計算機系統應用,2023,32(4):94-103.
[11] 劉小梅,唐鑫,楊舒婷,等. 基于Reed-Solomon編碼的抗邊信道攻擊云數據安全去重方法[J]. 信息安全學報,2022,7(6):80-93.
[12] 席磊,何苗,周博奇,等. 基于改進多隱層極限學習機的電網虛假數據注入攻擊檢測[J]. 自動化學報,2023,49(4):881-890.
[13] 徐超,孫金莉,楊郡,等. 基于分布式支持向量機的電網錯誤數據注入檢測法[J]. 粘接,2023,50(2):188-192.