李駿杰
(西安智維尼教育科技有限公司 陜西 西安 710000)
通過物聯網技術,許多設備可以實現與互聯網互聯,這一技術正在不斷地改變全球文化、職業和人們的生活,由于物聯網的廣泛使用和設備的粗獷式發展,針對物聯網的數據攻擊也日漸增多,根據研究人員的預測,到2025年,拒絕服務(denial of service,DoS)攻擊總數將會達到2 000萬次[1]。目前,連接到物聯網的設備數量已經超過500億,并且數量還在不斷增長中,然而在多個設備被連接成大型系統的情況下,其安全漏洞巨大,如強制性設備組成的物聯網網絡時常會出現連接丟失的情況。為創建安全可靠的物聯網網絡,必須改進現有的安全方案來保護遠程系統數據,因此必須保證應用程序控制、網絡保護、訪問控制、身份驗證、加密以及其他安全因素和措施的正常運作,以獲得物聯網的最佳數據安全框架結構[2]。
由于僵尸網絡的存在,越來越多的物聯網設備會被濫用于分布式拒絕服務(distributed denial of service,DDoS)攻擊,如不斷發展的Mirai框架代碼變種Persirai thingbot感染了許多IP攝像頭,并被惡意行為者濫用于此類攻擊,因此,物聯網生態系統需要一個改進的保護組件以適應現有架構,即使對現有設置進行改進之后,仍然存在許多攻擊模式能夠繞過各種預設保護風險[3]。為保障無法檢測到的攻擊領域,攻擊者會將加強型DDoS攻擊偽裝成網絡的IP地址,物聯網框架的漏洞導致了被Mirai和其他有害的、不可預知的攻擊所攻擊。因此,研究人員需要對物聯網框架進行建模,針對各種情況和漏洞采取不同的策略,這樣才能幫助開發適用于物聯網數據安全的可實施策略。
通過物聯網協調真實世界和虛擬互聯網,使得環境與人類之間建立了協同作用,因此物聯網設備通常使用各種操作設置。然而在物理和網絡狀態下,物聯網系統活動必須積極滿足詳盡的安全要求,在物聯網框架中測試安全要求是至關重要的,而測試規模應涵蓋大規模攻擊檢測,所以必須對網絡安全進行全面評審,通過研究人員對Mirai代碼的幾個變體、MicroMort模型進行計算,以及對使用案例、經濟支配影響的分析可知,MicroMort模型將產生物聯網數據風險,同時對社會、經濟和技術效益等都會造成不可估量的負面效應。基于此研究人員在考慮這些主要安全屬性的情況下,為物聯網網絡安全提出了開創性的實施策略。
在物聯網框架中,網絡安全的基本屬性之一是保密性,物聯網設備可以保存或移動敏感數據,因此必須保護這些數據以防止非法入侵者揭示。軍事、商業、個人、患者隱私和與健康檢查相關的數據必須進行驗證,以防止非法用戶泄露,因為它們都是需要加密處理的[4]。對于由物聯網設備生成的數據,需要合法實體進行唯一修改,這些數據對于遠程通信至關重要且通常會被傳輸,在這種情況下,完整性和信任度起著至關重要的作用,有助于克服不可靠的遠程通信,同時在通信期間提供修改,并強制進行儀器檢查以確保數據安全。物聯網框架必須對惡意修改進行監控,對數據源進行保護,這是由數據源可能會傳輸結構化查詢語言植入事件而導致的,因此可以通過數據完整性參數進行驗證。
在執行多個過程之前,完成網絡中元素的表征和認證是至關重要的。然而,不同的物聯網框架需要不同的驗證要求,為了在物聯網框架中提供強大的保護,需要強有力的確認,而不是提高適應性。在建立認證設計時,面臨著取舍的重要挑戰,其中,物聯網授權設備及其安全性和保密性之間的取舍是一個顯著的例子,通過授權,向客戶提供物理設備和其他特權,并由客戶共同使用計算設備收集管理數據、人員和系統,例如需要有關倉庫貨物的數據檢查人員,對數據應該是可訪問的,根據管理授權,所有授權用戶都可以獲得物聯網框架中的數據,這證明了物聯網框架的排列方式執行策略是成功的,而主動干擾、拒絕服務和其他幾種威脅會導致物聯網設備和框架使得用戶無法使用,所以物聯網安全策略應以保證客戶對物聯網設備的持續可用性為主要執行目標。
物聯網安全威脅可分為現實和虛擬兩類,其中虛擬威脅包括主動和被動兩種。被動網絡威脅是一種潛在的風險,在這種風險中,系統通信源以一種獨特的方式被監視,在監聽網絡時,攻擊性用戶可以從所有者以及設備中收集數據。而主動威脅導致的攻擊,會導致拒絕協助、通信管制、設計修改以及物聯網通信路線結構更改等情況的發生,在攻擊期間,變化、干擾和干預被歸為攻擊的分支類屬,各種拒絕服務攻擊將對物聯網產生較大的負面影響,并且在遠程通信升級中,數據傳輸容量將重新排列,服務提供商的資源也會遭到不可預估的侵害[5]。當多個IP用于推動某些攻擊時,會大幅消耗網絡帶寬及系統資源, 使用戶無法得到正常服務,這些威脅對物理設備的危害甚至與設備損壞所造成的影響相當。由于借助物聯網框架,攝像頭、傳感器和大多數設備對象都是開放性的,使得它們極易被入侵充當拒絕服務攻擊的源頭,因此具有非常大的安全隱患。此外,戰爭、洪水、地震和其他災害也會造成物聯網數據的意外損害。
網絡中的任何設備都面臨保密性、完整性和可用性的攻擊。DoS攻擊是專門針對網絡資源對其合法利益相關者可用性的攻擊,低速拒絕服務(low-rate denial of service,LDoS)攻擊是DoS攻擊的一種變體,是一種隱蔽的攻擊模式,其本質是為了逃避網絡中DoS攻擊檢測器的搜索和監測,從而進行隱蔽性攻擊而達到破壞網絡的最終目的,LDoS攻擊的數據速率類似于網絡中合法設備生成的良性網絡流量,這使得它們很難被DoS攻擊檢測器檢測到破壞痕跡,因此對于開放性較大的物聯網而言,LDoS攻擊具備先天優勢,由于物聯網設備通常以非常低的數據速率傳輸數據,所以LDoS攻擊可能在這種低速網絡流量情況下存在很長時間,這對物聯網設備造成的破壞是不可估量的。
本文提出了一種靈活的架構,即采用卷積神經網絡(convolution neural networks,CNN)和隨機森林(random forests,RF)算法結合的方式進行數據訓練和數據測試,其中檢測和緩解過程與網絡分離,為了驗證算法,實驗使用開源數據集,該數據集是在僵尸網絡和正常流量相結合的環境下開發的。由于開源數據集文件格式不統一,所以數據來源有多種格式,例如逗號分隔值.csv和原始的.pcap擴展文件格式,通常保存數據包的Wireshark程序使用pcap文件,該文件用于檢查網絡的數據特征,為了更快速和有效地打標簽,文件會根據攻擊的子類別和類別進行分類。本實驗使用華為ibook14s筆記本電腦,Win10專業版64位系統,處理器為Intel i7 11870,運行內存16 GB,實驗中使用NumPy框架和Panda框架進行特征選擇和數據清洗,使用Keras和scikit-learn框架進行數據分析[6-7]。本文提出的算法如下圖1所示,其中圖1(a)為訓練流程圖,圖1(b)為測試流程圖,為了驗證算法的有效性,本文對CNN進行數據集特征值提取,在框架中選擇適用性結構進行數據分析,并采用交錯矩陣對算法計算數據進行4階數據分割,正交處理后剔除偏移量較大的數據,并再次進行卷積處理,由此驗證算法在標準數據集中的可行性和準確性。

圖1 算法流程示意圖
由圖1可知,訓練算法流程如圖1(a)所示,選取標準級數據庫,將訓練數據輸入到算法解析計算儲備庫中,預處理進行分類,對同類屬數據或規定分隔條件數據按照特征一致性進行分類或標號,對同類屬特征進行降維計算,即合并有效特征因子減少特征向量,增加特征標注屬性,完成數據預處理步驟,即對數據進行核查和清洗,甄別有效訓練數據和特征缺失補償數據,通過判定決策對訓練數據進行檢驗,正常則直接加入訓練庫,不正常則進行深度學習,采用適合算法進行學習建模,并對數據相同因子進行評估,如符合評估結構則更新學習建模后的數據庫,如不符合評估結構則剔除數據,完成一次有效的數據甄別錄入和深度學習判定的數據訓練流程。測試算法流程如圖1(b)所示,在進行數據檢驗步驟前的操作過程類似于訓練算法流程,只是對不正常數據進行攻擊類型檢測,對數據的攻擊作用和產生的模型效應進行測試,判定數據是否具備攻擊特性,即存在超過閾值的特征因子,且特征因子數量大于1,同時對同類屬攻擊特性進行模型判定和評估,測試攻擊效應和攻擊路徑,從而測試算法的適用性和檢測能力。
(1)CNN:CNN的任務是減少人工神經網絡使用的信息屬性數量,CNN具有多個隱藏層、輸出層和輸入層,可以通過三個稀疏交互、參數共享和等變表示的方法來減少信息因素。減少層之間的關聯將增加CNN的可擴展性,并改進訓練時間的難度。
(2)多層感知機:這是一種神經網絡,采用前饋系統和多層感知機,具有許多神經和神經元,這些神經元與權重神經元相連,每個神經元都存在一個塊,可以計算和處理激活值,表示從一個塊到另一個塊的每個前身的值以及輸入到輸出。
(3)支持向量機(support vector machines,SVM):該機制用于回歸和分類。在后一種類型中,與其他方法相比,展示了更加數學上清晰成熟的概念。此外,SVM用于以非線性或線性的方式處理回歸和分類問題。
(4)隨機森林:這種算法被用于分類廣泛的數據信息,使用多個決策樹算法和合并樹,在訓練上對樣本數據進行分類,分類的最終輸出被選擇為最選定的類。由于本文是對攻擊進行檢測及攻擊類型識別,因此本文使用精度和準確率對實驗結果進行定量評估,其定義如表1所示。

表1 混淆矩陣列
TP表示真實標簽為正、預測標簽為正的個數,FP表示真實標簽為負、預測標簽為正的個數,FN表示真實標簽為正、預測標簽為負的個數,TN表示真實標簽為負、預測標簽為負的個數,NUM表示測試數據集的總數,則可得精度和準確度計算如公式(1)所示:
(1)
根據多類數據集分類記錄值可知,在CNN算法驗證中可以使用接受者操作特征(receiver operating characteristic ,ROC)曲線獲取的測量數據進行典型模型閾值設定,ROC曲線特性涉及真陽率參數和假陽率參數,真陽率指檢測出的真陽性樣本數和總真陽樣本數的商值,而假陽率指檢測出的假陽性樣本數和總真陰樣本數的商值,本文主要對ROC曲線與坐標軸圍成面積(area under curve,AUC)的模型進行驗證和測試,CNN算法測試中接收工作特征曲線如圖2所示。

圖2 CNN算法測試中接受者操作特征曲線示意圖
圖2中,橫坐標為假陽率,縱坐標為真陽率,藍色曲線為全局混淆矩陣中微平均曲線,紅色曲線為全局混淆矩陣中宏平均曲線,橘色曲線為全局混淆矩陣中0級曲線,紫色曲線為全局混淆矩陣中1級曲線,綠色曲線為全局混淆矩陣中2級曲線,因此,可以從CNN算法驗證中得出隨著假陽率的增加,真陽率也在增加,模型的精度也得到了提高。
本文針對目前物聯網應用技術的發展,對物聯網數據安全和數據傳輸過程中的攻擊問題進行了分析和研究,首先對物聯網應用設備在數據傳輸中應對數據攻擊和管理服務攻擊情況進行了闡述,其次對物聯網數據安全現狀和目前有效的安全策略、面臨威脅進行了針對性介紹,說明了LDoS攻擊的特殊性,可隱蔽性的進行數據攻擊而跳過安全檢測,最后提出了先進行數據預處理,再進行全局混淆交錯矩陣進行4階數據篩選后的模型化CNN算法框架,通過算法在標準數據集按照流程進行訓練和測試的表現可知,本文提出的改進CNN算法在防止數據攻擊時具備一定的檢測精度和準確性,同時為多算法融合進行數據攻擊檢測提供了理論參考價值。