王 玉
(西安交通工程學院,陜西 西安 710300)
隨著信息技術的創新和發展,政府公共服務、商業運行服務以及個人生活娛樂等都離不開網絡通信,隨之而來的各種網絡攻擊、信息泄露等問題也日益顯現[1]。為了避免信息交流中產生的信息數據被竊取或者被故意修改,目前發展出了各種的信息加密技術,保證數據在傳輸的過程中其關鍵信息的訪問需要身份認證后才能被授權,因此生成具有高度加密效果的密鑰是保障網絡重要信息隱蔽性和安全性的前提條件[2]。
在網絡通信數據的安全傳輸中,提高數據的私密性和隱蔽性相對尤為重要,其中最重要的解決是采用高效的數據算法對的每個傳輸數據進行標記,并生成具有高安全性保密性的密鑰[3]。基于Q-learing算法的網絡通信數據密鑰生成技術是通過在網絡資源的反饋信息學習中,針對系統的行為采用強化學習,以住家的行動映射反映機器最大化累計獎勵函數,對網路系統中的馬爾科夫環境的動作序列選擇最優的傳輸路徑和傳輸方法,使數據在高度環境干擾(網絡攻擊)的條件下,能夠保證信號的高信噪比,并獲得高可信性的信號傳輸期望值[4]。基于Q-learing算法的網絡通信數據密鑰生成流程如圖1所示。
圖1中的行為策略函數如公式(1)所示[5]。

式中:ρ(s)為網絡系統的的行為策略函數;Qρ(s,a)為在行為策略ρ下,系統得到的Q值。
對系統最大Q值的更新方法如公式(2)所示[6]。

式中:λ為Q-learing算法獎勵函數的折扣因子;μ為Q-learing算法學習速率;a(t)為系統行為函數;s(t)為系統狀態函數;r(t+1)為系統給反饋獎勵。
圖1中更新AOI值的實現可以通過MATLAB計算程序,具體的實現代碼見表1[7]。

表1 基于MATLAB計算程序實現更新AOI值

圖1 基于Q-learning算法的網絡通信數據密鑰生成流程
采用MATLAB計算程序作為仿真分析工具,調用程序中的SPS半持續資源分配策略模塊,分析網絡通信系統遭受Sybil攻擊時,采用小SPS預留策略(疊加2次)、大SPS預留策略(疊加20次)和基于Q-learing算法SPS預留策略3種防御策略,抽取LTE-M無線通信系統中信號與干擾加噪聲比SINR分別為5、10、15、20和25時的AOI平均值變化情況,結果如圖2和表2。從圖1中可以看出,隨著信號與干擾加噪聲比SINR的增加,3種防御策略的變化趨勢較為一致,在信號與干擾加噪聲比SINR小于20時,LTE-M無線通信系統的AOI平均值隨著信號與干擾加噪聲比SINR的增加呈近線形降低,而信號與干擾加噪聲比SINR大于20后,LTE-M無線通信系統的AOI平均值區域穩定;基于小SPS預留策略(疊加2次)、大SPS預留策略(疊加20次)的LTE-M無線通信系統AOI平均值均大于基于Q-learing算法SPS預留策略的LTE-M無線通信系統AOI平均值;在信號與干擾加噪聲比SINR較小(SINR<15)時,由于網絡信號中的干擾較大,通信環境差,在長時間的傳輸過程中,數據信號容易出現誤傳和丟包現象,因此,基于大SPS預留策略(疊加20次)的LTE-M無線通信系統AOI平均值較大,網絡系統中的安全苛求信息可信性較差,在信號與干擾加噪聲比SINR>15時,大SPS預留策略(疊加20次)的信息資源受到更多次的監測與選擇,網絡系統中的有效信號強、數據質量高,因此能夠保證無線資源數據的傳輸效率和安全苛求信息的可信;基于Q-learing算法SPS預留策略的網絡系統防御,無論LTE-M無線通信系統的信號與干擾加噪聲比SINR大小,都能夠對自主地選擇較小的網絡敏感度,在維持較高頻率的資源傳輸條件下,保證網絡系統受到Sybil攻擊時不會出現AOI值的劇烈波動,避免了數據信號不出現誤傳、延時、丟包、重傳,能夠維持一個較好的網絡資源安全苛求信息可行性狀態,提高了系統的安全性和穩定性。

圖2 遭受攻擊時基于不同預留策略的LTE-M無線通信系統AOI平均值變化曲線

表2 3種不同預留策略條件下LTE-M無線通信系統AOI平均值
圖3和表3為基于Q-learing算法SPS預留策略不同無線通信系統的AOI平均值變化情況。從圖中可以看出,隨著信號與干擾加噪聲比SINR的增加,LTE-M無線通信系統、WLAN無線通信系統和T2T無線通信系統的AOI平均值曲線變化規律基本一致,呈現明顯的對數降低,擬合關系如公式(3)~公式(5)所示。

表3 3種不同無線通信系統在遭受網絡攻擊時的AOI平均值

圖3 基于Q-learning算法的不同無線網絡通信系統AOI平均值變化曲線

式中:AOI1為LTE-M無線通信系統的AOI平均值,與信號與干擾加噪聲比SINR的擬合系數R2達到0.9950;AOI2為WLAN無線通信系統的AOI平均值,與信號與干擾加噪聲比SINR的擬合系數R2達到0.9564;AOI3為T2T無線通信系統的AOI平均值,與信號與干擾加噪聲比SINR的擬合系數R2達到0.9056。
為了研究Q-learning算法在網絡通信數據中的加密效率,在室內搭建了由6臺數據服務器組成的數據傳輸系統,每2臺數據服務器與1臺數據應用服務器節點形成數據服務器組,服務器組與服務器組之間可以實現連接[8]。數據服務器配置CPU硬件為Intel i5-5400,3.6GHz×6,內存為12GB,網絡上行寬帶為60Mbit/s,網絡下行寬帶為30Mbit/s,配置的操作系統為Ubuntu 16.04,數據庫為MySQL Version5.7.25;數據應用服務器節點的設備型號為 ThinkPad E680 (20KNA038),操作系統為CentOS LinuX 6.7 x86_64,CPU為i5-7200U 2.5GHz,內存為8GB 2133MHzLPDDR3,顯卡為AMD Radeon RX550 2GB GDDR5。分別采用基于鏈路加密技術、單片機嵌入式TCP/IP協議加密技術和基于Q-learning算法的網絡通信數據加密技術對100kB~1000kB數據量進行加密,加密速率測試結果如圖4和表4所示。從圖4中可以看出,隨著加密數據量的增加,基于鏈路加密技術和基于單片機嵌入式TCP/IP協議加密技術的加密耗時呈現明顯的非線性增加趨勢,基于鏈路加密技術的加密最大耗時為7.99s,基于單片機嵌入式TCP/IP協議加密技術的加密最大耗時為12.64s,這對網絡通信數據的傳輸而言是非常不利的,而基于Q-learning算法的網絡通信數據加密技術的加密耗時則呈現近線形增加的趨勢,但增加速率較緩,且同一加密數據大小的情況下,其加密耗時小于前兩者,加密最大耗時控制在3.0s以內。由此表明,采用基于Q-learning 算法的網絡通信數據加密技術能夠有效提高數據的加密速率和傳輸速率,有利于保障數據的傳輸安全。

表4 不同網絡通信算法的數據加密時間對比

圖4 基于Q-learning算法的網絡通信數據密鑰生成流程
基于Q-learning算法對網路安全中的數據進行加密,并采用仿真分析的方法將其與其他加密策略進行對比,分析其受到網絡攻擊時的安全性以及加密的高效性,得到以下3個結論:1)與小SPS預留策略(疊加2次)和大SPS預留策略(疊加20次)相比,基于Q-learing算法SPS預留策略的網絡系統防御,無線通信系統的信號與干擾加噪聲比SINR大小都能夠在較高頻率的資源傳輸條件下,保證網絡系統在受到Sybil攻擊時,AOI值不會劇烈波動,使數據信號不出現誤傳、延時、丟包、重傳的情況,能夠保持一個較好的網絡資源安全苛求信息可行性狀態,提高了系統的安全性和穩定性。2)隨著信號與干擾加噪聲比SINR的增加,基于Q-learing算法SPS預留策略的LTE-M無線通信系統、WLAN無線通信系統和T2T無線通信系統的AOI平均值曲線變化規律基本一致,呈現明顯的對數降低,信號與干擾加噪聲比SINR與AOI平均值具有良好的擬合關系(如公式(3)~公式(5))。3)基于Q-learning算法的網絡通信數據加密技術的加密耗時則呈現近線形增加的趨勢,但增加速率較緩,且同一加密數據大小的情況下,加密最大耗時控制在3.0s以內,其加密耗時小于基于鏈路加密技術和基于單片機嵌入式TCP/IP協議加密技術的加密耗時。采用基于Q-learning 算法的網絡通信數據加密技術能夠有效提高數據的加密速率和傳輸速率,有利于保障數據的傳輸安全。