王 玉
(西安交通工程學院,陜西 西安 710300)
隨著信息技術(shù)的創(chuàng)新和發(fā)展,政府公共服務(wù)、商業(yè)運行服務(wù)以及個人生活娛樂等都離不開網(wǎng)絡(luò)通信,隨之而來的各種網(wǎng)絡(luò)攻擊、信息泄露等問題也日益顯現(xiàn)[1]。為了避免信息交流中產(chǎn)生的信息數(shù)據(jù)被竊取或者被故意修改,目前發(fā)展出了各種的信息加密技術(shù),保證數(shù)據(jù)在傳輸?shù)倪^程中其關(guān)鍵信息的訪問需要身份認證后才能被授權(quán),因此生成具有高度加密效果的密鑰是保障網(wǎng)絡(luò)重要信息隱蔽性和安全性的前提條件[2]。
在網(wǎng)絡(luò)通信數(shù)據(jù)的安全傳輸中,提高數(shù)據(jù)的私密性和隱蔽性相對尤為重要,其中最重要的解決是采用高效的數(shù)據(jù)算法對的每個傳輸數(shù)據(jù)進行標記,并生成具有高安全性保密性的密鑰[3]。基于Q-learing算法的網(wǎng)絡(luò)通信數(shù)據(jù)密鑰生成技術(shù)是通過在網(wǎng)絡(luò)資源的反饋信息學習中,針對系統(tǒng)的行為采用強化學習,以住家的行動映射反映機器最大化累計獎勵函數(shù),對網(wǎng)路系統(tǒng)中的馬爾科夫環(huán)境的動作序列選擇最優(yōu)的傳輸路徑和傳輸方法,使數(shù)據(jù)在高度環(huán)境干擾(網(wǎng)絡(luò)攻擊)的條件下,能夠保證信號的高信噪比,并獲得高可信性的信號傳輸期望值[4]。基于Q-learing算法的網(wǎng)絡(luò)通信數(shù)據(jù)密鑰生成流程如圖1所示。
圖1中的行為策略函數(shù)如公式(1)所示[5]。

式中:ρ(s)為網(wǎng)絡(luò)系統(tǒng)的的行為策略函數(shù);Qρ(s,a)為在行為策略ρ下,系統(tǒng)得到的Q值。
對系統(tǒng)最大Q值的更新方法如公式(2)所示[6]。……