鄔忠萍 郝宗波 王文靜 劉冬
(1.成都工業(yè)學院,成都 611730;2.電子科技大學,成都 610054;3.太原師范學院,晉中 030619;4.成都市笛卡科技有限公司,成都 610097)
主題詞:車聯(lián)網 聯(lián)邦學習 增強學習 差分隱私 拉普拉斯機制 逐層相關傳播
近年來,隨著物聯(lián)網(Internet of Things,IoT)設備的普及,交通系統(tǒng)的自動化和智能化水平不斷提高[1]。車聯(lián)網(Internet of Vehicles,IoV)中的車輛通信可提高交通場景感知水平,緩解交通擁堵,減少交通事故[2]。云計算、移動邊緣計算(Mobile Edge Computing,MEC)等新興技術也促進了智能交通系統(tǒng)的發(fā)展[3]。
IoV 中,海量終端節(jié)點設備的數(shù)據(jù)傳輸會增加網絡負荷,延長響應時間。此外,在傳統(tǒng)的集中式云解決方案中,由于數(shù)據(jù)必須發(fā)送到云端處理,導致其不能確保用戶數(shù)據(jù)的隱私性[4]。為此,支持分布式架構的聯(lián)邦學習范式成為研究熱點。聯(lián)邦學習是一種聯(lián)合學習機制,利用駐留在邊緣設備上的數(shù)據(jù)集對其學習模型進行本地訓練,其后將模型參數(shù)發(fā)送回中央服務器進行聚合,以生成全局模型[5]。聯(lián)邦學習在IoV 中應用的優(yōu)點包括:靈活處理每輛車不平衡的稀疏數(shù)據(jù);滿足車聯(lián)網的擴展性和移動性需求;通過僅發(fā)送本地學習的模型參數(shù)提高數(shù)據(jù)隱私性[6]。文獻[7]提出了用于車輛間通信的聯(lián)邦學習架構,并通過極值理論和李雅普諾夫優(yōu)化降低了資源消耗。文獻[8]提出了車聯(lián)網中聯(lián)邦學習的數(shù)據(jù)聚合選擇模型,以實現(xiàn)計算資源消耗和圖像質量之間的權衡。
在聯(lián)邦學習架構中,隱私數(shù)據(jù)始終駐留在邊緣節(jié)點,但該架構也會面臨差分攻擊的威脅[9]。為此,近期部分研究嘗試在聯(lián)邦學習架構中開發(fā)安全多方計算[10]、可信執(zhí)行環(huán)境[11],以及基于差分隱私的隱私保護技術。其中,差分隱私技術能夠很好地抵御成員推理攻擊(Membership Inference Attack,MIA),得到了廣泛關注。文獻[12]利用差分隱私技術,在基于聯(lián)邦學習的車聯(lián)網資源共享過程中提供模型更新參數(shù)的隱私保護。文獻[13]提出了基于聯(lián)邦學習和差分隱私的車聯(lián)網數(shù)據(jù)個性化隱私保護方案。
盡管差分隱私能夠在一定程度上保護數(shù)據(jù)隱私性,但攻擊者可利用差分隱私噪聲發(fā)起數(shù)據(jù)投毒攻擊或模型投毒攻擊,并通過將虛假數(shù)據(jù)隱藏到差分隱私噪聲中來繞過傳統(tǒng)的異常檢測機制[14]。為此,本文提出增強學習輔助的聯(lián)邦學習(Reinforced Learning-assisted Federated Learning,RLaFL)方案,將聯(lián)邦學習架構與差分隱私機制相結合,利用逐層相關傳播(Layer-wise Relevance Propagation,LRP)方法增強拉普拉斯機制中的數(shù)據(jù)擾亂,并提出基于增強學習的防御方法,對邊緣節(jié)點模型更新過程中的差分隱私等級進行智能化選擇。
圖1 所示為基于聯(lián)邦學習的典型系統(tǒng)模型。通過移動設備、邊緣設備和中央服務器3個層面的操作來支持智能化交通管理,其中,路側單元(Round Side Unit,RSU)為邊緣節(jié)點,通過光纖鏈路連接并集成了無線終端(WiFi、5G、C-V2X 等)和NVIDIA Jetson 等計算資源,以支持車輛與其他設備的通信。系統(tǒng)中的車輛節(jié)點均配置了車載單元(On-Board Unit,OBU)、全球定位系統(tǒng)(Global Positioning System,GPS)接收器、相機和速度傳感器,并可通過圖片或視頻記錄發(fā)生的交通事件(如交通擁堵或事故)。OBU 通過第五代移動通信技術(5th Generation mobile communication technology,5G)與RSU和其他OBU 建立連接,并將移動數(shù)據(jù)和環(huán)境數(shù)據(jù)發(fā)送至數(shù)據(jù)處理中心(云端)。

圖1 基于聯(lián)邦學習的車聯(lián)網場景模型
聯(lián)邦學習是一種分布式機器學習范式,由數(shù)據(jù)持有者和模型持有者(服務器)組成。多個節(jié)點和重要服務器利用分布式梯度下降技術進行協(xié)作,通過使訓練數(shù)據(jù)集的損失函數(shù)最小化實現(xiàn)參數(shù)優(yōu)化。
令D為訓練數(shù)據(jù)集、w為模型訓練參數(shù)、L(w,D)為訓練數(shù)據(jù)集上的損失函數(shù),在N個不同節(jié)點上,對個體數(shù)據(jù)集Di進行本地訓練,每個節(jié)點的模型訓練參數(shù)為wi,每個節(jié)點的損失函數(shù)為L(wi,Di)。則中央服務器的損失函數(shù)為[15]:
聯(lián)邦學習通常采用基于梯度下降的分布式學習算法,系統(tǒng)訓練過程可分為本地更新(訓練)、模型聚合、參數(shù)廣播和模型更新4個步驟。在本地更新階段,每個邊緣節(jié)點利用梯度下降算法調整模型參數(shù)以實現(xiàn)損失最小化。模型聚合在云端或邊緣節(jié)點上執(zhí)行。其后,將更新后的參數(shù)返回每個參與節(jié)點,為下一輪迭代作準備。
基于聯(lián)邦學習的車聯(lián)網環(huán)境中,車輛節(jié)點持有自身與環(huán)境的敏感數(shù)據(jù),并通過內容緩存減少通信約束和延遲。聯(lián)邦學習通過本地訓練避免將原始數(shù)據(jù)發(fā)送至云端,但模型參數(shù)依然會在OBU、RSU 與云服務器之間交換,必須確保車輛信息交換的隱私性,防止數(shù)據(jù)共享和內容緩存過程中的數(shù)據(jù)泄露。
攻擊者可能在車輛節(jié)點、邊緣節(jié)點和服務器端進行偽裝。在數(shù)據(jù)投毒攻擊中,攻擊者可篡改本地訓練數(shù)據(jù)并偽裝為誠實車輛節(jié)點。而在模型投毒攻擊中,攻擊者可能偽裝成RSU或服務器,通過入侵通信路徑獲取模型參數(shù),并向參數(shù)中注入假噪聲,實現(xiàn)對聯(lián)邦學習模型的篡改[16]。
本文假定攻擊者能夠在任何情況下通過中間人攻擊或服務器端攻擊獲取模型更新參數(shù),但無法直接更改服務器上的已有模型。攻擊者擁有全局和本地模型參數(shù)的全部知識,并可能獲取訓練和測試數(shù)據(jù)的數(shù)據(jù)分布知識。此外,假定攻擊者知曉要實施的差分隱私機制和隱私預算。
圖2給出了本文提出的RLaFL框架流程,主要包括邊緣服務和云服務。邊緣服務在RSU 上執(zhí)行,使用本地數(shù)據(jù)對模型進行連續(xù)訓練,以便滿足RSU 覆蓋區(qū)域內的車輛節(jié)點的各種預測需求。邊緣聚合器是邊緣服務的重要組件,向云端發(fā)送要聚合的本地模型參數(shù)。云服務負責管理邊緣模型的聚合過程,接受邊緣設備上的模型參數(shù),管理全局模型中的參數(shù)聚合過程,直至達到所需的數(shù)據(jù)準確度。利用該框架,RSU基于采集到的本地數(shù)據(jù)訓練基礎模型,并通過預測接口提供預測服務。滿足聚合規(guī)則時,云服務通知邊緣服務進行參數(shù)發(fā)送,在接收到所有邊緣模型后運行聚合算法,并將聚合后的模型發(fā)送至邊緣服務模塊。數(shù)據(jù)聚合過程不斷循環(huán),直至本地模型的數(shù)據(jù)準確度達到預設閾值。

圖2 本文框架流程
本文提出的框架使用聯(lián)邦平均(Federated Average,F(xiàn)edAvg)算法進行模型聚合:
算法1FedAvg算法
模型訓練開始時,云服務器向參與節(jié)點發(fā)送初始全局模型,并確定客戶端數(shù)量、批大小、代數(shù)、學習率和衰減率。聚合器確定參與節(jié)點,并將最新模型廣播至參與節(jié)點。在接收到全局模型后,參與節(jié)點將本地模型修改為共享模型,將數(shù)據(jù)分為不同批大小,并使用隨機梯度下降(Stochastic Gradient Descent,SGD)法執(zhí)行一定代數(shù)的模型訓練,其后將新生成的本地模型發(fā)送至服務器。最后,服務器對不同參與節(jié)點的本地模型進行加權平均,從而得到新的全局模型。
差分隱私通過添加噪聲保護統(tǒng)計數(shù)據(jù)和實時數(shù)據(jù)。原則上,差分隱私機制旨在使大規(guī)模數(shù)據(jù)集內某條記錄或個體的識別概率盡量接近0。通過隨機化算法消除數(shù)據(jù)集中特定數(shù)值的統(tǒng)計顯著性。由此,即使攻擊者獲取了某條查詢的輸出信息,也無法將該信息與特定個體相關聯(lián)。
本文利用拉普拉斯機制實施基于差分隱私的數(shù)據(jù)擾動。令2 個相鄰數(shù)據(jù)集D和D′之間僅有單個成員差異,則差分隱私的形式化定義如下:
對于任意2個相鄰數(shù)據(jù)集D和D′,令輸出的任意子集S?Range(R),其中,Range()為區(qū)間集合函數(shù),R為隨機化算法。若以下條件成立[17]:
則R滿足隱私預算損失ε-差分隱私條件Pr。其中,ε決定隱私預算水平,其數(shù)值越小,則隱私性越強。
在差分隱私中,靈敏度指添加隨機噪聲后引起的結果不確定性與數(shù)據(jù)原始形式相比的信息損失,其大小由單個記錄對該函數(shù)輸出的最大更改確定。敏感度決定了應對數(shù)據(jù)施加的擾動量。全局敏感度表示2 個相鄰數(shù)據(jù)集(D和D′)的查詢輸出之間的最大可能差異。對于隨機查詢f:D→R,f的L1全局敏感度計算為:
本文提出的方案在差分隱私中使用的LRP算法為:
算法2分層相關傳播LRP
LRP 旨在估計不同特征對機器學習模型的輸出層的影響,即分析每層的每個神經元對整個神經網絡模型輸出的作用。前向傳播的最終輸出可視為數(shù)據(jù)聚合的總相關度,用于估計網絡每層神經元與輸入層的相關度。LRP 利用預設的傳播規(guī)則在神經網絡中進行反向預測傳播[18]。本文方案中,差分隱私通過擾亂訓練數(shù)據(jù)提高數(shù)據(jù)隱私性,LRP則用于確定在神經網絡中執(zhí)行擾動處理的數(shù)據(jù)點。
本文提出的框架通過加入基于LRP 的差分隱私機制提高了用戶數(shù)據(jù)隱私性,但差分隱私機制并不能抵御虛假數(shù)據(jù)注入或投毒攻擊。為了在隱私性、效用和安全性之間實現(xiàn)平衡,本文開發(fā)了基于增強學習的輔助防御策略,幫助聯(lián)邦學習模型選擇最優(yōu)隱私預算水平。
增強學習是一種自適應的機器學習算法,基于最優(yōu)動作集搜索和延遲獎勵機制實現(xiàn)反饋回路,可在無需任何監(jiān)督的情況下提供智能支持[19]。令A={increase,decrease,static}為動作空間,假定智能體受事件驅動進行決策制定。通過觀察聯(lián)邦環(huán)境的當前狀態(tài),智能體執(zhí)行動作集A中的某個決策。為促進智能體決策過程,假定智能體能夠在多個步驟中增加或減少隱私預算損失ε。
增強學習通過設計獎勵函數(shù)使智能體基于學習目標進行決策制定。為防御投毒攻擊,智能體必須將攻擊成功率最小化,同時最大限度增加模型整體預測準確度。智能體的獎勵函數(shù)定義為:
式中,Lp、LFL分別為當前狀態(tài)中投毒攻擊損失和聯(lián)邦學習模型損失;分別為投毒攻擊損失和聯(lián)邦學習模型損失的最大值;δ1、δ2、δ3為平衡參數(shù)。
本文利用Epsilon 貪婪策略[20]確定探索和利用之間的權衡。Epsilon貪婪策略是一種基于價值估計的權重調整策略。在每個時間步,Epsilon 貪婪策略以概率φ選擇一個隨機動作,以探索新的狀態(tài)和動作,而以概率(1-φ)選擇當前狀態(tài)下估計價值最高的動作,以利用已有的知識。本文將初始探索概率設置為1.0,并逐漸降低探索概率,直至最小探索概率0.05。
本文通過試驗分析所提出的RLaFL 方案的通信效率、隱私保護和安全性能,并通過測試臺開展仿真分析。
使用MNIST 數(shù)據(jù)集[21]分析本文提出的方案在圖像分類任務中的性能。MNIST 是模式識別領域廣泛使用的基準數(shù)據(jù)集,數(shù)據(jù)集樣本為28×28灰度圖像的手寫數(shù)字,訓練樣本和測試樣本數(shù)量分別為60 000個和10 000個。將該數(shù)據(jù)集分割為10 份,代表10 個客戶端節(jié)點。在應用聯(lián)邦學習后,在10個客戶端上進行本地訓練,并在聚合器中完成全局聚合。

表1 不同邊緣設備和客戶端數(shù)量條件下的系統(tǒng)耗時
此外,基于ATCLL 數(shù)據(jù)集[22]搭建測試臺,評估所提出的方法在現(xiàn)實場景中的表現(xiàn)。ATCLL 包含智能城市中大量用于通信、感知和計算的IoT設備。其中包含44個集成了通信終端和嵌入式計算平臺的邊緣節(jié)點。
本文試驗中,服務器配置了Intel Core i5-12400F@2.5 GHz CPU、12 GB 顯存的NVIDIA Geforce RTX 3060 GPU、16 GB RAM、Windows 10 的64 位操作系統(tǒng),使用Python 3.8.8 和PyTorch 1.5.1 作為實現(xiàn)本文算法的編程語言和深度學習框架。
此外,在測試臺仿真中,使用20 個小型計算機Jetson Nano,通過局域網連接到服務器作為邊緣設備,Jetson Nano 的處理器為4 核心的Arm Cortex A57,配置2 GB RAM,操作系統(tǒng)為Ubuntu 18.04.5 LTS。
圖3所示為RLaFL方法在MNIST數(shù)據(jù)集上的全局準確度隨通信輪數(shù)的變化情況。在數(shù)據(jù)類型方面,MNIST數(shù)據(jù)集為手寫數(shù)字圖像數(shù)據(jù)集,在IoV隱私保護試驗中,也使用圖像數(shù)據(jù)進行隱私保護,因此數(shù)據(jù)類型一致。在數(shù)據(jù)分布方面,MNIST數(shù)據(jù)集中的手寫數(shù)字圖像是由多人手寫而成,具有一定的數(shù)據(jù)分布特征,數(shù)據(jù)集中不同數(shù)字的出現(xiàn)頻率相對平均,且圖像的背景和噪聲也相對均衡,符合IoV場景下來自不同車輛的圖像數(shù)據(jù)的數(shù)據(jù)分布特征。由于車輛節(jié)點存在計算資源限制,隱私保護方案必須在較少通信輪數(shù)下實現(xiàn)較好的準確度,以促進現(xiàn)實車聯(lián)網應用。由圖3可知:本文方法在10輪通信內實現(xiàn)了約80%的全局準確度;隨著通信輪數(shù)的增加,全局準確度不斷上升,最高達到98%。該試驗中將通信輪數(shù)限制在100輪以內,因為在車聯(lián)網場景下,過高的通信輪次會顯著增加計算負擔,影響系統(tǒng)整體性能。

圖3 不同通信輪數(shù)下的模型預測準確度
圖4所示為本文方法與文獻[8]和文獻[12]的方法的性能比較結果。其中,文獻[8]的聯(lián)邦學習方法未應用任何差分隱私機制,文獻[12]的方法在本地完成差分隱私損失ε的選擇,RLaFL 方案利用LRP 在差分隱私環(huán)境中選擇ε。應用差分隱私機制能夠顯著提升用戶敏感信息的安全性,但需要盡量減少全局準確度的下降。由圖4 可知:文獻[8]的全局準確度保持不變,但不能抵御MIA 攻擊;文獻[12]的全局準確度隨ε的減小而顯著下降;RLaFL 方法使用LRP 技術,在不同ε(即不同的隱私保護等級)下均取得了較為合理的全局準確度。

圖4 不同隱私保護等級下的全局準確度
為分析本文提出的增強學習策略對模型安全性能的影響,在差分隱私機制中加入惡意噪聲,即為模擬攻擊者行為,將差分隱私機制中的高斯分布噪聲替換為攻擊分布噪聲,以模擬模型投毒攻擊。圖5所示為本文方法在MNIST 數(shù)據(jù)集上的防御智能體的累計獎勵。從圖5 中可以看出,隨代數(shù)增加,智能體能夠學習到最優(yōu)策略,并在一定的執(zhí)行代數(shù)后實現(xiàn)收斂。本文增強學習策略中,獎勵函數(shù)的定義考慮到了聯(lián)邦學習模型損失、攻擊者損失和隱私損失,因此模型收斂意味著所提出的方案尋找到了隱私性、安全性和效用之間的最優(yōu)權衡。智能體會為每個狀態(tài)輸出一個動作(或ε),由此可計算該狀態(tài)下的聯(lián)邦學習損失的標準值。基于該標準值,若觀察到的實際聯(lián)邦學習損失值出現(xiàn)較大偏差,意味著檢測到可能的模型投毒攻擊。由此證明,增強學習策略顯著提高了模型對主動攻擊的安全防護能力。

圖5 不同代數(shù)下的累積獎勵值
使用Jetson Nano作為邊緣設備,在實驗室內搭建測試臺,基于ATCLL數(shù)據(jù)集,評估本文方案在現(xiàn)實車聯(lián)網場景中的應用性能。ATCLL 數(shù)據(jù)集是基于真實場景的車聯(lián)網數(shù)據(jù)集,由多個傳感器在真實交通環(huán)境中采集而成,包含了大量的車輛行駛數(shù)據(jù)、交通信號數(shù)據(jù)、道路信息數(shù)據(jù)等,使用該數(shù)據(jù)集可以更好地模擬真實交通環(huán)境,從而驗證算法的有效性和性能。Jetson Nano通過1 Gbit/s 的無線局域網連接到服務器,服務器負責聚合分布在邊緣設備上的機器學習模型。表1 給出了不同邊緣節(jié)點和客戶端數(shù)量條件下,本文模型達到最優(yōu)準確度時,所有客戶端連接到服務器的平均時長、每輪運行平均時長,以及服務器完成10 輪聚合后得到全局模型的平均時長,所有測試均取10次測試均值。由表1可知,本文方法的擴展性較好,當客戶端數(shù)量達到200臺時,系統(tǒng)每輪的平均運行耗時僅為15.28 s,能夠滿足現(xiàn)實車聯(lián)網應用需求。每個邊緣設備服務的客戶端達到14 個時,系統(tǒng)耗時會大幅增加。但在現(xiàn)實車聯(lián)網場景中,以將智能路燈作為RSU為例,每個邊緣設備所服務的車輛通常不超過10 輛,表明所提出的方法的效率符合現(xiàn)實車輛網應用需求。
圖6 所示為不同輪數(shù)和不同客戶端數(shù)量條件下測試臺仿真中服務器的模型聚合耗時情況。由圖6可知,隨著客戶端數(shù)量的增加,服務器的模型聚合時長出現(xiàn)了小幅度增加。當客戶端數(shù)量達到70 個時,平均聚合時間低于0.15 s,即使客戶端數(shù)量達到280個,系統(tǒng)的平均聚合時間仍低于0.25 s,表現(xiàn)出良好的可擴展性,證明了本文提出的方案具有較好的可擴展性。

圖6 服務器的模型聚合平均耗時
圖7 所示為使用1 臺Jetson Nano 作為邊緣設備,在服務器和客戶端之間進行10次模型傳輸?shù)钠骄鶗r間評估結果。由圖7可知,本文方法可實現(xiàn)毫秒級的模型參數(shù)上傳和下載,能夠滿足現(xiàn)實車聯(lián)網的通信延遲要求。

圖7 模型上傳和下載耗時
本文提出了結合聯(lián)邦學習和增強學習的車聯(lián)網數(shù)據(jù)差分隱私保護方案,通過聯(lián)邦學習范式實現(xiàn)分布式架構,利用結合LRP的差分隱私機制提高敏感數(shù)據(jù)的隱私性,并通過增強學習輔助的安全策略實現(xiàn)對模型投毒攻擊的檢測和防御。試驗結果表明,所提出的方法在隱私性、安全性和效率之間實現(xiàn)了較好平衡,處理速度和通信延遲能夠滿足現(xiàn)實車聯(lián)網應用需求。未來,將嘗試進一步優(yōu)化模型,并將所提出的方案部署在嵌入式車載單元上,在真實車載網絡環(huán)境中測試方案的信息安全魯棒性。