























摘要:準確可靠的服務質量預測是實現服務質量感知云API服務推薦和組合成功應用的關鍵,而現有研究通常假設預測模型的服務質量數據是可靠的,忽略了開放網絡環境下惡意用戶對云API服務質量預測模型的數據投毒攻擊。本文從攻擊機理和可解釋的視角提出數據投毒攻擊下的云API服務質量預測模型魯棒性分析與解釋方法。首先,量化云API服務質量感知情境下的惡意用戶行為,實現利用不同攻擊方式對服務質量預測模型的數據投毒攻擊,并在統一的框架下給出了考慮投毒攻擊類別、攻擊強度和攻擊規模的魯棒性分析方法。其次,定義5種服務質量數據特征作為解釋因子,采用基于回歸分析的建模方法,建立云API服務質量預測模型的魯棒性解釋模型。實驗結果能夠有效闡明面向云API服務質量預測模型的投毒攻擊機理及其魯棒性,解釋并給出數據投毒下引起預測性能波動的關鍵數據特征,繼而為數據投毒攻擊防御提供支持。
關鍵詞:數據投毒;云API;服務質量預測;魯棒性;可解釋性
中圖分類號: TP399 文獻標識碼: A DOI:10.3969/j.issn.1007-791X.2025.01.005
0 引言
如今,云API已成為智能交互、能力開放和數據傳輸的最佳載體[1]。然而,云API的激增使得用戶越來越難從眾多功能同質化的候選云API中選擇高質量、個性化的云API服務進行面向服務的軟件開發。為了應對上述問題,人們引入服務質量(Quality of Service,QoS)[2]來刻畫云API的非功能側特性,表征云API在某一側面的質量信息,如響應時間、吞吐量和可靠性等。但是,由于高昂的時間成本、巨大的資源開銷和服務質量情境依賴的特點,用戶無法調用并測試全部的云API來獲取相應的服務質量數據,云API提供商也很難提供符合用戶情境特征的服務質量數據。服務質量感知云API推薦系統就此成為解決這一矛盾的自然選擇[3]。
云API服務質量預測模型作為服務質量感知云API推薦系統的核心部分[4],能夠根據用戶基本信息、歷史調用記錄,對用戶沒有行為記錄的云API進行評估和預測,精準的服務質量預測能夠輔助服務質量感知推薦系統更好的做出決策,幫助用戶選擇出個性化高質量的云API。
為了確保云API服務質量預測的客觀性和準確性,廣泛采用的策略是使用調用過云API的其他用戶的服務質量歷史記錄,將此歷史記錄用作服務質量預測的基礎[5]。近年來,研究者們已提出多種云API服務質量預測模型,如基于鄰居的協同過濾模型[6],矩陣分解模型[7-8]和深度學習模型[9-10]。值得注意的是,準確可靠云API服務質量預測的一個重要前提是確保用戶提交的每個服務質量的評估信息真實可靠。然而在實際環境中,由于各種因素的影響,數據的真實性無法得到有效保證。例如,一些用戶可能在服務質量評估時惡意詆毀其他云API的服務質量,以提高他們中意的云API的利用率。服務提供商因為經濟利益會雇用一些虛假用戶故意提高自己云API的服務質量,從而影響用戶反饋信息的可信度,降低預測的準確性[11],使推薦方向遵循攻擊者的意愿。
然而目前鮮有云API服務質量預測模型考慮虛假用戶數據投毒的影響。Zheng等[12]指出云API服務質量預測精度將受到用戶貢獻的服務質量數據可信度的高度影響。Ye等[13]在進行云API服務質量預測時,僅僅將離群值點作虛假用戶的惡意行為,并通過引入改進的正則化項來避免虛假用戶對預測性能的影響。Manikrao等[14]和Ran等[15]提出通過第三方代理驗證所有可用云API的服務質量的注冊表用于提高云API服務質量的可信度。
上述方法基于異常檢測和代理驗證等策略進行服務質量數據安全防護,但沒有考慮服務質量數據在收集、存儲過程中可能遭遇到的來自惡意用戶的數據投毒攻擊,也沒有考慮到服務質量預測模型本身抵抗外界惡意數據干擾的能力。基于此,本文從數據投毒攻擊機理和可解釋的角度出發,探討數據投毒攻擊對云API服務質量預測模型魯棒性的影響,首先量化云API服務質量感知情境下的惡意用戶行為,設計不同種類數據投毒攻擊下的虛假用戶攻擊文件生成方法,實現基于不同攻擊規模、不同攻擊強度下的服務質量投毒數據攻擊。然后,構建基于數據特征的魯棒性解釋模型,從服務質量數據特征視角采用回歸分析的方法解釋數據投毒攻擊對服務質量預測模型的影響。最后設計實驗從數據投毒攻擊類別、攻擊強度和攻擊規模分析魯棒性,并基于回歸分析實驗結果給出引起預測性能波動的關鍵數據特征。
1 總體框架
針對開放網絡環境下云API服務質量數據中同時摻雜正常用戶和虛假用戶的客觀事實,需進一步研究服務質量預測模型的魯棒性以及數據投毒攻擊與服務質量預測模型之間的關系,進而幫助云API服務質量感知推薦系統保護者制定更有針對性的防御策略。然而,目前還沒有系統地面向云API服務質量預測模型的數據投毒攻擊相關研究,服務質量預測模型在遭遇投毒攻擊時是否具備魯棒性尚不清晰,服務質量的數據特征與投毒攻擊有效性之間是否存在相關性關系也未明確。為解決上述問題,提出面向數據投毒攻擊的云API服務質量預測模型魯棒性分析與解釋整體框架,如圖1所示。
在面向數據投毒攻擊的云API服務質量預測模型魯棒性分析與解釋整體框架中,首先通過不同種類的數據投毒攻擊方法生成虛假用戶并生成不同攻擊方式下的虛假服務質量數據投毒攻擊文件來模擬攻擊,從而探究現有的服務質量預測模型是否具有良好的魯棒性。隨后采用基于回歸分析的建模方法,依靠回歸系數的顯著性檢驗對服務質量數據特征是否會影響投毒攻擊的有效性做進一步地解釋,分析哪些數據特征可以解釋所觀察到的預測性能的波動。
2 數據投毒攻擊下的魯棒性分析
2.1 服務質量數據投毒攻擊文件生成
云API服務質量預測模型性能在很大程度上依賴于服務質量數據集和預測模型[16]。如果預測模型是基于不可信來源數據進行訓練的,那么模型的預測行為和預測結果很可能按照惡意用戶的意圖所改變,這些注入的數據來自數據投毒攻擊文件。
定義1 云API服務質量數據投毒攻擊向量定義為一個4元組(AS,AF,AΦ,AT)。其中AS表示選擇云API集合,AF表示填充云API集合,AΦ表示未使用云API集合,AT表示攻擊目標云API集合。
AS的選取通常是與目標云API有一定的關聯,目的是當惡意用戶對目標云API生成虛假服務質量時,這些選擇云API能夠盡可能地減少惡意用戶被檢測出的可能性。
AF的選取能夠讓數據投毒攻擊生成的虛假用戶更具備真實性。在實際的云API使用情境中,普通用戶在正常的通訊狀況下進行合理的云API請求操作時,其服務質量數據應該位于一個普遍的區間。因此為了更好地模擬真實的用戶服務質量數據,本文對基本的數據投毒攻擊模型進行了相應的優化,除了限制攻擊目標云API的數量,還包括設置填充項AF服從帕累托分布[17],以及在一定間隔內固定攻擊目標項與其他項的比率。
AΦ的選取表示用戶沒有與該云API進行交互。由于真實場景下用戶不可能調用過所有的云API,因此,惡意用戶在偽造攻擊向量時,要選擇一些云API不與用戶交互。
AT的選取表示了惡意用戶提高或降低目標云API推薦排名的意圖。通常,數據投毒攻擊可分為兩類:推攻擊和核攻擊。其中推攻擊試圖提高目標云API的推薦排名,核攻擊試圖降低目標云API的推薦排名。不同的攻擊模型采用不同的策略來構建攻擊文件,生成虛假服務質量數據冒充正常用戶。后續實驗對響應時間數據集和吞吐量數據集分別實施推攻擊和核攻擊。
定義2 服務質量數據投毒攻擊文件是由一組虛假用戶u′i構成,可以表示為
其中,b為攻擊規模,用來控制生成虛假用戶的數量。u′k表示虛假用戶k,其投毒攻擊向量表示為
u′i=Gc(AS,AF,AΦ,AT),c={Rnd,Bdg,Avg},(2)
其中,c表示數據投毒攻擊類別,Rnd,Bdg,Avg分別表示隨機攻擊、潮流攻擊、均值攻擊。
考慮到來自同一虛假用戶的異常云API服務質量樣本數量越多,可能會對預測模型的攻擊產生較大影響。因此,考慮數據投毒攻擊強度(Data Poisoning Attack Intensity,DPAI)的影響時,虛假用戶u′i可以進一步更新為以下形式:
u′i=Gc(AS,AF,AΦ,AT丨vT),"""""""(3)
其中,vT表示數據投毒攻擊強度,用來控制虛假用戶攻擊的目標云API數量。
2.2 魯棒性問題定義
本節將在利用上一節投毒方法生成的投毒攻擊數據基礎上,觀測攻擊前后云API服務質量預測模型結果的偏移,以此來判斷在應對數據投毒攻擊時云API服務質量預測模型的魯棒性。進一步在一個統一的框架下給出魯棒云API服務質量預測的定義。
定義3 魯棒云API服務質量預測。指在注入虛假用戶的服務質量數據上進行訓練的預測模型做出的預測結果,即
度vT下的云API服務質量預測模型的魯棒性。
3 基于數據特征的魯棒性解釋模型
考慮到進行云API服務質量預測時,模型所使用到的知識成本主要來自用戶-云API服務質量矩陣,預測偏移與否很大程度上取決于投入訓練的數據集,不同密度服務質量數據集在被注入虛假用戶時展示的預測結果波動是不同的,所以觀察哪些數據特征可以解釋數據投毒攻擊對預測模型的影響是有必要的。
3.1 解釋因子定義
本節定義了可能造成影響的服務質量數據特征作為解釋模型的因變量(Independent Variables,IVs),即解釋因子。解釋因子可以劃分為三部分:用戶-云API服務質量結構;用戶-云API服務質量頻率;用戶-云API服務質量分布,各部分具體特征如下:
1)用戶-云API服務質量的結構應該從數據空間的大小、形狀、密度來計算,但是考慮到服務質量數據集本身的確定性和服務質量預測模型面臨難以回避的數據稀疏情況,本部分只針對數據集密度進行解釋因子分析,其定義如下:
定義4 數據集密度(Densitylog)
其中,丨U丨表示用戶數量,丨A丨表示云API數量,K表示已有服務質量的數量。數據集密度與數據稀疏性密切相關,同樣也與數據投毒攻擊的攻擊強度密切相關。
2)用戶-云API服務質量頻率是指數據集中各個數據域的服務質量出現的頻率,用戶-云API服務質量矩陣的頻率通過基尼系數來表示,其定義如下:
定義5 用戶基尼系數(Giniuser)
定義6 云API基尼系數(GiniAPI)
其中,丨R丨表示丨U丨×丨A丨,即用戶數量和云API數量的乘積。當數據特征非常傾斜的時候,針對某一云API投毒攻擊成功的概率將大大降低,因為虛假用戶很難從大量數據中更改云API服務質量預測系統的偏向。
3)用戶-云API服務質量值分布:上述提到的兩類數據特征只與用戶-云API服務質量的訓練集結構和服務質量頻率分布相關,而忽略了服務質量自身的數值。最常見的代表服務質量的統計數據是數據標準差和數據加權平均偏差。其定義如下:
定義7 數據標準差(stdQoS)
定義8 數據加權平均偏差(wdmaQoS)
其中,Nu表示所有與用戶u交互的云API的數量,Na表示云API a被調用的數量,該特征對稀疏數據的偏差給予了較高的權重,提供了更高的信息增益。
因變量(Dependent Variable,DV)衡量了數據投毒攻擊對服務質量預測模型的攻擊有效性。考慮到服務質量預測的實際目的,解釋模型的因變量選取對預測異常值更加敏感的RMSE作為衡量攻擊有效性的評估指標,目的是為了突出數據投毒攻擊對服務質量預測模型的破壞程度,在構建回歸模型時能更好的解釋數據特征因子的影響程度。定義如下:
從而第n個樣本因變量DVn的形式可表示為
3.2 解釋模型建立
本節提出的可解釋模型根據服務質量數據特征來創建,檢驗代表服務質量數據特征的解釋因子IVs和攻擊所代表的基本效果DV之間的因果假設。基于回歸模型的解釋框架如下:
其中,I表示數據特征因子的數量,Ci表示第i個自變量的回歸系數,IVi,n表示第i個訓練樣本的對應自變量的值,εi表示數據特征因子偏置。DV′n表示攻擊前后第n個樣本的預測精度的波動。將其整理成更緊湊的形式:
在以平均值為中心的數據下,C0,n表示第n個樣本DVn的期望值,Ci,n是第n個樣本對應自變量值IVi系數的回歸系數,在實驗中將應用這個解釋性模型來探究服務質量數據特征對云API預測算法魯棒性的影響。線性解釋模型中的回歸系數在普通最小二乘(Ordinary Least Squares,OLS)優化下計算求解,OLS最小化問題可以定義如下:
OLS通過減少響應變量的真實值與預測值的差值來獲得模型參數,使模型殘差平方和最小,提高了模型的泛化能力。
3.3 解釋樣本抽取
基于式(12)和(13)構建的魯棒性分析解釋模型,其目標是使用具備不同結構和內容值的各種數據集生成的數據特征來求解回歸系數。顯然數據集的規模和多樣性對計算系數的準確性具有很大的影響,因此為了獲得更充足更豐富的數據集,采用隨機抽樣策略,對于給定的原始響應時間和吞吐量數據集,生成N個不同的數據樣本,即具有不同數據特征的較小訓練集合。服務質量樣本隨機抽取算法的具體描述如下。
算法1 服務質量樣本隨機抽取算法
按照算法1對服務質量數據集進行隨機采樣,在保證原始數據特征不變的前提下,盡可能地擴充了解釋樣本,增加了解釋結果的可信度。
4 實驗與分析
4.1 實驗設置
4.1.1 實驗環境
英特爾i7-12700F四核處理器2.10 GHz,內存8 G。操作系統64位Windows 10,編程語言Python 3.0,編程環境VS Code。
4.1.2 實驗數據
本實驗數據來自真實世界的云API服務質量數據集WS-DREAM[10]。WS-DREAM記錄了真實世界的多個云API被分布在不同地理位置的339個用戶調用產生的響應時間和吞吐量服務質量數據。在剔除服務質量數據全為-1的云API之后,實驗所采用的響應時間和吞吐量數據集統計信息見表1所示。
在開放網絡環境下,網絡中可用云API數量很大,單個用戶通常只調用過少量的云API,因此用戶-云API服務質量矩陣是十分稀疏的。為了使實驗與真實的云API應用場景保持一致,在用戶-云API服務質量矩陣上采用A/B模式來生成訓練數據集和測試數據集,其中A%+B%=100%。具體來說,當矩陣密度MD=A%時,表示在數據集中隨機采樣A%的數據作為訓練數據集來訓練模型,剩余的B%作為測試數據集來評估模型的性能。本文在實驗中,將訓練數據集矩陣密度設為4%和16%。
4.2 魯棒性分析實驗
4.2.1 實驗內容
為了探究云API服務質量預測模型在面對投毒攻擊時的魯棒性,預測值和真實值之間的誤差大小是要考慮的關鍵。為了分析數據投毒攻擊對云API服務質量預測的全局影響,采用平均絕對誤差(MAE)作為評價指標分析預測模型的魯棒性,MAE的計算方式如下:
以現有的經典的云API服務質量預測模型來評估其應對數據投毒攻擊時的魯棒性,這五種方法的介紹如下。
FM[18]:使用兩個向量的內積來學習特征交互,其考慮了特征之間的相互作用。
AFM[19]:其在特征交互模塊中引入了注意力機制,通過注意力網絡計算出的注意力分數對不同交叉特征進行了加權求和,得到了不同交叉特征的重要性,進一步提升了服務質量預測準確性。
MLP[20]:利用特征嵌入模型來學習用戶和云API之間的非線性交互特征并生成預測值。
MLR[21]:采用分而治之的思想,由多個LR模型組合而成,通過分片線性模式來擬合高維空間的非線性模式,做到了分布式并行。
DeepFM[22]:由淺層和深層模型聯合訓練得到,改進了原始模型中淺層部分人工特征工程的工作,共享了原始輸入特征。
4.2.2 數據投毒攻擊類別影響分析
對數據投毒攻擊表現出輕微脆弱性的預測模型稱為穩健預測模型。為了驗證不同攻擊類別下不同云API服務質量預測模型的魯棒性,首先使用完全真實的服務質量數據集進行測試,然后將虛假用戶注入訓練集,并觀察所有預測模型的性能波動。在實驗過程中,固定攻擊規模為20%,固定攻擊強度為4%。實驗結果如圖2所示。
從圖2可以觀察得到,三種類別的數據投毒攻擊都會對云API服務質量預測結果造成偏移。這是因為少量虛假用戶的存在都會影響到預測模型在訓練過程中的參數構成。這同樣顯示了當前云API推薦領域存在的安全隱患,警示后續的預測模型在建模的過程中不止需要對數據進行真實性檢驗,還需要提升模型端的防護能力。后續實驗將繼續探究數據投毒的攻擊強度和攻擊規模對云API服務質量預測模型的魯棒性的影響。
4.2.3 數據投毒攻擊強度影響分析
圖3給出了不同云API服務質量數據集下不同預測算法在遭遇不同數據投毒攻擊強度時展示出的預測結果的偏移。實驗中固定數據投毒攻擊規模為0. 2,同時為了保證投毒攻擊后數據集密度還保持與原數據集一致,將數據投毒攻擊的攻擊強度分別設置為4%和16%。
觀察圖3得到,在沒有注入數據投毒攻擊時,在低矩陣密度前提下的預測效果顯然不如高矩陣密度的預測效果好,這表明更多的數據能有助于模型學習到更優的參數,得到更準確的預測結果。止匕外,還注意到云API服務質量預測模型在分別注入與矩陣密度相等的攻擊強度的數據投毒攻擊后,隨著攻擊強度的增加,云API服務質量預測模型的預測結果偏移程度更大。這同樣意味著增加矩陣密度雖然能夠提升云API服務質量預測模型的總體性能,但是也增加了模型了數據投毒攻擊的有效性,降低了預測模型的抵抗外部數據擾動的能力,從而導致模型的魯棒性更差。
4.2.4 數據投毒攻擊規模影響分析
圖4給出了不同服務質量數據集下不同預測算法在遭遇不同攻擊規模的數據投毒攻擊時展示出的預測結果的波動。實驗中固定數據投毒的攻擊強度為4%,數據投毒攻擊的攻擊規模分別設置為20%、40%、60%、80%和100%的攻擊用戶。觀察在圖4中有以下結果。
1)在4%的攻擊強度時,大部分預測模型的MAE值隨著數據投毒攻擊規模的增加而升高,當注入100%的虛假用戶時,大部分云API服務質量預測模型的偏移達到頂峰。
2)FM模型和DeepFM模型的MAE值會隨著虛假用戶的注入而陡然上升,數據稀疏時服務質量預測模型受到的影響更小,說明數據投毒攻擊的有效性在數據相對稠密時更為有效。
3)在面對相同攻擊規模的數據投毒攻擊時,AFM與FM相比,其算法預測誤差波動較為平緩,這說明AFM具有更穩健的性能,考慮到AFM模型的預測模塊引入了一種注意力機制,該機制能明確學習到不同特征組合的特異性,同時能夠減少虛假用戶的影響,從而能夠提升算法的魯棒性。
4)與其他方法相比,DeepFM模型的預測誤差隨著投毒攻擊規模的增加而變得更大,不具備良好的魯棒性。可能的原因是DeepFM作為一個端到端模型,不再需要對特征工程進行人為設計,直接從原始數據中學習特征,虛假用戶會干擾其中的DNN模塊和FM模塊的并行迭代更新,放大了虛假用戶的影響,導致該模型對虛假用戶的出現非常敏感。
4.3 解釋性實驗
4.3.1 樣本評估
對于給定的五種服務質量預測模型,三種攻擊類型,兩類服務質量數據集,采用3.3節中的樣本抽樣算法共生成N=100個解釋樣本,總共進行3 000次模擬攻擊來解決與不同解釋性回歸問題的相關系數。表2總結了與100個生成的數據樣本的每個數據特征相關的統計數據。
表2給出的解釋樣本的統計數據表明了通過算法1所提取的數據特征分布散落在合適的數據閾內,通過σ可以發現不同樣本之間的數據特征在合理的范圍內波動較大,能充分代表大部分具有不同數據特征的樣本,繼而通過這些解釋樣本進行的回歸系數的顯著性檢驗更具有普適性。
4.3.2 回歸解釋
由4.2.4節中的實驗結果可知,不同攻擊規模不同攻擊類型的數據投毒攻擊都會造成預測結果的偏移,因此當大規模的數據投毒攻擊在所有實驗情況下都持續有效時,分析數據特征對攻擊有效性的解釋意義不大。為了解釋數據特征對數據投毒攻擊有效性造成的影響,所以本節實施小尺寸的數據投毒攻擊配置文件,將注入的虛假用戶攻擊規模設置為5%,并且選擇每個數據樣本中云API數量的0.10%作為受攻擊的目標云API。
本文建立的解釋性統計模型目的在于驗證假設,數據特征與解釋性模型的因變量之間是否存在潛在關系,另一個目的是計算這種潛在關系的重要性和方向性。因此,后續實驗所用到的評估指標如下所示:
定義9 決定系數(R2),表示反應回歸關系中因變量可以被自變量解釋的比例,衡量數據與回歸模型的擬合程度。的取值范圍為[0,1],當R2=0.35時意味著IVs解釋了DV中35%的變化。
定義10 回歸系數的顯著性(p值),是t檢驗用于檢測解釋效果的一個衡量度。較小的p值(plt;0.05)意味著該IV對DV的有較強的解釋性,且該變量前面的系數顯著。本節在實驗分析中,使用符號*(plt;0.05)、**(plt;0.01)和***(plt;0.001)來展示所計算的系數中具有的統計學意義。
定義11 回歸系數的方向性,體現在回歸系數的符號上,回歸系數的符號表示IVs和DV的變化之間是正關系還是負關系。可以使用該信息來理解所維護的服務質量預測系統遭受數據投毒攻擊時的魯棒性性能的潛在變化。
表3、4和5展示了解釋樣本的回歸結果,分析表3、4和5的實驗結果,有如下發現。
1)用戶-服務質量數據集中計算得到的數據特征(IVs)與投毒攻擊產生的影響(DV)之間存在潛在的對應關系。針對〈數據樣本,預測模型,攻擊模型〉構成的解釋模型三元組,隨機抽取三組〈RT,FM,Bandwagon attack〉、〈RT,MLR,Bandwagon attack〉和〈RT,MLP ,Bandwagon attack〉,可以發現5個IVs分別可以解釋y值變化的72.8%、83.8%和79.3%。另外,觀察可知,在〈TP,MLR,Random attack〉上取到最大值(R2),在〈TP,Deep FM,Average attack〉上取到最小值(R2),5個數據特征可以解釋55%以上的投毒攻擊所帶來的變化。
2)除了研究數據特征與投毒攻擊有效性的潛在關系外,還需要探究此類數據特征的重要性,觀察表3~5可知,計算出的IV的回歸系數的顯著性往往會因每個IV與解釋模型三元組的不同組合而產生差異,其中,數據特征Densitylog 和wdmaQos所計算的回歸系數具有統計意義,從中有足夠的統計證據支持數據特征可以解釋DV變化的假設,這意味著這三個IV與DV之間存在潛在假設關系。
3)考慮到IVs的回歸系數的統計意義,可以通過回歸系數的符號來判斷數據特征的方向性,即判斷RMSE所衡量的數據特征對數據投毒攻擊的影響是積極的還是消極的。表3~5展示了自變量Densitylog對DV值變化的影響為正,這表明了增加數據集密度(或者降低數據集稀疏性)不僅能提高預測模型的一般性能,還提升了投毒攻擊的有效性,其中一個可能的原因是當數據集中真實用戶的服務質量增加時,計算出的用戶之間的關系的準確性得到了提高,這些用戶相似性數據是預測模型的訓練關鍵,當惡意用戶也插入足夠數量的服務質量數據時,很可能干擾預測模型更好更正確地建立模型參數,從而提升投毒攻擊的有效性,這也同時解釋了4.2.3節中得到的結論。
5 結論
針對數據投毒攻擊下的云API服務質量預測模型的魯棒性分析問題,首先通過分析服務質量數據集的數據特點,生成不同攻擊類型的面向云API服務質量的數據投毒攻擊文件。其次構建基于數據特征的云API服務質量預測模型魯棒性解釋模型,對五種解釋因子采用基于回歸模型的分析建模方法。最后基于魯棒性分析實驗結果闡明了數據投毒攻擊類別、投毒攻擊強度和投毒攻擊規模對現有的服務質量預測模型的影響。進一步,回歸分析實驗結果提供了足夠的證據支持數據特征可以解釋DV變化的假設,這些特征也可以解釋55%以上投毒攻擊所帶來的變化。
數據投毒攻擊對現有云API服務質量預測模型結果的準確性有很大影響。針對投毒攻擊導致預測結果發生偏差的影響因素采用回歸分析方法進行解釋,分析云API服務質量預測魯棒性,可為理解云API服務質量預測模型的脆弱性機理提供理論和方法基礎。比較不同服務質量預測模型的魯棒性,使得研究者重視云API推薦系統的安全防御,設計更加魯棒的云API服務質量預測算法,為開發人員推薦準確可靠的云API。未來,我們將聚焦從數據端的投毒攻擊檢測和模型端的對抗訓練學習兩方面來增強云API服務質量預測模型的魯棒性和安全性。