謹防數據中毒破壞機器學習模型

2021-05-12 12:22:16LucianConstantin陳琳華

計算機世界 2021年17期

Lucian Constantin ?陳琳華

數據中毒會導致機器學習模型失準，從而得出錯誤的結論。由于目前缺乏簡單易行的解決辦法，因此安全專家必須重點關注數據中毒的檢測和預防。

過去的十年中，云計算的普及為廣大企業提供了高性能的運算與數據存儲服務。受益于此，機器學習的應用也迎來了爆發式的增長。隨著上游供應商將機器學習整合進他們的產品當中，這些機器學習的運算結果也成為了用戶做決策的重要依據。對此，安全專家警告稱，針對機器學習技術漏洞進行的網絡攻擊將會大量出現。

大多數網絡社交平臺、在線視頻網站、大型購物網站、搜索引擎等服務都有基于機器學習技術的推薦系統。比如網飛用戶愛看的電影和表演，臉書用戶點贊或分享的內容，推特用戶點贊或標注的內容，消費者在亞馬遜購物網站上購買或瀏覽過的商品以及網友通過谷歌搜索查詢過的信息，這些數據全都反饋給了這些公司的機器學習系統，從而可以更加準確地給用戶推送適合其口味的信息。

網絡攻擊者試圖影響這些推薦系統并使其結果發生偏差，這早已不是什么新聞了。他們會用虛假的賬戶給某些特定的產品投贊成或反對票，并進行分享和推廣。用戶甚至可以在地下市場或者“巨魔農場”（注：專門在網絡上散播不實言論或發表煽動性評論的網絡組織）購買到這種操縱推薦系統的服務。

網絡安全供應商F-Secure人工智能卓越中心的研究員Andrew Patel表示，“理論上，如果攻擊者了解某個用戶與系統交互的方式，他就可以設計一個專門針對該用戶的網絡攻擊，向其推薦油管視頻、推送惡意軟件或者誘導其關注冒充的社交賬戶等。因此，操縱算法可用于多種目的，包括提供虛假信息、網絡釣魚詐騙、改變公眾輿論、宣傳有害內容以及損害品牌或個人名譽等。你甚至花錢就可以操縱谷歌搜索的鍵入自動填充功能?！?h3>什么是數據中毒

導致數據中毒或模型中毒類型的網絡攻擊會污染機器學習模型的訓練數據。由于篡改訓練數據會妨礙模型做出準確的預測，所以通常認為數據中毒屬于完整性攻擊。其他的網絡攻擊根據其影響可以歸類為以下三種：

·機密性攻擊：攻擊者通過向模型輸入數據來推斷訓練數據中潛在的機密信息。

·有效性攻擊：攻擊者對其輸入的數據進行偽裝來欺騙系統，逃避正確的歸類。

·復制性攻擊：攻擊者反向還原模型以對其進行復制或者本地分析，并策劃攻擊或實現自身的經濟企圖。

想要區分規避模型預測及分類的網絡攻擊與中毒攻擊，主要在于其持續性。發起中毒攻擊者的目的是欲使其輸入的數據被系統識別為訓練數據。于是依照模型數據訓練周期的長短，兩種攻擊的時限也有所不同，比如有的中毒攻擊要花數周時間才能完成。

數據中毒可以通過“黑盒”或“白盒”兩種形式來實現。“黑盒”是指針對根據用戶反饋來更新學習模型的分類系統發動的攻擊;“白盒”指攻擊者通過獲取學習模型和其訓練數據的訪問權限（如果系統有多個數據源，那么漏洞往往出現在供應鏈）發起的攻擊。

數據中毒攻擊案例

Patel介紹，從網絡安全角度來看，攻擊對象可能是使用機器學習來檢測網絡異常和可疑活動的系統。如果攻擊者得知系統中使用了某種機器學習模型，那么他們就會嘗試在模型中輸入數據點，這些數據會逐步降低識別的準確性，最終他們的攻擊將不會被系統識別為異常。這也稱作模型偏斜。

一個真實案例來自對電子郵件服務使用的垃圾郵件過濾器的攻擊。谷歌反濫用研究團隊負責人Elie Bursztein在2018年一篇關于攻擊機器學習的博客中表示：“現實中，我們常常發現一些頂尖的垃圾蟲團隊試圖破壞Gmail的郵件過濾器，大量的垃圾郵件在他們的影響之下未被識別。在2017年11月到2018年年初，我們至少遭到過四次試圖扭曲我們的分類器的大規模惡意攻擊?！?/p>

另一個例子涉及到谷歌的VirusTotal病毒掃描服務，很多殺毒軟件都用這項服務擴充自己的病毒庫。大家都已清楚，攻擊者在真正開始傳播之前會用VirusTotal來測試他們的惡意軟件從而逃避檢測，而現在他們還會利用VirusTotal進行更持久的數據中毒攻擊。實際上2015年就有報道稱，通過VirusTotal進行的主動樣本中毒攻擊導致殺毒軟件誤將正常文件識別為惡意程序。

目前尚無解決良策

數據中毒最大的問題在于其修復非常困難。依據用途和使用者偏好，機器學習模型每隔一段時間會使用新收集的數據重新訓練。由于數據中毒是長期累積的，且通?？缭蕉鄠€訓練周期，想要確定模型預測的準確性什么時候開始發生偏差是非常困難的。

Patel表示，要想恢復數據中毒產生的影響，就需要耗費大量時間分析受影響部分的歷史輸入記錄，對所有不良數據樣本加以識別并刪除。在這之后，還要對受攻擊前的版本的機器學習模型進行再培訓。然而，現實中在面對海量數據處理和大量網絡攻擊的情況下，通過這種方式進行再培訓根本不可行，導致模型無法修復。

微軟“可信賴機器學習”部門首席架構師Hyrum Anderson談到：“學術界現在有一種全新的概念很吸引人，雖然還無法實際運用，但那是遲早的事，就是所謂的機器反向學習。為GPT-3（OpenAI開發的一種語言預測模型）模型做一次數據訓練需要花費1600萬美元左右。如果數據是在中毒之后被識別，那么找到中毒數據并且重新訓練的成本是十分昂貴的。但是如果能夠反向學習，比如說要求系統撤銷某些數據的影響、去除它們的權重，那樣建立防御機制要便宜得多。但是，我認為機器反向學習距離實際運用至少還有數年時間，所以目前的解決辦法還是用有效數據對模型進行再培訓，盡管該方式難度極高且花費極大?！?/p>

重點在于檢測和預防

既然修復中毒模型難度極大，模型開發者必須花大功夫研究能夠阻止中毒攻擊或者能夠在下次訓練周期之前檢測出惡意數據輸入的工具。這些工具包括輸入有效性檢查、速率限制、回歸測試、人工審核以及用各種統計學原理檢測數據異常的技術等。

比如說，如果大量數據來自于同樣的少數幾個賬戶、IP地址或者用戶，那么這些數據不應在機器學習模型的訓練數據中占較大比例，應對訓練數據接受單個特定用戶提供的數據量以及所占權重加以限制。通過“暗啟動”（向一小部分用戶提前發布新功能），可以將新完成數據訓練的分類器與以前的進行比較，分析輸出有何不同。谷歌的Bursztein還建議構建一個“黃金數據庫”，任何重新訓練的模型都要對其做出精確預測，從而幫助檢測系統進化。

Anderson表示，數據中毒只是系統中更為廣泛的問題中的一種特例，歸屬于數據漂移。每個人都會因為各種原因獲取壞數據，現在也有很多人在研究數據漂移的對策以及檢測運行數據和模型性能出現重大變化的工具，包括大型云計算供應商在內。包含此類功能的服務有Azure Monitor（微軟Azure的一項完整堆棧監視服務）和Amazon SageMaker（亞馬遜的一項機器學習托管服務）。

Anderson還說：“如果模型性能在在訓練后明顯下降，不管是因為遭到中毒攻擊還是僅僅收到一批不良的數據所導致，系統都能夠檢測得到。如果要解決此問題，就要徹底清除造成影響的中毒攻擊或者在模型訓練中無意進入系統的不良數據。因此，類似的工具在處理中毒攻擊問題上是很好的開端，這種AI風險管理框架已經逐漸在業界內形成規模?！?/p>

攻擊者要進行中毒攻擊同樣需要獲取模型運行方式的信息，所以盡可能少地泄露信息、為訓練數據和模型本身提供強有力的訪問權限管理至關重要。從這個角度來看，機器學習防御與系統和數據的安全性和規范操作緊密相連，例如權限控制、啟用日志記錄、啟用文件和數據版本控制等。

Anderson表示，人工智能和機器學習模型的安全性大多與最基本的數據讀寫權限和模型、系統、服務器的訪問權限有關。在這種情況下，一些常規目錄下擁有高許可權限的小型數據服務或文件則容易導致中毒攻擊。

防范工作任重道遠

正如企業會對其網絡和系統進行常規的滲透檢查來發現薄弱環節，此類檢查應該擴充到機器學習環節當中，并將機器學習視為大型系統或程序安全的一部分。

Patel說：“開發者在構建模型時應該對模型本身進行模擬攻擊，從而了解怎樣才能對模型發動攻擊，進而嘗試構筑能夠抵御這些攻擊的防御措施。檢測結果取決于模擬攻擊的數據，所以在對模型實施攻擊時可以觀測數據點有何特征，然后再建立相應機制，將與中毒攻擊類似的數據點丟棄?！?/p>

Anderson正在積極參與微軟的機器學習模型防御工作。他在最近的一次USENIX Enigma會議上的演講中展示了他的團隊在微軟所做的一種模擬攻擊嘗試。他們設法對一個資源供應服務使用的機器學習模型進行了逆向工程，這個模型可以保障虛擬資源有效分配并映射到硬件當中。

在無法直接訪問此模型的情況下，Anderson的團隊獲取了足夠多的關于模型如何收集數據的信息，從而創建了一個本地的復制模型，并對該模型發起躲避性攻擊，且未被系統實時檢測到。這樣一來，他們得以確定在一天中的什么時候、在哪些區域，以及以什么樣的虛擬機器、數據庫、大小和復制因子的組合來向實際的系統發起請求，能夠大概率確定機器學習模型向他們請求的提供高可用性服務的物理主機過度配置資源。

對于這些超額配置的資源，團隊利用一個占用很多CPU和內存資源的負載發起了“吵鬧鄰居”攻擊（一種壟斷帶寬、磁盤和CPU等資源的云計算架構），對托管在同一個硬件上的高可用性服務造成了拒絕服務攻擊。Anderson總結到：“這次攻擊與IT系統出現的惡意攻擊驚人的相似。它們都具備反滲透、躲避監控和執行環節，最終影響服務的可用性?！?/p>

本文作者Lucian Constantin為美國CSO網站的資深作家，長期專注于信息安全、隱私和數據保護等主題。

原文網址

https：//www.csoonline.com/article/3613932/how-data-poisoning-attacks-corrupt-machine-learning-models.html