999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向機器學習的安全外包計算研究進展

2023-07-20 11:20:52陳珍珠周純毅高艷松付安民
計算機研究與發展 2023年7期
關鍵詞:用戶模型

陳珍珠 周純毅 蘇 铓 高艷松 付安民

1 (南京理工大學計算機科學與工程學院 南京 210094)

2 (廣西可信軟件重點實驗室(桂林電子科技大學)廣西 桂林 541004)

伴隨網絡通信、云計算、人工智能技術的快速發展,大數據已經融入醫療、教育、金融、電商等多個行業領域,新技術應用屢見不鮮.智能醫療、智能交通、智能電網等一系列泛在計算應用場景的普及標志著云計算和機器學習技術在智能終端數據處理上已融為一體[1].盡管近年來,終端智能化衍生出分布式計算模式,推動計算由云端趨向邊端和終端,但是終端數據過載和傳輸速率提高也給云計算帶來新的生機[2].目前,云計算仍然呈現蓬勃發展態勢.據Statista 的統計數據[3]顯示,全球云計算市場持續增長,在2021 年的銷售額接近4 000 億美元,而預計到2023 年底這一數額將達到5 917.9 億美元.

眾所周知,云計算是一種按需配給資源的商業計算模式[4].通過配備大量商用計算機群,云服務商可以為用戶提供可伸縮的計算資源和靈活的綜合云服務,包括但不限于服務器、存儲、數據庫、網絡、軟件、數據分析和商業智能等.企業采用按需付費,無需大量的前期投資即可快速訪問所需的計算資源,更快研究和開發創新產品,并有效降低研發成本[5].此外,集成軟件即服務(software as a service,SaaS)、平臺即服務(platform as a service,PaaS)和基礎設施即服務(infrastructure as a service,IaaS)的云供應商可以為企業提供從創新到運營所需的一切技術和服務,迎接數字時代的挑戰,其中包括人工智能、區塊鏈和物聯網等創新技術.特別是,隨著大數據時代的到來,數據處理的計算開銷和資源消耗越來越大,計算任務變得日益復雜.面對產品以及業務智能需求時,資源有限的企業可以將機器學習任務外包給云服務商,通過借助云計算的處理能力和分析技術,完成信息挖掘和數據處理,同時節省升級計算設備帶來的高昂費用.

機器學習是一種使機器模仿智能人類行為能力的人工智能技術[6].通過輔以數字、照片或文本數據,機器學習算法讓計算機通過經驗學習進行編程(即構建模型).數據越多,模型性能越好.因此,機器學習模型訓練需要強大的數據存儲和處理能力.通過資源連接,云計算可以承接該計算服務,幫助用戶輕松試驗各種機器學習技術.此外,企業還可以將機器學習模型托管在云端,經由API 接口為目標客戶提供推理服務.相比于點對點(peer to peer,P2P)模式,云端托管可以減少因網絡帶寬或服務器故障出現的訪問延遲問題,高效執行任務.同時,云端資源的可擴展性為托管模型的調整和改進提供可能,避免了數據遷移帶來的額外開銷.

盡管將機器學習任務外包給云服務商優點眾多,但由于云端計算不透明且缺少有效監管,外包計算的數據隱私性和計算安全性仍受到外界質疑.為了解決面向機器學習外包計算的安全難題,學術界和產業界人員著手做了一系列研究.不同于模冪運算[7]、矩陣計算[8-9]等傳統基礎計算的外包安全研究,面向機器學習外包安全研究更著重于技術應用,平衡安全與性能.此外,云提供商也開始致力于安全技術研究,以應對潛在的威脅和滿足用戶的監管要求.公有云、私有云、混合云以及多云合作的復雜計算模式和終端設備整體計算能力的提升都給外包計算安全帶來更復雜的挑戰[10].

因此,本文重點調研和分析了2018—2022 年網絡與信息安全領域的四大頂級會議(IEEE S&P,ACM CCS,NDSS,USENIX Security)以及IEEE TDSC,TIFS等著名安全期刊論文.基于這些研究成果,本文梳理了這5 年來研究者提出的面向機器學習的安全外包計算方案,文獻來源分析統計如圖1 所示.可以發現,面向機器學習的安全外包計算研究成果總量不多,呈逐年持平態勢且每年都有頂級會議論文產出.從圖1(b)關于文獻的研究主題可以看到,這5 年的研究主要關注邏輯回歸、樸素貝葉斯分類、支持向量機、決策樹和神經網絡等典型機器學習算法.研究文獻的統計情況反映了面向神經網絡的安全外包研究隱藏著大量尚待發掘的問題值得研究人員繼續跟進.

Fig.1 Statistics analysis of research literature source from 2018 to 2022圖1 2018—2022 年調研文獻來源統計分析

本文的主要貢獻包括3 個方面:

1)給出了安全外包計算的通用框架和威脅模型,結合目前機器學習安全外包研究成果,從外包的機器學習任務階段和云服務商數量,對計算模型進行了分類,總結了不同分類模式下的外包模型特點.

2)重點從邏輯回歸、貝葉斯分類、支持向量機、決策樹和神經網絡等機器學習典型算法深入分析了現有安全外包計算研究進展,并對面向機器學習的安全外包計算研究進行了對比分析與探討.

3)結合機器學習和云計算技術發展特點,分析了現有機器學習安全外包研究工作存在的不足,并重點從數據安全與效率平衡、計算完整性保護和遷移學習安全外包3 個方面探討了機器學習外包安全研究面臨的挑戰以及未來研究方向.

1 安全外包計算典型模型

本節簡要介紹了外包計算威脅模型以及安全外包計算的系統框架.

1.1 外包計算與威脅模型

外包計算通過將計算問題委托給云服務商處理,無需額外購買和升級計算設備,解決了用戶資源受限的困境.不過,外包計算并未考慮服務提供商的安全可靠性.云服務商是營利商業個體,可能因逐利而非法收集用戶數據.此外,由于云端操作的無監督和不透明,用戶獲取的計算結果可能因硬件故障或外部攻擊而不符合要求.如圖2 所示,外包計算主要包含半可信云服務商和惡意云服務商2 種威脅模型[11].

Fig.2 Threat model for outsourced computing圖2 外包計算威脅模型

1)半可信云服務商.誠實遵守外包協議,正確進行計算.一旦獲得正確的結果,半可信云服務商向用戶發送結果.盡管如此,由于用戶的外包數據和計算結果可能含有對半可信云服務商有用的信息,因此,云服務商可能覬覦用戶的數據,私自留存進行轉賣或商業分析.

2)惡意云服務商.相當于一個惡意的攻擊者,在計算過程中可能偏離外包協議的正確流程.惡意云服務商不僅試圖從用戶的數據中學習隱私信息,而且還會故意偽造結果,欺騙用戶以節省計算資源.

外包計算面臨的威脅主要包括數據泄露和結果不可靠.因此,外包計算安全主要包括2 個方面[12]:

1)數據機密性.指對用戶外包給云服務商的輸入和輸出數據進行保護,使其隱私信息不被非授權者(即云服務商)獲取和利用的特性.

2)計算完整性.指對計算輸出結果進行驗證,保證數據按照用戶指定要求進行處理,計算任務沒有被未經授權的方式進行修改,其輸出結果滿足計算任務的要求.

云服務商可能受利益驅使損害外包計算的數據機密性和計算完整性.為了外包計算服務的良好發展,提供保護用戶利益的安全外包方案需要著重考慮數據機密性和計算完整性保護問題.

1.2 安全外包計算框架

安全外包計算系統包含2 個不同實體:用戶和云服務器.用戶加密數據后將計算任務外包給云服務器處理,云服務器完成計算后,將計算結果發送給用戶進行驗證和解密[13].因此,安全外包計算通用模型[1]一般包含5 個模塊:密鑰生成、數據加密、任務計算、結果驗證和數據解密.5 個模塊以鏈式聯結,模型框架如圖3 所示.

Fig.3 General model for secure outsourced computing圖3 安全外包計算通用模型

1)密鑰生成.根據外包協議設計,密鑰生成模塊會設計相應的密鑰生成算法生成密鑰(單個密鑰或公私鑰對)并完成密鑰的分配.該模塊可以由用戶或者可信第三方完成.

2)數據加密.對用戶需要外包的計算問題,數據加密模塊會對問題中涉及的隱私數據進行加密.數據加密算法的設計需要考慮用戶輸入和輸出的隱私安全.考慮到數據安全性,該模塊一般只由用戶完成.

3)任務計算.當用戶將加密后的計算任務委托給云服務商后,云服務商根據用戶要求完成計算.

4)結果驗證.對云服務商返回的結果,結果驗證模塊會驗證結果輸出的正確性,判定云服務商是否如約履行計算.該模塊確保了計算完整性.

5)數據解密.數據解密模塊是對驗證后的計算結果進行解密操作,獲取計算結果的明文.該模塊由用戶完成,因此在確保云服務商返回的結果滿足要求后,該模塊才生效,以免給用戶增加不必要的計算開銷.

2 機器學習安全外包計算模型

本節分別從外包的機器學習任務階段和云服務商數量等不同分類模式下,詳細闡述機器學習安全外包計算模型的特點.

2.1 機器學習任務階段

一個機器學習模型的完整任務階段包括模型訓練和模型推理.模型訓練是通過揭示數據相關性從而構建利用該相關性評估目標數據的模型.因此,模型訓練需要通過機器學習算法輸入樣本數據,利用機器學習算法幫助識別和學習數據特征屬性,特別是將處理后的數據輸出與樣本輸出相關聯,利用相關性的結果對模型進行了修正,從而使模型得到預期輸出.模型推理是模型通過簡化并使用訓練獲得的能力對待驗證的目標數據執行推理,獲得預期結果.

在機器學習中,模型訓練由于相比模型推理資源消耗更多,因此也是用戶??紤]外包的計算任務.不過隨著產業智能化發展,模型推理的商用場景增多,用戶也會將推理任務委托給云服務商,以節省時間和計算資源.考慮到用戶的需求即委托給云服務器的任務不同,面向機器學習的安全外包計算研究一般可分為模型訓練和模型托管2 種模式,如圖4 所示.

Fig.4 Two modes classified by task phase of machine learning圖4 按機器學習任務階段分類的2 種模式

1)模型訓練模式,如圖4(a)所示.模型訓練中,一般包含2 類個體:用戶和云服務商.用戶擔任數據提供者角色,云服務商承擔模型訓練任務.出于對數據保護的需要,用戶會將訓練數據加密后再發送給云服務商,要求其訓練目標模型.云服務商需要在密文數據上構建模型,期間可能與用戶進行計算交互.為了確保有效的數據保護和密文計算,模型中也會引入可信實體進行密鑰生成和分發.此外,方案中也可能引入多個云服務商共同承擔計算任務.

2)模型托管模式,如圖4(b)所示.與模型訓練模式不同,模型托管外包場景下的用戶并非模型所有者,而是查詢者.模型所有者將訓練好的模型托管到云端,要求云服務商代理模型推理任務.用戶發送查詢數據給云服務商,云服務商根據模型推理,向用戶返回查詢結果.為了保護數據隱私,用戶將查詢數據進行加密,且要求查詢結果對云服務商保密.推理過程一般不要求模型所有者參與,即支持模型所有者離線.

盡管這2 種模式中用戶數據需要進行加密,但是模型訓練模式的協議設計側重云端密文計算的實現;模型托管模式則專注用戶和云服務商之間的交互.針對同一種機器學習算法,雖然2 種模式分管機器學習任務的不同階段,但是兩者的算法計算操作相似,其安全計算協議可以相互拓展和借鑒.

2.2 云服務商數量

針對數據機密性保護,機器學習外包計算研究采用了多種方法,如全同態加密(fully homomorphic encryption,FHE)、差分隱私、安全多方計算(multiparty computation,MPC)等.根據采用的數據保護方法,需要考慮采用單個云服務商模式還是多個云服務商模式幫助用戶完成外包計算任務.因此,考慮到涉及的云服務商數量,面向機器學習的安全外包計算研究還可分為單云(云服務器數量為1)模式和多云(云服務器數量大于等于2)模式,如圖5 所示.

Fig.5 Two modes classified by the number of cloud service providers圖5 按云服務商數量分類的2 種模式

1)單云模式,如圖5(a)所示.單云模式中,用戶將機器學習計算任務(模型訓練或者推理)外包給一個云服務商進行處理.用戶不需要考慮數據分割或模型切割.因此,單云模式的最大優點在于其簡單高效,更容易協調.不過,單云模式通常采用FHE 加密實現數據保護,而該密文操作資源消耗極大,會極大地增加用戶的訓練費用或查詢時間.

2)多云模式,如圖5(b)所示.多云模式中,機器學習計算任務交由多個云服務商共同處理.云服務商通過一系列安全多方協議完成模型訓練或推理.各個云服務商以用戶的部分數據作為輸入,并在整個計算過程中保持數據隱私性,然后將結果返回給用戶.多云模式可以幫助用戶采用非密碼學工具,如加性秘密共享方式來保護數據隱私.因此,云服務商可以更快地處理計算任務.此外,多云模式可以避免單點故障,即使其中一個模塊無法訪問,用戶仍然可以執行一些關鍵任務.不過,多云模式安全假設高,一般要求云服務商之間不串通共謀.

單云模式和多云模式的選擇取決于計算和通信的取舍.單云模式不需要用戶與多個云服務商交互,亦不需要云服務商之間的交互,因此通信開銷較小.但是,支持單云下的密文計算一般只能選擇FHE.多云模式可以通過數據分割實現隱私保護,避免了復雜的密文計算,但同時計算過程中也需要用戶與云服務商之間的交互,同時增加了多個云服務商的多輪交互計算.因此,出于實用性考慮,單云模式和多云模式的選擇要同時考慮具體機器學習算法和計算場景,并做好安全性和效率的權衡.

2.3 小 結

通過對2018—2022 年這5 年機器學習的安全外包相關文獻采用的模型進行統計,發現機器學習的安全外包計算研究重點由模型訓練趨向模型托管,單云模式與多云模式的應用情況基本持平,如圖6所示.從2021—2022 年的研究情況來看,機器學習安全外包研究已經趨向多云模式.相比于面向基礎計算的外包計算研究多采用同態加密(homomorphic encryption,HE),且因通信問題和共謀威脅而較少采用MPC 支持多云模式,而面向機器學習的安全外包研究偏向應用型,MPC 協議在多云模式中也嶄露頭角.外包計算是用戶用金錢換取計算資源,因此安全外包計算方案的設計需要考慮數據機密性和計算完整性保護之外,還需要平衡計算效率.例如,高安全性的FHE 支持云服務商進行任意密文計算,但是計算高昂,不利于模型在云端的訓練和應用部署.因此,模式的選擇與數據隱私保護和計算效率的平衡密不可分.

Fig.6 Model statistics of machine learning security outsourced research圖6 機器學習安全外包研究模型統計

根據統計調研,表1 給出了機器學習外包計算模型應用趨勢特點,具體總結為4 個方面:

Table 1 Features of Machine Learning Outsourced Computing Modes表1 機器學習外包計算模型的特點

1)云服務器和數據源由單個趨向多個.機器學習模型的訓練和推理涉及多種計算,包括線性計算和非線性計算.單云模式中一般采用FHE 來支持多種運算,保護數據隱私,但FHE 會嚴重拖慢模型計算進程.多云模式的引用可以分攤計算,加快計算進程.此外,機器學習基于數據建立統計模型進行分析預測,算法由數據驅動.因此,用戶趨向聚集多源數據或者多個用戶共同委托云服務器訓練模型來提高機器學習模型性能.不過,多數據源場景中需要考慮不同密鑰加密的密文對模型計算的影響.

2)用戶端計算由在線趨向離線.面向機器學習的安全外包計算方案需要考慮現實應用場景.模型所有者將模型托管在云端以降低實施和運行成本,同時用戶期望減少查詢等待時間(即響應時間).因此,機器學習安全外包研究考慮將用戶與云服務器的交互計算轉移到云服務器之間,以支持用戶離線.

3)外包階段由訓練趨向推理,模型托管由明文趨向密文.隨著分布式學習[14]的興起,機器學習模型訓練方式趨向分布式.受此影響,面向機器學習的安全外包研究將重點轉向模型托管的安全問題.在模型托管中,相比私有評估(即明文模型托管),密文模型托管外包除了需要保護查詢數據和結果隱私外,還需要考慮模型機密性保護問題,安全性更高.

4)威脅模型主要考慮半可信.隨著監管規范要求和競爭加大,機器學習安全外包研究主要考慮半可信威脅,去掉了計算完整性考慮.但是,驗證模塊的缺失并沒有為用戶節省很多計算開銷,而多云和多用戶模式的引入增加了隱私泄露的風險.

這些趨勢表明了機器學習外包計算面臨的安全威脅多元且復雜.根據應用場景,針對性選擇模型部署模式,定制設計算法模塊對機器學習安全外包研究至關重要.

3 典型機器學習算法安全外包計算研究進展

本節根據機器學習常見的不同算法,對2018—2022 年的相關安全外包計算研究工作進行了梳理和分析,總結了目前研究存在的問題及不足之處.

3.1 邏輯回歸

邏輯回歸[15]是一種統計模型,是監督學習中常用的預測二元結果的分類器.邏輯回歸本質是將線性回歸的輸出用Sigmoid 函數進行映射來估計事件發生的概率,即輸出結果數值在0 和1 之間.給定變量X和模型參數θ,邏輯回歸模型表示為

文獻[16]針對模型訓練提出了一個基于HE 的邏輯回歸安全外包方案.相比于之前的邏輯回歸外包研究工作[17-18],該方案主要解決了2 個問題:1)由于計算量較小,基于推理階段的安全外包難以應用于訓練階段;2)云端的密文計算量大,并隨著多項式級數增加呈指數增長.該方案采用近似FHE 方案和近似Bootstrapping 方法來減少計算開銷.一方面,通過支持高效的近似計算的FHE 方案加密訓練數據,同時采用Nesterov 加速梯度法作為優化方法和最小二乘擬合方法模擬Sigmoid 函數,可以快速計算出復雜操作的近似結果并避免密文除法操作.另一方面,設計并行化Bootstrapping 操作算法,將密文分割成多個小塊,并行執行Bootstrapping,可以顯著提高整體性能.此外,該方案通過對訓練數據集分區,將子數據集打包成一個密文,避免了密文重構的額外開銷.實驗證明,該方案具有較好的性能提升,但引入的加密方案對訓練模型的精度和性能的影響并不顯著.

文獻[19]重點探討了生物醫學場景中的邏輯回歸模型在公共云環境下的訓練問題,提出了SecureLR框架,幫助研究人員利用云計算對生物醫學數據進行學習和預測.基于HE 和軟件保護擴展SGX 的安全硬件,SecureLR 考慮采用雙云模式,一個執行HE計算,另一個支持安全硬件計算.相比于文獻[16]的方案,SecureLR 采用了HE 和安全硬件相結合的混合模式,提供了一種多層面的數據提供方法.文獻[16]和文獻[19]都采用了密文批處理,用一種單指令多數據(single instruction multiple data,SIMD)的方式實現并行處理,提高計算效率.

跟進研究[20-21]延續了應用FHE 加密數據和模擬Sigmoid 函數的設計,但是在細節上略有差異.文獻[20]改用泰勒展開式進行逼近Sigmoid 函數,而文獻[21]仍然選用最小二乘法.除此之外,文獻[21]提出的P2OLR 方案允許數據所有者和云服務器在訓練過程中交互,判斷密文訓練的模型是否滿足要求,避免錯誤訓練浪費資源.不過盡管FHE 支持密文加法和乘法,但逼近Sigmoid 函數的多項式每一次運算都會疊加噪聲,而Bootstrapping 操作雖然可以重置噪聲,但計算成本極大.為此,文獻[22]提出了一種不同的隱私保護方法支持邏輯回歸的安全外包.該方法不需要用多項式逼近Sigmoid 函數以及預先確定多項式級數,而是將其轉化為對應的嶺回歸邏輯函數并采用層次HE 方法.如圖7 所示,該方案包括3 個步驟:1)用未加密的數據集D1訓練教師模型fs,從目標標簽中提取概率;2)利用加密教師模型推導出加密數據集D2的邏輯值,通過均值匹配進行優化;3)在D2上訓練嶺回歸.具體來說,該方案通過將加密變量和非加密變量的運算分開從而采用免Bootstrapping 的層次HE 方法實現數據保護,同時采用均值匹配緩解了由于未加密數據和加密數據分布差異而導致的模型性能下降問題.實驗表明,應用層次HE 方法不僅具有更好的分類效果,且計算時間更短.

Fig.7 Training logistic regression by ridge regression圖7 通過嶺回歸訓練邏輯回歸

表2 總結了已有的邏輯回歸外包方案的對比情況.可以看到,現有的邏輯回歸外包方案主要采用單云模式且重點考慮模型訓練階段的外包安全問題.盡管現有方案都傾向采用密文打包,用SIMD 實現并行化處理以提高計算效率,但是在實際應用中FHE帶來的計算開銷不容樂觀.此外,現有的方案都假定參與實體為半可信或可信且不共謀,但是在現實世界中仍然存在惡意參與者破壞或竊取模型.因此,如何在惡意敵手假設下提高外包方案的安全性并降低計算開銷需要進一步研究.

Table 2 Comparison of Logistic Regression Outsourced Schemes表2 邏輯回歸外包方案對比

3.2 樸素貝葉斯分類

樸素貝葉斯分類[23]是基于貝葉斯定理的分類算法集合,通過對數據屬性集和數據類之間建立概率關系判定數據的類別.給定數據X=(x1,x2,…,xd)、類別集{c1,c2,…,cm}、先驗概率{P(C=c1),P(C=c2),…,P(C=cm)}和條件概率是類ci時的第j個屬性為v的概率),則樸素貝葉斯分類定義為

文獻[24]專注樸素貝葉斯分類的推理外包,提出了一種樸素貝葉斯分類模型的安全托管方案.如圖8 所示,模型所有者采用Paillier 算法對分類器進行加密后將其托管到云端,并向用戶授權查詢令牌和私鑰.授權用戶用私鑰加密查詢數據,而云服務器存儲加密模型,并對授權用戶的查詢做出響應.該方案通過加法HE 同時完成分類器模型和用戶數據的機密性保護.不過,該方案需要用戶和服務器頻繁交互,通信開銷較大,對資源受限的用戶并不友好.因此,文獻[25]提出了改進方案.改進方案引入了一個可信處理器,承接原本查詢過程中用戶需要完成的解密操作,使用戶在與服務器不超過2 次的交互后即可獲得查詢結果.

Fig.8 Naive Bayes classification model hosting framework圖8 樸素貝葉斯分類模型托管框架

文獻[26]指出文獻[24]的方案容易遭受替換攻擊,被竊取模型信息,即查詢用戶可以在執行argmax協議期間特意替換一些值從而恢復模型參數.針對這一漏洞,文獻[26]引入了盲化技術,向模型添加特定的擾動值,使惡意用戶無法在執行替換攻擊后獲得模型參數的有效信息.此外,方案改用OU 加密算法[27],減少了用戶與服務器之間的交互次數,提高了計算效率.實驗證明,該方案可以在防止替換攻擊造成的信息泄露下有效降低計算成本和通信負擔.

文獻[28]重點關注樸素貝葉斯分類的訓練外包.針對現有研究[29-30]中存在的不支持多個數據提供者和統計信息泄露的問題,文獻[28]將Paillier 加密算法和差分隱私技術相結合,提出了多數據源的樸素貝葉斯學習外包方案.該方案通過Paillier 算法加密數據,支持不同數據所有者上傳的密文加法計算,利用差分隱私向訓練模型中添加噪聲,使模型使用者無法從訓練器判定數據所有者是否擁有某個樣本.不過,文獻[28]的作者未在實驗中提供模型性能的評估結果,尚無法確定差分隱私對模型準確度是否產生影響.

針對在線疾病風險診斷,文獻[31]基于貝葉斯分類設計了支持模型動態更新的疾病風險評估CARER方案.CARER 方案實現了云服務器上的模型訓練到模型推理的承接.模型提供商可以收集多個醫療中心的密文數據進行模型訓練和更新,同時為用戶提供疾病風險預測服務.CARER 方案引入了一個可信實體用來分發密鑰.相比于之前的研究,CARER 方案通過將密鑰切割和聚合,防止模型提供商恢復醫療中心的數據統計信息,同時支持模型的明文訓練,提高了模型計算效率.

表3 總結了已有的樸素貝葉斯分類外包方案的對比情況.可以看到,現有的樸素貝葉斯分類外包方案都采用單云模式,但會考慮引入可信實體承擔密鑰處理工作以增加安全性.考慮到樸素貝葉斯分類算法中以加法操作為主,大部分方案選用Paillier加密算法保護數據和模型的機密性.不過,與邏輯回歸外包研究類似,現有方案都只考慮半可信安全,盡管文獻[26]考慮了存在惡意用戶情況,但是僅針對文獻[24]的漏洞,不具有普適性,計算完整性保護問題仍待解決.

Table 3 Comparison of Naive Bayesian Classification Outsourced Schemes表3 樸素貝葉斯分類外包方案對比

3.3 支持向量機

支持向量機[32]是一種常見的監督機器學習模型,它主要用來解決二分類問題.支持向量機通過訓練數據集在高維空間尋找超平面分隔數據點來確定決策邊界.支持向量機也可以通過為每一類數據創建一個分類器,解決多分類問題.假設訓練集包含N個樣本即{(x1,y1),(x2,y2),…,(xN,yN)},其中yi∈{-1,1},i∈{1,2,…,N}.對線性可分問題,可以直接尋找決策超平面w·x+b=0.分類器模型定義為

盡管之前關于支持向量機外包安全研究[33-34]已經采用相關隱私保護技術,如隨機擾動、加法同態和安全多方計算,嘗試解決了外包訓練中存在的數據隱私問題,但是后續的研究發現它們仍然存在可靠性和安全性問題.比如,文獻[35]指出文獻[34]的Paillier 密文計算中由于存在溢出風險,[[zmod10l]]*[[rmod10l]](*表示同態密文乘法)不一定等于[[(z+r)mod10l]],因此云服務器可能返回錯誤的分類結果.為了解決這一問題,文獻[35]采用了一種混合方法,將HE 和混淆電路(garbled circuits,GC)結合,避免溢出風險,減少計算時間.

針對模型僅支持單個數據所有者的問題[34],文獻[36]則在制藥應用場景下探討了多數據源的支持向量機訓練外包安全問題,提出了POD 方案.POD方案支持云服務器采用多個數據所有者的數據來訓練支持向量機模型,并提供查詢.為了解決多用戶采用不同密鑰加密的密文不支持同態計算的問題,POD 方案特別設計安全域轉換算法,將不同密鑰中的密文轉換為一個域,支持密文計算.同時,針對密文的明文長度存在溢出的問題,設計了分數近似協議減小明文長度.然而,文獻[37]認為只給定密文情況下無法判定明文長度,因此該分數近似協議并不實用.為此,設計了一種控制浮點數在安全計算過程中比特長度的協議,強化了分數近似協議,消除了預知消息長度的前提.

除此之外,文獻[38]針對現有研究[39]中存在計算開銷大的問題,提出了PPSVM 方案.該方案通過使用SIMD 技術來加速支持向量機中內積求和操作,即線性計算,同時使用近似方法來計算符號函數,即非線性計算部分.文獻[40]考慮了惡意云服務器偽造結果欺騙用戶的情況,針對半可信和惡意威脅模型提出了解決方案AADP.該方案綜合使用安全哈希函數、Householder 變換和隨機排列,保證了數據機密性、模型機密性以及結果可驗證性.文獻[41]則考慮了惡意用戶對模型隱私的影響,提出了一種基于多分類支持向量機的隱私保護醫療診斷方案.該方案采用DT-PKC 和BGN 密碼系統,保護用戶數據隱私,同時提出了用戶認證機制用于規避非法用戶對診斷系統的惡意攻擊.如圖9 所示,方案AADP 要求對每個用戶身份進行真實性驗證(如醫療資質),驗證通過后會分發給用戶一個包含公鑰、頒發者、過期日期等信息的文件.發送查詢請求時,用戶需要在第三方的協助下發送時間戳和證明文件.但是,由于方案AADP 采用的BGN 加密算法是基于雙線性映射,增加了同態乘法的計算開銷,降低了方案的計算效率.

Fig.9 User authentication mechanism圖9 用戶身份認證機制

表4 總結了已有的支持向量機外包方案的對比情況.可以看到,現有的支持向量機外包方案大多采用HE 技術.但是由于計算中涉及非線性操作,部分方案采用在線交互的模式.通過用戶與服務器多次交互對中間結果進行加解密完成非線性計算,給用戶帶來額外的計算和通信開銷.盡管有研究[40]考慮解決了支持向量機外包中的計算完整性保護問題,但是提出的方案對矩陣盲化的數據大小比較缺乏正確性推導.因此,文獻[40]方案的有效性也存在質疑,支持向量機外包中的計算完整性保護問題仍值得后續跟進.

Table 4 Comparison of Support Vector Machine Outsourced Schemes表4 支持向量機外包方案對比

3.4 決策樹

決策樹是一種樹形結構的非參數監督學習算法,是目前最流行的機器學習算法之一,用于回歸和分類.決策樹包含1 個根節點、多個內部節點和葉節點,節點之間通過分支連接,每個節點通常有2 個或多個從其延伸的節點.分支是連接節點的箭頭,通過在根節點和內部節點上采用閾值比較,決定分支走向,形成決策路徑.目前常用的決策樹生成算法有ID3,C4.0,C5.0 等[42].

早先關于決策樹的外包安全研究[43-45]主要集中在私有評估上,即云服務器持有明文形式的模型.大多數方案依賴FHE,GC,ORAM 保護用戶的查詢數據,計算開銷較大.文獻[46]探討了私有評估中3 個子協議:特征選擇、比較和路徑評估,分析并評估了分別使用加性HE 和GC 時協議的效率,發現采用混合協議可以有效提高模型的評估效率.文獻[47]則針對協議執行輪次進行改進,通過將樹表示為一個數組,將執行深度控制在樹的深度.

文獻[48]提出了一種密文模型托管的安全外包方案.該方案基于雙云模式,采用加性秘密共享方法解決了模型托管和推理過程中的安全輸入特征選擇、決策節點評估和推理結果生成保護問題.具體而言,查詢用戶將特征向量分成2 個秘密共享,分別分發給2 個云服務器,云服務器收到數據后進行交互計算運行決策樹算法,并發送結果給用戶解密.整個查詢過程不需要用戶在線.之后,研究人員又在拓展版文獻[49]中提出了一個基于多項式的結果生成算法,進一步降低了用戶的通信開銷.不過,文獻[50-51]指出文獻[49]方案的計算成本隨節點數量呈指數增長,不適用于大規模樹,并提出了優化方案.針對密文模型托管,文獻[52]也提出了一種決策樹分類外包方案.不同的是,該方案采用了單云模式,并將決策樹轉換為決策表,如圖10所示.決策樹轉換可以將模型推理轉換為決策表查找.具體來說,模型所有者通過將決策樹分類器轉換為一個決策表,并采用可搜索對稱加密對其處理后再托管到云服務器上.用戶加密數據特征后再發送給服務器進行查詢.云服務器通過對比加密表格搜索預測值,并發給用戶.相比其他方案,該方案在保證模型和數據機密性的同時也降低了用戶和云服務器之間的通信開銷.文獻[53]則在此基礎上,考慮了惡意用戶威脅,引入了用戶身份認證協議.

Fig.10 Decision tree transformation圖10 決策樹轉換

針對現有方案不支持密文數據上的模型訓練問題,文獻[54]提出了一個具有隱私保護的外包方案支持決策樹的訓練和預測.該方案采用FHE,并利用密鑰管理服務(key management service,KMS)提供密鑰支持多個云服務器在密文數據上進行模型訓練和模型預測.不過該方案需要滿足密鑰一致性,可能存在不適用于多數據源場景.文獻[55]將重點轉向多數據源場景下的模型訓練外包,構建了PPDT 方案,并針對私有評估提出了PPDE 方案.這2 個方案都采用了DT-PKC 加密算法保護數據隱私.此外,考慮到云服務器無法對密文數據集進行最佳屬性劃分,設計了不分割數據集的決策樹訓練方法,分別滿足3種隱私級別:2 個服務器都知道數據屬性頻率;只有1 個服務器知道數據屬性頻率;2 個服務器都不知道數據屬性頻率.在模型訓練后,經過訓練的云服務器得到決策樹模型以提供私有評估服務.

文獻[56]提出了由多個模型所有者托管決策樹進行聯合決策的外包方案,即隨機森林安全外包方案.相比于單個決策樹分類器托管,隨機森林安全外包方案需要對多個決策樹分類結果進行聚合得到最后結果.因此,該方案需要模型所有者們創建一個聯合密鑰,然后用分密鑰加密模型再托管到云端.在收到用戶的查詢請求后,云服務器會對單個加密的隨機森林安全外包方案模型執行推理并計算聚合的結果.

考慮到現實世界中數據流的存在,文獻[57]將模型訓練和推理過程動態連接在一起,即模型可以針對標簽數據和無標簽數據,在訓練和推理中來回切換,并提出了EnclaveTree 方案.該方案包含2 個執行區以及2 個緩沖區:透明訓練區、透明推理區,訓練緩沖區和推斷緩沖區.緩沖區用于接收加密的帶標簽和無標簽數據,分別進行訓練和推理.EnclaveTree方案會周期性讀取一批數據樣本進行訓練,并用矩陣盲化技術進行加密.與現有的決策樹方案相比,EnclaveTree 不僅支持數據流處理,且通信和計算開銷更小.此外,文獻[58]結合樹編碼方法、共享無關選擇功能和安全計算構造了決策樹外包方案,隱藏決策樹評估過程中被訪問節點,并將通信復雜性優化到O(d).

表5 總結了現有決策樹外包方案對比情況.通過分析可以發現,現有的決策樹外包研究主要關注模型托管安全問題,而且主要采用HE 或秘密共享實現數據機密性保護.決策樹推理主要包括3 個部分:特征選擇、比較和路徑評估.對模型托管,尤其是密文模型托管,需要考慮密文比較協議和路徑評估協議的設計,避免比較次數增多帶來的通信開銷和路徑暴露帶來的信息泄露.

Table 5 Comparison of Decision Tree Outsourced Schemes表5 決策樹外包方案對比

3.5 神經網絡

神經網絡[59]是機器學習中最為常用的監督學習算法,也是深度學習算法的核心.神經網絡由多個人工神經元聯結組成,包括輸入層、1 個或多個隱藏層和1 個輸出層.除了輸入層外,其他層神經元都會進行數據處理.單層的神經網絡也稱為單層感知機,其只包含輸入層和輸出層,是最小學習單元,其模型表示為

其中w和b是模型參數,σ(·)是輸出神經元的激活函數.神經網絡可以看作由多個感知機聯結而成.

文獻[60]針對單層感知機(single layer perceptron,SLP)的訓練和推理提出了一種安全外包方案.該方案利用矩陣盲化技術加密訓練數據和查詢數據,保證了數據機密性.不過,文獻[61]指出該方案中用戶端計算開銷為O(n3),并沒有為用戶節省開銷.對此,文獻[61]將盲化矩陣替換為稀疏矩陣,并設計了結果驗證協議,在降低用戶計算開銷的同時保護了計算完整性.不過由于單層感知機的應用較少,不適用于大規模數據,因此未有其他外包安全研究繼續跟進.

文獻[62]針對深度神經網絡的訓練和推理提出了一種基于多密鑰的安全外包方案.該方案支持多個用戶加密數據上傳給云服務器進行模型訓練和推理.多密鑰技術的采用使得云服務器可以進行密文轉換,完成模型訓練.文獻[63]引入了雙云模式,采用加性秘密共享和數據分割完成了區域卷積神經網絡(region convolutional neural network,R-CNN)的安全訓練外包.相比采用多密鑰和秘密共享對訓練數據加密引入了額外的計算開銷,文獻[64]借鑒了聯邦學習的思想,將深度神經網絡(deep neural network,DNN)的訓練分為2 部分.多個用戶在本地訓練DNN的初始層進行特征提取,然后上傳特征,將剩余層訓練外包給云服務器.該方案可以避免數據加密操作的同時防止數據泄露.除此之外,文獻[65]采用秘密共享,引入了3 個云服務器完成DNN 的模型訓練;而文獻[66]采用了矩陣盲化技術加密訓練樣本,降低了用戶和云端的計算開銷.不過文獻[66]方案并未對模型更新中的非線性計算部分給出說明,其方案有效性存在疑問.

除了模型訓練外包外,文獻[67]還考慮了分布式學習框架下模型訓練后的托管問題.為了避免模型的泄露,引入了一個監管者共同托管模型,監管者和云服務器同構MPC 協議,重構乘法和非線性LReLU 激活函數,并分享基于查詢數據的計算結果.文獻[68]提出了一種用于醫療診斷的神經網絡推理外包方案MediSC,該方案針對神經網絡中的線性層和非線性層設計了計算協議,同時采用秘密共享技術,減少了服務器和用戶之間的交互,降低了延遲.除了醫療場景外,文獻[69-70]還分別考慮了移動式磁感測定系統中的特征提取和圖像去噪服務.此外,文獻[71]針對模型推理過程中存在的延遲問題做出了改進,但是方案的計算和通信開銷較大,跟進研究[72-73]對此做了改進.文獻[74]考慮了惡意用戶存在的情況;文獻[75-80]引入了雙云設置加快計算進程.如圖11 所示,雙云模式中,數據采用秘密共享協議進行分割,然后分別發給2 個云服務商.服務商之間采用MPC協議進行模型計算,得到的結果也采用秘密共享形式分別發給用戶.最后,用戶組合得到結果.除此之外,文獻[81-84]也考慮了惡意云存在的情況,將雙云設置拓展到多云設置,解決了在誠實多數環境下的模型推理安全問題.

Fig.11 DNN inference in two cloud modes圖11 雙云模式下的DNN 推理

表6 總結了已有的神經網絡外包方案的對比情況.可以看到,神經網絡外包方案已經逐漸由單云模式轉向多云模式.相比于其他的分類模型,神經網絡的模型訓練和計算更為復雜.因此,多云模式可以引入秘密共享協議,比密文計算更能提升方案計算效率.相對于單云模式,多云模式中常采用GC 和秘密共享,在實用性方面其通信開銷仍然較大.現有采用多云模式的外包方案已經考慮了惡意云服務商的威脅,但是其解決方案是引入多云,且沒有考慮出現共謀情況下的數據和模型隱私安全.

Table 6 Comparison of Neural Network Outsourced Schemes表6 神經網絡外包方案對比

3.6 對比分析與討論

通過對典型機器學習安全外包計算研究深入調研,可以發現面向應用型的外包計算研究已經從簡單模型拓展到復雜模型,但是由復雜的訓練外包轉向模型托管.盡管目前大多數外包方案主要基于半可信威脅,但是仍有研究嘗試解決惡意云服務器和惡意用戶存在下的數據隱私保護問題.相比針對基礎計算的安全外包方案,機器學習安全外包計算研究在數據保護技術的選擇和協議構建上更注重實際應用.比如,決策樹外包研究在解決模型托管問題時,主要采用HE 或秘密共享而非計算開銷極大的FHE.除此之外,單云模式中引入可信實體以及采用多云模式分擔計算,也是為適應實際模型計算中的數據機密性保護做出的努力.

根據調研分析,總結3 個機器學習安全外包計算研究進展趨勢:

1)數據保護技術由單一趨向混合.面向簡單分類模型的外包方案一般采用單一的加密技術,如FHE或加性HE,而面向決策樹和神經網絡的外包方案較多采用HE、GC 和秘密共享的兩者結合或三者結合.混合技術的使用避免了開銷過大的密文計算,同時也減少了用戶與云服務器的交互,易于方案的實際部署.

2)問題的解決思路多樣化.基礎計算的安全外包方案按照計算類型設計數據保護協議,但面向機器學習的外包方案中由于每種模型涉及的計算操作不同,較多且復雜,因此協議設計可以依據模型特點做出改變.比如,在決策樹外包計算研究中可以將決策樹模型轉換成決策表,由密文搜索代替密文比較.在支持向量機外包計算研究中則可采用增加用戶和服務器交互,對中間結果進行加解密,解決密文的非線性計算問題.

3)威脅模型開始討論惡意云服務器和惡意用戶的存在.盡管在面向簡單模型的安全外包研究中較少考慮惡意云服務器和惡意用戶對數據隱私的威脅,但是有研究已經針對惡意用戶提出了身份認證的要求,且考慮引入多云解決惡意云服務器對模型計算安全造成的威脅.不過與傳統的計算完整性保護不同,現有研究提出的解決方案主要針對隱私保護,即數據隱私和模型隱私,未針對驗證問題提出相應的驗證機制.

4 挑戰與機遇

通過對現階段機器學習安全外包研究現狀的深入調研,發現機器學習安全外包研究雖然已經取得了一些顯著的成果,但是仍然存在不足之處.本節從待改進、未解決和新出現3 個層面分析總結機器學習安全外包研究面臨的問題和挑戰以及潛在機遇.

4.1 數據安全與效率權衡

為了保護數據機密性,目前大多數機器學習安全外包方案大多采用犧牲通信或計算來換取數據安全,即采用多云模式結合數據分割或者單云模式結合HE.但是,從外包計算的實用角度來看,密文計算或多云租賃不僅對用戶的本地計算提出挑戰,也增加了云端消耗,即用戶花費.特別對于模型托管中的查詢用戶來說,查詢前的數據加密操作和查詢過程密文計算造成的延遲都可能降低用戶的模型使用意愿,不利于模型所有者的商業發展目的.因此,如何同步平衡外包方案中的計算和通信開銷、減少用戶本地消耗、降低用戶和云服務器的交互輪次,是機器學習安全外包研究目前待改進的問題.

4.2 計算完整性保護

計算完整性保護是外包計算安全研究的核心之一,但是面向機器學習的安全外包方案大部分只考慮半可信威脅,即數據隱私問題.盡管有研究者探索了在惡意云環境下的安全性問題,但是只涉及簡單分類器,如支持向量機[40]、單層感知機[61],面向復雜模型(如神經網絡)的計算完整性保護工作仍存在空白.現實世界中,單云模式中可能因為出現單點故障而計算錯誤.多云模式中如果一方出現惡意計算,則會因為監管缺失無法判定責任所屬.此外,模型訓練中的計算完整性也同樣重要.關于機器學習的模型安全研究[85]已經發現后門攻擊可以在不破壞模型性能的情況下對模型安全造成影響.盡管目前后門攻擊只涉及明文模型,但是這也說明僅通過驗證數據集判定模型性能是否良好不足以保護計算完整性.因此,為用戶設計模型完整性和結果正確性驗證機制可以有效增強機器學習外包方案的安全性,這也是機器學習安全外包研究目前未解決的問題.

4.3 遷移學習安全外包

現有的機器學習安全外包研究已經考慮了多用戶多數據源場景下的模型訓練外包問題,說明數據多樣性有助于模型性能提升.但是,多用戶場景存在用戶異構性,即用戶數據、計算能力和需求不同,異構性會影響外包方案的實際部署.為解決這一問題,可以考慮遷移學習的安全外包.遷移學習可以在較少訓練數據情況下訓練高性能模型,同時減少訓練時間和計算資源.在公眾數據安全意識提高和數據獲取困難的情況下,用戶可以在較少數據時利用遷移學習訓練模型.因此,設計遷移學習安全外包方案,幫助模型所有者安全托管教師模型,支持多用戶采用云資源按需訓練學生模型,以及如何實現數據短缺下的模型訓練,是機器學習安全外包研究新出現的挑戰.

5 結 論

機器學習技術推動了現代社會的數字化發展,企業借助云資源完成產品和服務的智能化優化,具有廣泛應用,然而云計算安全問題逐漸顯露引起了學術界的廣泛關注.本文通過深入調研面向機器學習的安全外包研究成果,按任務階段和云服務商數量對模型進行分類,總結了不同分類模式下外包模型的特點.同時發現,現有研究的外包模型趨向模型推理,且較多采用多云模式.然后,集中分析了國內外的相關研究工作,按邏輯回歸、樸素貝葉斯分類、支持向量機、決策樹和神經網絡等算法討論了目前取得的研究進展.最后,從不同角度分析和討論了目前機器學習安全外包研究待改進、未解決以及新出現的問題,并探討了未來面臨的挑戰和機遇.

作者貢獻聲明:陳珍珠提出了整體框架,負責內容設計、論文撰寫和最后版本修訂;周純毅負責完成文獻整理、分析和最終審核;蘇铓針對論文框架和表述提出指導意見并修改論文;高艷松針對研究進展分析提出了指導意見并進行了完善;付安民針對整體論文提出了指導意見并修改論文.

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 强奷白丝美女在线观看| 成人毛片免费在线观看| 人妻精品久久久无码区色视| 亚卅精品无码久久毛片乌克兰| 99久久精品免费视频| 欧美性爱精品一区二区三区| 久久精品人人做人人综合试看| 国产探花在线视频| 欧美区一区| 国产成人综合日韩精品无码不卡| 夜夜操国产| 国产成人亚洲无码淙合青草| 国产亚洲欧美在线专区| 久久中文字幕av不卡一区二区| 欧美伊人色综合久久天天| 国产精品视屏| 欧美在线伊人| 波多野结衣一区二区三区四区视频 | 国内丰满少妇猛烈精品播| 国产电话自拍伊人| 99精品影院| 精品欧美视频| 99热这里只有精品国产99| 一级毛片基地| 久久精品无码专区免费| 国产欧美视频一区二区三区| 国产精品亚洲专区一区| 伊人蕉久影院| 国产日韩丝袜一二三区| 欧美啪啪网| 97视频免费在线观看| 在线免费a视频| 亚洲综合在线最大成人| 无码日韩视频| 91精品啪在线观看国产91| 欧美成人h精品网站| 久久a级片| 欧美成人精品一级在线观看| 欧美成人国产| 国产黄色视频综合| 国产一级毛片网站| 亚洲青涩在线| 国产女人喷水视频| 26uuu国产精品视频| 欧美亚洲日韩中文| 亚洲人成网线在线播放va| 色综合成人| 自偷自拍三级全三级视频| 天堂岛国av无码免费无禁网站 | 日韩毛片免费| 国产精品无码久久久久久| 国产欧美视频一区二区三区| 一级毛片免费高清视频| 亚洲AV无码不卡无码| 九色视频线上播放| 波多野结衣视频一区二区| 国产麻豆永久视频| 国产在线精品香蕉麻豆| 无码AV高清毛片中国一级毛片| 一区二区偷拍美女撒尿视频| 久久成人国产精品免费软件 | 日韩在线播放中文字幕| 久久精品国产在热久久2019| 色爽网免费视频| 四虎亚洲国产成人久久精品| 国产女主播一区| 亚洲精品免费网站| 成人免费黄色小视频| 亚洲欧洲日产国产无码AV| 国产免费黄| 欧美19综合中文字幕| 伊人激情综合网| 成人精品视频一区二区在线 | 毛片网站观看| 青青网在线国产| 一级毛片免费的| 伊人久久福利中文字幕| 97视频精品全国在线观看| 波多野结衣国产精品| 国产精品网址在线观看你懂的| 91麻豆国产精品91久久久| 国产精品久久久久久久久久久久|