999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多數(shù)據(jù)源下機器學習的隱私保護研究

2020-07-18 15:28:39張銘凱范宇豪夏仕冰
網絡空間安全 2020年4期
關鍵詞:機器學習

張銘凱 范宇豪 夏仕冰

摘 ? 要:在多數(shù)據(jù)源的情況下,隱私保護機器學習是一個具有重要現(xiàn)實意義的研究課題,直接影響著人工智能在現(xiàn)實社會中的發(fā)展和推廣。目前,已有許多致力于解決機器學習算法中隱私問題的方案,文章闡述并分析了四種常見的隱私保護技術,它們包括同態(tài)加密、秘密共享、亂碼電路和差分隱私。介紹了近年來一種流行的聯(lián)合學習解決方案框架—聯(lián)邦學習,并對其存在的不足進行了討論?;趯ΜF(xiàn)有技術和方案的分析,文章提出了一種適用于多數(shù)據(jù)源場景的隱私保護方案,方案具有良好的安全性、健壯性和可校驗性三個特點。

關鍵詞:隱私保護;多數(shù)據(jù)源;機器學習;同態(tài)加密;聯(lián)邦學習

中圖分類號: TP391 ? ? ? ? ?文獻標識碼:A

Abstract: In the case of multiple data sources, privacy protection machine learning is a research topic of great practical significance, which directly affects the development and promotion of artificial intelligence in real society. At present, there are many solutions dedicated to solving privacy problems in machine learning algorithms. The article expounds and analyzes four common privacy protection technologies, including homomorphic encryption, secret sharing, garbled circuits, and differential privacy. Introduced a popular joint learning solution framework in recent years-federal learning, and discussed its shortcomings. Based on the analysis of existing technologies and schemes, the article proposes a privacy protection scheme suitable for multiple data source scenarios. The scheme has three characteristics of good security, robustness and verifiability.

Key words: privacy protection; multiple data sources; machine learning; homomorphic encryption; the federal study

1 引言

近年來,機器學習算法得到越來越多的關注和發(fā)展,其出色的數(shù)據(jù)挖掘技術在疾病檢測、經濟預測、網絡優(yōu)化等廣泛領域中得到應用并迅速獲得了普及。

在實際訓練中,機器學習算法需要盡可能多的樣本數(shù)據(jù),但是單數(shù)據(jù)源所能提供的數(shù)據(jù)量有限,算法所需的數(shù)據(jù)大多來自多個數(shù)據(jù)源,例如不同的人、公司、組織或國家等。由于每個參與者對所得到的學習模型都做出了貢獻,在未經其他參與者授權之前,通常該模型應只在參與者之間共享,而不允許任何單個參與者擁有模型的全部所有權。這種限制可以有效防止任何未經授權的個人或團體利用或出售有價值的模型。

基于上述原因,如何保護每個參與者的隱私問題有著極其重要的現(xiàn)實意義。數(shù)據(jù)提供者不希望將其私人數(shù)據(jù)透露給其他人,并且經過多數(shù)據(jù)源的數(shù)據(jù)訓練過的模型也不應發(fā)布給任何單個參與者,因此我們需要使用基于多數(shù)據(jù)源的隱私保護方法。

2 隱私技術的發(fā)展概況

現(xiàn)有的解決機器學習算法中隱私問題的方案,主要基于四種類型的隱私保護技術:(1)同態(tài)加密;(2)秘密共享;(3)亂碼電路;(4)差分隱私。本節(jié)主要討論它們的應用和不足。

2.1 同態(tài)加密

同態(tài)加密技術是將數(shù)據(jù)轉換成密文,并實現(xiàn)直接對密文進行與明文相同的加法和乘法等基本計算處理。它已經在安全計算的實踐中得到了廣泛的應用[1]。 同態(tài)加密雖然強大,但其低效的計算效率限制了其發(fā)展,特別是支持乘法的全同態(tài)加密。

通過使用全同態(tài)加密,文獻[2]的作者構建了一種不需要高效計算效率的基于云的安全神經網絡預測服務。另外,Yuan等人[3]基于一個擁有可信加密服務提供者的模型,為Back-Propagation Neural (BPN)神經網絡的學習訓練過程提供了一種有效的隱私保護解決方案。同樣的,文獻[4]的作者提出了在云計算中保護隱私的外包分類框架,當加密服務提供者沒有泄密時,就可以有效保護隱私。顯然,加密服務提供者的存在降低了這些解決方案的安全性。

為了避免全同態(tài)加密造成的低效,文獻[5,6]的作者只使用加同態(tài)加密來完成安全加法,而安全乘法則依賴于普通的兩方秘密共享方案。然而其仍然存在漏洞,如果任何兩個參與者勾結,被保護的隱私數(shù)據(jù)將被泄露。

總之,基于同態(tài)加密的解決方案通常需要一個可信的加密服務提供者,或者需要依賴于其他隱私技術。同時受到同態(tài)加密發(fā)展的限制,它通常仍然需要許多計算資源,導致其計算效率并不很令人滿意。

2.2 秘密共享

秘密共享技術允許用戶將一個秘密 s 分為 n 份子秘密,然后把它們分給n個用戶。這樣使得當k≤n時,任意k份子秘密都可以用來重構秘密s,若少于k份子秘密則不能泄露出任何關于秘密s的信息。根據(jù)是否具有閾值特性,我們將秘密共享技術主要分為兩類:當k=n時是普通秘密共享;當k

基于普通秘密共享技術,Bogdanov等人 [7]提出了一種名為Share mind的高效 3PC 模型用于隱私保護計算,并顯著提高了3PC模型的計算速度[8]。 2017年,Mohassel等人[9]使用兩個非勾結服務器(2PC模型),提出了新的、高效的機器學習隱私保護協(xié)議。該協(xié)議主要應用于線性回歸、邏輯回歸和使用隨機梯度下降法訓練的神經網絡。

顯然,這些安全措施不足以抵御強大的對手。雖然[10~12]的作者通過能夠抵抗一個參與者泄密的閾值秘密共享方案,將閾值特征引入到 3PC 模型中,但是在實際情況中,該方案并不能很容易地擴展到多 PC 模型,且閾值的特性也不能很好地繼承。因此,通用性是此類基于閾值秘密共享的現(xiàn)有解決方案的挑戰(zhàn)。

2.3 亂碼電路

亂碼電路最初是由Yao[13]引入,這種技術在解決基于數(shù)字電路的安全多方計算、對稱加密和不經意傳輸問題方面非常成功。但由于亂碼電路通常效率不夠,一些稍微復雜的函數(shù)在轉換成數(shù)字電路時仍然包含大量的邏輯門,這將導致大量的解密操作,使計算效率低下。

由于低效率和擴展困難,亂碼電路的使用率并不高。文獻[14]的作者將解密過程嵌入到亂碼電路中,以實現(xiàn)密文的安全計算。此外,Mohassel等人[15]通過使用亂碼電路來解決安全比較問題。亂碼電路方案的擴展性弱,并且容易產生很高的計算復雜度。因此,亂碼電路不是實現(xiàn)機器學習隱私保護算法的主要方案。

2.4 差分隱私

差分隱私是通過在原始數(shù)據(jù)集上進行額外的處理來實現(xiàn)機器學習隱私保護[16~18]。它通過降低數(shù)據(jù)在一次單獨使用中的價值來保護數(shù)據(jù)的隱私。雖然這種方法可以有效保護隱私數(shù)據(jù),但由此帶來的數(shù)據(jù)使用價值的降低會造成基于小數(shù)據(jù)集的機器學習訓練準確度的下降。因此差分隱私只適用于有大量數(shù)據(jù)集合的訓練過程。

3 聯(lián)邦學習框架

最近,McMahan等人[19]提出了一種用于在多個數(shù)據(jù)源的情況下保護機器學習的數(shù)據(jù)隱私的新的解決方案框架,稱為聯(lián)邦學習。之后,Yang等人[20]對聯(lián)邦學習進行了完整詳細的闡述。基于數(shù)據(jù)分布的類型,聯(lián)邦學習具有兩種不同的結構。

水平聯(lián)邦學習的典型結構允許服務器聚合每個數(shù)據(jù)提供者在本地計算的梯度,之后所有數(shù)據(jù)提供者使用服務器返回的聚合結果更新系統(tǒng)模型。顯然,任何數(shù)據(jù)提供者都有可能泄露整個模型。

垂直聯(lián)邦學習的結構則假定有一個合作者是誠實的,并且不與其他任何數(shù)據(jù)提供者勾結。 然而,這種基于假設的方法的安全性同樣存在限制。

4 線性回歸算法的隱私保護研究

Mohassel等人[21]提出了一種基于三方服務器的隱私保護方案。方案具有良好的健壯性,它能夠容忍參與計算的一個服務器下線或拒絕服務,方案的不足之處在于無法驗證參與者給出數(shù)據(jù)的正確性。本文基于秘密共享技術構建了一種新的基于三方的安全計算方案并應用于構造隱私保護的線性回歸算法。新方案同樣具有良好的健壯性并且能夠在計算過程中驗證計算結果的正確性。

4.1 安全計算方案

新的安全計算方案主要分為三個部分:秘密分發(fā)協(xié)議、安全計算協(xié)議、結果校驗協(xié)議。

4.1.1秘密分發(fā)協(xié)議

安全乘法協(xié)議借助Mohassel等人[9]提出的安全兩方乘法協(xié)議實現(xiàn)。任意兩個服務器均進行安全兩方乘法計算,最終秘密m·s同樣分為三組秘密分量分別存儲在三個服務器。具體算法不在本文累述。

4.1.3 結果校驗協(xié)議

結果校驗協(xié)議主要負責對計算過程中的計算結果進行校驗,防止秘密分量間的錯誤計算或單個服務器的惡意數(shù)據(jù)。假設需要校驗的結果數(shù)據(jù)為秘密 ,校驗過程如下:

1) 服務器A計算。服務器B任選一個隨機數(shù)R計算,將K發(fā)送給服務器C;

2) 服務器C利用K計算,將L發(fā)送給服務器A;

3) 服務器A計算,將M發(fā)送給服務器B;

4) 服務器B根據(jù)M與R判斷計算結果是否正常。當M與R相等時,計算結果正常。當M與R不相等時,計算結果異常。

4.2 隱私保護的線性回歸算法

線性回歸算法在日常生活中應用廣泛,它通常應用于連續(xù)型數(shù)據(jù)的數(shù)值預測,例如房價預測、疾病診斷等領域。本文基于前述的安全計算方案構造了隱私保護的線性回歸算法,算法具有安全性和健壯性的特點,同時能夠對中間結果進行結果校驗,驗證計算過程的正確性。線性回歸算法分為訓練階段和預測階段,本文針對這兩個階段分別構造了隱私保護協(xié)議。

4.2.1訓練階段

1) 服務器A、B、C分別初始化線性回歸模型參數(shù)W為0。利用秘密分發(fā)協(xié)議將秘密0生成三組秘密分量并發(fā)送給每個服務器。

2) 數(shù)據(jù)擁有者利用秘密分發(fā)協(xié)議將自己的隱私數(shù)據(jù)生成三組秘密分量并發(fā)送給每個服務器。

3) 服務器A、B、C利用安全計算協(xié)議更新 ,其中代表學習速率。

4) 重復執(zhí)行步驟2)和步驟3),當兩次更新前后模型參數(shù)W的變化量小于一定值后停止更新。參數(shù)W即為訓練處出的線形回歸模型。

4.2.2 預測階段

1) 需求預測服務的用戶利用秘密分發(fā)協(xié)議將自己的隱私數(shù)據(jù)X生成三組秘密分量并發(fā)送給每個服務器。

2) 服務器A、B、C利用安全計算協(xié)議計算 。最終預測結果將分散存儲在三個服務器中,任選兩個服務器將秘密分量發(fā)送給用戶進行預測結果的重構。

比較前述的多種隱私保護技術,秘密共享技術天然地適合多數(shù)據(jù)源下的機器學習隱私保護。本節(jié)利用秘密共享技術和三個服務器構建了新的具有安全性、健壯性和可校驗性的安全計算協(xié)議,并以此為基礎構建了隱私保護的線性回歸算法。新方案相較于現(xiàn)有方案實現(xiàn)了對中間結果的校驗,能夠防止計算過程中的異常錯誤?;谏鲜鰞热菘傻?,在多數(shù)據(jù)源場景下,秘密共享技術擁有很大的潛力和較好的發(fā)展前景。

5 結束語

基于多數(shù)據(jù)源的機器學習彌補了單數(shù)據(jù)源下訓練數(shù)據(jù)的數(shù)量缺乏和多樣性不足的缺陷,具有廣泛的應用前景和現(xiàn)實意義。而多數(shù)據(jù)源下機器學習的隱私保護技術直接影響著這種機器學習方案在現(xiàn)實社會中的發(fā)展和推廣,具有十分重要的意義。

參考文獻

[1] M. Naehrig, K. Lauter, and V. Vaikuntanathan. Can homomorphic en cryption be practical? In Proceedings of the 3rd ACM Workshop on Cloud Computing Security Workshop, CCSW '11, pages 113–124, New York, NY, USA, 2011. ACM.

[2] P. Xie, M. Bilenko, T. Finley, R. Gilad-Bachrach, K. E. Lauter, and M. Naehrig. Crypto-nets: Neural networks over encrypted data. CoRR, abs/1412.6181, 2014.

[3] J. Yuan and S. Yu. Privacy preserving back-propagation neural network learning made practical with cloud computing. IEEE Transactions on Parallel and Distributed Systems, 25(1): 212–221, Jan 2014.

[4] P. Li, J. Li, Z. Huang, C.-Z. Gao, W.-B. Chen, and K. Chen. Privacy-preserving outsourced classi?cation in cloud computing. Cluster Computing, 21(1): 277-286, Mar 2018.

[5] J. Vaidya, M. Kantarc?o?glu, and C. Clifton. Privacy-preserving na¨?ve bayes classi?cation. The VLDB Journal, 17(4): 879–898, Jul 2008.

[6] S. Samet and A. Miri. Privacy-preserving back-propagation and extreme learning machine algorithms. Data Knowl. Eng., 79-80: 40-61, Sept. 2012.

[7] D. Bogdanov, S. Laur, and J. Willemson. Sharemind: A framework for fast privacy-preserving computations. In S. Jajodia and J. Lopez, editors, Computer Security - ESORICS 2008, pages 192-206, Berlin, Heidelberg, 2008. Springer Berlin Heidelberg.

[8] D. Bogdanov, M. Niitsoo, T. Toft, and J. Willemson. High-performance secure multi-party computation for data mining applications. International Journal of Information Security, 11(6):403-418, Nov 2012.

[9] P. Mohassel and Y. Zhang. Secureml: A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy (SP), volume 00, pages 19-38, May 2017.

[10] T. Araki, J. Furukawa, Y. Lindell, A. Nof, and K. Ohara. High-throughput semi-honest secure three-party computation with an honest majority. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, CCS '16, pages 805-817, New York, NY, USA, 2016. ACM.

[11] J. Furukawa, Y. Lindell, A. Nof, and O. Weinstein. High-throughput secure three-party computation for malicious adversaries and an honest majority. In J.-S. Coron and J. B. Nielsen, editors, Advances in Cryptology -EUROCRYPT 2017, pages 225-255, Cham, 2017. Springer International Publishing.

[12] P. Mohassel and P. Rindal. Aby3: A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, CCS '18, pages 35-52, New York, NY, USA, 2018. ACM.

[13] A. C. Yao. Protocols for secure computations. In 23rd Annual Symposium on Foundations of Computer Science (sfcs 1982), pages 160-164, Nov 1982.

[14] V. Nikolaenko, U. Weinsberg, S. Ioannidis, M. Joye, D. Boneh, and N. Taft. Privacy-preserving ridge regression on hundreds of millions of records. In 2013 IEEE Symposium on Security and Privacy, pages 334-348, May 2013.

[15] P. Mohassel and Y. Zhang. Secureml: A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy (SP), volume 00, pages 19-38, May 2017.

[16] K. Chaudhuri and C. Monteleoni. Privacy-preserving logistic regression. In D. Koller, D. Schuurmans, Y. Bengio, and L. Bottou, editors, Advances in Neural Information Processing Systems 21, pages 289-296. Curran Associates, Inc. 2009.

[17] M. Abadi, A. Chu, I. Goodfellow, H. B. McMahan, I. Mironov, K. Talwar, and L. Zhang. Deep learning with di?erential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, CCS '16, pages 308-318, New York, NY, USA, 2016. ACM.

[18] S. Song, K. Chaudhuri, and A. D. Sarwate. Stochastic gradient descent with di?erentially private updates. In 2013 IEEE Global Conference on Signal and Information Processing, pages 245-248, Dec 2013.

[19] McMahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data, ICAI, 2017.

[20] Q. Yang, Y. Liu, T. Chen, and Y. Tong. Federated machine learning: Concept and applications. ACM Trans. Intell. Syst. Technol, 10(2):12:1-12:19, Jan. 2019.

[21] P. Mohassel and P. Rindal. Aby3: A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, CCS '18, pages 35{52, New York, NY, USA, 2018. ACM.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产综合色在线视频播放线视| 女人爽到高潮免费视频大全| 成人免费黄色小视频| 免费一级无码在线网站| 一级毛片在线免费看| 日韩国产一区二区三区无码| 91精品国产综合久久香蕉922| 国产免费久久精品44| 九九视频免费看| 91高清在线视频| 亚洲系列中文字幕一区二区| 成人国产一区二区三区| 伊人久综合| 青草娱乐极品免费视频| 色一情一乱一伦一区二区三区小说| 狠狠v日韩v欧美v| 99激情网| 综合色婷婷| 国产精品网曝门免费视频| 欧美无专区| 国产精品成人一区二区不卡| 永久免费av网站可以直接看的| 久久综合色视频| 欧美天堂在线| 天堂网亚洲综合在线| 女同国产精品一区二区| 亚洲最黄视频| 一本二本三本不卡无码| 国产精品专区第1页| 国产日本视频91| 另类欧美日韩| 女人18毛片水真多国产| 欧美综合成人| 久久黄色影院| 一级毛片免费的| 日韩高清成人| 亚洲AV免费一区二区三区| 制服丝袜无码每日更新| 成年人视频一区二区| 国产真实二区一区在线亚洲| 美女内射视频WWW网站午夜 | 找国产毛片看| 亚洲啪啪网| 精品一区二区三区无码视频无码| 欧美视频二区| 97国产成人无码精品久久久| 久久综合亚洲色一区二区三区| 亚洲一级毛片免费观看| 91精品福利自产拍在线观看| 亚洲浓毛av| 六月婷婷精品视频在线观看| 欧美日韩国产精品va| 色婷婷狠狠干| 成年免费在线观看| 欧美爱爱网| 国产乱视频网站| 中文字幕一区二区人妻电影| 亚洲国产精品无码AV| 婷婷六月在线| 最新加勒比隔壁人妻| 久久人妻系列无码一区| 亚洲综合九九| 宅男噜噜噜66国产在线观看| 国产精欧美一区二区三区| 国产精品片在线观看手机版| 欧美一区二区啪啪| 欧美日韩国产成人在线观看| 欧美一区二区啪啪| 亚洲视频色图| 国产97色在线| 国产欧美性爱网| 在线观看国产精品第一区免费 | 福利一区三区| 免费jjzz在在线播放国产| 欧美精品v日韩精品v国产精品| 亚洲午夜福利在线| 欧美在线中文字幕| 亚洲一级色| 2021天堂在线亚洲精品专区| 国产欧美日韩另类精彩视频| 色呦呦手机在线精品| 成人午夜免费视频|