金雪 苗志宏 馬金強 劉茜



關鍵詞:安全多方計算;MPC;CiteSpace;知識圖譜;文獻計量學
中圖分類號:TP309 文獻標識碼:A
文章編號:1009-3044(2023)21-0001-06
0引言
隨著大數據、云計算、分布式計算的快速發展,人們越來越重視數據的安全性保護。為了提高數據安全和協作計算能力,各類專家學者開始探索研究不同的技術路線,密碼學作為信息安全領域的核心技術,為數據的安全性保證提供了理論基礎和技術支撐。而安全多方計算作為密碼學的一個重要研究方向,具有較高的理論價值和廣闊的應用前景,受到各個領域的密切關注。
安全多方計算(Secure Muti-Party Computation,簡稱MPC,亦可簡稱SMC或SMPC) 在1982年首次由華裔計算機科學家、圖靈獎得主姚教授提出了這個問題,即著名的百萬富翁問題:兩個有競爭力的富人Al?ice和Bob在街上相遇,如何比較誰更富有而不暴露自己的財富?此問題提出后,得到研究學者的廣泛關注,成為現代密碼學中一個非常活躍的研究領域。安全多方計算的數學描述為n 個參與者P1,P2…Pn以一種安全的方式共同計算同一個函數,這里的安全是指輸出結果的正確性、輸入信息和輸出信息的保密性。具體來說,每個參與者P1有一個自己的保密輸入信息X1,n 個參與者要共同計算一個函數f(X1,X2, … ,Xn)=(Y1,Y2, … ,Yn),一旦計算完成,每一個參與者應該能夠得到自己那部分輸出,而不能獲取到其他參與者的輸出。多方安全計算目的是建立一個安全協議,即允許多個不信任的參與者共同計算他們的隱私輸入的目標函數,同時確保輸出的準確性,甚至在不誠實的行為面前保護和控制他們的隱私輸入。
安全多方計算經歷了從理論探索到應用實踐的發展歷程,由于該領域涉及范圍廣、技術更新快,很難找到該領域中具有代表性和關鍵性文獻。因此,為了更加嚴謹、全面、系統地分析安全多方計算領域的研究情況,本文采用CiteSpace軟件對Web of Science核心數據庫有關安全多方計算相關文獻進行分析,采用定量定性相結合的科學分析方法,從國家、研究機構、核心作者、共被引文獻、高頻關鍵詞和突現關鍵詞六個方面進行分析,得到該領域研究狀況、研究熱點和研究趨勢,為今后相關人員對安全多方計算的深入研究提供科學依據。
1 數據來源與研究工具
1.1 數據來源
為了研究安全多方計算領域在國際上的研究現狀、熱點及趨勢,本文采用Web of Science核心合集,檢索策略為((TS=(secure multi-party computing)) ANDTS= (SMPC) OR TS= (two-party computation) OR TS=(multi-party computation)),根據關聯性進行排序,剔除掉與安全多方計算不相關的文獻,最終選取了1887篇相關文獻。
1.2 研究工具及方法
本文主要使用的知識圖譜研究工具為陳超美教授開發的CiteSpace免費軟件,它是應用Java語言開發的一款信息可視化應用軟件,主要基于共引分析理論和尋徑網絡算法等,對特定領域文獻(集合)進行計量,以探尋出學科領域演化的關鍵路徑及其知識拐點,并通過一系列可視化圖譜的繪制來形成對學科演化潛在動力機制的分析和學科發展前沿的探測[1]。本文研究方法流程如圖1所示。
2 研究狀況
2.1 主要國家和機構分析
安全多方計算作為近幾年的研究熱點之一,世界各國都關注這方面的研究進展,因此通過對國家和機構進行分析,可以發現某些國家或研究機構之間的合作關系,評價國家或機構的學術影響力,有利于我們發現該領域水平較高的、值得關注的那些國家或機構。
表1是在安全多方計算領域中發文量前十的國家及其在該國家內的主要機構的發文量、國家發文的開始年份和中心性(中介中心性)。可以看出,雖然中國較其他幾個國家發文量較晚,但卻是發文量最多的國家,共231篇,其中,北京郵電大學發文量最多,為25 篇,說明該機構在安全多方計算領域學術影響力較大。發文第二的是美國,共156篇,但該國家中的主要研究機構發文量較少,發文量第一的是哥倫比亞大學,僅有11篇,說明該國家內研究該領域的機構分布較分散。發文量第三的是以色列,共67篇,較前兩個國家的發文總量相差較大,但該國家內的以色列巴依蘭大學卻是在國際上發文量最高的機構,有32篇,說明該機構在安全多方計算領域中具有較大影響力。
表格中的中心性為中介中心性,其值越高,說明該國家或機構的影響力越大,越處于中間位置。根據表1可以得出中心性最高的國家為美國,中心性為0.79,證明美國在該領域的發展過程中作用最大。中心性排名第二的為中國,中心性為0.4。第三為德國,中心性為0.24。通過CiteSpace軟件對國家之間的合作關系進行分析,我們發現美國在安全多方計算領域起到了重要的橋梁作用,貫穿在該領域發展的各個時期。我國則是近期在安全多方計算領域取得的成就較多,同樣為該領域的發展做出了指導性貢獻。
2.2 作者分析
2.2.1 核心作者分析
一個領域繁榮發展的背后是一批理論扎實、潛精嚴思、鉆堅研微的核心研究者。通過對核心作者的分析,可以了解該領域的研究現狀。表2是國際上發文量位于前十的作者,可以看出,發文量位居第一和第二的作者都來自以色列巴依蘭大學,二人都曾是以色列魏茲曼科學研究院的博士生,從側面說明以色列魏茲曼科學研究院和巴依蘭大學是以色列在安全多方計算領域的領軍機構。發文量第三的是我國華北電力大學博士生導師石潤華,發文量較前兩名相差不大,為13篇。通過對核心作者的主要關注點分析可知,安全多方計算涉及最廣的兩個學科是密碼學和組合數學,兩者是該領域形成的理論基礎。
2.2.2 作者合作分析
通過CiteSpace軟件可以生成作者合作圖譜,如圖2所示,圓圈的大小表示作者發文量的多少,兩個節點的連線表示兩個作者之間進行的合作,連線的深度越深,表明合作次數越多。安全多方計算領域中相關作者的合作可以分為兩個時期,第一個時期是該領域形成的早期,以Y LINDELL、R Cramer、U Maurer、BPINKAS為代表;第二個時期是該領域研究的近期,主要有三個團隊,第一個是以BENNY PINKAS、YEHUDA LINDELL、CARMIT HAZAY 為代表的以色列巴依蘭大學團隊,第二個是以QIULIANG XU、YILEI WANG和CHUAN ZHAO為代表的團隊,第三個是以RUNHUA SHI、HONG ZHONG、LIUSHENGHUANG為代表的團隊。
2.3 共被引文獻分析
若兩篇(或多篇)論文同時被后來的論文所引證,則稱這兩篇論文構成共被引關系。共被引文獻的分析對研究某一領域的發展歷程至關重要,它是該領域的知識基礎[2]。如圖3所示,利用最大似然算法(LLR) 對文獻進行聚類分析,可以將國際上對安全多方計算的研究大致分為三個時期,不同時期的共被引文獻的主題不同。
1) 1997—2004年:該時期的主要研究熱點集中在隱私保護、數據挖掘,量子計算等。該時期主要與數學和密碼學的計算相關,大多數研究集中在安全多方計算的可行性,提出了一系列與協議安全性相關的定義。其中,Canetti R在該時期貢獻最大,2000年提出了多方密碼協議安全性的一般定義,并在計算模型中提出第一個協議安全性的定義[3]。2001年提出了一種定義加密協議安全性的新范式,稱為通用可組合安全性[4]。2002年展示了以一種可組合的方式安全地實現任何兩方和多方功能[5]。該時期是安全多方計算研究的起步階段,大多數研究多停留在理論層面,為后來的深入研究奠定了理論基礎。
2) 2005—2015年:該時期的主要研究熱點集中在量子加密和混淆電路等。其中2005—2008年發文量較少,主要原因是同態加密技術作為安全多方計算協議的設計工具,在2009年之前,未做到真正意義上的全同態加密,即只支持在密文上進行加法或乘法操作,但不能既做加法又做乘法。直到2009年斯坦福博士Gentry提出全同態加密方案[6],開啟了安全多方計算的新紀元。2012年,Damgard I提出了一個通用的多方計算協議[7],該協議可用于安全地計算任何有限域F上的算術電路。該時期是安全多方計算的成長階段,研究學者運用各種工具進行安全多方計算的設計與研究。
3) 2016至今:該時期的主要研究熱點集中在數據模型、公平性等。經過前期學者們的苦心研究,安全多方計算開始繁榮發展,由于此階段正是大數據和人工智能時代,所以大部分學者集中研究機器學習模型的隱私性和安全性問題。Mohassel P使用安全的兩方計算在聯合數據上訓練各種模型并實現了第一個用于訓練神經網絡的隱私保護系統[8]。Li P提出了一種基于多密鑰完全同態加密 (MK-FHE) 的基本方案,并結合雙重解密機制和完全同態加密(FHE) 提出了一種基于混合結構的改進方案[9]。該時期是安全多方計算的繁榮發展階段,研究學者集中關注于安全多方計算的實際應用。
將共被引前十的文獻進行排序,得到表3,通過分析可知,共被引前十的文獻中,有一半的文獻發表于2016年之后,而且大多數與機器學習有關,說明在人工智能時代下,機器學習的隱私性和安全性問題受到了重視,而安全多方計算就是其解決方法之一。
3 研究熱點與趨勢分析
3.1 研究熱點分析
3.1.1 基礎研究領域分析
關鍵詞是對文章和主題的高度總結與概括,通過關鍵詞分析可以使我們了解某一領域的研究趨勢及熱點的演變情況。把CiteSpace軟件中的時間區間設置為2000年1月到2022年6月,時間切片設置為1年,按照關鍵詞的頻次進行排序,截取頻次位于前十的關鍵詞,得到表4。由于本文的主要主題詞是安全多方計算,所以相關主題詞出現較多,比如安全、計算、協議、安全兩方計算等,大多出現在2000—2002年,同一時期的關鍵詞還有不經意傳輸,說明安全多方計算早期是以協議與理論為根基,處于探索階段。在2009—2012年這段時間,新出現的關鍵詞有同態加密、秘密共享、量子密碼學,該階段是安全多方計算發展階段,主要將安全多方計算與密碼學深度融合。
3.1.2 階段性前沿研究分析
突現關鍵詞是某一時期出現的高頻關鍵詞,集中反映該時期的研究熱點領域,同樣也是預測研究趨勢的重要依據[10]。由圖4可以看出,安全多方計算是以拜占庭協議為基礎,設計了一系列公平、秘密的交換方案,奠定了安全多方計算的理論基礎;隨后研究學者開始將安全計算運用于實際中,出現了安全兩方計算、多方計算、位置隱私等;目前的研究熱點是結合各種技術與方法,如同態加密、計算模型、機器學習等,與安全多方計算有機結合,提供更加安全、平等、隱私的多方計算。
3.1.3 研究主題方向分析
運用CiteSpace軟件對關鍵詞進行聚類并畫出時間線圖譜,如圖5,時間線圖譜側重從時間的維度來顯示知識演進的視圖,可以清晰地展示出關鍵詞之間的更新和相互影響。時間線圖譜中的圓圈越大代表著此關鍵詞的頻次越大,兩個圓圈之間的連線表示兩個關鍵詞共同出現在同一篇文章。聚類分析的Q 值(Modularity值)是圖譜網絡模塊的評價重要指標,當Q 在0.3以上時表示聚類結構顯著。S值(平均輪廓值)來衡量網絡同質性,當S值在0.5以上時,表明聚類劃分是合理的,當S值在0.7以上,意味著聚類是令人信服的[1]。本研究通過CiteSpace軟件對關鍵詞進行聚類,得到Q=0.533,S=0.837,說明該聚類合理。
將前十個最大的聚類結果排序分別為安全多方計算、不經傳輸、聯邦學習、認證、量子密碼學、計算建模、同態加密、敵手結構、秘密共享、通信復雜度。這10個聚類結果就代表著當前安全多方計算的熱點領域,對這10個熱點領域進行分析,可以發現在2004年之前,安全多方計算的熱點在設計的安全性與效率方面,其中不經意傳輸協議是主要的密碼學協議,指的是消息的發送者發送給接受者一份消息,但不知道接受者是否接收到,保證了接受者的隱私性。而在2004 年之后,大量安全多方計算技術開始涌現,如聯邦學習、同態加密和秘密共享等,密碼共享是現代密碼學的一個分支,是保護數據和信息安全的重要手段,指的是一個秘密分為多個部分分給一個用戶群體中的所有成員,以達到密碼由所有成員共同掌管的目的。聯邦學習是一種新興的技術,由谷歌在2016年首次提出,可以實現多個數據擁有方共同訓練同一個機器學習模型。這些技術豐富了安全多方計算的研究工具,為今后安全多方計算的發展奠定了基礎。
3.2 研究趨勢分析
通過前文對2000—2022年Web of Science核心合集庫中關于安全多方計算領域文獻的分析與研究,可將此時間段內的安全多方計算研究的發展分為4個代表性階段:
1) 理論探索階段 (2000—2009年),在該階段的研究熱點主要是理論層面的研究,不斷改進早期學者提出的協議,使其更具有安全性和可用性。如:該時期也有許多新的協議提出,其中最著名的是2004 年Freedman等人[11]提出的(隱私集合求交)PSI協議,它主要解決數據集的隱私問題,即允許持有各自隱私數據集的多方計算他們數據的交集,而不泄露交集之外的任何信息。該協議出現后,一股協議設計熱潮開始出現,出現了基于Hash的PSI、基于公鑰加密的PSI、基于RSA盲簽名的PSI、基于不經意傳輸的PSI等,這些協議為多方計算的安全性提供了理論保證。
2) 應用初創階段 (2009—2017年),這一階段開始將研究熱點關注在應用層面,一些行業巨頭也開始嘗試使用安全多方計算來解決數據安全交換問題。2009年Bogetoft等人將多方安全計算首次大規模、真正應用在實際場景中——丹麥甜菜拍賣系統[12]。在這個場景描述中,有幾千個農民生產甜菜,這些甜菜被賣給丹麥唯一一家產糖公司。拍賣商需要知道所有賣家的出價,根據每個價格計算市場的總供求。而賣家不愿意讓同行知道自己的出價,因為這揭示了農民的經濟地位和生產力的信息。另一個例子是2017 年婦女勞動委員會與波士頓企業的合作項目[13],該項目研究員工的性別是否會影響他們的實際工資。公司不希望也不能合法披露員工的收入或財務信息。然而,通過安全的多方計算,他們可以計算出相應的統計分析結果,而無須給出具體數據。
3) 規模化發展階段 (2018—至今),這一階段受到數據保護法規的影響,越來越多的公司開始用多方安全計算來解決數據使用的合規性問題,致使多種支持多方安全計算的平臺、框架相繼被提出。2018年3月開源的基于TensorFlow 的多方計算框架—TFEncrypted,2019年6月谷歌開源多方安全計算(MPC) 工具—Private Join and Compute,2019年10月Facebook 開源多方安全計算框架—CrypTen。此后,一些學者開始將安全多方計算通用框架進行整合研究,查看其優缺點和使用場景,最著名的是2019年召開的安全頂級會議Security and Privacy 2019的一個演講視頻《SoK:安全多方計算通用框架》,對應的論文是Sok: General?purpose compilers for secure multi-party computation [14],此論文非常詳細地闡述了從2004年第一個通用MPC框架—“公平參與”開始到目前著名的MPC通用框架,從各個維度評價了各個框架的優缺點,并在不同的場景下提出了使用建議。而且,作者成功地建立了所有的通用框架,并將構建環境打包放在Docker中。
4 結論
本文運用CiteSpace 可視化工具,以Web of Sci?ence核心合集數據庫中與安全多方計算相關研究文獻為基礎,重點分析了國家、研究機構、核心作者、共被引文獻、高頻關鍵詞和突現關鍵詞六個方面內容,探討了國際上該領域的研究現狀、研究熱點及研究趨勢,現歸納結論如下:
1) 從主要國家和機構分析來看,美國發揮的作用最大,貫穿著安全多方計算發展的全過程,我國則是近期在該領域發揮著指導性作用,形成了以北京郵電大學為核心的研究團隊。對于主要機構的分析中,以色列的巴依蘭大學是國際上發文量最高的機構,有32篇,說明該機構在安全多方計算領域中具有較大影響力。
2) 從核心作者分析來看,發文量位居前三的作者為BENNY PINKAS、YEHUDA LINDELL 和RUNHUASHI,其中前兩位均來自以色列巴依蘭大學,第三位為我國華北電力大學的博士生導師石潤華。對于核心作者合作的情況分析,國際上分為兩個時期,第一個時期是該領域形成的早期,以Y LINDELL、R Cramer、U Maurer、B PINKAS為代表;第二個時期是該領域研究的近期,主要有三個團隊,第一個是以BENNYPINKAS、YEHUDA LINDELL、CARMIT HAZAY 為代表的以色列巴依蘭大學團隊,第二個是以QIULIANGXU、YILEI WANG和CHUAN ZHAO為代表的團隊,第三個是以RUNHUA SHI、HONG ZHONG、LIUSHENGHUANG為代表的團隊。
3) 從共被引文獻分析來看,可以將國際上對安全多方計算的研究大致分為三個時期:理論探索時期、工具挖掘時期和應用發展時期。在每個時期都有較高學術價值的研究文獻,其中頻次最高的為2017年Mohassel P 發表的Secureml: A system for scalableprivacy-preserving machine learning.
4) 從研究熱點來看,安全多方計算是以拜占庭協議為基礎,設計了一系列公平、秘密的交換方案,奠定了安全多方計算的理論基礎;隨后,研究學者開始將安全計算運用于實際中,出現了安全兩方計算、多方計算、位置隱私等;目前的研究熱點是結合各種技術與方法,如同態加密、計算模型、機器學習等,與安全多方計算有機結合,提供更加安全、平等、隱私的多方計算。深入分析可知,在2004年之前,安全多方計算的熱點在設計的安全性與效率方面,其中不經意傳輸協議是主要的密碼學協議。而在2004年之后,大量安全多方計算技術開始涌現,如聯邦學習、同態加密和秘密共享等,這些技術豐富了安全多方計算的研究工具,為今后安全多方計算的發展奠定了基礎。
5) 從研究趨勢來看,安全多方計算分為理論探索階段 (2000—2009 年)、應用初創階段 (2009—2017 年)和規模化發展階段 (2018—至今)這三個階段,隨著數據保護法規的相繼出臺,多方安全計算的研究趨勢仍是將具體理論知識落實到實際的應用場景中,確保多方計算更加實用、安全、高效。