999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

合規視角下的數據安全技術前沿與應用

2021-07-23 07:53:12陳磊劉文懋
數據與計算發展前沿 2021年3期
關鍵詞:用戶

陳磊,劉文懋

1.綠盟科技集團股份有限公司,北京 100089

2.清華大學,自動化系,北京 100084

引 言

在當今大數據時代,數據得到人們越來越多的重視。大數據和人工智能的深度融合深刻而廣泛地影響了包括政府、金融、運營商、電力和互聯網的各行各業,數據價值的流通與釋放進一步促進了經濟和生產力的發展。然而,數據帶來的發展機遇也伴隨著安全挑戰:近年來,大規模數據泄露事件頻頻發生、“大數據殺熟”、數據歧視、個人信息非法采集和隱私竊取等安全問題愈發嚴峻,且這些問題對公民以及社會造成了不可忽視的負面影響與危害。

為了應對挑戰,全球掀起數據安全與隱私的立法熱潮,法規監管力度不斷強化。歐盟于 2018 年實施《通用數據保護條例》(General Data Protection Regulation, GDPR)[1],美國于 2020 年實施《加州消費者隱私法案》(California Consumer Privacy Act,CCPA),日本于2020年6月通過修訂版《個人信息保護法》。中國在 2020 年7月和10月陸續公開發布兩部重量級的法規草案:《數據安全法(草案)》和《個人信息保護法(草案)》。隨著全球數據安全法規監管的不斷強化,合規性問題成為企業數據安全建設迫切需要考慮的安全任務。換句話說,合規性成為了企業數據安全建設與治理的重要驅動力。然而,法規向企業提出范圍更廣和約束更嚴的數據安全的相關要求,給傳統的網絡與數據安全技術和產品帶來了前所未有的巨大挑戰。

在這樣的背景下,本文通過對實際應用中的三類重點數據安全場景——用戶隱私數據安全合規、企業內部數據安全治理和企業間數據安全共享與計算的合規性與安全需求進行梳理與分析,并分別選取當前業界可以應對的十種前沿數據安全技術進行研究和分析,包括:處于學術前沿的差分隱私、數據匿名和同態加密,工業界內炙手可熱的安全多方計算、聯邦學習,以及從其他領域引入的新技術知識圖譜、流程自動化、用戶實體行為分析等。通過對這十種前沿技術展開原理與應用研究,旨在為國內數據安全合規、隱私保護等場景提供技術指導。

1 國內外數據安全法規現狀

1.1 國外

2018年5月25日,歐盟正式實施《通用數據保護條例》(GDPR)用以保護歐盟成員國境內企業的個人數據,也包括歐盟境外企業處理歐盟公民的個人數據以及公民享有的各項數據權利。

受GDPR的影響,全球其他國家也陸續推出了各自相關的法規:巴西于2019年7月通過《通用數據保護法》(葡萄牙語簡稱LGPD);印度公布修改后的《2019年個人數據保護法(草案)》(Personal Data Protection Bill, 2019);泰國于2020年5月正式實施了《個人數據保護法》(Personal Data Protection Act,PDPA)等。此外,美國各個州在數據隱私領域上紛紛重新立法,包括加利福尼亞州 (加州)、蒙佛特州、夏威夷、馬里蘭、馬薩諸塞、密西西比和華盛頓等。其中,最具代表的是加州于2018年6月通過的《加州消費者隱私保護法案》(CCPA)。由于CCPA的影響涉及大部分知名IT科技公司,如惠普、Oracle、Apple、Google和Facebook等,該法案從立法到頒布備受各界人士的關注。2019年10月,美國加州州長正式簽署CCPA的最終法案,已于2020年1月1日正式生效。CCPA與GDPR類似,同樣對企業提出更高的數據合規性要求,據IAPP和OneTrust調查結果顯示,大約僅有2%的受訪者認為他們的企業已經完全做好了應對CCPA合規 的準備[2]。

在執法方面,歐盟GDPR相較其他國家的法規,已經進入全面執法階段,多個歐盟成員國已經陸續開出多張違反GDPR的罰單。其中,英國執法力度最大,英國ICO (Information Commissioner’s Office)2019年于7月對英國航空公司和萬豪國際集團由于數據泄露事件分別開出1.83億英鎊和9900萬英鎊的巨額罰單。另外,Google罰款事件非常具代表性,備受關注——作為一家大型國際互聯網公司,Google卻已被歐盟的兩個國家罰款:2019年1月被法國處罰5000萬歐元,原因是執法方認為Google的隱私條款未充分體現GDPR公開透明和清晰原則;2020年3月被瑞典處罰700萬歐元,原因是Google未充分履行GDPR賦予用戶的數據“遺忘權”。GDPR立法與執法的嚴苛程度,從以上的事件可見一斑。

1.2 國內

我國于2017年6月1日正式實施《中華人民共和國網絡安全法》(以下簡稱《網絡安全法》)[3]。它是我國首部較為全面規范網絡空間安全管理方面問題的基礎性法律,不僅包括網絡運行安全、關鍵信息基礎設施的運行安全,同時給出數據安全與個人信息保護的一般規定。

自2019以來,我國數據安全相關立法進程明顯加快:根據《網絡安全法》,國家互聯網信息辦公室分別于2019年5月和6月發布了《數據安全管理辦法 (征求意見稿)》和《個人信息出境安全評估辦法(征求意見稿)》等法規;同年10月1號正式實施《兒童個人信息網絡保護規定》,對兒童個人信息安全進行特殊和更加嚴格的保護。2020年5月我國發布《中華人民共和國民法典》,其首次在我國法律中明確且具體提出“隱私權”的概念,并確立隱私權范圍和個人信息保護的一些基本規范。2020年7月,我國對外發布《中華人民共和國數據安全法(草案)》(以下簡稱《數據安全法(草案)》),確立了數據分級分類保護、數據安全風險評估、應急處置機制和安全審查的重要制度,明確了開展數據活動必須履行數據安全保護義務等內容。2020年10月,《中華人民共和國個人信息保護法(草案)》(以下簡稱《個人信息保護法(草案)》)在人大網公開,該法律完善和豐富了個人各項數據權利,賦予個人包括知情權、決定權、查詢權、更正權、刪除權等;同時相比《網絡安全法》,其對違法的行為加大了懲處力度,最高可處罰5000萬人民幣或企業上一年度營業總額的5%。《數據安全法》和《個人信息保護法》作為兩部較為綜合性的法律,前者更加強調在總體國家安全觀的指導下,對國家利益、公共利益和個人、組織合法權益方面給予全面保護,后者則更加側重于對個人信息、隱私等涉及公民自身安全的個人信息與權益進行保護。

在標準層面上,我國數據安全多部標準已經發布或者正在制定中,相關的標準體系正逐步趨向完善,包括《數據安全能力成熟度模型》 (GB/T 37988-2019)、《個人信息安全規范》(GB/T 35273-2020)、《個人信息去標識化指南》(GB/T 37964-2019)、《大數據安全管理指南》(GB/T 37973-2019)等。

在數據安全相關執法上,我國監管部門主要聚焦在兩個方面:一是針對APP個人信息侵權專項治理,近年來網信辦、工業和信息化部、公安部、市場監管總局四部門成立專項治理工作組,對三十余萬款APP開展個人信息合規性評估與整治,包括未公開收集使用規則、未經用戶同意收集使用個人信息和私自共享給第三方用戶信息等,對涉及違規APP進行通報、約談、整改、下架等處罰形式,通報對象不乏有大型企業的APP[4]。二是針對個人信息非法交易與數據黑灰產的整治,公安部在多個城市連續開展“凈網2019”、“凈網 2020”專項行動[5],對此類案件重拳出擊,從源頭上進行杜絕,降低由于個人信息非法交易與泄露導致的定向電信詐騙、短信騷擾等給用戶帶來的精神困擾與財產損失。

2 合規驅動下的數據安全

2.1 概述

根據數據業務的應用場景以及數據域分布的不同,企業數據安全建設可分為三類場景:

(1)用戶隱私數據安全合規:企業與用戶交互的場景,它們需滿足數據安全與隱私合規性。具體包括數據采集的隱私保護、個人信息治理與可視化、用戶數據權利請求響應(訪問權、刪除權和限制處理權等)等子場景。

(2)企業內部數據安全治理:企業內部網絡環境中,需對其敏感數據和重要數據在存儲、使用等環節進行安全防護和監控。具體包括敏感數據的識別與分類、脫敏數據的殘余風險評估、數據操作行為的異常檢測等子場景。

(3)企業間數據共享與計算:兩個或兩個以上企業組織之間,實現數據的共享與計算任務,在滿足正常業務同時確保數據與隱私安全。具體包括涉及個人數據的發布與共享、云上數據安全存儲與計算、多方數據安全共享與計算、多方數據安全的聯合AI建模等子場景。

上述三大類場景的各個子場景不僅有自身的安全與隱私需求,也有合規性要求,具體可以對應到GDPR和《網絡安全法》的合規性條款。為了應對這些場景的安全與合規挑戰,可選取差分隱私、同態加密、安全多方計算和聯邦學習等十種前沿技術,具體如圖1所示。下文2.2-2.4小節將分別從三類場景出發,具體闡述如何通過前沿技術超越合規,解決隱私與安全問題。

2.2 新技術及在用戶隱私合規的應用

2.2.1 差分隱私

在法規中,為了應對隱私問題帶來的風險挑戰,歐盟GDPR指出數據控制者與處理者處理個人數據時“應當執行合適的技術措施和有組織性的措施來保證合理應對風險的安全水平”(第32條);而我國《網絡安全法》規定:“網絡運營者應當采取技術措施和其他必要措施,確保其收集的個人信息安全,防止信息泄露、毀損、丟失”(第42條)。這些法規均要求企業采取一定的技術與管理措施,確保采集的用戶個人信息與隱私安全。在數據采集中,如何平衡數據可用性與隱私保護的矛盾,下面介紹的是當前應用的一種關鍵技術。

差分隱私(Differential Privacy, DP)技術由于無需假設攻擊者掌握的背景知識,其安全性可通過數學證明等優勢,近年來受到了學術界和工業界的廣泛關注。

它最早由微軟研究者Dwork 在2007年提出[6],它可以確保數據庫插入或刪除一條記錄不會對查詢或統計的結果造成顯著性影響,數學化描述如下:

其中,D和D′分別指相鄰的數據集(差別只有一條記錄),f(g)是某種操作或算法(比如查詢、求平均、總和等)。對于它的任意輸出C,兩個數據集輸出這樣結果的概率幾乎是接近的,即兩者概率比值小于eε,那么稱為滿足?ε隱私。主要實現思路通過在查詢結果中加入噪聲,比如Laplace類型的噪聲,使得查詢結果在一定范圍內失真,并且保持兩個相鄰數據庫概率分布幾乎相同。ε參數通常被稱為隱私預算(Privacy budget),ε越小,兩次查詢相鄰數據集D和D′分的結果越接近,即隱私保護程度越高。一般將ε設置為一個較小的數,比如0.01,0.1。實際應用中需通過調節ε參數,以平衡隱私性與數據可用性。

在早期差分隱私應用場景中,數據存儲在數據庫中,通過提供具有差分隱私功能的查詢接口給查詢者使用,通常稱該方案為中心化的差分隱私模型(Centralized Differential Privacy,CDP),代表性應用是微軟開發了PINQ(Privacy Integrated Queries)系統。隨著研究與發展,出現了另一種模式——本地差分隱私(Local Differential Privacy, LDP),代表性應用是谷歌公司的Chrome瀏覽器的Rappor應用,以及蘋果公司的iphone的隱私數據采集。以蘋果公司為例,它通過差分隱私技術可挖掘到iPhone用戶使用表情的頻率分布,但無法獲得具體某一個用戶的確切隱私,如圖2所示。其原理是在LDP模式下,每一個用戶終端都會運行一個DP算法,每一個終端采集的數據都會加入噪聲,然后將其上傳給服務器;服務器雖然無法獲得某一個用戶的確切隱私,但通過聚合與轉換可以挖掘出用戶群體的行為趨勢。雖然差分隱私技術已經在工業界有一部分的成功應用,尤其是LDP,然而仍然面臨實現算法復雜度高,特色數據分布數據集的差分隱私結果噪聲過大,隱私預算難以控制等的實用化瓶頸。

圖2 差分隱私在iPhone的應用(圖引自[7])Fig.2 Application of differential privacy in iPhone

2.2.2 知識圖譜

歐盟GDPR賦予給用戶關于個人數據的訪問權、修改權和被遺忘權等多項權利。相應地,企業必須履行和響應用戶提出的請求。比如用戶發起數據查看請求,那么企業必須完整呈現數據主體的個人數據報告,包括收集了哪些用戶數據、共享給了哪些企業(第 12至22 條)。我國《網絡安全法》賦予了用戶一定程度的“刪除權”和“修改權”,同樣地企業須履行和配合用戶完成數據權利請求的流程。企業如何更好地完成該項法律規定的義務,即如何對同一個個人信息主體進行實體識別與數據關聯是一個技術挑戰。

知識圖譜(Knowledge Graph)技術可以很好應對以上合規性帶來的挑戰。它最早由Google在2012年提出[8],應用于優化搜索引擎,通過信息的提取與關聯以實現更好地查詢復雜的信息。隨著理論與技術的發展與完善,目前知識圖譜已廣泛應用于社交網絡、金融、電商等領域的數據挖掘。

知識圖譜本質上是語義網絡,是一種基于圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的“實體”,每條邊為實體與實體之間的“關系”。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網絡。知識圖譜提供了從“關系”的角度去分析問題的能力。

同樣,知識圖譜應用于個人數據保護領域,它可以幫助企業快速識別個人與敏感數據的存儲位置,這些數據是如何被使用的,以及它的合同、法律和監管義務,同時可以將個人數據主體所有的屬性維度信息,比如姓名、出生年月、手機號和地區等信息進行關聯。RSAC 2020創新沙盒比賽的冠軍公司——Securit.ai,它將知識圖譜技術引入到隱私合規領域,稱為個人數據圖譜(People data graph),它可以將個人數據主體所有的屬性維度信息,比如姓名、出生年月、手機號和地區等信息進行關聯,如圖3所示;同時在此基礎上能給出敏感數據存儲的分布地圖,以及傳輸的數據映射圖。這樣,當用戶提出個人數據請求時,比如刪除數據,企業可快速獲取用戶實體所有的數據維度、存儲位置以及共享的第三方信息,進而短時間內響應與處理用戶請求,滿足GDPR和CCPA的合規要求。

圖3 個人數據圖譜(圖引自[9])Fig.3 Personal data graph(cited from Ref.[9])

2.2.3 流程自動化

歐盟GDPR一方面賦予了用戶各種數據權利,另一方面也規定了企業在收到用戶數據權利請求后的響應時間,即“必須在一個月內對所有的請求進行響應和處理,若請求過于復雜,可延長至兩個月”(第 12至22 條)。我國《網絡安全法》雖未明確規定具體的響應時間,但在國家標準《個人信息安全規范》(GB/T 35273-2020)中,規定從請求到響應的時間是30天內(第 43 條)。對于該合規性要求,據Gartner調查,約有三分之二企業對單個數據主體權利請求(Subject Rights Request, SRR)的回復需要超過兩周以上的時間,且這些流程通常是人工完成,平均成本約高達1400美元。如何提升運營效率,降低響應超時的違規風險是一個極具挑戰性的問題。

流程自動化技術可幫助企業的數據安全運營團隊從繁瑣重復的手工處理“請求-響應”轉為自動化處理,一方面可降低人工的運營成本,另一方面可減少由于響應時間延誤帶來的違規風險。它可以賦能兩類隱私合規產品中:主體權利請求 (Subject Rights Request, SRR)和統一許可偏好性設置管理(Universal Consent and Preference Management, UCPM)。SRR可處理與響應用戶提出的個人數據訪問、修改和刪除等權利請求;UCPM可處理與響應用戶對被收集的個人數據提出限制處理和拒絕的權利請求。SRR和UCPM產品,可劃分為兩個功能層:

(1)用戶側功能:在移動App、應用程序或網站網頁的產品界面中,為用戶增加清晰透明的請求窗戶與按鈕,包括提供個人數據查看、修改、刪除按鈕,或者限制處理的目的和拒絕與第三方公司共享等偏好性設置面板,類似于圖4所示;

圖4 SRR/UCPM產品為用戶提供面板(圖引自[9])Fig.4 Panel for SRR/UCPM products(cited from Ref.[9])

(2)企業側功能:企業后端系統收到請求,進行身份識別與確認后,對請求的內容進行解析,并對映射關聯實體數據,在規定時間內對請求進行響應,將結果通過郵件或網頁形式反饋給發出請求的用戶。

歐美安全初創公司Securiti.ai、BigID和One Trust等多家均推出SRR和UCPM相關產品。但作為近年來的新興隱私合規技術,未來仍然可進一步發展:(1)提升流程效率,優化響應單個SRR/UCPM請求流程;(2)降低運營成本,包括考慮運營團隊處理請求時所涉及的計算資源;(3)引入人工智能技術,提升自動化處理的效率與精度。

2.3 新技術及在數據安全治理的應用

2.3.1 敏感數據智能識別

歐盟GDPR的核心是保護個人數據,但對個人數據的定義十分寬泛,不僅包括姓名、年齡、性別等基本個人信息,還包括個人照片、IP、Mac、網絡Cookie等一系列信息(第4條);我國《網絡安全法》的“個人信息”同樣蘊含豐富的個人基本信息以及特殊數據,比如包括個人照片、身份證照片和指紋等(第76條)。如何識別這些特殊的“個人信息”,傳統的敏感數據識別方法,需要人工設計規則與字典,難以覆蓋全面,易出現漏檢現象。

智能敏感數據識別技術主要應用在文本、圖像等非結構化數據類型中。它包括以下三類智能算法:(1)基于相似度算法:可準確檢測以文檔形式存儲的非結構化數據,例如 Word 與 PowerPoint 文件、PDF 文檔、財務文檔。主要思路是分別提取敏感信息文檔和待檢測文檔的指紋特征,然后通過相似度算法比較,根據預設的相似度閾值去確認被檢測文檔是否為敏感信息文檔。(2)基于非監督學習算法:它無需人工打標簽。待檢測敏感數據提取特征后,使用K-means、DBSCAN等聚類算法,將輸入的樣本向量進行聚類,聚類完成形成不同“簇”的數據集合,人工對這些“簇”的部分樣本進行分析確定相應“簇”的類別,比如敏感型、非敏感型。(3)基于監督學習算法:它需收集一定數量的訓練數據(比如文檔、圖片),同時對數據進行人工打標簽,比如敏感與非敏感標簽。然后選擇相應的監督學習算法,比如支持向量機(SVM)、決策樹、隨機森林、神經網絡等,再對訓練數據進行模型訓練與調參。訓練完成,將輸出的模型應用在新的數據進行智能識別與預測,自動化輸出數據類型——敏感或非敏感數據。

在實際應用中,創新公司Securiti.ai和 BigID均宣稱利用機器學習和聚類算法在大規模數據實現分類,以自動化發現個人數據以及其他敏感數據。但算法的效率、識別精度以及可擴展性仍然是一系列富有挑戰性的關鍵問題。

2.3.2 數據脫敏風險評估

歐盟GDPR規定,在數據處理過程中,應當選擇合適的技術措施合理地應對安全風險(第32條)。我國《網絡安全法》要求企業采取一定的技術與管理措施,確保用戶個人信息與隱私安全(第42條)。數據脫敏是企業廣泛采用的一種安全技術措施,然而發現脫敏方法選擇不對,脫敏強度不夠,仍然存在隱私泄露風險。在風險管理的視角下,如何刻畫和評估風險尤為關鍵。

數據脫敏風險評估,是對脫敏后的數據的隱私泄露風險進行分析和刻畫。其技術主要可分為兩類:基于人工抽查的定性判定方法和通用的評估技術。其中,基于人工抽查的定性判定方法,指的是按照標準流程和表格進行專家檢查和判定,然而,這種方法成本十分昂貴。

通用的風險評估技術與數據脫敏方法與模型無關,在學術上通常稱為重標識風險(Re-identification risk)的度量。加拿大學者El Emam等人建立了較為通用的重標識風險評估理論與方法[10],并根據攻擊者能力與攻擊意圖,將攻擊分為三類場景并將其形象化命名為:檢察官攻擊 (Prosecutor attack)、記者攻擊 (Journalist attack)和營銷者攻擊 (Marketer attack)。在三種攻擊場景下,El Emam等人基于概率和分布設計了一套評價指標體系,它包括8種指標,分別可以刻畫平均重標識概率、最大重標識概率、高重標識記錄占比等風險信息。它們的數值范圍均為[0,1],1表示最高重標識風險,0表示幾乎最低重標識風險。在具體應用中,需根據實際情況,選擇合適的指標進行重標識風險評估。

在工業應用中,數據安全公司Privacy Analytics提供數據脫敏以及風險評估與檢測,幫助數據處理企業實現HIPAA合規,同時將數據共享或出售給保險、藥企和科研結構等第三方。目前該技術被我國一些專家學者重視,制定了一些相關標準,并開發一些相關的評估工具。比較有代表性的是綠盟科技提出的數據脫敏風險評估方案,當敏感數據經過數據脫敏后,對脫敏數據集結果進行風險評估,最終得到風險值,根據預置場景(內部使用、與第三方共享、對外交易的、對外公開發布的)閾值進行比較,若不滿足分析原因,實施二次脫敏,直到脫敏的殘余風險在可控范圍。如圖5所示,對身份證號和手機號的數據集進行三次“脫敏-評估”循環,直至風險的可能性和危害性落入可接收范圍內。

圖5 綠盟科技的數據脫敏風險評估應用Fig.5 Application of risk assessment for data masking

2.3.3 用戶實體行為分析

同上一節的歐盟GDPR規定(第32條)和我國《網絡安全法》規定(第42條)的相關要求。在數據庫、大數據平臺的安全防護中,需記錄和分析用戶實體的正常和異常行為模式,比如防止數據由于外部攻擊或內部原因導致的泄漏行為。傳統基于規則的異常檢測方法無法應對復雜業務帶來的挑戰。

用戶實體行為分析(User and Entity Behavior Analytics, UEBA)技術通過對用戶實體持續的畫像與建模,可從海量收集的安全數據中及時發現和識別出攻擊以及異常的行為[11]。UEBA包括一些基本的分析方法(閾值分析),同時也包括一些高級分析方法(關聯分析,機器學習):

(1)閾值分析:主要是基于統計方法做異常檢測。對一段時間內的數據進行統計,然后和閾值比較,如果超出閾值范圍,則判定為異常。比如統計正常的歷史流入流出流量的統計值作為閾值,進行異常行為判定。

(2)關聯分析:用于發現隱藏在大型數據集中的有意義的聯系。可以基于算法做關聯分析,挖出數據之間的關聯規則,另外,還可以借助圖數據庫等工具,挖掘數據之間的關聯。

(3)機器學習:通過對大量歷史數據持續進化不斷學習,能夠檢測和識別異常或惡意行為,特別是對數據安全未知威脅的檢測具有優勢。UEBA通常應用邏輯回歸、SVM、K-Means聚類、DBSCAN密度聚類、隨機森林等算法。

根據 Gartner 報告,UEBA 在中大型企業(比如IBM,Google)已在一些安全場景實現落地與應用,該技術已逐步趨向成熟。而在數據安全領域的應用,典型應用場景是數據庫泄露的異常檢測。以敏感數據為中心,通過采集用戶實體對數據操作相關維度信息,通過數據分析與學習過程,建立多維度實體的行為基線,利用機器學習算法和預定義規則找出嚴重偏離基線的異常行為,及時發現內部用戶、合作伙伴竊取數據等違規行為。在該場景中,通常采用5W1H模型進行UEBA分析與建模:Who(何人),When(何時),Where(何地),What(何事),Why(原因),How(行為方式)。通過6個維度實體行為的分析,可及時發現數據泄露與異常操作行為。

2.4 新技術及在數據共享計算的應用

2.4.1 數據匿名

GDPR規定,企業不能直接共享原始的個人數據,但對個人數據進行匿名化處理得到的匿名數據,可用于統計和研究目的,其不受該法規約束與限制(前言的第26段);我國《網絡安全法》也有類似的規定,“經過處理無法識別特定個人且不能復原”的數據可與第三方進行共享(第42條)。如何實現低成本的、安全合規的個人數據共享與發布,這對于企業來說是挑戰性問題。

數據匿名 (Data Anonymization),是對個人信息進行泛化和屏蔽等處理,使得對應的個人信息主體無法被識別,達到“身份匿名或隱藏”的效果。

在匿名化技術中,K-匿名是最早研究的技術[12]。它可以保證數據表中至少有K條記錄泛化為相同的取值。這樣處理保證了一定的數據可用性,同時也保護了患者的隱私——即使攻擊者有背景知識,也無法唯一地確定到底哪一條記錄屬于朋友的診斷記錄。

由于K-匿名不對敏感屬性進行約束,當等價組的敏感屬性取值相同時,仍然存在隱私泄露風險。后續學者提出了L-多樣性(L-diversity)[13]和T-近似性(T-closeness)[14]模型。

(1)L-多樣性模型:它不僅可以保證形成的等價組至少包含K個記錄,同時通過修改敏感屬性或者添加偽造記錄,使得任意等價組的敏感屬性至少包含L個不同的值。

(2)T-近似性模型:它不僅可以保證形成的等價組至少包含K個記錄,同樣通過修改敏感屬性或者添加偽造記錄,使得任意的等價組的敏感屬性的分布與全局的敏感屬性分布之間的距離度量值小于參數T。

總的來說,各個模型的隱私保護程度效果,T-近似性優于L-多樣性,L-多樣性優于K-匿名;然而對于數據可用性,卻正好相反。在實際應用場景中,需根據兩者的具體需求進行技術選型。

在工業界應用中,數據匿名技術有豐富開源項目,其中ARX較為成熟,支持K-匿名、L-多樣和T-近似模型,且提供豐富的界面和API接口。同時數據匿名技術在Google、Privitar和Anonos等公司均有一定的應用。然而,該技術仍然存在挑戰性問題有待進一步解決,比如在高維數據集上表現的數據可用性急劇下降問題,多個敏感屬性的匿名化處理,匿名算法優化以及在大數據平臺的應用等問題。

2.4.2 同態加密

歐盟GDPR對于個人數據保護的安全措施,推薦使用加密等手段,以應對數據存儲與處理環節的安全風險(32條);我國《網絡安全法》同樣推薦應用加密等技術措施,以防止數據與個人信息的泄露以及毀損等安全問題(21條)。傳統的數據加密方法,如AES、3DES和SM4,加密得到的密文數據無法進一步分析。在兼顧數據安全與數據利用的應用場景中,如云上的敏感數據計算,需要使用一種新型的加密技術,不僅能保障數據的安全,同時加密后仍然可以執行數據處理操作。

同態加密(Homomorphic Encryption,HE)是應對以上需求的一類關鍵技術。它的概念最早由Rivest等人在1978年提出[15],它是一種特殊加密算法,其形式化可表述為:假設A和B是兩個待加密的明文,Enc(g)是其加密函數,那么它存在以下關系(被稱為數學同態):

通俗地講,密文域進行?操作相當于在明文域進行?操作(?和?是兩種特定的數學運算)。這種性質使得加密數據的處理、分析與檢索等操作成為可能,同時在云計算趨勢下該技術具有極其重要的應用價值。下面以簡單例子進行闡述:如圖6表示,假設在不可信的云環境中,員工C1上傳兩個密文數Enc(A)和Enc(B),到不可信的云平臺中,員工C2提交兩個明文數據進行?的任務,那么公有云平臺翻譯過來的數據執行動作為:密文操作Enc(A))?Enc(B)。由于數據從始至終一直處于加密狀態,那么無論是云服務廠商,還是攻擊者他們都將無法訪問或竊取明文數據,從而保障了云平臺的數據安全。

圖6 同態加密在云平臺應用Fig.6 Homomorphic encryption in the cloud

根據同態加密能力,將同態加密分為加法同態、乘法同態和全同態加密(Full Homomorphic Encryption,FHE)。其中,全同態加密可同時滿足加法同態和乘法同態,同時可執行任何次數的加和乘運算后仍具有同態性。全同態加密方案具有重要的理論與應用價值。2009年IBM的研究人員Gentry首次提出了一個完整的FHE方案[16]。但研究發現,Gentry方案計算開銷較高,且密鑰規模、密文尺寸較大。隨后,一些改進方案被提出,例如BGV方案、基于誤差學習(Learning with Errors, LWE)、理想陪集問題(Ideal Coset Problem,ICP)、整數上的近似最大公因子問題(Approximate Greatest Common Devisior,AGCD)等方案。

在工業界應用上,微軟有在Github開源的同態加密庫SEAL;IBM公司將同態加密(FHE)在Linux系統的應用工具進行開源——FHE Toolkit Linux,以及IBM同態加密庫HElib;Duality公司推出同態加密SecurePlus平臺[17],圖7是該平臺在金融領域應用,通過應用同態加密技術可使得敏感數據在整個處理生命周期中,始終保持加密狀態,用戶無需解密即可計算和分析數據。也就是說,平臺用戶可在遵守隱私和金融法規下,即不暴露敏感的個人或商業信息前提下,實現交易查詢、實體和賬戶及金融犯罪信息的調查。然而,現有的同態加密技術與方案需要消耗大量的計算資源、存儲資源(體現在高額的實現成本)是目前實用化的主要挑戰,目前只能應用和部署在安全要求較高的特定場景中,離廣泛的商業應用仍然有一段較長的距離。

圖7 Duality SecurePlus平臺在金融數據查詢的應用(圖引自[17])Fig.7 Application of Duality SecurePlus platform in financial data query(cited from Ref.[17])

2.4.3 安全多方計算

同上一節的歐盟GDPR規定(第32條)和我國《網絡安全法》規定(第21條)的相關合規性要求。在傳統的多方數據共享與計算場景,各方需將各自的敏感數據分別上傳至服務器后,再進行計算。然而該方案仍然存在第三方隱私竊取問題。因此需提出“去中心化”的隱私保護方案。

安全多方計算(Secure Multi-party Computation,MPC)正是實現以上安全與合規目標的一類重要技術方案。它可以看作是多個節點參與的特殊計算協議,即在一個分布式的環境中,各參與方在互不信任的情況下進行協同計算,輸出計算結果,并保證任何一方均無法得到除應得的計算結果之外的其他任何信息,包括輸入和計算過程的狀態等信息。它解決了在不信任環境下多個參與方聯合計算一個函數的問題[18]。為了闡述原理,圖8給出了安全多方計算與傳統分布式計算兩種模式的區別。

圖8 安全多方計算與傳統分布式計算的比較:(a)傳統分布式計算;(b)安全多方計算Fig.8 Comparison between secure multi-party computing and traditional distributed computing: (a)Traditional distributed computing; (b)Secure multi-party computing

MPC具有以下的特點:(1)隱私性:參與方僅限于獲得自己一方的輸入和輸出數據,除此之外,其他方的數據無法獲得。(2)正確性:可確保聯合計算之后所有參與方都能獲得正確的計算結果。(3)去中心化:不同于傳統的分布式計算,在安全多方計算中提供了一種去中心化的計算模式,各參與方的地位平等,不存在擁有特權的第三方。

實現多方安全計算協議主要有基于混淆電路(Garbled Circuit,GC)、秘密分享(Secret Sharing,SS)和同態加密三種方式。根據支持的計算任務場景可分為專用MPC和通用MPC兩類。其中,專用MPC支持特定計算任務的MPC,比如比較數值大小、隱私求交集(Private Set Intersection,PSI)計算協議等;而通用場景MPC理論上可支持任何計算任務,它具有完備性。

在工業應用中,兩方計算技術發展較為成熟,目前有多種實現方案,比如2004年發布的Fairplay系統是第一個實現的系統;Google使用PSI技術對Chrome用戶的其他網絡賬戶密碼進行泄露密碼庫的檢測,同時保證無法獲取原始密碼信息。對于多方計算,在某些特定場景下也具有較好性能,然而通用的場景具有諸多挑戰,例如擴展性問題、效率問題以及誠實性問題(輸入方可能輸入虛假數據或篡改狀態數據),這些問題亟需未來進一步研究與解決。

2.4.4 聯邦學習

同2.4.2節的歐盟GDPR規定(第32條)和我國《網絡安全法》規定(第21條)的相關要求。傳統的分布式機器學習主要用于解決計算瓶頸,但無法保障輸入數據與隱私的安全。具備隱私保護的機器學習成為新一代機器學習發展的關鍵需求。

聯邦學習(Federated Learning, FL)正是滿足以上隱私與安全需求的一類機器學習方法。它的概念最早由Google在2016年提出[19],原本用于解決大規模Android終端協同分布式機器學習的隱私問題。作為一種新興的技術,聯邦學習有機融合了機器學習、分布式通信,以及隱私保護技術與理論。

隨著全球隱私法規的強化,以及數據挖掘需求的旺盛,自從聯邦學習概念提出以來,在學術界和工業界受到廣泛的關注與研究,發展十分迅速,不僅可應用于2C場景——如用戶移動設備,還推廣到了面向企業場景——企業組織間的敏感數據共享與機器學習。聯邦學習可以使得多個參與方(如企業、用戶移動設備)在不交換原始數據情況下,實現聯合機器學習建模、訓練和模型部署。簡單來看,聯邦學習它是一個可隱私保護的分布式機器學習框架與算法。

按照參與方使用數據集的場景不同,聯邦學習分為三種類別:橫向聯邦學習、縱向聯邦學習和遷移聯邦學習。橫向聯邦學習各方使用的不同數據集,其樣本的維度大部分是相同的,但各方的樣本ID是不同的;縱向聯邦學習各方使用的數據集樣本ID大部分是相同的,但各方的樣本維度是不同的;遷移聯邦學習各方使用的數據集樣本具有高度的差異,即樣本ID和樣本維度僅有少部分的重疊。

聯邦學習的核心思想是在保證原始數據不出本地域情況下,實現多方的數據共享與聯合建模。那么,多方建模過程涉及的原始數據需進行轉換,聯邦學習首先將原始數據進行特征化、參數化過程保證了原始數據的“不可見”;同時通過對提取的特征向量、參數用差分隱私、同態加密或安全多方計算技術避免數據重構攻擊、模型反演攻擊導致的隱私泄露。

聯邦學習近年來在工業界得到了廣泛關注,國內外多家企業開展了探索,并且開展了一些商業化落地案例。例如谷歌將聯邦學習應用在Android手機的新聞推薦、輸入法Gboard,并推出 TensorFlow Federated聯邦學習開源框架;Intel 將TEE(可信任執行環境)技術與聯邦學習進行結合;國內的以微眾銀行為代表的企業將聯邦學習應用在保險定價、圖像檢測等領域,并開源了FATE聯邦學習框架。然而,總的來說,聯邦學習的發展仍處于初步發展階段,當前仍面臨諸多挑戰,例如:如何解決參與方誠信問題,如何設計聯邦學習框架有效的激勵機制,高效通信機制研究,以及探索更多聯邦學習的應用場景。

3 總結與展望

在全球數據安全法規監管的不斷強化趨勢背景下,合規性成為了企業數據安全建設與治理的重要驅動力。在合規視角下,數據安全的內涵在合規與業務安全雙重需求驅動下不斷外延和擴展,安全問題的日益凸顯及數據安全覆蓋的應用場景將變得更加多樣化,這給傳統的數據安全技術與解決方案帶來了巨大的挑戰。為此,本文引入十種前沿的數據安全技術,包括知識圖譜、用戶實體行為分析、同態加密、安全多方計算、聯邦學習和差分隱私等;根據這十種技術的發展起源與功能特點,將其映射到三大類企業數據安全場景——用戶隱私合規、數據安全治理、數據共享計算,本文詳細剖析了這三類場景的合規要求與安全挑戰,同時分別闡述和探討這些技術的原理、應用以及當前面臨的挑戰。

從宏觀視角看,數據安全領域當前面臨諸多關鍵性挑戰,亟需未來進一步解決。首先,數據安全建設是一個系統性工程,不僅要靠技術也需靠管理,如何建立完善的數據安全管理體系和技術體系,充分利用和發揮好技術與管理的關系,如何將新型技術與成熟技術(如加密、去標識化等)進行有效結合等是重要的關注點;其次,數據安全建設是一個長期持續改進的過程,需研究與建立一套基于數據安全風險管理的評估模型,通過“風險識別-風險控制-風險評估”的閉環迭代,持續進行改進與優化;最后,需強調的是數據安全與數據應用不應是矛盾與對立的關系,如何平衡兩者的關系,在保障數據安全的同時讓數據價值最大化,未來需從技術的理論和應用兩個角度開展深入研究。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 亚洲国产91人成在线| 呦系列视频一区二区三区| 青青草欧美| av在线5g无码天天| 久久香蕉国产线看精品| 亚洲国产中文欧美在线人成大黄瓜| 日韩人妻无码制服丝袜视频| 在线欧美日韩| 欧美日韩免费观看| 被公侵犯人妻少妇一区二区三区| 精品无码国产自产野外拍在线| 精品亚洲国产成人AV| 欧美a级完整在线观看| 亚洲精品福利视频| 欧美激情视频一区二区三区免费| 中文无码伦av中文字幕| 国产无遮挡猛进猛出免费软件| 久久久国产精品免费视频| 久久永久免费人妻精品| 亚洲中文字幕精品| 乱色熟女综合一区二区| 国产精品久久久久久搜索| 亚洲日韩精品欧美中文字幕| 国产拍在线| 亚洲一级毛片免费观看| 亚洲人成人无码www| 亚洲成人在线免费观看| 国产一区二区三区免费观看| www.youjizz.com久久| 国产精品三区四区| 极品尤物av美乳在线观看| 国产91丝袜在线播放动漫| 成人中文字幕在线| 久久 午夜福利 张柏芝| 亚洲成人高清无码| 自拍欧美亚洲| 老司机久久99久久精品播放| 国产99精品视频| 原味小视频在线www国产| a级毛片毛片免费观看久潮| 国产凹凸视频在线观看| 四虎永久免费地址| 久久久国产精品无码专区| 亚洲精品成人7777在线观看| 国产精品一区在线麻豆| 日韩天堂在线观看| 人妻21p大胆| 久久久久九九精品影院| 99在线视频免费| 国产女人综合久久精品视| 国产一线在线| 99精品欧美一区| 不卡的在线视频免费观看| 高清国产va日韩亚洲免费午夜电影| 国产精品亚洲а∨天堂免下载| 成·人免费午夜无码视频在线观看 | 亚洲欧美一区二区三区蜜芽| 玖玖精品视频在线观看| 婷婷六月色| 亚洲国产亚洲综合在线尤物| 亚洲欧美一级一级a| 久久国产高潮流白浆免费观看| 日韩高清一区 | 免费国产无遮挡又黄又爽| 亚洲三级色| 91麻豆精品国产91久久久久| 国产精品黑色丝袜的老师| 国产欧美专区在线观看| 亚洲男女在线| 亚洲欧美一区二区三区图片| 亚洲日韩欧美在线观看| 国产欧美日韩另类| 中国一级特黄视频| 2020国产精品视频| 一级毛片网| 国产精品片在线观看手机版| 欧美一区二区啪啪| 尤物精品国产福利网站| 久久77777| 国产精品19p| 99人妻碰碰碰久久久久禁片 | 精品国产www|