

摘要:隨著大數(shù)據(jù)時(shí)代的到來(lái),應(yīng)用數(shù)據(jù)帶來(lái)一定的經(jīng)濟(jì)和社會(huì)效益已成為常態(tài)。然而在數(shù)據(jù)分析的過(guò)程中,必不可少會(huì)涉及隱私和敏感數(shù)據(jù),如何保障數(shù)據(jù)安全與隱私信息不被泄露,是在數(shù)據(jù)分析中不可忽略的問(wèn)題。因此,文章基于對(duì)大數(shù)據(jù)分析工作中面臨的數(shù)據(jù)隱私安全問(wèn)題,分析其產(chǎn)生的原因并提出解決方法,并展望了其未來(lái)發(fā)展趨勢(shì)。
關(guān)鍵詞:隱私保護(hù);大數(shù)據(jù)分析;差分隱私;同態(tài)加密;聯(lián)邦學(xué)習(xí);區(qū)塊鏈
doi:10.3969/J.ISSN.1672-7274.2023.03.047
中圖分類號(hào):TP 3" " " " " " " "文獻(xiàn)標(biāo)示碼:A" " " " " " " "文章編碼:1672-7274(2023)03-0-04
Privacy Protection in Big Data Analytics
FENG Fan
(Karamay Vocational amp; Technical College, Karamay 834000, China)
Abstract: Applying data to achieve certain economic and social benefits has become the norm with the advent of the big data era. However, the involvement of privacy and sensitive data in the data analysis process is essential, and how to protect data security and privacy information from leakage is an issue that cannot be ignored when data analysis is being conducted. Therefore, this paper analyses the causes and common solutions of data privacy and security problems in the big data analysis workflow, and provides an outlook on future development trends.
Key words: privacy protection; big data analytics; differential privacy; homomorphic encryption; federated learning; blockchain
1" 大數(shù)據(jù)分析技術(shù)概述
1.1" 大數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)分析通常是指利用一定的工具和手段,對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)與普通數(shù)據(jù)的區(qū)別,主要表現(xiàn)在大數(shù)據(jù)的5個(gè)特點(diǎn)上,即數(shù)據(jù)量大、速度快、類型多、價(jià)值、真實(shí)性。
1.2" 大數(shù)據(jù)分析技術(shù)應(yīng)用情況
電商中常見(jiàn)的推薦系統(tǒng)是人們?nèi)粘I钪薪佑|最多的大數(shù)據(jù)技術(shù)應(yīng)用場(chǎng)景,此外,醫(yī)學(xué)領(lǐng)域的流行病軌跡調(diào)查、基因測(cè)序;政務(wù)領(lǐng)域的“讓數(shù)據(jù)多跑路、市民少跑路”;教育領(lǐng)域的學(xué)情分析等[1-2],都是大數(shù)據(jù)技術(shù)的成功應(yīng)用。數(shù)據(jù)交易所、數(shù)據(jù)服務(wù)平臺(tái)等新型交易服務(wù)形式的出現(xiàn),更是讓數(shù)據(jù)成為了一個(gè)可被量化交易的商品。
1.3" 大數(shù)據(jù)分析工作流程
大數(shù)據(jù)分析工作流程主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析及挖掘建模、數(shù)據(jù)可視化及應(yīng)用、數(shù)據(jù)歸檔或銷毀。根據(jù)《中華人民共和國(guó)個(gè)人信息保護(hù)法》,個(gè)人信息的處理包括個(gè)人信息的收集、存儲(chǔ)、使用、加工、傳輸、提供、公開(kāi)、刪除等。因此,在大數(shù)據(jù)分析及應(yīng)用的工作流程中,將包含以上8各方面對(duì)隱私的保護(hù)。
2" 大數(shù)據(jù)時(shí)代下的隱私問(wèn)題產(chǎn)生原因
2.1" 問(wèn)題原因分類
2.1.1" 安全意識(shí)
資料顯示,我國(guó)近80%的民眾遭遇到個(gè)人隱私數(shù)據(jù)泄露的問(wèn)題[3]。安全意識(shí)是隱私問(wèn)題產(chǎn)生的首要原因,主要包括個(gè)人安全意識(shí)、服務(wù)提供商安全意識(shí)兩個(gè)方面。個(gè)人缺乏數(shù)據(jù)安全意識(shí),不假思索地填寫(xiě)個(gè)人信息、提供應(yīng)用數(shù)據(jù),這為隱私泄露的產(chǎn)生提供了基礎(chǔ)。作為應(yīng)用服務(wù)的提供商,為獲取大量的數(shù)據(jù)用于分析,時(shí)常在應(yīng)用中獲取非必要的用戶信息和權(quán)限,隨著法律法規(guī)的不斷健全,此類問(wèn)題日益減少,但仍有商家在試探。
2.1.2 管理問(wèn)題
企業(yè)缺乏有效的數(shù)據(jù)安全及隱私保護(hù)管理制度,對(duì)員工尤其是對(duì)掌握隱私數(shù)據(jù)的工作人員缺乏管理和教育,使得數(shù)據(jù)泄露從內(nèi)部發(fā)生。另外,為了企業(yè)形象,許多企業(yè)甚至選擇隱瞞遭受安全攻擊的事實(shí),導(dǎo)致用戶無(wú)法第一時(shí)間處理自己的個(gè)人隱私信息[4]。然而,隱私泄露這類安全事件發(fā)生所帶來(lái)的不良結(jié)果,卻是難以補(bǔ)救的。
2.1.3 技術(shù)問(wèn)題
針對(duì)數(shù)據(jù)的各類技術(shù)攻擊,是導(dǎo)致隱私泄露的直接原因,基于數(shù)據(jù)分析挖掘的去匿名化隱私侵犯[5]、APT攻擊[6]、越權(quán)等問(wèn)題,導(dǎo)致數(shù)據(jù)庫(kù)被非法用戶獲取。
2.2 大數(shù)據(jù)分析工作流中的隱私保護(hù)問(wèn)題
大數(shù)據(jù)分析工作中的隱私保護(hù)問(wèn)題,主要表現(xiàn)在工作流程不規(guī)范或者是未采取一定的隱私保護(hù)措施,而導(dǎo)致隱私泄露或被非法利用。一是在數(shù)據(jù)采集、傳輸過(guò)程中,數(shù)據(jù)以明文采集后直接傳輸,并未使用安全的傳輸通道。二是在數(shù)據(jù)存儲(chǔ)過(guò)程中,隱私數(shù)據(jù)被以明文存儲(chǔ),一旦發(fā)生數(shù)據(jù)庫(kù)被攻擊等安全事件,隱私數(shù)據(jù)隨之泄露;另外,為了減少工作量,增加工作的便捷性,未對(duì)數(shù)據(jù)庫(kù)權(quán)限進(jìn)行嚴(yán)格劃分,不同工種使用同一個(gè)甚至是最高權(quán)限等級(jí)的管理賬戶,當(dāng)問(wèn)題發(fā)生時(shí),無(wú)法追責(zé)。三是在數(shù)據(jù)預(yù)處理和分析環(huán)節(jié),未隱藏其中的個(gè)體對(duì)象數(shù)據(jù)信息,能夠被攻擊者使用差分攻擊等手段,獲得個(gè)體信息隱私數(shù)據(jù)。四是數(shù)據(jù)的共享主要涉及傳輸和權(quán)限問(wèn)題,而歸檔和銷毀則與存儲(chǔ)問(wèn)題相同。
3" 隱私保護(hù)技術(shù)
3.1 技術(shù)比較
表1針對(duì)目前常用的隱私保護(hù)技術(shù)方案,從性能、數(shù)據(jù)分布、實(shí)時(shí)性、靈活性、參與方、成本等方面進(jìn)行了比較。
3.2" 具體技術(shù)說(shuō)明
3.2.1 數(shù)據(jù)脫敏
數(shù)據(jù)脫敏是最常用的、靈活性最強(qiáng)的數(shù)據(jù)隱私保護(hù)技術(shù)。它通過(guò)數(shù)據(jù)替換、隨機(jī)值、平均數(shù)、混淆等手段,將原始數(shù)據(jù)模糊化或屏蔽部分信息,從而保障隱私安全。然而,只采用這種技術(shù)手段的方案,多為只對(duì)隱私數(shù)據(jù)處理,攻擊者容易發(fā)現(xiàn)其規(guī)律,造成一定的信息泄露風(fēng)險(xiǎn)。因此,這種方案通常用于對(duì)隱私性要求相對(duì)較低、網(wǎng)絡(luò)環(huán)境安全的場(chǎng)景。
3.2.2 匿名化
匿名化技術(shù)常和去標(biāo)識(shí)化同時(shí)使用,目的在于無(wú)法使任何一條數(shù)據(jù),能夠?qū)?yīng)一個(gè)具體的對(duì)象實(shí)體隱藏敏感信息。匿名化和去標(biāo)識(shí)化的區(qū)別在于,去標(biāo)識(shí)化直接刪除能夠標(biāo)識(shí)某個(gè)具體實(shí)體對(duì)象的信息,而匿名化則是采用匿名技術(shù),隱藏屬性特征。
3.2.3 同態(tài)加密
基礎(chǔ)的密碼技術(shù),如對(duì)稱加密、非對(duì)稱加密、散列函數(shù)等,已廣泛用于數(shù)據(jù)脫敏和匿名化場(chǎng)景,而在隱私保護(hù)中,使用同態(tài)加密。與傳統(tǒng)密碼技術(shù)相比,同態(tài)加密基于公鑰全同態(tài)加密實(shí)現(xiàn),通過(guò)云端的密文域,實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)的加解密保護(hù)。然而,在大數(shù)據(jù)時(shí)代下,海量數(shù)據(jù)的同態(tài)加密,將會(huì)直接影響計(jì)算性能[7]。
3.2.4 差分隱私
近年來(lái),差分隱私作為隱私保護(hù)領(lǐng)域的常用技術(shù),受到高度關(guān)注。與其他技術(shù)相比,差分隱私通過(guò)對(duì)數(shù)據(jù)添加干擾和噪聲,以解決在先驗(yàn)知識(shí)下的差異化統(tǒng)計(jì)數(shù)據(jù)攻擊問(wèn)題,而不影響最后的統(tǒng)計(jì)結(jié)果。因此,在使用差分隱私技術(shù)中,如何添加合理的噪聲和干擾,是重點(diǎn)研究的問(wèn)題。過(guò)大的噪聲和干擾,將影響統(tǒng)計(jì)結(jié)果的準(zhǔn)確性,而過(guò)小的噪聲和干擾,安全程度則有所降低。
3.2.5 聯(lián)邦學(xué)習(xí)
在大數(shù)據(jù)場(chǎng)景下,許多組織處于安全性考慮,不愿貢獻(xiàn)出自己的數(shù)據(jù)用于分析。聯(lián)邦學(xué)習(xí)使數(shù)據(jù)不出本地就可被多方利用,因此,使用聯(lián)邦學(xué)習(xí)能夠獲得更廣泛的數(shù)據(jù)來(lái)源,而數(shù)據(jù)的隱私保護(hù)可由各方在本地完成。但是,由于其使用了一個(gè)中心節(jié)點(diǎn)用于模型的更新和下發(fā),因此,各客戶端和中心節(jié)點(diǎn)的數(shù)據(jù)交互過(guò)程,將產(chǎn)生大量的時(shí)間,從而影響數(shù)據(jù)分析的實(shí)時(shí)性[8]。
3.2.6 區(qū)塊鏈
區(qū)塊鏈作為Web 3.0的核心技術(shù),在其產(chǎn)生時(shí)就作為安全性解決方案應(yīng)用于信息化建設(shè)中。如果將所有的數(shù)據(jù)全部上鏈,則對(duì)存儲(chǔ)性能有較高的要求。因此,使用“鏈上”+“鏈下”的存儲(chǔ)方式,可解決該問(wèn)題:在“鏈下”存儲(chǔ)實(shí)際的業(yè)務(wù)數(shù)據(jù),而將數(shù)據(jù)的Hash存儲(chǔ)在“鏈上”,并且線下的業(yè)務(wù)數(shù)據(jù)可根據(jù)業(yè)務(wù)要求,使用其他解決方案。但是,現(xiàn)有區(qū)塊鏈系統(tǒng)的存儲(chǔ)結(jié)構(gòu)相對(duì)固定,缺乏靈活性,這也是未來(lái)需要改進(jìn)和研究的方向[9-10]。
3.3 其他技術(shù)方案
除了以上提到的算法及軟件技術(shù)解決方案,針對(duì)隱私保護(hù)還可以使用零知識(shí)證明[11]、對(duì)抗學(xué)習(xí)、其他密碼算法等解決方案。另外,硬件保護(hù),如基于密碼學(xué)的隱私保護(hù)技術(shù)——可信執(zhí)行環(huán)境(Trusted execution environment,TEE)也是解決方案之一,它基于硬件安全的CPU實(shí)現(xiàn)了基于內(nèi)存隔離的安全計(jì)算,可在保證計(jì)算效率的前提下完成隱私保護(hù)的計(jì)算。
4" 大數(shù)據(jù)分析過(guò)程中的各環(huán)節(jié)隱私保護(hù)解決方案
4.1 管理手段方案
管理手段作為任何組織和工作的基礎(chǔ),都應(yīng)優(yōu)先確定,針對(duì)各組織的規(guī)模、數(shù)據(jù)情況、人員能力等維度,應(yīng)制定符合自己組織的大數(shù)據(jù)分析工作流程和制度。對(duì)全員開(kāi)展安全性培訓(xùn),提升對(duì)國(guó)家、行業(yè)、組織的規(guī)章制度認(rèn)識(shí),提升個(gè)人的隱私保護(hù)意識(shí),可在源頭減少發(fā)生隱私信息泄露風(fēng)險(xiǎn)。內(nèi)部應(yīng)定期開(kāi)展審計(jì)和強(qiáng)制休假、輪崗等措施,避免同一員工長(zhǎng)期在同一崗位所帶來(lái)的安全隱患。
4.2 技術(shù)手段方案
4.2.1 數(shù)據(jù)采集
在進(jìn)行數(shù)據(jù)采集時(shí),首先要按照需要進(jìn)行采集,而非過(guò)多采集非必要數(shù)據(jù),從而增加隱私泄露風(fēng)險(xiǎn)。在數(shù)據(jù)傳輸中,可使用安全的數(shù)據(jù)傳輸通道,如HTTPS或者物理傳輸。另外,對(duì)傳輸中的數(shù)據(jù)應(yīng)采用加密處理,如傳統(tǒng)的加密技術(shù)或同態(tài)加密,保障數(shù)據(jù)傳輸安全。
4.2.2 數(shù)據(jù)存儲(chǔ)
在進(jìn)行數(shù)據(jù)存儲(chǔ)時(shí),首先可以使用傳統(tǒng)加密算法,將隱私數(shù)據(jù)進(jìn)行密文存儲(chǔ),在選擇加密算法時(shí),也要考慮各算法的安全性。在成本允許的情況下,可使用區(qū)塊鏈技術(shù),將數(shù)據(jù)進(jìn)行“鏈上”“鏈下”存儲(chǔ)。對(duì)于數(shù)據(jù)庫(kù)的權(quán)限,應(yīng)嚴(yán)格進(jìn)行讀、寫(xiě)、導(dǎo)入導(dǎo)出等,進(jìn)行不同功能和角色的劃分,并記錄詳細(xì)的日志信息,用于審計(jì)及日常的安全監(jiān)控管理。在對(duì)安全性要求極高的環(huán)境中,可添加可信執(zhí)行環(huán)境,采用硬件+軟件方式,共同保障數(shù)據(jù)安全存儲(chǔ)。
4.2.3 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理環(huán)節(jié)括加工和使用兩方面。在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),對(duì)于因質(zhì)量問(wèn)題而被丟棄的數(shù)據(jù),應(yīng)進(jìn)行安全性處理,包括刪除和存檔;在進(jìn)行預(yù)處理時(shí),應(yīng)只使用涉及數(shù)據(jù)分析的屬性數(shù)據(jù),對(duì)于不參與數(shù)據(jù)分析過(guò)程的數(shù)據(jù),同樣需要安全性存儲(chǔ)或處理。對(duì)于隱私數(shù)據(jù),可使用數(shù)據(jù)脫敏、匿名化對(duì)末端屬性數(shù)據(jù)進(jìn)行隱私特性模糊處理。
4.2.4 數(shù)據(jù)分析及挖掘建模
數(shù)據(jù)分析過(guò)程,更多關(guān)注其統(tǒng)計(jì)特性,因此,使用差分隱私技術(shù)可有效解決因先驗(yàn)知識(shí)而導(dǎo)致的攻擊。若需進(jìn)行分析的數(shù)據(jù)來(lái)源于多方,且數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)環(huán)境均相對(duì)獨(dú)立,則可使用聯(lián)邦學(xué)習(xí),由負(fù)責(zé)單位搭建云端加密域,保障隱私數(shù)據(jù)安全;若使用同態(tài)加密手段,則需考慮參與分析的數(shù)據(jù)量大小。總之,要綜合考慮效率和安全性需求,選擇合適的方案。
4.2.5 數(shù)據(jù)可視化及應(yīng)用
當(dāng)數(shù)據(jù)或分析結(jié)果需要被可視化和應(yīng)用甚至共享時(shí),需充分評(píng)估其數(shù)據(jù)的可公開(kāi)性及數(shù)據(jù)權(quán)限。對(duì)敏感和隱私數(shù)據(jù),應(yīng)參考國(guó)家、行業(yè)、組織內(nèi)部的數(shù)據(jù)公開(kāi)范圍和標(biāo)準(zhǔn);對(duì)于共享數(shù)據(jù),可以元數(shù)據(jù)為單位進(jìn)行數(shù)據(jù)共享權(quán)限劃分,最小粒度保障隱私數(shù)據(jù)安全。
4.2.6 數(shù)據(jù)歸檔或銷毀
數(shù)據(jù)的重要特點(diǎn)之一包括其動(dòng)態(tài)性,因此,在歸檔或銷毀時(shí),應(yīng)對(duì)其時(shí)間和空間維度的動(dòng)態(tài)性進(jìn)行合理劃分。對(duì)于涉及敏感或保密的數(shù)據(jù),則需按照國(guó)家法律法規(guī),對(duì)其進(jìn)行保密管理。在存儲(chǔ)介質(zhì)上,也需保障其安全可靠,如自然災(zāi)害、備份、防盜竊等。
5" 結(jié)束語(yǔ)
隨著信息手段和業(yè)務(wù)場(chǎng)景的不斷變化,數(shù)據(jù)的形式也將更加豐富,單一的隱私保護(hù)技術(shù)將無(wú)法滿足需求。未來(lái)對(duì)隱私保護(hù)的技術(shù)和手段,也將趨于多元化、綜合化,更是管理手段和技術(shù)手段的高度融合。■
參考文獻(xiàn)
[1] 楊昌堯,梁偉杰,顏源.基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)安全分析及研究[J].新型工業(yè)化,2021,11(9):142-144.
[2] 吳燕輝.淺談大數(shù)據(jù)安全保護(hù)技術(shù)[J].?dāng)?shù)字技術(shù)與應(yīng)用,2022,40(7):237-239.
[3] 馮莉.大數(shù)據(jù)環(huán)境下隱私數(shù)據(jù)加密技術(shù)分析[J].廈門(mén)城市職業(yè)學(xué)院學(xué)報(bào),2022,24(4):54-60.
[4] 趙景欣,岳星輝,馮崇朋,等.基于通用數(shù)據(jù)保護(hù)條例的數(shù)據(jù)隱私安全綜述[J].計(jì)算機(jī)研究與發(fā)展,2022,59(10):2130-2163.
[5] 丁紅發(fā),孟秋晴,王祥,等.面向數(shù)據(jù)生命周期的政府?dāng)?shù)據(jù)開(kāi)放的數(shù)據(jù)安全與隱私保護(hù)對(duì)策分析[J].情報(bào)雜志,2019,38(7):151-159.
[6] 張鋒軍,楊永剛,李慶華,等.大數(shù)據(jù)安全研究綜述[J].通信技術(shù),2020,53(5):1063-1076.
[7] 曹珍富,董曉蕾,周俊,等.大數(shù)據(jù)安全與隱私保護(hù)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2016,53(10):2137-2151.
[8] 湯凌韜,陳左寧,張魯飛,等.聯(lián)邦學(xué)習(xí)中的隱私問(wèn)題研究進(jìn)展[J].軟件學(xué)報(bào),2023,34(1):197-229.
[9] 梁秀波,吳俊涵,趙昱,等.區(qū)塊鏈數(shù)據(jù)安全管理和隱私保護(hù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2022,56(1):1-15.
[10] 周鑫,張靜,謝津,等.區(qū)塊鏈賦能突發(fā)公共衛(wèi)生事件開(kāi)放數(shù)據(jù)隱私保護(hù)研究[J].現(xiàn)代情報(bào),2023,43(1):141-150.
[11] 殷紅建,朱巖,王靜,等.基于零知識(shí)證明的智能合約投票系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].工程科學(xué)學(xué)報(bào),2023,45(4):632-642.