閆宏強,王 偉,張 婕
(中國科學院 計算機網絡信息中心,北京 100190)
(中國科學院大學,北京 100049)
互聯網標識[1]是互聯網運行和發展的重要基礎,是在互聯網上,唯一識別目標對象的編碼、符號、名字,是識別和管理物品、信息、機器的關鍵基礎資源.互聯網標識本質上是用真實個人信息與基礎資源對應來達到標識目的,這其中涉及的一個重要問題是個人信息保護問題.近年來,有關個人隱私數據泄露事件頻發,引發社會和學術界廣泛關注.據報道,2017年11月,Google利用算法成功避開了蘋果手機的默認隱私設置,非法收集大概540萬名用戶的歷史瀏覽數據,嚴重侵犯了用戶隱私.2018年3月,全球用戶規模最大的社交應用Facebook被曝光有超過5000萬名用戶的個人信息資料遭到泄露,被第三方公司用于大數據分析,成為間接影響總統大選的隱形黑手,在歐美社會產生巨大震動.同樣,國內的隱私泄露問題也很嚴峻.2014年3月,攜程安全支付日歷導致用戶銀行卡信息泄露.2018年8月,華住集團旗下連鎖酒店5億條用戶信息遭到泄露,泄露的信息包括用戶的注冊信息、酒店入住信息和開房記錄,這或是國內近五年來規模最大最嚴重的一次個人信息泄露事件.
國內外的信息泄露事件敲響了互聯網個人信息安全警鐘.國際社會和各國政府對隱私保護問題十分重視,已經建立起較為完善的隱私保護制度.1980年,世界經濟與合作發展組織(Organization for Economic Cooperation and Developmen,OECD)發布了《隱私保護和個人數據跨境流動指南》(Guidelines on the Protection of Privacy and Transborder Flows of Personal Data)[2],提出了8條隱私保護基本原則,幾十年來已經成為被世界各國廣泛接受的隱私保護標準[3].歐盟1995年頒布《數據保護指令(95/46/EC)》[4],指導歐盟成員國隱私保護立法和執法工作.2016年,歐盟實施全面的隱私和數據保護改革,通過了直接適用于歐盟成員國的《通用數據保護條例》(General Data Protection Regulation,GDPR)[5],重申并強化數據處理基本原則,強化了數據主體(data subjuect)權利,建立起嚴苛的企業問責制度[6].美國頒布了《聯邦隱私法案》(Privacy Act of 1974)、《金融服務現代化法》(the Gramm-Leach-Bliley Act of 1999)、《聯邦兒童在線隱私保護法》(Children’s Online Privacy Protection Act of 1998)等系列法律,主要以聯邦貿易委員會為主開展了一系列隱私保護執法行動[7].2007年美國會計師事務所(American Institute of Certified Public Accountants,AICPA)和加拿大特許會計師協會(Chartered Accountants of Canada,CICA)發布了一個全球性隱私框架—公認隱私準則(the Generally Accepted Privacy Principles,GAPP),旨在幫助特許會計師和注冊會計師創建有效的隱私計劃,以管理和預防隱私風險[8].2016年6月,我國頒布《中華人民共和國網絡安全法》[9],加強了對個人信息的保護力度,完善了個人信息保護基本規則.截至2018年,世界上120多個國家和地區制定了綜合性的個人信息保護的相關法律[10].
法律對于個人信息保護提出了嚴格的要求,在實踐中實施個人信息保護,還需要系統性的個人數據隱私處理框架及合規體系,還需要對具體隱私算法進行細化.互聯網標識相關聯的個人信息也面臨著嚴峻的安全形勢,主要涉及標識注冊信息的隱私保護問題.國內外學術界圍繞隱私保護展開的研究工作主要是針對軌跡隱私保護和隱私計算算法的實現和改進,缺少針對互聯網標識這一應用場景的隱私政策及技術方案研究,本文致力于填補這個研究空白.
本文結合法律分析了個人信息和隱私保護要求和相關工作的迫切需要,以最典型的互聯網標識——域名為例,闡述互聯網標識業務中涉及的隱私保護場景,借鑒國內外隱私保護的最新研究理論,提煉出互聯網標識隱私保護技術的最佳方案建議.
本文其余部分的組織結構如下:第1節介紹了互聯網標識以及典型領域—域名領域,第2節分析闡述了域名業務領域中涉及隱私泄露風險點,第3節針對第2節的風險點、結合個人數據生命周期,提出了互聯網標識隱私保護技術框架,第4節對于數據的每個生命周期中的隱私保護需求,提出了技術解決方案.第5節,以隨機可逆匿名化算法進行試驗驗證.第6節總結與展望.
互聯網標識廣義上是指用于互聯網行為的所有標志性名稱,可以包括圖像、文字、數字、聲音等幾種常見的形式.狹義上的互聯網標識是指機器在網絡中的標志和尋址信息,例如,MAC地址、IP地址或者域名可以作為一臺機器的互聯網標識.
常見的互聯網標識有:域名、自治系統號碼、IPv4、IPv6互聯網地址、組播尋址、端口號碼、協議號碼、統一資源標識符(URL).
在互聯網中,域名是最常用、最典型的標識,是互聯網上的“門牌號碼”,是各種互聯網應用的入口.域名具有網絡定位和身份定位雙重作用[11],由一串點分隔的字符組成,用于在數據傳輸時標識計算機的電子方位,在網絡應用中起到地址和標識作用.域名采用分層結構的名稱空間,可以從域名映射到其他標識.
隨著互聯網高速發展,互聯網用戶在迅速增加,域名注冊服務市場也在飛速發展.據中國互聯網絡信息中心(CNNIC)第43次《中國互聯網絡發展狀況統計報告》,截至2018年底,我國域名總數為3792.8萬個,其中“.cn”域名總數為2124.3萬個.面對如此龐大的域名體系,域名相關個人信息的保護成為行業重要的工作.近年來,網絡安全形勢日益嚴峻,相關域名惡意解析和域名糾紛事件頻發.2010年1月12日,國內最大搜索引擎百度長時間無法正常訪問,經查,原因是黑客篡改了百度域名在域名注冊服務商的注冊信息,導致百度域名被指向錯誤的服務器.無獨有偶,2005年天涯社區也被人修改了域名注冊信息,將域名指向另一網站,一度劫持了天涯社區的訪問量.
類似事件都表明,域名注冊信息不僅是域名管理的聯系方式,也是域名持有者對該域名所有權(使用權)的法律依據.對域名注冊信息進行有效保護很重要,如果注冊信息不真實、不準確,一旦域名注冊信息被惡意篡改,域名持有者的隱私安全和域名財產安全將受到損害.而且,不法分子往往利用虛假身份信息注冊域名實施網絡釣魚、僵尸網絡控制、傳播違法信息等黑客犯罪行為,以逃避追查和打擊.國際上在域名服務推廣之初,并未嚴格要求域名注冊信息的實名制,隨著互聯網的普及和應用,不實的域名注冊信息比例偏高,已經成為困擾全球互聯網產業健康發展的重要問題.實施域名實名注冊制度是大勢所趨.
2003 年,互聯網名稱與數字分配機構(the Internet Corporation for Assigned Names and Numbers,ICANN)出臺了新版的《域名注冊信息提醒政策》,規定姓名、地址、聯系方式等完整的注冊信息中,域名持有者必須確保所有信息真實、準確,如果信息不真實、不準確,域名會被注銷.2004年制定實施的《中國互聯網域名管理辦法》[12]規定,域名實名制要求用戶注冊域名時,填寫真實、準確、完整的注冊信息,并且要求全面實施域名實名認證.以此保護域名注冊者的合法權益,防止域名被惡意盜取和濫用,維護域名市場環境,促進網絡可信建設.
針對《網絡安全法》和歐盟GDPR對個人數據(歐盟稱個人信息為個人數據)提出的更嚴格的隱私保護要求,本節以域名業務為例,分析互聯網標識數據在跨域跨境傳輸過程涉及的隱私披露風險點,如圖1.

圖1 域名注冊業務流程
注冊人(registrant)選擇域名后,需要向注冊商(registrar)或其代理商提交域名注冊請求,同時需要提交相關注冊信息(所需域名、注冊人姓名、電話、地址等聯系信息,技術聯系人信息和管理聯系人信息,以及注冊期限).注冊商將檢查該域名是否可用,并按照注冊人提供的信息建立一個WHOIS記錄(包含注冊人、管理聯系人和技術聯系人的信息、創建日期、更新日期、域名服務器和域名狀態),通過可擴展注冊協議(Extensible Provisioning Protocol,EPP)注冊服務,構建注冊庫.并且向注冊局(registry)提交數據,注冊局負責頂級域名的注冊管理,維護域名數據庫.
為了防止注冊局和注冊商經營失敗或遭受到惡意網絡攻擊而造成注冊數據丟失或該頂級域名無法正常運轉,ICANN要求新通用頂級域名(New generic Top-Level Domain,NewgTLD)的申請人選擇第三方數據托管服務機構(data escrow agent)向其提交注冊數據,進行數據托管.
ICANN在執行新通用頂級域名計劃時,推出全新商標保護措施,滿足商標持有人的權益保護需求,同時也避免商標持有人到各個注冊局反復注冊商標相關域名并提交、校驗同樣的商標信息.ICANN推出了全球商標信息交換庫(Trade Mark Clearing House,TMCH),作為已驗證的商標集中存儲的商標數據庫.在進行校驗的過程中,注冊局或注冊商需要向TMCH提供包括注冊人信息在內的域名注冊數據.
ICANN要求注冊管理機構每周向ICANN提供一次批量注冊數據WHOIS的訪問權限,用以隨機抽取注冊數據樣本,供ICANN以及其授權的第三方研究機構開展關于域名注冊相關調查研究.
針對第2節中討論的域名注冊業務流程,結合數據隱私保護的生命周期,具體分析在GDPR和《網絡安全法》隱私保護新要求下,業務流程中的相關隱私風險,同時,考慮數據在產生、存儲、流通、分析挖掘的整個生命周期中,如何保護用戶隱私不被泄露、如何保證數據的可用性.域名注冊數據隱私保護生命周期模型如圖2所示.
(1)數據發布
數據發布者即采集數據和發布數據的實體,包括域名注冊局、注冊商,負責采集相關域名注冊數據.ICANN實施WHOIS政策,域名WHOIS資料的收集、展示,以及ICANN方都可能產生隱私泄露.因此域名注冊局、域名注冊商、注冊人在提供WHOIS信息、使用WHOIS信息上要注重隱私保護.如何在數據發布時不泄露用戶隱私內容,同時還能保證數據的可用性,是這一階段的研究重點.
針對數據的匿名發布技術,包括K-匿名,L-多樣性,T-接近性匿名等模型,可以實現對數據發布時的隱私保護.
(2)數據存儲
數據存儲方面隱私風險主要指在存儲平臺中,數據被不可信的第三方偷窺或篡改的風險.在域名業務流程中,在注冊局、注冊商、ICANN等域名管理部門以及數據托管商和TMCH,內部存儲如何保證,用戶存儲在系統中的高隱私等級數據不被竊取或篡改,是數據存儲階段隱私保護的重點.密碼技術方法是解決該方法的關鍵.
(3)分析挖掘
數據挖掘者試圖從獲取的數據中挖掘盡可能多的有價值信息,但這可能會泄露用戶的隱私信息.經簡單匿名技術處理的信息,經過數據關聯分析、聚類、分類等挖掘后,仍可能分析出用戶的隱私信息.如在域名業務場景中,ICANN或其他域名服務機構,會委托第三方調研公司,開展域名相關調查研究.如何保證數據的可用性、足夠研究機構進行調查研究,又同時防范數據挖掘方法引起的隱私泄露,是分析發掘階段的主要隱私風險點.
抑制技術、假名化技術、泛化技術、隨機化技術等傳統技術可以解決這一階段的問題.
同時,基于統計基礎的嚴格和可證明的差分隱私模型,可以向第三方機構提供查詢數據庫,保證隱私數據挖掘和隱私查詢.
(4)數據使用
數據使用者是訪問和使用域名數據從數據中挖掘出信息的用戶,通常是企業和個人,如何確保數據及屬性在合適的時間和地點,給合適的用戶訪問和利用,是數據使用階段面臨的主要風險.角色控制、訪問控制等,是這一階段的主要解決方案.

圖2 域名注冊數據隱私保護生命周期模型
注冊局、注冊商對收集到的域名用戶注冊數據進行公開發布時,這些注冊數據通常包含注冊人的個人信息,注冊局、注冊商需要在發布之前對數據進行處理,防止不必要的用戶個人信息泄露.同時,考慮用戶數據被惡意第三方獲取的極端情況,希望攻擊者無法從數據中識別出注冊人確切個體數據信息,匿名技術是實現上述目的的方法之一.本節重點介紹傳統的匿名操作—泛化、典型的匿名隱私保護模型—K-匿名模型,以及K-匿名的擴展改進模型.
(1)泛化技術
泛化技術[13]是一種能夠保護記錄級數據的真實性,同時降低數據集中所選屬性粒度的匿名技術,基本思想是用粗粒度的值代替原始細粒度的屬性值,從而減少屬性的唯一值,增加了推測出數據主體的難度.泛化技術依據泛化層次樹進行泛化,主要包括域泛化和值泛化兩種方式,如圖3所示.

圖3 域泛化和值泛化
(2)K-匿名模型
傳統的匿名方法僅僅在數據表中泛化或者刪除有關數據主體身份屬性,但這會遭到鏈式攻擊[14],攻擊者可以通過其他包含數據個體標識符的數據集,重新建立用戶標識符與數據之間的對應關系,推理得出隱私數據,從而造成隱私泄露.為了解決鏈式攻擊問題,1998年Samarati P 和 Sweeney L提出了K-匿名模型[15],該模型要求發布的數據中,指定標識符屬性值相同的每一等價類至少包含K個記錄,使攻擊者不能識別出數據主體的具體信息,從而降低鏈式攻擊所導致的隱私泄露風險.一般K值越大,隱私保護強度越大,但信息損失也越大.
該模型可以保證攻擊者無法確切指定某個數據主體是否在公開的數據庫中;給定一個數據主體,攻擊者無法確定其是否含有某項敏感屬性;同時也無法將某條數據記錄對應到具體數據個體.
但是在實際應用中,由于攻擊者的背景不同,攻擊手段也多種多樣,K-匿名模型仍會遭到同質攻擊(homogeneity attack)和背景知識攻擊(background knowledge attack),不能解決所有隱私泄露問題.
(3)K-匿名改進模型
針對K-匿名模型的缺陷,為了更好地保護數據表中的敏感信息,Machanavajjhala和Gehrke等人提出了L-多樣性模型(L-diversity)[16],該模型要求每一個等價類在每一個敏感屬性上至少包含L個不同值,使得攻擊者最多以1/L的概率確認每個個體的敏感信息.T-接近性(T-closeness)[17]模型在L-多樣性模型的基礎上,考慮了敏感屬性的分布問題,要求所有等價類中敏感屬性值的分布盡可能接近原始數據集的數據分布.為了防止概率性推導,要求任何定價類中的敏感屬性的分布于整個數據集中相應屬性的分布之間的距離小于閾值T.
數據存儲隱私保護是指在數據層層面的個人信息安全.通信中可以使用SSL協議保證數據傳輸的安全,因此,數據層的數據保護主要是針對數據存儲和管理的保護,保證數據的機密性和完整性,加密技術是解決這一問題的關鍵.
同態加密[18]是指對密文進行處理得到的結果仍然是加密的結果,即對密文進行直接處理,與對明文進行處理后再對處理結果加密,得到的結果相同.從抽象代數的角度講,保持了同態性.文獻[19,20]利用同態加密技術分別提出了key-value隱私存儲方式以及多級索引技術,能夠保證數據擁有者和存儲平臺都不能在用戶的節點檢索過程中識別出節點.
保留格式加密[21]可以實現明文和密文的格式相同,有助于增強數據庫和數據倉庫的安全性,但是對于數據庫敏感數據的保留格式加密,需要保證密文滿足數據庫對于格式的約束.
安全多方計算[22]是另外一種數據加密技術,其核心操作在分布式環境下基于多方參與者提供的數據計算出相應的函數值,并確保除了參與者的輸入及輸出信息外,不會額外暴露參與者的任何信息.
隨著技術的進步,數據挖掘可以從大量域名注冊數據中挖掘出有價值的信息,但也伴隨著隱私泄露的風險,這一課題已經成為研究界的研究熱點.隱私保護數據挖掘,即在保護隱私的前提下進行數據挖掘.主要有兩個研究方向:
(1)對原始數據及進行必要的修改,使得數據接收者不能侵犯他人隱私.
(2)對數據分析查詢、挖掘算法進行研究,研究如何在挖掘過程中進行隱私保護.
針對第一個研究方向,方法眾多,主要有抑制技術、假名化技術、隨機化等典型代表技術.針對第二個研究方向,基于統計基礎的嚴格可證明的差分隱私模型[23],能夠實現隱私查詢,可以確保在數據集中刪除或插入一條記錄,對計算結果的影響非常小,即使攻擊者具有所有背景知識,仍然無法獲知某條個人記錄.
數據使用者是訪問和使用數據從數據中挖掘出信息的用戶,通常是企業和個人,如何確保數據及屬性在合適的時間和地點,被合適的用戶訪問和利用,是數據使用階段面臨的主要風險.角色控制、訪問控制等,是這一階段的主要解決方案.
在基于角色的訪問控制(Role-Based Access Control,RBAC)[24]中,不同角色的訪問控制權不同.通過為用戶分配角色,可實現在對數據的訪問權限控制.因此,在基于角色的訪問控制中,角色挖掘是前提.通常,角色根據職權、責任、工作能力而定.
RBAC模型中引入了角色(role)的概念,目的是為了隔離動作主體(user)和權限,當一個角色被指定給了一個用戶時,該用戶就擁有了該角色所包含的權限.RBAC基本模型(RBAC0)包含了RBAC標準最基本的內容,如圖4所示.

圖4 RBAC模型核心
基于屬性的訪問控制(Attribute-Based Access Control,ABAC)[25]通過將各類屬性,包括用戶屬性、資源屬性、環境屬性等組合起來用于用戶訪問權限的設定.RBAC模型以用戶為中心,而沒有將額外的資源信息,如用戶和資源之間的關系、資源隨時間的動態變化、用戶對資源的請求動作(如刪除、編輯等)以及環境的上下文信息進行綜合考慮.而ABAC模型通過對全方位屬性的考慮,可以實現更加細粒度的訪問控制.ABAC框架示意圖如圖5所示.

圖5 ABAC框架示意圖
本節以數據發布階段的隱私保護方案做為實驗驗證,針對“.cn”域名注冊數據中數值文本數據,提出具體的方案流程,如圖6所示,并對于可用性和隱私性進行對比分析.

圖6 數值文本隱私保護方案流程
首先對數據需要進行預處理,按需求對部分屬性進行泛化、刪除缺省數據、非法值.
然后計算屬性的概率分布,部分屬性統計表1所示,用于匿名化算法的實現,以及后續對比實驗.

表1 原始表屬性概率分布統計
采用匿名化算法對數據表進行匿名處理,可以采用K-匿名、L-多樣性算法以及其改進算法.
最后對于匿名化算法的隱私保護性能和可用性進行分析.本文結合“.cn”域名注冊數據,實現了一種隨機可逆匿名化算法,依據原始屬性值概率分布,隨機替換需要匿名化的對象值,具體算法如下:

算法.隨機可逆匿名算法1.輸入:原始數據集D,準標識符屬性集合Q,準標識符屬性被選概率images/BZ_29_251_700_368_734.png,n為準標識符屬性個數2.輸出:隨機匿名后的數據集D'.3.begin 4.k=|D|5.6.for i=1 to n do 7.beginimages/BZ_29_251_920_351_954.png

8.Disti=Qi的概率分布9.end 10.for j=1 to k do 11.begin 12.對于記錄j,以概率pu隨機從準標識符屬性集合中選取一個屬性Qu 13.根據概率分布Distu,隨機生成一個新的值14.用新值替換原屬性值記錄替換關聯,以備可逆還原13.end 14.end
數據原始表和匿名后的數據表如表2、表3所示.

表2 預處理后的數據原始表

表3 匿名化后的數據表
采用隱私保護評價的重要指標——數據查詢準確率作為評價指標,以相對誤差進行橫向對比.采用Aprioi方法進行關聯恢復,驗證匿名數據可用性.
查詢方式為模糊查詢:

其中,*p(a)代表a在準標識符敏感屬性分組中出現的次數,V(Qi)代表該準標識符屬性可能的取值.
相對誤差準確率計算方式為:

實驗結果圖7表明,采用隨機可逆匿名化算法的數據查詢準確率相對誤差遠低于其他算法,證明數據匿名性較好.圖8表明,大部分準敏感關聯規則得到了保留,而其他3種方法的關聯大部分被丟失,說明采用隨機可逆匿名化算法的匿名后的數據可用性較好.

圖7 數據查詢準確率

圖8 關聯恢復比例
歐盟GDPR和國內網安法對個人信息和隱私安全保護提出了更嚴格的要求.針對互聯網標識中涉及的隱私數據泄露的問題,本文以最典型的互聯網標識——域名為例進行深入討論.首先分析域名業務流程中涉及隱私泄露的風險點,針對隱私泄露風險點,結合個人數據生命周期,提出了互聯網標識隱私保護框架.本文以域名業務場景為例,但是問題的分析思路、隱私保護框架以及技術解決方案具有普適性,仍適用于其他互聯網標識的隱私保護分析.
隱私保護是目前信息安全領域的研究熱點之一,也取得了豐富的研究成果.近2年來,隨著各國加強立法,注重隱私保護,其技術研究也出現了新的深度.但是從實際應用角度來看,還有很多內容需要深入研究,本文從立法和技術以及行業流程的不同角度回答了互聯網標識隱私保護所面臨的一些挑戰的解決方案,希望能夠給后續的研究提供一些參考.