陳蘭杰,聞 航(河北大學管理學院)
開放政府數據擁有政治、經濟和社會等多個方面的巨大價值,已引起全球眾多國家的重視。然而,開放政府數據資源包含著數據所有者的個人隱私,如果不加以處理就直接上傳會對數據所有者的權益造成侵害,使其對開放政府數據產生抵觸心理,不利于開放政府數據工作的開展。同時,數據挖掘技術的不斷發展使得有數據分析能力的數據使用者能夠對多種渠道發布的政府數據進行融合挖掘處理,使匿名化的個人隱私重現,在經濟上通過知識鴻溝價格歧視將消費者剩余榨干到臨界值[1],而在政治上構建個人畫像不僅會對數據所有者的個人隱私造成侵犯,而且會對社會穩定甚至是國家安全造成威脅。區塊鏈是近年來新興的技術,具有去中心自組織、分布式記錄、不可篡改等特點,在開放政府數據過程中引入區塊鏈技術,可以在發揮開放政府數據價值的同時,充分保護開放政府數據中數據所有者的個人隱私不受侵犯。
目前,國內外有關開放政府數據中個人隱私保護的研究略有不同。國內關于開放政府數據中個人隱私保護的研究主要包括:開放政府數據中個人隱私保護的利益相關者及其相關概念研究[2-6]、有關法規及政策研究[7-10]、開放政府數據中個人隱私保護機制和保護策略的研究[11-14]。國外有關開放政府數據中個人隱私保護的研究主要有:基于實踐經驗的研究[15-16]、與法律法規以及政策相關的研究[17-19]、有關組織機構和職位設置的研究[20-21]、隱私影響評估的研究[22-23]等。通過文獻梳理發現,當前有關開放政府數據中個人隱私保護的研究主要集中在基本內涵研究、法律法規及政策研究、對策建議研究、對國外先進經驗的借鑒等,大多停留在基本理論研究的層面上,僅有少數文章從技術層面進行研究,但也基本上停留在對技術的簡單介紹層面上,對于如何運用這些技術在現實工作中解決實際問題沒有回答。造成以上現象的原因主要有兩個方面:開放政府數據中個人隱私保護近幾年才受到人們的關注,剛剛成為研究的熱點;運用以前的技術手段無法解決開放政府數據中個人隱私保護問題。
區塊鏈技術的出現從技術角度為開放政府數據個人隱私保護提供了新的解決思路。本研究旨在構建區塊鏈技術在開放政府數據個人隱私保護模型,并探討其運行機理,以期拋磚引玉,推動區塊鏈技術在開放政府數據中的應用。
區塊鏈技術是指采取密碼學的方法進行存儲和驗證的鏈式結構,是一種不可篡改和偽造的分布式數據庫,利用節點共識算法進行生成和更新,是一種去中心化的基礎架構[24]。區塊鏈技術也被稱為分布式賬本技術,是一種互聯網數據庫技術[25]。由上述定義可以看出,區塊鏈本質上是一種去中心化、匿名化、分布式、不可任意修改的存儲技術,其對數據利用的追蹤具有天然優勢。
區塊鏈的基礎架構模型是一種棧分層模型,目前公認的模型共有6 層(見圖1)。數據層包含區塊鏈的底層技術,用來描述區塊鏈的物理形式,通過各種技術保障數據存儲的安全;網絡層實現區塊鏈中各個節點之間的通訊,確保各個節點之間平等的關系;共識層包括不同使用場景下的各種算法,達到各個節點數據一致的目的;激勵層是對區塊鏈中礦工的一種獎勵機制,吸引更多的用戶使用;合約層主要包括智能合約和腳本代碼,從而實現機器自動化執行,減少人為干預;應用層是區塊鏈的實際應用場景,與用戶直接產生交互[26]。

圖1 區塊鏈基礎架構模型
從根本上來說,區塊鏈是一種去中心化的數據庫技術,具有去中心化、自動化、可追溯、非對稱加密的特點。去中心化是指在區塊鏈中的全部節點都儲存著相同的、全部的數據信息,實現去中心化的目的,既保證了采用區塊鏈技術進行數據存儲的應用實現開放透明、安全可信的功能[27],又避免了傳統數據存儲中心數據庫因遭受攻擊而對數據所有者個人隱私造成侵犯。自動化是指在區塊鏈系統中鍵入計算機程序代碼,當符合代碼程序后自動進行執行,不符合代碼程序則進行拒絕寫入的操作。該段計算機程序代碼又可以稱為智能合約,利用它可以提升開放政府數據對涉及數據所有者個人隱私內容的處理速度和準確度,減少間接使用所導致的個人隱私泄露問題[28]。可追溯是指利用時間戳和梅克爾樹技術追蹤、記錄信息資源的變化和傳輸活動,確保數據所有者的信息真實性和完整性[29],減少因為數據污染造成的開放政府數據中個人隱私侵犯事件的發生。非對稱加密是一種密鑰的保密方法,其相比對稱加密更加安全。加密時使用系統中所有使用者都能見到的公鑰,系統中的每一位用戶都可以使用這個公鑰來對一段要發送的信息進行加密操作,而信息接受者需要用對應的密鑰進行解密操作。密鑰只有信息擁有者知道,被加密過的信息只有擁有對應密鑰的人才能夠解密[30]。利用非對稱加密技術可以降低開放政府數據在上傳下載過程中被竊取、污染、篡改等的可能性,從而對數據所有者的個人隱私進行保護。
在開放政府數據的采集和創建過程中,不可避免地會涉及到數據所有者的個人隱私,這些原始數據一旦泄露將會對個人隱私、商業秘密乃至國家安全造成不可估量的威脅。因此,應安排具有相關資質的政府工作人員負責原始數據的采集和創建工作,這對于國家安全和社會穩定具有重要的戰略意義。但是在實際的生活和工作中,由于開放政府數據的范圍廣、數量大,經常出現政府機構工作人員越權采集涉及個人隱私數據資源、企業單位非法創建涉及個人隱私的數據資源的情況。加之我國目前已有的法律法規和相關政策并沒有對個人隱私的內涵和范圍進行明確的界定,這就導致在采集和創建政府開放數據時容易出現對個人隱私信息的不當操作,從而給廣大人民群眾帶來許多不必要的困擾。
開放政府數據的資源在發布之前要進行加工和處理,對數據進行規范化的處理不僅有利于提高數據的可獲取和可利用性,更重要的是能夠提高對數據所有者個人隱私的保護。但是,目前我國對于數據處理的方式和程度缺乏統一的標準,盡管國家有關部門發布了不少標準,但普遍宏觀籠統、缺乏可操作性,而且這些標準在內容上也存在著不統一的問題。以現在最常用的數據脫敏技術為例,因其涉及的開放政府數據信息資源眾多,且各個政府部門缺乏有效的交流溝通,導致各個政府部門的處理方式不盡相同,不利于開放政府數據工作的開展。因此,數據脫敏等技術需要一個統一的標準來規范開發政府數據加工與處理階段的工作,但是我國目前尚未出臺相關標準。
我國各級政府部門積極響應《促進大數據發展行動綱要》的號召,采取適合當地的措施助力開放政府數據工作的開展,且大多取得了不俗的成績。但是我國幅員遼闊,各個政府行政單位分屬不同的領導機構,加工處理好的數據資源一般都存儲在各自的服務器上。又因行政級別的不同,縣鄉級的政府單位硬件設備與省市級政府單位有著很大的區別,且往往縣鄉級單位擔負著原始數據存儲的任務,容易受到黑客和不法分子的攻擊,導致包含民眾個人隱私的元數據資源被竊取。省市級政府單位擁有海量的數據存儲,但傳統的數據庫存儲技術處理數據備份會產生大量的數據冗余。為了更加便捷地進行開放政府數據工作,不同單位政府部門之間、相同政府部門的政府數據管理平臺和開放政府數據平臺之間的數據傳輸已基本實現了網絡化。但是在傳輸的過程中極少采取密碼技術來確保數據的安全,與開放數據晴雨表排名前列的國家相比,我國在數據所有者個人隱私保護方面仍然有著較大差距。
政府在政府數據開放平臺共享開放數據資源,有需求者可以通過政府數據開放平臺自行下載,但是目前政府開放數據平臺與數據需求者之間的共享數據通道采取的不是安全的協議,容易造成數據資源在獲取的過程中被第三方篡改、污染,導致數據需求者得不到真實、完整的數據資源,最終使開放政府數據失去應有的價值,對民眾造成不良影響。開放政府數據資源通常采用數據脫敏技術進行處理,從而避免個人隱私遭到泄露。但是隨著數據挖掘技術的不斷發展,許多經過數據挖掘處理的開放政府數據資源依舊可以被識別出來,導致許多不法企業和個人從公開或非公開的渠道收集民眾的個人信息。
開放政府數據可以通過對數據資源的挖掘產生經濟價值,但同時如果處理不當則會產生侵權事件。然而,民眾對于數據受到侵犯后如何進行維權卻知之甚少。隨著互聯網的普及,越來越多的民眾選擇在網絡進行維權發聲,部分網絡民眾容易受到惡意企業或個人的利用,盲目跟風,對政府部門工作人員進行人身攻擊,造成惡劣的影響。民眾既是開放政府數據過程中數據的所有者,也是數據的使用者,盡管數據的開發利用需要較強的數據挖掘和數據處理能力,但是我們不能據此就將民眾從數據使用者中排除出去。民眾參與到數據的使用中來,開放政府數據才會在更大的范圍內產生影響,才能營造良性的開放政府數據生態環境。作為數據的所有者,民眾在發現開放政府數據中存在個人隱私遭到濫用的情況時,政府應當有專門的渠道用于民眾反饋,并進一步要求政府部門進行相應處理。
依據信息資源生命周期理論,可將開放政府數據分為采集創建、加工處理、存儲共享和開發利用四個階段。在此基礎上,筆者通過文獻梳理以及總結實際工作中遇到的現實問題,增加了侵權反饋階段。結合區塊鏈基礎架構模型和區塊鏈的相關特性,筆者構建了開放政府數據個人隱私保護模型,并在該模型中引入在開放政府數據過程中相關利益者(見圖2)。

圖2 基于區塊鏈的開放政府數據個人隱私保護模型
(1)采集創建階段。開放政府數據的采集和創建階段對應區塊鏈基礎架構的數據層,是開放政府數據的基礎階段。區塊鏈技術網絡層的時間戳和梅克爾樹技術可以為開放政府數據資源提供簡潔的隸屬證明,使得數據資源具有可追溯性,從而減少數據在采集創建階段泄露的風險。同時,政府工作人員在進行數據采集創建時采用時間戳技術可以為完成采集的數據資源提供時間證明。一旦發生數據泄露造成個人隱私侵權的事件發生,可以利用區塊鏈的可追溯性調查是在何時何地何人導致了數據的泄露,還可以對電子數據資源的完整性和真實性進行驗證。
(2)加工處理階段。開放政府數據的加工和處理階段對應區塊鏈基礎框架的合約層。開放政府數據的數據資源數量龐大,處理起來十分困難。利用區塊鏈的智能合約不但可以減少政府工作人員的工作量,同時可以提高識別的準確度和效率。智能合約改變了傳統的對原始數據進行加工處理的標準和方法,打破了傳統政府部門各自為政的弊端,智能合約代碼根據開放政府數據中個人隱私保護的法律、法規及相關政策進行編制。使用者在區塊鏈指定的合約中鍵入指定的代碼后,系統將根據代碼推斷是否執行智能合約對數據進行處理;進行數據加工處理時,按照智能合約的統一標準對數據中涉及的隱私信息進行脫敏處理,確保涉及用戶隱私的數據不會上傳到網絡中;利用智能合約還可進行全網監控,當發現涉及個人隱私的數據出現在網絡中時,可以進行全網報警,并永久記錄涉事部門的事發原因和處理措施。
(3)存儲共享階段。開放政府數據的存儲和共享階段對應區塊鏈基礎架構的網絡層。傳統中心化的數據存儲和共享的管理模式普遍存在著成本昂貴、備份繁瑣、數據易受攻擊等弊病,開放政府數據過程中數據的存儲和共享需要價格低廉、處理高效、安全程度高的數據庫存儲模式。區塊鏈采取的是一種分布式存儲的模式,提高了數據庫的容錯率和安全度,即使某些區塊鏈的數據受到黑客和不法分子的攻擊遭到破壞,依舊可以使用其他節點存儲的完整的數據副本。采取分布式存儲技術后,單個數據的修改在沒有被全網認可的情況下沒有任何作用,可以避免篡改、污染、虛假數據對用戶個人隱私造成傷害。區塊鏈網絡是一種點對點網絡,節點之間采取中繼轉發模式進行通信,很難實現網絡監聽,避免數據在共享傳輸的過程中被第三方截取。
(4)開發利用階段。開放政府數據的開發和利用階段對應區塊鏈基礎框架的應用層,是實現開放政府數據資源傳遞到網絡的最終形式,也是開放政府數據的根本價值所在。政府部門利用區塊鏈非對稱加密技術中的公開密鑰和私有密鑰管理可以有效地進行開放政府數據資源的權限管理工作,對數據使用者進行監管和審計,一旦發現數據使用者在利用數據挖掘、數據融合的過程中對數據所有者的個人隱私造成損害,政府有關部門可以及時采取措施,對數據使用者的私有秘鑰權限進行限定處理,并在全網進行廣播。對于屢教不改者的數據使用者,有關部門可以徹底收回其私有秘鑰使用權限,并將其拉入黑名單或者從區塊鏈網絡中進行刪除。
(5) 侵權反饋階段。開放政府數據的侵權和反饋階段對應區塊鏈基礎架構的激勵層,對實現開放政府數據工作有著非常重要的意義。在區塊鏈中,每個用戶都可以通過自己的主機節點將生成的數據進行全網廣播,經過全網51%的用戶進行核實認證后寫入到區塊鏈上。在開放政府數據過程中,數據所有者可以利用全網廣播的形式將在實際工作生活中遇到的侵犯個人隱私權的事件上傳到政府相關部門,這些信息經過審核確保真實無誤后會被記錄到區塊鏈中,數據被全網監控,從而不會被相關利益者篡改。同時,數據所有者的反饋信息在全網廣播可以避免不法之徒歪曲抹黑原反饋信息,煽動民眾對政府工作人員進行人身攻擊等事情發生,加強政府、數據所有者、數據使用者之間的互動反饋,從而構建良好的開放政府數據生態環境。
在《促進大數據發展行動綱要》 的推動下,北京、上海、貴州、廣東等地在開放政府數據工作中取得了不錯的成效。但在開放政府數據開發利用的過程中,仍有許多企業在利益的驅使下侵犯數據所有者的個人隱私。本研究結合區塊鏈基礎架構模型和信息資源生命周期理論,構建基于區塊鏈的開放政府數據個人隱私保護模型,并從開放政府數據全流程角度對其實現機理進行了闡述。運用區塊鏈技術可以解決開放政府數據個人隱私保護領域的問題,但是作為新技術,區塊鏈在擴展性、穩定性、管理模式等方面還不完善,存在著諸如數據存儲量會隨著時間越來越大,更新速度慢、資源損耗大等問題,如何實現開放政府數據中區塊鏈技術優化是今后研究的重要方向。