王 忠,殷 建 立
大數據正在開啟一次重大的時代變革,正在改變人們的生活、工作與思維。[1]此變革伊始,個人數據便成為一項重要的資源,為企業產品設計、營銷等活動提供戰略指導,為政府政策、制度制定提供價值參考,為科研活動提供證據支撐。正是因為個人數據蘊藏的巨大價值日益凸顯,致使個人數據收集、處理、交易活動空前活躍,各種創新層出不窮,然而這些活動卻將個人數據隱私置于隨時泄露的危險境地。近年來,個人數據隱私泄露事件時常爆發,在對個人造成不同類型、程度損害的同時,也動搖著網絡乃至整個社會的信用體系。為充分發揮大數據的創新功能,需要前瞻性地研究個人數據隱私保護問題,但目前盡管有關網絡個人數據隱私保護的研究較多,卻主要基于法律視角,[2]缺乏對大數據環境下的前瞻性研究,且關于溯源機制應用與理論的研究,主要集中于食品安全、[3]水污染、[4]重金屬污染[5]等領域。本文從個人數據溯源性及其應用過程出發,提出在個人數據隱私保護領域引入溯源機制,并對其進行具體的機制設計。
數據被定義為能夠通過設備(如計算機)自動處理、記錄的信息,既可以是數字、文字、圖像,也可以是計算機代碼。①對于個人數據,各國法律層面的定義存在較大分歧,但在內涵上被普遍認為能夠辨識特定的行為個體的數據。[6-7]受篇幅所限,本文對此不再細究,主要關注大數據時代具有應用價值的在各類私人活動中產生的電子化數據,包括結構化與非結構化數據,不包括脫離信息物理設施的數據。隱私是一個發展的概念,不同的國家、民族,不同的歷史發展階段,甚至不同的個體,對其都有不同的認識,[8]并非所有的個人數據都是隱私。在大數據背景下,可被關聯起來用以鎖定某一特定個人,或將之確定在一個極小人群范圍之內的與之相關的文字、圖片、視頻等數據,都被視為隱私。
大數據時代,個人數據具有產品與數據的雙重屬性。產品屬性是指個人數據能被企業、政府等主體使用并滿足其特定的需求,既包括未被加工的原始個人數據,也包括被挖掘加工后形成的數據產品;數據屬性是個人數據的本來屬性,指個人數據作為價值信息的載體,以數據的形式被收集、加工和銷售。因此,個人數據的可追溯性具有產品可追溯性及數據可追溯性兩層含義。
產品層面的可追溯性表現為對某一產品的運動或路徑的追溯能力。1994年,國際標準化組織(ISO)將可追溯性(Traceability)定義為:“通過被記錄的標志追溯一個實體的過去、用途與位置等信息的能力”。[9]通過記錄個人數據在市場交易活動中的每一次運動及其運動路徑信息,追蹤個人數據所處的狀態及用途,并在個人數據隱私泄露事件發生后,溯源個人數據運動路徑,完全具備找出隱私泄露源頭的能力。
數據層面的可追溯性有數據起源、數據世系、數據溯源等中文表示,它們意思基本相同,其英文均為“Data Provenance”,本文統一稱之為數據溯源。數據由于具有易復制、易擴散等特性,其溯源存在一定的難度,但目前已有不少根據追蹤路徑重現數據歷史狀態與演變過程,實現數據歷史檔案追溯的技術。[10-11]
綜上所述,大數據時代個人數據應用發生隱私泄露時具有可追溯性,可以根據個人數據運動產生的數據流信息,在產生個人數據隱私泄露溯源等需要時,重現個人數據的歷史演變路徑。
個人數據隱私泄露事件頻發,其主要原因如下:一是數據控制方濫用個人數據,或將隱私信息非法出售以謀利;二是隱私保護投入少,信息安全防護等級低,以致黑客入侵、盜用個人數據;三是企業內部管制松怠,導致員工易于盜取數據。在行為不易被發現、處罰力度小的情況下,或出于非法交易目的,或因為保護措施缺失,數據控制方將個人數據隱私置于極高的泄露風險之下。
針對隱私泄露風險,溯源機制主要作用如下:一是規范行業發展。溯源機制可快速找到隱私泄露源,并對泄露責任方進行嚴厲懲罰,從制度上迫使各數據控制方提高對個人數據隱私保護的責任意識,有利于從源頭上防止隱私泄露事件的發生。二是樹立市場信用。溯源機制使個人能夠了解其數據的來龍去脈,從而贏得個人對個人數據產業部門的信任,避免大數據可能誘發的信任危機,維護社會信用體系。三是推動技術創新。溯源機制迫使個人數據控制方采取更為妥善的隱私保護措施,對現有技術手段形成倒逼,促進技術革新,有利于充分挖掘個人數據蘊藏的巨大價值。
個人數據利用的流程如圖1所示。由圖1可知,個人數據利用主要包括以下幾個環節:
(1)收集。收集方可通過網絡、移動智能終端、各種監控設備等多種途徑收集個人數據。大數據由于可以處理多元非結構化數據,其能夠處理的個人數據類型遠比網絡個人數據的外延廣泛。
(2)處理。收集的數據需進行專業處理方可挖掘其潛在價值。這種處理可以分為兩種情況:收集者自己進行數據處理,或者將之外包給專業的數據處理機構。
(3)交易。被收集和處理過的數據,如果不作為自用,需要通過交易才能實現其價值。目前,美國、日本已有個人數據交易公司,如美國的Factual公司推出了數據超市,日本的富士通公司建立了數據交易市場“Data plaza”。目前在Data plaza市場上買賣的數據包括購物網站上的購物記錄、出租車上安裝的傳感器獲得的交通堵塞記錄、智能手機的位置信息、社交網站(SNS)的帖子等,這些個人數據均經過了匿名處理。我國由于法律尚未明確,特別是刑法有“出售、非法提供公民個人信息罪”,個人數據目前主要以黑市交易的形式存在,并且日益猖獗。

圖1 大數據環境下個人數據利用流程圖
(4)應用。個人數據應用領域廣泛,包括生活服務、商業應用、科學研究、公共服務等。個人數據應用環節有兩種情況,一種是數據處理方直接應用,另一種是購買數據處理方產品后應用。
利益相關者主要指“任何可以影響組織目標實現或受該目標影響的群體或個人”。[12]個人數據隱私泄露溯源的利益相關者如下:
(1)個人。指生成個人數據的自然人,是個人數據產生的源頭,在法律層面上是個人數據的主體與所有者。但大數據時代背景下,由于個人數據蘊含的商業價值突然爆發,個人數據生成后其使用權大多掌握在個人數據利用者手中,個人對其隱私缺乏直接有效的控制與保護,時刻面臨隱私泄露的風險。
(2)個人數據收集者。指為特定目的收集個人數據的組織或個體,包括數據收集企業、政府、非政府組織及個體等。數據收集企業主要依托自身的經營業務,通過被動、主動、自動三種方式收集個人數據,[13]如電信運營商、銀行、醫院、酒店等;政府作為重要的個人數據收集者,除可通過上述三種方式收集個人數據外,還可通過登記、許可、調查、聽取意見、座談、檢查等多種方式收集個人數據信息;[14]非政府組織及個體收集個人數據一般不以營利為目的,主要是開展有意義的工作或研究,如為研究而向個人發放調查問卷等。
(3)個人數據處理者。指通過對個人數據進行集成、挖掘與分析而形成的數據庫產品、信息系統或服務,既包括直接整理個人數據而形成的初級個人數據產品,也包括經過二次挖掘與開發生成的高級個人數據產品。
(4)個人數據應用者。指應用個人數據產品以實現特定利用目的的企業或機構。企業購買個人數據產品可極大化商業利益,如通過個人數據產品實現精準營銷,既可降低營銷宣傳費用,又可增加產品銷售量,而政府或非政府機構、組織等購買個人數據產品,則可更好地提供公共產品和服務。
(5)監督者。指對個人數據隱私保護進行監督的個人或組織,主要包括政府部門、第三方組織、媒體、個人等。政府是個人數據利用最為有效的監督和管理部門,是溯源機制的建立與執行者,在個人數據隱私泄露溯源過程中發揮著至關重要的作用,政府參與是個人數據隱私泄露后進行溯源與懲罰的有力保障。當然,其他監督者也具有十分重要的作用,能夠發現并消滅潛在的隱私泄露風險,也能在溯源過程中提供有效幫助。
根據圖1,個人數據應用的數據流可分為以下四種:
(1)收集—處理—應用。
(2)收集—處理—交易—應用。
(3)收集—交易—處理—應用。
(4)收集—交易—處理—交易—應用。
數據流不僅要考慮數據利用環節,還要分析其涉及到的利益相關者。一個利益主體既可能只參與其中的一個環節,也可能參與多個環節,即某主體有可能既是數據的收集者,又是數據的處理者,還是數據的交易者和應用者。
溯源路徑逆數據流而行。根據數據流的情況,溯源路徑剛好也有四種,在此不再贅述。在這些溯源路徑類型中,第一類涉及的利用環節與利益主體最少,發生隱私泄露事件易于溯源并進行管制,可確定為黑客入侵或內部人泄露;其他類型流經環節與涉及主體相對更多,溯源及管制難度更大,是溯源管理的重點與挑戰。一方面,數據流經環節越多,隱私泄露環節越難確定;另一方面,所涉及主體越多,隱私泄露主體越難確定。同樣,如果數據收集、數據處理存在外包的情況,也會增加溯源的難度。
在利用個人數據時,數據從個人流向最終應用者,如圖2從左至右的實線箭頭;而在進行隱私泄露溯源時,則從最終的數據應用者向個人數據的源頭進行搜尋,如圖2從右至左的虛線箭頭。溯源機制應以圖2中的個人數據流為基礎,建立溯源技術標準體系、個人數據產品信息登記制度、溯源監管制度和溯源獎懲制度,通過溯源信息流,保證溯源活動順利進行。

圖2 基于利益相關者視角的個人數據隱私泄露溯源機制作用機理
該體系是為了實現個人數據隱私泄露溯源在技術上的可行性。個人數據產品與其他數字化產品一樣,具有可復制、易擴散等特征,使其溯源難度較大,但并非不可能。很多知識產權保護技術完全可以應用于個人數據產品溯源標識體系。目前,有多種先進技術用于知識產權保護,如加密技術、認證技術、數字水印、電子簽名等,[15]可在這些技術基礎上開發一套溯源技術體系,并將之設為行業標準,加以推廣和普及。
該制度是為了對個人數據產品的每一次流轉進行跟蹤,讓溯源有跡可循。目前,對個人數據保護較為嚴格的歐盟具有專門的個人數據登記制度(Notification),登記內容包括數據處理控制人的姓名和地址、數據處理目的、數據主體種類及其描述、數據接收者等。②借鑒歐盟經驗,在個人數據產業鏈中,流轉環節應記錄、保存、傳遞、錄入相關信息,提交溯源網絡系統備案。對于數據采集企業,從個人數據產品收集環節開始就要強制記錄信息,并在銷售之前登記備案,沒有按照規定程序登記備案的產品,禁止銷售;對于數據加工企業,沒有登記備案的產品,應禁止購買,否則買賣雙方同時受罰;對于最終產品使用方,如果沒有產業鏈前端企業的登記信息,應禁止使用。在個人數據產品信息登記基礎上,規范個人數據產業鏈主要參與者提供信息的行為,確保個人數據產品信息登記的真實性、全面性、可靠性,一旦產品信息登記發現問題,首先要及時控制隱私泄露風險,然后再徹查原因,并追究責任。
溯源監管制度是溯源機制發揮實效的重要保障,包括個人數據利用過程監管與溯源過程監管。可借鑒歐盟經驗,設立專門的個人數據保護監管機構。只有個人數據的利益相關者時刻面臨監督檢測時,才不會作出投機行為,從而確保個人數據產品信息泄露溯源機制發揮長效作用。一是監督企業。對產業鏈各環節所提供信息的真實性和全面性進行復檢,如提供的信息不符合要求,補齊后方可流轉;如弄虛作假,沒收其產品并追究責任,嚴重者禁止流轉。二是救濟受害人。接受各類個人數據隱私泄露事件舉報及投訴,及時終止隱私泄露,落實侵權賠償等。
溯源信息獎懲制度旨在強化溯源機制的威懾與強制作用。政府作為重要的監管主體,可利用信譽威脅與獎勵等多種手段來激勵個人數據產品產業鏈參與者的溯源行為。針對填報虛假溯源信息造假等行為,在依法追究責任的同時,將之列入“黑名單”,并公開發布、曝光,使之喪失公眾信用。同時,借助輿論力量,對提供全面、真實信息的個人數據收集、加工企業等予以表彰,增強其產品信譽度。這樣,通過激勵與約束并舉來規范個人數據利用主體提供信息的行為。
大數據環境下,個人數據應用的隱私保護是一個復雜的社會問題,不僅涉及道德、法律、行業、技術等諸多領域,也涉及大量的個人、群體、企業和機構。[16]要通過建立合理的激勵機制吸引相關利益主體共同參與,平衡個人數據應用與隱私保護的兩難選擇,維護社會信用體系在大數據時代的正常運行。本文主要研究了隱私泄露的溯源機制,尚需對個人數據收集、處理、交易等進行全流程的機制設計,使之環環相扣、相得益彰。
*本文系國家自然科學基金資助項目“大數據商業模式、產業鏈治理及公共政策研究”(項目編號:71302020)、博士后科學基金資助項目“大數據環境下個人數據隱私規制研究”(項目編號:2013M540108)的部分研究成果。
注釋:
①根據英國《1984年數據保護法》(Data Protection Act of 1984)的定義。
②參見1995年歐盟的數據保護指令“Directive 95/46/ECof the European Parliament and of the Council of 24 Octo?ber 1995 on the protection of individuals with regard tothe pro?cessingof personal dataand on thefreemovement of such data”第18條至第21條。
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].杭州:浙江人民出版社:2013:1-3.
[2]凡菊,姜元春,張結魁.網絡隱私問題研究綜述[J].情報理論與實踐,2008(1):153-157.
[3]、[9]K.M.Karlsen,B.Dreyer.Literature Review:Does a Common Theoretical Framework to Implement Food Traceabili?ty Exist?[J].Food Control,2013,32:409-417.
[4]楊海東,等.突發性水污染事件溯源方法研究[J].水科學進展,2014(1):14-20.
[5]王飛,等.華北地區畜禽糞便有機肥中重金屬含量及溯源分析[J].農業工程學報,2013,19:202-208.
[6]Gordon Jenny,Wiseman Louise.Guidelines for the Use of Personal Data in System Testing[M].British Standards Institu?tion,2003:17-23.
[7]蔣驍,仲秋雁,季紹波.網絡隱私的概念、研究進展及趨勢[J].情報科學,2010(2):305-310.
[8]姚朝兵.個人信用信息隱私保護的制度構建——歐盟及美國立法對我國的啟示[J].情報理論與實踐,2013(3):20-24.
[10]C.Goble.Position Statement:Musings on Provenance,Workflow and(Semantic Web)Annotations for Bioinformatics[C].Proc of Workshop on Data Derivation and Provenance,2002:1-5.
[11]明華,張勇,符小輝.數據溯源技術綜述[J].小型微型計算機系統,2012(9):1917-1923.
[12]Freeman RE..The Politics of Stakeholder Theory:Some Future Directions[J].Business Ethics Quarterly,1994:409-421.
[13]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[14]汪全勝,王慶武.網絡空間個人數據的權利保護[J].情報理論與實踐,2004(1):33-36.
[15]劉洪濱,杜玲,姬紅利.面向網關版權保護的抗幾何攻擊視頻水印方法[J].計算機應用,2013(12):3531-3535.
[16]袁文秀,余恒鑫.關于網絡信息生態的若干思考[J].情報科學,2005,23(1):144-147.